JP7124715B2

JP7124715B2 - 情報処理装置、および情報処理方法、並びにプログラム

Info

Publication number: JP7124715B2
Application number: JP2018563264A
Authority: JP
Inventors: 真一河野; 祐平滝
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-01-18
Filing date: 2018-01-04
Publication date: 2022-08-24
Anticipated expiration: 2038-01-04
Also published as: EP3572947A1; WO2018135304A1; CN110178125B; US11311803B2; EP3572947A4; CN110178125A; US20200122033A1; JPWO2018135304A1

Description

本開示は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、仮想現実空間（VR：Virtual Reality）におけるプレイヤ間のコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。

仮想現実空間（以下、VR：Virtual Realityと称する）における音源とプレイヤの位置情報に基づき、リアリティを保ちつつ（VR世界観を保ちつつ）コミュニケーション相手へ音声を届ける手法が提案されている（特許文献１参照）。

特開２０１６－１８７０６３号公報

しかしながら、上述した特許文献１に係る技術においては、位置情報に基づいており、同じ範囲にいる相手に一様に伝わってしまい、特定の相手にのみ伝える、および、全員に伝えるといったことを切り替えるような制御ができず、いずれか一方のみを一律に制御することしかできない。

このため、ユーザは、伝わる相手を把握できないまま発話することになり、自らの発話内容が誰に伝わってしまうのか不安を抱くことになる。

また、UI（User Interface）等を出すことで、特定の相手にのみ伝える、および、全員に伝えるといったことを切り替えるような制御は可能となるが、一般的な、UI操作だと、本来の目的であるゲーム等の操作に影響が出てしまい、VRの世界観を大幅に損なう恐れがある。

さらに、VRにおけるプレイヤ間のコミュニケーションにおいては、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御することができなかった。すなわち、VRにおけるプレイヤ間のコミュニケーションにおいては、送付先や送付元が分かりづらく、ダイレクトメッセージとパブリックメッセージを区別できないので、誰に伝わるかわからない状態で発話する必要があり、このような状況下でコミュニケーションすること自体が苦痛を伴うものとなってしまう恐れがあった。

本開示は、このような状況に鑑みてなされたものであり、特に、VRにおけるプレイヤとのコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御できるようにするものである。

本開示の一側面の情報処理装置は、VR（Virtual Reality）空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、前記プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部を含む情報処理装置である。

前記発話範囲は、前記プレイヤが発話した音声データに基づいた情報を認識可能な他のプレイヤが存在する範囲とすることができる。

前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記音声データに基づいて、前記発話範囲を決定させるようにすることができる。

前記発話範囲決定部には、前記音声データの高低に基づいて、前記発話範囲を決定させるようにすることができる。

前記発話範囲決定部には、前記音声データの話速に基づいて、前記発話範囲を決定させるようにすることができる。

前記コンテキスト情報のうち、前記行動情報、および前記姿勢情報を取得する行動情報姿勢情報取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記行動情報、および前記姿勢情報に基づいて、前記発話範囲を決定させるようにすることができる。

前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記視線情報に基づいて、前記発話範囲を決定させるようにすることができる。

前記コンテキスト情報のうち、前記周辺コンテキスト情報を取得する周辺コンテキスト情報取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記周辺コンテキスト情報に基づいて、前記発話範囲を決定させるようにすることができる。

前記周辺コンテキスト情報には、VR（Virtual Reality）コンテキスト情報を含ませるようにすることができる。

前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部と、前記VRコンテキスト情報に基づいて、前記VR空間を表示する表示部とをさらに含ませるようにすることができ、前記発話範囲決定部が、前記視線情報に基づいて、前記プレイヤの視線が前記VR空間内における所定のプレイヤの存在する位置に所定時間停滞するとき、前記表示部には、前記所定のプレイヤを表示する位置上に、前記視線が停滞する時間を表す視線停滞マークを表示させるようにすることができる。

前記発話範囲決定部には、前記視線情報に基づいて、前記プレイヤの視線が、前記表示部により表示される、前記VR空間内における他のプレイヤの存在する位置に所定時間より長時間停滞するとき、前記他のプレイヤを発話範囲として決定させ、前記表示部には、前記他のプレイヤを表示する位置上に、前記視線により発話範囲に決定したことを示すマークを表示させるようにすることができる。

前記発話範囲決定部が、前記VR空間における、前記他のプレイヤの前記視線情報に基づいて、前記プレイヤを前記他のプレイヤの視線により前記発話範囲内に決定したとき、前記表示部には、前記他のプレイヤを表示する位置上に被視線停滞マークを表示させるようにすることができる。

前記発話範囲決定部には、前記VR空間における、前記プレイヤの前記視線情報に基づいて、前記被視線停滞マークを視認したことが確認できた場合、前記他のプレイヤを前記発話範囲に決定させ、前記表示部には、前記他のプレイヤを表示する位置上に、アイコンタクトが成立したことを表すマークを表示させるようにすることができる。

前記VRコンテキスト情報に基づいて、VR空間を表示する表示部と、前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部と、前記音声データ取得部により取得された前記音声データに基づいて、前記発話範囲に含まれるどのプレイヤに対して伝達するかを制御する伝達制御部をさらに含ませるようにすることができ、前記伝達制御部には、前記音声データの音声認識結果をテキストとして前記表示部に表示し、前記発話範囲に複数のプレイヤが存在する場合、前記複数のプレイヤのそれぞれに対して順次テキストを順番に移動させて表示させるようにすることができる。

前記伝達制御部には、前記発話範囲内のプレイヤに対しては視認可能であって、かつ、前記発話範囲外のプレイヤには視認不能なテキストを前記表示部に表示させるようにすることができる。

前記発話範囲は、前記プレイヤに対して、画像、警告音声、警告振動、および警告合成音のいずれか、または、その組み合わせにより提示されるようにすることができる。

本開示の一側面の情報処理方法は、VR（Virtual Reality）空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定するステップを含む情報処理方法である。

本開示の一側面のプログラムは、VR（Virtual Reality）空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部としてコンピュータを機能させるプログラムである。

本開示の一側面においては、VR（Virtual Reality）空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲が発話範囲として決定される。

本開示の一側面によれば、特に、仮想現実空間（VR：Virtual Reality）におけるプレイヤとのコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御することが可能となる。

本開示の情報処理システムの構成例を示すブロック図である。図１の画像出力部の表示例を説明する図である。フィードバック表示欄を説明する図である。発話範囲の表示例１を説明する図である。発話範囲の表示例２を説明する図である。発話範囲の表示例３を説明する図である。発話範囲の表示例４を説明する図である。発話範囲の表示例５を説明する図である。発話範囲の表示例６を説明する図である。発話範囲の表示例７を説明する図である。発話範囲が確定した状況に応じて情報の伝達を制御する例１を説明する図である。音声認識結果の表示例１を説明する図である。音声認識結果の表示例２を説明する図である。音声認識結果の表示例３を説明する図である。音声認識結果の表示例４を説明する図である。発話範囲の解除を説明する図である。発話範囲が確定した状況に応じて情報の伝達を制御する例２を説明する図である。制御処理を説明するフローチャートである。コンテキスト情報収集処理を説明するフローチャートである。発話範囲決定処理を説明するフローチャートである。伝達制御処理を説明するフローチャートである。汎用のパーソナルコンピュータの構成例を説明する図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

＜情報処理システムの構成例＞
本開示の技術を適用した、情報処理装置とクラウドサーバ群とからなる情報処理システムの構成例について説明する。

図１の情報処理システムは、仮想現実空間（以下、VR：Virtual Realityとも称する）で実現されるゲーム等のプレイヤであるユーザに、例えば、ヘッドマウントディスプレイのように装着される情報処理装置１１－１乃至１１－ｎと、情報処理装置１１－１乃至１１－ｎに提示される様々な情報の生成と制御を実現するクラウドサーバ群１２とから構成される。尚、情報処理装置１１－１乃至１１－ｎのそれぞれは、特に区別する必要がない場合、単に、情報処理装置１１と称する。

情報処理装置１１は、ユーザのコンテキスト情報として、VR内での状況および位置関係、行動、姿勢、および視線、並びに、発話する際の音声を検出し、検出結果であるコンテキスト情報に基づいて、ユーザの発話を伝える相手となるVR内のプレイヤを発話範囲として決定する。情報処理装置１１は、発話範囲を、自らを装着するユーザに認識できる形態、例えば、ディスプレイなどで表示することにより提示する。この提示により、ユーザは、自らの発話範囲を認識しながら発話することが可能となり、VR内で自らの発話がどの相手に伝わっているのかわからないままコミュニケーションする苦痛から解放される。

また、情報処理装置１１は、発話内容に応じて、発話範囲内のプレイヤを絞り込んで発話内容を、伝える相手となるプレイヤにより使用される他の情報処理装置１１に通知し、他の情報処理装置１１を使用するユーザに提示する。この際、情報処理装置１１は、様々な情報を、ユーザの視覚、聴覚、および触覚を通して提示する。

さらに、情報処理装置１１は、様々な情報を視覚、聴覚、触覚を通してユーザに提示するにあたって、コンテキスト情報のうち、音声データを、必要に応じて、複数のサーバコンピュータなどからなるクラウドサーバ群１２に送信し、解析させ、解析結果を利用する。

クラウドサーバ群１２は、コンテキスト情報のうち音声データを解析し、解析結果を情報処理装置１１に送信する。

情報処理装置１１は、クラウドサーバ群１２から送信される、自らを装着するユーザであるプレイヤがVR内で情報を伝えようとする相手を特定する情報を取得し、特定した相手の情報に基づいて、VR内における、自らを装着しているユーザの発話の届く範囲である発話範囲や、発話範囲内の相手であるプレイヤをユーザに通知（提示）する。

このような構成により、VRで実現されるゲーム等のプレイヤを制御するユーザは、VRで実現される空間内において、VR内における没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手、すなわち、情報を伝えようとする相手を切り替えながら（相手の切り替えを制御しながら）発話することが可能となる。

以下、より具体的に、図１の情報処理システムを構成する情報処理装置１１およびクラウドサーバ群１２の構成例について説明する。

尚、以降においては、VR内において実現されるゲームを例として説明を進めるものとし、ゲーム内の登場人物をプレイヤと称し、情報処理装置１１を装着するユーザは、それぞれにゲーム内に登場するプレイヤを制御することで、VR内において実現されるゲームに参加する。

情報処理装置１１は、CPU（Central Processing Unit）３１、メモリ３２、記憶部３３、振動部３４、通信部３５、音声取得部３６、画像出力部３７、音声出力部３８、VRコンテキスト情報取得部３９、行動情報取得部４０、および視線認識処理部４１を備えている。

CPU３１は、バス４２を介して、接続された各種の構成を制御して、情報処理装置１１の動作の全体を制御している。またCPU３１は、HDD（Hard Disc Drive）、または、SSD（Solid State Drive）などからなる記憶部３３に格納されているプログラムを読み出し、半導体メモリなどからなるメモリ３２に展開して実行し、所定の機能を実現する。より詳細には、CPU３１は、記憶部３３に格納されているプログラムを実行することにより、発話範囲制御部３１ａ、および伝達制御部３１ｂとして機能する。

発話範囲制御部３１ａは、音声取得部３６、VRコンテキスト情報取得部３９、行動情報取得部４０、および視線認識処理部４１により取得されるコンテキスト情報に基づいて、ユーザが制御するプレイヤの発話範囲を決定する。より具体的には、発話範囲制御部３１ａは、ユーザにより制御されるプレイヤが、VR内で発話する際、発話した内容を認識することができる他のプレイヤが存在する範囲、または、発話した内容を認識することができる他のプレイヤを決定する。

ここで、コンテキスト情報は、プレイヤの状態を表す情報である。より具体的には、コンテキスト情報は、例えば、音声取得部３６により取得される音声データ、VRコンテキスト情報取得部３９により取得されるVRコンテキスト情報、行動情報取得部４０により取得される行動情報および姿勢情報、および視線認識処理部４１により取得される視線情報である。また、VRコンテキスト情報は、VR内におけるユーザが制御するプレイヤやオブジェクトと、その周辺のプレイヤやオブジェクトの位置や状況を含むものである。

音声データに関するコンテキスト情報は、例えば、音声のピッチ、音量、周波数、言語などであり、さらに、音声データに基づいて求められる感情なども含む。

行動情報に関するコンテキスト情報は、例えば、止まる、歩く、走るといったプレイヤの行動を識別する情報である。

姿勢情報に関するコンテキスト情報は、例えば、向き、座る、立つといったプレイヤの姿勢を識別する情報である。

視線情報に関するコンテキスト情報は、例えば、視線方向、および注視状態などのプレイヤの視線に関する情報である。

さらに、コンテキスト情報は、上述の他に、プレイヤの状況を含むものであり、例えば、泣いている、笑っている、すましている、悲しんでいる、喜んでいるといったプレイヤの状況を含む。

伝達制御部３１ｂは、発話範囲が特定されている状態で、ユーザが発話する際の音声データに基づいて、発話範囲内において、さらに、伝達するべき対象を絞り込むと共に、伝達する情報、および伝達方法を制御する。

振動部３４は、ヘッドマウントディスプレイなどからなる情報処理装置１１の本体の複数の部位を切り替えて振動させ、情報処理装置１１を装着するユーザの頭部の各種の部位に対して、振動による刺激を与える。

通信部３５は、所定の周波数帯域の無線通信、または、有線通信により、例えば、LAN（Local Area Network）の通信を実現し、インターネットなどを介して、所定のデータやプログラムの送受信を実行する。

音声取得部３６は、例えば、マイクロフォンより構成されており、情報処理装置１１を装着しているユーザにより発せられる音声を取得して、音声データとしてバス４２を介してCPU３１に出力する。

画像出力部３７は、例えば、LCD（Liquid Crystal Display）や有機EL（Electroluminescence）からなり、情報処理装置１１が全体としてヘッドマウントディスプレイとして機能するとき、ユーザに対してVR内の画像を表示するVRディスプレイとして機能する。

音声出力部３８は、例えば、スピーカやヘッドフォンからなり、ユーザに対してVR内の音声を出力する。

VRコンテキスト情報取得部３９は、VR内における各種のオブジェクトやプレイヤの位置および状況（他のプレイヤの位置や状況を含む）を含めたVRコンテキスト情報を取得し、バス４２を介してCPU３１に供給する。

行動情報取得部４０は、VR内のプレイヤの動作を制御するユーザの行動情報や姿勢情報を取得し、CPU３１に供給する。より具体的には、行動情報取得部４０は、例えば、ジャイロセンサ、画像認識カメラ、脈拍センサ、加速度センサ、および唇認識センサからなる。

視線認識処理部４１は、例えば、VR内のプレイヤの動作を制御するユーザの目を撮像するカメラにより撮像された目の画像より視線方向を認識する。

クラウドサーバ群１２は、図示せぬインターネットなどからなるネットワーク上に存在する複数のサーバコンピュータ群からなり、音声解析処理部６１、音声認識部６２、自然言語処理部６３、意味解析処理部６４、感情推定処理部６５、および音声合成（TTS）部６６として機能する。クラウドサーバ群１２の各種の機能は、単独のサーバコンピュータで実現するようにしてもよいし、複数のサーバコンピュータにより実現するようにしてもよい。

音声解析処理部６１は、情報処理装置１１より供給される音声データに対して、ノイズ除去や所定の周波数の音声を強調すると共に、各種の音声データの解析を実行する。音声解析処理部６１は、例えば、音声データに基づいた言語の種別（日本語、英語、フランス語など種別）、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。また、音声解析処理部６１は、ノイズ除去した音声データを音声認識部６２に供給する。

音声認識部６２は、音声解析処理部６１より供給される音声データより発せられている言葉（例えば、テキストデータ）として認識し、音声データと共に認識結果を自然言語処理部６３に供給する。

自然言語処理部６３は、音声認識部６２より供給される音声データと認識結果に基づいて、認識結果に自然言語処理を施して、例えば、テキストデータからなる処理結果を意味解析処理部６４に出力する。

意味解析処理部６４は、自然言語処理された、例えば、テキストデータからなる処理結果に基づいて、意味を解析して解析結果を感情推定処理部６５に出力する。

感情推定処理部６５は、音声解析結果および意味解析結果に基づいて、音声データからなる音声を発したプレイヤを制御するユーザの感情を推定する。尚、音声データに基づいた感情推定の具体的な手法については、例えば、「音声脳神経分析技術の応用心を定量計測する技術（http://agi-web.co.jp/docs/Univ-Tokyo.pdf）」を参照されたい。

音声合成（TTS：Text to Speech）部６６は、自然言語処理結果である自然な言語に変換されたテキストデータに基づいてTTSにより合成音声を生成する。

＜画像出力部の表示例について＞
次に、図２を参照して、画像出力部の表示例ついて説明する。

画像出力部３７は、例えば、図２の左部で示されるようにユーザＨの頭部に装着され、かつ、ユーザＨの目視により視聴可能な画像が表示される、いわゆる、ヘッドマウントディスプレイである。

画像出力部３７には、例えば、図２の右部で示されるような画像Ｐ１が表示される。図２の右部で示される画像Ｐ１は、ゲーム中の戦闘シーンの画像例であり、ユーザＨが制御するプレイヤにより構える銃と、銃を持つ手により自らが操作するプレイヤ９１－１が表現され、味方の仲間であるプレイヤ９１－２乃至９１－４、および敵となるプレイヤ９２－１，９２－２がそれぞれ表されている。各プレイヤ９１－２乃至９１－４，９２－１，９２－２を制御するそれぞれのユーザが装着する情報処理装置１１の画像出力部３７には、それぞれのプレイヤのVR内における位置関係に対応する画像が表示される。

＜フィードバック表示欄＞
また、画像Ｐ１には、図３で示されるように、VRコンテキスト情報をフィードバックするVRコンテキスト情報フィードバック表示欄１０１、入力状況（音声データ）をフィードバックする入力状況フィードバック表示欄１０２、および視線を示すマーク１０３が設けられている。

図３の画像Ｐ１には、VRコンテキスト情報取得部３９により取得されたコンテキスト情報、および行動情報取得部４０により取得された行動情報、および姿勢情報に基づいて、ユーザＨが制御するプレイヤが、VR内で視聴される画像が表示される。したがって、コンテキスト情報、並びに、行動情報、および姿勢情報に基づいて、例えば、プレイヤが前方に向かって、所定の姿勢で、走って移動していることが認識されれば、対応して、周囲の風景が変化し、プレイヤが前方に向かって、所定の姿勢で走って移動していることを認識できる画像が画像Ｐ１として表示される。

図３の画像Ｐ１の右上部で示されるように、VRコンテキスト情報フィードバック表示欄１０１には、VRコンテキスト情報取得部３９により取得されたVRコンテキスト情報に基づいた、ユーザＨが制御するプレイヤの位置が水平方向直線および垂直方向直線の交点となるポイント９１Ｐ－１を中心として、図中上方の矢印方向を、プレイヤの前方としたときの周囲のプレイヤの配置を表すポイントが表示されている。

図３においては、中心位置となる自らの位置を表すポイント９１Ｐ－１に対して、それ以外のプレイヤの存在する位置を表すポイントの方向、および距離が認識できるように表示されている。

すなわち、図３で示されるように、ユーザＨが制御するプレイヤが存在する中心位置であるポインタ９１Ｐ－１から見て、左前方には、仲間のプレイヤの位置を表すポイント９１Ｐ－２乃至９１Ｐ－４、および敵のプレイヤの位置を表すポイント９２Ｐ－１が表示されており、右前方には、敵のプレイヤの位置を表すポイント９２Ｐ－２，９２Ｐ－ｘが表示されており、左後方には、仲間のプレイヤの位置を表すポイント９１Ｐ－ｍが表示されており、右後方には、仲間のプレイヤの位置を表すポイント９１Ｐ－ｎが表示されている。

また、図３の画像Ｐ１の右下部で示されるように、入力状況フィードバック表示欄１０２には、音声取得部３６により取得された音声の信号レベルを表す波形が表示されている。

このように図３で示されるような画像Ｐ１を視聴することで、ユーザＨは、VRにおける自ら以外のプレイヤの、自らを中心とした方向と距離を認識すると共に、自らが発話した音声による入力が十分になされているのか否かを認識することが可能となる。

また、図３の画像Ｐ１における左下部には、視線認識処理部４１により取得された視線情報に基づいて視線を示すマーク１０３が表示される。マーク１０３は、目を象ったアイコンであり、情報処理装置１１を装着しているユーザＨの画像Ｐ１内における視線方向に対応する位置に示される。

＜発話範囲の表示例１＞
次に、図４を参照して、自らの発話の音声の高低に基づいた発話範囲の表示例１について説明する。

ユーザＨが、図４の画像Ｐ１を視聴しながら、敵となるプレイヤの接近が見えて、例えば、「敵が来たなさてどうしようかな」といった発話があった場合、音声取得部３６は、音声として発話した音声を集音して取得し、音声データとしてCPU３１に供給する。CPU３１により制御される発話範囲制御部３１ａは、通信部３５を制御して、音声データをクラウドサーバ群１２に送信する。

この処理により、音声解析処理部６１は、音声データを取得すると、ノイズ除去処理などの、解析に適した処理を施した後、音声データを解析し、解析結果を情報処理装置１１に送信すると共に、音声データを音声認識部６２および感情推定処理部６５に送信する。より詳細には、音声解析処理部６１は、音声データに基づいて、例えば、言語の種別、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。

音声認識部６２は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部６３および音声合成部６６に供給する。

自然言語処理部６３は、テキストデータなどからなる音声認識結果を、前後の文脈などから自然な言語となるように変換して、変換結果を意味解析処理部６４に供給する。

意味解析処理部６４は、自然言語処理部６３より供給される変換結果に基づいて、ユーザＨの発話した意味を解析して意味解析結果として感情推定処理部６５に供給する。

感情推定処理部６５は、音声解析処理部６１より供給されてくる音声データ、および意味解析処理部６４の意味解析結果に基づいて、ユーザＨの感情を推定し、感情推定結果と意味解析結果とを情報処理装置１１に送信する。

音声合成部６６は、テキストデータからなる自然言語処理結果に基づいてTTSにより合成音声を生成して、情報処理装置１１に送信する。

発話範囲制御部３１ａは、感情推定結果および意味解析結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄１０１内の発話範囲１２１、および画像Ｐ１内の発話範囲１２２として表示する。

より詳細には、発話範囲制御部３１ａは、例えば、意味解析結果に基づいて、「敵が来たなさてどうしようかな」といったユーザＨの発話内容を、例えば、図４の表示欄Ｍ１で示されるように、画像出力部３７内における画像Ｐ１の上部などに表示させる。また、発話範囲制御部３１ａは、例えば、音声データの基本周波数の解析結果に基づいて、図４の下部の波形Ｇ１で示されるように、音声の基本周波数と、発生頻度の関係を求め、閾値Fthreshを超える周波数帯域の発生頻度が高いか否かに基づいて、感情を推定する。

例えば、図４の下部の波形図Ｇ１で示されるように、閾値Fthreshを超えない周波数帯域の発生頻度が高く、低い声で発声されているとみなされた場合、発話範囲制御部３１ａは、冷静に発声されているものとみなし、ユーザＨのプレイヤの周囲の極近い仲間のプレイヤにのみ発生されているものとみなす。

このとき、発話範囲制御部３１ａは、例えば、図４のVRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示する。すなわち、図４のVRコンテキスト情報フィードバック表示欄１０１内の、発話範囲１２１には、ユーザＨのプレイヤの位置を示すポイント９１Ｐ－１から極近いプレイヤ９１－２，９１－３の位置を示すポイント９１Ｐ－２，９１Ｐ－３が含まれる範囲を発話範囲に決定し、例えば、発話範囲１２１として表示する。

同様に、発話範囲制御部３１ａは、画像Ｐ１内におけるユーザＨのプレイヤ９１－１の位置を示すポイントから極近いプレイヤ９１－２，９１－３が存在する範囲を、発話範囲１２２として表示する。

このように発話範囲が決定された場合、後述処理により、以降において、ユーザが発話した情報は、発話範囲内のプレイヤにのみ伝達される。

このように発話範囲１２１，１２２が、画像Ｐ１内に表示されるので、ユーザＨは、画像出力部３７における発話範囲１２１，１２２を目視するだけで、自らの発話範囲を認識することができる。

結果として、ユーザは、今、自らが発話した情報が、どの相手に伝わるのかを認識した上で、発話を実行することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。

尚、図４の表示欄Ｍ１で示される「敵が来たなさてどうしようかな」といったユーザＨの発話内容のテキストデータの表示については、他の方法でユーザＨに伝達できるようにしてもよいものであり、例えば、音声合成部６６により合成音声を生成させて、音声出力部３８より音声として出力させるようにしてもよい。

また、図４を参照して説明した、クラウドサーバ群１２の音声解析処理部６１、音声認識部６２、自然言語処理部６３、意味解析処理部６４、感情推定処理部６５、および音声合成部６６による処理と同様の処理により得られる処理結果ついては、以降の説明において、必要に応じて、音声処理結果と総称し、適宜説明を省略する。

＜発話範囲の表示例２＞
次に、図５を参照して、他のプレイヤの発話に基づいた発話範囲の表示例２について説明する。

例えば、図５のVRコンテキスト情報フィードバック表示欄１０１内における、ユーザＨの左後方の、画像Ｐ１内に表示されないプレイヤ９１－ｍが、「うわぁ、、、つよそう」といった発話があった場合、ユーザＨ以外のユーザであって、プレイヤ９１－ｍを操作するユーザの所持する情報処理装置１１の音声取得部３６が、音声として発話した音声を集音して取得し、音声データとしてCPU３１に供給する。CPU３１により制御される発話範囲制御部３１ａは、通信部３５を制御して、音声データをクラウドサーバ群１２に送信し、上述した一連の処理により音声処理結果として取得すると、上述した一連の処理と同様の処理により発話範囲を決定する。そして、発話範囲制御部３１ａは、決定した発話範囲の情報と音声処理結果を他の情報処理装置１１に対して送信する。

ユーザＨにより装着された情報処理装置１１の発話範囲制御部３１ａは、通信部３５を制御して、他の情報処理装置１１より送信される発話範囲の情報を取得する。

ここでは、音声処理結果は、自然言語処理部６３により音声データより認識された「うわぁ、、、つよそう」といったテキストデータ、およびテキストデータに基づいて音声合成部６６により生成された「うわぁ、、、つよそう」の合成音声である。

発話範囲制御部３１ａは、VRコンテキスト情報取得部３９により取得されたプレイヤ９１－ｍのVRコンテキスト情報、プレイヤ９１－ｍに対応するユーザが装着する情報処理装置１１からの発話範囲の情報に基づいて、プレイヤ９１－ｍの発話範囲を認識する。そして、発話範囲制御部３１ａは、例えば、VRコンテキスト情報フィードバック表示欄１０１内において、プレイヤ９１－ｍの発話範囲を、例えば、図５の発話範囲１２１として表示する。発話範囲１２１には、ユーザＨの存在する位置を示すVRコンテキスト情報フィードバック表示欄１０１内の中心位置と、プレイヤ９１－ｍのVR内のポインタ９１Ｐ－ｍとが含まれている。

発話範囲制御部３１ａは、例えば、自然言語処理結果に基づいて、「うわぁ、、、つよそう」といったユーザＨの発話内容を、例えば、図５の表示欄Ｍ１１で示されるように、画像出力部３７内における画像Ｐ１の上部などに表示させる。

このように発話範囲１２１が、画像Ｐ１内に表示されるので、ユーザＨは、画像出力部３７における発話範囲１２１を目視するだけで、自ら以外のプレイヤの発話範囲を認識することができる。

尚、発話範囲は、図５の発話範囲１２１，１２２で示されるように、画像出力部３７に画像として表示する他の方法で表現するようにしてもよい。

例えば、図５の左下部で示されるように、発話範囲制御部３１ａは、プレイヤ９１－ｍのコンテキスト情報に基づいて、音声出力部３８を制御して、VRコンテキスト情報フィードバック表示欄１０１内の位置に対応する方向である、左後方から「ピピピッ」という警告音声１３２を出力させるようにしてもよい。この際、距離が近いときには大音量とし、遠いときには小音量にすることで、音声のみで発話範囲の方向および距離を認識することが可能となる。

また、例えば、図５の中央下部で示されるように、発話範囲制御部３１ａは、プレイヤ９１－ｍのコンテキスト情報に基づいて、振動部３４を制御して、VRコンテキスト情報フィードバック表示欄１０１内の位置に対応する、左後方から警告振動１３３を発生させるようにしてもよい。この際、距離が近いときには大振動とし、遠いときには小振動にすることで、振動のみで発話範囲の方向および距離を認識することが可能となる。

さらに、例えば、図５の右下部で示されるように、発話範囲制御部３１ａは、プレイヤ９１－ｍのコンテキスト情報に基づいて、音声出力部３８を制御して、VRコンテキスト情報フィードバック表示欄１０１内の位置に対応する、左後方から音声合成部６６により生成された「うわぁ、、、つよそう」という警告合成音１３４を出力させるようにしてもよい。この際、距離が近いときには大音量とし、遠いときには小音量にすることで、音声のみで発話範囲の方向および距離を認識することが可能となる。

このように発話範囲は、画像のみならず、警告音声、警告振動、および警告合成音などにより、このようにユーザＨに対して、発話範囲内に存在するプレイヤの方向や距離がわかるように表現されればよいものである。

結果として、どの相手からの音声が伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に対して応答すべきかを認識しながら、発話することが可能となるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。

＜発話範囲の表示例３＞
次に、図６を参照して、自らの発話の音声の話速に基づいた発話範囲の表示例３について説明する。

ユーザＨが、画像Ｐ１を視聴しながら、敵となるプレイヤの接近が見えて、例えば、「前方にぃー、注目ぅー、レアアイテムをぉー、保持しているぅー、可能性がぁー、あーりますー」といった発話があった場合、音声取得部３６は、音声として発話した音声を集音して取得し、音声データとしてCPU３１に供給する。CPU３１により制御される発話範囲制御部３１ａは、通信部３５を制御して、音声データをクラウドサーバ群１２に送信する。

発話範囲制御部３１ａは、クラウドサーバ群１２の処理により得られる音声処理結果に基づいて、発話範囲を決定し、例えば、VRコンテキスト情報フィードバック表示欄１０１内の発話範囲１２１、および画像Ｐ１内の発話範囲１２２として表示する。ここで、音声処理結果として使用されるのは、例えば、音声解析結果および自然言語処理結果である。

より詳細には、発話範囲制御部３１ａは、自然言語処理結果に基づいて、「前方にぃー、注目ぅー、レアアイテムをぉー、保持しているぅー、可能性がぁー、あーりますー」といったユーザＨの発話内容を、例えば、図６の表示欄Ｍ２１で示されるように、画像出力部３７内における画像Ｐ１の上部などに表示させる。また、発話範囲制御部３１ａは、例えば、単位時間当たりの音素数の大小、すなわち、話速の音声解析結果に基づいて、ユーザＨの周辺の、どのプレイヤに対する発話であるかを判定する。例えば、図６の場合、長音符号があることからゆっくりとした話速であることが推定されるので、発話範囲制御部３１ａは、話速が所定の速度よりも低いものとみなし、近くに存在する仲間となるプレイヤ全員に対するものであるものとみなす。

このとき、発話範囲制御部３１ａは、例えば、図６のVRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示する。すなわち、図６のVRコンテキスト情報フィードバック表示欄１０１内の、発話範囲１２１には、ユーザＨのプレイヤ９１－１の位置から近い仲間となるプレイヤ９１－２乃至９１－４，９１－ｍ，９１－ｎの位置を示すポイント９１Ｐ－２乃至９１Ｐ－４，９１Ｐ－ｍ，９１Ｐ－ｎが含まれる範囲を、発話範囲１２１として表示する。

同様に、画像Ｐ１内におけるユーザＨのプレイヤ９１－１の位置から近い味方のプレイヤ９１－２乃至９１－４が存在する範囲を、発話範囲制御部３１ａは、発話範囲１２２として表示する。

結果として、伝わる相手を確認してから、発話を実行することが可能となり、発話に際して、どの相手に伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。

＜発話範囲の表示例４＞
次に、図７を参照して、VRコンテキスト情報に基づいた発話範囲の表示例４について説明する。

ユーザＨが、例えば、図７の画像Ｐ２を視聴しながら、例えば、「どうしたの大丈夫かな」といった発話があった場合、音声取得部３６は、音声として発話した音声を集音して取得し、音声データとしてCPU３１に供給する。CPU３１により制御される発話範囲制御部３１ａは、通信部３５を制御して、音声データをクラウドサーバ群１２に送信する。

発話範囲制御部３１ａは、クラウドサーバ群１２より得られる音声処理結果のうち自然言語処理結果および感情推定結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄１０１内の発話範囲１２１、および画像Ｐ２内の発話範囲１２２として表示する。ここで、画像Ｐ２には、ユーザＨが制御するプレイヤ１５１－０、および、子供のプレイヤ１５１－１乃至１５１－５が映し出されており、このうち、子供のプレイヤ１５１－１は笑っており、プレイヤ１５１－２は、すましており、プレイヤ１５１－３は、遊んでおり、プレイヤ１５１－４，１５１－５が、泣いている状態である。それぞれの子供のプレイヤ１５１－１乃至１５１－５の状態は、VRコンテキスト情報に含まれている。

そこで、この場合、発話範囲制御部３１ａは、例えば、図７の表示欄Ｍ３１で示されるように、画像出力部３７内における画像Ｐ１の上部などに、自然言語処理結果である「どうしたの大丈夫かな」と表示させる。また、発話範囲制御部３１ａは、感情推定結果に基づいて、感情推定処理部６５による音声データの、例えば、入力音声が小さく、優しく発話されているか否かの解析結果に基づいて、ユーザＨの周辺の泣いているプレイヤに対する発話であるかを判定する。例えば、図７の場合、プレイヤ１５１－４，１５１－５が、泣いている状態であるので、発話範囲制御部３１ａは、泣いている子に優しく話しかけているものとみなし、泣いている子供のプレイヤに対するものであるものとみなす。

このとき、発話範囲制御部３１ａは、例えば、図７のVRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示する。すなわち、図７のVRコンテキスト情報フィードバック表示欄１０１内の、発話範囲１２１には、ユーザＨのプレイヤ１５１－０、および泣いているプレイヤ１５１－４，１５１－５の位置を示すポイント１５１Ｐ－４，１５１Ｐ－５が含まれる範囲を、発話範囲１２１として表示する。

同様に、画像Ｐ２内におけるユーザＨのプレイヤ１５１－０と、泣いている子供のプレイヤ１５１－４，１５１－５とが存在する範囲を、発話範囲制御部３１ａは、発話範囲１２２として表示する。

このように発話範囲１２１，１２２が、画像Ｐ２内に表示されるので、ユーザＨは、画像出力部３７における発話範囲１２１，１２２を目視するだけで、自らの発話範囲を認識することができる。

結果として、発話により伝わる相手を確認してから、発話を実行することが可能となり、発話に際して、どの相手に伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。

＜発話範囲の表示例５＞
次に、図８を参照して、行動情報および姿勢情報に基づいた発話範囲の表示例５について説明する。

発話範囲制御部３１ａは、行動情報および姿勢情報に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄１０１内の発話範囲１２１、および画像Ｐ１内の発話範囲１２２として表示する。

より詳細には、行動情報および姿勢情報に基づいて、ユーザＨが立って、かつ、走っている場合、発話範囲制御部３１ａは、例えば、VRコンテキスト情報に基づいて、ユーザＨの周辺のどのプレイヤに対する発話であるかを判定する。

例えば、図８の場合、ユーザＨが制御するプレイヤ９１－１が立って、かつ、走っているので、発話範囲制御部３１ａは、VRコンテキスト情報に基づいて、ユーザＨの周辺で、同様に、立って、かつ、走っているプレイヤに対するものであるものとみなす。

このとき、発話範囲制御部３１ａは、例えば、図８のVRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示する。すなわち、図８のVRコンテキスト情報フィードバック表示欄１０１内の、発話範囲１２１には、ユーザＨのプレイヤ９１－１の位置を示すポイント９１Ｐ－１から近い味方となるプレイヤ９１－２，９１－３の位置を示すポイント９１Ｐ－２，９１Ｐ－３が含まれる範囲を、発話範囲１２１として表示する。

同様に、画像Ｐ１内におけるユーザＨのプレイヤ９１－１の位置から近い仲間のプレイヤ９１－２，９１－３が存在する範囲を、発話範囲制御部３１ａは、発話範囲１２２として表示する。

このように発話範囲１２１，１２２が、画像Ｐ１内に表示されるので、ユーザＨは、画像出力部３７における発話範囲１２１，１２２を目視するだけで、自らと同様の行動と姿勢をとるプレイヤの存在する範囲を発話範囲として認識することができる。

結果として、発話により伝わる相手を確認してから、発話することが可能となり、発話に際して、どの相手に伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。

＜発話範囲の表示例６＞
次に、図９を参照して、ユーザＨの視線情報に基づいた発話範囲の表示例６について説明する。

発話範囲制御部３１ａは、視線情報に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄１０１内の発話範囲１２１、および画像Ｐ１内の発話範囲１２２として表示する。

より詳細には、視線情報に基づいて、発話範囲制御部３１ａは、画像Ｐ１内におけるどのプレイヤに視線が向けられているかを判定し、ユーザＨの周辺のどのプレイヤを発話範囲とするかを判定する。

例えば、図９の場合、発話範囲制御部３１ａは、視線情報に基づいて、ユーザＨの周辺で、プレイヤ９１－２に対して視線が向けられていることを認識する。

このとき、発話範囲制御部３１ａは、例えば、図９の画像Ｐ１－１で示されるように、VRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示する。すなわち、図９の画像Ｐ１－１で示されるように、VRコンテキスト情報フィードバック表示欄１０１内の、発話範囲１２１には、ユーザＨにより制御されるプレイヤ９１－１の位置となるVRコンテキスト情報フィードバック表示欄１０１の円内の水平方向の直線と垂直方向の直線との交点の位置（以下、交点位置と称する）と、プレイヤ９１－２の位置を示すポイント９１Ｐ－２が含まれる範囲を、発話範囲１２１として表示する。

同様に、発話範囲制御部３１ａは、図９の画像Ｐ１－１で示されるように、ユーザＨのプレイヤの位置を示すポイントと、ユーザＨの視線方向の仲間のプレイヤ９１－２が存在する範囲を、発話範囲１２２として表示し、さらに、プレイヤ９１－２上に視線が向けられていることを示すマーク１０３－１を表示する。

さらに、所定時間が経過すると、図９の画像Ｐ１－２で示されるように、発話範囲制御部３１ａは、視線が向けられてから所定時間が経過していることを示すため、プレイヤ９１－２上に視線が向けられていることを示すマーク１０３－１に代えて、マーク１０３－２を表示する。

さらにまた、所定時間が経過すると、図９の画像Ｐ１－３で示されるように、発話範囲制御部３１ａは、視線が向けられてから視線方向が確定するタイミングまで、残り時間が３秒であることを示すため、プレイヤ９１－２上に視線が向けられていることを示すマーク１０３－２に代えて、マーク１０３－３を表示する。

さらにまた、所定時間が経過すると、図９の画像Ｐ１－４で示されるように、発話範囲制御部３１ａは、視線が向けられてから視線方向が確定するタイミングまで、残り時間が２秒であることを示すため、プレイヤ９１－２上に視線が向けられていることを示すマーク１０３－３に代えて、マーク１０３－４を表示する。

さらにまた、所定時間が経過すると、図９の画像Ｐ１－５で示されるように、発話範囲制御部３１ａは、視線が向けられてから視線方向が確定するタイミングまで、残り時間が１秒であることを示すため、プレイヤ９１－２上に視線が向けられていることを示すマーク１０３－４に代えて、マーク１０３－５を表示する。

さらにまた、所定時間が経過すると、図９の画像Ｐ１－６で示されるように、発話範囲制御部３１ａは、視線方向が確定されたことを示すため、プレイヤ９１－２上に視線が向けられていることを示すマーク１０３－５に代えて、マーク１０３－６を表示する。

このように発話範囲１２１，１２２が、画像Ｐ１内に表示されるので、ユーザＨは、画像出力部３７における発話範囲１２１，１２２を目視するだけで、自らが視線によるアイコンタクトを、特定のプレイヤに対して送っていることを発話範囲として決定することができる。

結果として、アイコンタクトのような視線による合図を送っているか否かを認識することが可能となり、視線により発話範囲を決定させることが可能となる。

＜発話範囲の表示例７＞
次に、図１０を参照して、他のプレイヤの視線情報に基づいた発話範囲の表示例７について説明する。ここでは、図９を参照して説明した処理により、仲間のプレイヤからユーザＨに、アイコンタクトが自らに向けられていることを認識させるように発話範囲を表示し、送られているアイコンタクトに応じて視線を送るとアイコンタクトが成立する例である。例えば、図９の画像、発話範囲制御部３１ａは、通信部３５を制御して、視線が向けられているプレイヤを制御するユーザにより装着されている他の情報処理装置１１から、視線情報を含むコンテキスト情報が送信される。

そこで、発話範囲制御部３１ａは、他のプレイヤを制御するユーザにより装着されている他の情報処理装置１１からの視線情報に基づいて、発話範囲を特定して、例えば、図１０の画像Ｐ１内に視線が送られていることを示す情報を表示する。

より詳細には、他のプレイヤの情報処理装置１１からのコンテキスト情報に含まれる視線情報に基づいて、発話範囲制御部３１ａは、画像Ｐ１内におけるどのプレイヤからの視線が向けられているかを判定し、ユーザＨの周辺のどのプレイヤを発話範囲とするかを判定する。例えば、図１０の場合、発話範囲制御部３１ａは、他のプレイヤの視線情報に基づいて、プレイヤ９１－２からの視線が向けられていることを認識する。

発話範囲制御部３１ａは、図１０の画像Ｐ１－１１で示されるように、視線が向けられている仲間のプレイヤ９１－２上に視線が向けられていることを示すマーク１７１－１を表示する。

さらに、所定時間が経過すると、図１０の画像Ｐ１－１２で示されるように、発話範囲制御部３１ａは、視線が向けられてからの経過時間を示すため、プレイヤ９１－２上に視線が向けられていることを示すマーク１７１－１に代えて、マーク１７１－２を表示する。

さらにまた、所定時間が経過すると、図１０の画像Ｐ１－１３で示されるように、発話範囲制御部３１ａは、視線が向けられてからの経過時間を示すため、プレイヤ９１－２上に視線が向けられていることを示すマーク１７１－２に代えて、マーク１７１－３を表示する。

さらにまた、所定時間が経過すると、図１０の画像Ｐ１－１４で示されるように、発話範囲制御部３１ａは、視線が向けられてから経過時間を示すため、プレイヤ９１－２上に視線が向けられていることを示すマーク１７１－３に代えて、マーク１７１－４を表示する。マーク１７１－４には「Look at me」と記載されており、アイコンタクトに応じる旨の記載がされている。

ここで、ユーザＨがマーク１７１－４に視線を向けると、図１０の画像Ｐ１－１５で示されるように、発話範囲制御部３１ａは、アイコンタクトが成立したことを示すため、マーク１７１－４に代えて、プレイヤ９１－２とのアイコンタクトが確認できたことを示すマーク１７１－５を表示する。マーク１７１－５には、「eye-contact」と記載されており、アイコンタクトが成立したことを示す。尚、この場合、相手となる他の情報処理装置１１においても同様の表示がなされる。

さらにまた、所定時間が経過すると、図１０の画像Ｐ１－１６で示されるように、発話範囲制御部３１ａは、アイコンタクトが確認できて、かつ、発話範囲が確定したことを示すため、発話範囲制御部３１ａは、VRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示する。すなわち、図１０の画像Ｐ１－１６で示されるように、発話範囲制御部３１ａは、VRコンテキスト情報フィードバック表示欄１０１内において、ユーザＨのプレイヤとプレイヤ９１－２の位置を示す交点位置とポイント９１Ｐ－２が含まれる範囲を、発話範囲１２１として表示する。同様に、図１０の画像Ｐ１－１６で示されるように、ユーザＨのプレイヤ９１－１とプレイヤ９１－２とが含まれた発話範囲１２２が表示される。

このように、図９を参照して説明したアイコンタクトを送る処理と併せて、アイコンタクトを受ける処理がなされることにより、発話範囲１２１，１２２が、アイコンタクトを送りあったプレイヤの相互の画像Ｐ１内に表示されるので、アイコンタクトを送りあったユーザは、画像出力部３７における発話範囲１２１，１２２を目視するだけで、相手となるプレイヤとのアイコンタクトが成立し、相互に発話範囲として認識することができる。

結果として、アイコンタクトのような視線を向けるだけの合図による意思疎通が図れているか否かを認識することが可能となり、目線だけでの発話範囲を確認させることが可能となり、例えば、アイコンタクトが成立した後は、アイコンタクトが成立したプレイヤ同士で発話範囲に設定されるので、アイコンタクトが成立したプレイヤ間のみでの会話を実現することが可能となる。

尚、図９，図１０を参照して説明した処理により、アイコンタクトの授受は可能となるが、例えば、サッカーやバスケットボールなどでは、アイコンタクトの授受を一瞬で行う必要があり、上述したように数秒程度時間の掛かるアイコンタクトでは使用に耐えない。

このため、上述したように視線を送る時間に応じて、アイコンタクトを成立させるのではなく、一瞬であっても、相互の視線が所定の条件を満たせば、成立するようにしてもよい。例えば、プレイヤ相互の視線情報を用いて、相互の視線方向を示すベクトルの内積が、所定値よりも小さい場合、相互の視線方向が一致したものとみなして、アイコンタクトを成立するようにしてもよい。

＜発話範囲が確定した状況に応じて情報の伝達を制御する例１＞
次に、図１１を参照して、上述の処理により発話範囲が確定した状況に応じて情報の伝達を制御する例１について説明する。

上述の処理により発話範囲が確定した状態で、ユーザＨが、画像Ｐ１を視聴しながら、敵となるプレイヤの接近が見えて、例えば、「敵が来たなさてどうしようかな」といった発話があった場合、音声取得部３６は、音声として発話した音声を集音して取得し、音声データとしてCPU３１に供給する。CPU３１により制御される発話範囲制御部３１ａは、通信部３５を制御して、音声データをクラウドサーバ群１２に送信する。

この処理により、音声解析処理部６１は、音声データを取得すると、ノイズ除去処理などの、解析に適した処理を施した後、音声データを解析し、解析結果を情報処理装置１１に送信すると共に、音声データを音声認識部６２および感情推定処理部６５に送信する。より詳細には、音声解析処理部６１は、音声データに基づいて、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。

自然言語処理部６３は、テキストデータなどからなる認識情報を、前後の文脈などから自然な言語となるように変換して、変換結果となるテキストデータを意味解析処理部６４に供給する。

意味解析処理部６４は、自然言語処理部６３より供給される変換結果に基づいて、ユーザＨの発話した意味を解析して解析結果である意味解析結果を感情推定処理部６５に供給する。

感情推定処理部６５は、音声解析処理部６１より供給されてくる音声データ、および意味解析処理部６４の解析結果に基づいて、ユーザＨの感情を推定し感情推定結果と意味解析結果とを情報処理装置１１に送信する。

伝達制御部３１ｂは、感情推定結果および自然言語処理結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄１０１内の発話範囲１２１、および画像Ｐ１内の発話範囲１２２として表示する。

尚、図４乃至図１０で表示される、発話範囲制御部３１ａにより一旦決定された発話範囲１２１，１２２に対して、図１１で表示される発話範囲１２１，１２２は、実際に発話があったときに、伝達制御部３１ｂにより、さらに、発話範囲の絞り込みが掛けられたものといえる。

また、伝達制御部３１ｂは、自然言語処理結果であるテキストデータに基づいて、「敵が来たなさてどうしようかな」といったユーザＨの発話内容に基づいて、例えば、図１１の上段における表示欄Ｍ４１で示されるように、画像出力部３７内における画像Ｐ１の上部などに表示させる。

ここで、例えば、図１１の上段におけるVRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示させ、発話範囲１２１が確定している場合において、例えば、音声データにより、発話による入力音声の音量が所定値よりも大きく、かつ、「体力回復支援よろしく」といった発話があったとき、伝達制御部３１ｂは、後方にいる仲間のプレイヤ９１－ｍ，９１－ｎに発話したものとみなす。このため、伝達制御部３１ｂは、図１１の下段におけるプレイヤ９１－ｍ，９１－ｎの位置に対応したポインタ９１Ｐ－ｍ，９１Ｐ－ｎを含む発話範囲１２１－１を表示させる。

伝達制御部３１ｂは、自然言語処理結果であるテキストデータに基づいて、「体力回復支援よろしく」といったユーザＨの発話内容に基づいて、例えば、図１１における表示欄Ｍ４２で示されるように、表示させる。尚、ここでは、音量がVolume=50とされており、例えば、所定値がVolume=20であるとき、所定値よりも大きいことが示されている。

一方、例えば、図１１の上段におけるVRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示させ、発話範囲１２１が確定している場合において、例えば、音声データにより、発話による入力音声の音量が所定値よりも小さく、かつ、「ライフルで攻撃」といった発話があったとき、伝達制御部３１ｂは、前方にいる仲間のプレイヤ９１－２，９１－３に発話したものとみなす。このため、伝達制御部３１ｂは、図１１の下段におけるプレイヤ９１－２，９１－３の位置に対応したポインタ９１Ｐ－２，９１Ｐ－２を含む発話範囲１２１－２を表示させる。

伝達制御部３１ｂは、自然言語処理結果であるテキストデータに基づいて、「ライフルで攻撃」といったユーザＨの発話内容に基づいて、例えば、図１１における表示欄Ｍ４３で示されるように、表示させる。尚、ここでは、音量がVolume=10とされており、例えば、所定値がVolume=20であるとき、所定値よりも小さいことが示されている。

このとき、伝達制御部３１ｂは、図１１の下段におけるVRコンテキスト情報フィードバック表示欄１０１内における発話範囲１２１－２に含まれるポイント９１Ｐ－２，９１Ｐ－３に対応する画像Ｐ１上でプレイヤ９１－３，９１－２に対して、「ライフルで攻撃」と表示されたテキストプレート１９１を、点線の矢印で示されるように移動させて表示する。

すなわち、「ライフルで攻撃」と表示されたテキストプレート１９１は、点線の矢印で示されるように、画像Ｐ１上でプレイヤ９１－３を経由して、プレイヤ９１－２に到達する。このとき、対応するプレイヤ９１－３，９１－２にのみ、テキストプレート１９１の情報が読み取れるように表示される。

テキストプレート１９１は、図１１の下部の画像Ｐ１で示されるように、一筆書きのような順序でプレイヤ９１間を順次回覧するように伝達するように表示する。このようにテキストプレート１９１が、発話範囲内のプレイヤ９１間を移動することにより、発話範囲内のプレイヤに伝達されていることを確実に認識することが可能となる。すなわち、ユーザＨにより制御されるプレイヤ９１－１から、同時に、複数のプレイヤ９１に対してテキストプレート１９１が同時に移動するような表示にすると、特に、プレイヤ数が膨大なときには、どのプレイヤに対してテキストプレート１９１が送られたのかを認識できず、どのプレイヤに伝達されたのかを認識できなくなる恐れがあるからである。

以上の処理により、発話範囲制御部３１ａにより発話範囲が確定した後、発話されることにより、伝達制御部３１ｂが、伝達するべき対象となるプレイヤ、伝達するべき情報、伝え方（伝達方法）を決定して、決定した伝達すべき対象となるプレイヤに対して、決定した伝達すべき情報を、決定した伝達方法で伝達する。

結果として、ユーザは、VR内のプレイヤの動きを制御する際、自らの自然な行動、姿勢、発話、視線の動きを行うだけで、VRコンテキスト情報に基づいた適切な発話範囲を決定することができる上、決定された発話範囲を認識しながら発話することができるので、誰に発話した内容が伝達されているのかわからないことによる不安を払拭することが可能となるので、安心して発話することが可能となる。

また、発話範囲が決定された後は、自然な発話をするだけで、発話範囲内で、伝達するべき対象となるプレイヤ、伝達するべき情報、および伝え方（伝達方法）が決定されて、発話に応じて決定された伝達すべき対象となるプレイヤに対して、発話に応じて決定された伝達すべき情報を、発話に応じて決定された伝達方法で伝達することが可能となる。

＜音声認識結果の表示例１＞
発話範囲内のプレイヤに対して、発話した音声データが音声認識されてテキストデータに変換された後、さらに、自然言語処理された音声認識結果であるテキストデータを、例えば、３次元のテキストからなる、例えば、図１２のテキストプレート１９１で表現する場合、伝える相手に対して正対するように表示する必要がある。

例えば、図１２の左部で示されるような場合、VRにおいて、プレイヤＨ３が、「あの敵を倒そうよ」と発話し、音声認識結果が、３次元のテキストプレートＴ１として表現されるとき、プレイヤＨ１，Ｈ２が発話範囲内であれば、伝達制御部３１ｂは、テキストプレートＴ１を、プレイヤＨ３を起点として、点線の矢印で示されるようにプレイヤＨ１に移動するように表示させる。

このとき、テキストプレートＴ１は、プレイヤＨ３からプレイヤＨ１に移動するとき、プレイヤＨ１，Ｈ３に対しては正対しているので、プレイヤＨ１，Ｈ３は、適切にテキストプレートＴ１を視認することができ、プレイヤＨ３がどのような内容の発話をしたのかをプレイヤＨ１が認識することができる。

これに対して、テキストプレートＴ１は、プレイヤＨ２に対しては正対していないので、図１２の右上部で示されるように、プレイヤＨ２はテキストプレートＴ１を適切に視認することができない恐れがある。

そこで、プレイヤＨ３の発話範囲内にプレイヤＨ１，Ｈ２が含まれているような場合、図１２の右下部で示されるように、プレイヤＨ１乃至Ｈ３のいずれからも正対するように３次元のテキストプレートＴ２のように表示するようにする。

尚、図１２の右下部における左部には、上部からみたプレイヤＨ１乃至Ｈ３の配置が示されており、図１２の右下部における右部には、プレイヤＨ３を起点にして、プレイヤＨ１に対して点線の矢印で示されるように移動する３次元のテキストプレートＴ２は、プレイヤＨ１乃至Ｈ３のいずれからも視認できるように方向が計算されて表示されることが示されている。

図１２のような表示によりプレイヤＨ１乃至Ｈ３が、それぞれの位置からテキストプレートＴ１１を視認できるので、発話範囲内の全プレイヤがテキストプレートで表示される内容を適切に認識することが可能となる。

＜音声認識結果の表示例２＞
図１３の状態Ｊ１で示されるように、VR内にプレイヤＨ１乃至Ｈ３が存在し、プレイヤＨ２が「あの敵を倒そう」と発話し、発話範囲内にプレイヤＨ１，Ｈ３が含まれている場合、伝達制御部３１ｂは、発話した音声が音声認識された認識結果を、状態Ｊ２で示されるように、テキストプレートＴ１１として、点線の矢印で示されるように、プレイヤＨ２からプレイヤＨ３に対して正対しながら移動するように表示させる。次に、伝達制御部３１ｂは、状態Ｊ３で示されるように、テキストプレートＴ１１を、プレイヤＨ３からプレイヤＨ１に対して正対しながら移動させるように表示する。

図１３の状態Ｊ１乃至Ｊ３のような表示によりプレイヤＨ１乃至Ｈ３が、それぞれの位置からテキストプレートＴ１１に正対するので、VR内において、プレイヤＨ２により発話された「あの敵を倒そう」が、発話範囲内に含まれる全プレイヤであるプレイヤＨ１，Ｈ３に対して伝達されたことを認識することが可能となる。

また、このように１個のテキストプレートＴ１１が、発話範囲内の複数のプレイヤに対して順番に伝達されるように表示されることで、一度に、複数のプレイヤに伝達されるような表現にならないので、プレイヤＨ２のユーザＨは画像出力部３７を視聴することで、発話範囲内のプレイヤを認識しつつ、自らの発話内容が発話範囲内のどのプレイヤに伝達されたのかを確実に認識することが可能となる。

尚、以上においては、最新の１回の発話に関するテキストデータがテキストプレートとして伝達される例について説明してきたが、時系列の発話内容を複数に伝達するようにしてもよい。例えば、伝達制御部３１ｂは、図１３の状態Ｊ４で示されるように、プレイヤＨ１１からの発話に対応して、「あの敵を倒そう」と記載されたテキストプレートＴ１２、「次は何をしようか」と記載されたテキストプレートＴ１３、および「みんなお別れ」と記載されたテキストプレートＴ１４が発話されたタイミングに応じた時系列に配置して伝達させるようにしてもよい。図１３の状態Ｊ４においては、「みんなお別れ」と記載されたテキストプレートＴ１４に対応する発話が最も前のタイミングでなされ、その次に、「次は何をしようか」と記載されたテキストプレートＴ１３に対応する発話され、最後に、「あの敵を倒そう」と記載されたテキストプレートＴ１２に対応する発話がなされたことが示されている。

＜音声認識結果の表示例３＞
図１４の状態Ｊ１１で示されるように、VR内にプレイヤＨ１乃至Ｈ３が存在し、プレイヤＨ２が「あの敵を倒そう」と発話し、発話範囲にプレイヤＨ３のみが含まれている場合、伝達制御部３１ｂは、発話された音声が認識された認識結果を、状態Ｊ１２で示されるように、プレイヤＨ１に対しては目隠しが設けられたテキストプレートＴ２１として、点線の矢印で示されるように移動するように表示させる。このとき、認識結果となるテキストプレートＴ２１は、プレイヤＨ２より、プレイヤＨ３に対して視聴可能な状態で、かつ、プレイヤＨ１からは視聴できない状態で、プレイヤＨ１に対して移動する。

図１４のような表示により、プレイヤＨ２は、発話範囲内のプレイヤＨ２，Ｈ３には発話内容であるテキストプレートＴ２１が視聴可能であり、プレイヤＨ１には視聴不能であることを、VR内において、認識することが可能となる。すなわち、このような表示により、発話範囲内のプレイヤに対しては、自らの発話内容が伝達され、発話範囲外のプレイヤには伝達されていないことを認識することが可能となる。

＜音声認識結果の表示例４＞
図１５の状態Ｊ３１で示されるように、VR内にプレイヤＨ１乃至Ｈ５が存在し、プレイヤＨ２が「あの敵を倒そう」と発話し、発話範囲にプレイヤＨ３，Ｈ５のみが含まれている場合、伝達制御部３１ｂは、発話された音声が認識された認識結果を、状態Ｊ３２で示されるように視認できるプレイヤＨ３，Ｈ５を、全体を囲んた、プレイヤＨ３’，Ｈ５’として表現し、認識結果であるテキストプレートＴ３１が引き出し線で結びつけられるように表示する。このような表示により、プレイヤＨ２が発話した内容が、プレイヤＨ３，Ｈ５に対して認識可能な状態で、かつ、プレイヤＨ１，Ｈ４からは認識できない状態であることを、プレイヤＨ２が認識することができる。

図１５のような表示によりプレイヤＨ３，Ｈ５にはテキストプレートＴ３１が視聴可能であり、プレイヤＨ１には視聴不能であることを、VR内において、認識することが可能となる。

また、伝達制御部３１ｂは、認識結果を、状態Ｊ３３で示されるように、視認できないプレイヤＨ１，Ｈ４には、目隠しをして、プレイヤＨ１’，Ｈ４’として表現し、認識結果であるテキストプレートＴ３２を表示させるようにしてもよい。このような表示により、プレイヤＨ２が発話した内容が、プレイヤＨ３，Ｈ５に対して認識可能な状態で、かつ、プレイヤＨ１，Ｈ４からは認識できない状態であることを、プレイヤＨ２が認識することができるようにしてもよい。

＜発話範囲の解除＞
発話範囲制御部３１ａは、発話範囲が設定されてから所定の期間が経過した後、発話範囲を解除する。

すなわち、発話範囲制御部３１ａは、例えば、図１６で示されるように、VRコンテキスト情報フィードバック表示欄１０１内に発話範囲１２１（または発話範囲１２２）を設定すると、例えば、「Lock remain 30sec」と表示し、設定したタイミングからの残り時間が表示される表示欄２０１を表示する。そして、発話範囲制御部３１ａは、所定の時間が経過すると、解除を示す「unlocked」と表示された表示欄２０２を表示して、VRコンテキスト情報フィードバック表示欄１０１内の発話範囲１２１（または発話範囲１２２）を解除する。

このような表示により、発話範囲１２１（または発話範囲１２２）が解除されたことをユーザに認識させることが可能となる。

尚、以上においては、発話範囲１２１（または発話範囲１２２）が設定されてからの経過時間に応じて解除される例について説明してきたが、それ以外の方法で発話範囲１２１（または発話範囲１２２）が解除されるようにしてもよい。例えば、「範囲を解除」と発話されるとき、発話範囲制御部３１ａは、発話範囲１２１を解除するようにしてもよい。また、発話範囲制御部３１ａは、「首を振る」、および「視線を遠くに滞留させる」といった特定のジェスチャが行動情報および姿勢情報により検出された場合、発話範囲１２１（または発話範囲１２２）を解除するようにしてもよい。

＜発話範囲が確定した状況に応じて情報の伝達を制御する例２＞
次に、図１７を参照して、上述の処理により発話範囲が確定した状況に応じて情報の伝達を制御する例２について説明する。

上述の処理により発話範囲が確定した状態で、ユーザＨが、図１７の画像Ｐ２（図７の画像Ｐ２に対応する）を視聴しながら、音声取得部３６は、音声として発話した音声を集音して取得し、音声データとしてCPU３１に供給する。CPU３１により制御される発話範囲制御部３１ａは、通信部３５を制御して、音声データをクラウドサーバ群１２に送信する。

伝達制御部３１ｂは、感情推定結果および自然言語処理結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄１０１内の発話範囲１２１、および画像Ｐ２内の発話範囲１２２として表示する。

より詳細には、伝達制御部３１ｂは、自然言語処理結果に基づいて、「どうしたの大丈夫かな」といったユーザＨの発話内容に基づいて、例えば、図１７の上部における表示欄Ｍ５１で示されるように、画像出力部３７内における画像Ｐ２の上部などに表示させる。

ここで、例えば、図１７の上段におけるVRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示させ、発話範囲１２１が確定している場合、伝達制御部３１ｂは、例えば、音声データに基づいた感情推定結果より、入力音声の声の抑揚が多くついているときは、音声に基づいて検出される感情として厳しいと判定されて、身内の子供のプレイヤ１５１－４に「いつまでも泣いてないで」というユーザＨの発話内容に基づいて、例えば、表示欄Ｍ５２で示されるように、画像出力部３７内における画像Ｐ２の下部などに表示させる。

一方、例えば、図１７の下段におけるVRコンテキスト情報フィードバック表示欄１０１内に、発話範囲１２１を表示させ、発話範囲１２１が確定している場合、伝達制御部３１ｂは、例えば、音声データに基づいた感情推定結果より、入力音声の声の抑揚が付いてない時は、音声により解析される感情としてやさしいと判定されて、他人向けの子供１５１－５に「もう大丈夫だよ」というユーザＨの発話内容に基づいて、例えば、表示欄Ｍ５３で示されるように、画像出力部３７内における画像Ｐ２の下部などに表示させる。

尚、図１７においては、子供のプレイヤ１５１－４は、ユーザＨが制御するプレイヤ１５１－０の身内の子供であり、子供のプレイヤ１５１－５は、ユーザＨが制御するプレイヤ１５１－０の他人の子供であるものとする。

以上の処理により、発話範囲制御部３１ａにより発話範囲が確定した後、発話されることにより、伝達制御部３１ｂが、伝達するべき対象となるプレイヤ（例えば、子供のプレイヤ１５１－４または１５１－５）、伝達するべき情報（例えば、「いつまでも泣いてないで」または「もう大丈夫だよ」）、伝え方（例えば、伝達方法：表示欄Ｍ５２，５３のようなテキストデータによる表示、または、「いつまでも泣いてないで」または「もう大丈夫だよ」の自然言語処理結果より生成される合成音声のいずれか）を決定して、決定した伝達すべき対象となるプレイヤに対して、決定した伝達すべき情報を、決定した伝達方法で伝達する。

結果として、ユーザは、VR内のプレイヤの動きを制御する際、自らの自然な行動、姿勢、発話、視線の動きを行うだけで、VRコンテキスト情報を考慮した適切な発話範囲を決定することができる上、決定された発話範囲を認識しながら発話することができるので、誰に発話した内容が伝達されているのかわからないことによる不安を払拭することができ、安心して発話することが可能となる。

＜情報処理装置の制御処理＞
次に、図１８のフローチャートを参照して、制御部の制御処理について説明する。

ステップＳ１１において、発話範囲制御部３１ａが、発話範囲決定処理を実行して、発話範囲を決定する。尚、発話範囲決定処理は、図２０のフローチャートを参照して、詳細を後述する。

ステップＳ１２において、伝達制御部３１ｂは、伝達制御処理を実行して、決定された発話範囲に対して音声、またはテキストを伝達する。尚、伝達制御処理については、図２１のフローチャートを参照して、詳細を後述する。

以上の処理により、発話範囲が決定されて、発話範囲に対して、ユーザＨの発話内容に応じた音声、およびテキストプレートが、発話範囲内のプレイヤに伝達される。

＜コンテキスト情報収集処理＞
次に、図１９のフローチャートを参照して、コンテキスト情報収集処理について説明する。

ステップＳ３１において、VRコンテキスト情報取得部３９は、VR内におけるプレイヤや各種のオブジェクトのVRコンテキスト情報を取得し、発話範囲制御部３１ａに供給する。発話範囲制御部３１ａは、VRコンテキスト情報を記憶部３３に格納する。

ステップＳ３２において、行動情報取得部４０は、行動情報、および姿勢情報を取得し、発話範囲制御部３１ａに供給する。発話範囲制御部３１ａは、行動情報、および姿勢情報を記憶部３３に格納する。

ステップＳ３３において、視線認識処理部４１は、ユーザＨの視線情報を認識し、発話範囲制御部３１ａに供給する。発話範囲制御部３１ａは、視線情報を記憶部３３に格納する。

ステップＳ３４において、音声取得部３６は、ユーザＨの発話による音声を音声データとして取得し、発話範囲制御部３１ａに供給する。発話範囲制御部３１ａは、音声データを記憶部３３に格納する。

ステップＳ３５において、発話範囲制御部３１ａは、処理の終了が指示されたか否かを判定し、終了が指示されない場合、処理は、ステップＳ３１に戻り、同様の処理が繰り返される。そして、ステップＳ３５において、処理の終了が指示された場合、処理は終了する。

以上の処理により、コンテキスト情報である、VRコンテキスト情報、行動情報および姿勢情報、視線情報、および音声データ（音声処理結果を含む）が、繰り返し取得されて順次最新の情報に書き換えられて記憶部３３に記憶される。

＜発話範囲決定処理＞
次に、図２０のフローチャートを参照して、発話範囲決定処理について説明する。

ステップＳ５１において、発話範囲制御部３１ａは、図１９のフローチャートを参照して説明したコンテキスト情報収集処理が繰り返されることで、記憶部３３に格納されているコンテキスト情報を読み出す。

ステップＳ５２において、発話範囲制御部３１ａは、読み出されたコンテキスト情報を解析する。

ステップＳ５３において、発話範囲制御部３１ａは、コンテキスト情報の解析結果に基づいて、発話範囲を決定する。

ステップＳ５４において、発話範囲制御部３１ａは、通信部３５を介して、決定した発話範囲の情報を他の情報処理装置１１に通知し、振動部３４、画像出力部３７、および音声出力部３８のうちの少なくともいずれかを制御して、決定した発話範囲を提示する。

ステップＳ５５において、発話範囲制御部３１ａは、通信部３５を介して、他の情報処理装置１１の発話範囲の情報の通知を受信し、振動部３４、画像出力部３７、および音声出力部３８のうちの少なくともいずれかを制御して、他の情報処理装置１１の発話範囲を提示する。

以上の処理により、ユーザＨは、自らが装着する情報処理装置１１のプレイヤとしての発話範囲の情報と、他の情報処理装置１１を装着した、他のプレイヤの発話範囲の情報とを提示することが可能となるので、自らの発話範囲と、他のプレイヤの発話範囲とを認識して発話することが可能となる。尚、図２０のフローチャートにおいては、自らの発話範囲と、他のプレイヤの発話範囲とのいずれについても提示する例について説明しているが、いずれか一方のみでもよい。

より具体的には、以上の処理により、図４乃至図１０の発話範囲を決定させることが可能となる。

＜伝達制御処理＞
次に、図２１のフローチャートを参照して、伝達制御処理について説明する。ここで、伝達制御処理は、発話範囲が決定していることが前提となる。

ステップＳ７１において、伝達制御部３１ｂは、音声取得部３６を制御して、ユーザＨの発話を音声データとして取得し、通信部３５を制御して、取得した音声データをクラウドサーバ群１２に送信する。

ステップＳ７２において、クラウドサーバ群１２の音声解析処理部６１は、音声データを音声認識処理、および意味解析処理に必要なレベルにノイズ除去するなどした後音声解析処理部６１は、音声データに基づいて、例えば、言語の種別（日本語、フランス語、英語など）、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。

ステップＳ７３において、音声認識部６２は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部６３および音声合成部６６に供給する。自然言語処理部６３は、テキストデータなどからなる音声認識結果を、前後の文脈などから自然な言語となるように変換して、変換結果を意味解析処理部６４に供給する。

意味解析処理部６４は、自然言語処理された音声認識結果である発話されている言葉に基づいて、意味を解析し、意味解析結果を情報処理装置１１に送信する。感情推定処理部６５は、音声データ、および意味解析結果に基づいて、発話したユーザの感情を推定し、感情推定結果を情報処理装置１１に送信する。

ステップＳ７４において、伝達制御部３１ｂは、音声データ、音声解析結果、自然言語処理結果、意味解析結果、および感情推定結果の少なくともいずれかを用いて、発話範囲となるプレイヤのうち、情報を伝えるべき対象となるプレイヤを決定する。

ステップＳ７５において、伝達制御部３１ｂは、音声データ、音声解析結果、自然言語処理結果、意味解析結果、および感情推定結果の少なくともいずれかを用いて、伝える情報を決定する。すなわち、伝達制御部３１ｂは、例えば、所定のユーザの発話内容、警告音、振動、および、合成音声のいずれか伝える情報を決定する。

ステップＳ７６において、伝達制御部３１ｂは、音声データ、音声解析結果、自然言語処理結果、意味解析結果、および感情推定結果の少なくともいずれかを用いて、伝える情報の伝え方を決定する。伝達制御部３１ｂは、例えば、音声認識結果の表示方法などを決定する。

ステップＳ７７において、伝達制御部３１ｂは、決定した対象に対して、決定した情報を、決定した伝え方で、通知する。

ステップＳ７８において、伝達制御部３１ｂは、発話範囲を解除する。

以上の処理により、ユーザＨにより発話された音声データ、音声認識結果、意味解析結果、および感情推定結果の少なくともいずれかにより、発話範囲決定処理により決定された発話範囲内に存在するプレイヤのいずれかを対象とするプレイヤ、伝えるべき情報、および伝え方が決定されて、通知される。

より具体的には、以上の処理により、発話範囲が決定された後の発話による、図１１乃至図１５の伝達制御処理を実現させることが可能となる。

また、これを応用することで、例えば、VR内において味方に複数の言語を使用する仲間が存在するような場合、移動する際に近くの仲間に対して指示を出すにあたり、発話範囲内に、英語のみでしかコミュニケーションがとれないプレイヤＡとフランス語でしかコミュニケーションが取れないプレイヤＢとの二人が存在し、自らは日本語でしか指示が出せず、さらに、プレイヤＡのユーザは、視覚は通常であるが、聴覚障害があり、プレイヤＢのユーザは、視覚障害であるが、聴覚は通常である場合を想定する。

この場合、自らが日本語の発話により二人に指示Ｃを出すときには、プレイヤＡに対しては指示Ｃを英語に変換して、かつ、テキストデータを画像で表示するように伝達し、プレイヤＢに対しては指示Ｃをフランス語に変換して、かつ、合成音声で伝達するといったことが可能となる。すなわち、発話内容に応じて、発話の対象がプレイヤＡまたはＢのいずれかが決定され、伝えるべき情報が英語の指示Ｃまたはフランス語の指示Ｃのいずれかに決定され、伝達方法が、テキストデータを画像で表示して伝達する、または、合成音声で伝達する、のいずれかに決定される。この際、いずれのプレイヤを制御するユーザも自らの障害や使用言語などを意識する必要がない上、VR内における没入感を崩さず、また、VR世界観を損なわないままコミュニケーション相手を制御することが可能となる。

また、図９，図１０を参照して説明したアイコンタクトを授受する状態を発話範囲として表示する例を応用することで、例えば、VR内における会食やパーティなどで、ビジネスシーンとして営業を掛けたい相手に対してアイコンタクトを送り、相互のアイコンタクトが成立したタイミングで、アイコンタクトが成立した相手同士でのビジネスの会話を実現できるようにしてもよい。この場合、発話範囲は、アイコンタクトが成立した相手同士であるので、秘匿性の高い会話も可能となる。

さらに、以上においては、VR内での発話範囲と伝達制御について説明してきたが、相互に通信装置を用いなければ対話ができない、例えば、水中や宇宙空間などであれば、現実空間においても発話範囲と伝達制御を応用することが可能である。

いずれにおいても、発話範囲決定処理により、コンテキスト情報に基づいて、対象となる発話範囲が決められて、これがユーザに通知された後、発話範囲を確認しながら、発話することができ、さらに、発話に基づいた伝達制御処理により、より高度に発話の対象となるプレイヤが決定されて、伝えるべき情報、および伝え方が決定されて、情報が通知される。

結果として、VR内のプレイヤ間のコミュニケーションにおいて、送付先や送付元が明確なので、快適なVR内のプレイヤ間のコミュニケーションを実現することができる。また、ダイレクトメッセージとパブリックメッセージとを区別することができ、さらに、誰に伝わるか明確な状態で発話してコミュニケーションをとることができるので、VR内における没入感を崩さず、また、VR世界観を損なわないままコミュニケーション相手を制御することが可能となる。

＜ソフトウェアにより実行させる例＞
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。

図２２は、汎用のパーソナルコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)１００１を内蔵している。CPU１００１にはバス１００４を介して、入出力インタ-フェイス１００５が接続されている。バス１００４には、ROM(Read Only Memory)１００２およびRAM(Random Access Memory)１００３が接続されている。

入出力インタ-フェイス１００５には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部１００６、処理操作画面や処理結果の画像を表示デバイスに出力する出力部１００７、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部１００８、LAN（Local Area Network）アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部１００９が接続されている。また、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む）、光磁気ディスク（ＭＤ(Mini Disc)を含む）、もしくは半導体メモリなどのリムーバブルメディア１０１１に対してデータを読み書きするドライブ１０１０が接続されている。

CPU１００１は、ROM１００２に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディア１０１１ら読み出されて記憶部１００８にインストールされ、記憶部１００８からRAM１００３にロードされたプログラムに従って各種の処理を実行する。RAM１００３にはまた、CPU１００１が各種の処理を実行する上において必要なデータなども適宜記憶される。

以上のように構成されるコンピュータでは、CPU１００１が、例えば、記憶部１００８に記憶されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記憶部１００８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部１００９で受信し、記憶部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記憶部１００８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

尚、図２２におけるCPU１００１が、CPU３１に対応するものである。

また、本明細書において、システムとは、複数の構成要素（装置、モジュール（部品）等）の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、１つの筐体の中に複数のモジュールが収納されている１つの装置は、いずれも、システムである。

なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本開示は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

尚、本開示は、以下のような構成も取ることができる。
＜１＞コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部を含む
情報処理装置。
＜２＞前記発話範囲は、前記プレイヤが発話した音声データに基づいた情報を認識可能な他のプレイヤが存在する範囲である
＜１＞に記載の情報処理装置。
＜３＞前記コンテキスト情報は、前記プレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含む
＜１＞または＜２＞に記載の情報処理装置。
＜４＞前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部をさらに含み、
前記発話範囲決定部は、前記音声データに基づいて、前記発話範囲を決定する
＜３＞に記載の情報処理装置。
＜５＞前記発話範囲決定部は、前記音声データの高低に基づいて、前記発話範囲を決定する
＜４＞に記載の情報処理装置。
＜６＞前記発話範囲決定部は、前記音声データの話速に基づいて、前記発話範囲を決定する
＜４＞に記載の情報処理装置。
＜７＞前記コンテキスト情報のうち、前記行動情報、および前記姿勢情報を取得する行動情報姿勢情報取得部をさらに含み、
前記発話範囲決定部は、前記行動情報、および前記姿勢情報に基づいて、前記発話範囲を決定する
＜３＞に記載の情報処理装置。
＜８＞前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部をさらに含み、
前記発話範囲決定部は、前記視線情報に基づいて、前記発話範囲を決定する
＜３＞に記載の情報処理装置。
＜９＞前記コンテキスト情報のうち、前記周辺コンテキスト情報を取得する周辺コンテキスト情報取得部をさらに含み、
前記発話範囲決定部は、前記周辺コンテキスト情報に基づいて、前記発話範囲を決定する
＜３＞に記載の情報処理装置。
＜１０＞前記周辺コンテキスト情報は、VR（Virtual Reality）コンテキスト情報を含む
＜９＞に記載の情報処理装置。
＜１１＞前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部と、
前記VRコンテキスト情報に基づいて、VR空間を表示する表示部とをさらに含み、
前記発話範囲決定部が、前記視線情報に基づいて、前記プレイヤの視線が前記VR空間内における所定のプレイヤの存在する位置に所定時間停滞するとき、前記表示部は、前記所定のプレイヤを表示する位置上に、前記視線が停滞する時間を表す視線停滞マークを表示する
＜１０＞に記載の情報処理装置。
＜１２＞前記発話範囲決定部は、前記視線情報に基づいて、前記プレイヤの視線が、前記表示部により表示される、前記VR空間内における他のプレイヤの存在する位置に所定時間より長時間停滞するとき、前記他のプレイヤを発話範囲として決定し、
前記表示部は、前記他のプレイヤを表示する位置上に、前記視線により発話範囲に決定したことを示すマークを表示する
＜１１＞に記載の情報処理装置。
＜１３＞前記発話範囲決定部が、前記VR空間における、前記他のプレイヤの前記視線情報に基づいて、前記プレイヤを前記他のプレイヤの視線により前記発話範囲内に決定したとき、
前記表示部は、前記他のプレイヤを表示する位置上に被視線停滞マークを表示する
＜１２＞に記載の情報処理装置。
＜１４＞前記発話範囲決定部は、前記VR空間における、前記プレイヤの前記視線情報に基づいて、前記被視線停滞マークを視認したことが確認できた場合、前記他のプレイヤを前記発話範囲に決定し、
前記表示部は、前記他のプレイヤを表示する位置上に、アイコンタクトが成立したことを表すマークを表示する
＜１３＞に記載の情報処理装置。
＜１５＞前記VRコンテキスト情報に基づいて、VR空間を表示する表示部と、
前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部と、
前記音声データ取得部により取得された前記音声データに基づいて、前記発話範囲に含まれるどのプレイヤに対して伝達するかを制御する伝達制御部をさらに含み、
前記伝達制御部は、前記音声データの音声認識結果をテキストとして前記表示部に表示し、前記発話範囲に複数の前記プレイヤが存在する場合、前記複数のプレイヤのそれぞれに対して順次テキストを順番に移動させて表示する
＜１０＞に記載の情報処理装置。
＜１６＞前記伝達制御部は、前記発話範囲内のプレイヤに対しては視認可能であって、かつ、前記発話範囲外のプレイヤには視認不能なテキストを前記表示部に表示する
＜１５＞に記載の情報処理装置。
＜１７＞前記発話範囲は、前記プレイヤに対して、画像、警告音声、警告振動、および警告合成音のいずれか、または、その組み合わせにより提示される
＜１＞乃至＜１６＞のいずれかに記載の情報処理装置。
＜１８＞コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する
ステップを含む情報処理方法。
＜１９＞コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部
としてコンピュータを機能させるプログラム。

１１，１１－１乃至１１－ｎ情報処理装置，１２クラウドサーバ群，３１ CPU，３１ａ発話範囲制御部，３１ｂ伝達制御部，３２メモリ，３３記憶部，３４振動部，３５通信部，３６音声取得部，３７画像出力部，３８音声出力部，３９ VRコンテキスト情報取得部，４０行動情報取得部，４１視線認識処理部，６１音声解析処理部，６２音声認識部，６３自然言語処理部，６４意味解析処理部，６５感情推定処理部，６６音声合成部

Claims

VR（Virtual Reality）空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、前記プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部を含む
情報処理装置。
前記発話範囲は、前記プレイヤが発話した音声データに基づいた情報を認識可能な他のプレイヤが存在する範囲である
請求項１に記載の情報処理装置。
前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部をさらに含み、
前記発話範囲決定部は、前記音声データに基づいて、前記発話範囲を決定する
請求項１に記載の情報処理装置。
前記発話範囲決定部は、前記音声データの高低に基づいて、前記発話範囲を決定する
請求項３に記載の情報処理装置。
前記発話範囲決定部は、前記音声データの話速に基づいて、前記発話範囲を決定する
請求項３に記載の情報処理装置。
前記コンテキスト情報のうち、前記行動情報、および前記姿勢情報を取得する行動情報姿勢情報取得部をさらに含み、
前記発話範囲決定部は、前記行動情報、および前記姿勢情報に基づいて、前記発話範囲を決定する
請求項１に記載の情報処理装置。
前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部をさらに含み、
前記発話範囲決定部は、前記視線情報に基づいて、前記発話範囲を決定する
請求項１に記載の情報処理装置。
前記コンテキスト情報のうち、前記周辺コンテキスト情報を取得する周辺コンテキスト情報取得部をさらに含み、
前記発話範囲決定部は、前記周辺コンテキスト情報に基づいて、前記発話範囲を決定する
請求項１に記載の情報処理装置。
前記周辺コンテキスト情報は、VR（Virtual Reality）コンテキスト情報を含む
請求項８に記載の情報処理装置。
前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部と、
前記VRコンテキスト情報に基づいて、前記VR空間を表示する表示部とをさらに含み、
前記発話範囲決定部が、前記視線情報に基づいて、前記プレイヤの視線が前記VR空間内における所定のプレイヤの存在する位置に所定時間停滞するとき、前記表示部は、前記所定のプレイヤを表示する位置上に、前記視線が停滞する時間を表す視線停滞マークを表示する
請求項９に記載の情報処理装置。
前記発話範囲決定部は、前記視線情報に基づいて、前記プレイヤの視線が、前記表示部により表示される、前記VR空間内における他のプレイヤの存在する位置に所定時間より長時間停滞するとき、前記他のプレイヤを発話範囲として決定し、
前記表示部は、前記他のプレイヤを表示する位置上に、前記視線により発話範囲に決定したことを示すマークを表示する
請求項１０に記載の情報処理装置。
前記発話範囲決定部が、前記VR空間における、前記他のプレイヤの前記視線情報に基づいて、前記プレイヤを前記他のプレイヤの視線により前記発話範囲内に決定したとき、
前記表示部は、前記他のプレイヤを表示する位置上に被視線停滞マークを表示する
請求項１１に記載の情報処理装置。
前記発話範囲決定部は、前記VR空間における、前記プレイヤの前記視線情報に基づいて、前記被視線停滞マークを視認したことが確認できた場合、前記他のプレイヤを前記発話範囲に決定し、
前記表示部は、前記他のプレイヤを表示する位置上に、アイコンタクトが成立したことを表すマークを表示する
請求項１２に記載の情報処理装置。
前記VRコンテキスト情報に基づいて、VR空間を表示する表示部と、
前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部と、
前記音声データ取得部により取得された前記音声データに基づいて、前記発話範囲に含まれるどのプレイヤに対して伝達するかを制御する伝達制御部をさらに含み、
前記伝達制御部は、前記音声データの音声認識結果をテキストとして前記表示部に表示し、前記発話範囲に複数のプレイヤが存在する場合、前記複数のプレイヤのそれぞれに対して順次テキストを順番に移動させて表示する
請求項９に記載の情報処理装置。
前記伝達制御部は、前記発話範囲内のプレイヤに対しては視認可能であって、かつ、前記発話範囲外のプレイヤには視認不能なテキストを前記表示部に表示する
請求項１４に記載の情報処理装置。
前記発話範囲は、前記プレイヤに対して、画像、警告音声、警告振動、および警告合成音のいずれか、または、その組み合わせにより提示される
請求項１に記載の情報処理装置。
VR（Virtual Reality）空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する
ステップを含む情報処理方法。
VR（Virtual Reality）空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部
としてコンピュータを機能させるプログラム。