JP7124715B2 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JP7124715B2
JP7124715B2 JP2018563264A JP2018563264A JP7124715B2 JP 7124715 B2 JP7124715 B2 JP 7124715B2 JP 2018563264 A JP2018563264 A JP 2018563264A JP 2018563264 A JP2018563264 A JP 2018563264A JP 7124715 B2 JP7124715 B2 JP 7124715B2
Authority
JP
Japan
Prior art keywords
information
player
utterance
range
sight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018563264A
Other languages
English (en)
Other versions
JPWO2018135304A1 (ja
Inventor
真一 河野
祐平 滝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2018135304A1 publication Critical patent/JPWO2018135304A1/ja
Application granted granted Critical
Publication of JP7124715B2 publication Critical patent/JP7124715B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/424Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving acoustic input signals, e.g. by using the results of pitch or rhythm extraction or voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/215Input arrangements for video game devices characterised by their sensors, purposes or types comprising means for detecting acoustic signals, e.g. using a microphone
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/25Output arrangements for video game devices
    • A63F13/28Output arrangements for video game devices responding to control signals received from the game device for affecting ambient conditions, e.g. for vibrating players' seats, activating scent dispensers or affecting temperature or light
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • A63F13/537Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • A63F13/537Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen
    • A63F13/5372Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game using indicators, e.g. showing the condition of a game character on screen for tagging characters, objects or locations in the game scene, e.g. displaying a circle under the character controlled by the player
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/79Game security or game management aspects involving player-related data, e.g. identities, accounts, preferences or play histories
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/85Providing additional services to players
    • A63F13/87Communicating with other players during game play, e.g. by e-mail or chat
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F13/00Interconnection of, or transfer of information or other signals between, memories, input/output devices or central processing units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/10Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by input arrangements for converting player-generated signals into game device control signals
    • A63F2300/1081Input via voice recognition
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/50Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers
    • A63F2300/57Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game characterized by details of game servers details of game services offered to the player
    • A63F2300/572Communication between players during game play of non game information, e.g. e-mail, chat, file transfer, streaming of audio and streaming of video
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8082Virtual reality

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Optics & Photonics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • User Interface Of Digital Computer (AREA)
  • Processing Or Creating Images (AREA)
  • Information Transfer Between Computers (AREA)

Description

本開示は、情報処理装置、および情報処理方法、並びにプログラムに関し、特に、仮想現実空間(VR:Virtual Reality)におけるプレイヤ間のコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御できるようにした情報処理装置、および情報処理方法、並びにプログラムに関する。
仮想現実空間(以下、VR:Virtual Realityと称する)における音源とプレイヤの位置情報に基づき、リアリティを保ちつつ(VR世界観を保ちつつ)コミュニケーション相手へ音声を届ける手法が提案されている(特許文献1参照)。
特開2016-187063号公報
しかしながら、上述した特許文献1に係る技術においては、位置情報に基づいており、同じ範囲にいる相手に一様に伝わってしまい、特定の相手にのみ伝える、および、全員に伝えるといったことを切り替えるような制御ができず、いずれか一方のみを一律に制御することしかできない。
このため、ユーザは、伝わる相手を把握できないまま発話することになり、自らの発話内容が誰に伝わってしまうのか不安を抱くことになる。
また、UI(User Interface)等を出すことで、特定の相手にのみ伝える、および、全員に伝えるといったことを切り替えるような制御は可能となるが、一般的な、UI操作だと、本来の目的であるゲーム等の操作に影響が出てしまい、VRの世界観を大幅に損なう恐れがある。
さらに、VRにおけるプレイヤ間のコミュニケーションにおいては、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御することができなかった。すなわち、VRにおけるプレイヤ間のコミュニケーションにおいては、送付先や送付元が分かりづらく、ダイレクトメッセージとパブリックメッセージを区別できないので、誰に伝わるかわからない状態で発話する必要があり、このような状況下でコミュニケーションすること自体が苦痛を伴うものとなってしまう恐れがあった。
本開示は、このような状況に鑑みてなされたものであり、特に、VRにおけるプレイヤとのコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御できるようにするものである。
本開示の一側面の情報処理装置は、VR(Virtual Reality)空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、前記プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部を含む情報処理装置である。
前記発話範囲は、前記プレイヤが発話した音声データに基づいた情報を認識可能な他のプレイヤが存在する範囲とすることができる。
前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記音声データに基づいて、前記発話範囲を決定させるようにすることができる。
前記発話範囲決定部には、前記音声データの高低に基づいて、前記発話範囲を決定させるようにすることができる。
前記発話範囲決定部には、前記音声データの話速に基づいて、前記発話範囲を決定させるようにすることができる。
前記コンテキスト情報のうち、前記行動情報、および前記姿勢情報を取得する行動情報姿勢情報取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記行動情報、および前記姿勢情報に基づいて、前記発話範囲を決定させるようにすることができる。
前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記視線情報に基づいて、前記発話範囲を決定させるようにすることができる。
前記コンテキスト情報のうち、前記周辺コンテキスト情報を取得する周辺コンテキスト情報取得部をさらに含ませるようにすることができ、前記発話範囲決定部には、前記周辺コンテキスト情報に基づいて、前記発話範囲を決定させるようにすることができる。
前記周辺コンテキスト情報には、VR(Virtual Reality)コンテキスト情報を含ませるようにすることができる。
前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部と、前記VRコンテキスト情報に基づいて、前記VR空間を表示する表示部とをさらに含ませるようにすることができ、前記発話範囲決定部が、前記視線情報に基づいて、前記プレイヤの視線が前記VR空間内における所定のプレイヤの存在する位置に所定時間停滞するとき、前記表示部には、前記所定のプレイヤを表示する位置上に、前記視線が停滞する時間を表す視線停滞マークを表示させるようにすることができる。
前記発話範囲決定部には、前記視線情報に基づいて、前記プレイヤの視線が、前記表示部により表示される、前記VR空間内における他のプレイヤの存在する位置に所定時間より長時間停滞するとき、前記他のプレイヤを発話範囲として決定させ、前記表示部には、前記他のプレイヤを表示する位置上に、前記視線により発話範囲に決定したことを示すマークを表示させるようにすることができる。
前記発話範囲決定部が、前記VR空間における、前記他のプレイヤの前記視線情報に基づいて、前記プレイヤを前記他のプレイヤの視線により前記発話範囲内に決定したとき、前記表示部には、前記他のプレイヤを表示する位置上に被視線停滞マークを表示させるようにすることができる。
前記発話範囲決定部には、前記VR空間における、前記プレイヤの前記視線情報に基づいて、前記被視線停滞マークを視認したことが確認できた場合、前記他のプレイヤを前記発話範囲に決定させ、前記表示部には、前記他のプレイヤを表示する位置上に、アイコンタクトが成立したことを表すマークを表示させるようにすることができる。
前記VRコンテキスト情報に基づいて、VR空間を表示する表示部と、前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部と、前記音声データ取得部により取得された前記音声データに基づいて、前記発話範囲に含まれるどのプレイヤに対して伝達するかを制御する伝達制御部をさらに含ませるようにすることができ、前記伝達制御部には、前記音声データの音声認識結果をテキストとして前記表示部に表示し、前記発話範囲に複数のプレイヤが存在する場合、前記複数のプレイヤのそれぞれに対して順次テキストを順番に移動させて表示させるようにすることができる。
前記伝達制御部には、前記発話範囲内のプレイヤに対しては視認可能であって、かつ、前記発話範囲外のプレイヤには視認不能なテキストを前記表示部に表示させるようにすることができる。
前記発話範囲は、前記プレイヤに対して、画像、警告音声、警告振動、および警告合成音のいずれか、または、その組み合わせにより提示されるようにすることができる。
本開示の一側面の情報処理方法は、VR(Virtual Reality)空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定するステップを含む情報処理方法である。
本開示の一側面のプログラムは、VR(Virtual Reality)空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部としてコンピュータを機能させるプログラムである。
本開示の一側面においては、VR(Virtual Reality)空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲が発話範囲として決定される。
本開示の一側面によれば、特に、仮想現実空間(VR:Virtual Reality)におけるプレイヤとのコミュニケーションにおいて、没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手を制御することが可能となる。
本開示の情報処理システムの構成例を示すブロック図である。 図1の画像出力部の表示例を説明する図である。 フィードバック表示欄を説明する図である。 発話範囲の表示例1を説明する図である。 発話範囲の表示例2を説明する図である。 発話範囲の表示例3を説明する図である。 発話範囲の表示例4を説明する図である。 発話範囲の表示例5を説明する図である。 発話範囲の表示例6を説明する図である。 発話範囲の表示例7を説明する図である。 発話範囲が確定した状況に応じて情報の伝達を制御する例1を説明する図である。 音声認識結果の表示例1を説明する図である。 音声認識結果の表示例2を説明する図である。 音声認識結果の表示例3を説明する図である。 音声認識結果の表示例4を説明する図である。 発話範囲の解除を説明する図である。 発話範囲が確定した状況に応じて情報の伝達を制御する例2を説明する図である。 制御処理を説明するフローチャートである。 コンテキスト情報収集処理を説明するフローチャートである。 発話範囲決定処理を説明するフローチャートである。 伝達制御処理を説明するフローチャートである。 汎用のパーソナルコンピュータの構成例を説明する図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<情報処理システムの構成例>
本開示の技術を適用した、情報処理装置とクラウドサーバ群とからなる情報処理システムの構成例について説明する。
図1の情報処理システムは、仮想現実空間(以下、VR:Virtual Realityとも称する)で実現されるゲーム等のプレイヤであるユーザに、例えば、ヘッドマウントディスプレイのように装着される情報処理装置11-1乃至11-nと、情報処理装置11-1乃至11-nに提示される様々な情報の生成と制御を実現するクラウドサーバ群12とから構成される。尚、情報処理装置11-1乃至11-nのそれぞれは、特に区別する必要がない場合、単に、情報処理装置11と称する。
情報処理装置11は、ユーザのコンテキスト情報として、VR内での状況および位置関係、行動、姿勢、および視線、並びに、発話する際の音声を検出し、検出結果であるコンテキスト情報に基づいて、ユーザの発話を伝える相手となるVR内のプレイヤを発話範囲として決定する。情報処理装置11は、発話範囲を、自らを装着するユーザに認識できる形態、例えば、ディスプレイなどで表示することにより提示する。この提示により、ユーザは、自らの発話範囲を認識しながら発話することが可能となり、VR内で自らの発話がどの相手に伝わっているのかわからないままコミュニケーションする苦痛から解放される。
また、情報処理装置11は、発話内容に応じて、発話範囲内のプレイヤを絞り込んで発話内容を、伝える相手となるプレイヤにより使用される他の情報処理装置11に通知し、他の情報処理装置11を使用するユーザに提示する。この際、情報処理装置11は、様々な情報を、ユーザの視覚、聴覚、および触覚を通して提示する。
さらに、情報処理装置11は、様々な情報を視覚、聴覚、触覚を通してユーザに提示するにあたって、コンテキスト情報のうち、音声データを、必要に応じて、複数のサーバコンピュータなどからなるクラウドサーバ群12に送信し、解析させ、解析結果を利用する。
クラウドサーバ群12は、コンテキスト情報のうち音声データを解析し、解析結果を情報処理装置11に送信する。
情報処理装置11は、クラウドサーバ群12から送信される、自らを装着するユーザであるプレイヤがVR内で情報を伝えようとする相手を特定する情報を取得し、特定した相手の情報に基づいて、VR内における、自らを装着しているユーザの発話の届く範囲である発話範囲や、発話範囲内の相手であるプレイヤをユーザに通知(提示)する。
このような構成により、VRで実現されるゲーム等のプレイヤを制御するユーザは、VRで実現される空間内において、VR内における没入感を崩さず、かつ、VR世界観を損なわないままコミュニケーション相手、すなわち、情報を伝えようとする相手を切り替えながら(相手の切り替えを制御しながら)発話することが可能となる。
以下、より具体的に、図1の情報処理システムを構成する情報処理装置11およびクラウドサーバ群12の構成例について説明する。
尚、以降においては、VR内において実現されるゲームを例として説明を進めるものとし、ゲーム内の登場人物をプレイヤと称し、情報処理装置11を装着するユーザは、それぞれにゲーム内に登場するプレイヤを制御することで、VR内において実現されるゲームに参加する。
情報処理装置11は、CPU(Central Processing Unit)31、メモリ32、記憶部33、振動部34、通信部35、音声取得部36、画像出力部37、音声出力部38、VRコンテキスト情報取得部39、行動情報取得部40、および視線認識処理部41を備えている。
CPU31は、バス42を介して、接続された各種の構成を制御して、情報処理装置11の動作の全体を制御している。またCPU31は、HDD(Hard Disc Drive)、または、SSD(Solid State Drive)などからなる記憶部33に格納されているプログラムを読み出し、半導体メモリなどからなるメモリ32に展開して実行し、所定の機能を実現する。より詳細には、CPU31は、記憶部33に格納されているプログラムを実行することにより、発話範囲制御部31a、および伝達制御部31bとして機能する。
発話範囲制御部31aは、音声取得部36、VRコンテキスト情報取得部39、行動情報取得部40、および視線認識処理部41により取得されるコンテキスト情報に基づいて、ユーザが制御するプレイヤの発話範囲を決定する。より具体的には、発話範囲制御部31aは、ユーザにより制御されるプレイヤが、VR内で発話する際、発話した内容を認識することができる他のプレイヤが存在する範囲、または、発話した内容を認識することができる他のプレイヤを決定する。
ここで、コンテキスト情報は、プレイヤの状態を表す情報である。より具体的には、コンテキスト情報は、例えば、音声取得部36により取得される音声データ、VRコンテキスト情報取得部39により取得されるVRコンテキスト情報、行動情報取得部40により取得される行動情報および姿勢情報、および視線認識処理部41により取得される視線情報である。また、VRコンテキスト情報は、VR内におけるユーザが制御するプレイヤやオブジェクトと、その周辺のプレイヤやオブジェクトの位置や状況を含むものである。
音声データに関するコンテキスト情報は、例えば、音声のピッチ、音量、周波数、言語などであり、さらに、音声データに基づいて求められる感情なども含む。
行動情報に関するコンテキスト情報は、例えば、止まる、歩く、走るといったプレイヤの行動を識別する情報である。
姿勢情報に関するコンテキスト情報は、例えば、向き、座る、立つといったプレイヤの姿勢を識別する情報である。
視線情報に関するコンテキスト情報は、例えば、視線方向、および注視状態などのプレイヤの視線に関する情報である。
さらに、コンテキスト情報は、上述の他に、プレイヤの状況を含むものであり、例えば、泣いている、笑っている、すましている、悲しんでいる、喜んでいるといったプレイヤの状況を含む。
伝達制御部31bは、発話範囲が特定されている状態で、ユーザが発話する際の音声データに基づいて、発話範囲内において、さらに、伝達するべき対象を絞り込むと共に、伝達する情報、および伝達方法を制御する。
振動部34は、ヘッドマウントディスプレイなどからなる情報処理装置11の本体の複数の部位を切り替えて振動させ、情報処理装置11を装着するユーザの頭部の各種の部位に対して、振動による刺激を与える。
通信部35は、所定の周波数帯域の無線通信、または、有線通信により、例えば、LAN(Local Area Network)の通信を実現し、インターネットなどを介して、所定のデータやプログラムの送受信を実行する。
音声取得部36は、例えば、マイクロフォンより構成されており、情報処理装置11を装着しているユーザにより発せられる音声を取得して、音声データとしてバス42を介してCPU31に出力する。
画像出力部37は、例えば、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)からなり、情報処理装置11が全体としてヘッドマウントディスプレイとして機能するとき、ユーザに対してVR内の画像を表示するVRディスプレイとして機能する。
音声出力部38は、例えば、スピーカやヘッドフォンからなり、ユーザに対してVR内の音声を出力する。
VRコンテキスト情報取得部39は、VR内における各種のオブジェクトやプレイヤの位置および状況(他のプレイヤの位置や状況を含む)を含めたVRコンテキスト情報を取得し、バス42を介してCPU31に供給する。
行動情報取得部40は、VR内のプレイヤの動作を制御するユーザの行動情報や姿勢情報を取得し、CPU31に供給する。より具体的には、行動情報取得部40は、例えば、ジャイロセンサ、画像認識カメラ、脈拍センサ、加速度センサ、および唇認識センサからなる。
視線認識処理部41は、例えば、VR内のプレイヤの動作を制御するユーザの目を撮像するカメラにより撮像された目の画像より視線方向を認識する。
クラウドサーバ群12は、図示せぬインターネットなどからなるネットワーク上に存在する複数のサーバコンピュータ群からなり、音声解析処理部61、音声認識部62、自然言語処理部63、意味解析処理部64、感情推定処理部65、および音声合成(TTS)部66として機能する。クラウドサーバ群12の各種の機能は、単独のサーバコンピュータで実現するようにしてもよいし、複数のサーバコンピュータにより実現するようにしてもよい。
音声解析処理部61は、情報処理装置11より供給される音声データに対して、ノイズ除去や所定の周波数の音声を強調すると共に、各種の音声データの解析を実行する。音声解析処理部61は、例えば、音声データに基づいた言語の種別(日本語、英語、フランス語など種別)、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。また、音声解析処理部61は、ノイズ除去した音声データを音声認識部62に供給する。
音声認識部62は、音声解析処理部61より供給される音声データより発せられている言葉(例えば、テキストデータ)として認識し、音声データと共に認識結果を自然言語処理部63に供給する。
自然言語処理部63は、音声認識部62より供給される音声データと認識結果に基づいて、認識結果に自然言語処理を施して、例えば、テキストデータからなる処理結果を意味解析処理部64に出力する。
意味解析処理部64は、自然言語処理された、例えば、テキストデータからなる処理結果に基づいて、意味を解析して解析結果を感情推定処理部65に出力する。
感情推定処理部65は、音声解析結果および意味解析結果に基づいて、音声データからなる音声を発したプレイヤを制御するユーザの感情を推定する。尚、音声データに基づいた感情推定の具体的な手法については、例えば、「音声脳神経分析技術の応用 心を定量計測する技術(http://agi-web.co.jp/docs/Univ-Tokyo.pdf)」を参照されたい。
音声合成(TTS:Text to Speech)部66は、自然言語処理結果である自然な言語に変換されたテキストデータに基づいてTTSにより合成音声を生成する。
<画像出力部の表示例について>
次に、図2を参照して、画像出力部の表示例ついて説明する。
画像出力部37は、例えば、図2の左部で示されるようにユーザHの頭部に装着され、かつ、ユーザHの目視により視聴可能な画像が表示される、いわゆる、ヘッドマウントディスプレイである。
画像出力部37には、例えば、図2の右部で示されるような画像P1が表示される。図2の右部で示される画像P1は、ゲーム中の戦闘シーンの画像例であり、ユーザHが制御するプレイヤにより構える銃と、銃を持つ手により自らが操作するプレイヤ91-1が表現され、味方の仲間であるプレイヤ91-2乃至91-4、および敵となるプレイヤ92-1,92-2がそれぞれ表されている。各プレイヤ91-2乃至91-4,92-1,92-2を制御するそれぞれのユーザが装着する情報処理装置11の画像出力部37には、それぞれのプレイヤのVR内における位置関係に対応する画像が表示される。
<フィードバック表示欄>
また、画像P1には、図3で示されるように、VRコンテキスト情報をフィードバックするVRコンテキスト情報フィードバック表示欄101、入力状況(音声データ)をフィードバックする入力状況フィードバック表示欄102、および視線を示すマーク103が設けられている。
図3の画像P1には、VRコンテキスト情報取得部39により取得されたコンテキスト情報、および行動情報取得部40により取得された行動情報、および姿勢情報に基づいて、ユーザHが制御するプレイヤが、VR内で視聴される画像が表示される。したがって、コンテキスト情報、並びに、行動情報、および姿勢情報に基づいて、例えば、プレイヤが前方に向かって、所定の姿勢で、走って移動していることが認識されれば、対応して、周囲の風景が変化し、プレイヤが前方に向かって、所定の姿勢で走って移動していることを認識できる画像が画像P1として表示される。
図3の画像P1の右上部で示されるように、VRコンテキスト情報フィードバック表示欄101には、VRコンテキスト情報取得部39により取得されたVRコンテキスト情報に基づいた、ユーザHが制御するプレイヤの位置が水平方向直線および垂直方向直線の交点となるポイント91P-1を中心として、図中上方の矢印方向を、プレイヤの前方としたときの周囲のプレイヤの配置を表すポイントが表示されている。
図3においては、中心位置となる自らの位置を表すポイント91P-1に対して、それ以外のプレイヤの存在する位置を表すポイントの方向、および距離が認識できるように表示されている。
すなわち、図3で示されるように、ユーザHが制御するプレイヤが存在する中心位置であるポインタ91P-1から見て、左前方には、仲間のプレイヤの位置を表すポイント91P-2乃至91P-4、および敵のプレイヤの位置を表すポイント92P-1が表示されており、右前方には、敵のプレイヤの位置を表すポイント92P-2,92P-xが表示されており、左後方には、仲間のプレイヤの位置を表すポイント91P-mが表示されており、右後方には、仲間のプレイヤの位置を表すポイント91P-nが表示されている。
また、図3の画像P1の右下部で示されるように、入力状況フィードバック表示欄102には、音声取得部36により取得された音声の信号レベルを表す波形が表示されている。
このように図3で示されるような画像P1を視聴することで、ユーザHは、VRにおける自ら以外のプレイヤの、自らを中心とした方向と距離を認識すると共に、自らが発話した音声による入力が十分になされているのか否かを認識することが可能となる。
また、図3の画像P1における左下部には、視線認識処理部41により取得された視線情報に基づいて視線を示すマーク103が表示される。マーク103は、目を象ったアイコンであり、情報処理装置11を装着しているユーザHの画像P1内における視線方向に対応する位置に示される。
<発話範囲の表示例1>
次に、図4を参照して、自らの発話の音声の高低に基づいた発話範囲の表示例1について説明する。
ユーザHが、図4の画像P1を視聴しながら、敵となるプレイヤの接近が見えて、例えば、「敵が来たな さてどうしようかな」といった発話があった場合、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
この処理により、音声解析処理部61は、音声データを取得すると、ノイズ除去処理などの、解析に適した処理を施した後、音声データを解析し、解析結果を情報処理装置11に送信すると共に、音声データを音声認識部62および感情推定処理部65に送信する。より詳細には、音声解析処理部61は、音声データに基づいて、例えば、言語の種別、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。
音声認識部62は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部63および音声合成部66に供給する。
自然言語処理部63は、テキストデータなどからなる音声認識結果を、前後の文脈などから自然な言語となるように変換して、変換結果を意味解析処理部64に供給する。
意味解析処理部64は、自然言語処理部63より供給される変換結果に基づいて、ユーザHの発話した意味を解析して意味解析結果として感情推定処理部65に供給する。
感情推定処理部65は、音声解析処理部61より供給されてくる音声データ、および意味解析処理部64の意味解析結果に基づいて、ユーザHの感情を推定し、感情推定結果と意味解析結果とを情報処理装置11に送信する。
音声合成部66は、テキストデータからなる自然言語処理結果に基づいてTTSにより合成音声を生成して、情報処理装置11に送信する。
発話範囲制御部31aは、感情推定結果および意味解析結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。
より詳細には、発話範囲制御部31aは、例えば、意味解析結果に基づいて、「敵が来たな さてどうしようかな」といったユーザHの発話内容を、例えば、図4の表示欄M1で示されるように、画像出力部37内における画像P1の上部などに表示させる。また、発話範囲制御部31aは、例えば、音声データの基本周波数の解析結果に基づいて、図4の下部の波形G1で示されるように、音声の基本周波数と、発生頻度の関係を求め、閾値Fthreshを超える周波数帯域の発生頻度が高いか否かに基づいて、感情を推定する。
例えば、図4の下部の波形図G1で示されるように、閾値Fthreshを超えない周波数帯域の発生頻度が高く、低い声で発声されているとみなされた場合、発話範囲制御部31aは、冷静に発声されているものとみなし、ユーザHのプレイヤの周囲の極近い仲間のプレイヤにのみ発生されているものとみなす。
このとき、発話範囲制御部31aは、例えば、図4のVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図4のVRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHのプレイヤの位置を示すポイント91P-1から極近いプレイヤ91-2,91-3の位置を示すポイント91P-2,91P-3が含まれる範囲を発話範囲に決定し、例えば、発話範囲121として表示する。
同様に、発話範囲制御部31aは、画像P1内におけるユーザHのプレイヤ91-1の位置を示すポイントから極近いプレイヤ91-2,91-3が存在する範囲を、発話範囲122として表示する。
このように発話範囲が決定された場合、後述処理により、以降において、ユーザが発話した情報は、発話範囲内のプレイヤにのみ伝達される。
このように発話範囲121,122が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らの発話範囲を認識することができる。
結果として、ユーザは、今、自らが発話した情報が、どの相手に伝わるのかを認識した上で、発話を実行することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
尚、図4の表示欄M1で示される「敵が来たな さてどうしようかな」といったユーザHの発話内容のテキストデータの表示については、他の方法でユーザHに伝達できるようにしてもよいものであり、例えば、音声合成部66により合成音声を生成させて、音声出力部38より音声として出力させるようにしてもよい。
また、図4を参照して説明した、クラウドサーバ群12の音声解析処理部61、音声認識部62、自然言語処理部63、意味解析処理部64、感情推定処理部65、および音声合成部66による処理と同様の処理により得られる処理結果ついては、以降の説明において、必要に応じて、音声処理結果と総称し、適宜説明を省略する。
<発話範囲の表示例2>
次に、図5を参照して、他のプレイヤの発話に基づいた発話範囲の表示例2について説明する。
例えば、図5のVRコンテキスト情報フィードバック表示欄101内における、ユーザHの左後方の、画像P1内に表示されないプレイヤ91-mが、「うわぁ、、、つよそう」といった発話があった場合、ユーザH以外のユーザであって、プレイヤ91-mを操作するユーザの所持する情報処理装置11の音声取得部36が、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信し、上述した一連の処理により音声処理結果として取得すると、上述した一連の処理と同様の処理により発話範囲を決定する。そして、発話範囲制御部31aは、決定した発話範囲の情報と音声処理結果を他の情報処理装置11に対して送信する。
ユーザHにより装着された情報処理装置11の発話範囲制御部31aは、通信部35を制御して、他の情報処理装置11より送信される発話範囲の情報を取得する。
ここでは、音声処理結果は、自然言語処理部63により音声データより認識された「うわぁ、、、つよそう」といったテキストデータ、およびテキストデータに基づいて音声合成部66により生成された「うわぁ、、、つよそう」の合成音声である。
発話範囲制御部31aは、VRコンテキスト情報取得部39により取得されたプレイヤ91-mのVRコンテキスト情報、プレイヤ91-mに対応するユーザが装着する情報処理装置11からの発話範囲の情報に基づいて、プレイヤ91-mの発話範囲を認識する。そして、発話範囲制御部31aは、例えば、VRコンテキスト情報フィードバック表示欄101内において、プレイヤ91-mの発話範囲を、例えば、図5の発話範囲121として表示する。発話範囲121には、ユーザHの存在する位置を示すVRコンテキスト情報フィードバック表示欄101内の中心位置と、プレイヤ91-mのVR内のポインタ91P-mとが含まれている。
発話範囲制御部31aは、例えば、自然言語処理結果に基づいて、「うわぁ、、、つよそう」といったユーザHの発話内容を、例えば、図5の表示欄M11で示されるように、画像出力部37内における画像P1の上部などに表示させる。
このように発話範囲121が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121を目視するだけで、自ら以外のプレイヤの発話範囲を認識することができる。
尚、発話範囲は、図5の発話範囲121,122で示されるように、画像出力部37に画像として表示する他の方法で表現するようにしてもよい。
例えば、図5の左下部で示されるように、発話範囲制御部31aは、プレイヤ91-mのコンテキスト情報に基づいて、音声出力部38を制御して、VRコンテキスト情報フィードバック表示欄101内の位置に対応する方向である、左後方から「ピピピッ」という警告音声132を出力させるようにしてもよい。この際、距離が近いときには大音量とし、遠いときには小音量にすることで、音声のみで発話範囲の方向および距離を認識することが可能となる。
また、例えば、図5の中央下部で示されるように、発話範囲制御部31aは、プレイヤ91-mのコンテキスト情報に基づいて、振動部34を制御して、VRコンテキスト情報フィードバック表示欄101内の位置に対応する、左後方から警告振動133を発生させるようにしてもよい。この際、距離が近いときには大振動とし、遠いときには小振動にすることで、振動のみで発話範囲の方向および距離を認識することが可能となる。
さらに、例えば、図5の右下部で示されるように、発話範囲制御部31aは、プレイヤ91-mのコンテキスト情報に基づいて、音声出力部38を制御して、VRコンテキスト情報フィードバック表示欄101内の位置に対応する、左後方から音声合成部66により生成された「うわぁ、、、つよそう」という警告合成音134を出力させるようにしてもよい。この際、距離が近いときには大音量とし、遠いときには小音量にすることで、音声のみで発話範囲の方向および距離を認識することが可能となる。
このように発話範囲は、画像のみならず、警告音声、警告振動、および警告合成音などにより、このようにユーザHに対して、発話範囲内に存在するプレイヤの方向や距離がわかるように表現されればよいものである。
結果として、どの相手からの音声が伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に対して応答すべきかを認識しながら、発話することが可能となるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
<発話範囲の表示例3>
次に、図6を参照して、自らの発話の音声の話速に基づいた発話範囲の表示例3について説明する。
ユーザHが、画像P1を視聴しながら、敵となるプレイヤの接近が見えて、例えば、「前方にぃー、注目ぅー、レアアイテムをぉー、保持しているぅー、可能性がぁー、あーりますー」といった発話があった場合、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
発話範囲制御部31aは、クラウドサーバ群12の処理により得られる音声処理結果に基づいて、発話範囲を決定し、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。ここで、音声処理結果として使用されるのは、例えば、音声解析結果および自然言語処理結果である。
より詳細には、発話範囲制御部31aは、自然言語処理結果に基づいて、「前方にぃー、注目ぅー、レアアイテムをぉー、保持しているぅー、可能性がぁー、あーりますー」といったユーザHの発話内容を、例えば、図6の表示欄M21で示されるように、画像出力部37内における画像P1の上部などに表示させる。また、発話範囲制御部31aは、例えば、単位時間当たりの音素数の大小、すなわち、話速の音声解析結果に基づいて、ユーザHの周辺の、どのプレイヤに対する発話であるかを判定する。例えば、図6の場合、長音符号があることからゆっくりとした話速であることが推定されるので、発話範囲制御部31aは、話速が所定の速度よりも低いものとみなし、近くに存在する仲間となるプレイヤ全員に対するものであるものとみなす。
このとき、発話範囲制御部31aは、例えば、図6のVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図6のVRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHのプレイヤ91-1の位置から近い仲間となるプレイヤ91-2乃至91-4,91-m,91-nの位置を示すポイント91P-2乃至91P-4,91P-m,91P-nが含まれる範囲を、発話範囲121として表示する。
同様に、画像P1内におけるユーザHのプレイヤ91-1の位置から近い味方のプレイヤ91-2乃至91-4が存在する範囲を、発話範囲制御部31aは、発話範囲122として表示する。
このように発話範囲121,122が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らの発話範囲を認識することができる。
結果として、伝わる相手を確認してから、発話を実行することが可能となり、発話に際して、どの相手に伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
<発話範囲の表示例4>
次に、図7を参照して、VRコンテキスト情報に基づいた発話範囲の表示例4について説明する。
ユーザHが、例えば、図7の画像P2を視聴しながら、例えば、「どうしたの 大丈夫かな」といった発話があった場合、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
発話範囲制御部31aは、クラウドサーバ群12より得られる音声処理結果のうち自然言語処理結果および感情推定結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P2内の発話範囲122として表示する。ここで、画像P2には、ユーザHが制御するプレイヤ151-0、および、子供のプレイヤ151-1乃至151-5が映し出されており、このうち、子供のプレイヤ151-1は笑っており、プレイヤ151-2は、すましており、プレイヤ151-3は、遊んでおり、プレイヤ151-4,151-5が、泣いている状態である。それぞれの子供のプレイヤ151-1乃至151-5の状態は、VRコンテキスト情報に含まれている。
そこで、この場合、発話範囲制御部31aは、例えば、図7の表示欄M31で示されるように、画像出力部37内における画像P1の上部などに、自然言語処理結果である「どうしたの 大丈夫かな」と表示させる。また、発話範囲制御部31aは、感情推定結果に基づいて、感情推定処理部65による音声データの、例えば、入力音声が小さく、優しく発話されているか否かの解析結果に基づいて、ユーザHの周辺の泣いているプレイヤに対する発話であるかを判定する。例えば、図7の場合、プレイヤ151-4,151-5が、泣いている状態であるので、発話範囲制御部31aは、泣いている子に優しく話しかけているものとみなし、泣いている子供のプレイヤに対するものであるものとみなす。
このとき、発話範囲制御部31aは、例えば、図7のVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図7のVRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHのプレイヤ151-0、および泣いているプレイヤ151-4,151-5の位置を示すポイント151P-4,151P-5が含まれる範囲を、発話範囲121として表示する。
同様に、画像P2内におけるユーザHのプレイヤ151-0と、泣いている子供のプレイヤ151-4,151-5とが存在する範囲を、発話範囲制御部31aは、発話範囲122として表示する。
このように発話範囲121,122が、画像P2内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らの発話範囲を認識することができる。
結果として、発話により伝わる相手を確認してから、発話を実行することが可能となり、発話に際して、どの相手に伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
<発話範囲の表示例5>
次に、図8を参照して、行動情報および姿勢情報に基づいた発話範囲の表示例5について説明する。
発話範囲制御部31aは、行動情報および姿勢情報に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。
より詳細には、行動情報および姿勢情報に基づいて、ユーザHが立って、かつ、走っている場合、発話範囲制御部31aは、例えば、VRコンテキスト情報に基づいて、ユーザHの周辺のどのプレイヤに対する発話であるかを判定する。
例えば、図8の場合、ユーザHが制御するプレイヤ91-1が立って、かつ、走っているので、発話範囲制御部31aは、VRコンテキスト情報に基づいて、ユーザHの周辺で、同様に、立って、かつ、走っているプレイヤに対するものであるものとみなす。
このとき、発話範囲制御部31aは、例えば、図8のVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図8のVRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHのプレイヤ91-1の位置を示すポイント91P-1から近い味方となるプレイヤ91-2,91-3の位置を示すポイント91P-2,91P-3が含まれる範囲を、発話範囲121として表示する。
同様に、画像P1内におけるユーザHのプレイヤ91-1の位置から近い仲間のプレイヤ91-2,91-3が存在する範囲を、発話範囲制御部31aは、発話範囲122として表示する。
このように発話範囲121,122が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らと同様の行動と姿勢をとるプレイヤの存在する範囲を発話範囲として認識することができる。
結果として、発話により伝わる相手を確認してから、発話することが可能となり、発話に際して、どの相手に伝わっているのかを確認しながら発話することができるので、発話にあたって、誰に伝わってしまうかわからない状態で発話するという不安を低減させることが可能となる。
<発話範囲の表示例6>
次に、図9を参照して、ユーザHの視線情報に基づいた発話範囲の表示例6について説明する。
発話範囲制御部31aは、視線情報に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。
より詳細には、視線情報に基づいて、発話範囲制御部31aは、画像P1内におけるどのプレイヤに視線が向けられているかを判定し、ユーザHの周辺のどのプレイヤを発話範囲とするかを判定する。
例えば、図9の場合、発話範囲制御部31aは、視線情報に基づいて、ユーザHの周辺で、プレイヤ91-2に対して視線が向けられていることを認識する。
このとき、発話範囲制御部31aは、例えば、図9の画像P1-1で示されるように、VRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図9の画像P1-1で示されるように、VRコンテキスト情報フィードバック表示欄101内の、発話範囲121には、ユーザHにより制御されるプレイヤ91-1の位置となるVRコンテキスト情報フィードバック表示欄101の円内の水平方向の直線と垂直方向の直線との交点の位置(以下、交点位置と称する)と、プレイヤ91-2の位置を示すポイント91P-2が含まれる範囲を、発話範囲121として表示する。
同様に、発話範囲制御部31aは、図9の画像P1-1で示されるように、ユーザHのプレイヤの位置を示すポイントと、ユーザHの視線方向の仲間のプレイヤ91-2が存在する範囲を、発話範囲122として表示し、さらに、プレイヤ91-2上に視線が向けられていることを示すマーク103-1を表示する。
さらに、所定時間が経過すると、図9の画像P1-2で示されるように、発話範囲制御部31aは、視線が向けられてから所定時間が経過していることを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-1に代えて、マーク103-2を表示する。
さらにまた、所定時間が経過すると、図9の画像P1-3で示されるように、発話範囲制御部31aは、視線が向けられてから視線方向が確定するタイミングまで、残り時間が3秒であることを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-2に代えて、マーク103-3を表示する。
さらにまた、所定時間が経過すると、図9の画像P1-4で示されるように、発話範囲制御部31aは、視線が向けられてから視線方向が確定するタイミングまで、残り時間が2秒であることを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-3に代えて、マーク103-4を表示する。
さらにまた、所定時間が経過すると、図9の画像P1-5で示されるように、発話範囲制御部31aは、視線が向けられてから視線方向が確定するタイミングまで、残り時間が1秒であることを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-4に代えて、マーク103-5を表示する。
さらにまた、所定時間が経過すると、図9の画像P1-6で示されるように、発話範囲制御部31aは、視線方向が確定されたことを示すため、プレイヤ91-2上に視線が向けられていることを示すマーク103-5に代えて、マーク103-6を表示する。
このように発話範囲121,122が、画像P1内に表示されるので、ユーザHは、画像出力部37における発話範囲121,122を目視するだけで、自らが視線によるアイコンタクトを、特定のプレイヤに対して送っていることを発話範囲として決定することができる。
結果として、アイコンタクトのような視線による合図を送っているか否かを認識することが可能となり、視線により発話範囲を決定させることが可能となる。
<発話範囲の表示例7>
次に、図10を参照して、他のプレイヤの視線情報に基づいた発話範囲の表示例7について説明する。ここでは、図9を参照して説明した処理により、仲間のプレイヤからユーザHに、アイコンタクトが自らに向けられていることを認識させるように発話範囲を表示し、送られているアイコンタクトに応じて視線を送るとアイコンタクトが成立する例である。例えば、図9の画像、発話範囲制御部31aは、通信部35を制御して、視線が向けられているプレイヤを制御するユーザにより装着されている他の情報処理装置11から、視線情報を含むコンテキスト情報が送信される。
そこで、発話範囲制御部31aは、他のプレイヤを制御するユーザにより装着されている他の情報処理装置11からの視線情報に基づいて、発話範囲を特定して、例えば、図10の画像P1内に視線が送られていることを示す情報を表示する。
より詳細には、他のプレイヤの情報処理装置11からのコンテキスト情報に含まれる視線情報に基づいて、発話範囲制御部31aは、画像P1内におけるどのプレイヤからの視線が向けられているかを判定し、ユーザHの周辺のどのプレイヤを発話範囲とするかを判定する。例えば、図10の場合、発話範囲制御部31aは、他のプレイヤの視線情報に基づいて、プレイヤ91-2からの視線が向けられていることを認識する。
発話範囲制御部31aは、図10の画像P1-11で示されるように、視線が向けられている仲間のプレイヤ91-2上に視線が向けられていることを示すマーク171-1を表示する。
さらに、所定時間が経過すると、図10の画像P1-12で示されるように、発話範囲制御部31aは、視線が向けられてからの経過時間を示すため、プレイヤ91-2上に視線が向けられていることを示すマーク171-1に代えて、マーク171-2を表示する。
さらにまた、所定時間が経過すると、図10の画像P1-13で示されるように、発話範囲制御部31aは、視線が向けられてからの経過時間を示すため、プレイヤ91-2上に視線が向けられていることを示すマーク171-2に代えて、マーク171-3を表示する。
さらにまた、所定時間が経過すると、図10の画像P1-14で示されるように、発話範囲制御部31aは、視線が向けられてから経過時間を示すため、プレイヤ91-2上に視線が向けられていることを示すマーク171-3に代えて、マーク171-4を表示する。マーク171-4には「Look at me」と記載されており、アイコンタクトに応じる旨の記載がされている。
ここで、ユーザHがマーク171-4に視線を向けると、図10の画像P1-15で示されるように、発話範囲制御部31aは、アイコンタクトが成立したことを示すため、マーク171-4に代えて、プレイヤ91-2とのアイコンタクトが確認できたことを示すマーク171-5を表示する。マーク171-5には、「eye-contact」と記載されており、アイコンタクトが成立したことを示す。尚、この場合、相手となる他の情報処理装置11においても同様の表示がなされる。
さらにまた、所定時間が経過すると、図10の画像P1-16で示されるように、発話範囲制御部31aは、アイコンタクトが確認できて、かつ、発話範囲が確定したことを示すため、発話範囲制御部31aは、VRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示する。すなわち、図10の画像P1-16で示されるように、発話範囲制御部31aは、VRコンテキスト情報フィードバック表示欄101内において、ユーザHのプレイヤとプレイヤ91-2の位置を示す交点位置とポイント91P-2が含まれる範囲を、発話範囲121として表示する。同様に、図10の画像P1-16で示されるように、ユーザHのプレイヤ91-1とプレイヤ91-2とが含まれた発話範囲122が表示される。
このように、図9を参照して説明したアイコンタクトを送る処理と併せて、アイコンタクトを受ける処理がなされることにより、発話範囲121,122が、アイコンタクトを送りあったプレイヤの相互の画像P1内に表示されるので、アイコンタクトを送りあったユーザは、画像出力部37における発話範囲121,122を目視するだけで、相手となるプレイヤとのアイコンタクトが成立し、相互に発話範囲として認識することができる。
結果として、アイコンタクトのような視線を向けるだけの合図による意思疎通が図れているか否かを認識することが可能となり、目線だけでの発話範囲を確認させることが可能となり、例えば、アイコンタクトが成立した後は、アイコンタクトが成立したプレイヤ同士で発話範囲に設定されるので、アイコンタクトが成立したプレイヤ間のみでの会話を実現することが可能となる。
尚、図9,図10を参照して説明した処理により、アイコンタクトの授受は可能となるが、例えば、サッカーやバスケットボールなどでは、アイコンタクトの授受を一瞬で行う必要があり、上述したように数秒程度時間の掛かるアイコンタクトでは使用に耐えない。
このため、上述したように視線を送る時間に応じて、アイコンタクトを成立させるのではなく、一瞬であっても、相互の視線が所定の条件を満たせば、成立するようにしてもよい。例えば、プレイヤ相互の視線情報を用いて、相互の視線方向を示すベクトルの内積が、所定値よりも小さい場合、相互の視線方向が一致したものとみなして、アイコンタクトを成立するようにしてもよい。
<発話範囲が確定した状況に応じて情報の伝達を制御する例1>
次に、図11を参照して、上述の処理により発話範囲が確定した状況に応じて情報の伝達を制御する例1について説明する。
上述の処理により発話範囲が確定した状態で、ユーザHが、画像P1を視聴しながら、敵となるプレイヤの接近が見えて、例えば、「敵が来たな さてどうしようかな」といった発話があった場合、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
この処理により、音声解析処理部61は、音声データを取得すると、ノイズ除去処理などの、解析に適した処理を施した後、音声データを解析し、解析結果を情報処理装置11に送信すると共に、音声データを音声認識部62および感情推定処理部65に送信する。より詳細には、音声解析処理部61は、音声データに基づいて、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。
音声認識部62は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部63および音声合成部66に供給する。
自然言語処理部63は、テキストデータなどからなる認識情報を、前後の文脈などから自然な言語となるように変換して、変換結果となるテキストデータを意味解析処理部64に供給する。
意味解析処理部64は、自然言語処理部63より供給される変換結果に基づいて、ユーザHの発話した意味を解析して解析結果である意味解析結果を感情推定処理部65に供給する。
感情推定処理部65は、音声解析処理部61より供給されてくる音声データ、および意味解析処理部64の解析結果に基づいて、ユーザHの感情を推定し感情推定結果と意味解析結果とを情報処理装置11に送信する。
音声合成部66は、テキストデータからなる自然言語処理結果に基づいてTTSにより合成音声を生成して、情報処理装置11に送信する。
伝達制御部31bは、感情推定結果および自然言語処理結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P1内の発話範囲122として表示する。
尚、図4乃至図10で表示される、発話範囲制御部31aにより一旦決定された発話範囲121,122に対して、図11で表示される発話範囲121,122は、実際に発話があったときに、伝達制御部31bにより、さらに、発話範囲の絞り込みが掛けられたものといえる。
また、伝達制御部31bは、自然言語処理結果であるテキストデータに基づいて、「敵が来たな さてどうしようかな」といったユーザHの発話内容に基づいて、例えば、図11の上段における表示欄M41で示されるように、画像出力部37内における画像P1の上部などに表示させる。
ここで、例えば、図11の上段におけるVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示させ、発話範囲121が確定している場合において、例えば、音声データにより、発話による入力音声の音量が所定値よりも大きく、かつ、「体力回復支援よろしく」といった発話があったとき、伝達制御部31bは、後方にいる仲間のプレイヤ91-m,91-nに発話したものとみなす。このため、伝達制御部31bは、図11の下段におけるプレイヤ91-m,91-nの位置に対応したポインタ91P-m,91P-nを含む発話範囲121-1を表示させる。
伝達制御部31bは、自然言語処理結果であるテキストデータに基づいて、「体力回復支援よろしく」といったユーザHの発話内容に基づいて、例えば、図11における表示欄M42で示されるように、表示させる。尚、ここでは、音量がVolume=50とされており、例えば、所定値がVolume=20であるとき、所定値よりも大きいことが示されている。
一方、例えば、図11の上段におけるVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示させ、発話範囲121が確定している場合において、例えば、音声データにより、発話による入力音声の音量が所定値よりも小さく、かつ、「ライフルで攻撃」といった発話があったとき、伝達制御部31bは、前方にいる仲間のプレイヤ91-2,91-3に発話したものとみなす。このため、伝達制御部31bは、図11の下段におけるプレイヤ91-2,91-3の位置に対応したポインタ91P-2,91P-2を含む発話範囲121-2を表示させる。
伝達制御部31bは、自然言語処理結果であるテキストデータに基づいて、「ライフルで攻撃」といったユーザHの発話内容に基づいて、例えば、図11における表示欄M43で示されるように、表示させる。尚、ここでは、音量がVolume=10とされており、例えば、所定値がVolume=20であるとき、所定値よりも小さいことが示されている。
このとき、伝達制御部31bは、図11の下段におけるVRコンテキスト情報フィードバック表示欄101内における発話範囲121-2に含まれるポイント91P-2,91P-3に対応する画像P1上でプレイヤ91-3,91-2に対して、「ライフルで攻撃」と表示されたテキストプレート191を、点線の矢印で示されるように移動させて表示する。
すなわち、「ライフルで攻撃」と表示されたテキストプレート191は、点線の矢印で示されるように、画像P1上でプレイヤ91-3を経由して、プレイヤ91-2に到達する。このとき、対応するプレイヤ91-3,91-2にのみ、テキストプレート191の情報が読み取れるように表示される。
テキストプレート191は、図11の下部の画像P1で示されるように、一筆書きのような順序でプレイヤ91間を順次回覧するように伝達するように表示する。このようにテキストプレート191が、発話範囲内のプレイヤ91間を移動することにより、発話範囲内のプレイヤに伝達されていることを確実に認識することが可能となる。すなわち、ユーザHにより制御されるプレイヤ91-1から、同時に、複数のプレイヤ91に対してテキストプレート191が同時に移動するような表示にすると、特に、プレイヤ数が膨大なときには、どのプレイヤに対してテキストプレート191が送られたのかを認識できず、どのプレイヤに伝達されたのかを認識できなくなる恐れがあるからである。
以上の処理により、発話範囲制御部31aにより発話範囲が確定した後、発話されることにより、伝達制御部31bが、伝達するべき対象となるプレイヤ、伝達するべき情報、伝え方(伝達方法)を決定して、決定した伝達すべき対象となるプレイヤに対して、決定した伝達すべき情報を、決定した伝達方法で伝達する。
結果として、ユーザは、VR内のプレイヤの動きを制御する際、自らの自然な行動、姿勢、発話、視線の動きを行うだけで、VRコンテキスト情報に基づいた適切な発話範囲を決定することができる上、決定された発話範囲を認識しながら発話することができるので、誰に発話した内容が伝達されているのかわからないことによる不安を払拭することが可能となるので、安心して発話することが可能となる。
また、発話範囲が決定された後は、自然な発話をするだけで、発話範囲内で、伝達するべき対象となるプレイヤ、伝達するべき情報、および伝え方(伝達方法)が決定されて、発話に応じて決定された伝達すべき対象となるプレイヤに対して、発話に応じて決定された伝達すべき情報を、発話に応じて決定された伝達方法で伝達することが可能となる。
<音声認識結果の表示例1>
発話範囲内のプレイヤに対して、発話した音声データが音声認識されてテキストデータに変換された後、さらに、自然言語処理された音声認識結果であるテキストデータを、例えば、3次元のテキストからなる、例えば、図12のテキストプレート191で表現する場合、伝える相手に対して正対するように表示する必要がある。
例えば、図12の左部で示されるような場合、VRにおいて、プレイヤH3が、「あの敵を倒そうよ」と発話し、音声認識結果が、3次元のテキストプレートT1として表現されるとき、プレイヤH1,H2が発話範囲内であれば、伝達制御部31bは、テキストプレートT1を、プレイヤH3を起点として、点線の矢印で示されるようにプレイヤH1に移動するように表示させる。
このとき、テキストプレートT1は、プレイヤH3からプレイヤH1に移動するとき、プレイヤH1,H3に対しては正対しているので、プレイヤH1,H3は、適切にテキストプレートT1を視認することができ、プレイヤH3がどのような内容の発話をしたのかをプレイヤH1が認識することができる。
これに対して、テキストプレートT1は、プレイヤH2に対しては正対していないので、図12の右上部で示されるように、プレイヤH2はテキストプレートT1を適切に視認することができない恐れがある。
そこで、プレイヤH3の発話範囲内にプレイヤH1,H2が含まれているような場合、図12の右下部で示されるように、プレイヤH1乃至H3のいずれからも正対するように3次元のテキストプレートT2のように表示するようにする。
尚、図12の右下部における左部には、上部からみたプレイヤH1乃至H3の配置が示されており、図12の右下部における右部には、プレイヤH3を起点にして、プレイヤH1に対して点線の矢印で示されるように移動する3次元のテキストプレートT2は、プレイヤH1乃至H3のいずれからも視認できるように方向が計算されて表示されることが示されている。
図12のような表示によりプレイヤH1乃至H3が、それぞれの位置からテキストプレートT11を視認できるので、発話範囲内の全プレイヤがテキストプレートで表示される内容を適切に認識することが可能となる。
<音声認識結果の表示例2>
図13の状態J1で示されるように、VR内にプレイヤH1乃至H3が存在し、プレイヤH2が「あの敵を倒そう」と発話し、発話範囲内にプレイヤH1,H3が含まれている場合、伝達制御部31bは、発話した音声が音声認識された認識結果を、状態J2で示されるように、テキストプレートT11として、点線の矢印で示されるように、プレイヤH2からプレイヤH3に対して正対しながら移動するように表示させる。次に、伝達制御部31bは、状態J3で示されるように、テキストプレートT11を、プレイヤH3からプレイヤH1に対して正対しながら移動させるように表示する。
図13の状態J1乃至J3のような表示によりプレイヤH1乃至H3が、それぞれの位置からテキストプレートT11に正対するので、VR内において、プレイヤH2により発話された「あの敵を倒そう」が、発話範囲内に含まれる全プレイヤであるプレイヤH1,H3に対して伝達されたことを認識することが可能となる。
また、このように1個のテキストプレートT11が、発話範囲内の複数のプレイヤに対して順番に伝達されるように表示されることで、一度に、複数のプレイヤに伝達されるような表現にならないので、プレイヤH2のユーザHは画像出力部37を視聴することで、発話範囲内のプレイヤを認識しつつ、自らの発話内容が発話範囲内のどのプレイヤに伝達されたのかを確実に認識することが可能となる。
尚、以上においては、最新の1回の発話に関するテキストデータがテキストプレートとして伝達される例について説明してきたが、時系列の発話内容を複数に伝達するようにしてもよい。例えば、伝達制御部31bは、図13の状態J4で示されるように、プレイヤH11からの発話に対応して、「あの敵を倒そう」と記載されたテキストプレートT12、「次は何をしようか」と記載されたテキストプレートT13、および「みんなお別れ」と記載されたテキストプレートT14が発話されたタイミングに応じた時系列に配置して伝達させるようにしてもよい。図13の状態J4においては、「みんなお別れ」と記載されたテキストプレートT14に対応する発話が最も前のタイミングでなされ、その次に、「次は何をしようか」と記載されたテキストプレートT13に対応する発話され、最後に、「あの敵を倒そう」と記載されたテキストプレートT12に対応する発話がなされたことが示されている。
<音声認識結果の表示例3>
図14の状態J11で示されるように、VR内にプレイヤH1乃至H3が存在し、プレイヤH2が「あの敵を倒そう」と発話し、発話範囲にプレイヤH3のみが含まれている場合、伝達制御部31bは、発話された音声が認識された認識結果を、状態J12で示されるように、プレイヤH1に対しては目隠しが設けられたテキストプレートT21として、点線の矢印で示されるように移動するように表示させる。このとき、認識結果となるテキストプレートT21は、プレイヤH2より、プレイヤH3に対して視聴可能な状態で、かつ、プレイヤH1からは視聴できない状態で、プレイヤH1に対して移動する。
図14のような表示により、プレイヤH2は、発話範囲内のプレイヤH2,H3には発話内容であるテキストプレートT21が視聴可能であり、プレイヤH1には視聴不能であることを、VR内において、認識することが可能となる。すなわち、このような表示により、発話範囲内のプレイヤに対しては、自らの発話内容が伝達され、発話範囲外のプレイヤには伝達されていないことを認識することが可能となる。
<音声認識結果の表示例4>
図15の状態J31で示されるように、VR内にプレイヤH1乃至H5が存在し、プレイヤH2が「あの敵を倒そう」と発話し、発話範囲にプレイヤH3,H5のみが含まれている場合、伝達制御部31bは、発話された音声が認識された認識結果を、状態J32で示されるように視認できるプレイヤH3,H5を、全体を囲んた、プレイヤH3’,H5’として表現し、認識結果であるテキストプレートT31が引き出し線で結びつけられるように表示する。このような表示により、プレイヤH2が発話した内容が、プレイヤH3,H5に対して認識可能な状態で、かつ、プレイヤH1,H4からは認識できない状態であることを、プレイヤH2が認識することができる。
図15のような表示によりプレイヤH3,H5にはテキストプレートT31が視聴可能であり、プレイヤH1には視聴不能であることを、VR内において、認識することが可能となる。
また、伝達制御部31bは、認識結果を、状態J33で示されるように、視認できないプレイヤH1,H4には、目隠しをして、プレイヤH1’,H4’として表現し、認識結果であるテキストプレートT32を表示させるようにしてもよい。このような表示により、プレイヤH2が発話した内容が、プレイヤH3,H5に対して認識可能な状態で、かつ、プレイヤH1,H4からは認識できない状態であることを、プレイヤH2が認識することができるようにしてもよい。
<発話範囲の解除>
発話範囲制御部31aは、発話範囲が設定されてから所定の期間が経過した後、発話範囲を解除する。
すなわち、発話範囲制御部31aは、例えば、図16で示されるように、VRコンテキスト情報フィードバック表示欄101内に発話範囲121(または発話範囲122)を設定すると、例えば、「Lock remain 30sec」と表示し、設定したタイミングからの残り時間が表示される表示欄201を表示する。そして、発話範囲制御部31aは、所定の時間が経過すると、解除を示す「unlocked」と表示された表示欄202を表示して、VRコンテキスト情報フィードバック表示欄101内の発話範囲121(または発話範囲122)を解除する。
このような表示により、発話範囲121(または発話範囲122)が解除されたことをユーザに認識させることが可能となる。
尚、以上においては、発話範囲121(または発話範囲122)が設定されてからの経過時間に応じて解除される例について説明してきたが、それ以外の方法で発話範囲121(または発話範囲122)が解除されるようにしてもよい。例えば、「範囲を解除」と発話されるとき、発話範囲制御部31aは、発話範囲121を解除するようにしてもよい。また、発話範囲制御部31aは、「首を振る」、および「視線を遠くに滞留させる」といった特定のジェスチャが行動情報および姿勢情報により検出された場合、発話範囲121(または発話範囲122)を解除するようにしてもよい。
<発話範囲が確定した状況に応じて情報の伝達を制御する例2>
次に、図17を参照して、上述の処理により発話範囲が確定した状況に応じて情報の伝達を制御する例2について説明する。
上述の処理により発話範囲が確定した状態で、ユーザHが、図17の画像P2(図7の画像P2に対応する)を視聴しながら、音声取得部36は、音声として発話した音声を集音して取得し、音声データとしてCPU31に供給する。CPU31により制御される発話範囲制御部31aは、通信部35を制御して、音声データをクラウドサーバ群12に送信する。
この処理により、音声解析処理部61は、音声データを取得すると、ノイズ除去処理などの、解析に適した処理を施した後、音声データを解析し、解析結果を情報処理装置11に送信すると共に、音声データを音声認識部62および感情推定処理部65に送信する。より詳細には、音声解析処理部61は、音声データに基づいて、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。
音声認識部62は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部63および音声合成部66に供給する。
自然言語処理部63は、テキストデータなどからなる認識情報を、前後の文脈などから自然な言語となるように変換して、変換結果となるテキストデータを意味解析処理部64に供給する。
意味解析処理部64は、自然言語処理部63より供給される変換結果に基づいて、ユーザHの発話した意味を解析して解析結果である意味解析結果を感情推定処理部65に供給する。
感情推定処理部65は、音声解析処理部61より供給されてくる音声データ、および意味解析処理部64の解析結果に基づいて、ユーザHの感情を推定し感情推定結果と意味解析結果とを情報処理装置11に送信する。
音声合成部66は、テキストデータからなる自然言語処理結果に基づいてTTSにより合成音声を生成して、情報処理装置11に送信する。
伝達制御部31bは、感情推定結果および自然言語処理結果に基づいて、発話範囲を特定して、例えば、VRコンテキスト情報フィードバック表示欄101内の発話範囲121、および画像P2内の発話範囲122として表示する。
より詳細には、伝達制御部31bは、自然言語処理結果に基づいて、「どうしたの 大丈夫かな」といったユーザHの発話内容に基づいて、例えば、図17の上部における表示欄M51で示されるように、画像出力部37内における画像P2の上部などに表示させる。
ここで、例えば、図17の上段におけるVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示させ、発話範囲121が確定している場合、伝達制御部31bは、例えば、音声データに基づいた感情推定結果より、入力音声の声の抑揚が多くついているときは、音声に基づいて検出される感情として厳しいと判定されて、身内の子供のプレイヤ151-4に「いつまでも泣いてないで」というユーザHの発話内容に基づいて、例えば、表示欄M52で示されるように、画像出力部37内における画像P2の下部などに表示させる。
一方、例えば、図17の下段におけるVRコンテキスト情報フィードバック表示欄101内に、発話範囲121を表示させ、発話範囲121が確定している場合、伝達制御部31bは、例えば、音声データに基づいた感情推定結果より、入力音声の声の抑揚が付いてない時は、音声により解析される感情としてやさしいと判定されて、他人向けの子供151-5に「もう大丈夫だよ」というユーザHの発話内容に基づいて、例えば、表示欄M53で示されるように、画像出力部37内における画像P2の下部などに表示させる。
尚、図17においては、子供のプレイヤ151-4は、ユーザHが制御するプレイヤ151-0の身内の子供であり、子供のプレイヤ151-5は、ユーザHが制御するプレイヤ151-0の他人の子供であるものとする。
以上の処理により、発話範囲制御部31aにより発話範囲が確定した後、発話されることにより、伝達制御部31bが、伝達するべき対象となるプレイヤ(例えば、子供のプレイヤ151-4または151-5)、伝達するべき情報(例えば、「いつまでも泣いてないで」または「もう大丈夫だよ」)、伝え方(例えば、伝達方法:表示欄M52,53のようなテキストデータによる表示、または、「いつまでも泣いてないで」または「もう大丈夫だよ」の自然言語処理結果より生成される合成音声のいずれか)を決定して、決定した伝達すべき対象となるプレイヤに対して、決定した伝達すべき情報を、決定した伝達方法で伝達する。
結果として、ユーザは、VR内のプレイヤの動きを制御する際、自らの自然な行動、姿勢、発話、視線の動きを行うだけで、VRコンテキスト情報を考慮した適切な発話範囲を決定することができる上、決定された発話範囲を認識しながら発話することができるので、誰に発話した内容が伝達されているのかわからないことによる不安を払拭することができ、安心して発話することが可能となる。
また、発話範囲が決定された後は、自然な発話をするだけで、発話範囲内で、伝達するべき対象となるプレイヤ、伝達するべき情報、および伝え方(伝達方法)が決定されて、発話に応じて決定された伝達すべき対象となるプレイヤに対して、発話に応じて決定された伝達すべき情報を、発話に応じて決定された伝達方法で伝達することが可能となる。
<情報処理装置の制御処理>
次に、図18のフローチャートを参照して、制御部の制御処理について説明する。
ステップS11において、発話範囲制御部31aが、発話範囲決定処理を実行して、発話範囲を決定する。尚、発話範囲決定処理は、図20のフローチャートを参照して、詳細を後述する。
ステップS12において、伝達制御部31bは、伝達制御処理を実行して、決定された発話範囲に対して音声、またはテキストを伝達する。尚、伝達制御処理については、図21のフローチャートを参照して、詳細を後述する。
以上の処理により、発話範囲が決定されて、発話範囲に対して、ユーザHの発話内容に応じた音声、およびテキストプレートが、発話範囲内のプレイヤに伝達される。
<コンテキスト情報収集処理>
次に、図19のフローチャートを参照して、コンテキスト情報収集処理について説明する。
ステップS31において、VRコンテキスト情報取得部39は、VR内におけるプレイヤや各種のオブジェクトのVRコンテキスト情報を取得し、発話範囲制御部31aに供給する。発話範囲制御部31aは、VRコンテキスト情報を記憶部33に格納する。
ステップS32において、行動情報取得部40は、行動情報、および姿勢情報を取得し、発話範囲制御部31aに供給する。発話範囲制御部31aは、行動情報、および姿勢情報を記憶部33に格納する。
ステップS33において、視線認識処理部41は、ユーザHの視線情報を認識し、発話範囲制御部31aに供給する。発話範囲制御部31aは、視線情報を記憶部33に格納する。
ステップS34において、音声取得部36は、ユーザHの発話による音声を音声データとして取得し、発話範囲制御部31aに供給する。発話範囲制御部31aは、音声データを記憶部33に格納する。
ステップS35において、発話範囲制御部31aは、処理の終了が指示されたか否かを判定し、終了が指示されない場合、処理は、ステップS31に戻り、同様の処理が繰り返される。そして、ステップS35において、処理の終了が指示された場合、処理は終了する。
以上の処理により、コンテキスト情報である、VRコンテキスト情報、行動情報および姿勢情報、視線情報、および音声データ(音声処理結果を含む)が、繰り返し取得されて順次最新の情報に書き換えられて記憶部33に記憶される。
<発話範囲決定処理>
次に、図20のフローチャートを参照して、発話範囲決定処理について説明する。
ステップS51において、発話範囲制御部31aは、図19のフローチャートを参照して説明したコンテキスト情報収集処理が繰り返されることで、記憶部33に格納されているコンテキスト情報を読み出す。
ステップS52において、発話範囲制御部31aは、読み出されたコンテキスト情報を解析する。
ステップS53において、発話範囲制御部31aは、コンテキスト情報の解析結果に基づいて、発話範囲を決定する。
ステップS54において、発話範囲制御部31aは、通信部35を介して、決定した発話範囲の情報を他の情報処理装置11に通知し、振動部34、画像出力部37、および音声出力部38のうちの少なくともいずれかを制御して、決定した発話範囲を提示する。
ステップS55において、発話範囲制御部31aは、通信部35を介して、他の情報処理装置11の発話範囲の情報の通知を受信し、振動部34、画像出力部37、および音声出力部38のうちの少なくともいずれかを制御して、他の情報処理装置11の発話範囲を提示する。
以上の処理により、ユーザHは、自らが装着する情報処理装置11のプレイヤとしての発話範囲の情報と、他の情報処理装置11を装着した、他のプレイヤの発話範囲の情報とを提示することが可能となるので、自らの発話範囲と、他のプレイヤの発話範囲とを認識して発話することが可能となる。尚、図20のフローチャートにおいては、自らの発話範囲と、他のプレイヤの発話範囲とのいずれについても提示する例について説明しているが、いずれか一方のみでもよい。
より具体的には、以上の処理により、図4乃至図10の発話範囲を決定させることが可能となる。
<伝達制御処理>
次に、図21のフローチャートを参照して、伝達制御処理について説明する。ここで、伝達制御処理は、発話範囲が決定していることが前提となる。
ステップS71において、伝達制御部31bは、音声取得部36を制御して、ユーザHの発話を音声データとして取得し、通信部35を制御して、取得した音声データをクラウドサーバ群12に送信する。
ステップS72において、クラウドサーバ群12の音声解析処理部61は、音声データを音声認識処理、および意味解析処理に必要なレベルにノイズ除去するなどした後音声解析処理部61は、音声データに基づいて、例えば、言語の種別(日本語、フランス語、英語など)、基本周波数毎の頻度による発話された音声の高低、単位時間当たりの音素数による話速、音量、および抑揚の有無を解析する。
ステップS73において、音声認識部62は、音声データに基づいて、音声を言語として認識し、音声認識結果として、例えば、テキストデータに変換して自然言語処理部63および音声合成部66に供給する。自然言語処理部63は、テキストデータなどからなる音声認識結果を、前後の文脈などから自然な言語となるように変換して、変換結果を意味解析処理部64に供給する。
意味解析処理部64は、自然言語処理された音声認識結果である発話されている言葉に基づいて、意味を解析し、意味解析結果を情報処理装置11に送信する。感情推定処理部65は、音声データ、および意味解析結果に基づいて、発話したユーザの感情を推定し、感情推定結果を情報処理装置11に送信する。
ステップS74において、伝達制御部31bは、音声データ、音声解析結果、自然言語処理結果、意味解析結果、および感情推定結果の少なくともいずれかを用いて、発話範囲となるプレイヤのうち、情報を伝えるべき対象となるプレイヤを決定する。
ステップS75において、伝達制御部31bは、音声データ、音声解析結果、自然言語処理結果、意味解析結果、および感情推定結果の少なくともいずれかを用いて、伝える情報を決定する。すなわち、伝達制御部31bは、例えば、所定のユーザの発話内容、警告音、振動、および、合成音声のいずれか伝える情報を決定する。
ステップS76において、伝達制御部31bは、音声データ、音声解析結果、自然言語処理結果、意味解析結果、および感情推定結果の少なくともいずれかを用いて、伝える情報の伝え方を決定する。伝達制御部31bは、例えば、音声認識結果の表示方法などを決定する。
ステップS77において、伝達制御部31bは、決定した対象に対して、決定した情報を、決定した伝え方で、通知する。
ステップS78において、伝達制御部31bは、発話範囲を解除する。
以上の処理により、ユーザHにより発話された音声データ、音声認識結果、意味解析結果、および感情推定結果の少なくともいずれかにより、発話範囲決定処理により決定された発話範囲内に存在するプレイヤのいずれかを対象とするプレイヤ、伝えるべき情報、および伝え方が決定されて、通知される。
より具体的には、以上の処理により、発話範囲が決定された後の発話による、図11乃至図15の伝達制御処理を実現させることが可能となる。
また、これを応用することで、例えば、VR内において味方に複数の言語を使用する仲間が存在するような場合、移動する際に近くの仲間に対して指示を出すにあたり、発話範囲内に、英語のみでしかコミュニケーションがとれないプレイヤAとフランス語でしかコミュニケーションが取れないプレイヤBとの二人が存在し、自らは日本語でしか指示が出せず、さらに、プレイヤAのユーザは、視覚は通常であるが、聴覚障害があり、プレイヤBのユーザは、視覚障害であるが、聴覚は通常である場合を想定する。
この場合、自らが日本語の発話により二人に指示Cを出すときには、プレイヤAに対しては指示Cを英語に変換して、かつ、テキストデータを画像で表示するように伝達し、プレイヤBに対しては指示Cをフランス語に変換して、かつ、合成音声で伝達するといったことが可能となる。すなわち、発話内容に応じて、発話の対象がプレイヤAまたはBのいずれかが決定され、伝えるべき情報が英語の指示Cまたはフランス語の指示Cのいずれかに決定され、伝達方法が、テキストデータを画像で表示して伝達する、または、合成音声で伝達する、のいずれかに決定される。この際、いずれのプレイヤを制御するユーザも自らの障害や使用言語などを意識する必要がない上、VR内における没入感を崩さず、また、VR世界観を損なわないままコミュニケーション相手を制御することが可能となる。
また、図9,図10を参照して説明したアイコンタクトを授受する状態を発話範囲として表示する例を応用することで、例えば、VR内における会食やパーティなどで、ビジネスシーンとして営業を掛けたい相手に対してアイコンタクトを送り、相互のアイコンタクトが成立したタイミングで、アイコンタクトが成立した相手同士でのビジネスの会話を実現できるようにしてもよい。この場合、発話範囲は、アイコンタクトが成立した相手同士であるので、秘匿性の高い会話も可能となる。
さらに、以上においては、VR内での発話範囲と伝達制御について説明してきたが、相互に通信装置を用いなければ対話ができない、例えば、水中や宇宙空間などであれば、現実空間においても発話範囲と伝達制御を応用することが可能である。
いずれにおいても、発話範囲決定処理により、コンテキスト情報に基づいて、対象となる発話範囲が決められて、これがユーザに通知された後、発話範囲を確認しながら、発話することができ、さらに、発話に基づいた伝達制御処理により、より高度に発話の対象となるプレイヤが決定されて、伝えるべき情報、および伝え方が決定されて、情報が通知される。
結果として、VR内のプレイヤ間のコミュニケーションにおいて、送付先や送付元が明確なので、快適なVR内のプレイヤ間のコミュニケーションを実現することができる。また、ダイレクトメッセージとパブリックメッセージとを区別することができ、さらに、誰に伝わるか明確な状態で発話してコミュニケーションをとることができるので、VR内における没入感を崩さず、また、VR世界観を損なわないままコミュニケーション相手を制御することが可能となる。
<ソフトウェアにより実行させる例>
ところで、上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体からインストールされる。
図22は、汎用のパーソナルコンピュータの構成例を示している。このパーソナルコンピュータは、CPU(Central Processing Unit)1001を内蔵している。CPU1001にはバス1004を介して、入出力インタ-フェイス1005が接続されている。バス1004には、ROM(Read Only Memory)1002およびRAM(Random Access Memory)1003が接続されている。
入出力インタ-フェイス1005には、ユーザが操作コマンドを入力するキーボード、マウスなどの入力デバイスよりなる入力部1006、処理操作画面や処理結果の画像を表示デバイスに出力する出力部1007、プログラムや各種データを格納するハードディスクドライブなどよりなる記憶部1008、LAN(Local Area Network)アダプタなどよりなり、インターネットに代表されるネットワークを介した通信処理を実行する通信部1009が接続されている。また、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスク(MD(Mini Disc)を含む)、もしくは半導体メモリなどのリムーバブルメディア1011に対してデータを読み書きするドライブ1010が接続されている。
CPU1001は、ROM1002に記憶されているプログラム、または磁気ディスク、光ディスク、光磁気ディスク、もしくは半導体メモリ等のリムーバブルメディア1011ら読み出されて記憶部1008にインストールされ、記憶部1008からRAM1003にロードされたプログラムに従って各種の処理を実行する。RAM1003にはまた、CPU1001が各種の処理を実行する上において必要なデータなども適宜記憶される。
以上のように構成されるコンピュータでは、CPU1001が、例えば、記憶部1008に記憶されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記憶部1008にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部1009で受信し、記憶部1008にインストールすることができる。その他、プログラムは、ROM1002や記憶部1008に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
尚、図22におけるCPU1001が、CPU31に対応するものである。
また、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。
なお、本開示の実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本開示は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
尚、本開示は、以下のような構成も取ることができる。
<1> コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部を含む
情報処理装置。
<2> 前記発話範囲は、前記プレイヤが発話した音声データに基づいた情報を認識可能な他のプレイヤが存在する範囲である
<1>に記載の情報処理装置。
<3> 前記コンテキスト情報は、前記プレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含む
<1>または<2>に記載の情報処理装置。
<4> 前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部をさらに含み、
前記発話範囲決定部は、前記音声データに基づいて、前記発話範囲を決定する
<3>に記載の情報処理装置。
<5> 前記発話範囲決定部は、前記音声データの高低に基づいて、前記発話範囲を決定する
<4>に記載の情報処理装置。
<6> 前記発話範囲決定部は、前記音声データの話速に基づいて、前記発話範囲を決定する
<4>に記載の情報処理装置。
<7> 前記コンテキスト情報のうち、前記行動情報、および前記姿勢情報を取得する行動情報姿勢情報取得部をさらに含み、
前記発話範囲決定部は、前記行動情報、および前記姿勢情報に基づいて、前記発話範囲を決定する
<3>に記載の情報処理装置。
<8> 前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部をさらに含み、
前記発話範囲決定部は、前記視線情報に基づいて、前記発話範囲を決定する
<3>に記載の情報処理装置。
<9> 前記コンテキスト情報のうち、前記周辺コンテキスト情報を取得する周辺コンテキスト情報取得部をさらに含み、
前記発話範囲決定部は、前記周辺コンテキスト情報に基づいて、前記発話範囲を決定する
<3>に記載の情報処理装置。
<10> 前記周辺コンテキスト情報は、VR(Virtual Reality)コンテキスト情報を含む
<9>に記載の情報処理装置。
<11> 前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部と、
前記VRコンテキスト情報に基づいて、VR空間を表示する表示部とをさらに含み、
前記発話範囲決定部が、前記視線情報に基づいて、前記プレイヤの視線が前記VR空間内における所定のプレイヤの存在する位置に所定時間停滞するとき、前記表示部は、前記所定のプレイヤを表示する位置上に、前記視線が停滞する時間を表す視線停滞マークを表示する
<10>に記載の情報処理装置。
<12> 前記発話範囲決定部は、前記視線情報に基づいて、前記プレイヤの視線が、前記表示部により表示される、前記VR空間内における他のプレイヤの存在する位置に所定時間より長時間停滞するとき、前記他のプレイヤを発話範囲として決定し、
前記表示部は、前記他のプレイヤを表示する位置上に、前記視線により発話範囲に決定したことを示すマークを表示する
<11>に記載の情報処理装置。
<13> 前記発話範囲決定部が、前記VR空間における、前記他のプレイヤの前記視線情報に基づいて、前記プレイヤを前記他のプレイヤの視線により前記発話範囲内に決定したとき、
前記表示部は、前記他のプレイヤを表示する位置上に被視線停滞マークを表示する
<12>に記載の情報処理装置。
<14> 前記発話範囲決定部は、前記VR空間における、前記プレイヤの前記視線情報に基づいて、前記被視線停滞マークを視認したことが確認できた場合、前記他のプレイヤを前記発話範囲に決定し、
前記表示部は、前記他のプレイヤを表示する位置上に、アイコンタクトが成立したことを表すマークを表示する
<13>に記載の情報処理装置。
<15> 前記VRコンテキスト情報に基づいて、VR空間を表示する表示部と、
前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部と、
前記音声データ取得部により取得された前記音声データに基づいて、前記発話範囲に含まれるどのプレイヤに対して伝達するかを制御する伝達制御部をさらに含み、
前記伝達制御部は、前記音声データの音声認識結果をテキストとして前記表示部に表示し、前記発話範囲に複数の前記プレイヤが存在する場合、前記複数のプレイヤのそれぞれに対して順次テキストを順番に移動させて表示する
<10>に記載の情報処理装置。
<16> 前記伝達制御部は、前記発話範囲内のプレイヤに対しては視認可能であって、かつ、前記発話範囲外のプレイヤには視認不能なテキストを前記表示部に表示する
<15>に記載の情報処理装置。
<17> 前記発話範囲は、前記プレイヤに対して、画像、警告音声、警告振動、および警告合成音のいずれか、または、その組み合わせにより提示される
<1>乃至<16>のいずれかに記載の情報処理装置。
<18> コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する
ステップを含む情報処理方法。
<19> コンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部
としてコンピュータを機能させるプログラム。
11,11-1乃至11-n 情報処理装置, 12 クラウドサーバ群, 31 CPU, 31a 発話範囲制御部, 31b 伝達制御部, 32 メモリ, 33 記憶部, 34 振動部, 35 通信部, 36 音声取得部, 37 画像出力部, 38 音声出力部, 39 VRコンテキスト情報取得部, 40 行動情報取得部, 41 視線認識処理部, 61 音声解析処理部, 62 音声認識部, 63 自然言語処理部, 64 意味解析処理部, 65 感情推定処理部, 66 音声合成部

Claims (18)

  1. VR(Virtual Reality)空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、前記プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部を含む
    情報処理装置。
  2. 前記発話範囲は、前記プレイヤが発話した音声データに基づいた情報を認識可能な他のプレイヤが存在する範囲である
    請求項1に記載の情報処理装置。
  3. 前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部をさらに含み、
    前記発話範囲決定部は、前記音声データに基づいて、前記発話範囲を決定する
    請求項に記載の情報処理装置。
  4. 前記発話範囲決定部は、前記音声データの高低に基づいて、前記発話範囲を決定する
    請求項に記載の情報処理装置。
  5. 前記発話範囲決定部は、前記音声データの話速に基づいて、前記発話範囲を決定する
    請求項に記載の情報処理装置。
  6. 前記コンテキスト情報のうち、前記行動情報、および前記姿勢情報を取得する行動情報姿勢情報取得部をさらに含み、
    前記発話範囲決定部は、前記行動情報、および前記姿勢情報に基づいて、前記発話範囲を決定する
    請求項1に記載の情報処理装置。
  7. 前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部をさらに含み、
    前記発話範囲決定部は、前記視線情報に基づいて、前記発話範囲を決定する
    請求項に記載の情報処理装置。
  8. 前記コンテキスト情報のうち、前記周辺コンテキスト情報を取得する周辺コンテキスト情報取得部をさらに含み、
    前記発話範囲決定部は、前記周辺コンテキスト情報に基づいて、前記発話範囲を決定する
    請求項に記載の情報処理装置。
  9. 前記周辺コンテキスト情報は、VR(Virtual Reality)コンテキスト情報を含む
    請求項に記載の情報処理装置。
  10. 前記コンテキスト情報のうち、前記視線情報を取得する視線情報取得部と、
    前記VRコンテキスト情報に基づいて、前記VR空間を表示する表示部とをさらに含み、
    前記発話範囲決定部が、前記視線情報に基づいて、前記プレイヤの視線が前記VR空間内における所定のプレイヤの存在する位置に所定時間停滞するとき、前記表示部は、前記所定のプレイヤを表示する位置上に、前記視線が停滞する時間を表す視線停滞マークを表示する
    請求項に記載の情報処理装置。
  11. 前記発話範囲決定部は、前記視線情報に基づいて、前記プレイヤの視線が、前記表示部により表示される、前記VR空間内における他のプレイヤの存在する位置に所定時間より長時間停滞するとき、前記他のプレイヤを発話範囲として決定し、
    前記表示部は、前記他のプレイヤを表示する位置上に、前記視線により発話範囲に決定したことを示すマークを表示する
    請求項10に記載の情報処理装置。
  12. 前記発話範囲決定部が、前記VR空間における、前記他のプレイヤの前記視線情報に基づいて、前記プレイヤを前記他のプレイヤの視線により前記発話範囲内に決定したとき、
    前記表示部は、前記他のプレイヤを表示する位置上に被視線停滞マークを表示する
    請求項11に記載の情報処理装置。
  13. 前記発話範囲決定部は、前記VR空間における、前記プレイヤの前記視線情報に基づいて、前記被視線停滞マークを視認したことが確認できた場合、前記他のプレイヤを前記発話範囲に決定し、
    前記表示部は、前記他のプレイヤを表示する位置上に、アイコンタクトが成立したことを表すマークを表示する
    請求項12に記載の情報処理装置。
  14. 前記VRコンテキスト情報に基づいて、VR空間を表示する表示部と、
    前記コンテキスト情報のうち、前記プレイヤの発話を音声データとして取得する音声データ取得部と、
    前記音声データ取得部により取得された前記音声データに基づいて、前記発話範囲に含まれるどのプレイヤに対して伝達するかを制御する伝達制御部をさらに含み、
    前記伝達制御部は、前記音声データの音声認識結果をテキストとして前記表示部に表示し、前記発話範囲に複数のプレイヤが存在する場合、前記複数のプレイヤのそれぞれに対して順次テキストを順番に移動させて表示する
    請求項に記載の情報処理装置。
  15. 前記伝達制御部は、前記発話範囲内のプレイヤに対しては視認可能であって、かつ、前記発話範囲外のプレイヤには視認不能なテキストを前記表示部に表示する
    請求項14に記載の情報処理装置。
  16. 前記発話範囲は、前記プレイヤに対して、画像、警告音声、警告振動、および警告合成音のいずれか、または、その組み合わせにより提示される
    請求項1に記載の情報処理装置。
  17. VR(Virtual Reality)空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する
    ステップを含む情報処理方法。
  18. VR(Virtual Reality)空間内におけるプレイヤの音声データ、行動情報、姿勢情報、視線情報、および周辺コンテキスト情報を含むコンテキスト情報に基づいて、プレイヤが発話するとき、発話した内容を認識可能な前記VR空間内における他のプレイヤが存在する範囲を発話範囲として決定する発話範囲決定部
    としてコンピュータを機能させるプログラム。
JP2018563264A 2017-01-18 2018-01-04 情報処理装置、および情報処理方法、並びにプログラム Active JP7124715B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017006897 2017-01-18
JP2017006897 2017-01-18
PCT/JP2018/000016 WO2018135304A1 (ja) 2017-01-18 2018-01-04 情報処理装置、および情報処理方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2018135304A1 JPWO2018135304A1 (ja) 2019-11-21
JP7124715B2 true JP7124715B2 (ja) 2022-08-24

Family

ID=62909296

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018563264A Active JP7124715B2 (ja) 2017-01-18 2018-01-04 情報処理装置、および情報処理方法、並びにプログラム

Country Status (5)

Country Link
US (1) US11311803B2 (ja)
EP (1) EP3572947A4 (ja)
JP (1) JP7124715B2 (ja)
CN (1) CN110178125B (ja)
WO (1) WO2018135304A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7399623B2 (ja) * 2019-03-25 2023-12-18 株式会社バンダイナムコエンターテインメント ゲームシステム、プログラム及びゲーム装置
CN114253386A (zh) * 2020-09-11 2022-03-29 成都木帆科技有限公司 一种基于感知的通信系统
CN112764856A (zh) * 2021-01-20 2021-05-07 温州医科大学慈溪生物医药研究院 一种学术成果富媒体展示系统及其应用方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005322125A (ja) 2004-05-11 2005-11-17 Sony Corp 情報処理システム、情報処理方法、プログラム
JP2008259880A (ja) 2008-07-17 2008-10-30 Nintendo Co Ltd ゲームプログラムおよびゲーム装置
JP2010262523A (ja) 2009-05-08 2010-11-18 Nintendo Co Ltd ネットワークシステム,情報処理装置および情報処理プログラム
JP2011518366A (ja) 2008-03-18 2011-06-23 アバイア インク. コンピュータで生成された三次元仮想環境へのウエブ・コンテンツの取り込み
JP2015053061A (ja) 2008-01-17 2015-03-19 ヴィヴォックス インコーポレイテッド アバタ別にレンダリングされる環境を用いる仮想現実システムにおいてリアルタイムのアバタ別のストリーミングデータを提供するスケーラブルな技法
WO2016002445A1 (ja) 2014-07-03 2016-01-07 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016187063A (ja) 2015-03-27 2016-10-27 ブラザー工業株式会社 情報処理装置及びプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3070719B2 (ja) 1995-07-05 2000-07-31 日本電信電話株式会社 仮想空間共有方法およびこの方法を実施する装置
US5736982A (en) * 1994-08-03 1998-04-07 Nippon Telegraph And Telephone Corporation Virtual space apparatus with avatars and speech
US8210927B2 (en) * 2001-08-03 2012-07-03 Igt Player tracking communication mechanisms in a gaming machine
US7491123B2 (en) * 2004-07-29 2009-02-17 Nintendo Co., Ltd. Video game voice chat with amplitude-based virtual ranging
US9384469B2 (en) * 2008-09-22 2016-07-05 International Business Machines Corporation Modifying environmental chat distance based on avatar population density in an area of a virtual world
WO2011121130A2 (en) * 2010-04-01 2011-10-06 Seereal Technologies S.A. Method and device for encoding three-dimensional scenes which include transparent objects in a holographic system
CN107251560B (zh) * 2015-02-23 2021-02-05 索尼公司 发送装置、发送方法、接收装置、接收方法、信息处理装置和信息处理方法
JP6598522B2 (ja) * 2015-06-12 2019-10-30 任天堂株式会社 情報処理装置、情報処理システム、情報処理方法、及び情報処理プログラム
CN105879390A (zh) * 2016-04-26 2016-08-24 乐视控股(北京)有限公司 虚拟现实游戏处理方法及设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005322125A (ja) 2004-05-11 2005-11-17 Sony Corp 情報処理システム、情報処理方法、プログラム
JP2015053061A (ja) 2008-01-17 2015-03-19 ヴィヴォックス インコーポレイテッド アバタ別にレンダリングされる環境を用いる仮想現実システムにおいてリアルタイムのアバタ別のストリーミングデータを提供するスケーラブルな技法
JP2011518366A (ja) 2008-03-18 2011-06-23 アバイア インク. コンピュータで生成された三次元仮想環境へのウエブ・コンテンツの取り込み
JP2008259880A (ja) 2008-07-17 2008-10-30 Nintendo Co Ltd ゲームプログラムおよびゲーム装置
JP2010262523A (ja) 2009-05-08 2010-11-18 Nintendo Co Ltd ネットワークシステム,情報処理装置および情報処理プログラム
WO2016002445A1 (ja) 2014-07-03 2016-01-07 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016187063A (ja) 2015-03-27 2016-10-27 ブラザー工業株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
EP3572947A1 (en) 2019-11-27
WO2018135304A1 (ja) 2018-07-26
CN110178125B (zh) 2023-05-02
US11311803B2 (en) 2022-04-26
EP3572947A4 (en) 2020-01-15
CN110178125A (zh) 2019-08-27
US20200122033A1 (en) 2020-04-23
JPWO2018135304A1 (ja) 2019-11-21

Similar Documents

Publication Publication Date Title
US11030788B2 (en) Virtual reality presentation of body postures of avatars
JP7100092B2 (ja) ワードフロー注釈
US11222632B2 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
US20180077095A1 (en) Augmentation of Communications with Emotional Data
US20200279553A1 (en) Linguistic style matching agent
US11100694B2 (en) Virtual reality presentation of eye movement and eye contact
JP7124715B2 (ja) 情報処理装置、および情報処理方法、並びにプログラム
CN111833418A (zh) 动画交互方法、装置、设备以及存储介质
US10063604B2 (en) Systems and methods for facilitating video communication using virtual avatars
WO2019133698A1 (en) System and method for personalizing dialogue based on user's appearances
WO2021196646A1 (zh) 交互对象的驱动方法、装置、设备以及存储介质
CN113299312B (zh) 一种图像生成方法、装置、设备以及存储介质
CN111583355B (zh) 面部形象生成方法、装置、电子设备及可读存储介质
JP7225642B2 (ja) コミュニケーションロボット、制御方法及び制御プログラム
JP2003108502A (ja) 身体性メディア通信システム
US11826648B2 (en) Information processing apparatus, information processing method, and recording medium on which a program is written
JP7286303B2 (ja) 会議支援システム及び会議用ロボット
US11935557B2 (en) Techniques for detecting and processing domain-specific terminology
WO2023058393A1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN112153461B (zh) 用于定位发声物的方法、装置、电子设备及可读存储介质
WO2023228433A1 (ja) 視線制御装置及び方法、非一時的記憶媒体、並びにコンピュータプログラム
US20240078731A1 (en) Avatar representation and audio generation
US20240221719A1 (en) Systems and methods for providing low latency user feedback associated with a user speaking silently
US20240078732A1 (en) Avatar facial expressions based on semantical context
US20240203435A1 (en) Information processing method, apparatus and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201119

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220712

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220725

R151 Written notification of patent or utility model registration

Ref document number: 7124715

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151