JP7267096B2

JP7267096B2 - オーディオエフェクト制御システム、オーディオエフェクト制御装置、受信装置、オーディオエフェクト制御方法、受信装置の制御方法及びプログラム

Info

Publication number: JP7267096B2
Application number: JP2019093820A
Authority: JP
Inventors: 貴志島津
Original assignee: Sony Interactive Entertainment Inc
Current assignee: Sony Interactive Entertainment Inc
Priority date: 2019-05-17
Filing date: 2019-05-17
Publication date: 2023-05-01
Anticipated expiration: 2039-05-17
Also published as: JP2020188435A; US20200367007A1

Description

本発明は、オーディオエフェクト制御装置、オーディオエフェクト制御システム、オーディオエフェクト制御方法及びプログラムに関する。

仮想空間内における位置や向きを、ユーザの動作に応じて変化させることが可能なゲームシステム等のシステムが存在する。このシステムでは、ユーザは設定された位置や向きにおける仮想空間内の様子を視覚や聴覚を通して体感できる。例えば、音響レンダリング技術等を用いることで、仮想空間で発生する音声に設定された位置や向きに応じたオーディオエフェクトをかけることでリアルな音場がユーザに提供される。

しかし上記システムでは、ユーザやその周りにいる人の声、周辺の物音などといった、上記システム外で発生する実空間の音声については、仮想空間で発生する音声と同様のオーディオエフェクトがかからなかった。そのため、ユーザの仮想空間への没入感が阻害されていた。

本発明は上記実情に鑑みてなされたものであって、その目的の一つは、ユーザの仮想空間への没入感を高めることができるオーディオエフェクト制御装置、オーディオエフェクト制御システム、オーディオエフェクト制御方法及びプログラムを提供することにある。

本発明に係るオーディオエフェクト制御装置は、仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定するエフェクト特定部と、実空間の音声を取得する音声取得部と、前記実空間の音声に前記オーディオエフェクトをかけた音声を出力する音声出力部と、を含む。

本発明の一態様では、前記音声出力部は、前記仮想空間での音声と、前記実空間の音声に前記オーディオエフェクトをかけた音声と、を合成した音声を出力する。

また、本発明の一態様では、マイク及びスピーカを備えた密閉型ヘッドホンをさらに含み、前記マイクは、前記密閉型ヘッドホンの外側に設けられており、前記スピーカは、前記密閉型ヘッドホンの内側に設けられており、前記音声取得部は、前記マイクに入力される音声を取得し、前記音声出力部は、前記実空間の音声に前記オーディオエフェクトをかけた音声を前記スピーカから出力させる。

また、本発明に係るオーディオエフェクト制御システムは、送信装置と、受信装置と、を含み、前記送信装置は、仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定するエフェクト特定部と、前記オーディオエフェクトを示すエフェクトデータを生成するエフェクトデータ生成部と、前記エフェクトデータを送信する送信部と、を含み、前記受信装置は、前記エフェクトデータを受信する受信部と、実空間の音声を取得する音声取得部と、前記実空間の音声に前記エフェクトデータが示すオーディオエフェクトをかけた音声を出力する音声出力部と、を含む。

本発明の一態様では、前記送信部は、前記受信装置の向きに対応付けられている前記エフェクトデータを送信し、前記音声出力部は、前記エフェクトデータに基づいて、前記実空間の音声に前記受信装置の向きに応じたオーディオエフェクトをかけた音声を出力する。

また、本発明の一態様では、前記送信部は、前記仮想空間での音声を表す仮想空間音声データをさらに送信し、前記音声出力部は、前記仮想空間音声データが表す仮想空間の音声と、前記実空間の音声に前記オーディオエフェクトをかけた音声と、を合成した音声を出力する。

また、本発明の一態様では、前記受信装置は、マイク及びスピーカを備えた密閉型ヘッドホンをさらに含み、前記マイクは、前記密閉型ヘッドホンの外側に設けられており、前記スピーカは、前記密閉型ヘッドホンの内側に設けられており、前記音声取得部は、前記マイクに入力される音声を取得し、前記音声出力部は、前記実空間の音声に前記オーディオエフェクトをかけた音声を前記スピーカから出力させる。

また、本発明に係る別のオーディオエフェクト制御装置は、仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定するエフェクト特定部と、前記オーディオエフェクトを示すエフェクトデータを生成するエフェクトデータ生成部と、前記エフェクトデータを、入力される実空間の音声に当該エフェクトデータが示すオーディオエフェクトをかける装置に送信する送信部と、を含む。

また、本発明に係るオーディオエフェクト制御方法は、仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定するステップと、実空間の音声を取得するステップと、前記実空間の音声に前記オーディオエフェクトをかけた音声を出力するステップと、を含む。

また、本発明に係る別のオーディオエフェクト制御方法は、仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定するステップと、前記オーディオエフェクトを示すエフェクトデータを生成するステップと、前記エフェクトデータを、入力される実空間の音声に当該エフェクトデータが示すオーディオエフェクトをかける装置に送信するステップと、を含む。

また、本発明に係るプログラムは、仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定する手順、実空間の音声を取得する手順、前記実空間の音声に前記オーディオエフェクトをかけた音声を出力する手順、をコンピュータに実行させる。

また、本発明に係る別のプログラムは、仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定する手順、前記オーディオエフェクトを示すエフェクトデータを生成する手順、前記エフェクトデータを、入力される実空間の音声に当該エフェクトデータが示すオーディオエフェクトをかける装置に送信する手順、をコンピュータに実行させる。

本発明の一実施形態に係るエンタテインメントシステムの構成の一例を示す図である。本発明の一実施形態に係るエンタテインメントシステムで実装される機能の一例を示す機能ブロック図である。仮想空間の環境に応じたオーディオエフェクトの特定、及び、仮想空間音声データの生成の一例を模式的に示す図である。本発明の一実施形態に係るエンタテインメント装置で実行される処理の一例を示すフロー図である。本発明の一実施形態に係るヘッドマウントディスプレイで実行される処理の一例を示すフロー図である。

以下、本発明の一実施形態について、図面を参照しながら説明する。

図１は、本発明の一実施形態に係るエンタテインメントシステム１の構成の一例を示す図である。

図１に示すように、本実施形態に係るエンタテインメントシステム１は、エンタテインメント装置１０と、ヘッドマウントディスプレイ（ＨＭＤ）１２と、を含んでいる。

本実施形態に係るエンタテインメント装置１０は、例えばゲームコンソール、ＤＶＤプレイヤ、Ｂｌｕ－ｒａｙ（登録商標）プレイヤなどといったコンピュータである。本実施形態に係るエンタテインメント装置１０は、例えば記憶されている、あるいは、光ディスクに記録された、ゲームプログラムの実行やコンテンツの再生などによって映像や音声を生成する。そして本実施形態に係るエンタテインメント装置１０は、送信装置として、生成される映像を表す映像信号や生成される音声を表す音声信号を受信装置としてのＨＭＤ１２に出力する。

図１に示すように、本実施形態に係るエンタテインメント装置１０には、プロセッサ２０、記憶部２２、通信部２４、が含まれる。

プロセッサ２０は、例えばエンタテインメント装置１０にインストールされるプログラムに従って動作するＣＰＵ等のプログラム制御デバイスである。本実施形態に係るプロセッサ２０には、ＣＰＵから供給されるグラフィックスコマンドやデータに基づいてフレームバッファに画像を描画するＧＰＵ（Graphics Processing Unit）も含まれている。

記憶部２２は、例えばＲＯＭやＲＡＭ等の記憶素子やハードディスクドライブなどである。記憶部２２には、プロセッサ２０によって実行されるプログラムなどが記憶される。また、本実施形態に係る記憶部２２には、ＧＰＵにより画像が描画されるフレームバッファの領域が確保されている。

通信部２４は、例えばＨＭＤ１２などといったコンピュータとの間でデータを授受するための通信インタフェースである。

また、図１に示すように、本実施形態に係るＨＭＤ１２には、プロセッサ３０、記憶部３２、通信部３４、マイク３６、スピーカ３８、センサ部４０、表示部４２、が含まれる。

プロセッサ３０は、例えばＨＭＤ１２にインストールされるプログラムに従って動作するＣＰＵ（Central Processing Unit）等のプログラム制御デバイスである。また、本実施形態に係るプロセッサ３０には、音声信号を処理するＤＳＰ（digital signal processor）が含まれている。

記憶部３２は、例えばＲＯＭやＲＡＭ等の記憶素子などである。記憶部３２には、プロセッサ３０によって実行されるプログラムなどが記憶される。

通信部３４は、例えばエンタテインメント装置１０などといったコンピュータとの間でデータを授受するための通信インタフェースである。

マイク３６は、例えばユーザやその周りにいる人の声、周辺の物音、などといった実空間の音声が入力される音声入力デバイスである。またマイク３６に、外部の音声を拾う外部マイクと、スピーカ３８がユーザの耳に出力する音声を拾う内部マイクと、が含まれていてもよい。

スピーカ３８は、例えばＨＭＤ１２を装着しているユーザの耳に音声を出力する音声出力デバイスである。

センサ部４０は、例えば加速度センサやモーションセンサなどのセンサである。センサ部４０は、ＨＭＤ１２の姿勢、回転量、移動量などの計測結果を所定のサンプリングレートで、プロセッサ３０に出力してもよい。

表示部４２は、例えば液晶ディスプレイや有機ＥＬディスプレイ等のディスプレイであり、エンタテインメント装置１０が生成する映像などを表示させる。表示部４２は、ＨＭＤ１２をユーザが装着した際に当該ユーザの眼前に配置される。表示部４２は、例えばエンタテインメント装置１０が出力する映像信号を受信して、当該映像信号が表す映像を出力するようにしてもよい。本実施形態に係る表示部４２は、例えば左目用の画像と右目用の画像を表示することによって三次元画像を表示させることができるようになっている。なお表示部４２は三次元画像の表示ができず二次元画像の表示のみができるものであっても構わない。

本実施形態では例えば、エンタテインメント装置１０において、仮想空間内における位置や向き（例えば視点の位置や向き）を変化させることが可能なゲームプログラム等のプログラムが実行される。ユーザは設定された位置や向きにおける仮想空間内の様子を視覚や聴覚を通して体感できる。

例えば、仮想空間内に配置されている視点から当該仮想空間を見た様子を表す動画像が生成される。ここでは例えば、所定のフレームレートでフレーム画像が生成される。

視点の位置や向きは、例えばコントローラの操作やＨＭＤ１２の位置及び向きの変化等のユーザの動作に応じて変化する。また、視点の位置や向きが、ゲームにおいて発生するイベントなどといったゲームのプレイ状況に応じて変化してもよい。仮想空間内の視点の位置や向きの変化に応じてＨＭＤ１２の表示部４２に表示されるコンテンツは変化する。視点の位置や向きの更新、フレーム画像の生成、及び、フレーム画像の表示を含む、ゲームのプレイ状況に応じた処理が、上述の所定のフレームレートで実行されてもよい。

そして本実施形態では、当該仮想空間の環境に連動した、リバーブ、エコー、ディレイなどといったオーディオエフェクトを、マイク３６に入力される実空間の音声にかけることができる。そのため本実施形態によれば、ユーザの仮想空間への没入感を高めることができる。

以下、特に仮想空間の環境と実空間の音声との連動に関する、本実施形態に係るエンタテインメントシステム１で実装される機能、及び、本実施形態に係るエンタテインメントシステム１で実行される処理について、さらに説明する。

図２は、本実施形態に係るエンタテインメントシステム１で実装される機能の一例を示す機能ブロック図である。なお、本実施形態に係るエンタテインメントシステム１で、図２に示す機能のすべてが実装される必要はなく、また、図２に示す機能以外の機能が実装されていても構わない。

図２に示すように、本実施形態に係るエンタテインメント装置１０には、機能的には例えば、エフェクト特定部５０、ＶＲ音声データ生成部５２、画像生成部５４、ＶＲデータ生成部５６、送信部５８、が含まれる。エフェクト特定部５０、ＶＲ音声データ生成部５２、画像生成部５４、ＶＲデータ生成部５６は、プロセッサ２０を主として実装される。送信部５８は、通信部２４を主として実装される。

以上の機能は、コンピュータであるエンタテインメント装置１０にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ２０で実行することにより実装されていてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してエンタテインメント装置１０に供給される。

また、図２に示すように、本実施形態に係るＨＭＤ１２には、機能的には例えば、受信部６０、エフェクトデータ記憶部６２、入力音声取得部６４、音声データ記憶部６６、合成音声データ生成部６８、音声出力部７０、表示制御部７２、が含まれる。受信部６０は、通信部３４を主として実装される。エフェクトデータ記憶部６２、音声データ記憶部６６は、記憶部３２を主として実装される。入力音声取得部６４は、プロセッサ３０及びマイク３６を主として実装される。合成音声データ生成部６８は、プロセッサ３０を主として実装される。音声出力部７０は、プロセッサ３０及びスピーカ３８を主として実装される。表示制御部７２は、プロセッサ３０及び表示部４２を主として実装される。

以上の機能は、コンピュータであるＨＭＤ１２にインストールされた、以上の機能に対応する指令を含むプログラムをプロセッサ３０で実行することにより実装されていてもよい。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ読み取り可能な情報記憶媒体を介して、あるいは、インターネットなどを介してＨＭＤ１２に供給される。

エフェクト特定部５０は、本実施形態では例えば、仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定する。

ＶＲ音声データ生成部５２は、本実施形態では例えば、仮想空間での音声を表す仮想空間音声データを生成する。

図３は、オーディオエフェクトの特定、及び、仮想空間音声データの生成の一例を模式的に示す図である。

図３には、仮想空間８０、キャラクタ８２、キャラクタ仮想スピーカ８４、及び、環境仮想スピーカ８６（８６ａ、８６ｂ、及び、８６ｃ）が示されている。

本実施形態では例えば、ユーザの動作に応じて仮想空間８０内におけるキャラクタ８２の位置又は向きが変化する。キャラクタ８２の位置は、ユーザの動作に応じて変更可能な聴取位置に対応し、キャラクタ８２の向きは、ユーザの動作に応じて変更可能な聴取方向に対応する。そして、エフェクト特定部５０が、キャラクタ８２の位置に配置されたキャラクタ仮想スピーカ８４が出力した音声がキャラクタ８２に到達する際にかかるオーディオエフェクトを特定する。ここでは例えば、音響レンダリング技術を用いて、壁や天井などの仮想オブジェクトやキャラクタ８２の配置などといった仮想空間８０の環境に基づいてオーディオエフェクトが特定される。

ここでエフェクト特定部５０が、例えば、オーディオエフェクトのパラメータの値を示すエフェクトデータを生成してもよい。例えばリバーブに関し、残響時間、プレディレイ、初期反射音、密度、高域減衰などのパラメータの値を示すエフェクトデータが生成されてもよい。

また例えば、エフェクト特定部５０が、キャラクタ仮想スピーカ８４が出力した音声がキャラクタ８２の左耳の位置に到達する際にかかるオーディオエフェクトを特定し、このオーディオエフェクトを示す左エフェクトデータを生成してもよい。また、エフェクト特定部５０が、キャラクタ仮想スピーカ８４が出力した音声がキャラクタ８２の右耳の位置に到達する際にかかるオーディオエフェクトを特定し、このオーディオエフェクトを示す右エフェクトデータを生成してもよい。ここで、キャラクタ仮想スピーカ８４は、キャラクタ８２の口の位置に配置されていてもよい。

エフェクト特定部５０によるオーディオエフェクトの特定は、以上のようにして行われる必要はない。例えば、エフェクト特定部５０は、プリセットのオーディオエフェクトのうちからキャラクタ８２がいる仮想空間８０に対応するものを選択してもよい。

例えばエフェクト特定部５０が、仮想空間８０の環境属性とプリセットのオーディオエフェクトのパラメータの値とが対応付けられたデータを記憶していてもよい。そして、エフェクト特定部５０は、キャラクタ８２がいる仮想空間８０の環境属性に対応付けられているパラメータの値を示すエフェクトデータを生成してもよい。

ここで仮想空間８０の環境属性は、仮想空間８０のモード（例えば、シアター、洞窟、部屋、ホール、オープンエア、等）を示すものであってもよい。また仮想空間８０の環境属性は、仮想空間８０の広さ（例えば、広い、中程度、狭い、等）や、仮想空間８０の天井の高さ（例えば、高い、中程度、低い、等）を示すものであってもよい。

また、本実施形態では例えば、環境仮想スピーカ８６が、仮想空間８０での音声を仮想的に出力する。そして、ＶＲ音声データ生成部５２が、例えば、環境仮想スピーカ８６ａ～８６ｃのそれぞれについて、当該環境仮想スピーカ８６が出力する仮想的な音声がキャラクタ８２に到達する際の音声を表す仮想空間音声データを生成する。そしてＶＲ音声データ生成部５２は、これらの音声を合成した音声を表す仮想空間音声データを生成する。

仮想空間音声データが表す音声は、例えば音響レンダリング技術を用いて特定される、壁や天井などの仮想オブジェクト、キャラクタ８２、環境仮想スピーカ８６の配置などといった仮想空間８０の環境に応じたオーディオエフェクトがかけられた音声である。

ここで例えば、ＶＲ音声データ生成部５２が、環境仮想スピーカ８６が出力する仮想的な音声がキャラクタ８２の左耳の位置に到達する際の音声を表す左仮想空間音声データを生成してもよい。また例えば、ＶＲ音声データ生成部５２が、環境仮想スピーカ８６が出力する仮想的な音声がキャラクタ８２の右耳の位置に到達する際の音声を表す右仮想空間音声データを生成してもよい。

ＶＲ音声データ生成部５２による仮想空間音声データの生成は、以上のようにして行われる必要はない。例えばＶＲ音声データ生成部５２が、仮想空間８０の環境属性とプリセットのオーディオエフェクトのパラメータの値とが対応付けられたデータを記憶していてもよい。そして、ＶＲ音声データ生成部５２は、仮想空間８０で発生する音声に、キャラクタ８２がいる仮想空間８０の環境属性に対応付けられているオーディオエフェクトをかけた音声を表す仮想空間音声データを生成してもよい。

画像生成部５４は、本実施形態では例えば、仮想空間８０に配置されているキャラクタ８２の視点から当該仮想空間８０を見た様子を表すフレーム画像を生成する。

ＶＲデータ生成部５６は、本実施形態では例えば、エフェクトデータ、仮想空間音声データ、及び、フレーム画像を含むＶＲデータを生成する。ここで例えば、当該エフェクトデータには、左エフェクトデータ及び右エフェクトデータが含まれていてもよい。また、仮想空間音声データには、左仮想空間音声データ及び右仮想空間音声データが含まれていてもよい。

送信部５８は、本実施形態では例えば、上述のＶＲデータをＨＭＤ１２に送信する。

受信部６０は、本実施形態では例えば、上述のＶＲデータをエンタテインメント装置１０から受信する。

エフェクトデータ記憶部６２は、本実施形態では例えば、入力される実空間の音声にかけるオーディオエフェクトを示すエフェクトデータを記憶する。ここで例えば、受信部６０が、受信したＶＲデータに含まれるエフェクトデータをエフェクトデータ記憶部６２に記憶させてもよい。またこのとき、エフェクトデータ記憶部６２に記憶されているエフェクトデータを上書きしてもよい。

入力音声取得部６４は、本実施形態では例えば、入力される実空間の音声を表す入力音声データを取得する。ここでは例えば、マイク３６に入力される実空間の音声を表す入力音声データが取得される。

音声データ記憶部６６は、本実施形態では例えば、入力音声データを記憶する。音声データ記憶部６６に記憶される入力音声データは、例えば、初期反射音や残響音を生成するために用いられる。

合成音声データ生成部６８は、本実施形態では例えば、入力される実空間の音声にエフェクトデータ記憶部６２に記憶されているエフェクトデータが示すオーディオエフェクトをかけた音声を生成する。また合成音声データ生成部６８は、本実施形態では例えば、オーディオエフェクトがかけられた実空間の音声と仮想空間音声データが表す音声とを合成し、このようにして合成された音声を表す合成音声データを生成する。

ここで例えば、合成音声データ生成部６８は、実空間の音声に左エフェクトデータが示すオーディオエフェクトをかけた音声と左仮想空間音声データが表す音声とを合成した左合成音声データを生成してもよい。また、合成音声データ生成部６８は、実空間の音声に右エフェクトデータが示すオーディオエフェクトをかけた音声と右仮想空間音声データが表す音声とを合成した右合成音声データを生成してもよい。

音声出力部７０は、本実施形態では例えば、入力される実空間の音声にエフェクトデータ記憶部６２に記憶されているエフェクトデータが示すオーディオエフェクトをかけた音声を出力する。ここで音声出力部７０は、この音声と仮想空間音声データが表す仮想空間８０の音声とを合成した音声を出力してもよい。例えば、音声出力部７０は、合成音声データ生成部６８が生成する合成音声データが表す音声を出力してもよい。本実施形態では、音声出力部７０は、スピーカ３８から音声を出力させる。

ここで例えば、左合成音声データが表す音声が、ユーザの左耳に音声を出力するスピーカ３８から出力され、右合成音声データが表す音声が、ユーザの右耳に音声を出力するスピーカ３８から出力されてもよい。

表示制御部７２は、本実施形態では例えば、受信部６０が受信するＶＲデータに含まれるフレーム画像を表示部４２に表示させる。

ここで、本実施形態に係るエンタテインメント装置１０において行われる処理の流れの一例を、図４に例示するフロー図を参照しながら説明する。本処理例では、図４に示すＳ１０１～Ｓ１０５に示す処理が所定のフレームレートで繰り返し実行される。

まず、画像生成部５４が、当該フレームにおけるキャラクタ８２の位置から仮想空間８０を見た様子を表すフレーム画像を生成する（Ｓ１０１）。

そして、ＶＲ音声データ生成部５２が、当該フレームにおける仮想空間８０の環境に基づいて、仮想空間音声データを生成する（Ｓ１０２）。

そして、エフェクト特定部５０が、当該フレームにおける仮想空間８０の環境に基づいて、エフェクトデータを生成する（Ｓ１０３）。

そして、ＶＲデータ生成部５６が、Ｓ１０１に示す処理で生成されたフレーム画像、Ｓ１０２に示す処理で生成された仮想空間音声データ、及び、Ｓ１０３に示す処理で生成されたエフェクトデータ、を含むＶＲデータを生成する（Ｓ１０４）。

そして、送信部５８が、Ｓ１０４に示す処理で生成されたＶＲデータをＨＭＤ１２に送信して（Ｓ１０５）、Ｓ１０１に示す処理に戻る。

次に、本実施形態に係るＨＭＤ１２において行われる処理の流れの一例を、図５に例示するフロー図を参照しながら説明する。本処理例では、図４に示すＳ２０１～Ｓ２０７に示す処理が所定のフレームレートで繰り返し実行される。

まず、受信部６０が、Ｓ１０５に示す処理で送信された、当該フレームにおけるＶＲデータを受信する（Ｓ２０１）。

そして、受信部６０が、Ｓ２０１に示す処理で受信したＶＲデータに含まれる当該フレームにおけるエフェクトデータをエフェクトデータ記憶部６２に記憶させる（Ｓ２０２）。

そして、入力音声取得部６４が、当該フレームにおいてマイク３６から入力された音声を表す入力音声データを取得する（Ｓ２０３）。

そして、入力音声取得部６４が、Ｓ２０３に示す処理で取得された入力音声データを音声データ記憶部６６に記憶させる（Ｓ２０４）。

そして、合成音声データ生成部６８が、当該フレームにおける合成音声データを生成する（Ｓ２０５）。ここでは例えば、Ｓ２０３に示す入力音声データが表す音声にＳ２０２に示す処理で記憶された当該フレームにおけるエフェクトデータが示すオーディオエフェクトをかけた音声を示す実空間音声データが生成される。このとき、音声データ記憶部６６に記憶されている入力音声データが用いられてもよい。そして、この実空間音声データが表す音声とＳ２０１に示す処理で受信したＶＲデータに含まれる仮想空間音声データが表す音声とを合成した音声を表す合成音声データが生成される。

そして、表示制御部７２が、Ｓ２０１に示す処理で受信されたＶＲデータに含まれるフレーム画像を表示部４２に表示させる（Ｓ２０６）。

そして、音声出力部７０が、Ｓ２０５に示す処理で生成された合成音声データが表す音声をスピーカ３８から出力して（Ｓ２０７）、Ｓ２０１に示す処理に戻る。

本実施形態では、以上のようにして、仮想空間の環境に連動したオーディオエフェクトがマイク３６から入力される実空間の音声にかかる。そのため、本実施形態によれば、ユーザの仮想空間への没入感を高めることができる。

また本実施形態では、マイク３６から入力される実空間の音声をエンタテインメント装置１０に送ることなく、当該音声に仮想空間の環境に連動したオーディオエフェクトがかかる。そのため本実施形態によれば、入力される実空間の音声に対して短時間で仮想空間の環境に連動したオーディオエフェクトをかけることができる。

本実施形態において、仮想空間の環境属性が変化した場合のみ、エンタテインメント装置１０からＨＭＤ１２にエフェクトデータが送信されるようにしてもよい。そしてＨＭＤ１２は、エフェクトデータの受信に応じて、エフェクトデータ記憶部６２に記憶されているエフェクトデータを受信したエフェクトデータに更新してもよい。

また、本実施形態において、フレーム画像の表示と音声の出力とは、同期して実行されても、非同期で実行されてもよい。

例えば、仮想空間の環境属性が変化しない場合には、エンタテインメント装置１０は、エフェクトデータを含まないＶＲデータを送信してもよい。そして、ＨＭＤ１２は、受信したＶＲデータにエフェクトデータが含まれる場合のみ、エフェクトデータ記憶部６２に記憶されているエフェクトデータを受信したエフェクトデータに更新してもよい。

このようにすることは、例えばキャラクタがいる仮想空間の環境属性の変化に追従して実空間の音声にかけるオーディオエフェクトを変更させる場合などに好適である。例えば、キャラクタがいる仮想空間がオープンエアから洞窟の中に変化したことに追従して、入力された実空間の音声にかかるオーディオエフェクトがオープンエアに対応するものから洞窟の中に対応するものに変化させる場合などに好適である。

またこのようにすることで、エンタテインメント装置１０からＨＭＤ１２へのデータの伝送量を低減できる。

また、例えば実空間におけるＨＭＤ１２の向きと仮想空間におけるキャラクタの向きとが対応する場合などにおいて、エフェクト特定部５０が、ＨＭＤ１２の向きに対応付けられているエフェクトデータを生成してもよい。例えば、エフェクトデータが、所定の向きとＨＭＤ１２の向きとがなす角度をパラメータとして含むデータであってもよい。

あるいは、エフェクトデータが、所定の向きとＨＭＤ１２の向きとがなす角度のそれぞれに対応付けられる複数の値を示すものであってもよい。

そして、合成音声データ生成部６８が、受信部６０が受信したＶＲデータに含まれるエフェクトデータと、センサ部４０により計測されるＨＭＤ１２の向きに基づいて、かけるべきオーディオエフェクトを特定してもよい。そして、合成音声データ生成部６８が、特定されるオーディオエフェクトを実空間の音声にかけてもよい。そして、このようにしてオーディオエフェクトがかけられた音声がスピーカ３８から出力されてもよい。またこの場合、センサ部４０により計測されるＨＭＤ１２の向きの変化に応じて、仮想空間におけるキャラクタの向きが変化してもよい。

またこの場合において、ＨＭＤ１２の向きの変化に連動してキャラクタの向きが変化しても仮想空間の環境属性が変化しない場合には、エンタテインメント装置１０からＨＭＤ１２にエフェクトデータが送信されないようにしてもよい。例えばこの場合には、エンタテインメント装置１０は、エフェクトデータを含まないＶＲデータを送信してもよい。こうすれば、エンタテインメント装置１０からＨＭＤ１２へのデータの伝送量を低減できる。

また本実施形態において、ＨＭＤ１２がヘッドホンを備えていてもよい。そして当該ヘッドホンに、マイク３６、及び、スピーカ３８が搭載されていてもよい。

また本実施形態では、マイク３６から入力される直接音についてもスピーカ３８から出力される。なお、ＨＭＤ１２が備えるヘッドホンが開放型ヘッドホンであり直接音がユーザの耳に届く場合は、マイク３６から入力される直接音についてはスピーカ３８から出力されなくてもよい。そしてこの場合に、マイク３６から入力される直接音にオーディオエフェクトをかけた音声（例えば初期反射音や残響音）のみがスピーカ３８から出力されてもよい。

また例えば、ＨＭＤ１２が密閉型ヘッドホンを備えていてもよい。そして当該密閉型ヘッドホンの内側（耳側）にスピーカ３８が設けられており、当該密閉型ヘッドホンの外側にマイク３６が設けられていてもよい。

またマイク３６は、ＨＭＤ１２を装着しているユーザの耳元に配置されていてもよい。

また例えば、合成音声データ生成部６８が、マイク３６から入力される実空間の音声の音声信号から仮想空間音声データが表す音声の音声信号を引いた音声信号を生成してもよい。そして、合成音声データ生成部６８が、当該音声信号が表す音声にエフェクトデータ記憶部６２に記憶されているエフェクトデータが示すオーディオエフェクトをかけた音声を生成してもよい。このようにすることで、マイク３６から入力される実空間の音声に混じる仮想空間音声データが表す音声に対してはオーディオエフェクトがかからないようにすることができる。

なお、本発明は上述の実施形態に限定されるものではない。

例えば、エンタテインメント装置１０とＨＭＤ１２との役割分担は上述のものには限定されない。例えばエンタテインメント装置１０の機能の一部又は全部がＨＭＤ１２において実装されていてもよい。例えばＨＭＤ１２が、オーディオエフェクトの特定、実空間の音声の取得、及び、実空間の音声に当該オーディオエフェクトをかけた音声の出力のすべてを実行してもよい。

また例えば、エンタテインメント装置１０から仮想空間の環境属性を示すデータがＨＭＤ１２に送信されてもよい。そして、ＨＭＤ１２が、仮想空間の環境属性を示すデータに基づいて、当該仮想空間の環境に応じたオーディオエフェクトを特定してもよい。そしてＨＭＤ１２が、特定されるオーディオエフェクトを入力される実空間の音声にかけてもよい。

また、マイク３６が、ＨＭＤ１２に搭載されている必要はない。また、マイク３６が、複数のマイク（マイクアレー）を含んでいてもよい。

また、本実施形態に係るＨＭＤ１２が、ＨＭＤ１２のそばにあるエンタテインメント装置１０からエフェクトデータを受信する必要はない。例えば、ＨＭＤ１２が、クラウドサービスからエフェクトデータを受信してもよい。

また、入力される実空間の音声に仮想空間の環境に応じたオーディオエフェクトをかける装置が、ＨＭＤ１２である必要はない。

１エンタテインメントシステム、１０エンタテインメント装置、１２ヘッドマウントディスプレイ（ＨＭＤ）、２０プロセッサ、２２記憶部、２４通信部、３０プロセッサ、３２記憶部、３４通信部、３６マイク、３８スピーカ、４０センサ部、４２表示部、５０エフェクト特定部、５２ＶＲ音声データ生成部、５４画像生成部、５６ＶＲデータ生成部、５８送信部、６０受信部、６２エフェクトデータ記憶部、６４入力音声取得部、６６音声データ記憶部、６８合成音声データ生成部、７０音声出力部、７２表示制御部、８０仮想空間、８２キャラクタ、８４キャラクタ仮想スピーカ、８６，８６ａ，８６ｂ，８６ｃ環境仮想スピーカ。

Claims

送信装置と、受信装置と、を含み、
前記送信装置は、
仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定するエフェクト特定部と、
前記オーディオエフェクトを示すエフェクトデータを生成するエフェクトデータ生成部と、
前記エフェクトデータを送信する送信部と、を含み、
前記受信装置は、
前記エフェクトデータを受信する受信部と、
実空間の音声を取得する音声取得部と、
前記実空間の音声に前記エフェクトデータが示すオーディオエフェクトをかけた音声を出力する音声出力部と、を含み、
前記送信部は、前記受信装置の向きに対応付けられている前記エフェクトデータを送信し、
前記音声出力部は、前記エフェクトデータに基づいて、前記実空間の音声に前記受信装置の向きに応じたオーディオエフェクトをかけた音声を出力する、
ことを特徴とするオーディオエフェクト制御システム。
前記送信部は、前記仮想空間での音声を表す仮想空間音声データをさらに送信し、
前記音声出力部は、前記仮想空間音声データが表す仮想空間の音声と、前記実空間の音声に前記オーディオエフェクトをかけた音声と、を合成した音声を出力する、
ことを特徴とする請求項１に記載のオーディオエフェクト制御システム。
前記受信装置は、マイク及びスピーカを備えた密閉型ヘッドホンをさらに含み、
前記マイクは、前記密閉型ヘッドホンの外側に設けられており、
前記スピーカは、前記密閉型ヘッドホンの内側に設けられており、
前記音声取得部は、前記マイクに入力される音声を取得し、
前記音声出力部は、前記実空間の音声に前記オーディオエフェクトをかけた音声を前記スピーカから出力させる、
ことを特徴とする請求項１又は２に記載のオーディオエフェクト制御システム。
仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定するエフェクト特定部と、
前記オーディオエフェクトを示すエフェクトデータを生成するエフェクトデータ生成部と、
前記エフェクトデータを、入力される実空間の音声に当該エフェクトデータが示すオーディオエフェクトをかける受信装置に送信する送信部と、を含み、
前記送信部は、前記実空間の音声に前記受信装置の向きに応じたオーディオエフェクトをかけた音声を出力する前記受信装置に、当該受信装置の向きに対応付けられている前記エフェクトデータを送信する、
ことを特徴とするオーディオエフェクト制御装置。
仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて特定される、オーディオエフェクトを示すエフェクトデータを受信する受信部と、
実空間の音声を取得する音声取得部と、
前記実空間の音声に前記エフェクトデータが示すオーディオエフェクトをかけた音声を出力する音声出力部と、を含む受信装置であって、
前記受信部は、前記受信装置の向きに対応付けられている前記エフェクトデータを受信し、
前記音声出力部は、前記エフェクトデータに基づいて、前記実空間の音声に前記受信装置の向きに応じたオーディオエフェクトをかけた音声を出力する、
ことを特徴とする受信装置。
仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定するエフェクト特定ステップと、
前記オーディオエフェクトを示すエフェクトデータを生成するエフェクトデータ生成ステップと、
前記エフェクトデータを、入力される実空間の音声に当該エフェクトデータが示すオーディオエフェクトをかける受信装置に送信する送信ステップと、を含み、
前記送信ステップでは、前記実空間の音声に前記受信装置の向きに応じたオーディオエフェクトをかけた音声を出力する前記受信装置に、当該受信装置の向きに対応付けられている前記エフェクトデータが送信される、
ことを特徴とするオーディオエフェクト制御方法。
仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて特定される、オーディオエフェクトを示すエフェクトデータを受信する受信ステップと、
実空間の音声を取得する音声取得ステップと、
前記実空間の音声に前記エフェクトデータが示すオーディオエフェクトをかけた音声を出力する音声出力ステップと、を含む受信装置の制御方法であって、
前記受信ステップでは、前記受信装置の向きに対応付けられている前記エフェクトデータが受信され、
前記音声出力ステップでは、前記エフェクトデータに基づいて、前記実空間の音声に前記受信装置の向きに応じたオーディオエフェクトをかけた音声が出力される、
ことを特徴とする受信装置の制御方法。
仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて、オーディオエフェクトを特定するエフェクト特定手順、
前記オーディオエフェクトを示すエフェクトデータを生成するエフェクトデータ生成手順、
前記エフェクトデータを、入力される実空間の音声に当該エフェクトデータが示すオーディオエフェクトをかける受信装置に送信する送信手順、をコンピュータに実行させ、
前記送信手順では、前記実空間の音声に前記受信装置の向きに応じたオーディオエフェクトをかけた音声を出力する前記受信装置に、当該受信装置の向きに対応付けられている前記エフェクトデータが送信される、
ことを特徴とするプログラム。
仮想空間内における、ユーザの動作に応じて変更可能な聴取位置又は聴取方向に基づいて特定される、オーディオエフェクトを示すエフェクトデータを受信する受信手順、
実空間の音声を取得する音声手順、
前記実空間の音声に前記エフェクトデータが示すオーディオエフェクトをかけた音声を出力する音声出力手順、をコンピュータに実行させ、
前記受信手順では、前記コンピュータの向きに対応付けられている前記エフェクトデータが受信され、
前記音声出力手順では、前記エフェクトデータに基づいて、前記実空間の音声に前記コンピュータの向きに応じたオーディオエフェクトをかけた音声が出力される、
ことを特徴とするプログラム。