JP2014236259A

JP2014236259A - 音源管理装置、音源管理方法、および音源管理システム

Info

Publication number: JP2014236259A
Application number: JP2013114904A
Authority: JP
Inventors: 桂樹岡林; Keiju Okabayashi; 拓郎大谷; Takuro Otani; 洋平関; Yohei Seki
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2013-05-31
Filing date: 2013-05-31
Publication date: 2014-12-15
Anticipated expiration: 2033-05-31
Also published as: JP6179194B2

Abstract

【課題】仮想スピーカ方式を用いた立体音響再生システムにおいて、処理量を最小にし、音の距離感やアナウンスなどの特殊効果も表現できる音源管理装置を提供する。【解決手段】距離感を表現可能な音源管理装置６００は、複数の音源から出力される音を、ユーザの位置、姿勢に応じ、前記ユーザに対して異なる複数の方向および異なる複数の距離に仮想的に配置した複数の仮想スピーカに割り当てるゾーン集約部６０４と、距離感を表現するため距離に依存するカットオフ周波数を用い、高周波成分をカットするフィルタ処理部６０６と、ディレイ音をオリジナル音に重ねる反響処置部６０８と、それぞれの方向に対する処理音を生成する仮想スピーカ集約部６１０と、前記ユーザの位置、姿勢に依存する頭部伝達関数を前記複数の処理音に作用させ、前記ユーザに提供する複数のチャンネルの出力音を生成し処理音を送信するストリーム送信部６１２と、を含む。【選択図】図８Ａ

Description

本発明は、音源管理装置、音源管理方法、および音源管理システムに関する。

たとえば、ヘッドフォン再生などで、音の広がり感を出すために、頭部伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）を用いて、仮想音像定位を実現する仮想音像定位技術が知られている。

頭部伝達関数を用意するためには、仮想音像を定位させたい位置にスピーカを設置し、このスピーカから受聴者の外耳道入口まで頭部伝達関数を測定する。この頭部伝達関数は、フィルタを定義するが、そのフィルタを頭部伝達関数フィルタと呼ぶことにする。仮想音像を定位させたい位置に設置したスピーカは、頭部伝達関数を測定するときのみ用いられ、再生の際には、設置されない。再生には、入力信号を再生するための複数のスピーカのみが用いられる。ヘッドフォンの場合は、左右の２つのスピーカである。入力信号を頭部伝達関数フィルタを通すことにより、ヘッドフォンの２つのスピーカ間に仮想音像を定位させる。

しかし、仮想音像定位技術では、音源数に比例して処理量が増加してしまうことがあり、その解決方法として、仮想スピーカ方式が提案されている。仮想スピーカ方式とは、複数の音源を、方向が異なる仮想的に配置した仮想スピーカと呼ばれるスピーカに配分することで、音像定位を可能とする。また、音像の定位を強調するための処理をするために、音源それぞれに残響処理や頭部伝達関数畳み込み処理を施す技術が知られている。この技術では、仮想音像を定位させたい位置に設置したスピーカを用いて測定した頭部伝達関数フィルタを入力信号に畳み込んで再生することにより、仮想音像の定位精度を向上させることができる。このように仮想スピーカ方式では、仮想スピーカの数に比例するＨＲＴＦ畳み込み処理を行うことで、音源数によらず仮想スピーカの数に比例する処理量だけで、音像定位を可能とする。

音像定位を実現する技術として、マルチチャンネル入力信号から音場の重心の方位と大きさを算出し、この算出した重心の方位と大きさに応じて重み係数を決定し、この決定した重み係数に基づいて仮想音像生成処理を行う技術が知られている。たとえば、ユーザの位置を中心として異なる半径の同心円で区切られる領域を想定し、重心の大きさがどの領域に位置するかによって、重心の大きさに関する重み係数を決定して、その重み係数を仮想音像を作る信号に掛けることによって、音像定位を可能とする。

また、予め位置を定めた複数の仮想スピーカと、音高とを対応させて、出力させたい音高には、その音高に対応した仮想スピーカの位置と実スピーカ位置との距離に応じた遅延や減衰を乗算して、仮想スピーカから出力することにより、実際のサイズよりも大きな音場の広がりを可能にする電子楽器が知られている。

さらに、ユーザと音像との距離を算出し、その距離に応じた係数に基づいてローパスフィルタを制御することによって、音像を定位させて立体的な音響効果を提供する立体音響処理装置が知られている。

特開２０１１−２１１３１２号公報特開平８−５０４７９号公報特開平１０−７０７９６号公報

飯田他「方向知覚メカニズムに基づいたＨＲＴＦの物理評価指標」日本音響学会講演論文集ｐｐ．５０５−５０８（２００８年９月）

しかしながら、頭部伝達関数を使って音像を定位させて立体的な音響効果を提供する立体音響処理装置、特に、サーバ−クライアント型の分散型の処理システムでは、音の距離感を表現しようとすると、仮想スピーカの数が多くなり、サーバ−クライアント間の通信量が増大してしまうという問題がある。また、一般に音の距離感を表現しようとするとき、アナウンスなどの特殊音源の定位のさせ方が知られていないという問題がある。

また、音の距離感を距離に応じたローパスフィルタを使って表現する手法も知られているが、この手法では、音源毎に頭部伝達関数を適用するため、音源数が増えるごとに処理量が増大してしまうという問題がある。特にモバイル端末など非力なプロセッサしか持たないコンピュータで立体音響の処理をすることが難しいという問題がある。

よって、一つの側面として、本発明は、音像定位システムにおいて、通信容量を増大させることなく、距離感の表現などの音の種類の特徴を付与することができる音源管理装置、音源管理方法、および音源管理システムを提供することを目的とする。

音の種類ごとに距離感を表現可能な音源管理装置が提供される。音源管理装置は、複数の音源から出力される音の各々を、ユーザの位置および姿勢に応じて、前記ユーザに対して異なる複数の方向および前記ユーザからの異なる複数の距離に仮想的に配置した複数の仮想スピーカに割り当てるゾーン集約部と、前記複数の前記仮想スピーカに割り当てられた前記音源から出力される前記音について、前記ユーザから前記仮想スピーカまでの距離が長くなればなるほど低いカットオフ周波数で高周波領域を減衰させる処理を施し、前記複数の前記仮想スピーカの各々に対して処理音を生成する音処理部と、前記複数の前記仮想スピーカの各々に対して生成された前記処理音について、前記複数の前記仮想スピーカのうち前記複数の方向のそれぞれの方向において前記複数の距離に仮想的に配置された前記仮想スピーカに対する前記処理音を集約してそれぞれの方向に対する複数の集約された処理音を生成する仮想スピーカ集約部と、前記ユーザの前記位置および前記姿勢に依存する頭部伝達関数を前記複数の集約された処理音に作用させることによって、前記ユーザに提供する複数のチャンネルの出力音を生成するクライアントに対して、前記複数の集約された処理音を送信する送信部と、を含むことを特徴とする。

音像定位システムにおいて、通信容量を増大させることなく、距離感の表現などの音の種類の特徴を付与することができる。

仮想スピーカ方式の概略を説明する図である。仮想スピーカ方式を採用する音源管理システムの概略を説明する図である。仮想スピーカ方式の原理の説明に用いられる図である。仮想スピーカ方式を採用し音の距離感を表現可能な音源管理システムのサーバにおける処理を説明する図である。頭部伝達関数における特徴的なピークを示す図である。正中面における図５のピークの変化を示す図である。距離に依存するカットオフ周波数の例について説明する図である。距離によって変化する音量のゲインの例について説明する図である。実施形態の音源管理システムのサーバの機能ブロック図の例である。実施形態の音源管理システムのクライアントの機能ブロック図の例である。各音源の配置例を示す図である。ある時刻における音源テーブルの例を示す図である。別の時刻における音源テーブルの例を示す図である。仮想スピーカテーブルの例を示す図である。音源管理装置の構成の例を示す図である。音源管理方法の処理の流れの例を示すフローチャートである。仮想スピーカテーブル更新処理における処理の流れの例を示すフローチャートである。仮想スピーカレンダリング処理における処理の流れの例を示すフローチャートである。

以下、図面を参照しながら、一実施形態の音源管理システムおよび音源管理方法について説明する。
＜全般的説明＞
図１〜７Ｂを参照して、仮想スピーカ方式の概略および一実施形態の音源管理システムおよび音源管理方法について全般的な説明を行う。図１〜２では仮想スピーカ方式の概略を説明し、図３〜７Ｂでは、音の距離感を表現可能な一実施形態の音源管理システムおよび音源管理方法について説明する。一実施形態の音源管理システムおよび音源管理方法は、仮想スピーカ方式を用いつつ、処理量の増大を抑制しながら、音の距離感やアナウンスなどの特殊音源の効果も表現することができる音源定位システムおよび方法である。

図１は、仮想スピーカ方式の概略を説明する図である。
図１では、仮想スピーカ方式を用いる音源管理システムのユーザＯを中心をする円上に複数の仮想スピーカ１０２、１０４、１０６、１０８、１１０、１１２、１１４、１１６が配置されている。仮想スピーカ１０２はユーザＯから見て方向Ｄ０の位置に配置されている。この方向Ｄ０の向きを０度と定義する。仮想スピーカ１０４、１０６、１０８、１１０、１１２、１１４、１１６はそれぞれ、ユーザＯから見て方向Ｄ１、Ｄ２、Ｄ３、Ｄ４、Ｄ５、Ｄ６、Ｄ７の方向に配置されている。方向Ｄ１、Ｄ２、Ｄ３、Ｄ４、Ｄ５、Ｄ６、Ｄ７は、方向Ｄ０と、時計回り方向に４５度、９０度、１３５度、１８０度、２２５度、２７０度、３１５度回転した方向である。

仮想スピーカ方式では、一般に、複数の音源から出力される音をある固定数の仮想スピーカに配分し、ユーザＯの頭部姿勢と連動して、各仮想スピーカの音に頭部伝達関数（ＨＲＴＦ：Ｈｅａｄ−ＲｅｌａｔｅｄＴｒａｎｓｆｅｒＦｕｎｃｔｉｏｎ）を畳み込み、音像を定位させ、ユーザＯに提示する。

このような仮想スピーカ方式を用いる音源管理システムは、たとえば美術館や展示会の会場などで、ユーザはヘッドフォンを装着し、そのヘッドフォンからは展示物の方向から音が聞こえるようにするために用いることができる。このような場所で仮想スピーカ方式を用いる音源管理システムを用いることによって、臨場感を失わずに、その場所にいるシステムのユーザに情報をクリアに伝達することができる。

図１において音源Ｐｎは、２つの仮想スピーカ１０４、１０６に近い位置に配置されている。図１で音源Ｐｎは、ユーザＯから見て４５度＋αの方向に位置している。

仮想スピーカ方式では、音源位置と仮想スピーカの位置の距離に応じて、各仮想スピーカへの配分ゲインの重み付けを行う。たとえば、音源Ｐｎからの距離が近い仮想スピーカほど、大きな配分ゲインが重み付けされても良い。

図１の例では、仮想スピーカ１０４、１０６に付与される音の重みをそれぞれ、Ｗ１、Ｗ２（０≦Ｗ１、Ｗ２≦１）とすると、
としても良い。

図１では、音源Ｐｎから出力される音を２つの仮想スピーカに配分したが、任意の数の仮想スピーカに割り当てることができる。

音源数が増加しても、残響処理、ＨＲＴＦ畳み込み処理量は増えない。仮想スピーカの数だけで処理を済ますことができる。また、残響処理とＨＲＴＦ畳み込み処理をする箇所を分割して処理することが可能である。

図２は、仮想スピーカ方式を採用する音源管理システムの概略を説明する図である。
図２に示されている音源管理システムは、サーバ２００とクライアント３００を含んでいる。サーバ２００は音源管理装置２００とも呼ばれる。クライアント３００はたとえば、モバイル端末であり得る。クライアント３００にはセンサ群が接続され、センサ群で計測されたクライアント３００に付属のヘッドフォンを装着しているユーザの位置、姿勢に関する情報は、クライアント３００の位置・姿勢推定部３０６に入力される。ここでは、ユーザは左右２チャンネルのヘッドフォンを装着するとしたが、一般のｎチャンネル音響システムであっても良い。

サーバ２００は、音源データ２０２、仮想スピーカ集約部２０４、残響付加部２０６を含んでいる。音源データ２０２は、たとえば複数の音源から出力される音に関する情報が格納されている。音源データ２０２に格納されている音に関する情報は、仮想スピーカ集約部２０４に送られ、固定数の仮想スピーカに割り当てられる。

このとき仮想スピーカ集約部２０４は、クライアント３００の位置・姿勢推定部３０６に入力されるユーザの位置、姿勢に関する情報を参照しても良い。ユーザの位置、姿勢が変化することによって、ある音源から出力される音の仮想スピーカへの割り当て方が変化する。

このように音源から出力される音を、ある固定数の仮想スピーカに割り当てることによって、処理量、通信量の爆発を防ぐことができる。仮想スピーカ集約部２０４で仮想スピーカの数のチャンネルに集約された音に関する情報は、残響付加部２０６で残響の処理が施される。一般に、残響付加をすることで音像の定位感や音の広がり感が増すという効果を奏する。

残響付加部２０６で残響を付加する処理が行われた音に関する情報は、ストリーム通信によって、クライアント３００に送られる。残響付加部２０６から出力される音に関する情報のチャンネル数は、仮想スピーカの数に等しい。

クライアント３００は、ＨＲＴＦ畳込み部３０２、ミキシング部３０４、および前述のように位置・姿勢推定部３０６を含んでいる。

サーバ２００の残響付加部２０６から送られた音に関する情報には、ＨＲＴＦ畳込み部３０２で、クライアント３００の位置・姿勢推定部３０６に入力されるユーザの位置、姿勢に関する情報を参照して入力された音像の定位角度に対応するＨＲＴＦが畳み込まれる。つまり、各仮想スピーカに対応するチャンネルの音に関する情報に、仮想スピーカの方向に対応するＨＲＴＦが畳み込まれる。ミキシング部３０４では、ＨＲＴＦ畳込み部３０２の出力を、右耳に対応する右チャンネルと左耳に対応する左チャンネルの出力にミキシングする。ミキシング部３０４で左右２チャンネルにミキシングされた音に関する情報は、ミキシング部３０４からユーザが装着しているヘッドフォンに出力される。

図３は、音の距離感を表現可能な仮想スピーカ方式の原理の説明に用いられる図である。

図３には、先に述べた仮想スピーカ方式を用いる音源管理システムにおいて、
（ａ）ユーザの周囲の空間を、リスナーと音源との距離によって区分される同心円状に複数のゾーンに分け、
（ｂ）音源の種類によってゾーンを分ける
（ｃ）それぞれのゾーン別にフィルタ処理や仮想スピーカへの配分を変える、
（ｄ）最後に同じ方向の仮想スピーカ同士をミキシングし、クライアントに伝送する、
ことによって距離感を表現するシステムの概略が示されている。

図３では、ユーザＯを中心とする空間は、ユーザＯとの距離が長い順に、同心円状のゾーンＺ３〜Ｚ５に分けられている。ユーザＯとの距離が一番短いゾーンＺ５は「近距離ゾーン」、次に距離が短いゾーンＺ４は「中距離ゾーン」、ユーザＯとの距離が一番長いゾーンＺ３は、「長距離ゾーン」と呼ぶことがある。図３では、距離に依存して、「近距離ゾーン」、「中距離ゾーン」、「長距離ゾーン」の３つのゾーンが存在するが、３つでなくても任意の数で構わない。長距離ソーンの外には、アナウンス音のゾーンＺ２、指示音のゾーンＺ１が存在する。ここで、アナウンス音とは、たとえば、会場全体に流れる案内であり得る。迷子の知らせ、遺失物の案内から、火災など緊急時の避難誘導案内などであり得る。一般に、アナウンス音は、たとえば天井のある展示会場など閉じた空間では、スピーカの特性上、低域が減衰する。指示音は、たとえば、耳元でささやかれているような音である。

図３では仮想スピーカは、ユーザＯから見て８つの方向、すなわち方向Ｄ０〜Ｄ７の方向に配置されている。この方向Ｄ０〜Ｄ７は図１に示されている方向と同一である。また仮想スピーカは、各方向には、ユーザＯからの距離によって区分されるゾーンごとに配置されている。

たとえば、方向Ｄ１では、ゾーンＺ１には仮想スピーカ４０２ａが、ゾーンＺ２には仮想スピーカ４０４ａが、ゾーンＺ３には仮想スピーカ４０６ａが、ゾーンＺ４には仮想スピーカ４０８ａが、ゾーンＺ５には仮想スピーカ４１０ａが配置されている。また、方向Ｄ２では、ゾーンＺ１には仮想スピーカ４０２ｂが、ゾーンＺ２には仮想スピーカ４０４ｂが、ゾーンＺ３には仮想スピーカ４０６ｂが、ゾーンＺ４には仮想スピーカ４０８ｂが、ゾーンＺ５には仮想スピーカ４１０ｂが配置されている。同様に、方向Ｄ７では、ゾーンＺ１には仮想スピーカ４０２ｈが、ゾーンＺ５には仮想スピーカ４１０ｈが配置されている。

音の距離感を表現可能な仮想スピーカ方式では、音源から出力された音を、図３に示されているような各方向の各ゾーンに配置された仮想スピーカに配分し、その後同じ方向同士の音に関する情報をミキシングし、図１に示されているような各方向に１つ配置される仮想スピーカに集約する。

図４は仮想スピーカ方式を採用し音の距離感を表現可能な音源管理システムのサーバにおける処理を説明する図である。

図４に示されているように、音の距離感を表現可能な音源管理システムのサーバ５００は、音源データ格納部５０２、第１仮想スピーカ集約部５０４、音処理部５０６、第２仮想スピーカ集約部５０８を含んでいる。このサーバ５００は、図２に示されているサーバ２００の代替として使用され、クライアント３００に接続される。サーバ５００は音源管理装置５００とも呼ばれる。第１仮想スピーカ集約部５０４、第２仮想スピーカ集約部５０８は、クライアント３００の位置・姿勢推定部３０６に入力されるユーザの位置、姿勢に関する情報を参照し得る。

音源データ格納部５０２には、音源から出力された音に関する情報や、ユーザと音源の相対的位置関係に関する情報などが格納されている。これらの情報をまとめて音源データを呼ぶ。音源データの例は、後述する図１０Ａや図１０Ｂに示されている。

第１仮想スピーカ集約部５０４は、音源から出力された音を、各ゾーンに配置された仮想スピーカに分配する。

第２仮想スピーカ集約部５０８は、各ゾーンに配置された仮想スピーカに分配された音に関する情報を、各方向に１つ配置される仮想スピーカに集約する。

音処理部５０６では、
（Ｃ１）距離感を表現するために仮想スピーカからの出力される通常音の高周波成分を距離に依存するカットオフ周波数を用いてカットする、距離に依存して音の大きさ（音量）を減衰させる、反響処理を行う、
（Ｃ２）アナウンス音は全体に分配した上で、仮想スピーカからの出力音の低周波成分をカットする、反響処理を行う、
（Ｃ３）指示音は、アナウンス音同様に全体に分配した上で反響処理を行わない、
という処理を行う。これらの処理は全て行う必要はなく、必要に応じて、その一部を行っても良い。すなわち、音処理部５０６では、入力された音に関する情報に対して、必要に応じて、フィルタ処理、反響処理を行う。

ここで人の聴覚特性について簡単に説明する。
図５は、頭部伝達関数における特徴的なピークを示す図、図６は正中面における図５のピークの変化を示す図である。図６は、図５の角度依存性を示している。図５および図６は、非特許文献１から引用したものである。

人は、周波数２０Ｈｚから２０ｋＨｚまでの音を聴くことができるといわれている。すなわち、人の聴覚の周波数特性は２０Ｈｚ〜２０ｋＨｚである。

図５から分かるように、前後上下の正中面知覚は、図５に示されている頭部伝達関数の周波数特性における第１ノッチＮ１と第２ノッチＮ２が深く関与している。第１ノッチＮ１は、６．２ｋＨｚ〜９．６ｋＨｚ、第２ノッチＮ２は８．２ｋＨｚ〜１２．４ｋＨｚに分布している。

また、図６から分かるように、たとえば、人の前方定位には約１２ｋＨｚまでの周波数が重要であり、この周波数領域の音を減衰させないようにフィルタ係数を定める必要がある。

ここで、音処理部５０６で行われる処理について簡単に説明する。
音処理部５０６では、アナウンス音、指示音以外の音については、距離感を表現するために、距離に依存するカットオフ周波数を有するフィルタを用いて高周波領域を減衰させる。

フィルタは、ユーザＯと音源の距離が大きいほど高域が減衰するように設定される。またフィルタの設定では、正中面の定位に重要な第１ノッチＮ１と第２ノッチＮ２をつぶさないようにする。そのために音処理部５０６では、第２ノッチＮ２の周波数の最大値（１２ｋＨｚ）と可聴域の最大値（２０ｋＨｚ）の間で仮想スピーカのゾーン数と等しい数のカットオフ周波数を決定する。

図７Ａは、距離に依存するカットオフ周波数の例について説明する図である。
カットオフ周波数は音圧が低周波領域より−３ｄＢとなる周波数で定義する。図７Ａでは、図３の近距離ゾーンＺ５に対するカットオフ周波数は１８．５ｋＨｚ、中距離ゾーンＺ４に対するカットオフ周波数は１５．５ｋＨｚ、長距離ゾーンＺ３に対するカットオフ周波数は１３ｋＨｚである例が示されている。

このように音処理部５０６で、仮想スピーカからの出力音の高周波成分を距離に依存するカットオフ周波数を用いてカットすることによって、定位感を損なわずに、距離感を表現することができる。

また、アナウンス音については、たとえば１ｋＨｚ以下の低周波成分をカットしても良い。または、５ｋＨｚ、１０ｋＨｚなど１ｋＨｚより高いカットオフ周波数を用いてもよいし、０．５ｋＨｚなど１ｋＨｚより低いカットオフ周波数を用いてもよい。アナウンス音の低周波成分をカットする目的は、本来アナウンス音は、天井スピーカなど小径で低音が出ないスピーカから発せられることが多いため、低周波成分をカットすることにより、より現実に近い音になるからである。

一般に音は、音源からの距離が長くなればなるほど、大きさが減衰する。物理的には音の減衰は距離の２乗に反比例する。音の減衰に関する人の感度は物理特性よりも鈍い。従って、各距離の音量のゲインを距離に反比例するように設定する。たとえば、ゲインをＧ、音源からの距離をｄ、調整用ゲインをａとして、
とする。

図７Ｂは距離によって変化する音量のゲインの例について説明する図である。
図７Ｂに示されているように、距離に反比例するゲインを用いて、音量を減衰させる。

このように音の距離感を表現可能な音源管理システムは、仮想スピーカを多重化し音源の特徴（カテゴリ）毎に音を集約することを特徴とする。音の種類、ユーザからの距離など音源の特徴毎にゾーンに分け、適合するゾーンへ音源から出力された音を集約する。仮想スピーカに対して集約された音に対して、音の種類、ユーザからの距離など音源の特徴を強調する演算を行い、最終的には方向が一致するゾーン同志をミキシングして、各方向に１つの仮想スピーカを生成する。生成された仮想スピーカの音に関する情報はクライアント３００にストリーム通信される。端末に送るストリームの数はサーバ２００を用いた場合と変わらないため、通信量を増大させることなく、たとえば、距離感の表現など各音源への特徴付けが実現可能となる。

＜音源管理システム＞
図８Ａ〜図１２を参照して、音源管理システムについて説明する。
以下では、サーバ−クライアント型の仮想スピーカ方式による音像定位システムであって、ユーザの周囲の空間を同心円状に複数のゾーンに分け、ゾーン毎に仮想スピーカを配分し、音源の種類（カテゴリ）によってゾーンを対応付けるように構成し、ユーザからの距離は、仮想スピーカ音にローパスフィルタ処理および増幅器により大きさの増減を行う事で表現するとともに、アナウンス音や指示音は無定位で分配し、最後に同じ方向の仮想スピーカ同士をミキシングし、クライアント端末に伝送するシステムが開示される。

音源管理システムは、サーバ６００およびクライアント７００を含む。
音源管理システムのサーバ６００は、ユーザの位置と音源の関係が変化する毎に仮想スピーカテーブルを更新しながら動作する。更新された仮想スピーカテーブルからカテゴリ分けされた各ゾーンの仮想スピーカへのレンダリングが行われる。距離ゾーンに関しては、音源管理テーブルには距離ゾーンを総称する記号Ｚｄが書いてあり、ユーザ位置と音源位置の関係が変化する毎に、あらかじめ設定された、近距離判定、中距離判定の閾値を参照して、それぞれのゾーン、すなわち近距離ゾーンＺｎ、中距離ゾーンＺｍ、長距離ゾーンＺｆを決定する。各ゾーンの仮想スピーカへのレンダリングを行った後に各ゾーンを一組の仮想スピーカにミキシングし送信部よりストリーム通信する。各処理は音声フレーム単位で行われる。

音源管理システムのクライアント７００では、ストリーム通信により送られてきた各仮想スピーカ毎音声フレームに対して、ユーザ姿勢に応じて各仮想スピーカの方向を確定しＨＲＴＦをそれぞれ適用することにより各仮想スピーカをユーザの周囲に音像定位させる。これらの処理を連続的に動作させることにより、ユーザの位置や頭部姿勢に即座に連動することが可能になる。

図８Ａは、実施形態の音源管理システムのサーバ６００の機能ブロック図の例である。サーバ６００は、音源データ格納部６０２、ゾーン集約部６０４、フィルタ処理部６０６、反響処理部６０８、仮想スピーカ集約部６１０、およびストリーム送信部６１２を含む。サーバ６００は音源管理装置６００とも呼ばれる。

図８Ｂは、実施形態の音源管理システムのクライアント７００の機能ブロック図の例である。クライアント７００は、ユーザＯに装着されるヘッドフォンまたはイヤホンと、ユーザＯの位置や向きを測定するセンサを含むヘッドセット７１４を含んでいる。また、クライアント７００は、ユーザ情報送信部７０２、頭部姿勢位置測定部７０４、ストリーム受診部７０６、ｈｒｔｆ適用処理部７０８、ｈｒｔｆ格納部７１０、ミキシング処理部７１２を含む。

音源データ格納部６０２は、図４のサーバ５００の音源データ５０２と同一または類似の構成を有している。音源データ６０２は、たとえば複数の音源から出力される音に関する情報や、音源のユーザＯとの相対位置に関する情報を含む。各音源は、各音源から出力される音を仮想スピーカに割り当てるためや、距離感を表現するためのフィルタ処理の際のカットオフ周波数、ゲインを決定するために、仮想スピーカとの相対位置が決められている。音源と仮想スピーカとの相対位置を決定するためには、ユーザＯの位置、向きに関する情報が必要である。これらの情報は、クライアント７００のヘッドセット７１４に含まれるセンサによって取得され、クライアント７００のユーザ情報送信部７０２から送られたものを用いても良い。クライアント７００のユーザ情報送信部７０２から送られたユーザＯの位置、向きに関する情報は、不図示のユーザ情報受信部で受信され、音源データ格納部６０２に格納されても良い。ユーザＯの位置、向きに関する情報は、「位置情報」と呼ばれることもある。

図９は、各音源の配置例を示す図である。
本例では、図９に示されているように、ユーザＯがいる空間は、ユーザＯからの近距離判定距離Ｒ１だけ離れた位置に設定される距離小の境界Ｂ１と、ユーザＯからの中距離判定距離Ｒ２だけ離れた位置に設定される距離中の境界Ｂ２によって区分けされている。距離小の境界Ｂ１よりユーザに近い領域には、音源Ｓ１、Ｓ５が配置されている。図９に示されているように、音源Ｓ１は、ユーザＯのほぼ正面方向、ユーザＯの正面から時計回り方向に約１５度の方向に配置されており、音源Ｓ５はユーザＯの正面から時計回り方向に約２７０度の方向に配置されている。音源Ｓ２とＳ８は、距離小の境界Ｂ１と距離中の境界Ｂ２の間に配置されている。音源Ｓ２は、ユーザＯの正面から時計回り方向に約９０度の方向に配置されている。音源Ｓ８は、ユーザＯの正面から時計回り方向に約３３５度の方向に配置されている。音源Ｓ３、Ｓ７は、ユーザＯから見て距離中の境界Ｂ２より遠い位置に配置されている。音源Ｓ３は、ユーザＯの正面から時計回り方向に約１０度の方向に配置されている。音源Ｓ７は、ユーザＯの正面から時計回り方向に約１２０度の方向に配置されている。

図１０Ａは、ある時刻ｔ＝Ｔ１における音源テーブルの例を示す図であり、図１０Ｂは別の時刻ｔ＝Ｔ２における音源テーブルの例を示す図である。

図１０Ａ、１０Ｂに示されているように、音源データ格納部６０２に格納される音源テーブルは、音源の音源番号、配置されている場所のゾーン、音源の位置座標を含んでいる。これらの音源に関する情報が変更されたか否かに関する情報は、「音源更新情報」とも呼ばれる。図１０Ａ、１０Ｂで位置は、（ｘ、ｙ、ｚ）の３次元座標で表される。ここで、ｘ−ｙ平面は、音源が配置されている空間の底面と水平な平面で、たとえば、ｘ軸の正の方向を図１のＤ２方向と並行な方向、ｙ軸の正の方向を図１のＤ０方向と平行な方向としても良い。ｚ軸は、ｘ−ｙ平面の法線方向に平行な方向であっても良い。図１０Ａ、１０Ｂにおいて、近距離ゾーンはＺｎ、中距離ゾーンはＺｍ、長距離ゾーンはＺｆで表されている。記号Ｚｄは、距離ゾーンを総称する記号である。

図１０Ａ、１０Ｂでは、音源の位置は音源が配置されている空間に付与されている座標であり、ユーザＯに対する相対座標ではない。たとえば、音源Ｓ１の座標は（５．６、２．３、１．５）であり、これは図１０Ａに示されている時刻ｔ＝Ｔ１の場合でも、図１０Ｂに示されている時刻ｔ＝Ｔ２の場合でも変わらない。しかし、ユーザＯは同じ場所にとどまってはいないので、音源テーブルは時々刻々とアップデートされる。たとえば、時刻ｔ＝Ｔ１で音源Ｓ１には、距離ゾーンを総称する記号Ｚｄが付与されている。しかし、時刻ｔ＝Ｔ２で音源Ｓ１は、ユーザＯに対して近距離ゾーンＺｎに属している。

音源データ格納部６０２は、格納している音源テーブルに含まれる情報が更新されたた否かに関する情報である音源更新情報を定期的、または連続的にチェックし、音源更新情報に変更があると、処理を開始しても良い。また、音源データ格納部６０２は、ユーザの位置に関する情報、すなわち「位置情報」をチェックし、位置情報に変更があると、処理を開始しても良い。

ゾーン集約部６０４は、図４のサーバ５００の第１仮想スピーカ集約部５０４と同一または類似の構成を有している。ゾーン集約部６０４は、複数の音源から出力された音のそれぞれを、各ゾーンに配置された仮想スピーカに分配、レンダリングする。このようにゾーン集約部６０４は、複数の音源から出力される音の各々を、ユーザの位置および姿勢に応じて、ユーザに対して異なる複数の方向および前記ユーザからの異なる複数の距離に仮想的に配置した複数の仮想スピーカに割り当てる。音の種類は、無指向性のアナウンス音、ユーザに対して直接音として提供される指示音、ならびにアナウンス音および指示音以外の通常音を含み得る。

フィルタ処理部６０６は、距離感を表現するために仮想スピーカからの出力音の高周波成分を距離に依存するカットオフ周波数を用いてカットする処理（上記（Ｃ１））と、距離に依存して音の大きさ（音量）を減衰させることによって表現することや、アナウンス音を全体に分配した上で、仮想スピーカからの出力音の低周波成分をカットする処理（上記（Ｃ２））や、指示音を全体に分配する処理（上記（Ｃ３））を行う。適用されるフィルタの周波数特性は、たとえば、図７Ａに示されているように、距離に依存するカットオフ周波数を用いて、高周波成分をカットする。このような処理を行うために、フィルタ処理部６０６は、複数の仮想スピーカの各々に割り当てられた音源から出力される通常音の、ユーザから複数の仮想スピーカの各々までの距離に依存するカットオフ周波数より高い周波数を有する高周波数成分を減衰させるローパスフィルタを含んでいてもよい。ここで、カットオフ周波数は、頭部伝達関数の周波数特性において前方定位に必要な周波数を避けて設定され得る。

また、音の大きさを減衰させる処理では図７Ｂに示されているように、距離に応じたゲインを用いても良い。音の大きさを減衰させる処理を行うために、フィルタ処理部６０６は増幅器を含んでいても良い。増幅器は、複数の仮想スピーカの各々に割り当てられた音源から出力される通常音を、ユーザから複数の仮想スピーカの各々までの距離に依存するゲインを有しても良い。

反響処置部６０８は、閉じた空間で発せられる指示音以外の音に対して、オリジナルの音の時間をずらしたディレイ音をオリジナルの音に重ねるなどによって、反響の効果を付与する。

フィルタ処理部６０６と反響処置部６０８は組み合わされて音処理部６１４を構成する。音処理部６１４は、図４のサーバ５００の音処理部５０６と同一または類似の機能を有する。音処理部６１４は、複数の仮想スピーカに割り当てられた音源から出力される通常音について、ユーザから仮想スピーカまでの距離が長くなればなるほど低いカットオフ周波数で高周波領域を減衰させる処理を施し、複数の仮想スピーカの各々に対して処理音を生成する。音の種類は、無指向性のアナウンス音、ユーザに対して直接音として提供される指示音、ならびにアナウンス音および指示音それ以外の通常音を含む。音の処理としては、上述のように、通常音に対して、ユーザから複数の仮想スピーカの各々までの距離に依存するカットオフ周波数より高い周波数を有する高周波数成分を減衰させたり、音の大きさを減衰させたり、アナウンス音は全体に分配した上で、仮想スピーカからの出力音の低周波成分をカットしたりすることを含む。また、通常音およびアナウンス音に対しては、反響処理を行っても良い。反響処理とは、閉じた空間で発せられる指示音以外の音に対して、オリジナルの音の時間をずらしたディレイ音をオリジナルの音に重ねるなどによって、反響の効果を付与する処理であり得る。

仮想スピーカ集約部６１０は、図４のサーバ５００の第２仮想スピーカ集約部５０８と同一または類似の構成を有している。仮想スピーカ集約部６１０は、各ゾーンに配置された仮想スピーカに分配された音に関する情報を、各方向に１つ配置される仮想スピーカに集約する。すなわち仮想スピーカ集約部６１０は、複数の仮想スピーカの各々に対して生成された処理音について、複数の仮想スピーカのうち複数の方向のそれぞれの方向において複数の距離に仮想的に配置された仮想スピーカに対する処理音を集約してそれぞれの方向に対する複数の集約された処理音を生成する。

図１１は、仮想スピーカ集約部６１０の処理の結果として得られる仮想スピーカテーブルの例を示す図である。

仮想スピーカテーブルは、図１に示されているように、各方向に１つ配置される仮想スピーカに集約される音源に関する情報が含まれている。

図１１では、仮想スピーカの角度ごとに、近距離ゾーン、中距離ゾーン、長距離ゾーン、アナウンスゾーン、指示音ゾーンが設定され、ゾーンごとに、属する音源の音源番号と配分されるゲインが示されている。

たとえば、図１１では、ユーザＯの正面方向、すなわち仮想スピーカ角度＝０度の方向には、アナウンスゾーン（Ｚａ）に音源番号Ｓ６の音源と、指示音ゾーン（Ｚｗ）に音源番号Ｓ４の音源が存在する。そして、音源番号Ｓ６の音源に配分されるゲインも、音源番号Ｓ４の音源に配分されるゲインも、０．１２５であることが示されている。

また、音源番号Ｓ３の音源は中距離ゾーンＺｍに配置され、ユーザＯから見てＤ１方向、すなわち仮想スピーカ角度＝４５度の方向の仮想スピーカと、ユーザＯから見てＤ２方向、すなわち仮想スピーカ角度＝９０度の方向の仮想スピーカにそれぞれ、配分ゲインが０．１と０．９で配分されることが示されている。

ストリーム送信部６１２は、仮想スピーカ集約部６１０で各方向に１つ配置される仮想スピーカ向けに集約された音の情報を含むストリームを、クライアント７００に向けて送信する。ストリーム送信部６１２は、集約された処理音に、ユーザの位置および姿勢に依存する頭部伝達関数を作用させることによって、ユーザに提供する複数のチャンネルの出力音を生成するクライアントに複数の集約された処理音を送信する。ストリーム送信部６１２は単に送信部６１２として参照されることがある。

クライアント７００では、集約された処理音に、ユーザの位置および姿勢に依存する頭部伝達関数を作用させることによって、ユーザに提供する複数のチャンネルの出力音を生成する。複数のチャンネルとは、左右の２チャンネルであり得る。

クライアント７００のストリーム受信部７０６では、サーバ６００のストリーム送信部６１２から送られたストリームを受信する。

ユーザに装着されたヘッドセット７１４のセンサで取得されたユーザＯの位置、向きに関する情報は、頭部姿勢位置計測部７０４に送られ、数値化される。数値化されたユーザＯの位置、向きに関する情報は、クライアント７００のユーザ情報送信部７０２からサーバ６００に向けて送信され得る。

ストリーム受信部７０６で受信された、方向ごと、たとえば図１の方向Ｄ０〜Ｄ７のそれぞれの方向に対する音の情報は、ｈｒｔｆ適用処理部７０８に送られ、各仮想スピーカに対応する音に関する情報に、仮想スピーカの方向に対応するＨＲＴＦが畳み込まれる。

ｈｒｔｆ適用処理部７０８は、図２のクライアント３００のＨＲＴＦ畳込み部３０２と同一または類似の構成を有している。

ミキシング処理部７１２は、図２のクライアント３００のミキシング部３０４と同一または類似の構成を有している。ミキシング処理部７１２では、ｈｒｔｆ適用処理部７０８の出力を、右耳に対応する右チャンネルと左耳に対応する左チャンネルの出力にミキシングする。

このように構成された仮想スピーカ方式を用いた立体音響再生システム（音源管理システム）では、処理量の増大を最小にしながら、音の距離感やアナウンスなどの特殊音源の効果も表現することができる。

このように音の距離感を表現可能な音源管理システムは、仮想スピーカを多重化し音源の特徴（カテゴリ）毎に音を集約することを特徴とする。音の種類、ユーザからの距離など音源の特徴毎にゾーンに分け、適合するゾーンへ音源から出力された音を集約する。仮想スピーカに対して集約された音に対して、音の種類、ユーザからの距離など音源の特徴を強調する演算を行い、最終的には方向が一致するゾーン同志をミキシングして、各方向に１つの仮想スピーカを生成する。生成された仮想スピーカの音に関する情報はクライアント７００にストリーム通信される。このように上述の音源管理システムは、音源の数が増えても、通信量を増大させることなく、各音源への特徴付けが実現可能となる。

図１２は、実施形態の音源管理装置６００の構成の例を示す図である。音源管理装置６００は、汎用コンピュータ８００として実現され得る。

このコンピュータ８００は、ＭＰＵ８０２、ＲＯＭ８０４、ＲＡＭ８０６、ハードディスク装置８０８、入力装置８１０、表示装置８１２、インタフェース装置８１４、及び記録媒体駆動装置８１６を備えている。なお、これらの構成要素はバスライン８２０を介して接続されており、ＭＰＵ８０２の管理の下で各種のデータを相互に授受することができる。

ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）８０２は、このコンピュータ８００全体の動作を制御する演算処理装置であり、コンピュータ８００の制御処理部として機能する。

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８０４は、所定の基本制御プログラムが予め記録されている読み出し専用半導体メモリである。ＭＰＵ８０２は、この基本制御プログラムをコンピュータ８００の起動時に読み出して実行することにより、このコンピュータ８００の各構成要素の動作制御が可能になる。

ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８０６は、ＭＰＵ８０２が各種の制御プログラムを実行する際に、必要に応じて作業用記憶領域として使用する、随時書き込み読み出し可能な半導体メモリである。

ハードディスク装置８０８は、ＭＰＵ８０２によって実行される各種の制御プログラムや各種のデータを記憶しておく記憶装置である。ＭＰＵ８０２は、ハードディスク装置２０８に記憶されている所定の制御プログラムを読み出して実行することにより、後述する各種の制御処理を行えるようになる。

入力装置８１０は、例えばマウス装置やキーボード装置であり、音源管理装置６００のユーザにより操作されると、その操作内容に対応付けられている各種情報の入力を取得し、取得した入力情報をＭＰＵ８０２に送付する。

表示装置８１２は例えば液晶ディスプレイであり、ＭＰＵ８０２から送付される表示データに応じて各種のテキストや画像を表示する。

インタフェース装置８１４は、このコンピュータ８００に接続される各種機器との間での各種情報の授受の管理を行う。

記録媒体駆動装置８１６は、可搬型記録媒体８１８に記録されている各種の制御プログラムやデータの読み出しを行う装置である。ＭＰＵ８０２は、可搬型記録媒体８１８に記録されている所定の制御プログラムを、記録媒体駆動装置８１６を介して読み出して実行することによって、後述する各種の制御処理を行うようにすることもできる。なお、可搬型記録媒体８１８としては、例えばＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）規格のコネクタが備えられているフラッシュメモリ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＤＶＤ−ＲＯＭ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などがある。

このようなコンピュータ８００を用いて音源管理装置６００（サーバ６００）を構成するには、例えば、上述の各処理部における処理をＭＰＵ２０２に行わせるための制御プログラムを作成する。作成された制御プログラムはハードディスク装置８０８若しくは可搬型記録媒体２１８に予め格納しておく。そして、ＭＰＵ８０２に所定の指示を与えてこの制御プログラムを読み出させて実行させる。こうすることで、音源管理装置６００が備えている機能がＭＰＵ８０２により提供される。

＜音源管理方法の処理＞
図１３〜１５を参照しながら、音源管理方法の処理について説明する。
また、音源管理装置６００（サーバ６００）が図１２に示されているような汎用コンピュータ８００である場合には、下記の説明は、そのような処理を行う制御プログラムを定義する。すなわち、以下では、下記に説明する処理を汎用コンピュータに行わせる制御プログラムの説明でもある。

図１３は、音源管理方法の処理の流れの例を示すフローチャートである。
処理が開始されると、Ｓ１０２で音源管理システムの音源管理装置６００（サーバ６００）の音源データ格納部６０２は、音源テーブルの位置情報、音源変更情報をチェックする。本ステップの処理が終了すると、処理はＳ１０４に進む。

Ｓ１０４で音源管理システムの音源管理装置６００の音源データ格納部６０２は、位置情報、音源変更情報に更新があるかを判定する。もし、この判定の結果が”ｙｅｓ”、すなわち位置情報、音源変更情報に更新がある場合には、Ｓ１０６に進む。また、この判定の結果が”ｎｏ”、すなわち位置情報、音源変更情報に更新がない場合には、Ｓ１０８に進む。

Ｓ１０６で音源管理装置６００のゾーン集約部６０４は、仮想スピーカテーブル更新処理を行う。

仮想スピーカテーブル更新処理について、図１４を参照しながら説明する。
図１４は、仮想スピーカテーブル更新処理における処理の流れの例を示すフローチャートである。

処理が開始されると、Ｓ２０２で音源管理装置６００のゾーン集約部６０４は、音源データ格納部６０２に格納されている音源テーブルを読み込む。そして、音源テーブルを表すインデックスのリセットも行う。本ステップの処理が終了すると、処理はＳ２０４に進む。

Ｓ２０４で音源管理装置６００のゾーン集約部６０４は、音源テーブルのインデックスを１つ進める。本ステップの処理が終了すると、処理はＳ２０６に進む。

Ｓ２０６で音源管理装置６００のゾーン集約部６０４は、ユーザの位置（ユーザ位置）と音源の位置（音源位置）から距離ゾーンの振り分けを行う。たとえば、音源管理装置６００のゾーン集約部６０４は、図１０Ａ、１０Ｂに例が示されている音源テーブルを参照して、現在のインデックスで指定される音源からの出力音を適切な配分ゲインで距離ゾーンに振り分ける。配分ゲインは、たとえば上記［数１］のように決定しても良いし、別の方法で決定しても良い。本ステップの処理が終了すると、処理はＳ２０８に進む。

Ｓ２０８で音源管理装置６００のゾーン集約部６０４は、音源データ格納部６０２に格納されている仮想スピーカテーブルの更新をする。本ステップの処理が終了すると、処理はＳ２０８に進む。

Ｓ２１０で音源管理装置６００のゾーン集約部６０４は、音源を示すインデックスについて、最後のインデックスかどうかを判定する。もし、この判定の結果が”ｙｅｓ”、すなわち現在のインデックスが最後のインデックスである場合には、仮想スピーカテーブル更新処理を終了する。また、この判定の結果が”ｎｏ”、すなわち現在のインデックスが最後のインデックスでない場合には、Ｓ２０４に進む。

図１３に戻り、Ｓ１０６での音源管理装置６００のゾーン集約部６０４による仮想スピーカテーブル更新処理が終了すると、Ｓ１０８に進む。

Ｓ１０８で音源管理装置６００の音源管理装置６００の音処理部６１４と仮想スピーカ主役部６１２は、仮想スピーカレンダリング処理を行う。

仮想スピーカレンダリング処理について、図１５を参照しながら説明する。
図１５は、仮想スピーカレンダリング処理における処理の流れの例を示すフローチャートである。

仮想スピーカレンダリング処理が開始されると、Ｓ３０２で音源管理装置６００の音処理部６１４は、サンプルカウンタリセットを行う。すなわち、サンプルカウンタをｓａｍｐｌｅとすると、ｓａｍｐｌｅ＝０とする。本ステップの処理が終了すると、処理はＳ３０４に進む。

Ｓ３０４で音源管理装置６００の音処理部６１４は、仮想スピーカインデックスのリセットを行う。すなわち、仮想スピーカインデックスをｖｓｐｎとすると、ｖｓｐｎ＝０とする。本ステップの処理が終了すると、処理はＳ３０６に進む。

Ｓ３０６で音源管理装置６００の音処理部６１４は、音源データ格納部６０２に格納されている、現在のｖｓｐｎの値が示す仮想スピーカテーブルの情報を参照する。本ステップの処理が終了すると、処理はＳ３０８に進む。

Ｓ３０８で音源管理装置６００の音処理部６１４は、仮想スピーカテーブルの情報に従ってレンダリングをする。

より具体的には、音処理部６１４のフィルタ処理部６０６は、
（Ｃ４）距離感を表現するために仮想スピーカからの出力音の高周波成分を距離に依存するカットオフ周波数を用いてカットすることと、距離に依存して音の大きさ（音量）を減衰させる、
（Ｃ５）アナウンス音について、仮想スピーカからの出力音の低周波成分をカットする、
という処理を行う。（Ｃ４）の処理では、空間をユーザからの距離に依存して３つのゾーン、すなわち、近距離ゾーン、中距離ゾーン、長距離ゾーンに分割し、近距離ゾーンに対するカットオフ周波数は１８．５ｋＨｚ、中距離ゾーンに対するカットオフ周波数は１５．５ｋＨｚ、長距離ゾーンに対するカットオフ周波数は１３ｋＨｚとしても良い。

アナウンス音については、たとえば１ｋＨｚ以下の低周波成分をカットしても良い。または、５ｋＨｚ、１０ｋＨｚなど１ｋＨｚより高いカットオフ周波数を用いてもよいし、０．５ｋＨｚなど１ｋＨｚより低いカットオフ周波数を用いてもよい。

また、音処理部６１４の反響処理部６０８は、
（Ｃ６）閉じた空間で発せられる指示音以外の音に対して、オリジナルの音の時間をずらしたディレイ音をオリジナルの音に重ねるなどによって、反響の効果を付与する。
という反響処理を行う。

このようにＳ３０８で音源管理装置６００の音処理部６１４は、仮想スピーカに対して集約された音に対して、音の種類、ユーザからの距離など音源の特徴を強調する演算を行う。このように処理することによって、音源の数が増加しても、通信量は増加しない。

Ｓ３０８の処理が終了すると、処理はＳ３１０に進む。
Ｓ３１０で音源管理装置６００の音処理部６１４は、ｖｓｐｎの値の更新を行う。たとえば、ｖｓｐｎの値を１だけ増加させる。本ステップの処理が終了すると、処理はＳ３１２に進む。

Ｓ３１２で音源管理装置６００の音処理部６１４は、全ての仮想スピーカを処理したかを判定する。もし、この判定の結果が”ｙｅｓ”、すなわち全ての仮想スピーカを処理した場合には、Ｓ３１４に進む。また、この判定の結果が”ｎｏ”、すなわち全ての仮想スピーカを処理していない場合には、Ｓ３０６に戻る。

Ｓ３１４で音源管理装置６００の音処理部６１４は、ｓａｍｐｌｅの値の更新を行う。たとえば、ｓａｍｐｌｅの値を１だけ増加させる。本ステップの処理が終了すると、処理はＳ３１６に進む。

Ｓ３１６で音源管理装置６００の仮想スピーカ集約部６１２は、フレームサイズを超えたかを判定する。もし、この判定の結果が”ｙｅｓ”、すなわち、フレームサイズを超えた場合には、仮想スピーカレンダリング処理を終了する。また、この判定の結果が”ｎｏ”、すなわちフレームサイズを超えていない場合には、Ｓ３０４に戻る。

図１３に戻って、音源管理装置６００の音処理部６１４によるＳ１０８の仮想スピーカレンダリング処理が終了すると、Ｓ１１０に進む。

Ｓ１１０で音源管理装置６００のストリーム送信部６１２は、１フレーム分ストリーム送信をする。本ステップの処理が終了すると、処理はＳ１１２に進む。

Ｓ１１２で音源管理装置６００のストリーム送信部６１２は、クライアントから配信停止指示があるか否かを判定する。もし、この判定の結果が”ｙｅｓ”、すなわち、クライアントから配信停止指示がある場合には、処理を終了する。また、この判定の結果が”ｎｏ”、すなわちクライアントから配信停止指示がない場合には、Ｓ１０２に戻る。

このような処理によって、音源の数が増えても、通信量を増大させることなく、各音源への特徴付けが実現可能となる。

以上の実施形態に関し、さらに以下の付記を開示する。
（付記１）
複数の音源から出力される音の各々を、ユーザの位置および姿勢に応じて、前記ユーザに対して異なる複数の方向および前記ユーザからの異なる複数の距離に仮想的に配置した複数の仮想スピーカに割り当てるゾーン集約部と、
前記複数の前記仮想スピーカに割り当てられた前記音源から出力される前記音について、前記ユーザから前記仮想スピーカまでの距離が長くなればなるほど低いカットオフ周波数で高周波領域を減衰させる処理を施し、前記複数の前記仮想スピーカの各々に対して処理音を生成する音処理部と、
前記複数の前記仮想スピーカの各々に対して生成された前記処理音について、前記複数の前記仮想スピーカのうち前記複数の方向のそれぞれの方向において前記複数の距離に仮想的に配置された前記仮想スピーカに対する前記処理音を集約してそれぞれの方向に対する複数の集約された処理音を生成する仮想スピーカ集約部と、
前記ユーザの前記位置および前記姿勢に依存する頭部伝達関数を前記複数の集約された処理音に作用させることによって、前記ユーザに提供する複数のチャンネルの出力音を生成するクライアントに対して、前記複数の集約された処理音を送信する送信部、
を含む音源管理装置。
（付記２）
前記音処理部は、前記カットオフ周波数を、頭部伝達関数の周波数特性において前方定位に必要な周波数を避けて設定する付記１に記載の音源管理装置。
（付記３）
前記音処理部は、前記複数の前記仮想スピーカの各々に割り当てられた前記音源から出力される前記音を、前記ユーザから前記前記複数の前記仮想スピーカの各々までの距離に依存するゲインを有する増幅器を含む、付記１または２に記載の音源管理装置。
（付記４）
前記音処理部は、前記複数の前記仮想スピーカの各々に割り当てられた前記音源から出力されるアナウンス音の、所定の周波数より低い低周波数成分を減衰させるローパスフィルタを含む、付記１乃至３のいずれか一項に記載の音源管理装置。
（付記５）
前記音処理部は、前記音および前記アナウンス音に対して、入力された音であるオリジナル音に対して時間をずらして得られるディレイ音を前記オリジナルの音に重ねる、付記１乃至４のいずれか一項に記載の音源管理装置。
（付記６）
前記音処理部は、前記音および前記アナウンス音以外の指示音に対して、入力された音であるオリジナル音に対して時間をずらして得られるディレイ音が含まれる場合、前記ディレイ音を除去する、付記１乃至５のいずれか一項に記載の音源管理装置。
（付記７）
複数の音源から出力される音の各々を、ユーザの位置および姿勢に応じて、前記ユーザに対して異なる複数の方向および前記ユーザからの異なる複数の距離に仮想的に配置した複数の仮想スピーカに割り当てることと、
前記複数の前記仮想スピーカに割り当てられた前記音源から出力される前記音について、前記ユーザから前記仮想スピーカまでの距離が長くなればなるほど低いカットオフ周波数で高周波領域を減衰させる処理を施し、前記複数の前記仮想スピーカの各々に対して処理音を生成することと、
前記複数の前記仮想スピーカの各々に対して生成された前記処理音について、前記複数の前記仮想スピーカのうち前記複数の方向のそれぞれの方向において前記複数の距離に仮想的に配置された前記仮想スピーカに対する前記処理音を集約してそれぞれの方向に対する複数の集約された処理音を生成することとと、
前記集約された処理音に、前記ユーザの前記位置および前記姿勢に依存する頭部伝達関数を作用させることによって、前記ユーザに提供する複数のチャンネルの出力音を生成するクライアントに前記複数の集約された処理音を送信することと、
を含む音源管理方法。
（付記８）
サーバとクライアントを含む音源管理システムであって、
前記サーバは、
複数の音源から出力される音の各々を、ユーザの位置および姿勢に応じて、前記ユーザに対して異なる複数の方向および前記ユーザからの異なる複数の距離に仮想的に配置した複数の仮想スピーカに割り当てるゾーン集約部と、
前記複数の前記仮想スピーカに割り当てられた前記音源から出力される前記音について、前記ユーザから前記仮想スピーカまでの距離が長くなればなるほど低いカットオフ周波数で高周波領域を減衰させる処理を施し、前記複数の前記仮想スピーカの各々に対して処理音を生成する音処理部と、
前記複数の前記仮想スピーカの各々に対して生成された前記処理音について、前記複数の前記仮想スピーカのうち前記複数の方向のそれぞれの方向において前記複数の距離に仮想的に配置された前記仮想スピーカに対する前記処理音を集約してそれぞれの方向に対する複数の集約された処理音を生成する仮想スピーカ集約部と、
前記クライアントに前記複数の集約された処理音を送信する送信部、、
を含み、
前記クライアントは、
前記ユーザの位置および前記姿勢を測定するセンサと、
前記集約された処理音に、前記ユーザの前記位置および前記姿勢に応じて頭部伝達関数を畳み込み、前記ユーザから見て所定の方向に対する畳み込み音を生成する頭部伝達関数適用部と、
前記畳み込み音を用いて前記ユーザに提供する出力音を生成するミキシング処理部と、
を含む音源管理システム。

６００音源管理装置
６０２音源データ格納部
６０４ゾーン集約部
６０６フィルタ処理部
６０８反響処理部
６１０仮想スピーカ集約部
６１２ストリーム送信部
６１４音処理部
７００クライアント
７０２ユーザ情報送信部
７０４頭部姿勢位置計測部
７０６ストリーム受信部
７０８頭部伝達関数（ｈｒｔｆ）適用処理部
７１０頭部伝達関数（ｈｒｔｆ）格納部
７１２ミキシング処理部
７１４ヘッドセット

Claims

複数の音源から出力される音の各々を、ユーザの位置および姿勢に応じて、前記ユーザに対して異なる複数の方向および前記ユーザからの異なる複数の距離に仮想的に配置した複数の仮想スピーカに割り当てるゾーン集約部と、
前記複数の前記仮想スピーカに割り当てられた前記音源から出力される前記音について、前記ユーザから前記仮想スピーカまでの距離が長くなればなるほど低いカットオフ周波数で高周波領域を減衰させる処理を施し、前記複数の前記仮想スピーカの各々に対して処理音を生成する音処理部と、
前記複数の前記仮想スピーカの各々に対して生成された前記処理音について、前記複数の前記仮想スピーカのうち前記複数の方向のそれぞれの方向において前記複数の距離に仮想的に配置された前記仮想スピーカに対する前記処理音を集約してそれぞれの方向に対する複数の集約された処理音を生成する仮想スピーカ集約部と、
前記ユーザの前記位置および前記姿勢に依存する頭部伝達関数を前記複数の集約された処理音に作用させることによって、前記ユーザに提供する複数のチャンネルの出力音を生成するクライアントに対して、前記複数の集約された処理音を送信する送信部、
を含む音源管理装置。
前記音処理部は、前記カットオフ周波数を、頭部伝達関数の周波数特性において前方定位に必要な周波数を避けて設定する請求項１に記載の音源管理装置。
前記音処理部は、前記複数の前記仮想スピーカの各々に割り当てられた前記音源から出力される前記音を、前記ユーザから前記前記複数の前記仮想スピーカの各々までの距離に依存するゲインを有する増幅器を含む、請求項１または２に記載の音源管理装置。
前記音処理部は、前記複数の前記仮想スピーカの各々に割り当てられた前記音源から出力されるアナウンス音の、所定の周波数より低い低周波数成分を減衰させるローパスフィルタを含む、請求項１乃至３のいずれか一項に記載の音源管理装置。
前記音処理部は、前記音および前記アナウンス音に対して、入力された音であるオリジナル音に対して時間をずらして得られるディレイ音を前記オリジナルの音に重ねる、請求項１乃至４のいずれか一項に記載の音源管理装置。
前記音処理部は、指示音に対して、入力された音であるオリジナル音に対して時間をずらして得られるディレイ音が含まれる場合、前記ディレイ音を除去する、請求項１乃至５のいずれか一項に記載の音源管理装置。
複数の音源から出力される音の各々を、ユーザの位置および姿勢に応じて、前記ユーザに対して異なる複数の方向および前記ユーザからの異なる複数の距離に仮想的に配置した複数の仮想スピーカに割り当てることと、
前記複数の前記仮想スピーカに割り当てられた前記音源から出力される前記音について、前記ユーザから前記仮想スピーカまでの距離が長くなればなるほど低いカットオフ周波数で高周波領域を減衰させる処理を施し、前記複数の前記仮想スピーカの各々に対して処理音を生成することと、
前記複数の前記仮想スピーカの各々に対して生成された前記処理音について、前記複数の前記仮想スピーカのうち前記複数の方向のそれぞれの方向において前記複数の距離に仮想的に配置された前記仮想スピーカに対する前記処理音を集約してそれぞれの方向に対する複数の集約された処理音を生成することとと、
前記集約された処理音に、前記ユーザの前記位置および前記姿勢に依存する頭部伝達関数を作用させることによって、前記ユーザに提供する複数のチャンネルの出力音を生成するクライアントに前記複数の集約された処理音を送信することと、
を含む音源管理方法。
サーバとクライアントを含む音源管理システムであって、
前記サーバは、
複数の音源から出力される音の各々を、ユーザの位置および姿勢に応じて、前記ユーザに対して異なる複数の方向および前記ユーザからの異なる複数の距離に仮想的に配置した複数の仮想スピーカに割り当てるゾーン集約部と、
前記複数の前記仮想スピーカに割り当てられた前記音源から出力される前記音について、前記ユーザから前記仮想スピーカまでの距離が長くなればなるほど低いカットオフ周波数で高周波領域を減衰させる処理を施し、前記複数の前記仮想スピーカの各々に対して処理音を生成する音処理部と、
前記複数の前記仮想スピーカの各々に対して生成された前記処理音について、前記複数の前記仮想スピーカのうち前記複数の方向のそれぞれの方向において前記複数の距離に仮想的に配置された前記仮想スピーカに対する前記処理音を集約してそれぞれの方向に対する複数の集約された処理音を生成する仮想スピーカ集約部と、
前記クライアントに前記複数の集約された処理音を送信する送信部、
を含み、
前記クライアントは、
前記ユーザの位置および前記姿勢を測定するセンサと、
前記集約された処理音に、前記ユーザの前記位置および前記姿勢に応じて頭部伝達関数を畳み込み、前記ユーザから見て所定の方向に対する畳み込み音を生成する頭部伝達関数適用部と、
前記畳み込み音を用いて前記ユーザに提供する出力音を生成するミキシング処理部と、
を含む音源管理システム。