JP2006094315A - Stereophonic reproduction system - Google Patents
Stereophonic reproduction system Download PDFInfo
- Publication number
- JP2006094315A JP2006094315A JP2004279602A JP2004279602A JP2006094315A JP 2006094315 A JP2006094315 A JP 2006094315A JP 2004279602 A JP2004279602 A JP 2004279602A JP 2004279602 A JP2004279602 A JP 2004279602A JP 2006094315 A JP2006094315 A JP 2006094315A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- user
- acoustic
- virtual space
- server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Stereophonic System (AREA)
Abstract
Description
本発明は、仮想空間における音源の位置に応じて、立体的に音響を再生する技術に関する。 The present invention relates to a technique for reproducing sound three-dimensionally according to the position of a sound source in a virtual space.
本発明に関連する第 1 の背景技術として、デジタル信号処理にもとづく立体音響生成技術 (以下、「3 次元オーディオ技術」) がある。3 次元オーディオ技術は、複数のスピーカーを使用した多チャンネルステレオ再生、または、ステレオ・ヘッドフォンを使用したバイノーラル再生のための信号を、デジタル信号処理技術を使用して生成する(例えば、非特許文献1参照)。 As a first background technology related to the present invention, there is a stereophonic sound generation technology based on digital signal processing (hereinafter, “three-dimensional audio technology”). In the 3D audio technology, a signal for multi-channel stereo reproduction using a plurality of speakers or binaural reproduction using stereo headphones is generated using a digital signal processing technology (for example, Non-Patent Document 1). reference).
3次元オーディオ技術の中には、頭部伝達関数 HRTF (Head-Related Transfer Function) または頭部インパルス応答 HRIR (Head-Related Impulse Response) を使用したデジタル信号処理にもとづく技術がある。HRTF は、人頭とその周辺における耳殻、肩などによる音の変化を、伝達関数 (周波数応答) の形式で表現したものである。また、HRIR は、人頭とその周辺における耳殻、肩などによる音の変化を、インパルス応答の形式で表現したものである。なお、HRIR をフーリエ変換したものが HRTF である。HRTF または HRIR を使用した技術により、聴取者は、再生音において音源の方向(すなわち左右、前後、上下)を識別できるようになる。 Among 3D audio technologies, there are technologies based on digital signal processing using the head-related transfer function (HRTF) or head-related impulse response (HRIR). HRTF expresses changes in sound due to ear shells and shoulders around the human head in the form of a transfer function (frequency response). HRIR expresses changes in sound due to the ear shells and shoulders around the human head in the form of impulse responses. HRTF is the result of Fourier transform of HRIR. Techniques using HRTF or HRIR allow listeners to identify the direction of the sound source (ie, left / right, front / back, top / bottom) in the playback sound.
本発明に関連する第 2 の背景技術として、仮想空間を使用した会議システムがある(例えば、特許文献1、特許文献2および非特許文献2参照)。会議システムは、複数のユーザが仮想的な空間を共有し、同一の空間内にいるユーザ同士が会話をすることができるシステムである。
As a second background art related to the present invention, there is a conference system using a virtual space (see, for example,
さて、3次元オーディオ技術を用いてスピーカーまたはヘッドフォンから出力される再生音を聴く場合、人(聴取者)は、音源の方向を正確に判別(認知)することは容易ではない。 Now, when listening to reproduced sound output from a speaker or headphones using 3D audio technology, it is not easy for a person (listener) to accurately determine (recognize) the direction of the sound source.
その第1の理由としては、人は左右2つの耳しかもっていないという本質的な問題にある。人は、実空間において、両耳間の音量差および時間差、周波数特性の変化などにより音源の方向を識別する。しかしながら、耳は左右2つであることから、もともと人は、前後または上下の方向を判別する能力が低い。そのため、一般的に人は、実空間において直接聞こえる音についても、しばしば、前後または上下の方向について誤って判別する。 The first reason is the essential problem that people have only two left and right ears. In real space, a person identifies the direction of a sound source based on a volume difference and time difference between both ears, a change in frequency characteristics, and the like. However, since there are two ears on the left and right, a person originally has a low ability to discriminate front and rear or up and down directions. For this reason, in general, people often mistakenly determine the sound that can be heard directly in real space in the front-rear or up-down direction.
第2の理由は、3次元オーディオ技術を用いた再生音においては、個人ごとに異なる HRTF(またはHRIR) が正確に反映されていないことによる。すなわち、HRTF等に用いるデータは、標準的な人間の頭の形、耳殻を有するダミーヘッドを用いて測定される。しかしながら、人間の頭の形、耳殻は個人差があるため、ダミーヘッドの頭の形、耳殻等とは異なる聴取者は、3次元オーディオ技術を用いた再生音から、音源の方向を正確に判別(認知)することは容易ではない。 The second reason is that the HRTF (or HRIR) that differs from person to person is not accurately reflected in the reproduced sound using the three-dimensional audio technology. That is, data used for HRTF or the like is measured using a standard human head shape and a dummy head having an ear shell. However, since the shape of the human head and the ear shell vary from person to person, listeners who are different from the head shape and ear shell of the dummy head, etc., accurately determine the direction of the sound source from the reproduced sound using 3D audio technology. It is not easy to distinguish (recognize).
本発明は上記事情を考慮してなされたものであり、本発明の目的は、仮想空間における音源の方向を、より正確に判別(認識)できるようにすることにある。 The present invention has been made in view of the above circumstances, and an object of the present invention is to enable more accurate determination (recognition) of the direction of a sound source in a virtual space.
上記課題を解決するために、本発明では、仮想空間上で、ユーザの首を左右または上下に振るスイング指示を受け付け、首を振った状態で音源の音響を制御する。 In order to solve the above-described problem, in the present invention, a swing instruction for swinging the user's neck left and right or up and down is received in a virtual space, and the sound of the sound source is controlled while the head is swung.
例えば、仮想空間に存在する少なくとも1つの音源の音響を制御する立体音響再生システムであって、音源各々の音響効果を制御する音響サーバと、ユーザが使用するクライアントとを有する。クライアントは、仮想空間上で、ユーザの首を左右または上下に振るスイング指示を受け付ける受付手段と、受付手段が受け付けたスイング指示を、音響サーバに送信するクライアント送信手段と、音源各々の音響効果を制御した立体音響を音響サーバから受信するクライアント受信手段と、クライアント受信手段が受信した立体音響を出力する出力手段と、を有する。 For example, it is a stereophonic sound reproduction system that controls the sound of at least one sound source that exists in a virtual space, and includes a sound server that controls the sound effect of each sound source and a client used by the user. The client includes a reception unit that receives a swing instruction for swinging the user's neck left and right or up and down in the virtual space, a client transmission unit that transmits the swing instruction received by the reception unit to the acoustic server, and a sound effect of each sound source. Client receiving means for receiving the controlled stereo sound from the sound server, and output means for outputting the stereo sound received by the client receiving means.
音響サーバは、ユーザおよび音源各々の仮想空間における位置および向きを記憶するサーバ記憶手段と、音源各々から、当該音源が出力する音響を受信するサーバ受信手段と、サーバ記憶手段に記憶されたユーザおよび音源各々の位置および向きに基づいて、サーバ受信手段が受信した音響各々に適用する音響効果を制御する音響制御手段と、音響制御手段が音響効果を制御した立体音響を、クライアントに送信するサーバ送信手段と、を有し、クライアントからスイング指示を受信した場合、音響制御手段は、サーバ記憶手段に記憶されたユーザの向きから左右または上下に変更した向きに基づいて、受信した音響各々に適用する音響効果を制御する。 The acoustic server includes server storage means for storing positions and orientations of the user and the sound source in the virtual space, server reception means for receiving sound output from the sound source from each sound source, and a user stored in the server storage means, and Based on the position and orientation of each sound source, acoustic control means for controlling the acoustic effect applied to each of the sounds received by the server receiving means, and server transmission for transmitting the stereophonic sound whose acoustic effect is controlled by the acoustic control means to the client And when the swing instruction is received from the client, the sound control means applies each received sound based on the orientation changed from the user orientation stored in the server storage means to the left or right or up and down. Control sound effects.
本発明によれば、仮想空間において、ユーザは、仮想的に左右または上下に首をふる。これにより、音源から聞こえる音の変化に基づいて、音源の方向をより正確に把握することができる。 According to the present invention, in the virtual space, the user virtually swings his / her neck horizontally and vertically. Thereby, based on the change of the sound heard from the sound source, the direction of the sound source can be grasped more accurately.
以下に本発明の実施の形態について説明する。 Embodiments of the present invention will be described below.
図1は、本発明の一実施形態が適用された立体音響再生システムのシステム構成図を示したものである。図示するように、本システムは、複数ユーザ各々が使用する複数のクライアント201、202、203と、部屋管理サーバ110と、音響サーバ120と、登録サーバ130とを有する。そして、これらの装置201、202、203、110、120、130は、インターネット等のネットワーク101を介して接続されている。
FIG. 1 shows a system configuration diagram of a three-dimensional sound reproduction system to which an embodiment of the present invention is applied. As illustrated, the system includes a plurality of
部屋管理サーバ110は、仮想空間および当該仮想空間に存在するユーザのプレゼンス(位置情報等)を管理するとともに、セッション制御を行う。プレゼンスは、仮想空間そのものと、仮想空間内における各ユーザの位置情報(存在感)である。音響サーバ120は、クライアント201、202、203各々から入力された音声信号を、3次元オーディオ技術を用いて立体化しミキシングする。登録サーバ130は、各ユーザの登録または認証を行う。
The
なお、本実施形態では3台のクライアントを有しているが、クライアントの数は3台に限定されず、2台または4台以上であってもよい。また、本実施形態では、ネットワーク101は単一のドメインによって構成されているが、複数のドメインによりネットワークが構成され、各ドメインを結合して複数ドメインにまたがる通信を行うことも可能である。その場合には、部屋管理サーバ110、音響サーバ120および登録サーバ130は、複数個存在する。
In the present embodiment, three clients are provided, but the number of clients is not limited to three, and may be two or four or more. In this embodiment, the
次に、立体音響再生システムのハードウェア構成について説明する。 Next, the hardware configuration of the stereophonic sound reproduction system will be described.
図2は、クライアント201、202、203、部屋管理サーバ110、音響サーバ120および登録サーバ130の各装置のハードウェア構成を示したものである。
FIG. 2 shows the hardware configuration of each of the
クライアント201、202、203は、プログラムに従ってデータの加工・演算を行なうCPU301と、CPU301が直接読み書き可能なメモリ302と、ハードディスク等の外部記憶装置303と、外部システムとデータ通信をするための通信装置304と、入力装置305と、出力装置306とを有する一般的なコンピュータシステムを利用することができる。例えば、PDA(Personal Digital Assistant)、ウェアラブルコンピュータ、PC(Personal Computer)など携帯用のコンピュータシステムである。なお、入力装置305および出力装置306については、図3において後述する。
部屋管理サーバ110、音響サーバ120および登録サーバ130は、少なくともプログラムに従ってデータの加工・演算を行なうCPU301と、CPU301が直接読み書き可能なメモリ302と、ハードディスク等の外部記憶装置303と、外部システムとデータ通信をするための通信装置304と、を有する一般的なコンピュータシステムを利用することができる。具体的には、サーバ、ホストコンピュータなどである。
The
なお、上記各装置の後述する機能は、メモリ302にロードまたは記憶された所定のプログラム(クライアント201、202、203の場合はクライアント用のプログラム、部屋管理サーバ110の場合は部屋管理サーバ用のプログラム、音響サーバ120の場合は音響サーバ用のプログラム、そして、登録サーバ130の場合は登録サーバ用プログラム)を、CPU301が実行することにより実現される。
The functions described below of each of the above-described devices are a predetermined program loaded or stored in the memory 302 (a client program in the case of the
次に、図3を参照しクライアント201の入力装置305と、出力装置306と、機能構成とについて説明する。なお、クライアント202、203においても同様の構成とする。
Next, the
クライアント201は、入力装置305として、マイクロフォン211と、ポインティングデバイス230と、左右スイングボタン231と、上下スイングボタン232と、を有する。ポインティングデバイス230は、ユーザが自分自身の仮想空間上における移動情報(位置情報および方位情報)を入力するための装置である。左右スイングボタン231は、仮想空間においてユーザが首を左右に振る(すなわち、頭を左右に回転させる)ことを指示するための入力装置である。上下スイングボタン232は、仮想空間においてユーザが首を上下に振る(すなわち、頭を上向きまたは下向きに回転させる)ことを指示するための入力装置である。
The
また、クライアント201は、出力装置306として、3次元オーディオ技術対応のヘッドフォン217と、ディスプレイ220とを有する。
In addition, the
機能構成としては、オーディオエンコーダ212と、オーディオデコーダ216と、オーディオ通信部215と、グラフィクスレンダラ219と、空間モデラ221と、プレゼンスプロバイダ222と、セッション制御部223と、を有する。
The functional configuration includes an
オーディオエンコーダ212は、マイクロフォン211から入力された音声(アナログ信号)を、オーディオ信号(デジタル信号)に変換し、オーディオ通信部215に出力する。
The
オーディオ通信部215は、音響サーバ120との間でオーディオ信号をリアルタイムに送受信する。すなわち、オーディオ通信部215は、オーディオエンコーダ212が変換した自ユーザのオーディオ信号を音響サーバ120に送信する。また、オーディオ通信部215は、3次元オーディオ技術を使用して残響、フィルタリングなど仮想空間の属性から帰結する処理を行って立体化された他ユーザのオーディオ信号を、音響サーバ120から受信する。
The
オーディオデコーダ216は、オーディオ通信部215から入力された立体的なオーディオ信号を、音声(アナログ信号)に変換し、ヘッドフォン217に出力する。
The
グラフィクスレンダラ219は、仮想空間の属性から帰結する処理を行い、ディスプレイに出力する仮想空間のイメージデータを生成する。空間モデラ221は、ポインティングデバイス230から入力された移動情報を受け付けて、仮想空間上での自ユーザの位置や向きなどのプレゼンスを計算する。また、空間モデラ221は、左右スイングボタン231または上下スイングボタン232から入力された指示を受け付けて、仮想空間上での自ユーザが首を振った場合の向き計算する。
The
プレゼンスプロバイダ222は、部屋管理サーバ110との間で、仮想空間における各ユーザの位置情報および方位情報を送受信する。また、プレゼンスプロバイダ222は、左右スイングボタン231または上下スイングボタン232が押されたことによる自ユーザの向きの変更を、音響サーバ120に送信する。なお、このような情報を送受信するためのプロトコルとしては、IETF (Internet Engineering Task Force) において標準化中であるSIP (Session Initiation Protocol)の拡張仕様を用いることが考えられる。
The
セッション制御部223は、部屋管理サーバ110との間で、通信セションを制御する。このようなセッション制御のためのプロトコルとしては、IETF のドキュメントRFC3261において標準化されたSIP を用いることが考えられる。
The
ここで仮想空間とは、複数のユーザが会議または会話を行うために仮想的に作り出した空間、または、音楽やインターネット放送を聴くために仮想的に作り出した空間である。そして、部屋管理サーバ110が、仮想空間を管理している。ユーザがある仮想空間に入場すると、部屋管理サーバ110は、その仮想空間の属性、および、その仮想空間に存在する他のユーザの仮想空間における位置情報および方位情報を送信する。そして、空間モデラ221は、送信されたこれらの情報と、ポインティングデバイス230から入力された自ユーザの仮想空間上での位置情報および方位情報と、をメモリ302または外部記憶装置303に格納する。
Here, the virtual space is a space created by a plurality of users for a meeting or a conversation, or a space created for listening to music or Internet broadcasting. The
なお、仮想空間の属性には、例えば、空間の大きさ、天井の高さ、壁および天井の反射率・色彩・質感、残響特性、空間内の空気による音の吸収率などがある。これらのうち壁および天井の反射率、残響特性、空間内の空気による音の吸収率などは聴覚的な属性であり、壁および天井の色彩・質感は視覚的な属性であり、空間の大きさ、天井の高さは聴覚・視覚の両方にかかわる属性である。 The attributes of the virtual space include, for example, the size of the space, the height of the ceiling, the reflectance / color / texture of the walls and ceiling, the reverberation characteristics, and the sound absorption rate by the air in the space. Of these, the reflectance of walls and ceilings, reverberation characteristics, sound absorption by air in the space are auditory attributes, and the color and texture of walls and ceilings are visual attributes, and the size of the space The height of the ceiling is an attribute related to both hearing and vision.
つぎに、各機能の動作についてプレゼンス、音声、映像の順に説明する。 Next, the operation of each function will be described in the order of presence, audio, and video.
プレゼンスについては、ポインティングデバイス230が、自ユーザからの移動情報(位置情報または方位情報)の入力を受付け、これらの情報をデジタル信号に変換して空間モデラ221に入力する。空間モデラ221は、ポインティングデバイス230からの入力を受け付けて、仮想空間における自ユーザの位置および向きを変化させる。すなわち、空間モデラ221は、メモリ302または外部記憶装置303に保持された仮想空間の属性に基づいて、仮想空間上における自ユーザの位置および向きを変更する。
Regarding the presence, the
そして、空間モデラ221は、プレゼンスプロバイダ222を介して、自ユーザの仮想空間の位置情報および方位情報を部屋管理サーバ110に送信する。また、空間モデラ221は、プレゼンスプロバイダ222を介して、他のユーザの仮想空間の位置情報および方位情報を、部屋管理サーバ110から受信する。そして、空間モデラ221は、クライアントを使用する自ユーザの仮想空間内の位置情報および方位情報と、他のユーザの仮想空間内の位置情報および方位情報とを保持する。
Then, the
また、左右スイングボタン231は、ボタンの押下を検知すると、空間モデラ221に左右スイング指示を入力する。空間モデラ221は、左右スイング指示を受け付けると、1秒程度の間に次の操作をおこなう。
Further, the left /
まず、空間モデラ221は、仮想空間における自ユーザの首を現時点から 所定の角度(例えば、10°程度)左に振った場合の自ユーザの向き(方位情報)を算出する。そして、空間モデラ221は、算出した自ユーザの向きを、グラフィクスレンダラ219とプレゼンスプロバイダ222に送出する。プレゼンスプロバイダ222は、自ユーザの方位情報を、音響サーバ120に送信する。
First, the
そして、空間モデラ221は、仮想空間における自ユーザの首を現時点から 所定の角度(例えば、10°程度)右に振った場合の自ユーザの向き(方位情報)を算出する。そして、空間モデラ221は、算出した自ユーザの向きを、グラフィクスレンダラ219と音響サーバ120に送出する。なお、空間モデラ221は、プレゼンスプロバイダ222を介して、自ユーザの方位情報を音響サーバ120に送信する。
Then, the
以下、図4、図5および図6を用いて、左右スイングボタン231が押された場合について、さらに説明する。
Hereinafter, the case where the left /
図4は、仮想空間における自ユーザと音源(例えば、通信相手の他ユーザなど)を模式的に示した図である。図4では、自ユーザを真上から示した自ユーザ1と、音源2とを示している。自ユーザ1は、向きを示すために鼻11を有している。すなわち、自ユーザ1は、鼻11が付加されている方向3に向いている。図4では、最初の状態(左右スイングボタン231を押下する前の状態)において、自ユーザ1は、正面の方向3を向いており、音源2は、自ユーザ1の斜め右前方(n°の角度4の方向)に存在している。
FIG. 4 is a diagram schematically showing the own user and a sound source (for example, another user of the communication partner) in the virtual space. FIG. 4 shows the
さて、人間の耳は左右に2つしかないために、音源2が前方に存在するのか、または、後方に存在するのかを識別する能力が低い。したがって、実空間上であっても、自ユーザ1は、音源2の方向を、誤って後方に存在すると認識する場合がある。なお、このような人間の耳の特性については、例えば、以下に示す文献に記述されている。
Now, since there are only two human ears on the left and right, the ability to discriminate whether the
B. C. J. ムーア 著,大串 健吾 訳: 聴覚心理学概論,誠信書房,1994.P. 220-221。(原著: B. C. J. Moore: An Introduction to the Psychology of Hearing, 3rd Ed., Academic Press, 1989.)
このような状況において、自ユーザ1は、3次元オーディオ技術により再生される音源2の立体音響(再生音)をヘッドフォンから聞いて、音源2が斜め右前方に存在するか、または、斜め右後方2aに存在するのかを判別することが困難な場合(曖昧な場合)がある。この場合、自ユーザ1は、実空間上で一般的に音源の方向を確認する場合と同じように、首を左右に振る。すなわち、音源2の方向を正確に判別(認知)するために、左右スイングボタン231を押す。なお、誤認識しやすい音源2aは、自ユーザ1の左右の耳を結ぶ平面5に対して、実際の音源2と前後に対称な位置に存在する。
BCJ Moore, Takeshi Ogushi Translated: Introduction to Auditory Psychology, Seishin Shobo, 1994. P. 220-221. (Original: BCJ Moore: An Introduction to the Psychology of Hearing, 3rd Ed., Academic Press, 1989.)
In such a situation, the
図5は、左右スイングボタン231が押されたことにより、空間モデラ221が、自ユーザ1の首を左に振った状態を模式的に示した図である。すなわち、空間モデラ221は、自ユーザ1の向きを所定の角度(α°)左に変更する。この状態において、音源2は、最初の状態よりさらに右(すなわち、n+α°の方向4L)に移動することになる。したがって、自ユーザ1は、3次元オーディオ技術により再生される音源2の立体音響(再生音)が、図4に示す最初の状態から右に移動して聞こえる。なお、誤認識しやすい音源2aの位置に音源が存在する場合、自ユーザ1は、3次元オーディオ技術により再生される音源2’の立体音響が、図4に示す最初の状態から左に移動して聞こえる。
FIG. 5 is a diagram schematically showing a state in which the
図6は、空間モデラ221が、自ユーザ1の首を右に振った状態を模式的に示した図である。すなわち、空間モデラ221は、自ユーザ1の向きを所定の角度(α°)右に変更する。この状態において、音源2は、最初の状態より左(すなわち、n−α°の方向4R)に移動することになる。したがって、自ユーザ1は、3次元オーディオ技術により再生される音源2の立体音響(再生音)が、図4に示す最初の状態から左に移動して聞こえる。なお、誤認識しやすい音源2a 位置に音源が存在する場合、自ユーザ1は、3次元オーディオ技術により再生される音源2aの立体音響が、図4に示す最初の状態から右に移動して聞こえる。
FIG. 6 is a diagram schematically illustrating a state in which the
このように、左右スイングボタン231を使用することによって、ユーザは、方向が曖昧な音源について、正確な方向を把握することができる。すなわち、音源が前方にあるのか後方にあるのかが曖昧な場合、ユーザは、左右スイングボタン231を押す。そして、ユーザは、音源が最初に右、次に左に移動して聞こえる場合は、音源が前方にあると正しく判別することができる。一方、ユーザは、音源が最初に左、次に右に移動して聞こえる場合は、音源が後方にあると正しく判別することができる。
In this way, by using the left /
なお、一度に所定の角度左(または右)にユーザの向きが変化するような不連続な動作は、ユーザの混乱をまねく可能性がある。そのため、空間モデラ221は、一度に 所定の角度を左および右に振った場合の方位情報を、グラフィクスレンダラ219および音響サーバ120に送出するのでなく、一定の間隔の角度ごとに補間した方位情報をグラフィクスレンダラ219および音響サーバ120に送出する。これにより、実空間においてユーザが首を振った場合の動作のようにほぼ連続的な動作となり、ユーザの混乱を防止することができる。
Note that a discontinuous operation in which the user's orientation changes to the left (or right) by a predetermined angle at a time may lead to user confusion. For this reason, the
また、首を振る順番や、首を振る角度には個人差がある。そのため、先に左に振るかあるいは右に振るか、また、首を振る所定の角度については、ユーザ毎に調整(変更)できるものとする。 There are individual differences in the order of shaking the head and the angle of shaking the head. For this reason, it is assumed that a predetermined angle for first swinging to the left or to the right or swinging the neck can be adjusted (changed) for each user.
次に、上下スイングボタン232を押した場合について説明する。上下スイングボタン232は、ボタンの押下を検知すると、空間モデラ221に上下スイング指示を入力する。空間モデラ221は、上下スイング指示を受け付けると、1秒程度の間に次の操作をおこなう。
Next, a case where the up / down
まず、空間モデラ221は、仮想空間における自ユーザの首を現時点(水平な状態)から 所定の角度(例えば、10°程度)上に振った場合の自ユーザの向き(上下の方位情報)を算出する。そして、空間モデラ221は、算出した自ユーザの向きを、グラフィクスレンダラ219と音響サーバ120に送出する。
First, the
そして、空間モデラ221は、仮想空間における自ユーザの首を現時点(水平な状態)から 所定の角度(例えば、10°程度)下に振った場合の自ユーザの向き(上下の方位情報)を算出する。そして、空間モデラ221は、算出した自ユーザ向きを、グラフィクスレンダラ219および音響サーバ120に送出する。以下、図7を用いて、上下スイングボタン232が押された場合について、さらに説明する。
Then, the
図7は、仮想空間における自ユーザと音源を模式的に示した図である。図7では、自ユーザを側面から示した自ユーザ1と、音源2とを示している。自ユーザ1は、向きを示すために鼻11を有している。最初の状態(上下スイングボタン232を押下する前)において、自ユーザ1は、水平の方向3を向いており、音源2は、自ユーザ1の斜め上前方(n°の上方向4)に存在している。
FIG. 7 is a diagram schematically showing the user and the sound source in the virtual space. In FIG. 7, the
さて、人間の耳は左右に2つしかないために、前後の判別と同様に、音源2が上方に存在するか、または、下方に存在するかを識別する能力が低い。このような人間の耳の特性については、前述の文献(聴覚心理学概論)に記述されている。
Now, since there are only two human ears on the left and right, the ability to discriminate whether the
このような状況において、自ユーザ1は、3次元オーディオ技術により再生された音源2の立体音響(再生音)をヘッドフォンから聞いて、音源2が前方上方向に存在するか、または、前方下方向に存在するのかを判別することが困難な場合(曖昧な場合)がある。この場合、自ユーザは、音源の方向を正確に判別(認知)するために、実空間において音源の方向を確認するときと同様に、上下スイングボタン232を押す。なお、誤認識しやすい音源2aは、自ユーザ1の左右の耳を結ぶ平面5に対して、実際の音源2と上下に対称な位置に存在する。
In such a situation, the
上下スイングボタン232が押されたことにより、空間モデラ221は、最初に、自ユーザ1の向きを所定の角度(β°)上に変更する。すなわち、空間モデラ221は、自ユーザ1の首を上方向3Uに振る。この状態において、音源2は、最初の状態より下に(すなわち、n°−β°の方向4U)に位置することになる。したがって、自ユーザ1は、3次元オーディオ技術により再生される音源2の立体音響(再生音)が、最初の水平状態から下に移動して聞こえる。なお、誤認識しやすい音源2aの位置に実際の音源が存在する場合、自ユーザ1は、3次元オーディオ技術により再生される音源2aの立体音響が、最初の状態から上に移動して聞こえる。
When the up / down
次に、空間モデラ221は、次に、自ユーザ1の向きを所定の角度(β°)下に変更する。すなわち、空間モデラ221は、自ユーザ1の首を下方向3Dに振る。この状態において、音源2は、最初の状態より上に(すなわち、n°+β°の方向4D)に位置することになる。したがって、自ユーザ1は、3次元オーディオ技術により再生される音源2の立体音響が、最初の水平状態から上に移動して聞こえる。なお、誤認識しやすい音源2aの位置に実際の音源が存在する場合、自ユーザ1は、3次元オーディオ技術により再生される音源4の立体音響が、最初の状態から上に移動して聞こえる。
Next, the
このように、上下スイングボタン232を使用することによって、ユーザは、方向が曖昧な音源について、正確な方向を把握することができる。すなわち、音源が上にあるのか下にあるのかが曖昧な場合、ユーザは、上下スイングボタン232を押す。そして、ユーザは、音源が最初に下、次に上に移動して聞こえる場合は、音源が上にあると正しく判別することができる。一方、ユーザは、音源が最初に上、次に下に移動して聞こえる場合は、音源が下にあると正しく判別することができる。
Thus, by using the up / down
なお、一度に所定の角度上(または下)にユーザの向きが変化するような不連続な動作は、ユーザの混乱をまねく可能性がある。そのため、空間モデラ221は、左右スイングボタン231と同様に、一定の間隔の角度ごとに補間した方位情報をグラフィクスレンダラ219と音響サーバ120に送出する。これにより、実空間においてユーザが首を振った場合の動作のようにほぼ連続的な動作となり、ユーザの混乱を防止することができる。また、首を振る順番や、首を振る角度は、個人差があるため、ユーザ毎に調整(変更)できるものとする。
Note that a discontinuous operation in which the user's orientation changes at a predetermined angle (or below) at a time may lead to user confusion. Therefore, the
また、以上説明した左右スイングボタン231および上下スイングボタン232による首振り動作は、ポインティングデバイス230を流用して入力することもできる。しかしながら、左右スイングボタン230および上下スイングボタン232を別途もうけることにより、ユーザは容易にかつ的確に首振り指示を入力することができる。
In addition, the swinging motion by the left /
次に、音声について説明する。 Next, audio will be described.
音声については、マイクロフォン211が当該クライアントを使用する自ユーザの音声を収集し、オーディオエンコーダ212に送付する。そして、オーディオエンコーダ212は、自ユーザの音声をオーディオ信号(デジタル信号)に変換して、オーディオ通信部215に出力する。オーディオ通信部215は、オーディオエンコーダ212から入力された自ユーザのオーディオ信号を、リアルタイムに音響サーバ120に送信する。
As for the voice, the
また、オーディオ通信部215は、音響サーバ120から3次元オーディオ技術を使用して立体化された他のクライアントの他ユーザのオーディオ信号(立体音響)をリアルタイムに受信し、オーディオデコーダ216に出力する。オーディオデコーダ216は、音響サーバ120から受信したオーディオ信号(立体音響)をヘッドフォン217に出力する。なお、音響サーバ120が行うオーディオ信号の3次元オーディオ技術を使用した音響の立体化処理については後述する。
In addition, the
なお、オーディオ信号のリアルタイム通信には、IETF (Internet Engineering Task Force) が発行したドキュメントRFC 3550に記述されたプロトコルであるRTP(Real-time Transport Protocol) が使用される。 For real-time communication of audio signals, RTP (Real-time Transport Protocol), which is a protocol described in document RFC 3550 issued by IETF (Internet Engineering Task Force), is used.
次に、画像について説明する。 Next, the image will be described.
画像については、グラフィクスレンダラ219が、空間モデラ221が保持する視覚的な仮想空間属性、仮想空間における他ユーザ(通信相手)の位置および自ユーザの位置にもとづいて、仮想空間上でどのように他ユーザが見えるかを計算(座標変換)する。次に、グラフィクスレンダラ219は、あらかじめ定められた他ユーザの画像に対して、前記計算により自ユーザの位置から見た視点で仮想空間の属性から帰結する処理を行い、画面上に出力するイメージデータ(映像)を作成する。
As for the image, how the
このグラフィクスレンダラ219により生成された映像は、クライアントを使用する自ユーザの視点からの映像に再生され、ディスプレイ220に出力される。自ユーザは、必要に応じてディスプレイ220に出力された映像を参照する。
The video generated by the
図8は、平面図を用いた仮想空間の一例である。図示する表示内容は、クライアント201を使用する自ユーザが、クライアント202およびクライアント203を使用する第1および第2の他ユーザと、仮想空間を共有している場合を例にしたものである。図示する仮想空間は、空間モデラ221が保持する仮想空間の属性、仮想空間内における自ユーザおよび他ユーザの位置・方位情報をもとに、真上から仮想空間に配置された自ユーザ411と、第1の他ユーザ412および第2の他ユーザ413と、を眺めることで得られる2次元画像を表示している。なお、図示する自ユーザ411および他ユーザ412、413は、それぞれ、頭aと、仮想空間に配置された各ユーザの向いている方向を示すための鼻bと、肩(肩幅)cとを有する。
FIG. 8 is an example of a virtual space using a plan view. The display content shown in the figure is an example in which the own user who uses the
グラフィクスレンダラ219は、自ユーザ411の位置と向きを固定し、自ユーザ411を中心として仮想空間や仮想空間中の他のユーザ412、413が相対的に移動し回転するように表示する。ポインティングデバイス230を用いて自ユーザ411が移動または向きが変更した場合、仮想空間や仮想空間中の他のユーザが相対的に移動・回転した画面がリアルタイムでディスプレイ220に表示される。自ユーザの向きを前方に固定することにより、音声とグラフィクス表示との整合性が確保され、他ユーザの位置および方向を身体感覚として把握することができる。
The graphics renderer 219 fixes the position and orientation of the
また、図示する仮想空間では、所定の長さ(例えば、1m)を示すスケールバー414を表示している。また、図示する仮想空間では、各ユーザの肩(肩幅)cを表示している。スケールバー414および肩(肩幅)cを表示することにより、自ユーザ411は、他ユーザ412、413との仮想空間上でのおよその距離を視覚的(直感的)に把握することができる。そして、自ユーザは、スケールバー414および肩(肩幅)cが表示されたイメージデータ(図8)を参照しつつ、ヘッドフォンから出力される3次元オーディオ技術を用いた他ユーザの立体音響を聴く。
In the illustrated virtual space, a
なお、3次元オーディオ技術には、部屋の残響をシミュレートすることで、自ユーザと音源との距離や、部屋の大きさなどを表現する残響シミュレーション技術がある。部屋の残響は、音源が存在する部屋(仮想空間)の壁や部屋内の物体などによる音の反射や拡散などにより、音源の音響(以下、「直接音」)に付加される音響(以下、「反射音」)である。一般的に人間は、音源までの距離を判別(認識)する際に、直接音と残響である反射音との比率にもとづいて判別している。 Note that the 3D audio technology includes a reverberation simulation technology that expresses the distance between the user and the sound source, the size of the room, and the like by simulating the reverberation of the room. The reverberation of a room is the sound (hereinafter referred to as “direct sound”) that is added to the sound of the sound source (hereinafter referred to as “direct sound”) due to the reflection and diffusion of the sound from the walls of the room (virtual space) where the sound source exists and objects in the room "Reflected sound"). In general, when determining (recognizing) a distance to a sound source, a human determines based on a ratio between a direct sound and reflected sound that is reverberation.
したがって、自ユーザは、ディスプレイを参照することにより他ユーザ(音源)との距離を視覚的に把握しつつ、ヘッドフォンからは直接音と反射音とがまざった他ユーザの立体音響を聞く。これにより、自ユーザは、仮想空間内で移動することによって他ユーザとの距離を変化させ、距離の変化によって直接音と反射音との比がどのように変化するかを学習することができる。このような学習を繰り返すことにより、自ユーザは、ディスプレイを見なくても他ユーザとのおよその距離がわかるようになる。 Therefore, the user listens to the stereophonic sound of the other user, in which the direct sound and the reflected sound are mixed, while visually grasping the distance from the other user (sound source) by referring to the display. Thereby, the own user can learn how the ratio of the direct sound and the reflected sound is changed by changing the distance to the other user by moving in the virtual space and changing the distance. By repeating such learning, the user can know the approximate distance from other users without looking at the display.
なお、スケールバー414の所定の長さは、仮想空間の大きさや、ユーザの指示により変更(調整)することができるものとする。また、図示する仮想空間では、スケールバー414および肩(肩幅)cの両方を表示している。しかしながら、スケールバー414または肩(肩幅)cのいずれか一方のみを表示することとしてもよい。
It is assumed that the predetermined length of the
図9は、図8の状態において、左右スイングボタン231が押された場合に表示された仮想空間の一例である。左右スイングボタン231が押された場合、まず自ユーザ411は左に首を振る。そのため、ディスプレイに表示される仮想空間の平面図9Aでは、他ユーザ412、413は、図8に表示された位置から右方向に移動(すなわち、所定の角度だけ右に回転)する。
FIG. 9 is an example of a virtual space displayed when the left /
次に、自ユーザ411は右に首を振るため、ディスプレイに表示される仮想空間の平面図9Bでは、他ユーザ412、413は、図8に表示された位置から左方向に移動(すなわち、所定の角度だけ左に回転)する。そして、そして、ディスプレイに表示される仮想空間は、図8に示すもとの状態を表示する。なお、自ユーザ411の位置および向きは、左右スイングボタンが231が押されても図8の状態と変わらない。
Next, since the
図10は、図8の状態において、上下スイングボタン232が押された場合に表示された仮想空間の一例である。上下スイングボタン231が押された場合、まず自ユーザ411は首を上に振る。そのため、ディスプレイに表示される仮想空間の平面図10Aでは、上辺が底辺より小さい台形に変形して表示される。したがって、仮想空間内で自ユーザ411の前方に存在する他ユーザ412、413は、図8に示すもとの大きさより所定の割合だけ小さく表示される。
FIG. 10 is an example of the virtual space displayed when the up / down
次に、自ユーザ411は首を下に振るので、ディスプレイに表示される仮想空間の平面図10Aでは、底辺が上辺より小さい台形に変形して表示される。したがって、仮想空間内で自ユーザ411の前方に存在する他ユーザ412、413は、もとの大きさより所定の割合だけ大きく表示される。そして、ディスプレイに表示される仮想空間は、図8に示すもとの状態を表示する。なお、自ユーザの位置および向きは、上下スイングボタン232が押されても図8の状態と変わらない。
Next, since the
図11は、図8に示す平面図で表示した仮想空間を、3次元グラフィックス技術を使用して透視図のレンダリングを行った場合の仮想空間の一例である。すなわち、グラフィクスレンダラ219は、メモリ302または外部記憶装置303に記憶している空間の大きさ、壁および天井の材質などの仮想空間の属性、仮想空間内における自ユーザおよび他ユーザの位置情報などの3次元のデータから2次元画像を作成し、ディスプレイ220に表示する。図示する例では、仮想空間内における自ユーザ411の位置より定まる視点から、仮想空間に配置された壁面、天井、床面、他ユーザ412、413を眺めることで得られる2次元画像を表示している。
FIG. 11 is an example of a virtual space when the virtual space displayed in the plan view shown in FIG. 8 is rendered as a perspective view using a three-dimensional graphics technique. That is, the
図11では、スケールバーとして、床面に所定の距離を示すメッシュ(例えば、1m×1m)を表示している。これにより、図8で説明したスケールバーと同様の効果が発生する。すなわち、自ユーザは、他ユーサとの距離の変化によって直接音と反射音との比がどのように変化するかを学習することができる。 In FIG. 11, a mesh (for example, 1 m × 1 m) indicating a predetermined distance is displayed on the floor surface as the scale bar. As a result, the same effect as the scale bar described in FIG. 8 occurs. That is, the own user can learn how the ratio of the direct sound and the reflected sound changes due to a change in the distance to other users.
なお、所定の距離を示すメッシュ(例えば、1m×1m)だけでは、自ユーザは、遠くに存在する他ユーザとの距離を直感的に把握することは難しい。そのため、所定の距離より大きな距離(例えば、5m×5m、ないし、10m×10m)ごとに、より太い線でメッシュを表示することにしてもよい。また、メッシュの一部だけを表示したり、メッシュの交点だけを表示したりすることによって、距離を自ユーザに把握させるようにしてもよい。また、図8に示す平面図では、スケールバー414を表示しているが、メッシュを表示することとしてもよい。
Note that it is difficult for the own user to intuitively grasp the distance to other users who are far away only with a mesh indicating a predetermined distance (for example, 1 m × 1 m). Therefore, the mesh may be displayed with a thicker line for each distance larger than a predetermined distance (for example, 5 m × 5 m or 10 m × 10 m). Alternatively, the user may be made to grasp the distance by displaying only a part of the mesh or displaying only the intersection of the mesh. Moreover, in the top view shown in FIG. 8, although the
また、本実施形態では、平面のディスプレイ220を使用している。しかしながら、ステレオ視が可能なヘッドマウントディスプレイ等を使用することによって、スケールバーやメッシュを表示することなく、より直接的に距離を表示することとしてもよい。
In the present embodiment, a
以上で、図2のクライアントの説明を終了する。なお、クライアントのなかで、マイクロフォン211、ポインティングデバイス230、左右スイングボタン231、上下スイングボタン232、ヘッドフォン217 およびディスプレイ 220は、ハードウェアによって実現される。また、オーディオエンコーダ212、オーディオデコーダ216およびグラフィクスレンダラ219は、ソフトウェア、ハードウェアまたはこれらの組み合せによって実現される。また、オーディオ通信部215、空間モデラ 221 およびセッション制御部223 は、通常、ソフトウェアによって実現される。
This is the end of the description of the client in FIG. Among the clients, the
なお、クライアント201は、例えば、図12に示すようなPDAまたはハンドヘルド・コンピュータに近い大きさと機能を有するコンピュータを用いることが考えられる。すなわち、クライアント本体230は、ディスプレイ220と、ポインティングデバイス230として自ユーサの位置および向きを入力するための操作部240と、左右スイングボタン231と、上下スイングボタン232と、ネットワーク101に接続するためのアンテナ237と、を有する。
Note that the
また、本体230に接続されたヘッドセットは、ヘッドフォン217およびマイクロフォン211を有する。図示するヘッドセットは、本体230に有線接続されているが、BluetoothまたはIrDA(赤外線)などにより無線接続することも可能である。また、クライアント201は、一般的なパーソナルコンピュータ(Personal Computer)を用いることとしてもよい。
次に、音響サーバ120について説明する。
The headset connected to the
Next, the
音響サーバ120は、クライアントのオーディオ通信部215各々から送信されたオーディオ信号を、3次元オーディオ技術を使用して、音響サーバ120の空間モデラが保持する聴覚的な仮想空間属性、および、仮想空間上に存在する自ユーザおよび他ユーザ(音源)の位置にもとづいて、仮想空間上でどのように他ユーザの音声が聞こえるかを計算する。
The
図16は、音響サーバ120の構成図である。図示するように、音響サーバ120は、オーディオ受信部121と、オーディオレンダラ122と、オーディオ送信部123と、をそれぞれ少なくとも1つ有する。すなわち、音響サーバ120は、クライアントの数だけ(すなわち、クライアント毎に)これらの処理部121〜123を有するものとする。なお、音響サーバ120は、オーディオ受信部121、オーディオレンダラ122およびオーディオ送信部123を、クライアントの数だけ有することなく、それぞれ1つのプログラムまたは装置を時分割で使用することによって実現することとしてもよい。
FIG. 16 is a configuration diagram of the
また、音響サーバ120は、空間モデラ124と、通信セション125を有する。空間モデラ124は、部屋管理サーバ110から、仮想空間における各ユーザの位置および仮想空間の属性を受信し、図3に示すクライアントの空間モデラ221と同様の処理を行い、仮想空間上に各ユーザを配置する。セッション制御部125は、図3に示すクライアントのセッション制御部223と同様に、部屋管理サーバ110との間で、通信セションを制御する。
The
クライアント毎に対応付けられたオーディオ受信部121各々は、各クライアントのオーディオ通信部215からオーディオ信号(音声)を受信する。そして、オーディオ受信部121各々は、受信したオーディオ信号をバッファリングすることによって、全てのクライアントからのオーディオ信号間で同期させた (対応づけた) 信号データを、各オーディオレンダラ122に送出する。このバッファリング (プレイアウト・バッファリング) の方法については、たとえば次の文献に記述されている。
Colin Perkins 著: RTP: Audio and Video for the Internet, Addison-Wesley Pub Co; 1st edition (June 11, 2003).
クライアント毎に対応付けられたオーディオレンダラ122各々は、各オーディオ受信部121から入力された各オーディオ信号(音声)を、空間モデラ124が配置した仮想空間上の各ユーザの位置に基づいて立体化する。そして、オーディオレンダラ122は、当該クライアントに対応した2チャンネル(左チャンネルと右チャンネル)の信号データ(信号列)を、当該クライアントのオーディオ送信部123に出力する。クライアント毎に対応付けられたオーディオ送信部144は、2チャンネルの信号データを対応するクライアントに送信する。
Each
Colin Perkins: RTP: Audio and Video for the Internet, Addison-Wesley Pub Co; 1st edition (June 11, 2003).
Each
次に、オーディオレンダラ122について、具体的に説明する。
Next, the
3次元オーディオ技術においては、おもに人の頭(以下、「人頭」)のまわりでの音響の変化のしかた (インパルス応答) をあらわす HRIR (Head Related Impulse Response) と、部屋などの仮想環境によって生成される擬似的な残響とによって音の方向および距離を表現する。そして、HRIR は、音源と人頭との距離、および、人頭と音源との角度 (水平角度および垂直角度)によって決定される。なお、音響サーバ120のメモリ302または外部記憶装置303には、あらかじめダミーへッド(人頭)を使用して各距離および各角度毎に測定したHRIRの数値が記憶されているものとする。また、HRIRの数値には、左チャネル用(ダミーヘッドの左耳で測定したもの)と、右チャネル用(ダミーヘッドの右耳で測定したもの)とで異なる数値を使用することによって、左右、前後または上下の方向感を表現する。
In 3D audio technology, it is mainly generated by HRIR (Head Related Impulse Response), which expresses how the sound changes around the human head (hereinafter “human head”) (impulse response), and a virtual environment such as a room. The direction and distance of the sound is expressed by the simulated reverberation. HRIR is determined by the distance between the sound source and the human head and the angle (horizontal angle and vertical angle) between the human head and the sound source. It is assumed that the
図14は、オーディオレンダラ122の処理を示した図である。
FIG. 14 is a diagram showing processing of the
オーディオレンダラ122は、各音源(他ユーザ)に関して RTP (Real-time Transport Protocol) によって受信される 1 パケットごと (通常は 20 ms ごと) に、下記の計算をおこなう。
The
まず、オーディオレンダラ122は、音源毎、音源の信号列 si[t] (t = 1, ...) および音源の仮想空間内での座標 (xi, yi,zi )の入力を受け付ける(S61)。なお、仮想空間内での各音源の座標については、空間モデラ124から入力される。空間モデラ124は、仮想空間上に各音源(各ユーザ)を配置した後、各音源の座標をオーディオレンダラ122に入力する。また、各音源の信号列は、各オーディオ受信部121から入力される。
First, the
そして、オーディオレンダラ122は、音源の直接音と、残響である反射音とを計算する。
Then, the
直接音については、オーディオレンダラ122は、入力された座標を用いて、自ユーザと音源との距離および角度 (azimuth) を、音源ごとに計算する(S62)。そして、オーディオレンダラ122は、自ユーザとの距離および角度 (azimuth)に対応するHRIR を、メモリ302または外部記憶装置303にあらかじ記憶されたHRIRの数値の中から特定する(S63)。なお、オーディオレンダラ122は、メモリ302等に記憶されたHRIRの数値を補間することによって算出したHRIRの数値を使用することとしてもよい。
For direct sound, the
そして、オーディオレンダラ122は、S61において入力した信号列と、S63において特定したHRIRの左チャネル用 HRIR と、を使用してたたみこみ (convolution) 計算を行い、左チャネル信号を生成する(S64)。また、オーディオレンダラ122は、S61において入力した信号列と、S63において特定したHRIRの右チャネル用 HRIR と、を使用してたたみこみ (convolution) 計算を行い、右チャネル信号を生成する(S65)。
The
反射音については、オーディオレンダラ122は、入力された座標を用いて、付加すべき残響を計算する(S66、S67)。すなわち、オーディオレンダラ122は、仮想空間の属性による音響の変化の仕方 (インパルス応答) にもとづいて残響を計算する。以下、残響の計算について説明する。
For the reflected sound, the
残響は初期反射(early reflection)と後期残響(late reverberation)とによって構成されている。そして、初期反射の方が後期残響より、他ユーザとの距離や部屋の大きさなどに関する感覚の形成(認知)において、重要であると一般的に考えられている。実空間上の室内では、音源から直接発せられた音(直接音)が聞こえた後、数msから100msくらいの間に、条件によっては、壁、天井、床などからの数10個の初期反射を聞くことができるといわれている。部屋の形状が直方体であれば、1回の初期反射は6個だけである。しかしながら、より複雑な形状または家具などがある部屋においては、反射音の数が増え、また、壁などで複数回反射した音も聞こえる。 The reverberation is composed of early reflection and late reverberation. And it is generally thought that the early reflection is more important than the late reverberation in the formation (recognition) of the sense regarding the distance to other users and the size of the room. In a room in real space, after hearing the sound directly emitted from the sound source (direct sound), several tens of initial reflections from walls, ceilings, floors, etc., depending on conditions, within a few ms to 100 ms. It is said that you can hear. If the shape of the room is a rectangular parallelepiped, there are only six initial reflections at a time. However, in a room with a more complicated shape or furniture, the number of reflected sounds increases, and sounds reflected multiple times by walls or the like can be heard.
初期反射の計算法としてimage source methodがあり、たとえば次の文献に記述されている。 There is an image source method as a method of calculating the initial reflection, which is described in the following document, for example.
Allen, J. B. and Berkley, A., “Image Method for efficiently Simulating Small−Room Acoustics”, J. Acoustical Society of America, Vol. 65, No. 4., pp. 943−950, April 1979.
単純なimage source methodにおいては、部屋の壁、天井、床を鏡面とみなし、反射音を鏡面の反対側にある音源の像からの音として計算する。
Allen, J .; B. and Berkley, A.A. “Image Method for Efficiently Simulating Small-Room Acoustics”, J. Am. Acoustical Society of America, Vol. 65, no. 4). , Pp. 943-950, April 1979.
In a simple image source method, the wall, ceiling, and floor of a room are regarded as mirror surfaces, and the reflected sound is calculated as sound from an image of a sound source on the opposite side of the mirror surface.
図15は、説明を簡単にするために、天井と床を省略した2次元のimage source methodを図示したものである。すなわち、中央に本来の音室1があり、当該音室1には音源と聴取者である自ユーザが存在する。そして、音室1の周囲には、部屋の壁2を含む12個の鏡像が描かれている。なお、鏡像は、12個である必然性はなく、これより多くすることも少なくすることもできる。
FIG. 15 illustrates a two-dimensional image source method with the ceiling and floor omitted for the sake of simplicity. That is, there is an
オーディオレンダラ122は、鏡像各々の中に存在する各音源の像の位置からの音が、聴取者(自ユーザ)に直進するものとして、各音源の像から聴取者までの距離と方向を算出する(S66)。音の強さは距離に反比例するため、オーディオレンダラ122は、距離に従って各音量を減衰させる。ただし、壁の反射率をα(0≦α≦1)とすると、壁でn回反射される音の標本には、αnを乗じて、音量をさらに減衰させる。
The
なお、反射率αの値は、0.6程度の値を使用する。0.6程度の値にする理由は、聴取者が音源との距離を認識するのに充分な残響(すなわち、直接音と反射音との比)を取得するためである。また、もう1つの理由としては、αの値を過大にした場合、聴取者の方向感覚をにぶらせるからである。 Note that the value of the reflectance α is about 0.6. The reason why the value is set to about 0.6 is to obtain reverberation sufficient for the listener to recognize the distance to the sound source (that is, the ratio between the direct sound and the reflected sound). Another reason is that if the value of α is excessively large, the listener's sense of direction is disturbed.
そして、オーディオレンダラ122は、各音源の像毎に、自ユーザとの距離および角度 (azimuth)に対応するHRIR を、メモリ302または外部記憶装置303にあらかじ記憶されたHRIRの数値の中から特定する(S67)。反射音はそれぞれ異なる方向から人頭に達するため、S63において特定した直接音のHRIRとは異なるHRIRを適用する必要がある。
Then, the
なお、多数の反射音各々に、異なるHRIRを用いて後述するたたみこみ計算(S67、S68)を行うと膨大な計算が必要になる。計算量の増加を防止するため、反射音の計算には、実際の音源の方向にかかわらず正面に音源があるときのHRIRを適用することとしてもよい。そして、音が左右の耳に達する際の時間差(ITD, interaural time difference)と強度差(IID, interaural intensity difference)だけを計算することによって、少ない計算量でHRIRの計算を代替することができる。 If a convolution calculation (S67, S68), which will be described later, is performed on each of a large number of reflected sounds using different HRIRs, a huge amount of calculation is required. In order to prevent an increase in the amount of calculation, the HRIR when the sound source is in front may be applied to the calculation of the reflected sound regardless of the actual sound source direction. By calculating only the time difference (ITD, internal time difference) and intensity difference (IID) when the sound reaches the left and right ears, the calculation of HRIR can be replaced with a small amount of calculation.
そして、オーディオレンダラ122は、S61において入力した信号列と、S67において特定したHRIRの左チャネル用HRIR とを使用して、たたみこみ (convolution) 計算を行い、左チャネル信号の残響を生成する(S68)。また、オーディオレンダラ122は、S61において入力した信号列と、S67において特定したHRIRの右チャネル用HRIR とを使用して、たたみこみ (convolution) 計算を行い、右チャネル信号の残響を生成する(S69)。
Then, the
そして、オーディオレンダラ122は、各音源からの左チャネル信号を全て加算する(S70)。なお、左チャネル信号は、S64で算出した直接音と、S68において算出した反射音とが含まれる。
Then, the
また、オーディオレンダラ122は、各音源からの右チャネル信号を全て加算する(S71)。なお、左チャネル信号は、S65で算出した直接音と、S69において算出した反射音とが含まれる。
The
なお、HRIR計算(S63、S67)は、前記のように1パケットごとに行うが、たたみこみ計算(S64、S65、S68、S69)においては、次のパケットに繰り越すべき部分が生じる。そのため、特定したHRIRまたは入力された信号列を次のパケットの処理まで保持する必要がある。 The HRIR calculation (S63, S67) is performed for each packet as described above. However, in the convolution calculation (S64, S65, S68, S69), a portion to be carried over to the next packet is generated. Therefore, it is necessary to hold the specified HRIR or the input signal string until the next packet processing.
このように、オーディオレンダラ122は、各クライアントのオーディオ通信部215から送信された各ユーザの音声に対して、前記計算による音量の調節、残響や反響音の重ね合わせ、フィルタリングなどの処理を行い、自ユーザの仮想空間内の位置において聞こえるべき音に音響効果を制御する。すなわち、オーディオレンダラ122は、仮想空間の属性と他ユーザとの相対的な位置から帰結する処理によって音声を定位させた立体音響を生成する。
In this way, the
なお、クライアント毎に備えられたオーディオレンダラ122は、必要に応じて、当該クライアントを使用する自ユーザの音声に対して残響、フィルタリングなどの仮想空間の属性から帰結する処理を行うこととしてもよい。オーディオレンダラ122により生成された自ユーザの音声は、ヘッドフォン217に出力され、これを自ユーザが聴取する。自ユーザの音声の直接音を自ユーザに聴取させると奇異な印象をあたえることがあり、特に遅延が大きいと自らの発声に支障を与えるため、通常は自ユーザに自身の音声を聴取させない。しかしなから、直接音については聴取させず、遅延を数 10 ms の範囲におさえた反射音(残響)だけを聴取させることも可能である。これによって、自ユーザの仮想空間内での位置、または、仮想空間の大きさを、自ユーザに身体感覚として把握させることができる。
Note that the
ただし、本実施形態のように音響サーバ120が残響の計算を行う場合、ユーザが声を発してから音響サーバ120で計算された反射音がユーザに届くまでに100 msあるいはそれ以上の時間がかかることが多い。この遅延は通常の部屋における反射音の遅延時間よりはるかに大きいため、ユーザの知覚を混乱させる原因となりうる。この問題を解決するために、クライアント上に音響サーバ120のオーディオレンダラ122と同様の機能を有するオーディオレンダラを実装する。そして、自ユーザの音声については、クライアントに実装されたオーディオレンダラが残響の計算をすることによって遅延を小さくし、ユーザが実際の部屋にいるのと同程度の遅延の残響を実現することが考えられる。なお、他ユーザの音声については、前述のとおり音響サーバ120が残響計算を行う。
次に、クライアントの処理について説明する。
However, when the
Next, client processing will be described.
以下、ネットワーク接続処理、入場処理、退場処理、自ユーザの移動処理、他ユーザの移動処理、および、スイング処理の順にクライアントの処理を説明する。
ネットワーク接続処理は、ネットワーク101に接続するときの処理手順であって、クライアントの電源投入時に実行される。まず、セッション制御部223は、ユーザの識別情報と認証情報とを含むログインメッセージを、登録サーバ130に送信する。そして、登録サーバ130は、ユーザの識別情報および認証情報を認証し、部屋管理サーバ110 にログインメッセージを送付する。そして、プレゼンスプロバイダ222は、部屋管理サーバ110 から部屋リストを受け取り、ディスプレイ 220 に表示する。
Hereinafter, client processing will be described in the order of network connection processing, entrance processing, exit processing, own user movement processing, other user movement processing, and swing processing.
The network connection process is a process procedure when connecting to the
なお、クライアントと登録サーバ130との通信には、SIP (Session Initiation Protocol) の REGISTER メッセージを使用することが考えられる。また、クライアントと、部屋管理サーバ110 との通信には、SIP の INVITEメッセージ、BYEメッセージ、SUBSCRIBE メッセージおよびNOTIFY メッセージを使用することができる。
Note that it is possible to use a SIP (Session Initiation Protocol) REGISTER message for communication between the client and the
入場処理は、ユーザがディスプレイ220に表示された部屋リストの中から入場したい部屋を選択したときのクライアントの処理である。プレゼンスプロバイダ222 は、入力装置305を用いて入力された部屋の選択指示を受け付け、部屋管理サーバ110 に入場メッセージ (enter) を送信する。入場メッセージには、自ユーザの識別情報と、自ユーザの仮想空間における位置情報および方位情報(以下、「位置情報等」)とが含まれる。なお、自ユーザの位置情報等は、あらかじめメモリ302または外部記憶装置303(以下、「メモリ等」)に記憶されているものとする。
The entrance process is a client process when the user selects a room to be entered from the room list displayed on the
入場メッセージの送信は、SIP の INVITE メッセージを使用することもできる。INVITE メッセージは、クライアントと部屋管理サーバ110間の音声通信の開始を宣言する。INVITEメッセージを受信すると、部屋管理サーバ110は、音響サーバ120に指示してクライアントと音響サーバ120間の音声通信が開始される。このINVITE メッセージの用法は、IETFのドキュメントRFC3261に従えばよい。
The SIP INVITE message can also be used to send the admission message. The INVITE message declares the start of voice communication between the client and the
また、クライアントは、入場メッセージの送信と同時に、ユーザの位置を通知するためにSIPのPUBLISHメッセージを送信することができる。PUBLISHメッセージは、選択した部屋の仮想空間において発生したイベント(例えば、ユーザの移動など)を、通知要求がないときでも通知するメッセージである。 The client can also send a SIP PUBLISH message to notify the user's location at the same time as sending the admission message. The PUBLISH message is a message for notifying an event (for example, movement of a user) occurring in the virtual space of the selected room even when there is no notification request.
また、クライアントは、他ユーザの位置の変更を含む仮想空間内のイベント通知を部屋管理サーバ110に要求するために、SUBSCRIBE メッセージを送信することができる。SUBSCRIBE メッセージは、選択した部屋の仮想空間において発生したイベント(例えば、ユーザの移動など)の通知を要求するメッセージである。SUBSCRIBEメッセージを受信した部屋管理サーバ110は、仮想空間内でイベントが発生すると、当該イベントの内容をNOTIFY メッセージによってクライアントに通知する。NOTIFY メッセージは、仮想空間において発生したイベント(例えば、ユーザの位置の変更)を通知要求にしたがって通知するメッセージである。
In addition, the client can transmit a SUBSCRIBE message in order to request the
これらのPUBLISHメッセージ、SUBSCRIBE メッセージ、NOTIFY メッセージの用法は、IETFのドキュメントRFC2543(Roach,A.B著「Session Initiation Protocol(SIP)−Specific Event Notification」)、および、インターネットドラフト“Session Initiation Protocol(SIP)Extension for Event State Publication”(Niemi,A.編)に従えばよい。 The usage of these PUBLISH messages, SUBSCRIBE messages, and NOTIFY messages is described in IETF document RFC 2543 (Roach, AB, “Session Initiation Protocol (SIP) —Specific Event Notification”) and the Internet draft “Session Initiation Protocol (SIP)”. You can follow “Extension for Event State Publication” (Niemi, A.).
そして、プレゼンスプロバイダ222は、選択した部屋の入場者リストを、例えばNOTIFYメッセージの形式で、部屋管理サーバ110 から受けとる。なお、入場者リストには、部屋に入場している他ユーザの識別情報および仮想空間内における位置情報等と、選択した部屋の仮想空間属性と、が含まれているものとする。
Then, the
退場処理は、ユーザが部屋を退場する時の処理である。プレゼンスプロバイダ222は、自ユーザの退場指示を受付けて、自ユーザの識別情報を含む退場メッセージを部屋管理サーバ110に送信する。なお、入場者メッセージとしてSIPのINVITEメッセージを使用したときは、退場メッセージとしてBYEメッセージを使用するのが適切である。また、入場処理においてSUBSCRIBE メッセージを送信していた場合、クライアントは、SUBSCRIBE メッセージによる通知要求を取り消すためのUNSUBSCRIBE メッセージを部屋管理サーバ110に送信するべきである。
The exit process is a process when the user leaves the room. The
自ユーザの移動処理は、自ユーザがプレゼンスを変更した場合、すなわち仮想空間において位置または向きを変更した場合の処理である。 The movement process of the own user is a process when the own user changes the presence, that is, when the position or orientation in the virtual space is changed.
図16は、自ユーザの移動処理の処理フロー図である。まず、空間モデラ221は、ポインティングデバイス230から移動情報の入力を受け付ける(S1101)。すなわち、自ユーザがポインティングデバイス230を操作することにより、空間モデラ221に移動情報が入力される。
FIG. 16 is a process flow diagram of the movement process of the own user. First, the
そして、空間モデラ 221は、ポインティングデバイス230からの入力を検知すると、自ユーザの移動前の位置および向きと、ポインティングデバイス230からの入力された移動情報と、を用いて自ユーザの移動後の位置および向きを算出する(S1102)。なお、ポインティングデバイス230は、移動後の位置情報等を直接入力することとしてもよい。そして、空間モデラ221は、算出した移動後の位置情報等をメモリ等に記憶する。
When the
次に、空間モデラ221は、算出した移動後の位置情報等をグラフィクスレンダラ219、および、プレゼンスプロバイダ222に通知する(S1103)。グラフィクスレンダラ219は、仮想空間内の通知された移動後の位置および向きに基づいて自ユーザの視点を変更し、仮想空間上でどのように他ユーザが見えるかを計算(座標変換)する。そして、グラフィクスレンダラ219は、当該位置および向きからの眺めで画面上に出力するイメージデータを作成し、表示画面を更新する。
Next, the
プレゼンスプロバイダ222は、通知された自ユーザの移動後の位置情報等を、例えばNOTIFYメッセージの形式で部屋管理サーバ110に通知(送信)する(S1104)。なお、NOTIFYメッセージは、通常SUBSCRIBEメッセージを受信した結果として送信される。そのため、部屋管理サーバ110は、クライアント201から入場メッセージを受信した際に、入場者リストを返信するとともに前記NOTIFYメッセージに対応するSUBSCRIBEメッセージを送信することが考えられる。
The
なお、部屋管理サーバ110は、プレゼンスプロバイダ222から通知された位置情報等を受け付け、入場者リストにおける当該ユーザの位置情報等を更新する。そして、部屋管理サーバ110は、通知された位置情報等を音響サーバ120および他ユーザのクライアントに送信する。音響サーバ120は、通知された自ユーザの仮想空間内の位置および向きでどのように他ユーザの音声が聞こえるかを計算する(図14参照)。そして、音響サーバ120は、他ユーザの音声に対して前記計算による音量の調節、残響、フィルタリングなどの処理を行い、自ユーザの仮想空間内の位置において聞こえるべき音に音響効果を制御し、立体音響を更新する。そして、音響サーバ120は、更新された立体音響のオーディオ信号を、クライアントに送信する。
The
他ユーザの移動処理は、部屋管理サーバ110がクライアントに他のユーザの仮想空間における位置情報等を通知した場合の処理である。
The movement process of another user is a process when the
図17は、他ユーザの移動処理の処理フロー図である。 FIG. 17 is a process flow diagram of another user's movement process.
空間モデラ221は、プレゼンスプロバイダ222を介して部屋管理サーバ110から、他ユーザの仮想空間上の位置情報等を受け付ける(S1201)。なお、部屋管理サーバ110は、図16のS1104においてクライアントから送信された位置情報等を、当該送信元のクライアント以外のクライアントに通知(送信)する。そして、空間モデラ221は、通知された仮想の位置情報等をメモリ等に記憶する。
The
そして、空間モデラ221は、通知された位置情報等を用いて、他ユーザの仮想空間上の位置および向きを変更する(S1202)。そして、空間モデラ221は、グラフィクスレンダラ219に、変更後の位置情報等を通知する(S1203)。グラフィクスレンダラ219は、図16のS1103で説明したように、通知された他ユーザの位置および向きにもとづいて、表示画面を更新する。
Then, the
なお、部屋管理サーバ110は、クライアントに他のユーザの仮想空間における位置情報等を通知する場合、あわせて、音響サーバ120にも他のユーザの位置情報等を通知する。音響サーバ120は、他ユーザの位置情報に基づいて更新された立体音響のオーディオ信号を、クライアントに送信する。
When the
スイング処理は、左右スイングボタン231または上下スイングボタンが押された場合の処理である。
The swing process is a process when the left /
図18は、スイング処理の処理フロー図である。空間モデラ221は、左右スイングボタン231または上下スイングボタン232から、スイング処理の入力を受け付ける(S1301)。すなわち、自ユーザは、通信相手の方向を判別することが困難な場合、前記ボタン231、232を押すことにより、仮想空間上で仮想的に首を振ることを指示する。
FIG. 18 is a process flowchart of the swing process. The
そして、空間モデラ 221は、前記ボタン231、232からの入力を検知すると、自ユーザの首を所定の角度だけ左(または、上)に振った場合の自ユーザの向きを算出する。そして、空間モデラ221は、算出した自ユーザの方位情報を、グラフィクスレンダラ219、および、プレゼンスプロバイダ222に通知する(S1302)。
When the
そして、空間モデラ 221は、自ユーザの首を所定の角度だけ右(または、下)に振った場合の自ユーザの向きを算出する。そして、空間モデラ221は、算出した自ユーザの方位情報を、グラフィクスレンダラ219、および、プレゼンスプロバイダ222に通知する(S1303)。
Then, the
グラフィクスレンダラ219は、図9または図10に示すように、自ユーザの視点で、自ユーザが首を振った場合のメージデータを作成し、表示画面を更新する。
As shown in FIG. 9 or FIG. 10, the
プレゼンスプロバイダ222は、S1302およびS1303で通知された自ユーザの方位情報を、順次、音響サーバ120に通知(送信)する(S1204)。音響サーバ120は、プレゼンスプロバイダ222から通知された方位情報を受け付け、空間モデラ124おける当該自ユーザの方位情報を、順次更新する。そして、音響サーバ120は、通知された自ユーザの仮想空間内の向きでどのように通信相手の音声が聞こえるかを計算する(図14参照)。そして、音響サーバ120は、通信相手である他ユーザの音声に対して前記計算による音量の調節、残響、フィルタリングなどの処理を行い、自ユーザの仮想空間内の位置および向きにおいて聞こえるべき音に音響効果を制御し、立体音響を更新する。そして、音響サーバ120は、更新された立体音響のオーディオ信号を、前記ボタン231、232が押されたクライアントに送信する。
The
なお、図18に示すスイング処理は、所定の時間(例えば、1秒程度の間)に行われ、その後、クライアントおよび音響サーバ120は、前記ボタン231、232が押される前の状態に戻る。
The swing process shown in FIG. 18 is performed at a predetermined time (for example, for about 1 second), and then the client and the
次に、部屋管理サーバ110の機能構成および処理手順について説明する。なお、登録サーバ130については、 SIP を使用する従来の通信と同じため、説明を省略する。
Next, the functional configuration and processing procedure of the
図19は、部屋管理サーバ110 の機能構成を示す。部屋管理サーバ110は、クライアントおよび音響サーバ120と各種情報の送受信をするためのインタフェース部111と、クライアントからのメッセージ種別を判定する判定部112と、判定結果に応じた処理を行う処理部113と、仮想空間の属性、仮想空間で発生したイベント(ユーザの入退場、移動等)、部屋リスト、入場者リスト等を、管理し記憶する記憶部114とを有する。
FIG. 19 shows a functional configuration of the
記憶部114には、あらかじめ、部屋管理サーバ110が管理するいくつかの仮想空間の属性が記憶されている。前述した入場処理において、ユーザはこれらの仮想空間(仮想的な部屋)の中から、入場したい仮想空間を選択する。その後、クライアントは、仮想空間に入場したユーザの各種のイベントを部屋管理サーバ110に送信する。これにより各仮想空間内には、各種のイベントが発生する。なお、記憶部114はこれらの情報をメモリ302または外部記憶装置303に記憶する。
In the
図20は、部屋管理サーバ110 の処理手順を示したものである。部屋管理サーバ110は、クライアントからの要求を受け付け、これに対する処理を部屋管理サーバ110が停止するまで行う。まず、インタフェース部111は、クライアントからのメッセージを待つ(S1411)。メッセージを受信すると、判定部112は、インタフェース部111が受け付けたメッセージの種類を判定する(S1412)。
FIG. 20 shows the processing procedure of the
ログインメッセージの場合、処理部113は、メッセージ送信元のクライアントに部屋リストを送信するようインタフェース部111に指示する(S1421)。インタフェース部111は、部屋リストをメッセージ送信元のクライアントに送信し、その後S1411に戻り、次のメッセージを待つ。
In the case of a login message, the
入場メッセージの場合、処理部113は、メッセージ送信元クライアントのユーザを、指定された部屋の入場者リストに追加する(S1431)。すなわち、処理部113は、入場メッセージに含まれている、当該ユーザの識別情報と、当該ユーザの仮想空間上の位置情報および方位情報と、を入場者リストに追加する。次に、処理部113は、指定された部屋の仮想空間属性、および、入場者リストを、メッセージ送信元クライアントに送信するようインタフェース部111に指示する。なお、入場者リストには、指定された部屋に入場している全てのユーザの識別情報と、仮想空間上の位置情報および方位情報とが含まれている。インタフェース部111は、前記指示に従い送信元クライアントに入場者リストを送信する(S1432)。そして後述するS1436に進む。
In the case of an entrance message, the
メッセージが移動メッセージの場合、処理部113は、入場者リストにおけるメッセージ送信元クライアント(ユーザ)の仮想空間上の位置情報および方位情報を更新する(S1435)。なお、仮想空間上の位置情報および方位情報は、移動メッセージに含まれている。そして、処理部113は、対象となる部屋の全ての入場者のクライアント(但し、メッセージ送信元クライアントは除く)および音響サーバ120に、メッセージ送信元クライアントのユーザの識別情報と、仮想空間上の位置情報および方位情報と、を通知するようインタフェース部111に指示する(S1436)。インタフェース部111は、前記指示に従い各クライアントおよび音響サーバ120に送信し、S1411に戻る。
When the message is a moving message, the
なお、入場メッセージの場合についても、S1432の処理の後に、S1436の処理を行う。すなわち、入場メッセージを受信した際に、処理部113は、メッセージ送信元クライアントのユーザの識別情報および仮想空間上の位置情報等を、通知音響サーバ120とクライアントとに通知する(S1436)。これにより、クライアントは、部屋に入場すると音響サーバ120の既定の通信ポートとの間で (または、入場時に部屋管理サーバ110から通知されるポートとの間で) 音声通信を行う。すなわち、各クライアントのオーディオ通信部215は、音響サーバ120に1チャンネルの音声ストリームを送信し、音響サーバ140から2チャンネルの音声ストリームを受信する。
Also in the case of an entrance message, the process of S1436 is performed after the process of S1432. That is, when the admission message is received, the
退場メッセージの場合、処理部113は、メッセージ送信元クライアントのユーザを入場者リストから削除する(S1441)。そして、処理部113は、対象となる部屋の全ての入場者のクライアント(但し、メッセージ送信元クライアントは除く)、および、音響サーバ120に、当該ユーザが部屋から退場したことを通知するようにインタフェース部111に指示する(S1442)。インタフェース部111は、前記指示に従いクライアントに送信し、S1411に戻る。
In the case of an exit message, the
以上で本発明の一実施形態について説明した。 The embodiment of the present invention has been described above.
本実施形態では、ヘッドフォン217から出力される音を聞いただけでは音源の方向を判別することが困難な場合、ユーザは、左右スイングボタン231または上下スイングボタン232を用いて、仮想空間内で仮想的に首を左右または上下に振る。これにより、ヘッドフォン217から再生される音源の音が、左右または上下に変化(振動)する。
In the present embodiment, when it is difficult to determine the direction of the sound source simply by listening to the sound output from the
左右スイングボタン231の場合、この音源の音の変化の仕方が、音源がユーザの前方に存在するのかあるいは後方に存在するのかによって異なるため、ユーザは、音源の正確な方向を把握することができる。また、この音源の音の変化の仕方が、上下スイングボタン232の場合、音源がユーザの上方に存在するのかあるいは下方に存在するのかによって異なるため、ユーザは、音源の正確な方向を把握することができる。すなわち、左右スイングボタン231または上下スイングボタン232使用することによって、ユーザは、仮想空間内において、音源の方向をより正確に判別(認知)することができる。
In the case of the left /
また、本実施形態では、スケールバーまたはメッシュなど距離を表示した仮想空間のイメージ(図8、図11参照)をディスプレイ220に出力する。これによって、ユーザは、ヘッドフォン217から出力される3次元化された立体音響から聴覚的に判別(認知)した音源との距離と、ディスプレイ220に表示されたイメージから視覚的に判別(認知)した音源との距離との関係を学習する。これによりユーザは、3次元化された立体音響立を聴くだけで、仮想空間における音源との距離をより正確に把握することができるようになる。すなわち、距離を表示した仮想空間のイメージデータを参照することにより、ユーザは、仮想空間における音源までの距離(音源の位置)を把握する能力を高めることができる。
なお、仮想空間における音源との距離を把握する能力を高めることにより、以下の効果が発生する。
In the present embodiment, an image of the virtual space (see FIGS. 8 and 11) displaying the distance such as a scale bar or a mesh is output to the
In addition, the following effects generate | occur | produce by raising the capability to grasp | ascertain the distance with the sound source in virtual space.
第1には、仮想空間を使用した会議システムにおいて、通信相手(会議の出席者である他ユーザ)との距離を正確に認知することによって、より豊かなコミュニケーション環境を実現することができる。例えば、複数の通信相手である他ユーザが存在する会議において、ある他ユーザが発する発言が自分(自ユーザ)に向けられているのか否かを判別する際に、自ユーザと発言者である他ユーザとの距離を把握することが重要になる。すなわち、発言者である他ユーザが仮想空間内で自ユーザに接近している場合は、自ユーザに対して話している可能性がより高くなる。 First, in a conference system using a virtual space, a richer communication environment can be realized by accurately recognizing the distance to a communication partner (another user who is an attendee of the conference). For example, in a meeting where there are other users who are communication partners, when determining whether or not a statement made by a certain other user is directed to him (your user) It is important to know the distance to the user. That is, when another user who is a speaker is approaching the user in the virtual space, the possibility of speaking to the user becomes higher.
また、1対1の会話においても、他ユーザが近い位置から(例えば1m 程度近づいて)話しかけ場合、自ユーザは、他ユーザがより親密な関係を結ぼうとしているか、または、より重要な(秘密性の高い)内容について会話しようとしていると認識する。しかし、他ユーザが離れた位置(例えば 5m 程度)から話している場合は、自ユーザは、他ユーザが敵対心を抱いているか、または、より重要性(秘密性)の低い内容について会話しようとしていると認識する。 Also, in a one-on-one conversation, when another user talks from a close position (for example, approaching about 1 m), the user is trying to establish a more intimate relationship with the other user or a more important (secret) Recognize that you are talking about content. However, if the other user is speaking from a remote location (for example, about 5 m), the user tries to talk about content that the other user is hostile or less important (secret). Recognize that
従来の会議システムでは、このような非言語的なコミュニケーション情報を伝達することは困難であった。しかしながら、仮想空間における音源との距離を学習することによって、このような非言語的な情報の伝達が可能になり、より豊かなコミュニケーションを実現することができる。 In a conventional conference system, it has been difficult to transmit such non-verbal communication information. However, by learning the distance to the sound source in the virtual space, such non-verbal information can be transmitted, and richer communication can be realized.
第2には、仮想空間内で敵と戦うゲームにおいて、距離の感覚を取り入れることによって、よりリアリティの高いゲームを実現することができる。すなわち、3次元化された立体音響を用いて仮想空間内で敵と戦うゲームにおいては、ゲーム実施者(自ユーザ)から対戦相手 (他ユーザ、所定の物体) までの距離を正確に把握できるかどうかがゲームの勝敗をわける場合がある。例えば、遠距離にいる対戦相手がゲーム実施者(自ユーザ)に発砲しても的中する可能性が低いが、近距離にいる対戦相手が発砲するとゲーム実施者(自ユーザ)に的中する可能性が高い。そのため、ゲーム実施者(自ユーザ)は、対戦相手が近距離にいる場合は、より注意を払う必要がある。また、コンピュータ・グラフィクスを使用した視覚的なゲームにおいても、対戦相手が後方から接近するときにはディスプレイ上で相手の存在や距離を表示することができない場合など、対戦相手との仮想空間内の距離を学習することは重要である。 Secondly, a game with higher reality can be realized by incorporating a sense of distance in a game of fighting enemies in a virtual space. In other words, in a game in which a three-dimensional stereophonic sound is used to fight an enemy in a virtual space, is it possible to accurately grasp the distance from the game player (own user) to the opponent (other user, predetermined object)? There are cases where the game is divided. For example, it is unlikely that an opponent at a long distance will hit the game performer (own user), but if an opponent at a short distance fires, it will hit the game performer (self user). Probability is high. Therefore, the game performer (own user) needs to pay more attention when the opponent is at a short distance. Also, even in visual games using computer graphics, when the opponent approaches from behind, the presence or distance of the opponent cannot be displayed on the display. It is important to learn.
なお、本発明は上記の実施形態に限定されるものではなく、その要旨の範囲内で数々の変形が可能である。 In addition, this invention is not limited to said embodiment, Many deformation | transformation are possible within the range of the summary.
例えば、本実施形態のクライアントは、グラフィクスレンダラ219がディスプレイ220に仮想空間のイメージデータ(図8〜図11参照)を出力する。しかしながら、本発明は、3次元オーディオ技術を用いた立体音響による通信を主としたシステムであるため、クライアント201は、ディスプレイ220に仮想空間のイメージデータを出力しないこととしてもよい。この場合、クライアント201は、グラフィクスレンダラ219およびディスプレイ220を有しない。
For example, in the client of the present embodiment, the
また、本実施形態では、音響サーバ120が、クライアント各々から送信されたユーザの音声(オーディオ信号)を、3次オーディオ技術を用いてクライアント毎に立体化する。そして、音響サーバ120は、クライアント毎に立体化した各ユーザの音声を、各クライアントに送信する。しかしながら、クライアント各々が、音響サーバ120を介すことなく、直接1対1で音声(オーディオ信号)を送受信し、他のクライアントから入力された音声を立体化することとしてもよい。
In the present embodiment, the
この場合、各クライアントは、図3に示すクライアントの構成と以下の点において異なる。すなわち、オーディオデコーダ216は、音響サーバ120のオーディオレンダラ122(図13、図14参照)と同様の機能を有する。また、オーディオ通信部215は、音響サーバ120と通信するかわりに、他のクライアントと直接通信する。この場合、音響サーバ120は、不要である。
In this case, each client differs from the client configuration shown in FIG. 3 in the following points. That is, the
また、本実施形態における仮想空間は、複数のユーザが会議または会話を行うために仮想的に作り出した空間である。しかしながら、本発明は、これに限定されず、ユーザが、音楽やインターネット放送などの各種の音源を聴くために仮想的に作り出した空間であってもよい。 In addition, the virtual space in the present embodiment is a space that is virtually created for a plurality of users to hold a conference or conversation. However, the present invention is not limited to this, and may be a space created virtually by a user to listen to various sound sources such as music and Internet broadcasts.
また、本実施形態で説明した立体音響再生システムでは、登録サーバ130を有する。しかしながら、SIPプロトコルを用いて通信を行わない場合は、登録サーバは不要である。
Further, the stereophonic sound reproduction system described in the present embodiment includes a
101…ネットワーク、110…プレゼンスサーバ、120…音響サーバ、130…登録サーバ、201、202、203…クライアント、211…マイクロフォン、212…オーディオエンコーダ、215…オーディオ通信部、216…オーディオデコーダ、217…ヘッドフォン、219…グラフィクスレンダラ、220…ディスプレイ、221…空間モデラ、222…プレゼンスプロバイダ、223…セッション制御部、230…ポインティングデバイス、231…左右スイングボタン、232…上下スイングボタン
DESCRIPTION OF
Claims (10)
前記音源各々の音響効果を制御する音響サーバと、ユーザが使用するクライアントとを有し、
前記クライアントは、
前記仮想空間に配置された前記ユーザの首を左右または上下に振るスイング指示を受け付ける受付手段と、
前記受付手段が受け付けたスイング指示を、前記音響サーバに送信するクライアント送信手段と、
前記音源各々の音響効果を制御した立体音響信号を、前記音響サーバから受信するクライアント受信手段と、
前記クライアント受信手段が受信した立体音響信号の立体音響を出力する出力手段と、を有し、
前記音響サーバは、
前記ユーザおよび前記音源各々の前記仮想空間における位置および向きを記憶するサーバ記憶手段と、
前記音源各々から、当該音源が出力する音響信号を受信するサーバ受信手段と、
前記サーバ記憶手段に記憶された前記ユーザおよび前記音源各々の位置および向きに基づいて、前記サーバ受信手段が受信した音響信号各々に適用する音響効果を制御する音響制御手段と、
前記音響制御手段が音響効果を制御した立体音響信号を、前記クライアントに送信するサーバ送信手段と、を有し、
前記クライアントから前記スイング指示を受信した場合、前記音響制御手段は、前記サーバ記憶手段に記憶された前記ユーザの向きから左右または上下に変更した向きに基づいて、前記受信した音響信号各々に適用する音響効果を制御すること
を特徴とする立体音響再生システム。 A stereophonic sound reproduction system for controlling the sound of at least one sound source existing in a virtual space,
An acoustic server for controlling the acoustic effect of each of the sound sources, and a client used by the user,
The client
Accepting means for accepting a swing instruction to swing the user's neck left and right or up and down arranged in the virtual space;
Client transmission means for transmitting the swing instruction received by the reception means to the acoustic server;
Client receiving means for receiving, from the acoustic server, a three-dimensional acoustic signal in which the acoustic effect of each of the sound sources is controlled;
Output means for outputting the stereophonic sound of the stereoacoustic signal received by the client receiving means,
The acoustic server is
Server storage means for storing the position and orientation of each of the user and the sound source in the virtual space;
Server receiving means for receiving an acoustic signal output by the sound source from each of the sound sources;
Acoustic control means for controlling an acoustic effect applied to each acoustic signal received by the server reception means based on the position and orientation of each of the user and the sound source stored in the server storage means;
Server transmission means for transmitting to the client a stereophonic sound signal in which the acoustic control means has controlled the acoustic effect;
When the swing instruction is received from the client, the acoustic control unit applies the received acoustic signal to each of the received acoustic signals based on the direction changed from the user orientation stored in the server storage unit to the left, right, or up and down. A three-dimensional sound reproduction system characterized by controlling sound effects.
前記ユーザおよび前記音源各々の仮想空間上の位置を管理する管理サーバを、さらに有し、
前記管理サーバは、
前記ユーザおよび前記音源各々の前記仮想空間における位置および向きを前記クライアントまたは前記音源各々から受信する管理サーバ受信手段と、
前記管理サーバ受信手段が受信した前記位置および向きを記憶する管理サーバ記憶手段と、
前記管理サーバ記憶手段に記憶された前記ユーザおよび前記音源各々の位置および向きを、前記音響サーバに送信する管理サーバ送信手段と、を有し、
前記クライアントは、
前記仮想空間における前記ユーザの位置および向きを前記管理サーバに送信する位置情報送信手段をさらに有し、
前記音響サーバは、
前記管理サーバから、前記ユーザおよび前記音源各々の前記仮想空間における位置および向きを受信し、前記サーバ記憶手段に記憶する位置情報受信手段をさらに有し、
前記音響制御手段は、前記位置情報受信手段が受信した位置および向きにもとづいて、前記サーバ受信手段が受信した音響信号各々に適用する音響効果を制御すること
を特徴とする立体音響再生システム。 The three-dimensional sound reproduction system according to claim 1,
A management server for managing positions of the user and the sound source in the virtual space,
The management server
Management server receiving means for receiving the position and orientation of the user and each of the sound sources in the virtual space from the client or the sound sources,
Management server storage means for storing the position and orientation received by the management server reception means;
Management server transmission means for transmitting the position and orientation of each of the user and the sound source stored in the management server storage means to the acoustic server,
The client
Further comprising position information transmitting means for transmitting the position and orientation of the user in the virtual space to the management server;
The acoustic server is
Further comprising position information receiving means for receiving the position and orientation of each of the user and the sound source in the virtual space from the management server and storing them in the server storage means;
The three-dimensional sound reproduction system, wherein the sound control means controls sound effects applied to each sound signal received by the server receiving means based on the position and orientation received by the position information receiving means.
前記クライアントは、
前記ユーザおよび前記音源各々の前記仮想空間における位置および向きを記憶するクライアント記憶手段と、
前記クライアント記憶手段に記憶された位置および向きに基づいて、表示装置に出力するイメージデータを作成するイメージ作成手段と、をさらに有し、
前記イメージ作成手段は、前記ユーザおよび前記音源各々との前記仮想空間における距離を示すための縮尺を、前記イメージデータに表示し、
前記音響サーバの音響制御手段は、
前記サーバ記憶手段に記憶された前記ユーザおよび前記音源各々の位置および向きに基づいて、前記ユーザと前記音源各々との仮想空間における距離を算出し、
前記サーバ受信手段が受信した前記音源の音響信号毎に、前記算出した距離に応じて、直接音に対する反射音の比率を増減させて音響効果を制御すること
を特徴とする立体音響再生システム。 The three-dimensional sound reproduction system according to claim 1,
The client
Client storage means for storing the position and orientation of each of the user and the sound source in the virtual space;
Image creation means for creating image data to be output to a display device based on the position and orientation stored in the client storage means;
The image creating means displays a scale for indicating a distance in the virtual space between the user and the sound source in the image data,
The acoustic control means of the acoustic server includes:
Based on the position and orientation of each of the user and the sound source stored in the server storage unit, a distance in the virtual space between the user and each of the sound sources is calculated,
A stereophonic sound reproduction system characterized in that, for each sound signal of the sound source received by the server receiving means, the sound effect is controlled by increasing or decreasing the ratio of the reflected sound to the direct sound according to the calculated distance.
前記ユーザおよび前記音源各々の仮想空間上の位置を管理する管理サーバを、さらに有し、
前記管理サーバは、
前記ユーザおよび前記音源各々の前記仮想空間における位置および向きを、前記クライアントまたは前記音源各々から受信する管理サーバ受信手段と、
前記管理サーバ受信手段が受信した前記位置および向きを記憶する管理サーバ記憶手段と、
前記管理サーバ記憶手段に記憶された前記ユーザおよび前記音源各々の位置および向きを、前記音響サーバに送信する管理サーバ送信手段と、を有し、
前記クライアントは、
前記仮想空間における前記ユーザの位置および向きを、前記管理サーバに送信する位置情報送信手段をさらに有し、
前記音響サーバは、
前記管理サーバから、前記ユーザおよび前記音源各々の前記仮想空間における位置および向きを受信し、前記サーバ記憶手段に記憶する位置情報受信手段をさらに有し、
前記音響制御手段は、前記位置情報受信手段が受信した位置および向きにもとづいて、前記ユーザと前記音源各々との仮想空間における距離を算出し、前記サーバ受信手段が受信した音響信号各々に適用する音響効果を制御すること
を特徴とする立体音響再生システム。 The three-dimensional sound reproduction system according to claim 3,
A management server for managing positions of the user and the sound source in the virtual space,
The management server
Management server receiving means for receiving the position and orientation of the user and each of the sound sources in the virtual space from the client or each of the sound sources;
Management server storage means for storing the position and orientation received by the management server reception means;
Management server transmission means for transmitting the position and orientation of each of the user and the sound source stored in the management server storage means to the acoustic server,
The client
Further comprising position information transmitting means for transmitting the position and orientation of the user in the virtual space to the management server;
The acoustic server is
Further comprising position information receiving means for receiving the position and orientation of each of the user and the sound source in the virtual space from the management server and storing them in the server storage means;
The acoustic control unit calculates a distance in the virtual space between the user and each of the sound sources based on the position and orientation received by the position information receiving unit, and applies the calculated distance to each acoustic signal received by the server receiving unit. A three-dimensional sound reproduction system characterized by controlling sound effects.
前記クライアントは、
前記ユーザおよび前記音源各々の前記仮想空間における位置および向きを記憶するクライアント記憶手段と、
前記クライアント記憶手段に記憶された位置および向きに基づいて、表示画面に出力するイメージデータを作成するイメージ作成手段と、をさらに有し、
前記スイング指示を受け付けた場合、前記イメージ作成手段は、前記仮想空間における前記ユーザの位置と向きを固定し、前記ユーザを中心として前記音源各々を相対的に左右または上下に移動させたイメージデータを作成すること
を特徴とする立体音響再生システム。 The three-dimensional sound reproduction system according to claim 1,
The client
Client storage means for storing the position and orientation of each of the user and the sound source in the virtual space;
Image creation means for creating image data to be output to a display screen based on the position and orientation stored in the client storage means;
When the swing instruction is received, the image creation means fixes the position and orientation of the user in the virtual space, and image data obtained by moving the sound sources relatively left and right or up and down around the user. A stereophonic sound reproduction system characterized by creation.
前記音源は、前記仮想空間に配置された前記ユーザ以外の他ユーザであって、
前記クライアントの前記イメージ作成手段は、前記ユーザおよび前記他ユーザ各々との前記仮想空間における距離を示すための前記ユーザの肩幅および前記他ユーザ各々の肩幅を、前記イメージデータに表示し、
前記音響サーバの音響制御手段は、
前記サーバ記憶手段に記憶された前記ユーザおよび前記他ユーザ各々の位置および向きに基づいて、前記ユーザと前記他ユーザ各々との仮想空間における距離を算出し、
前記サーバ受信手段が受信した前記他ユーザの音響信号毎に、前記算出した距離に応じて、直接音に対する反射音の比率を増減させて音響効果を制御すること
を特徴とする立体音響再生システム。 The three-dimensional sound reproduction system according to claim 5,
The sound source is a user other than the user arranged in the virtual space,
The image creation means of the client displays the shoulder width of the user and the shoulder width of each of the other users for indicating the distance in the virtual space with the user and each of the other users in the image data,
The acoustic control means of the acoustic server includes:
Based on the positions and orientations of the user and each of the other users stored in the server storage unit, a distance in the virtual space between the user and each of the other users is calculated,
A stereophonic sound reproduction system characterized by controlling the sound effect by increasing or decreasing the ratio of reflected sound to direct sound according to the calculated distance for each of the other user's sound signals received by the server receiving means.
前記立体音響装置を使用するユーザと前記音源各々との、前記仮想空間における位置および向きを記憶する記憶手段と、
前記音源各々から、当該音源が出力する音響信号を受信する受信手段と、
前記記憶手段に記憶された前記ユーザおよび前記音源各々の位置および向きに基づいて、前記受信手段が受信した音響信号各々に適用する音響効果を制御する音響制御手段と、
前記仮想空間に配置された前記ユーザの首を左右または上下に振るスイング指示を受け付ける受付手段と、
前記音響制御手段が制御した立体音響を出力する出力手段と、を有し、
前記スイング指示を受け付けた場合、前記音響制御手段は、前記記憶手段に記憶された前記ユーザの向きから左右または上下に変更した向きに基づいて、前記受信した音響信号各々に適用する音響効果を制御すること
を特徴とする立体音響再生装置。 A stereophonic sound reproducing device for controlling the sound of at least one sound source existing in a virtual space,
Storage means for storing positions and orientations of the user using the stereophonic device and each of the sound sources in the virtual space;
Receiving means for receiving an acoustic signal output from the sound source from each of the sound sources;
Acoustic control means for controlling an acoustic effect applied to each acoustic signal received by the reception means based on the position and orientation of each of the user and the sound source stored in the storage means;
Accepting means for accepting a swing instruction to swing the user's neck left and right or up and down arranged in the virtual space;
Output means for outputting stereophonic sound controlled by the sound control means,
When the swing instruction is received, the sound control means controls the sound effect applied to each of the received sound signals based on the direction changed from the user orientation stored in the storage means to the left or right or up and down. A stereophonic sound reproducing device characterized by:
前記立体音響再生システムは、前記音源各々の音響効果を制御する音響サーバと、ユーザが使用するクライアントとを有し、
前記クライアントの処理部は、
前記仮想空間に配置された前記ユーザの首を左右または上下に振るスイング指示を受け付ける指示受付ステップと、
前記指示受付ステップにおいて受け付けたスイング指示を、前記音響サーバに送信するクライアント送信ステップと、
前記音源各々の音響効果を制御した立体音響信号を、前記音響サーバから受信するクライアント受信ステップと、
前記クライアント受信ステップが受信した立体音響信号の立体音響を出力する出力ステップと、を有し、
前記音響サーバは、処理部と、前記ユーザおよび前記音源各々の前記仮想空間における位置および向きを記憶する記憶部と、を有し、
前記音響サーバの処理部は、
前記音源各々から、当該音源が出力する音響信号を受信するサーバ受信ステップと、
前記記憶部に記憶された前記ユーザおよび前記音源各々の位置および向きに基づいて、前記サーバ受信ステップにおいて受信した音響信号各々に適用する音響効果を制御する音響制御ステップと、
前記音響制御ステップにおいて音響効果を制御した立体音響信号を、前記クライアントに送信するサーバ送信ステップと、を有し、
前記クライアントから前記スイング指示を受信した場合、前記音響制御ステップは、前記記憶部に記憶された前記ユーザの向きから左右または上下に変更した向きに基づいて、前記受信した音響信号各々に適用する音響効果を制御すること
を特徴とする立体音響再生システム。 A three-dimensional sound reproduction method in a three-dimensional sound reproduction system for controlling the sound of at least one sound source existing in a virtual space,
The three-dimensional sound reproduction system includes a sound server that controls sound effects of each of the sound sources, and a client that is used by a user.
The processing unit of the client is
An instruction accepting step for accepting a swing instruction to swing the user's neck placed in the virtual space left and right or up and down;
A client transmission step of transmitting the swing instruction received in the instruction reception step to the acoustic server;
A client receiving step of receiving, from the acoustic server, a three-dimensional acoustic signal in which the acoustic effect of each of the sound sources is controlled;
Outputting the stereophonic sound of the stereoacoustic signal received by the client reception step, and
The acoustic server includes a processing unit, and a storage unit that stores positions and orientations of the user and the sound source in the virtual space,
The processing unit of the acoustic server is
A server receiving step of receiving an acoustic signal output from the sound source from each of the sound sources;
An acoustic control step for controlling an acoustic effect applied to each acoustic signal received in the server reception step based on the position and orientation of each of the user and the sound source stored in the storage unit;
A server transmission step of transmitting a stereophonic sound signal whose acoustic effect is controlled in the acoustic control step to the client, and
When the swing instruction is received from the client, the sound control step is configured to apply sound to each of the received sound signals based on a direction changed from the user's direction stored in the storage unit to the left / right or up / down. A stereophonic sound reproduction system characterized by controlling the effect.
前記情報処理装置は、処理部と、当該情報処理装置を使用するユーザおよび前記音源各々の前記仮想空間における位置および向きを記憶する記憶部と、前記仮想空間に配置された前記ユーザの首を左右または上下に振るスイング指示を受け付ける指示受付部と、を有し、
前記処理部は、
前記音源各々から、当該音源が出力する音響信号を受信する受信ステップと、
前記記憶部に記憶された前記ユーザおよび前記音源各々の位置および向きに基づいて、前記受信ステップにおいて受信した音響信号各々に適用する音響効果を制御する音響制御ステップと、
前記音響制御ステップにおいて制御した立体音響を出力する出力ステップと、を有し、
前記音響制御ステップは、前記指示受付部が前記スイング指示を受け付けた場合、前記記憶部に記憶された前記ユーザの向きから左右または上下に変更した向きに基づいて、前記受信した音響信号各々に適用する音響効果を制御すること
を特徴とする立体音響再生方法。 A stereophonic sound reproduction method for controlling the sound of at least one sound source existing in a virtual space, performed by an information processing device,
The information processing device includes a processing unit, a storage unit that stores a position and orientation of each of the sound source and the user who uses the information processing device in the virtual space, and the user's neck arranged in the virtual space. Or an instruction receiving unit that receives a swing instruction to swing up and down,
The processor is
A receiving step of receiving an acoustic signal output from the sound source from each of the sound sources;
An acoustic control step for controlling an acoustic effect applied to each acoustic signal received in the reception step based on the position and orientation of each of the user and the sound source stored in the storage unit;
An output step for outputting the stereophonic sound controlled in the acoustic control step,
The acoustic control step is applied to each of the received acoustic signals based on a direction changed from the user orientation stored in the storage unit to the left or right or up and down when the instruction receiving unit receives the swing instruction. A three-dimensional sound reproduction method characterized by controlling an acoustic effect to be performed.
前記情報処理装置に、
前記立体音響装置を使用するユーザと前記音源各々との、前記仮想空間における位置および向きを記憶する記憶手段、
前記音源各々から、当該音源が出力する音響信号を受信する受信手段、
前記記憶手段に記憶された前記ユーザおよび前記音源各々の位置および向きに基づいて、前記受信手段が 受信した音響信号各々に適用する音響効果を制御する音響制御手段、
前記仮想空間に配置された前記ユーザの首を左右または上下に振るスイング指示を受け付ける受付手段、および、
前記音響制御手段が制御した立体音響を出力する出力手段、として実行させ、
前記スイング指示を受け付けた場合、前記音響制御手段は、前記記憶手段に記憶された前記ユーザの向きから左右または上下に変更した向きに基づいて、前記受信した音響信号各々に適用する音響効果を制御すること
を特徴とする立体音響再生プログラム。 A three-dimensional sound reproduction program for controlling sound of at least one sound source existing in a virtual space, performed by an information processing device,
In the information processing apparatus,
Storage means for storing positions and orientations of the user using the stereophonic device and each of the sound sources in the virtual space;
Receiving means for receiving an acoustic signal output from the sound source from each of the sound sources;
Acoustic control means for controlling an acoustic effect applied to each acoustic signal received by the receiving means based on the position and orientation of each of the user and the sound source stored in the storage means;
Accepting means for accepting a swing instruction to swing the user's neck left and right or up and down arranged in the virtual space; and
An output unit that outputs stereophonic sound controlled by the sound control unit;
When receiving the swing instruction, the sound control means controls the sound effect applied to each of the received sound signals based on the orientation changed from the user orientation stored in the storage means to the left or right or up and down. A stereophonic sound reproduction program characterized by:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004279602A JP2006094315A (en) | 2004-09-27 | 2004-09-27 | Stereophonic reproduction system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004279602A JP2006094315A (en) | 2004-09-27 | 2004-09-27 | Stereophonic reproduction system |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2006094315A true JP2006094315A (en) | 2006-04-06 |
Family
ID=36234832
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004279602A Pending JP2006094315A (en) | 2004-09-27 | 2004-09-27 | Stereophonic reproduction system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2006094315A (en) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008005472A (en) * | 2006-06-22 | 2008-01-10 | Honda Research Inst Europe Gmbh | Robot head with artificial ear |
JP2010509810A (en) * | 2006-11-08 | 2010-03-25 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | Apparatus and method for creating an audio scene |
WO2013105413A1 (en) * | 2012-01-11 | 2013-07-18 | ソニー株式会社 | Sound field control device, sound field control method, program, sound field control system, and server |
WO2014069661A1 (en) * | 2012-11-05 | 2014-05-08 | ヤマハ株式会社 | Sound reproduction system and sound reproduction method |
US8958567B2 (en) | 2011-07-07 | 2015-02-17 | Dolby Laboratories Licensing Corporation | Method and system for split client-server reverberation processing |
KR101576294B1 (en) | 2008-08-14 | 2015-12-11 | 삼성전자주식회사 | Apparatus and method to perform processing a sound in a virtual reality system |
JP2016526222A (en) * | 2013-05-30 | 2016-09-01 | スミス, チャールズ, アンソニーSMITH, Charles, Anthony | HUD object design and display method. |
CN115103293A (en) * | 2022-06-16 | 2022-09-23 | 华南理工大学 | Object-oriented sound reproduction method and device |
-
2004
- 2004-09-27 JP JP2004279602A patent/JP2006094315A/en active Pending
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008005472A (en) * | 2006-06-22 | 2008-01-10 | Honda Research Inst Europe Gmbh | Robot head with artificial ear |
JP4716291B2 (en) * | 2006-06-22 | 2011-07-06 | ホンダ リサーチ インスティテュート ヨーロッパ ゲーエムベーハー | Robot head with artificial ear |
JP2010509810A (en) * | 2006-11-08 | 2010-03-25 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | Apparatus and method for creating an audio scene |
RU2449496C2 (en) * | 2006-11-08 | 2012-04-27 | Долби Лэборетериз Лайсенсинг Корпорейшн | Devices and methods to be used in audio scene creation |
JP2012196465A (en) * | 2006-11-08 | 2012-10-18 | Dolby Lab Licensing Corp | Apparatus and method for use in creating audio scene |
KR101201695B1 (en) * | 2006-11-08 | 2012-11-15 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | Apparatuses and methods for use in creating an audio scene |
US8403751B2 (en) | 2006-11-08 | 2013-03-26 | Dolby Laboratories Licensing Corporation | Apparatuses and methods for use in creating an audio scene |
KR101576294B1 (en) | 2008-08-14 | 2015-12-11 | 삼성전자주식회사 | Apparatus and method to perform processing a sound in a virtual reality system |
US8958567B2 (en) | 2011-07-07 | 2015-02-17 | Dolby Laboratories Licensing Corporation | Method and system for split client-server reverberation processing |
JPWO2013105413A1 (en) * | 2012-01-11 | 2015-05-11 | ソニー株式会社 | Sound field control device, sound field control method, program, sound field control system, and server |
WO2013105413A1 (en) * | 2012-01-11 | 2013-07-18 | ソニー株式会社 | Sound field control device, sound field control method, program, sound field control system, and server |
US9510126B2 (en) | 2012-01-11 | 2016-11-29 | Sony Corporation | Sound field control device, sound field control method, program, sound control system and server |
WO2014069661A1 (en) * | 2012-11-05 | 2014-05-08 | ヤマハ株式会社 | Sound reproduction system and sound reproduction method |
JP2014093697A (en) * | 2012-11-05 | 2014-05-19 | Yamaha Corp | Acoustic reproduction system |
JP2016526222A (en) * | 2013-05-30 | 2016-09-01 | スミス, チャールズ, アンソニーSMITH, Charles, Anthony | HUD object design and display method. |
CN115103293A (en) * | 2022-06-16 | 2022-09-23 | 华南理工大学 | Object-oriented sound reproduction method and device |
CN115103293B (en) * | 2022-06-16 | 2023-03-21 | 华南理工大学 | Target-oriented sound reproduction method and device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4546151B2 (en) | Voice communication system | |
US10911882B2 (en) | Methods and systems for generating spatialized audio | |
US20060008117A1 (en) | Information source selection system and method | |
US9560445B2 (en) | Enhanced spatial impression for home audio | |
US7533346B2 (en) | Interactive spatalized audiovisual system | |
US9525958B2 (en) | Multidimensional virtual learning system and method | |
US11109177B2 (en) | Methods and systems for simulating acoustics of an extended reality world | |
Murphy et al. | Spatial sound for computer games and virtual reality | |
CN111492342B (en) | Audio scene processing | |
US11589184B1 (en) | Differential spatial rendering of audio sources | |
JP2006094315A (en) | Stereophonic reproduction system | |
Steffens et al. | Auditory orientation and distance estimation of sighted humans using virtual echolocation with artificial and self-generated sounds | |
WO2018198790A1 (en) | Communication device, communication method, program, and telepresence system | |
Cohen et al. | Spatial soundscape superposition and multimodal interaction | |
US20230413003A1 (en) | Audio processing in a virtual environment | |
WO2022054900A1 (en) | Information processing device, information processing terminal, information processing method, and program | |
Cohen et al. | Cyberspatial audio technology | |
KR101111734B1 (en) | Sound reproduction method and apparatus distinguishing multiple sound sources | |
Cohen et al. | Spatial soundscape superposition, Part II: Signals and systems | |
JP2021527353A (en) | Coherence control between low frequency channels | |
JPH09288645A (en) | Large room type virtual office system | |
JPH03252258A (en) | Directivity reproducing device | |
WO2022054603A1 (en) | Information processing device, information processing terminal, information processing method, and program | |
WO2023281820A1 (en) | Information processing device, information processing method, and storage medium | |
JP2022128177A (en) | Sound generation device, sound reproduction device, sound reproduction method, and sound signal processing program |