JP2006333067A

JP2006333067A - 音像位置定位方法、音像位置定位装置

Info

Publication number: JP2006333067A
Application number: JP2005153821A
Authority: JP
Inventors: Takashi Uematsu; 尚植松; Yoichi Haneda; 陽一羽田; Akitoshi Kataoka; 章俊片岡
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2005-05-26
Filing date: 2005-05-26
Publication date: 2006-12-07

Abstract

【課題】音声の明瞭度を低下させずに知覚される音像の距離を正確に制御する。
【解決手段】複数の話者の中の１人を基準話者と定め、この基準話者の音像位置を基準音像位置と定める。基準話者と定めた話者の音源位置を聴取位置から最も近い位置に設定し、それ以外の話者の音像位置を基準話者位置より遠方に設定し、遠方に設定した話者の音圧レベルを基準話者の音圧レベルより小さくすると共に残響を付加することで、音圧レベルの相対的な差と残響量の違いにより基準位置より遠方に音像を定位させる。
【選択図】図１

Description

本発明は、オーディオ信号を再生する音響機器、通信機器にあって、特にスピーカの位置によらずに、任意の位置に音像を定位させる音像位置定位方法及び音像位置定位装置に関する。

スピーカの位置に関わらず、音像の位置を空間の任意の場所に存在するかのように知覚させる三次元音像定位については、これまでに多くの手法が提案されている。ステレオスピーカの左右の音圧レベルを変化させることで、その二つのスピーカ間の任意の場所に音像を知覚させる方法から始まり、近年では、音を知覚させたい場所から聴取者の耳元までの空間伝達関数（以後、頭部伝達関数と呼ぶ）を精密に測定し、この頭部伝達関数を音源の情報に加えることであたかもその場所から音が出ているように知覚させる方法が提案されている（非特許文献１）。

この技術の簡単な構成を図３に示す。ここで、制御用フィルタ１０の伝達関数をＸ_１、Ｘ_２、スピーカ１１から耳元までの伝達関数をＨ_１１、Ｈ_１２、Ｈ_２１、Ｈ_２２、実現すべき音源１２から耳元までの伝達関数をＤ_１、Ｄ_２とする。ただしＸ、Ｈ、Ｄのそれぞれは周波数の関数である。また、音源１２の周波数スペクトルをＳとすると、制御用フィルタ１０の伝達関数は式（１）をＸについて解くことで求められる。

この際、通常一般化逆行列を用いて自乗誤差最小の規範で求められる。
一方、音源が遠くにある場合と、近くの場合とを比べると、遠くにある場合には一般に部屋の残響の影響が大きく加味されることを利用して、直接音と間接音の比率を操作することで音源の位置の遠近感を制御する方法も提案されている（非特許文献２）。これは、左右に設置した２つのスピーカによって、その間に音像を知覚させることと同様に、聴取者から直線上に並んだ距離の異なる２つのスピーカを用いて知覚される音像の距離を操作するものである。この場合、聴取位置での音圧を一定にしたまま遠近の２つのスピーカのレベル比を操作することで直接音と間接音（残響音）の比率（直間比）を変化させ、知覚される音像の距離感を制御するというものである。この場合、音源が近くにある場合と遠くにある場合、及びその中間にある場合には、直間比をＣ値で表現するとそれぞれＣ＝２５ｄＢ、Ｃ＝１０ｄＢ、Ｃ＝１５ｄＢ程度であることが知られている。
イエンスブラウエルト、森本政之、後藤敏幸「空間音響、２０４〜２０６項、鹿島出版会、昭和６１年７月１０日」中山靖茂、梅田哲夫、西降司「スピーカアレイを用いた音像位置制御に関する基礎検討」信学技報 TECNICAL REPORT OF IEICE. EA2000-23(200-7)

以上で述べたように、音の音像位置を任意の場所に存在するかのように知覚させる技術はこれまでにもあるが、以下に述べるように実用上は様々な問題を含んでいる。まず左右に設置した２つのスピーカの音圧レベルを変化させる方法では、２つのスピーカ間でのみ音像を知覚させることが可能であるものの、左右、あるいは前後方向に任意の場所に音像を知覚させることは原理的に不可能である。また、頭部伝達関数を用いる方法は、聴取者個人の伝達関数を精密に模擬すれば任意の場所に精度よく音を知覚させることが可能であるが、一般的に聴取者個人の頭部伝達関数を用いない場合は、その精度は低下する。このため聴取者個人ごとの頭部伝達関数を知る必要があり、実用上、現実的ではない。

一方、直線上に並んだ遠近２つのスピーカの音圧レベルを変化させる方法では、直接音と間接音の比率は部屋の残響時間に大きく影響を受ける。このため、必ずしも意図したとおりの距離に音像を知覚させることができるとは限らない。また、聴取位置での音圧レベルが減少するに伴って知覚される音像は遠くなるが、実音源が遠ざかるに伴う物理的な音圧レベルの減少よりもさらに小さい音圧レベルで提示しなければ、実音源と同じ距離として知覚されないことが知らされている。これは、音を遠方に知覚させるためには物理的な音圧レベルの減少分からさらに小さな音を提示する必要があり、音声会議システムに用いるような場合には、音声の明瞭度を低下させることとなり実用上問題が生じる。

このように、あらゆる環境において音像を任意の場所に知覚させることは、現状では困難である。特に、音声会議に応用することを念頭におくと、音像の距離感あるいは奥行き感を出そうとした場合、その音の音圧レベルを小さくする必要があり、また多くの残響を付加することとなり音声の明瞭度を下げることにつながる。
本発明の目的は、この音声通信会議に対象を絞り、この際に音声の明瞭度を従来の技術よりも下げることなく効果的に音像の距離感、あるいは奥行き感を知覚させることを可能とするものである。

本発明では心理学、特に視覚心理学の分野で知られている空間対比効果を応用する。視覚における空間対比効果を、図４を用いて簡単に説明する。図４では、白から黒へなだらかに背景の明るさが変化しているパターン（図４では斜線の間隔で背景の明るさを表示している）の上に、小さな灰色の四角形Ａ、Ｂ、Ｃ、Ｄ、Ｅ、Ｆ、Ｇを７つ載せた様子が示されている。小さな灰色の四角形Ａ〜Ｇはどれも同じ程度の明るさの灰色であるにも関わらず、背景が黒（右端）位置における四角形Ｇは背景が白（左端）の位置にある四角形Ａよりも明るく見える。このように注目している場所からの光だけでなく、その周辺に存在する光の影響をうけることを空間的対比効果（simultaneous contrast）と呼ぶ。

本発明では、この対比効果を音における空間定位に応用する。すなわち、複数いる会議の話者の一人（基準話者）を基準位置に設定し、その他の話者の位置をこの基準位置との対比によって、遠方に知覚させるというものである。これは、音源の距離に関する判断において、何かの基準となる音源の距離との比較を行う方が、他との比較なしに絶対的にその距離を判断するより容易であり、音源までの距離に関する精度、特に距離の違いに関する弁別精度が高くなるという人間の知覚特性を利用したものである（参考文献：金海永、鈴木陽一、高根昭一、曽根敏夫、小沢賢司、「絶対判断と相対判断による音像距離知覚の比較」日本バーチャルリアリティ学会論文誌、Vol.4, No.2, pp455-460（1999））。これにより、遠近感のある音を、音圧レベルの低下を抑制し、あるいは付加残響を小さいままに保ちつつ提示する方法、すなわち音声の明瞭性を低下させることなく遠近感ある音を提示する音像位置定位方法を提供する。

本発明の音像位置定位方法の具体的な方法としては、任意の位置にある音像位置を基準音像位置と定め、この基準音像位置を基準に他の音像位置を知覚させることを特徴とする。
更には、この音像位置定位方法において、基準音像位置は聴取位置から最も近い距離の音像位置とすることを特徴とする。
本発明では更に、基準音像位置以外の場所に定位させる音像は、音圧レベルの減少と、残響を付加することによって基準音像位置より遠方位置に知覚させることを特徴とする。

本発明では更に、音圧レベルの減少量は実音源からの距離に応じた音圧レベルの減少分より減少量を小さく設定することを特徴とする。
本発明では更に、残響の付加量は基準音像位置を除く他の音像位置は、音像位置によらず現実の残響量より小さい一定量とすることを特徴とする。

上述したように、本発明によれば基準音像位置を設定し基準音像位置との音圧レベル差と残響量の違いを手掛かりに遠近感を知覚させながら、遠近感の誤差を小さくすることができる。また、音圧レベルの減少量を実音源からの距離に応じた音圧レベルの減少分より減少量を小さく選出するから音圧レベルが極端に小さくなることが抑制され、音声の明瞭度が低下することを阻止することができる。
更に残響の付加量にあっても、基準音像位置を除く他の音像位置は、音像位置によらず現実の残響量より小さい一定量としたから、残響付加に伴う音声の明瞭度が低下することを抑制することができる。

この結果、本発明の音像位置定位方法によれば、音声の明瞭度を落とすことなく遠近感の再現性が高い音像位置定位を実現することが可能となる。

本発明による音像位置推定方法及び音像位置定位装置は全てハードウェアによって実現することが可能であるが、ハードウェア以外にコンピュータに音像位置定位プログラムをインストールし、コンピュータに本発明による音像位置定位装置として機能させる実施形態が最良の実施形態である。
コンピュータに音像位置定位装置として機能させるにはコンピュータに複数の音源の音を電気信号として各別に収集する集音部と、この集音部に収集した各音源の音に対応する電気信号のそれぞれに減衰量を与える複数の音圧減衰部と、この複数の音圧減衰部で減衰量が与えられた電気信号のそれぞれに残響を与える複数の残響付加部とを構築し、コンピュータの外部に設けた複数のスピーカにより立体音響再生手段を構築し、この立体音響再生手段から音圧減衰部で音圧レベルが付与され、更に残響付加部で残響が付加された電気信号を放音させることにより音圧レベル差と残響量とによって音像位置が定位される。

以下に図１を用いて本発明による音像位置定位装置の実施例を説明する。ここでは３人の話者の音声を２つのスピーカ９Ａ、９Ｂを用いて再生する場合を例として説明する。
先ず、３人の話者１Ａ、１Ｂ、１Ｃから発声される音声を、指向性マイクロホン等を用いてそれぞれ独立に集音する。集音部２Ａ、２Ｂ、２Ｃは各話者の１Ａ〜１Ｃの発声を電気信号として収録する。各話者１Ａ〜１Ｃの音声はそれぞれ音圧減衰部３Ａ〜３Ｃと、残響付加部５Ａ〜５Ｃで音圧レベルと残響が付加される。各音圧減衰部３Ａ〜３Ｃで付与される各音圧レベルは減衰音圧レベル決定部４により設定され、残響付加部５Ａ〜５Ｃで付与される残響量は付加残響量決定部６で設定される。

ここで３人の話者１Ａ〜１Ｃのなかで１人を基準話者として設定する。ここでは話者１Ａを基準話者と定めた場合を説明する。本発明では話者１Ａの音像位置を聴取位置から最も近い位置の音として設定する。つまり、音圧減衰部３Ａで付与する音圧レベル減衰量を他の音圧減衰部３Ｂ、３Ｃの減衰量より小さい減衰量に定める。そして、残響付加部５Ａでは残響付加量をゼロないしはゼロに近い最小値に設定する。次に他の話者１Ｂと１Ｃについては基準話者１Ａの位置より遠くに音像位置を設定する。つまり、基準話者１Ａの位置からどれだけ遠方に音を定位させるかを決定し、基準話者位置からの相対的な距離に応じて、話者ごとに音圧レベル減衰量と残響付加量を設定する。この際に、音圧レベルは距離が倍になるごとに本来であれば−６ｄＢ減衰させるべきであるところ、本発明では実音源の音圧レベル減衰量より小さい例えば−２ｄＢ減衰させる。

一方残響付加量は、音圧レベルの場合と同様に距離に応じて変化させることも可能であるが、この発明では比較的近い位置に音源が存在する場合の値である。Ｃ値＝２５ｄＢを距離によらず一定値として設定する。残響付加方法としては別途部屋のインパルス反応を測定し、これを音源の音声信号に畳み込むことで実現することができる。または、計算機シミュレーションによる残響付加アルゴリズム（参考文献：大久保洋幸、小宮山摂「残響付加アルゴリズムの検討」日本音響学会聴覚研究会資料Vol34, No.5 pp373~373, 2004年）を用いることも可能である。

各音圧減衰部３Ａ〜３Ｃ及び残響付加部５Ａ〜５Ｃで音圧レベルと残響が付された音声信号は立体音響再生手段７に入力され、この立体音響再生手段７で音として放音され、各話者１Ａ〜１Ｃの位置が音像として定位される。立体音響再生手段７は信号混合部８と、２つのスピーカ９Ａ、９Ｂで構成することができる。信号混合部８では各残響付加部５Ａ〜５Ｃから出力される各話者の音声信号を混合し、それぞれの音声信号を各話者の左右の位置に対応付けして２つのスピーカ９Ａと９Ｂから出力される音の音圧レベルを設定する。

上述した実施例で重要な点は基準話者以外の他の話者の音圧レベルを実際の音源の距離差に基づく音圧レベルの差より小さい音圧差に設定したから、基準話者より遠くに位置する話者の音圧レベルが極端に小さくなることがない。従って、この点で基準話者以外の話者の音声が不明瞭になることを抑制することができる。更に、残響量も現実に距離差に基づく残響付加量により小さい残響付加量例えばＣ＝２５ｄＢとしたから、基準話者以外の他の話者の音声の明瞭度が低下することを抑制することができる。
以上述べた方法では、実際の話者の位置に関わらず、聴取者の側で自由に各話者の位置を設定することができるという特徴がある。また、実際の話者の位置を実現する場合には、別の方法により話者の位置の情報を得る必要がある。

この発明で提案した音像位置定位手法を用いて、基準話者の音声が存在する場合と存在しない場合との音像の知覚された距離を調べる実験を行ったところ、図２に示される結果が得られた。この実験結果は、横軸に定位させた音像の物理的な距離を表し、縦軸には知覚された音像の距離と物理的な距離の誤差を、物理的な距離に対する割合で示している。物理的な距離が最も聴取者に近い場合には、両者の差はほとんど見られないが、物理的な距離が大きくなるにしたがって、基準話者が存在する場合では誤差が大きくならないのに対し、基準話者が存在しない場合には誤差が大きくなっていくことが見てとれる。これは、距離に応じて残響の量を変えていないことに起因すると考えられるが、この結果から、残響付加量を小さくしたまま、すなわち音声の明瞭度を下げないで知覚される音像の距離を効果的に制御できることが示される。

以上説明した集音部２Ａ、２Ｂ、２Ｃ及び音圧減衰部３Ａ、３Ｂ、３Ｃ、減衰音圧レベル決定部４、残響付加部５Ａ、５Ｂ、５Ｃ、付加残響量決定部６、信号混合部８は上述した手順で音圧レベル減衰量を設定し、また残響付加量を設定する音像定位プログラムをコンピュータにインストールし、コンピュータに本発明による音像位置定位装置として機能させることにより実現することができる。
音像定位プログラムはコンピュータが解読可能なプログラム言語によって記述され、コンピュータが読取り可能な例えばＣＤ−ＲＯＭのような記録媒体に記録される。これらの記録媒体からコンピュータにインストールするか、或いは通信回線を通じてコンピュータにインストールすることができ、コンピュータにインストールされたプログラムはコンピュータに備えられたＣＰＵに解読されて実行される。

本発明による音像位置定位方法及び音像位置定位装置は拡声音声会議システムの分野で活用される。

この発明による音像位置定位装置の一実施例を説明するためのブロック図。この発明による音像位置定位方法の作用効果を説明するためのグラフ。従来技術である頭部伝達関数を用いた音像定位方法を説明するための図。本発明で応用した空間対比効果を説明するための図。

符号の説明

１Ａ〜１Ｃ話者５Ａ〜５Ｃ残響付加部
２Ａ〜２Ｃ集音部６付加残響量決定部
３Ａ〜３Ｃ音圧減衰部７立体音響再生手段
４減衰音圧レベル決定部９Ａ，９Ｂスピーカ

Claims

音源の位置によらず任意の場所に音源の位置を知覚させる音像位置定位方法において、
任意の位置における音像位置を基準音像位置と定め、この基準音像位置を基準に他の音像位置を知覚させることを特徴とする音像位置定位方法。
請求項１記載の音像位置定位方法において、上記基準音像位置は聴取位置から最も近い距離の音像位置とすることを特徴とする音像位置定位方法。
請求項１又は２の何れかに記載の音像位置定位方法において、基準音像位置以外の場所に定位させる音像は、音圧レベルの減少と、残響を付加することによって基準音像位置より遠方位置に知覚させることを特徴とする音像位置定位方法。
請求項３記載の音像位置定位方法において、上記音圧レベルの減少量は、実音源からの距離に応じた音圧レベルの減少分より減少量を小さく設定することを特徴とする音像位置定位方法。
請求項３記載の音像位置定位方法において、残響の付加量は音像位置によらず現実の残響量より小さい一定量とすることを特徴とする音像位置定位方法。
複数の音源の音を電気信号として各別に収集した集音部と、
この集音部に集音した各音源の音に対応する電気信号のそれぞれに減衰量を与える複数の音圧減衰部と、
この複数の音圧減衰部で減衰量が与えられた電気信号のそれぞれに残響を与える複数の残響付加部と、
上記音圧減衰部で音圧レベルが付与され、更に残響付加部で残響が付加された電気信号を複数のスピーカに印加し、これら複数のスピーカから上記各音源の音像位置を定位する立体音響再生手段と、
を備えた音像位置定位装置。
請求項６記載の音像位置定位装置において、上記複数の音圧減衰部の中の何れか一つは基準音像位置に音像を定位すべき電気信号が入力され、この電気信号に基準音像位置を再現するための基準音圧レベルを付与し、他の音圧減衰部では各音圧減衰部に入力された電気信号に、上記基準音圧レベルより小さい音圧レベルを付与する音像位置定位装置。
請求項６又は７の何れかに記載の音像位置定位装置において、上記複数の残響付加部の何れか一つは基準音像位置に音像を定位すべき電気信号を入力し、この電気信号は残響を付加することなく、上記立体音響再生装置に出力し、上記複数の残響付加部の中の他の残響付加部では現実の音像位置で与えられる残響より小さいレベルの残響を付加して上記立体音響再生手段に出力することを特徴とする音像位置定位装置。