JP2009048197A

JP2009048197A - 音場再現装置およびそれを用いた音場再現方法

Info

Publication number: JP2009048197A
Application number: JP2008212506A
Authority: JP
Inventors: Semyung Wang; セミュン、ワン; Mincheol Shin; ミンチョル、シン
Original assignee: Gwangju Institute of Science and Technology
Current assignee: Gwangju Institute of Science and Technology
Priority date: 2007-08-22
Filing date: 2008-08-21
Publication date: 2009-03-05
Anticipated expiration: 2028-08-21
Also published as: US20090052692A1; KR100884312B1; US8098846B2; JP4709880B2

Abstract

【課題】コンボリューション時に必要な計算量を相当減らし、リアルタイムの音場再現システムを実現しつつ音質歪みを最小化することにより、正確な音場を再現できる音場再現装置およびそれを用いた音場再現方法を提供する。
【解決手段】マスキングする信号とマスキングされる信号との間の時間遅延に応じて、前記マスキングされる信号のサウンド圧力が閾値以下であれば、人間の聴覚で感知されないマスキング効果を考慮し、時間領域において各室内インパルス応答ブロックが入力されると、特定時間遅延Δｔにおいて前記マスキングされる信号のサウンド圧力が特定閾値以下であればフィルタリングする。
【選択図】図２

Description

本発明は音場再現装置およびそれを用いた音場再現方法に関するものである。より詳しくは、室内インパルス応答（ＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）に時間領域におけるマスキング効果（ｍａｓｋｉｎｇｅｆｆｅｃｔ）を考慮したフィルタを適用し、室内インパルス応答と入力信号が周波数領域で乗じられた信号から周波数に応じて聴取不可能なデータを除去し、出力された信号ブロックのうちからバックグラウンド雑音ブロックのレベルより低いレベルの信号ブロックを除去することにより、コンボリューション時に必要な計算量を相当減らし、リアルタイムの音場再現システムを実現しつつ音質歪みを最小化することにより、正確な音場を再現できる音場再現装置およびそれを用いた音場再現方法に関するものである。

特殊な空間の音場効果（ｓｏｕｎｄｆｉｅｌｄｅｆｆｅｃｔ）を再現する音響機器では、音場適用時、一般的に音響信号に有限インパルス応答（ＦｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ；以下、「ＦＩＲ」という）モデルに基づいた室内インパルス応答（ＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ；以下、「ＲＩＲ」という）のコンボリューション（ｃｏｎｖｏｌｕｔｉｏｎ）演算を行う。この方法は、入力信号とインパルス応答信号を直接コンボリューションすることにより、無限インパルス応答（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）に基づいた方法に比べて音質の歪みを減らし、実際に近い音場効果を得ることができる長所がある。しかし、この方法は特定音響空間においてＲＩＲの長さに応じて計算量が非常に多くなり、リアルタイム処理が必要な装置には適用できない限界がある。

ＦＩＲに基づく音場再現装置において、計算時間と線形コンボリューション演算の遅延を減少させるためにブロック（ｂｌｏｃｋ）コンボリューションアルゴリズムが提案された。ブロックコンボリューションアルゴリズムでは、入力信号とインパルス応答信号をいくつかのブロックに区分することにより、ＲＩＲが長い場合の前記のような問題点を克服しようとした。ブロックコンボリューションアルゴリズムは、音響３Ｄレンダリングシステムとリアルタイムの音響再生装置のようにリアルタイムのコンボリューション演算が必要な装置に適用することができる。

図１は、一般的なＦＩＲに基づく音場再現装置に適用されるブロックコンボリューションアルゴリズムのブロック図である。
入力信号はいくつかの入力信号ブロック１０に分けられ、またＲＩＲ信号もいくつかのＲＩＲブロック３０に分けられる。この時、各信号ブロックは同一の長さを有する。入力信号ブロック１０は各々高速フーリエ変換（ＦＦＴ）２０によって周波数領域に変換され、またＲＩＲブロック３０も各々高速フーリエ変換４０によって周波数領域に変換される。周波数領域に変換された入力信号ブロックとＲＩＲブロックは乗算器５０で互いに乗じられた後に各信号ブロック６０に出力され、逆高速フーリエ変換（ＩＦＦＴ）７０によって時間領域に変換される。時間領域に変換された各ブロックを１つの信号に合わせると音場効果が含まれた音響信号８０が作られる。

このような一般的なＦＩＲに基づく音場再現装置は、図１に示すように、複数のブロック単位で数回計算が繰り返されるが、各計算ステップで人間の聴覚特性を考慮したフィルタリング作業が行われないため、その計算量が非常に膨大である問題点を有する。計算量が多いために処理速度が遅れるしかなく、それを補うためには高価のプロセッサと高容量のメモリが必要であるために製造費用が上昇する問題点がある。

本発明は、上記のような問題点を解決するために導き出されたものであり、特に室内インパルス応答（ＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）に時間領域におけるマスキング効果（ｍａｓｋｉｎｇｅｆｆｅｃｔ）を考慮したフィルタを適用し、室内インパルス応答と入力信号が周波数領域で乗じられた信号から周波数に応じて聴取不可能なデータを除去し、出力された信号ブロックのうちのバックグラウンド雑音ブロックのレベルより低いレベルの信号ブロックを除去することにより、コンボリューション時に必要な計算量を相当減らし、リアルタイムの音場再現システムを実現しつつ音質歪みを最小化することにより、正確な音場を再現できる音場再現装置およびそれを用いた音場再現方法を提供することをその目的とする。

上記目的を達成するために導き出された本発明に係るブロックコンボリューション（ｂｌｏｃｋｃｏｎｖｏｌｕｔｉｏｎ）を用いた音場再現装置は、各入力信号ブロックを高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）する第１高速フーリエ変換器；マスキングする信号（ｍａｓｋｅｒ）とマスキングされる信号（ｍａｓｋｅｅ）との間の時間遅延に応じて、前記マスキングされる信号のサウンド圧力（ｓｏｕｎｄｐｒｅｓｓｕｒｅ）が閾値以下であれば、人間の聴覚で感知されないマスキング効果（ｍａｓｋｉｎｇｅｆｆｅｃｔ）を考慮し、時間領域において各室内インパルス応答（ＲｏｏｍＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）ブロックが入力されると、特定時間遅延Δｔにおいて前記マスキングされる信号のサウンド圧力が特定閾値以下であればフィルタリングする時間領域聴覚フィルタ；前記時間領域聴覚フィルタを通過した前記各室内インパルス応答ブロックを高速フーリエ変換する第２高速フーリエ変換器；および前記第１高速フーリエ変換器を経た前記各入力信号ブロックと、前記第２高速フーリエ変換器を経た前記各室内インパルス応答ブロックを互いに乗じる乗算器を含むことを特徴とする。

また、本発明に係るブロックコンボリューション（ｂｌｏｃｋｃｏｎｖｏｌｕｔｉｏｎ）を用いた音場再現方法は、（ａ）各入力信号ブロックを高速フーリエ変換（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）するステップ；（ｂ）マスキングする信号とマスキングされる信号との間の時間遅延に応じて、前記マスキングされる信号のサウンド圧力が閾値以下であれば人間の聴覚で感知されないマスキング効果を考慮し、時間領域において各室内インパルス応答ブロックが入力されると、特定時間遅延Δｔにおいて前記マスキングされる信号のサウンド圧力が特定閾値以下であればフィルタリングするステップ；（ｃ）前記（ｂ）ステップが行われた前記各室内インパルス応答ブロックを高速フーリエ変換するステップ；および（ｄ）前記（ａ）段階を経た前記各入力信号ブロックと、前記（ｃ）段階を経た前記各室内インパルス応答ブロックを互いに乗じるステップを含むことを特徴とする。

本発明によれば、計算量を減少させることによって処理速度を増加させ、低価のプロセッサと低容量のメモリで実現することができ、速い処理速度によってリアルタイムの音場制御システムを実現できつつ人間の聴覚特性を反映して音質の低下を防止できる効果がある。

以下、本発明の好ましい実施形態について添付図面を参照して詳細に説明する。先ず、各図面の構成要素に参照符号を付加する際、同一構成要素については、他の図面上に示すときにもできるだけ同一符号を与えるようにしていることを留意しなければならない。また、本発明を説明するにおいて、関連する公知構成または機能に関する具体的な説明が本発明の要旨を濁す恐れがあると判断される場合にはその詳細な説明は省略する。さらに、以下では本発明の好ましい実施形態を説明するが、本発明の技術的思想はこれに限定および制限されず、当業者によって変形され様々に実施できることは言うまでもない。

図２は、本発明の好ましい実施形態に係る音場再現装置のブロック図である。
本発明の好ましい実施形態に係る音場再現装置は、図２に示すように、第１高速フーリエ変換器１１０、時間領域聴覚フィルタ１２０、第２高速フーリエ変換器１３０、乗算器１４０、周波数領域聴覚フィルタ１５０、ブロック除去器１６０、および逆高速フーリエ変換器１７０を含んでなっている。

第１高速フーリエ変換器１１０は、各入力信号ブロック１０５の入力を受けて周波数領域に変換する。各入力信号ブロック１０５は、音場効果が添加されない音源信号を同一長さを有するように複数に分割したブロックである。

時間領域聴覚フィルタ１２０は、各室内インパルス応答ブロック１１５（以下、「ＲＩＲブロック」という）の入力を受け、マスキング効果（ｍａｓｋｉｎｇｅｆｆｅｃｔ）を考慮して不必要な信号を除去した後、これを第２高速フーリエ変換器１３０に入力する。時間領域において人間の聴覚特性はマスキング効果を示す。マスキング効果は、インパルス信号の場合、得ようとする特定インパルス信号（マスキングする信号、ｍａｓｋｅｒ）の終了点（ｏｆｆｓｅｔ）と他のインパルス信号（マスキングされる信号、ｍａｓｋｅｅ）の開始点（ｏｎｓｅｔ）との間の間隔（時間遅延Δｔ）に応じてインパルス信号のサウンド圧力比が特定閾値として表され、このような閾値より小さいサウンド圧力を有するマスキングされる信号は人間の聴覚で感知されにくいものである。よって、このような信号は時間領域聴覚フィルタ１２０によってフィルタリングしても全体音場再現には影響を及ぼさない。

図３は、時間領域聴覚フィルタのフィルタリング特性を示すグラフである。
図３において、横軸は時間遅延Δｔ［ｍｓｅｃ］を示し、縦軸はマスキングされる信号のピークサウンド圧力Ｐ（Δｔ）とΔｔ＝０における前記マスキングする信号のピークサウンド圧力Ｐ（０）との比Ｐ（Δｔ）／Ｐ（０）（以下、「ピーク圧力比」という）を示す。また、前記ピークサウンド圧力はマスキングする信号が白色雑音（ｗｈｉｔｅｎｏｉｓｅ）、すなわちインパルス信号である場合に測定された値である。

時間領域聴覚フィルタ１２０は大きく２つのメカニズムによって作動する。
第１に、ポストマスキング効果（ｐｏｓｔ−ｍａｓｋｉｎｇｅｆｆｅｃｔ）メカニズムである。ポストマスキング効果は、図３において丸印を含む曲線（以下、“線１”という）で示されている。マスキングする信号が周波数領域で白色雑音である場合、マスキングされる信号はベル模様の圧力インパルス（ｐｒｅｓｓｕｒｅｉｍｐｕｌｓｅ）で表される。このようなベル模様の圧力インパルスは、横軸に示される各時間遅延においてマスキング有無を決める「特定閾値」として作用する。すなわち、得ようとする信号であるマスキングする信号が終了した後、相次ぐ信号が開始するまで長い時間が経つほど閾値は小さくなり、その結果相次ぐ信号の大きさが小さくても人間の聴覚で鋭敏に感知される。その反面、時間遅延が短いほど相次ぐ信号の大きさが相当大きくてもマスキングする信号に埋もれ、閾値より大きさが小さい信号は無視しても良い。

例えば、時間遅延Δｔ＝１０ｍｓｅｃである場合、縦軸の圧力比（特定閾値）は約０．２８となる。これは、マスキングする信号が終了し、１０ｍｓｅｃの時間遅延後にマスキングされる信号が開始される場合、マスキングされる信号のピーク圧力比が０．２８以下であれば人間の聴覚で感知されないことを意味する。相次ぐ信号のピーク圧力比が０．２８を超過する場合であれば人間の聴覚で感知される。よって、ピーク圧力比が０．２８以下である信号はポストマスキング効果によってマスキングされるため、時間領域聴覚フィルタ１２０によって除去されても全体音場再現には影響を及ぼさない。

図３の青色線のように、ベル模様の圧力インパルスを閾値にして時間領域聴覚フィルタを実現する場合、閾値を精密に調整することが容易ではなく、フィルタの製造が非常に複雑になる。よって、その代案として、このようなベル模様の圧力インパルスを時定数（τ）により下記の一般式１のように近似化することができる。

ａ_ａｘｐ＝ｅｘｐ（−ｔ／τ）（一般式１）
（ａ_ａｘｐは近似値、τは時定数（ｔｉｍｅｃｏｎｓｔａｎｔ））

時定数τは曲線部分のモデリングに関わる因子であり、時定数を調節することによってマスキング効果をいかに正確にあるいはいかに多くの余裕を持って時間領域聴覚フィルタ１２０を設計することができるかを決定する。図３に示すように、マスキング効果を最も近似的に反映する時定数は７．５ｍｓであり、これにより、最も近似的にマスキング効果を有する時間領域聴覚フィルタ１２０を設計することができる。一方、これより小さい時定数を定義すると、より余裕を持つフィルタを設計することができる。例えば、時定数τ＝５ｍｓに設計する場合、７．５ｍｓに比べて多少計算量が増えるが、聴覚が極度に鋭敏な人にもマスキングされる信号を感知できないように設計することができる。

第２に、ギャップ検出閾値時間（ＧａｐＤｅｔｅｃｔｉｏｎＴｈｒｅｓｈｏｌｄ；以下、「ＧＤＴ」という）メカニズムである。ＧＤＴは図３において直線点線と曲線の一部（以下、“線２”という）で示されている。線２はΔｔが４ｍｓｅｃ以下であるときには直線点線を従い、Δｔが４ｍｓｅｃ以上であるときには線１を従う。これは白色雑音チャネルの帯域幅（ｂａｎｄｗｉｄｔｈ）に係る関数で表され、前記ポストマスキング効果の延長線上で説明することができる。すなわち、時間遅延が短いほど相次ぐ信号が相当大きいサウンド圧力を有しているとしも、マスキングする信号に相次ぐ信号が埋もれ、人間の聴覚レベルでは区別できない。このような効果は遅延時間が短いほど顕著であり、遅延時間がＧＤＴと等しくなる地点では相次ぐ信号の大きさに関係なく人間の聴覚で感知できない現象が生じる。すなわち、０ｍｓｅｃからＧＤＴまでは相次ぐ信号の大きさがマスキングする信号のサウンド圧力より大きくない限り、閾値を超過してもマスキングする信号によってマスキングされ、これを除去しても音場再現には影響を及ぼさない。

このようにＧＤＴを基準にＧＤＴメカニズム領域とポストマスキング効果メカニズムに明確に区分することは多少リスクが内在するため、その代案として、ＧＤＴメカニズム領域を減らし、ポストマスキング効果メカニズム領域を広げる方法を用いることができる。ＧＤＴメカニズム領域では閾値に関わらず全ての相次ぐ信号を除去するため、所定の時間マージン（ｍａｒｇｉｎ）を置いてＧＤＴメカニズム領域を多少縮小する妥協点を探すことがより安全でする。図３には時間マージンを１ｍｓｅｃに設定した場合が示されている。すなわち、ＧＤＴは５ｍｓｅｃであるが、時間マージンを１ｍｓｅｃ確保してＧＤＴメカニズム領域を０〜４ｍｓｅｃに設定し、ポストマスキング効果メカニズムを４ｍｓｅｃ以後に設定した。

要するに、時間領域聴覚フィルタ１２０はポストマスキング効果メカニズムだけで実現することもできる。但し、ポストマスキング効果メカニズムにおいて時間遅延が短い場合、閾値に関わらず相次ぐ信号全体がマスキングされる現象が発生するため、無視できる信号を最大限に除去して計算量を減少させるためにポストマスキング効果メカニズムにＧＤＴメカニズムを加えて時間領域聴覚フィルタ１２０を実現することがより好ましい。このように実現された時間領域聴覚フィルタ１２０は次のように動作する。時間遅延が４ｍｓｅｃ以内である場合、時間領域聴覚フィルタ１２０は、相次ぐ信号のうち、マスキングする信号のサウンド圧力より小さいか等しい信号全てを除去する。時間遅延が４ｍｓｅｃを越える場合、時間領域聴覚フィルタ１２０は、相次ぐ信号が該当時間遅延における特定閾値を超過する場合には通過させ、特定閾値以下である場合には除去する。これにより、時間領域聴覚フィルタ１２０はＲＩＲの時間遅延に適応的に対応して人間の聴覚特性を反映することにより、音場再現装置の計算量を減少させる。

第２高速フーリエ変換器１３０は、時間領域聴覚フィルタ１２０を通過した各ＲＩＲブロックを高速フーリエ変換し、周波数領域に変換する。
乗算器１４０は、第１高速フーリエ変換器１１０によって周波数領域に変換された各入力信号ブロックと、第２高速フーリエ変換器１３０によって周波数領域に変換された各ＲＩＲブロックとを互いに乗じる機能をする。時間領域における入力信号とインパルス応答のコンボリューション演算は、周波数領域における入力信号と口パルス応答の積と等価であるため、乗算器１４０は、各対応するブロック同士の積であるという単純な演算を行うことにより、音源に該当する入力信号ブロックに実際の音響空間の特性を反映し、音場効果が加えられた各信号ブロック１４５を出力する。

周波数領域聴覚フィルタ１５０は、乗算器１４０を経た各信号ブロック１４５の入力を受け、周波数に応じて人間の聴覚による聴取が不可能なデータを除去した後、それをブロック除去器１６０に入力する。時間領域聴覚フィルタ１２０を介したフィルタリングはＲＩＲブロック１１５を対象に直接行われる反面、周波数領域聴覚フィルタ１５０を介したフィルタリングはＲＩＲブロックと入力信号ブロックが周波数領域で乗じられた信号ブロックを対象に行われる。周波数領域では各周波数に応じて人間の聴覚で感知できないサウンド圧力の閾値が存在し、このような閾値より小さいサウンド圧力を有する信号は聴取が不可能となる。よって、このような信号は周波数領域聴覚フィルタ１５０を介してフィルタリングしても全体音場再現には影響を及ぼさない。

図４は、本発明の好ましい実施形態に係る周波数領域聴覚フィルタを実現するための周波数領域における人間の聴覚特性を示すグラフである。
図４において、横軸は周波数［Ｈｚ］を示し、縦軸はバックグラウンド雑音がない状態におけるサウンド圧力レベル（ｓｏｕｎｄｐｒｅｓｓｕｒｅｌｅｖｅｌ）［ｄＢＬ］を示す。また、図４において、曲線は閾値（ｔｈｒｅｓｈｏｌｄ）を、曲線上部の丸印（以下、“丸印１”という）は聴取可能なデータを、曲線を含む曲線下部の丸印（以下、“丸印２”という）は聴取不可能なデータを各々示す。

周波数領域においても、各信号ブロック１４５は人間の聴覚基準から無視できるデータが潜在している。よって、図４に示すように、バックグラウンド雑音がない状態における聴覚閾値特性（ｈｅａｒｉｎｇｔｈｒｅｓｈｏｌｄｉｎｑｕｉｅｔ）を反映して周波数領域聴覚フィルタ１５０を実現する。周波数領域において、信号の聴取可能性は「バックグラウンド雑音がない状態における閾値」（以下、「閾値」という）Ｔ_ｑ（ｆ）［ｄＢ］に対する関数で決めることができる。逆高速フーリエ変換器１７０によって逆高速フーリエ変換を行う前に、各サンプルは周波数領域聴覚フィルタ１５０において閾値Ｔ_ｑ（ｆ）と比較し、閾値よりサウンド圧力レベルが大きいデータ（図４において丸印２）は通過させ、閾値よりサウンド圧力レベルが小さいデータ（図４において丸印１）はフィルタリングする。これは、下記の一般式２のように表すことができる。

Ｙ_Ｐ ^ａｕｄ［ｋ］＝Ｙ_Ｐ［ｋ］（Ｙ_Ｐ［ｋ］＞Ｔ_ｑ［ｋ］である場合）
Ｙ_Ｐ ^ａｕｄ［ｋ］＝０（Ｙ_Ｐ［ｋ］＜Ｔ_ｑ［ｋ］である場合）
（一般式２）

ここで、Ｙ_Ｐ ^ａｕｄ［ｋ］はｋ番目サンプルにおいて聴取可能なデータを有するブロックＰのサウンド圧力レベルを、Ｙ_Ｐ［ｋ］はｋ番目サンプルにおいてブロックＰのサウンド圧力レベルを意味する。Ｙ_Ｐ［ｋ］＞Ｔ_ｑ［ｋ］である場合、すなわち閾値よりサウンド圧力レベルが大きいデータは聴取可能なデータとしてそのまま維持し、Ｙ_Ｐ［ｋ］＜Ｔ_ｑ［ｋ］である場合、すなわち閾値よりサウンド圧力レベルが小さいデータは聴取可能なデータがないものとして取り扱う。

例えば、図４において、４０００〜６０００Ｈｚではサンプリングされた１０個のデータ全てが閾値よりサウンド圧力レベルが大きいために聴取可能なデータであり、周波数領域聴覚フィルタ１５０を全て通過する。しかし、８０００〜１００００Ｈｚでは、サンプリングされた１０個のデータのうちの５個のデータだけが閾値よりサウンド圧力レベルが大きいため、残りの５個のデータは周波数領域聴覚フィルタ１５０でフィルタリングされる。

ブロック除去器１６０は、周波数領域聴覚フィルタ１５０から出力された各信号ブロックのうち、それと同一の長さを有するバックグラウンド雑音（ｂａｃｋｇｒｏｕｎｄｎｏｉｓｅ）ブロックの平均サウンド圧力レベルより低い値を有する信号ブロックを除去する。時間領域聴覚フィルタ１２０と周波数領域聴覚フィルタ１５０ではデータ単位で信号をフィルタリングしたが、ブロック除去器１６０ではブロック単位で信号をフィルタリングするという違いがある。ブロック除去器１６０における動作は下記の一般式３のように表すことができる。

ここで、Ｙ^ｏｕｔ _Ｐ［ｋ］はｋ番目サンプルにおける出力ブロックＰのサウンド圧力レベル、ＢＮはブロックＰと同一の長さを有するバックグラウンド雑音、Ｎは周波数領域における出力ブロック（ｏｕｔｐｕｔｂｌｏｃｋ）の長さを意味する。

一般式３において、与えられた出力信号ブロックを維持するか否かは、同一のブロック長さを有するバックグラウンド雑音の平均サウンド圧力レベルと比較することによって決められる。すなわち、該当信号ブロックの平均サウンド圧力レベルがバックグラウンド雑音の平均サウンド圧力レベルより大きい場合には該当ブロックを聴取可能なブロックとしてそのまま維持し、その逆の場合には該当ブロックを除去する。すなわち、出力された信号ブロックのうちのバックグラウンド雑音ブロックのレベルより低いレベルの信号ブロックは、バックグラウンド雑音に埋もれて人間の聴覚基準から聴取不可能であるため、このようなブロックそのものをブロック除去器１６０で除去することにより、計算量を減らしつつ音質の歪みを防止することができる。

要するに、周波数領域において計算量を減らすためのメカニズムは２つに要約される。
第１に、ＲＩＲと入力信号が周波数領域で乗じられた信号から周波数に応じて聴取不可能なデータを周波数領域聴覚フィルタ１５０によって除去する。
第２に、周波数領域聴覚フィルタ１５０から出力された信号ブロックのうち、バックグラウンド雑音ブロックのレベルより低いレベルの信号ブロックをブロック除去器１６０によって除去する。

一方、前記２つのメカニズムは全て周波数領域聴覚フィルタ１５０で実現できることは言うまでもない。
本発明の好ましい実施形態に係る音場再現装置の性能をいくつかの実験によって他の場合との比較を行った。実験結果は下記の表１に示す。

Ａ：線形コンボリューション（ｌｉｎｅａｒｃｏｎｖｏｌｕｔｉｏｎ）
Ｂ：ブロックコンボリューション
Ｃ：時間領域聴覚フィルタを備えたブロックコンボリューション
Ｄ：周波数領域聴覚フィルタを備えたブロックコンボリューション
Ｅ：本発明の好ましい実施形態に係るブロックコンボリューション

表１において、音場再現装置の性能は計算量で決定され、計算量はデジタル信号処理器において処理に必要となる電力消費に影響を及ぼす乗算演算の数を尺度にした。表１に示すように、システムの種類に関わらず（浴室と大部屋）、また音源信号（犬がほえる声、肉声、音楽）に関わらず、時間領域聴覚フィルタと周波数領域聴覚フィルタを適用した本発明の好ましい実施形態に係るブロックコンボリューションの場合が計算量が顕著に減少する結果を示す。計算量の減少は、処理速度の増加と、低価のプロセッサおよび低容量のメモリの適用が可能であることを意味し、リアルタイムの音場再現システムを実現するのに適していることを意味する。

次に、本発明の好ましい実施形態に係る音場再現方法について説明する。
図５は、本発明の好ましい実施形態に係る音場再現方法のフローチャートである。
本発明の好ましい実施形態に係る音場再現方法は、図５に示すように、各入力信号ブロックを高速フーリエ変換して周波数領域に変換するステップ（Ｓ１０）、各ＲＩＲブロックを時間領域において聴覚フィルタリングするステップ（Ｓ２０）、時間領域聴覚フィルタリングされた各ＲＩＲブロックを高速フーリエ変換して周波数領域に変換するステップ（Ｓ３０）、周波数領域に変換された各入力信号ブロックと各ＲＩＲブロックを互いに乗じる乗算ステップ（Ｓ４０）、乗算された各信号ブロックを周波数領域において聴覚フィルタリングするステップ（Ｓ５０）、周波数領域聴覚フィルタリングされた各信号ブロックのうち、それと同一の長さを有するバックグラウンド雑音ブロックの平均サウンド圧力レベルより低い平均サウンド圧力レベルを有する信号ブロックを除去するブロック除去ステップ（Ｓ６０）、ブロック除去ステップで除去されすに通過した各信号ブロックを逆高速フーリエ変換して時間領域に変換するステップ（Ｓ７０）、および時間領域に変換された各信号ブロックを互いに連結して出力信号を生成するステップ（Ｓ８０）を含んでなっている。

Ｓ１０ステップは第１高速フーリエ変換器１１０によって行われる。
Ｓ２０ステップは時間領域聴覚フィルタ１２０によって行われ、時間領域において各ＲＩＲブロックの入力を受け、特定遅延時間Δｔにおいてサウンド圧力が特定閾値以下であるために人間の聴覚で感知されない信号をフィルタリングし、時間遅延Δｔが特定時間ギャップ以内である場合にマスキングする信号のサウンド圧力より大きくない限り、閾値を超過しても人間の聴覚で感知されない信号をフィルタリングする。

Ｓ３０ステップは第２高速フーリエ変換器１３０によって行われる。
Ｓ４０ステップは乗算器１４０によって行われる。
Ｓ５０ステップは周波数領域聴覚フィルタ１５０によって行われ、各信号ブロックに対し周波数に応じて人間の聴覚による聴取が不可能なデータを除去する。
Ｓ６０ステップはブロック除去器１６０によって行われる。
Ｓ７０ステップは逆高速フーリエ変換器１７０によって行われる。

本発明の好ましい実施形態に係る音場再現方法は前記音場再現装置で十分に説明したのでここでは詳細な説明を省略する。
以上の説明は本発明の技術思想を例示的に説明したものに過ぎず、本発明が属する技術分野で通常の知識を有する者であれば、本発明の本質的な特性から逸脱しない範囲内における様々な修正、変更および置き換えが可能である。よって、本発明で開示された実施形態および添付図面は本発明の技術思想を限定するためのものではなく説明するためのものであり、このような実施形態および添付図面によって本発明の技術思想の範囲が限定されるものではない。本発明の保護範囲は請求範囲によって解釈すべきであり、それと同等の範囲内にある全ての技術思想は本発明の権利範囲に含まれると解釈しなければならない。

本発明に係る音場再現装置は音響機器に搭載され、音響機器の価格を下げ、性能を向上させることができ、３次元仮想音響分野を含めて音響コンボリューションが用いられる応用分野に活用することができる。

一般的なＦＩＲに基づく音場再現装置に適用されるブロックコンボリューションアルゴリズムのブロック図である。本発明の好ましい実施形態に係る音場再現装置のブロック図である。時間領域聴覚フィルタのフィルタリング特性を示すグラフである。本発明の好ましい実施形態に係る周波数領域聴覚フィルタを実現するための周波数領域における人間の聴覚特性を示すグラフである。本発明の好ましい実施形態に係る音場再現方法のフローチャートである。

符号の説明

１０５：入力信号ブロック
１１０：第１高速フーリエ変換器
１１５：ＲＩＲブロック
１２０：時間領域聴覚フィルタ
１３０：第２高速フーリエ変換器
１４０：乗算器
１５０：周波数領域聴覚フィルタ
１６０：ブロック除去器
１７０：逆高速フーリエ変換器

Claims

ブロックコンボリューションを用いた音場再現装置であって、
各入力信号ブロックを高速フーリエ変換する第１高速フーリエ変換器と、
マスキングする信号とマスキングされる信号との間の時間遅延に応じて、前記マスキングされる信号のサウンド圧力が閾値以下であれば、人間の聴覚で感知されないマスキング効果を考慮し、時間領域において各室内インパルス応答ブロックが入力されると、特定時間遅延Δｔにおいて前記マスキングされる信号のサウンド圧力が特定閾値以下であればフィルタリングする時間領域聴覚フィルタと、
前記時間領域聴覚フィルタを通過した前記各室内インパルス応答ブロックを高速フーリエ変換する第２高速フーリエ変換器と、
前記第１高速フーリエ変換器を経た前記各入力信号ブロックと、前記第２高速フーリエ変換器を経た前記各室内インパルス応答ブロックを互いに乗じる乗算器とを備えることを特徴とするブロックコンボリューションを用いた音場再現装置。
前記閾値は、下記の一般式１
ａ_ａｘｐ＝ｅｘｐ（−ｔ／τ）（一般式１）
（但し、ａ_ａｘｐは近似値、τは時定数）
によって近似されたものが適用されることを特徴とする請求項１に記載のブロックコンボリューションを用いた音場再現装置。
前記時間遅延Δｔが特定時間ギャップ以内である場合、前記マスキングされる信号のサウンド圧力が前記閾値を超過しても人間の聴覚で感知されないギャップ検出閾値時間を考慮し、前記時間領域聴覚フィルタは、前記ギャップ検出閾値時間以内の信号が前記マスキングする信号のサウンド圧力より大きくなければフィルタリングすることを特徴とする請求項１に記載のブロックコンボリューションを用いた音場再現装置。
前記時間領域聴覚フィルタは、前記ギャップ検出閾値時間より短い時間を基準時間にし、前記基準時間前のマスキングされる信号は全てフィルタリングし、前記基準時間後のマスキングされる信号は前記閾値以下のサウンド圧力を有する信号だけをフィルタリングすることを特徴とする請求項３に記載のブロックコンボリューションを用いた音場再現装置。
前記乗算器を経た各信号ブロックが入力され、周波数に応じて人間の聴覚による聴取が不可能なデータを除去する周波数領域聴覚フィルタをさらに含むことを特徴とする請求項１に記載のブロックコンボリューションを用いた音場再現装置。
前記周波数領域聴覚フィルタから出力された各信号ブロックのうち、それと同一の長さを有するバックグラウンド雑音ブロックの平均サウンド圧力レベルより低い平均サウンド圧力レベルを有する信号ブロックを除去するブロック除去器をさらに含むことを特徴とする請求項５に記載のブロックコンボリューションを用いた音場再現装置。
ブロックコンボリューションを用いた音場再現方法であって、
（ａ）各入力信号ブロックを高速フーリエ変換するステップと、
（ｂ）マスキングする信号とマスキングされる信号との間の時間遅延に応じて、前記マスキングされる信号のサウンド圧力が閾値以下であれば人間の聴覚で感知されないマスキング効果を考慮し、時間領域において各室内インパルス応答ブロックが入力されると、特定時間遅延Δｔにおいて前記マスキングされる信号のサウンド圧力が特定閾値以下であればフィルタリングするステップと、
（ｃ）前記（ｂ）ステップが行われた前記各室内インパルス応答ブロックを高速フーリエ変換するステップと、
（ｄ）前記（ａ）段階を経た前記各入力信号ブロックと、前記（ｃ）段階を経た前記各室内インパルス応答ブロックを互いに乗じるステップとを含むことを特徴とするブロックコンボリューションを用いた音場再現方法。
前記時間遅延Δｔが特定時間ギャップ以内である場合、前記マスキングされる信号のサウンド圧力が前記閾値を超過しても人間の聴覚で感知されないギャップ検出閾値時間を考慮し、前記（ｂ）ステップでは、前記ギャップ検出閾値時間以内の信号が前記マスキングする信号のサウンド圧力より大きくなければフィルタリングすることを特徴とする請求項７に記載のブロックコンボリューションを用いた音場再現方法。
前記（ｄ）段階を経た各信号ブロックに対し、周波数に応じて人間の聴覚による聴取が不可能なデータを除去する（ｅ）ステップを更に含むことを特徴とする請求項７又は８に記載のブロックコンボリューションを用いた音場再現方法。
前記（ｅ）ステップが行われた各信号ブロックのうち、それと同一の長さを有するバックグラウンド雑音ブロックの平均サウンド圧力レベルより低い平均サウンド圧力レベルを有する信号ブロックを除去する（ｆ）ステップをさらに含むことを特徴とする、請求項９に記載のブロックコンボリューションを用いた音場再現方法。