JP2014510474A

JP2014510474A - 残響知覚レベルの大きさを決定する装置及び方法、オーディオプロセッサ並びに信号処理方法

Info

Publication number: JP2014510474A
Application number: JP2013555829A
Authority: JP
Inventors: クリスティン・ウーレ; ヨウニ・パウルス; ユエルゲン・ヘーレ; ペーテル・プロケイン; オリベル・ヘルムート
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2011-03-02
Filing date: 2012-02-24
Publication date: 2014-04-24
Anticipated expiration: 2032-02-24
Also published as: TW201251480A; AR085408A1; EP2681932B1; BR112013021855A2; WO2012116934A1; JP5666023B2; BR112013021855B1; KR20130133016A; CN103430574B; US20140072126A1; KR101500254B1; AU2012222491A1; MX2013009657A; CA2827326C; RU2013144058A; CN103430574A; RU2550528C2; TWI544812B; EP2681932A1; AU2012222491B2

Abstract

直接信号成分（１００）と残響信号成分（１０２）とからなる混合信号における残響知覚レベルの大きさを決定するための装置は、ドライ信号成分（１００）、残響信号成分（１０２）又は混合信号をフィルタリングするための知覚フィルタステージを備えたラウドネス・モデル・プロセッサ（１０４）を備えている。知覚フィルタステージは、フィルタリングされた直接信号、フィルタリングされた残響信号又はフィルタリングされた混合信号を得るために、実体の聴覚知覚機構をモデル化するように構成されている。本装置は、さらに、フィルタリングされた直接信号を用いて第１のラウドネスの大きさを推定し、フィルタリングされた残響信号又はフィルタリングされた混合信号を用いて第２のラウドネスの大きさを推定するためのラウドネス推定器を備えており、そこでのフィルタリングされた混合信号は、直接信号成分と残響信号成分との重畳から導出されたものである。本装置は、さらに、残響知覚レベルの大きさ（１１２）を得るために、第１及び第２のラウドネスの大きさ（１０６、１０８）を結合するためのコンバイナ（１１０）を備えている。
【選択図】図１

Description

本発明は、オーディオ信号処理に関し、具体的には、人工的残響装置において使用可能なオーディオ処理に関する。

残響知覚レベルの大きさ（measure）の決定が求められるのは、例えば、人工的残響プロセッサが自動化された方法で動作され、かつ残響の知覚レベルが目標値に一致するようにそのパラメータを入力信号へ適合化する必要のある用途に対してである。残響という用語は、一般に受け入れられている定義と同じ主題を暗示するが、そうではない点に留意されたい。その一般に受け入れられている定義は、聞き取りテストと予測シナリオにおける定量的な大きさとしての使用を困難にするものである。

人工的残響プロセッサは、線形で時間的に不変のシステムとして構成され、直接音対残響音比（ＤＲＲ：direct-to-reverberation ratio）を制御するために、図６に示されているように、プリディレイｄ、残響インパルス応答（ＲＩＲ：reverberation impulse response）及び倍率（scaling factor）ｇをもつ送信−戻り信号経路において動作させられることが多い。パラメトリックな残響プロセッサとして構成される場合、それらの残響プロセッサは、例えばＲＩＲの形状と密度を制御する様々なパラメータ、及び１つ又は複数の周波数帯域におけるマルチチャネルプロセッサのＲＩＲのチャネル間コヒーレンス（ＩＣＣ：inter-channel coherence）を特徴とする。

図６は、入力６００において入力される直接信号ｘ［ｋ］を示し、この信号は加算器６０２へ転送されて重み付け器６０４から出力される残響信号成分ｒ［ｋ］へ加算される。重み付け器６０４は、その第１の入力において残響フィルタ６０６により出力される信号を受信し、その第２の入力において利得係数ｇを受信する。残響フィルタ６０６はその上流に接続される任意の遅延ステージ６０８をもつことができるが、残響フィルタ６０６はそれ自体が幾分かの遅延を含むという事実によって、ブロック６０８内での遅延は残響フィルタ６０６に包含させることができ、したがって、図６における上側の分岐は、遅延と残響を組み込んだ単一のフィルタを備えるだけ、又は如何なる遅延も追加されない残響を組み込むだけとすることができる。フィルタ６０６によって残響信号成分が出力され、この残響信号成分は乗算器６０６により利得係数ｇに応答して修正されて操作された残響信号成分ｒ［ｋ］を得ることができる。操作された残響信号成分ｒ［ｋ］は、次に、入力６００に入力された直接信号成分と結合され、最終的に、加算器６０２の出力において混合信号ｍ［ｋ］が得られる。「残響フィルタ」という用語は、人工的残響に共通の実施形態（ＦＩＲフィルタリングに等しい畳み込みとして、又は再帰構造を用いる実施形態、例えばフィードバック遅延ネットワーク、全域通過フィルタとフィードバック・コム・フィルタのネットワーク、もしくは他の再帰フィルタ等として）を指すが、残響信号を生成する一般的な処理を指すことに留意されたい。このような処理は、非線形処理又は時間的に変化する処理、例えば信号の振幅又は遅延長さの低周波数変調等を含むすることができる。これらの事例において、「残響フィルタ」という用語は、厳密な技術的意味合いでは、線形で時間的に不変（ＬＴＩ：Linear Time Invariant）なシステムには当てはまらないであろう。実際には、「残響フィルタ」は残響信号を出力する処理を指し、それは計算又は記録された残響信号をメモリから読み取る機構を含む可能性がある。

これらのパラメータは、知覚レベル、距離、部屋のサイズ、音調及び音質に関して、結果的に生じるオーディオ信号に影響を及ぼす。さらに、残響の知覚特性は、入力信号の時間特性とスペクトル特性に依存する（非特許文献１参照）。極めて重要な感覚、すなわちラウドネス（loudness）に注目すると、知覚される残響のラウドネスは、入力信号の非定常性に単調に関連することを観察することができる。直観的に言えば、包絡線が大きく変化するオーディオ信号は、残響を高レベルで励起し、残響をより低いレベルで可聴にすることができる。デシベル単位で表現される長期ＤＲＲが正である典型的なシナリオでは、そのエネルギー包絡線が増大する場面で直接信号が残響信号をほぼ完全にマスクすることができる。一方、信号が終了する度に、（最大２００ｍｓでの）ポストマスキングのスロープと聴覚系の（適度のレベルについては最大２００ｍｓでの）積分時間によって決定される最小持続時間を超える間隙において、先に励起された残響の尾部が現れる。

これを例示するために、図４Ａは合成オーディオ信号と人工的に生成された残響信号の時間信号包絡線を示し、図４Ｂはラウドネスの計算モデルによって計算された予測ラウドネス関数と予測部分ラウドネス関数を示す。ここでは、５０ｍｓの短いプリディレイをもつＲＩＲを使用し、早期反射を除外し、指数関数的に減衰するホワイトノイズをもつ残響の後期部分を合成している（非特許文献２参照）。入力信号は、短い減衰をもつ第１の事象と長い減衰をもつ第２の事象とが知覚されるように、高調波広帯域信号と包絡線関数から生成されている。長い事象はより多くの合計残響エネルギーを生成するが、より多くの残響として知覚されるのが短い音であることについては驚くに当たらない。より長い事象の減衰する勾配が残響をマスキングする場合、短い音は、残響が生まれる前に既に消滅し、これにより、残響が知覚される間隙が開いている。ここで用いるマスキングの定義は、完全なマスキングと部分的なマスキングの双方を含んでいることに留意されたい（非特許文献３参照）。

このような観察は何回も行われている（非特許文献４、５、６参照）が、それらを強調することにはなお意義がある。というのは、このような観察は、部分ラウドネスのモデルをこの研究の状況に当て嵌めることができる理由を定性的に説明することになるからである。実際に、残響の知覚は、聴覚系におけるストリーム分離プロセスから発生することが指摘されており（非特許文献４、５、６参照）、直接信号による残響の部分的なマスキングにより影響される。

上述の考察は、ラウドネス・モデルの使用に動機付けをする。関連の調査はLeeらによって実行され、ＲＩＲを直接聞くときのＲＩＲの主観的な減衰速度の予測（非特許文献７参照）と、残響に対する再生レベルの効果（非特許文献８参照）に注目している。非特許文献９では、ラウドネスに基づく早期減衰時間を用いる残響の予測器が提案されている。その研究に対して、本明細書において提案する予測方法は、直接信号と残響信号を部分ラウドネスの計算モデルを用いて（低複雑性の実施形態の探索ではその簡易版を用いて）処理し、これにより、入力（直接）信号の感覚に対する影響を考察する。最近では、TsilfidisとMourjopoulusが、単チャネルレコーディングにおける後期残響抑止のためのラウドネス・モデルの使用について研究している（非特許文献１０）。直接信号の推定値が残響入力信号からスペクトル減算法を用いて計算され、残響マスキング指数が聴覚マスキング計算モデルによって導出される。聴覚マスキング計算モデルは残響処理を制御するものである。

知覚の観点から音をよりよくするために残響を加えることは、マルチチャネル合成器及び他の装置の特徴である。一方、発生される残響は人工的信号であり、低レベルで信号に付加されるとほとんど聴き取れず、かつ高レベルで付加されると不自然で不快な音の最終混合信号となる。事態をさらに悪化させるものは、図４Ａ及び図４Ｂの状況において論じたように、残響の知覚レベルが信号に強く依存しているということ、したがって所定の残響フィルタがある種の信号に対しては極めて良好に作用する場合もあるが、異なる種類の信号に対しては、聴覚的効果をもたないか、又はさらに悪くは重大な可聴アーティファクトを発生する可能性があるということである。

残響に関連するさらなる問題は、残響づけられた（reverberated）信号が人等の実体又は個体の耳に対するものであり、かつ直接信号成分と残響信号成分をもつ混合信号を発生することの最終目的が、この混合信号又は「残響づけられた信号」を実体がよい響き、又は自然な響きとして知覚することにある点である。しかしながら、聴覚知覚機構又は音が個体によって実際に知覚される機構は、人の聞き取り能力が機能する帯域のみならず、帯域内の信号処理に関しても極めて非線形的である。さらに、人による音の知覚は、例えばデジタルサンプルを２乗することによって計算されることが可能な音圧レベルによってさほど導かれないが、それよりもラウドネスの感覚によってより多く制御されることが知られている。さらに、直接成分及び残響信号成分を含む混合信号の場合、残響成分のラウドネスの感覚は、直接信号成分の種類のみならず、直接信号成分のレベル又はラウドネスにも依存する。

したがって、実体の聴覚知覚機構に関連する上述の問題点に対処するために、直接信号成分及び残響信号成分よりなる信号における残響知覚レベルの大きさを決定することが必要とされている。

[1] A. Czyzewski, "A method for artificial reverberation quality testing," J. Audio Eng. Soc., vol. 38, pp. 129-141, 1990. [2] J.A. Moorer, "About this reverberation business," Computer Music Journal, vol. 3, 1979. [3] B. Scharf, "Fundamentals of auditory masking," Audiology, vol. 10, pp. 30-40, 1971. [4] W.G. Gardner and D. Griesinger, "Reverberation level matching experiments," in Proc. of the Sabine Centennial Symposium, Acoust. Soc. of Am., 1994. [5] D. Griesinger, "How loud is my reverberation," in Proc. Of the AES 98th Conv., 1995. [6] D. Griesinger, "Further investigation into the loudness of running reverberation," in Proc. of the Institute of Acoustics (UK) Conference, 1995. [7] D. Lee and D. Cabrera, "Effect of listening level and background noise on the subjective decay rate of room impulse responses: Using time varying-loudness to model reverberance," Applied Acoustics, vol. 71, pp. 801-811, 2010. [8] D. Lee, D. Cabrera, and W.L. Martens, "Equal reverberance matching of music," Proc. of Acoustics, 2009. [9] D. Lee, D. Cabrera, and W.L. Martens, "Equal reverberance matching of running musical stimuli having various reverberation times and SPLs," in Proc. of the 20th International Congress on Acoustics, 2010. [10] A. Tsilfidis and J. Mourjopoulus, "Blind single-channel suppression of late reverberation based on perceptual reverberation modeling," J. Acoust. Soc. Am, vol. 129, pp. 1439-1451, 2011. [11] B.C.J. Moore, B.R. Glasberg, and T. Baer, "A model for the prediction of threshold, loudness, and partial loudness," J. Audio Eng. Soc., vol. 45, pp. 224-240, 1997. [12] B.R. Glasberg and B.C.J. Moore, "Development and evaluation of a model for predicting the audibility of time varying sounds in the presence of the background sounds," J. Audio Eng. Soc., vol. 53, pp. 906-918, 2005. [13] J. Paulus, C. Uhle, and J. Herre, "Perceived level of late reverberation in speech and music,"in Proc. of the AES 130th Conv., 2011. [14] J.L. Verhey and S.J. Heise, "Einfluss der Zeitstruktur des Hintergrundes auf die Tonhaltigkeit und Lautheit des tonalen Vordergrundes (in German)," in Proc. of DAGA, 2010. [15] C. Bradter and K. Hobohm, "Loudness calculation for individual acoustical objects within complex temporally variable sounds," in Proc. of the AES 124th Conv., 2008. [16] International Telecommunication Union, Radiocommunication Assembly, "Algorithms to measure audio programme loudness and true-peak audio level," Recommendation ITU-R BS. 1770, 2006, Geneva, Switzerland. [17] S. Hase, A. Takatsu, S. Sato, H. Sakai, and Y. Ando, "Reverberance of an existing hall in relation to both subsequent reverberation time and SPL," J. Sound Vib., vol. 232, pp. 149-155, 2000. [18] D. Griesinger, "The importance of the direct to reverberant ratio in the perception of distance, localization, clarity, and envelopment," in Proc. of the AES 126th Conv., 2009. [19] C. Uhle, A. Walther, O. Hellmuth, and J. Herre, "Ambience separation from mono recordings using Non-negative Matrix Factorization," in Proc. of the AES 30th Conf., 2007.

したがって、本発明の１つの目的は、残響知覚レベルの大きさを決定するための装置又は方法を提供すること、又は、オーディオ信号を処理する、向上した特性をもつオーディオプロセッサ又は方法を提供することにある。

この目的は、請求項１に記載の残響知覚レベルの大きさを決定するための装置、請求項１０に記載の残響知覚レベルの大きさを決定するための方法、請求項１１に記載のオーディオプロセッサ、請求項１４に記載のオーディオ信号を処理する方法又は請求項１５に記載のコンピュータプログラムによって達成される。

本発明は、信号における残響知覚レベルの大きさは、実体の聴覚知覚機構をモデル化するために知覚フィルタを用いて、直接信号成分、残響信号成分又は混合信号成分をフィルタリングするための知覚フィルタステージを備えたラウドネス・モデル・プロセッサにより決定される、という事実認定にに基づいている。知覚的にフィルタリングされた信号に基づいて、ラウドネス推定器が、フィルタリングされた直接信号を用いて第１のラウドネスの大きさを推定し、かつフィルタリングされた残響信号又はフィルタリングされた混合信号を用いて第２のラウドネスの大きさを推定する。次に、コンバイナが、第１のラウドネスの大きさと第２のラウドネスの大きさとを結合して、残響知覚レベルの大きさを得る。具体的には、２つの異なるラウドネスの大きさを好ましくは差分を計算することによって結合する方法は、残響の感覚が直接信号又は混合信号の感覚に比べてどの程度強力であるかの定量的な値又は大きさを生成する。

ラウドネスの大きさの計算に際しては、ラウドネスの絶対的大きさを用いることができ、具体的には、直接信号、混合信号又は残響信号のラウドネスの絶対的大きさを用いることができる。また、ラウドネス・モデルにおいて、第１のラウドネスの大きさが直接信号を励振とし残響信号をノイズとして用いることにより決定され、かつ第２のラウドネスの大きさが残響信号を励振とし直接信号をノイズとして用いることにより計算される場合には、部分ラウドネスも計算することができる。具体的には、これらの２つの大きさをコンバイナにおいて結合することにより、残響の知覚レベルの有益な大きさが得られる。このような有益な大きさは、単に単一のラウドネスの大きさを発生することからは決定できないこと、例えば、直接信号のみを用いるか、又は混合信号のみもしくは残響信号のみを用いることからは決定できないことが発明者達によってわかった。代わりに、人の聴力の相互依存性によって、これらの３信号の何れかから相違して導出された大きさを結合することにより、信号における残響の知覚レベルは、高精度に決定又はモデル化することができる。

好ましくは、ラウドネス・モデル・プロセッサは、時間／周波数変換を提供し、かつ耳伝達関数を、人の聴力において実際に発生し、かつ聴覚モデルによりモデル化された励起パターンと共に認識する。

好適な実施形態において、残響知覚レベルの大きさは予測器へ転送され、予測器は残響の知覚レベルを実際にソーンスケール（Sone-scale）等の有用な尺度で出力する。この予測器は、好ましくは聞き取りテストのデータによってトレーニングされ、かつ好適な線形予測器の予測器パラメータは、定数項及び倍率を含む。その定数項は、好ましくは、実際に使用される残響フィルタの特性に依存し、一実施形態においては、残響フィルタ特性パラメータＴ₆₀に依存する。その残響フィルタ特性パラメータＴ₆₀は、人工的残響装置に使用される簡単な周知の残響フィルタで使用できる。しかしながら、この特性が知られていない場合でも、例えば、残響信号成分を別個には入手できないが、本発明装置での処理の前に残響信号成分が混合信号から分離されている場合には、定数項の推定値を導出することができる。

次に、本発明の好適な実施形態を、添付の図面に関連して説明する。

図１は残響知覚レベルの大きさを決定するための装置又は方法を示すブロックである。図２Ａはラウドネス・モデル・プロセッサの好適な一実施形態を示す。図２Ｂはラウドネス・モデル・プロセッサのさらなる好適な実装を示す。図３はラウドネス・モデル・プロセッサのさらなる好適な実装を示す。図４Ａは時間信号包絡線の例を示す。図４Ｂは対応するラウドネスと部分ラウドネスの例を示す。図５Ａは予測器をトレーニングするための実験データに関する情報を示す。図５Ｂは予測器をトレーニングするための実験データに関する情報を示す。図６は人工的残響プロセッサを示すブロック図である。図７は本発明の実施形態の評価尺度（metrics）を表示するための表を示す。図８は人工的残響を目的として残響知覚レベルの大きさを用いるために実施されるオーディオ信号プロセッサを示す。図９は残響の時間平均知覚レベルに依存する予測器の好適な一実施形態を示す。図１０は比ラウドネスを計算するための好適な一実施形態において使用されるMoore、Grasberg、Baerの１９９７年度刊行物からの式を示す。

残響の知覚レベルは、入力オーディオ信号とインパルス応答の双方に依存する。本発明の実施形態の目的は、デジタル・オーディオエフェクトにおいて現れる直接信号と残響信号の別々の信号経路に基づいて、この観察を定量化しかつ後期残響の知覚レベルを予測することにある。この課題へのアプローチを開発し、続いて、予測結果に対する残響時間の影響を考慮してこれを拡大する。これにより、聞き取りテストから導かれた実験データが示すように知覚レベルを高精度で予測することができる、２つの入力変数をもつ線形回帰モデルがもたらされる。このモデルを精巧化と計算の複雑さの度合いが異なる幾つかに変形し、それらを精度に関して比較する。用途は、オーディオ信号を自動的にミキシングするためのデジタル・オーディオエフェクトの制御を含むものである。

本発明の実施形態は、直接信号と残響インパルス応答（ＲＩＲ）が別々に利用可能である場合の音声と音楽における残響の知覚レベルの予測のために有益であるだけではない。本発明は、残響づけられた信号が発生する他の実施形態でも適用することができる。しかしながら、この例では、混合信号から直接信号成分と残響づけられた信号成分を分離するために、直接／雰囲気分離器、又は直接／残響分離器が含まれることになる。よって、このようなオーディオプロセッサは、より良い音の残響づけられた信号又はより良い音の混合信号を発生させるためにこの信号における直接／残響比を変更するのに有益となる。

図１は、直接信号成分又はドライ信号成分１００と残響信号成分１０２とを含む混合信号における残響知覚レベルの大きさを決定するための装置を示す。ドライ信号成分１００と残響信号成分１０２は、ラウドネス・モデル・プロセッサ１０４へ入力される。ラウドネス・モデル・プロセッサは、直接信号成分１００を残響信号成分１０２を受信するように構成され、さらに、図２Ａに示されているように、知覚フィルタステージ１０４ａと後続のラウドネス計算器１０４ｂとを備えている。ラウドネス・モデル・プロセッサは、その出力において、第１のラウドネスの大きさ１０６と第２のラウドネスの大きさ１０８を発生する。双方のラウドネスの大きさは、第１のラウドネスの大きさ１０６と第２のラウドネスの大きさ１０８とを結合するためのコンバイナ１１０へ入力され、最終的に、残響知覚レベルの大きさ１１２が取得される。実施によっては、知覚レベルの大きさ１１２は予測器１１４へ入力させることができる。予測器１１４は、図９の状況において論じるように、異なる信号フレームについて知覚されたラウドネスのための少なくとも２つの大きさの平均値に基づいて残響の知覚レベルを予測するものであるが、図１の予測器１１４は必須でないだけでなく、実際には、知覚レベルの大きさは、ラウドネスに関連する定量的値を与えることに有益な、所定の値の範囲又は単位の範囲、例えばソーン単位の範囲に変換される。しかしながら、知覚レベルの大きさ１１２が予測器１１４によって処理されない他の使用法も可能であり、例えば図８のオーディオプロセッサで使用することができる。図８のオーディオプロセッサは、予測器１１４により出力される値に必ずしも依存する必要はなく、知覚レベルの大きさ１１２を直接処理することができる。その直接処理は、直接形式でなされるか、好ましくは、ある種の平滑化された形式、又は後に論じるように図６もしくは図８に示されているある種の利得係数ｇでなされる。その平滑化された形式では、残響づけられた信号の補正でレベルが大きく変化しないように時間的に平滑化されることが好ましい。

具体的には、知覚フィルタステージは直接信号成分、残響信号成分又は混合信号成分をフィルタリングするように構成されており、この場合、知覚フィルタステージは人等の実体がフィルタリングされた直接信号、フィルタリングされた残響信号又はフィルタリングされた混合信号を得る聴覚知覚機構をモデル化するように構成されている。実施によっては、知覚フィルタステージは、並列して動作する２つのフィルタを備えてもよく、又は、全く同一のフィルタが３つの信号、すなわち残響信号、混合信号及び直接信号の各々をフィルタリングするために事実上使用できることから、１つの記憶装置と単一のフィルタとを備えることできる。ここでは、しかし、図２Ａは聴覚知覚機構をモデル化するｎ個のフィルタを示しているが、実際には残響信号成分、混合信号成分及び直接信号成分を含むグループからの２つの信号をフィルタリングする２つのフィルタ又は単一のフィルタで十分であることに留意されるべきである。

ラウドネス計算器１０４ｂ又はラウドネス推定器は、フィルタリングされた直接信号を用いて第１のラウドネス関連の大きさを推定し、かつフィルタリングされた残響信号又はフィルタリングされた混合信号を用いて第２のラウドネスの大きさを推定するように構成されている。ここで、混合信号は、直接信号成分と残響信号成分の重畳から導出されるものである。

図２Ｃは、残響知覚レベルの大きさを計算する４つの好適な様式を示す。実施形態１は、部分ラウドネスに依存するものであって、ラウドネス・モデル・プロセッサにおいて直接信号成分ｘと残響信号成分ｒの両方が使用されるが、第１の大きさＥＳＴ１を決定するために、残響信号が励振として、かつ直接信号がノイズとして使用される。第２のラウドネスの大きさＥＳＴ２の決定に際しては、状況が変わり、直接信号成分が励振として、かつ残響信号成分がノイズとして使用される。そして、コンバイナにより発生される補正の知覚レベルの大きさは、第１のラウドネスの大きさＥＳＴ１と第２のラウドネスの大きさＥＳＴ２との差である。

しかしながら、この他にも計算効率的な実施形態がさらに存在し、図２Ｃの２行目、３行目及び４行目に示されている。これらのより計算効率的な方法は、混合信号ｍ、直接信号ｘ及び残響信号ｎからなる３つの信号の合計ラウドネスを計算することに依存する。コンバイナが実行し図２Ｃの最終欄に示されている計算は、要請によっては、第１のラウドネスの大きさＥＳＴ１は混合信号又は残響信号の合計ラウドネスであり、かつ第２のラウドネスの大きさＥＳＴ２は直接信号成分ｘ又は混合信号成分ｍの合計ラウドネスであるが、実際の組合せは図２Ｃに示されている通りである。

さらなる実施形態において、ラウドネス・モデル・プロセッサ１０４は、図３でより詳細に論じるように、周波数領域において動作している。このような状況において、ラウドネス・モデル・プロセッサ、及び具体的にはラウドネス計算器１０４ｂは、帯域毎に第１の大きさと第２の大きさを生成する。ｎ個全ての帯域にわたるこれらの第１の大きさは、続いて第１の分岐用の加算器１０４ｃと第２の分岐の加算器１０４ｄにおいて加算又は互いに結合され、最終的に広帯域信号の第１の大きさと広帯域信号の第２の大きさが得られる。

図３は、図１、図２Ａ、図２Ｂ、図２Ｃに関連する幾つかの態様において既に論じたラウドネス・モデル・プロセッサの好適な実施形態を示す。具体的には、知覚フィルタステージ１０４ａは分岐毎に時間−周波数変換器３００を備えている。図３の実施形態において、ｘ［ｋ］は励振を指し、かつｎ［ｋ］はノイズを指す。時間／周波数変換された信号は、耳伝達関数ブロック３０２へ転送され（あるいは、耳伝達関数は時間−周波数変換器に先行して計算されて同様の結果を得ることができるが、計算負荷が高くなることに留意されたい）、このブロック３０２の出力は励起パターン計算ブロック３０４へ入力され、励起パターン計算ブロック３０４の出力は時間積分ブロック３０６へ入力される。次に、ブロック３０８において、この実施形態における比ラウドネスが計算される。ブロック３０８は、図２Ａのラウドネス計算器ブロック１０４ｂに相当する。続いて、ブロック３１０において周波数上の積分が実行される。ブロック３１０は、図２Ｂにおいて１０４ｃ及び１０４ｄとして既に述べた加算器に相当する。ブロック３１０が、励振とノイズの第１のセットのための第１の大きさ、及び励振とノイズの第２のセットのための第２の大きさを発生することは留意されるべきである。具体的には、図２Ｂの考察に当たって、第１の大きさを計算する際の励振は残響信号であり、ノイズは直接信号であるが、第２の大きさを計算する際には状況が変わり、励振は直接信号成分、ノイズは残響信号成分である。したがって、２つの異なるラウドネスの大きさを発生するために、図３に示されている手順は２回実行されている。しかしながら、計算の変更は、図１０の状況においてさらに論じるように異なった動作をするブロック３０８において発生するのみであり、よって、ブロック３００からブロック３０６までに示されているステップは一度だけ実行されればよく、時間積分ブロック３０６の結果は、図２Ｃにおける実施形態１について第１の推定されたラウドネスと第２の推定されたラウドネスを計算するために保持することができる。図３Ｃにおける他の実施形態２、３、４の場合、ブロック３０８は、分岐毎に「合計ラウドネスを計算する」という個々のブロックで置換されることは留意されるべきであるが、この実施形態において、ある信号が励振と考えられるかノイズと考えられるかは重要ではない。

続いて、図３に示すラウドネス・モデルをさらに詳細に論じる。

図３におけるラウドネス・モデルの実行は非特許文献１１、１２における記述に準じるが、後に詳述するような修正がある。予測のトレーニング及び検証は、非特許文献１３に記述され、後に簡単に要約する聞き取りテストからのデータを用いる。後期残響の知覚レベルを予測するためのラウドネス・モデルの適用についても後述する。以下に、実験結果を述べる。

このセクションでは、部分ラウドネスのモデル、残響の知覚レベルの計算予測のための基礎事実として使用された聞き取りテストデータ、及び部分ラウドネス・モデルに基づいて提案している予測方法の実施について述べる。

ラウドネス・モデルは、信号ｘ[ｋ]がマスキング信号ｎ[ｋ]と同時に生じる場合の信号ｘ[ｋ]の部分ラウドネスＮ_x,n[ｋ]を計算する。
Ｎ_x,n[ｋ]＝ｆ(ｘ[ｋ],ｎ[ｋ]) （１）

初期のモデルは、定常背景ノイズにおけるラウドネスの知覚を取り扱っているが、研究の中には、共変調ランダムノイズ（非特許文献１４参照）、複合環境音（非特許文献１２参照）及び音楽信号（非特許文献１５参照）の背景におけるラウドネスの知覚に関するものも存在する。図４Ｂは、図４Ａに示されている信号例の成分の合計ラウドネスと部分ラウドネスであって本明細書で使用しているラウドネス・モデルによって計算されたものを示す。

この研究に使用したモデルは、非特許文献１１、１２におけるモデルに類似するものであり、それ自体、Fletcher、Munson、Stevens及びZwickerによる先の研究を利用し、後述するような幾つかの修正が加えられている。ラウドネス・モデルのブロック図は図３に示されている。入力信号は、周波数領域において、短時間フーリエ変換（ＳＴＦＴ：Short-time Fourier transform）を用いて処理される。非特許文献１２では、全ての周波数において周波数分解能と時間分解能が人聴覚系のそれと良好に整合するように、長さの異なる６つのＤＦＴが使用されている。本研究では、計算効率のために、サンプリング速度４８ｋＨｚにおけるフレーム長さ２１ｍｓ、オーバーラップ５０％及びハン（Hann）窓関数をもつＤＦＴ長さを１つだけ用いる。外耳と中耳を介する伝達は、固定フィルタを用いてシミュレートする。励起関数は、等価矩形帯域幅（ＥＲＢ：equivalent rectangular bandwidth）尺度で離隔された４０個の聴覚フィルタ帯域について、レベル依存の励起パターンを用いて計算する。ＳＴＦＴの窓処理による時間積分に加えて、励起信号が減衰する時間でのみ活性である再帰積分を時定数２５ｍｓで実行する。

比部分ラウドネス、すなわち、聴覚フィルタ帯域の各々において誘起される部分ラウドネスを、図１０に示されている方程式（１７）−（２０）（非特許文献１１）に従って、対象の信号（励振）及び干渉ノイズからの励起レベルから計算する。これらの方程式は４つの事例を包含しており、すなわち信号がノイズの聴力しきい値を超える場合、超えない場合、混合信号の励起が１００ｄＢ未満である場合、及び混合信号の励起が１００ｄＢ以上の場合である。モデルに干渉信号が供給されなければ、すなわちｎ[ｋ]＝０であれば、結果は励振ｘ[ｋ]の合計ラウドネスＮｘ[ｋ]に等しい。

具体的には、図１０は、刊行物「しきい値、ラウドネス及び部分ラウドネスの予測のためのモデル」B. C. J. Moore, B. R. Glasberg, T. Baer共著、オーディオ技術学会誌、第４５巻第４号、１９９７年４月、に記載されている方程式１７、１８、１９、２０を示す。この引例は背景音とともに生じる信号の事例を記述している。背景音はどのようなタイプの音であってもよいが、この引例では、ラウドネスが判定されるべき信号から区別するために「ノイズ」と称されている。ノイズの存在は信号のラウドネスを低減するが、これは部分的なマスキングと呼ばれる効果である。信号のラウドネスは、そのレベルがしきい値から２０〜３０ｄＢ上まで高められると急速に増大する。同論文において、ノイズ内に生じる信号の部分ラウドネスは、周波数にわたって信号の部分比ラウドネスを（ＥＲＢ尺度で）合計して計算できることが想定されている。方程式は、部分比ラウドネスを４つの限定事例を考慮して計算するように導かれている。Ｅ_SIGは信号によって誘起される励起を示し、Ｅ_NOISEはノイズによって誘起される励起を示し、Ｅ_SIG＞Ｅ_THRQ、及び(Ｅ_SIG＋Ｅ_NOISE)＜１０¹⁰であることが想定されている。合計比ラウドネスＮ'_TOTは、次式のように定義される。
Ｎ'_TOT＝Ｃ{[(Ｅ_SIG＋Ｅ_NOISE)Ｇ＋Ａ]^a−Ａ^a}

聞き手は、所定の中心周波数において信号の比ラウドネスとノイズの比ラウドネスとの間で比ラウドネスを区別化できるが、それは、合計比ラウドネス、すなわち、
Ｎ'_TOT＝Ｎ'_SIG＋Ｎ_NOISE
を選好しての区別化であることが想定されている。

部分マスキングを測定する大部分の実験では、聞き手には、まずノイズのみが聞こえ、次にノイズに加えて信号が聞こえることから、この想定には矛盾がない。しきい値より上であることが想定されるノイズのみの比ラウドネスは、
Ｎ'_NOISE=Ｃ[(Ｅ_NOISEＧ＋Ａ)^a−Ａ^a]
である。

故に、信号の比ラウドネスが、単純に合計比ラウドネスからノイズの比ラウドネスを減算することにより導出されるとすれば、結果は、
Ｎ'_SIG=Ｃ{[(Ｅ_SIG＋Ｅ_NOISE)Ｇ＋Ａ]^a−Ａ^a}−Ｃ[(Ｅ_NOISEＧ＋Ａ)^a−Ａ^a]
となる。

実際には、信号とノイズとの間で比ラウドネスが区分化される方法は、信号とノイズの相対励起に依存して変わるように思われる。

異なる信号レベルにおいて比ラウドネスがどのように割り当てられるか、を示す４つの状況について考察する。Ｅ_THRNは、正弦波信号が背景ノイズにおけるそのマスキングしきい値にあるときのその正弦波信号によって誘起されるピーク励起を表すものとする。Ｅ_SIGがＥ_THRNより遙かに小さいとき、全ての比ラウドネスはノイズに割り当てられ、よって信号の部分比ラウドネスはゼロに近づく。第２に、Ｅ_NOISEがＥ_THRQより遙かに小さいとき、部分比ラウドネスは、静寂時の信号がもつと思われる値に近づく。第３に、励起信号がそのマスキングしきい値にあるとき、すなわち励起Ｅ_THRNにあるとき、部分比ラウドネスは、絶対しきい値における信号で発生すると思われる値に等しいことが想定される。最後に、信号が狭帯域の中心に置かれ、ノイズがそのマスキングしきい値より遙かに上であるとき、信号のラウドネスはその非マスキング値に近づく。したがって、信号の部分比ラウドネスもその非マスキング値に近づく。

これらの様々な境界条件の含意するものについて考察されたい。マスキングしきい値において、比ラウドネスは静寂におけるしきい値での信号のそれに等しい。この比ラウドネスは、おそらくは信号の比ラウドネスの幾らかがノイズに割り当てられることに起因して、上述の方程式から予測されると思われるものより少ない。信号の正しい比ラウドネスを得るために、ノイズに割り当てられる比ラウドネスは係数Ｂで増大されることが想定される。但し、

である。

この係数を、上述のＮ’_SIGの方程式における第２項に当てはめると、
Ｎ'_SIG=Ｃ{[(Ｅ_SIG＋Ｅ_NOISE)Ｇ＋Ａ]^a−Ａ^a}−Ｃ{[(Ｅ_THRN＋Ｅ_NOISE)Ｇ＋Ａ]^a−(Ｅ_THRQＧ＋Ａ)^a}
となる。

信号がマスキングしきい値に存在するとき、そのピーク励起Ｅ_THRNは、ＫＥ_NOISE＋Ｅ_THRQに等しいことが想定される。但し、Ｋは、より高い妨害音（masker）レベルにおけるしきい値に要求される、聴覚フィルタの出力における信号対雑音比である。ノッチノイズを用いるマスキング実験用に取得されたＫの最近の推定値は、Ｋが超低周波数で顕著に増大し、１より大きくなることを示唆している。当該引例において、Ｋの値は、周波数の関数として推定される。その値は、低周波数における高レベルから、より高い周波数における一定の低レベルまで低下する。残念ながら、１００Ｈｚより下の中心周波数に関するＫには推定値が存在せず、よって、５０Ｈｚから１００Ｈｚまでに関する値は、上述の方程式のＥ_THRNを置換して、
Ｎ'_SIG=Ｃ{[(Ｅ_SIG＋Ｅ_NOISE)Ｇ＋Ａ]^a−Ａ^a}−Ｃ{[(Ｅ_NOISE(１＋Ｋ)＋Ｅ_THRQ)Ｇ＋Ａ]^a−(Ｅ_THRQＧ＋Ａ)^a}
となる。

Ｅ_SIG＝Ｅ_THRNのとき、この方程式は、静寂での絶対しきい値における信号のピーク比ラウドネスを特定する。

信号がそのマスキングしきい値を遙かに上回る場合、すなわち、Ｅ_SIG＞＞Ｅ_THRNのとき、信号の比ラウドネスは、背景ノイズが存在しない場合にもつはずの値に近づく。これは、ノイズに割り当てられる比ラウドネスがほとんど無であるくらいに小さくなることを意味する。これを適応させるために、上述の方程式は、比Ｅ_THRN／Ｅ_SIGに依存する項をさらに導入することにより修正される。この項は、ＥＥ_SIGが、マスキングしきい値に一致する値を超えて増大されるにつれて低下する。故に、上述の方程式は、図１０の方程式１７になる。

これは、Ｅ_SIG＞Ｅ_THRN及びＥ_SIG＋Ｅ_NOISE≦１０¹⁰のときの事例におけるＮ’_SIGの最終的な方程式である。最終項における指数０．３は、ノイズ内のトーンのラウドネスに関するデータによく適合するように信号対雑音比の関数として経験的に選ばれたものである。

次に、Ｅ_SIG＜Ｅ_THRNである状況について考察する。Ｅ_SIGがＥ_THRNよりほんの少し少ない限られた状態で、比ラウドネスは、図１０における方程式１７で与えられる値に近づく。Ｅ_SIGがＥ_THRNを遙かに下回る値まで下がると、比ラウドネスは、急激に小さくなるはずである。これは、図１０における方程式１８で表わされる。括弧内の第１項は、Ｅ_SIGがＥ_THRNを下回って下がるにつれて比ラウドネスが低下する速度を決定する。これは、式１８ではＥ_THRNが置換されていることを除いて、Ｅ_SIG＜Ｅ_THRQであるときの静寂時信号の比ラウドネスと励起との関係性を記述している。大括弧内の第１項は、Ｅ_SIGがＥ_THRNに接近するにつれて、比ラウドネスが図１０の方程式１７により規定される値に近づくことを確実にするものである。

これまでに記述した部分ラウドネスの方程式は、Ｅ_SIG＋Ｅ_NOISE＜１０¹⁰のときに当てはまる。図１０の方程式（１７）の導出に用いた同じ論法を適用すれば、図１０における方程式１９に概略が示されているように、Ｅ_NOISE≧Ｅ_THRNかつＥ_SIG＋Ｅ_NOISE＞１０¹⁰の場合の如何なる方程式も導出することができる。Ｃ₂＝Ｃ／（１．０４×１０⁶）^0.5である。同様に、図１０の方程式（１８）の導出に用いた同じ論法を適用すれば、図１０における方程式２０に概略が示されているように、Ｅ_SIG＜Ｅ_THRNかつＥ_SIG＋Ｅ_NOISE＞１０¹⁰の場合の方程式を導出することができる。

以下の点については、留意されるべきである。この先行技術が本発明に適用されるのは、第１の実行において、ＳＩＧが例えば「励振」としての直接信号に相当し、かつNoiseが例えば「ノイズ」としての残響信号又は混合信号に相当する場合である。よって、第２の実行では、図２Ｃにおける第１の実施形態について論じたように、ＳＩＧは、「励振」としての残響信号に相当し、かつ「ノイズ」は直接信号に相当することになる。よって、２つのラウドネスの大きさが得られ、これらは、次に、コンバイナによって、好ましくは差を形成することにより結合される。

後期残響の知覚レベルを予測するタスクのための記述されたラウドネス・モデルの適合性を評価するためには、聞き手の応答から生成されるグラウンドトルースを集成することが好ましい。この目的に沿って、非特許文献１３では、幾つかの聞き取りテストを集めている調査からのデータを用いている。以下にそれを簡単に要約する。各聞き取りテストは、異なる直接信号と異なる状態の人工的残響との混合を提示する複数のグラフィカル・ユーザ・インタフェース画面で構成されていた。聞き手は、この知覚された残響の量を０点から１００点までの尺度で格付けするように求められた。さらに、１０点及び９０点に２つのアンカ信号が提示された。聞き手は、知覚された残響の量を０点から１００点までの尺度で格付けするように求められた。さらに、１０点と９０点に２つのアンカ信号が提示された。これらのアンカ信号は、残響の状態が異なる同じ直接信号から生成された。

テスト項目の生成に使用された直接信号は、音声、個々の楽器及び種々のジャンルの音楽をそれぞれ約４秒間モノラルに記録したものであった。項目の大部分は、無響録音からのものであったが、もともとの残響を少し含む商業録音も使用された。

ＲＩＲは後期残響を表わし、周波数依存減衰速度を有する指数関数的に減衰するホワイトノイズを用いて発生された。減衰速度は、残響時間が、ベース残響時間Ｔ₆₀を始点として低周波数から高周波数へ向かって減少するように選ばれる。この研究では、初期反射が無視されている。残響信号ｒ［ｋ］及び直接信号ｘ［ｋ］は、ＩＴＵ−ＲＢＳ．１７７０（非特許文献１６参照）によるそれらの平均ラウドネスの大きさの比が所望されるＤＲＲに一致するように、かつ全てのテスト信号混合体が等しい長期ラウドネスをもつように、調整されて付加された。テスト参加者は全て、オーディオ分野の従業者であり、主観的な聞き取りテストに関する経験をもっていた。

予測方法のトレーニングと検証／試験に使用されたグラウンドトルース・データは、２つの聞き取りテストから入手され、各々ＡとＢで表されている。データ集合Ａは、５４個の信号に対して１４名の聞き手による評点で構成された。聞き手はテストをもう一度繰り返し、２８個の評点全てから、項目毎に平均評点が取得された。

及びプリディレイなしで、６つの異なる直接信号と９個のステレオ残響状態とを組み合わせることにより５４個の信号が生成された。

Ｂにおけるデータは、６０個の信号に対して１４名の聞き手による評点から取得された。信号は、１５個の直接信号と３６個の残響状態を用いて生成された。残響状態は、４つのパラメータ、即ちＴ₆₀、ＤＲＲ、プリディレイ及びＩＣＣ、をサンプリングした。各直接信号について４つのＲＩＲが選ばれ、２つがプリディレイをもたず他の２つが短いプリディレイ５０ｍｓをもつように、また２つがモノラル音であり他の２つがステレオ音であるように選ばれた。

続いて、図１におけるコンバイナ１１０の好適な一実施形態のさらなる特徴について論じる。

予測方法の基本的な入力特徴は、方程式（２）に従って、残響信号ｒ［ｋ］の部分ラウドネスＮ_r,x［ｋ］（直接信号ｘ［ｋ］が干渉物）と、ｘ［ｋ］のラウドネスＮ_x、r［ｋ］（この場合はｒ［ｋ］が干渉物）との差から計算される。
ΔＮ_r,x［ｋ］＝Ｎ_r,x［ｋ］−Ｎ_x,r［ｋ］（２）

方程式（２）の背後にある理論的根拠は、差分ΔＮ_r,x［ｋ］は、残響の感覚が直接信号の感覚と比較してどの程度強いかを示す大きさである、というものである。また、差分をとることは、予測結果を再生レベルに対してほぼ不変にすることも見出された。再生レベルは、調査される感覚に影響を与える（非特許文献１７、８参照）が、その程度は、再生レベルの増大に伴う部分ラウドネスＮ_r,xの増大による反映よりも僅かである。典型的には、音楽録音は、約１２から２０ｄＢの低レベルでよりも、中から高レベル（約７５〜８０ｄＢＳＰＬで始まる）において適度により反響して鳴動する。この効果は、ＤＲＲが正である事例において特に明らかであり、これは、「録音された音楽のほぼ全てに」関してその通りであるが（非特許文献１８参照）、「聞き手が臨界距離を遙かに超えて存在することが多い」コンサート音楽の全ての事例においてそうであるわけではない（非特許文献６参照）。

再生レベルの低下に伴う残響の知覚レベルの低減は、残響のダイナミックレンジは直接音のそれより小さい（又は、残響の時間−周波数表現はより密であるが、直接音の時間−周波数表現はより希薄である（非特許文献１９参照））、という事実によって最もよく説明される。このようなシナリオでは、残響信号は、聴力しきい値を超えて降下する可能性が直接音より高い。

方程式（２）は、組合せ演算として、２つのラウドネスの大きさ、Ｎ_r,x［ｋ］及びＮ_x,r［ｋ］間の差分を記述しているが、乗算、除算又はさらに加算等の他の組合せを実行することもできる。何れにしても、２つのラウドネスの大きさによって示される２つの代替案は、双方の代替案が結果に影響を与えるように組み合わされることで足りる。しかしながら、実験は、差分が結果的にモデルからの最良の値をもたらすこと、すなわちモデルの結果において差分が聞き取りテストに大いに適合することを示しており、よって、この差分は、組合せの好ましい方法である。

続いて、図１に示されている予測器１１４について詳細を述べる。これらの詳細は、好適な一実施形態を参照したものである。

以下に述べる予測方法は、線形的であり、モデル係数の計算には最小二乗適合を用いる。予測器をトレーニングしかつ試験するためのデータ集合サイズが制限され、より多い自由度をもつ回帰方法、例えばニューラルネットワークを用いる場合にモデルの過剰適合を引き起こす可能性もある状況においては、単純な構造の予測器が効果的である。

は、係数ａ_iをもつ方程式（３）に従って線形回帰により導出される。但し、Ｋは、フレーム内の信号の長さである。

本モデルは、唯一の独立変数、即ちΔＮ_r,x［ｋ］の平均をもつ。変化を追跡し、かつリアルタイム処理を実行できるように、平均の計算は漏れのある積分器を用いて概算することができる。トレーニング用データ集合Ａを用いる際に導出されるモデルパラメータは、ａ₀＝４８．２及びａ₁＝１４．０であり、ａ₀は全ての聞き手と項目の平均評点に等しい。

図５Ａは、データ集合Ａの予測された感覚を描いたものである。予測は、相関係数０．７１で聞き手の平均評点と適度に相関されることが分かる。回帰係数の選択は、この相関に影響しないことに留意されたい。下側のプロットに示されているように、同じ直接信号により発生される各混合で、点は、対角線付近を中心とする特徴的な形状を示している。この形状は、

はＲをある程度予測することができるが、評点に対するＴ₆₀の影響を反映しないことを示す。データポイントの外観検査はＴ₆₀への線形依存性を示唆する。オーディオエフェクトを制御する場合がそうであるように、Ｔ₆₀の値が既知であれば、強化予測を導出するために、線形回帰モデルへこれを容易に組み込むことができる。

データ集合Ａから導出されるモデルパラメータは、ａ₀＝４８．２、ａ₁＝１２．９、ａ₂＝１０．２である。結果は、図５Ｂにおいて、データ集合毎に分けて示されている。次のセクションでは、結果の評価についてさらに詳しく述べる。

あるいは、少なくとも２つのブロックにわたる平均が行われる限り、それより多いか又はそれより少ない数のブロックにわたる平均化を実行することも可能であるが、一次方程式の理論によって、所定のフレームまでの全音楽ピースにわたる平均化が実行されるときに最良の結果を得ることができる。しかしながら、リアルタイム用途では、実際の用途に応じて、平均化を行うフレームの数を減らすことが好ましい。

さらに、図９は、定数項がａ₀及びａ₂・Ｔ₆₀によって規定されることを示している。２番目の項ａ₂・Ｔ₆₀は、この方程式を単一の残響装置、即ち図６のフィルタ６００が変更されない状況にだけでなく適用するポジションに存在するように選択されている。したがって、無論定数項であるが、図６の実際に使用される残響フィルタ６０６に依存するこの方程式は、他の値のＴ₆₀をもつ他の残響フィルタに全く同じ方程式を用いる柔軟性を与える。この技術分野では既知であるように、Ｔ₆₀は所定の残響フィルタを記述するパラメータであり、具体的には、残響エネルギーが初期の最大残響エネルギー値から６０ｄＢだけ低減されていることを意味する。典型的には、残響曲線は時間と共に低下し、故に、Ｔ₆₀は、信号励起により発生される残響エネルギーが６０ｄＢだけ低減した時間期間を示す。Ｔ₆₀を類似情報（ＲＩＲの長さ情報）を表すパラメータ、例えばＴ₃₀、で置換することにより、予測精度に関して同様の結果が得られる。

以下、聞き手の平均評点と予測された感覚との間の相関係数ｒ、平均絶対誤差（ＭＡＥ：mean absolute error）及び二乗平均平方根誤差（ＲＭＳＥ：root mean squared error）を用いてモデルを評価する。実験は二重の相互検証として実行される。すなわち、予測器がデータ集合Ａによってトレーニングされてデータ集合Ｂによって試験され、さらにデータ集合Ｂによるトレーニングとデータ集合Ａによる試験で実験が繰り返される。双方の実行から取得される評価尺度は、トレーニング及び試験について別々に平均される。

予測モデル

及び

に関する結果が表１に示されている。予測因子

は、ＲＭＳＥが１０．６という精確な結果をもたらしている。項目毎の個別の聞き手による評点の標準偏差の平均は、（項目毎の全ての聞き手による評点の）平均からの分散の大きさとして、データ集合Ａでは

データ集合Ｂでは

として与えられる。ＲＭＳＥとの比較は、

が聞き取りテストにおける平均的な聞き手と少なくとも同じ精度であることを示している。

これらのデータ集合の予測精度は、僅かに相違し、例えば、

の場合、ＭＡＥ及びＲＭＳＥは共に、データ集合Ａで試験する場合は平均値（表に記載）より約１ポイント低く、データ集合Ｂで試験する場合は平均より１ポイント高い。トレーニング及び試験の評価尺度が同等であるということは、予測器の過剰適合が回避されていることを指す。

このような予測モデルを経済的に実装しやすくするために、以下の実験は、計算の複雑さをより少なくしたラウドネス特徴の使用が予測結果の精度にどのように影響するかを調べる。その実験は、部分ラウドネスの計算を合計ラウドネスの推定で置換することと、励起パターンの簡略化した実施に焦点を合わせている。

部分ラウドネスの差分ΔＮ_r,x［ｋ］を用いる代わりに、方程式（５）〜方程式（７）で各々示されているように、合計ラウドネス推定値の３つの差分を調べる。但し、直接信号のラウドネスはＮ_x［ｋ］、残響のラウドネスはＮ_r［ｋ］、混合信号のラウドネスはＮ_m［ｋ］である。
ΔＮ_m-x［ｋ］＝Ｎ_m［ｋ］−Ｎ_x［ｋ］（５）

方程式（５）は、残響信号の知覚レベルは、ドライ信号へ残響を付加することによって引き起こされる全体ラウドネスの差分（増大）として表すことができるという仮定に基づいている。

方程式（２）における部分ラウドネスの差分に関する同様の理論的根拠に従って、残響信号の合計ラウドネスと混合信号又は直接信号各々との差分を用いるラウドネス特徴が方程式（６）と方程式（７）において規定されている。感覚を予測するための大きさは、別々に聴き取られる場合の残響信号のラウドネスとして導出される。ここで、負の項は、各々部分マスキングをモデル化するためと、混合信号又は直接信号から導出される再生レベルを正規化するためのものである。
ΔＮ_r-m［ｋ］＝Ｎ_r［ｋ］−Ｎ_m［ｋ］（６）
ΔＮ_r-x［ｋ］＝Ｎ_r［ｋ］−Ｎ_x［ｋ］（７）

表２は、これらの特徴により合計ラウドネスと残響に基づいて得られた結果を示し、かつ実際には、これらのうちの２つ、すなわちΔＮ_m-x［ｋ］とΔＮ_r-x［ｋ］が

とほぼ同じ精度の予測をもたらすことを明らかにしている。しかし、表２に示されているように、ΔＮ_r-n［ｋ］でも、結果に見合う使用を与えている。

最後に、追加の実験において、広がり関数を実装する影響が調査される。これは、多くの用途シナリオにとって特に重大である。というのは、レベル依存励起パターンの使用は、高い計算複雑性の実装を要求するからである。

の場合と同様の処理を行い、広がりなしの１つのラウドネス・モデルと、レベル不変の広がり関数をもつ１つのラウドネス・モデルとを用いた実験は、表２に示されている結果を導いた。広がりの影響は無視できるように見える。

したがって、図２Ｃの実施形態２、３、４を示す方程式（５）、（６）及び（７）は、異なる組合せの信号成分又は信号について、部分ラウドネスなしでも、合計ラウドネスを用いれば、同様に、混合信号における残響の知覚レベルのための良好な値又は大きさが得られることを示している。

続いて、残響知覚レベルの大きさを決定する本発明の好適な適用を、図８について論じる。図８は、入力８００において入力される直接信号成分から残響づけられた信号を発生するためのオーディオプロセッサを示す。直接又はドライ信号成分は、残響装置８０１へ入力される。残響装置８０１は、図６における残響装置６０６に類似するものとすることができる。入力８００のドライ信号成分は、さらに、知覚されるラウドネスの大きさを決定する装置８０２へ入力される。その装置８０２は、図１、図２Ａ及び図２Ｃ、図３、図９及び図１０に関して論じたように実現することができる。装置８０２の出力は、混合信号における残響知覚レベルの大きさＲであり、これがコントローラ８０３へ入力される。コントローラ８０３は、さらなる入力において残響の知覚レベルの大きさに対する標的値を受信し、かつこの標的値及び実測値Ｒからさらに、出力の値８０４を計算する。

この利得値はマニピュレータ８０５へ入力される。マニピュレータ８０５は、この実施形態では残響装置８０１により出力される残響信号成分８０６を操作するように構成されている。図８に示されているように、装置８０２は、さらに、知覚されるラウドネスの大きさを決定する装置を記述している図１及び他の図に関して述べられているように、残響信号成分８０６も受信する。マニピュレータ８０５の出力は加算器８０７へ入力される。この場合、図８の実施形態では、マニピュレータの出力は操作された残響成分を含み、加算器８０７の出力は、標的値により決定された知覚される残響をもつ混合信号８０８を示す。コントローラ８０３は、フィードバック制御のためにこの分野で規定された任意の制御規則を実行するように構成することができる。その場合、標的値は設定値であり、装置８０２により生成される値Ｒは実測値であり、そして利得８０４は実測値Ｒがコントローラ８０３へ入力される標的値に近似するように選択される。図８では、マニピュレータ８０５が具体的には乗算器又は重み付け器を備え、残響信号がマニピュレータ８０５における利得によって操作されるように示されているが、他の実施形態も実現できる。他の実施形態の１つでは、例えば、残響信号８０６ではなく、任意のライン８０９が示すようにドライ信号成分がマニピュレータによって操作される。この場合、残響装置８０１により出力され操作されない残響信号成分は、任意のライン８１０が示すように、加算器８０７へ入力されることになる。当然ながら、加算器８０７により出力される混合信号８０８内に所定の大きさの知覚される残響ラウドネスを導入又は設定するためには、ドライ信号成分及び残響信号成分の操作も実行される可能性がある。他の実施形態の１つでは、例えば残響時間Ｔ₆₀が操作される。

本発明は、計算複雑性が様々であるラウドネス・モデルを用いて、残響、具体的には音声と音楽における後期残響、の知覚レベルの単純かつロバストな予測を提供するものである。予測モジュールは、３つの聞き取りテストから導出される主観的データを用いてトレーニングされかつ評価されている。開始点として、部分ラウドネス・モデルの使用は、図６のＲＩＲ６０６のＴ₆₀が既知である場合に、高精度の予測モデルとなっている。部分ラウドネスのモデルが、図１０に関して論じたような直接音と残響音の励振によって独自に開発されたものではないことを考えると、この結果は、知覚的観点からも興味深い。予測方法の入力特徴の計算に対する後続の修正は、手近なデータ集合に対して比肩し得る性能を達成することが示された一連の簡易モデルに繋がる。これらの修正には、合計ラウドネスのモデル及び単純化された広がり関数の使用が含まれていた。また、本発明の実施形態は、初期反射とより大きいプリディレイを含む、より多様なＲＩＲにも適用できる。また、本発明は、他のタイプの追加又は残響オーディオエフェクトの知覚されるラウドネスの寄与を決定しかつ制御するためにも有益である。

態様の中には装置に関して説明されているものがあるが、これらの態様が対応する方法の説明をも表すことは明らかであって、ブロック又はデバイスは方法ステップ又は方法ステップの特徴に相当する。同様に、方法ステップに関して説明されている態様も、対応する装置の対応するブロック又はアイテム又は特徴を表す。

所定の実施の要件によって、本発明の実施形態は、ハードウェアでもソフトウェアでも実施することができる。その実施はデジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はフラッシュメモリ、を用いて実行することができる。そのようなデジタル記憶媒体は、個々の方法が実行されるようにプログラム可能コンピュータシステムと共働する（又は共働することができる）電子的に読取り可能な制御信号を格納している。

本発明による幾つかの実施形態は、本明細書に記述されている方法のうちの１つが実行されるようにプログラム可能コンピュータシステムと共働することができる電子的に読取り可能な制御信号をもつ非一時的な又は有形のデータキャリアを含む。

一般に、本発明の実施形態は、プログラムコードをもつコンピュータプログラム製品として実施することができる。そのプログラムコードは、このコンピュータプログラム製品がコンピュータ上で実行されると本発明の方法のうちの１つを実行するように動作可能である。そのプログラムコードは、例えば、機械読取り可能キャリア上に格納することができる。

他の実施形態は、機械読取り可能キャリア上に格納され、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを含む。

したがって、言い替えれば、本発明的方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されると本明細書に記述されている方法のうちの１つを実行するためのプログラムコードをもつコンピュータプログラムである。

したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを記録して備えているデータキャリア（又は、デジタル記憶媒体又はコンピュータ読取り可能媒体）である。

したがって、本発明的方法のさらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムを表すデータストリーム又は信号シーケンスである。そのデータストリーム又は信号シーケンスは、例えば、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するように構成又は適合化された処理手段、例えばコンピュータ、又はプログラマブル論理デバイスを含む。

さらなる実施形態は、本明細書に記述されている方法のうちの１つを実行するためのコンピュータプログラムをインストールしているコンピュータを含む。

幾つかの実施形態において、プログラマブル論理デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を、本明細書に記述されている方法の機能のうちの幾つか又は全てを実行するために使用することができる。幾つかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、本明細書に記述されている方法のうちの１つを実行するために、マイクロプロセッサと共働することができる。一般に、本発明方法は、好ましくは任意のハードウェア装置によって実行することができる。

これまでに述べた実施形態は、単に、本発明の原理を例示するものである。本明細書に記述されている装置及び詳細の修正及び変形が、他の当業者に明らかとなることは理解される。したがって、本発明は、添付の特許請求の範囲によってのみ限定されることが意図され、本明細書における実施形態の記述及び説明によって提示された特定の詳細によって限定されるべきものではない。

Claims

直接信号成分（１００）と残響信号成分（１０２）とからなる混合信号における残響知覚レベルの大きさを決定するための装置であって、
前記ドライ信号成分（１００）、前記残響信号成分（１０２）又は前記混合信号をフィルタリングするための知覚フィルタステージを備えたラウドネス・モデル・プロセッサ（１０４）であって、前記知覚フィルタステージは、フィルタリングされた直接信号、フィルタリングされた残響信号又はフィルタリングされた混合信号を得るために、実体の聴覚知覚機構をモデル化するように構成されているラウドネス・モデル・プロセッサ（１０４）と、
前記フィルタリングされた直接信号を用いて第１のラウドネスの大きさを推定し、かつ前記フィルタリングされた残響信号又は前記フィルタリングされた混合信号を用いて第２のラウドネスの大きさを推定するためのラウドネス推定器であって、前記フィルタリングされた混合信号は前記直接信号成分と前記残響信号成分との重畳から導出されたものとなっているラウドネス推定器と、
前記残響知覚レベルの大きさ（１１２）を得るために、前記第１及び第２のラウドネスの大きさ（１０６、１０８）を結合するためのコンバイナ（１１０）と、を備えている装置。
前記ラウドネス推定器（１０４ｂ）は、前記フィルタリングされた直接信号が励振であり前記フィルタリングされた残響信号がノイズであるとみなして前記第１のラウドネスの大きさを推定し、又は前記フィルタリングされた残響信号が励振であり前記フィルタリングされた直接信号がノイズであるとみなして前記第２のラウドネスの大きさ（１０８）を推定するように構成されている請求項１に記載の装置。
前記ラウドネス推定器（１０４ｂ）は、前記第１のラウドネスの大きさを前記フィルタリングされた直接信号のラウドネスとして計算するように、又は前記第２のラウドネスの大きさを前記フィルタリングされた残響信号又は前記混合信号のラウドネスとして計算するように構成されている請求項１又は請求項２に記載の装置。
前記コンバイナ（１１０）は、前記第１のラウドネスの大きさ（１０６）と前記第２のラウドネスの大きさ（１０８）を用いて差分を計算するように構成されている請求項１から３のいずれか一項に記載の装置。
前記残響の知覚レベルを、異なる信号フレームの知覚されたラウドネス（ｋ）の少なくとも２つの大きさの平均値（９０４）に基づいて予測するための予測器（１１４）をさらに備えている請求項１に記載の装置。
前記予測器（１１４）は、予測（９００）において、定数項（９０１、９０３）、前記平均値（９０４）に依存する線形項及び倍率（９０２）を用いるように構成されている請求項５に記載の装置。
前記定数項（９０３）は、人工的残響装置において前記残響信号を発生させるために使用される残響フィルタ（６０６）を記述する残響パラメータに依存する請求項５又６に記載の装置。
前記知覚フィルタステージは時間−周波数変換ステージ（３００）を含み、
前記ラウドネス推定器（１０４ｂ）は、前記直接信号成分と前記残響信号成分とを含む広帯域混合信号の前記第１及び第２のラウドネスの大きさ（１０６、１０８）を導出するために、複数の帯域について得られた結果を加算する（１０４ｃ、１０４ｄ）ように構成されている請求項１から７のいずれか一項に記載の装置。
前記知覚フィルタステージ（１０４ａ）は、前記フィルタリングされた直接信号、又は前記フィルタリングされた残響信号、又は前記フィルタリングされた混合信号を導出するために、耳伝達関数（３０２）と、励起パターン計算器（３０４）と、時間積分器（３０６）とを備えている請求項１から８のいずれか一項に記載の装置。
直接信号成分（１００）と残響信号成分（１０２）とからなる混合信号における残響知覚レベルの大きさを決定する方法であって、
前記ドライ信号成分（１００）、前記残響信号成分（１０２）又は前記混合信号をフィルタリングすること（１０４）であって、このフィルタリングは実体の聴覚知覚機構をモデル化するように構成されている知覚フィルタステージを用いて、フィルタリングされた直接信号、フィルタリングされた残響信号又はフィルタリングされた混合信号を得るように実行されるものであることと、
前記フィルタリングされた直接信号を用いて第１のラウドネスの大きさを推定することと、
前記フィルタリングされた残響信号又は前記フィルタリングされた混合信号を用いて第２のラウドネスの大きさを推定することであって、前記フィルタリングされた混合信号は、前記直接信号成分と前記残響信号成分との重畳から導出されたものであることと、
前記残響知覚レベルの大きさ（１１２）を得るために、前記第１及び第２のラウドネスの大きさ（１０６、１０８）を結合すること（１１０）と、を含む方法。
直接信号成分（８００）から残響づけられた信号（８０８）を発生するためのオーディオプロセッサであって、
残響づけられた信号成分（８０６）を得るために前記直接信号成分（８００）を反響させるための残響装置（８０１）と、
前記直接信号成分と前記残響づけられた信号成分とを含む前記残響づけられた信号における残響知覚レベルの大きさを決定するための、請求項１から９のいずれか一項に記載の装置と、
残響知覚レベルの大きさを決定するための装置（８０２）によって生成された知覚レベル（Ｒ）を受信し、前記知覚レベル及び標的値に従って制御信号（８０４）を発生するためのコントローラ（８０３）と、
前記ドライ信号成分（８００）又は前記残響信号成分（８０６）を前記制御値（８０４）に従って操作するためのマニピュレータ（８０５）と、
前記混合信号（８０８）を得るために、前記操作されたドライ信号成分と前記操作された残響信号成分とを結合するため、又は前記ドライ信号成分と前記操作された残響信号成分とを結合するため、又は前記操作されたドライ信号成分と前記残響信号成分とを結合するためのコンバイナ（８０７）と、を備えたオーディオプロセッサ。
前記マニピュレータ（８０５）は前記制御信号によって決定された利得値によって前記残響信号成分を重み付けするための重み付け器を備えているか、又は、
前記残響装置（８０１）は、前記制御信号（８０４）に応答して可変の可変フィルタを備えている請求項１１に記載の装置。
前記残響装置（８０１）は固定フィルタを有し、
前記マニピュレータ（８０５）は前記操作された残響信号成分を発生するために前記重み付け器を有し、
前記加算器（８０７）は前記混合信号（８０８）を得るために、前記直接信号成分と前記操作された残響信号成分とを加算するように構成されている請求項１２に記載の装置。
直接信号成分（８００）から残響づけられた信号（８０８）を発生するためにオーディオ信号を処理する方法であって、
残響づけられた信号成分（８０６）を得るために前記直接信号成分（８００）を反響させること（８０１）と、
前記直接信号成分と前記残響づけられた信号成分とを含む前記残響づけられた信号における残響知覚レベルの大きさを決定する請求項１０に記載の方法と、
残響知覚レベルの大きさを決定するための前記方法（８０２）によって発生された前記知覚レベル（Ｒ）を受信することと、
前記知覚レベル及び標的値に従って制御信号（８０４）を発生すること（８０３）と、
前記制御値（８０４）に従って、前記ドライ信号成分（８００）又は前記残響信号成分（８０６）を操作すること（８０５）と、
前記混合信号（８０８）を得るために、前記操作されたドライ信号成分と前記操作された残響信号成分とを結合すること、又は前記ドライ信号成分と前記操作された残響信号成分とを結合すること、又は前記操作されたドライ信号成分と前記残響信号成分とを結合すること（８０７）と、を含む方法。
コンピュータ上で実行される場合に、請求項１０又は請求項１４に記載の方法を実行するためのプログラムコードをもつコンピュータプログラム。