JP4486646B2

JP4486646B2 - オーディオ信号の感知音量を計算し調整する方法、装置及びコンピュータプログラム

Info

Publication number: JP4486646B2
Application number: JP2006533502A
Authority: JP
Inventors: シーフェルド、アラン・ジェフリー; スミサズ、マイケル・ジェイ; クロキト、ブレト・グレイアム
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2003-05-28
Filing date: 2004-05-27
Publication date: 2010-06-23
Anticipated expiration: 2024-05-27
Also published as: IL172108A; CN101819771B; WO2004111994A3; MXPA05012785A; US20070092089A1; CN1795490A; HK1105711A1; EP1629463A2; CA2525942C; WO2004111994A2; BRPI0410740A; AU2004248544B2; PL1629463T3; DE602004008455D1; EP1629463B1; US8437482B2; IN2010KN02913A; KR20060013400A; SG185134A1; ATE371246T1

Description

本発明は、オーディオ信号の計測と、このような計測に応答するオーディオ信号の音量を制御する装置、方法及びコンピュータプログラムに関する。

音量は、サウンドを静寂から大音響までの範囲での尺度で並べることができる聴覚の属性であると主観的に認識されている。音量はリスナーにより感知される感覚なので、物理的に直接計測することに適せず、それゆえ定量化することが難しい。音量を知覚する器官により、「正常な」聴覚を持ったリスナーが同じサウンドに対して異なった認識を持つことがある。個人の聴覚差によるばらつきを抑制しオーディオ素材の音量の一般的計測に到達する唯一の方法は、リスナーのグループを作り、音量の値又は音量の順位を統計的に導き出すことである。標準的な日常の音量計測において、このような方法は明らかに実用的ではない。

音量を計測する十分客観的な方法を開発する試みは何度もなされてきた。フレッチャーとマンソンは、人間の聴覚は中間周波より低周波又は高周波において感度が鈍くなることを１９３３年に明らかにした。彼らはまた、サウンドのレベルが上がってゆくにつれて感度が相対的に下がってゆくことも発見した。初期のサウンドレベルメータは、マイクロフォン、増幅器、及び、低サウンドレベル、中間サウンドレベル、及び高サウンドレベルにおける聴覚の周波数応答を大雑把に模倣するよう組み合わせたフィルターにより構成されていた。

このような装置が単一で孤立したトーンの一定レベルの音量の計測を行なうが、もっと複雑なサウンドの計測においては、音量の主観的な印象とうまく合致しなかった。このタイプのサウンドレベルメータは標準化されているが、工業的なノイズの監視と制御のような特定の目的にのみ使われる。

１９５０年代前半、ツビッカーとスチーブンスが、フレッチャーとマンソンの研究を拡張して音量認識プロセスのより現実的なモデルを開発した。スチーブンスは、1９５６年に、Journal of the Acoustical Society of Americaに、「複合ノイズの音量の測定」方法を発表し、ツビッカーは、１９５６年に、Acousticaに、彼の「音量の心理的理論」の論文を発表した。１９５９年にツビッカーは、音量計算の図式的な手順を発表し、そのすぐ後いくつかの類似の論文を発表した。スチーブンスとツビッカーの方法は、ＩＳＯ５３２の（それぞれ）パートＡ及びパートＢとして規格化された。両方法は、クリティカル帯域化や周波数マスクや特定ラウドネスのような音響心理学的現象を盛り込んでいる。これらの方法は、周波数の「クリティカル帯域」に落とし込んだ複合したサウンドの一部分に基づき、ある信号成分が他の信号成分をマスクし、特定ラウドネスを各クリティカル帯域に追加することによりサウンドの全体的な音量に到達するようにする。

オーストラリア放送局（ＡＢＡ）により証明された最近の研究「広告における音量の調査」（２００２年７月）では、多くの広告（及び一部のプログラム）は他のプログラムと比較して音量が大きすぎ、それによりリスナーに非常に迷惑がられていることが分かった。ＡＢＡの調査は、事実上全ての放送素材及び全ての国で長年存在していた問題に対処するほんのつい最近の一試みである。その結果、もし信頼性が高くて矛盾のないプログラムの音量の計測ができ、それを迷惑な音量の変動を削減するために用いることができるなら、プログラム素材による音量の相違に起因する聴衆の不快感は、軽減もしくは削減が可能であることが分かった。

バークスケールは、最近のクリティカル帯域の概念に使われる計測単位である。クリティカル帯域スケールは、人間の聴覚は広域スペクトルを小さなクリティカルサブ帯域に対応する部分に分解して検知するという事実に基づいている。低いクリティカル帯域の上限が次のそれより高いクリティカル帯域の下限になるような方法でクリティカル帯域を次のクリティカル帯域に付加することによりクリティカル帯域比のスケールが導かれる。もしクリティカル帯域がこのような方法で加えられていけば、特定の周波数は各つなぎ目に対応する。第１番目のクリティカル帯域は０から１００Ｈｚまでとなり、第２番目は、１００から２００Ｈｚまでとなり、第３番目は２００から３００Ｈｚまでというようにして５００Ｈｚまで各クリティカル帯域の範囲が増加する。０から１６ｋＨｚ間での可聴周波数範囲は、周波数が増えてゆくにしたがって帯域幅が増加する２４の隣接するクリティカル帯域に分割される。クリティカル帯域は０から２０まで番号がつけられ、バークスケールにより定義される「バーク」の単位を持つ。クリティカル帯域比と周波数との関係は人間の耳の特性を理解する上で重要である。例えば、Ｅ．ツビッカーとＨ．ファステルによる「音響心理学‐実際とモデル」１９９０年ベルリン、を参照のこと。

等価直角帯域幅（Equivalent Rectangular Bandwidth）（ＥＲＢ）スケールは、バークスケールに類似する人間の聴覚に対する周波数計測の方法である。ムーア、グラスバーグ及びベーアにより、ツビッカーの音量についての成果の改良がなされた。ムーア、グラスバーグ及びベーアの(B. C. J. Moore, B. Glasberg, T. Baer, 「閾値音量と部分音量の予想のためのモデル」Journal of the Audio Engineering Society, Vol. 45, No. 4, １９９７年４月, ２２４〜２４０ページ)参照のこと。そのような低周波数では人間の聴覚システムの効率と感度が急速に減少するため、５００Ｈｚ以下のクリティカル帯域の計測は難しい。聴覚フィルター帯域幅の計測を改良することによりＥＲＢ比のスケールが導かれた。このような計測は、聴覚フィルター帯域幅を計測するための刻み目のあるマスカーとして用いられる。一般に、ＥＲＢスケールのために、聴覚フィルター帯域幅（ＥＲＢ単位で表現される）はバークスケールより小さい。この差は低周波になるにしたがって大きくなる。

人間の聴覚システムの周波数選択特性は、サウンドの強度をクリティカル帯域に入る部分に分割することにより近似することができる。このような近似により、クリティカル帯域の強度が導かれる。傾きが無限大の仮想的なクリティカル帯域フィルターの代わりに人間の聴覚システムにおける実際の傾きを考慮すると、このような手順によりエキサイテーションと呼ばれる中間的な強度値が導かれる。多くは、このような値は線形値としてではなく音圧レベルに似た対数値として用いられる。クリティカル帯域とエキサイテーションレベルは、多くのモデルにおいて中間値として重要な役割を果たす値に対応する。（上記「音響心理学‐実際とモデル」参照のこと）
音量レベルは「フォン」の単位で計測してもよい。１フォンは、１ｄＢの音圧レベル（ＳＰＬ）で演奏した純粋な１ｋＨｚの正弦波に対して感知する音量であり、圧力２×１０^‐５パスカルの２乗平均平方根に相当する。Ｎフォンは、１ｋＨｚの音色でＮｄＢ（ＳＰＬ）で演奏に対して感知する音量である。１ｋＨｚ以外の音色での音量を１ｋＨｚの音色での音量と比較することで、フォンで与えられたレベルの音量が等しくなる曲線を決定することができる。図７は、２０Ｈｚと１２．５ｋＨｚとの間の周波数、及び、４．２フォン（聴覚の閾値を考慮した）から１２０フォン（ＩＳ０２２６:１９８７（Ｅ）、「音質‐標準等音量レベル曲線」）までのフォンレベルにおける等音量レベルの曲線を示す。

音量レベルはまた単位「ソーン」で計測することもできる。図７に示すようにフォン単位とソーン単位との間で１対１に対応づけることができる。１ソーンは１ｋＨｚの純粋な正弦波で４０ｄＢ（ＳＰＬ）の音量で定義され、４０フォンと同等である。ソーン単位は感知する音量が２倍になったときソーン単位で２倍になるような単位である。例えば、４ソーンは２ソーンの２倍の大きさで感知される。このようにソーンで音量レベルを表現することはより参考になる。

ソーンはオーディオ信号の音量単位なので、特定音量は単に周波数ごとの音量である。したがって、バーク周波数スケールを用いるとき、特定音量は、バーク毎にソーン単位を持ち、同様にＥＲＢ周波数スケールを用いるとき、単位はソーン／ＥＲＢとなる。

本明細書全般を通して、「フィルター」又は「フィルターバンク」の語は、ＩＩＲフィルター又は変換のように、本質的に再帰的フィルター処理や非再帰的フィルター処理のようなどのような形態も含まれ、「フィルターされた」情報は、このようなフィルターを適用した結果に用いられる。以下に記載の実施形態では、ＩＩＲフィルター及び変換に組み込まれたフィルターバンクを採用する。

本発明の特徴によれば、オーディオ信号を処理する方法であって、前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、前記エキサイテーション信号と前記オーディオ信号の特性を示す測度に応答してオーディオ信号の感知音量を計算するステップとを具備し、前記計算するステップでは、２以上の特定音量モデル関数のグループから、１つの特定音量モデル関数又は２以上の特定音量モデル関数の１つの組み合わせを選択し、この選択は、入力オーディオ信号の特性を示す測度により制御される。

本発明の他の特徴によれば、オーディオ信号を処理する方法であって、前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、少なくとも前記エキサイテーション信号に応答して、ゲイン値Ｇ［ｔ］を計算するステップとを具備し、前記ゲイン値は、前記オーディオ信号に適用した場合、参照音量と実質的に同じ感知音量となり、前記計算するステップには、少なくとも１つの非線形処理を含む反復的処理ループが含まれる。

さらに本発明の他の特徴によれば、複数のオーディオ信号を処理する方法であって複数の処理を含み、各処理では前記オーディオ信号のそれぞれ１つを受け取るステップを具備し、各処理において、前記それぞれのオーディオ信号に応答して、エキサイテーション信号を作り、少なくとも前記エキサイテーション信号に応答して、ゲイン値Ｇ［ｔ］を計算し、前記ゲイン値は、前記オーディオ信号に適用した場合、参照音量と実質的に同じ感知音量となり、前記計算するステップには、少なくとも１つの非線形処理を含む反復的処理ループが含まれており、その結果前記それぞれのオーディオ信号の感知音量が参照音量と実質的に同じとなり、前記同じ参照音量を前記複数の処理の各々に適用するように、前記ゲイン値Ｇ［ｔ］でそれぞれのオーディオ信号の振幅を制御する。

前記発明の特徴で採用される実施の形態において、信号処理のための方法又は装置は入力オーディオ信号を受け取る。前記信号は、人間の外耳及び中耳の特性を模擬するフィルター又はフィルター機能により、そして、前記フィルターされた信号を内耳基底膜にそって発生するエキサイテーションパターンを模擬する周波数帯域に分割するフィルターバンク又はフィルターバンク機能により直線的にフィルターされる。各周波数帯域に対して、特定音量は１以上の特定音量機能又はモデルを用いて計算され、機能又はモデルの選択は、前記入力オーディオ信号から抽出される特性又は特徴により制御される。各周波数帯域における前記特定音量は、広帯域の入力オーディオ信号を代表する音量指標として統合される。前記音量指標の１つの値は前記入力信号の有限時間範囲で計算してもよく、又は、前記音量指標は、前記入力オーディオ信号の時間間隔又は時間ブロックにおいて繰り返し計算してもよい。

前記発明の特徴で採用される他の実施形態において、信号処理のための方法又は装置は入力オーディオ信号を受け取る。前記信号は、人間の外耳及び中耳の特性を模擬するフィルター又はフィルター機能により、そして、前記フィルターされた信号を内耳基底膜にそって発生するエキサイテーションパターンを模擬する周波数帯域に分割するフィルターバンク又はフィルターバンク機能により直線的にフィルターされる。各周波数帯域に対して、特定音量は１以上の特定音量機能又はモデルを用いて計算され、機能又はモデルの選択は、前記入力オーディオ信号から抽出される特性又は特徴により制御される。各周波数帯域における前記特定音量は、広帯域の入力オーディオ信号を代表する音量の測度として統合される。前記音量の測度は、参照音量値と比較され、その差が先に特定音量計算に入力していた周波数帯域化した信号の縮小又はゲイン調整に用いられる。前記特定音量計算は、音量と参照音量とが実質的に等しくなるまで音量計算と参照音量との比較が繰り返される。このようにして、周波数帯域化した信号に適用したゲインは、入力オーディオ信号に適用したとき入力オーディオ信号の感知音量が参照音量と実質的に同じになるようなゲインを表すようになる。前記音量の測度の１つの値は前記入力信号の有限時間範囲で計算してもよく、又は、前記音量の測度は、前記入力オーディオ信号の時間間隔又は時間ブロックにおいて繰り返し計算してもよい。音量計測処理の構成上の理由と同様に、感知音量が非線形特性を持つことから、ゲインの再帰的適用が好ましい。

本発明のさまざまな態様及びその好ましい実施の形態は、以下の開示と、いくつかの図面において同様の参照番号は同様の構成要素を意味する添付図を参照することにより、よく理解できるであろう。種々の装置や処理を示す図面は、本発明を理解する手助けとなる主な構成要素を示す。分かりやすくするために、実際の実施の形態に必要であって本技術分野の当業者によく知られているが、本発明の概念を理解する上で重要でない多くの要素は省略した。本発明を実施するための信号処理は、マイクロプロセッサ、ディジタル信号プロセッサ、ロジックアレー、及び他の計算回路形態により実行されるプログラムを含む広くさまざまな方法で実行することができる

以下に詳細を示すように、本発明の第１の実施の形態は、図１に示すように、入力オーディオ信号の特性を分析し抽出する特定音量制御装置又は特定音量制御機能（「特定音量制御」）１２４を具備する。このオーディオ特性は、特定音量変換装置又は特定音量変換機能（「特定音量」）におけるパラメータを制御するために用いられる。信号特性として用いられる特定音量パラメータを調整することにより、本発明の客観的音量計測技術は、多数のリスナーに用いられた統計的な音量計測により形成される主観的音量にさらに厳密に一致するであろう。信号特性を音量パラメータの制御に用いることにより、信号音量がリスナーに不快感を与える結果となるような不適切な計測値の発生を減少させることができる。

以下に詳細を示すように、本発明の第２の特徴による実施の形態では、図２に示すように、ゲイン装置又はゲイン機能（「反復ゲイン更新」）が追加されている。これは、図２における関連づけられた音量２２３が図２の２３０での好ましい参照音量と一致するまで入力オーディオ信号から導き出された時間平均されたエキサイテーション信号のゲインを反復的に調整することを目的とする。感知音量の客観的な計測は本質的に非線形処理を必要とするため、入力オーディオ信号の音量が好ましい参照音量と一致するような適切なゲインを決定するために、反復ループを採用することが有利となる。しかし、反復ゲインループは、全体の音量計測システムにかかわっているので、ゲイン調整が元の各音量の反復で用いられるオーディオ信号入力に適用されため、反復ゲインループを長期的な音量の正確な測度を生成させるために必要な時間的積分に用いることは高価となる。一般に、このような構成において、時間積分では、反復計算における各ゲインの変化に対して再計算が必要となる。しかし以下に説明するように、図２さらには図３及び図１０〜１２の実施の形態に示した本発明の特徴によれば、時間積分は、反復ゲインループの一部を構成する非線形処理を行なう、及び／又は、非線形処理に従う線形処理経路で行なうことができる。線形処理経路は反復ループの一部を構成する必要はない。したがって、例えば図２の実施の形態に示すように、入力２０１から特定音量変換装置又は特定音量変換機能（「特定音量」）２２０までの音量計測経路は、線形であり、時間平均機能（「時間平均化」）２０６を具備する。したがって、ゲイン反復は、音量計測装置又は音量計測機能にのみ縮減されて適用され、時間積分を含む必要がなくなる。図２の実施の形態において、伝達フィルター又は、伝達フィルター機能（「伝達フィルター」）２０２、フィルターバンク又はフィルターバンク機能（「フィルターバンク」）２０４、時間平均化装置又は時間平均化機能（「時間平均化」）２０６及び特定音量制御装置又は特定音量制御機能（「特定音量制御」）２２４は反復ループの一部とはならず、反復ゲイン制御を効率的かつ正確なリアルタイムシステムに組み込むことができる。

再度図１を参照すると、本発明の第１の特徴による音量計測又は音量計測処理１００の実施の形態の機能ブロック図が示されている。音量計測を行なうべきオーディオ信号が音量計測装置又は音量計測処理１００の入力１０１に入力される。この入力は２つの経路に送られる。第１の（主）経路は、内耳の基底膜に沿って生じるエキサイテーションパターンの周波数帯域を模擬する、複数の周波数帯域の各々の特定音量を計算する経路であり、第２の（副）経路は、主経路で用いられる特定音量機能又は特定音量モデルを線選択する特定音量制御装置を有する経路である。

好ましい実施の形態において、オーディオの処理はディジタル領域で行なわれる。したがって、オーディオ入力信号は、サンプリング周波数ｆ_ｓでオーディオ源からサンプリングした離散時間数列ｘ［ｎ］で表される。数列ｘ［ｎ］は、以下の式のデシベルで与えられるｘ［ｎ］のｒｍｓパワーが、リスナーが聞くｄＢ単位のサウンド音圧レベルに等しくなるように適切にスケーリングされる。

さらに、オーディオ信号は説明を簡単にするためにモノラルであると仮定する。本実施の形態ではしかしながら後で説明するように複数チャンネルオーディオに適用される。

伝達フィルター１０２
主経路において、オーディオ入力信号は伝達フィルター又は伝達フィルター機能（「伝達フィルター」）１０２に入力され、その出力は、フィルターされたオーディオ信号となる。伝達フィルター１０２は、線形フィルターＰ（ｚ）を適用することにより外耳と中耳を通るオーディオ伝達の効果を模擬する。図４に示すように、Ｐ（ｚ）の１つの適切な振幅周波数応答は、１ｋＨｚ以下では一様となり１ｋＨｚ以上では、１ｋＨｚにおいて一様に正規化された閾値を持つＩＳ０２２６規格に記載された聴覚の閾値の逆数に従う。伝達フィルターを適用することにより、音量計測工程で処理されるオーディオが、人間の聴覚で感知されるオーディオにさらに厳密に類似するようになり、これにより客観的な音量計測が改善される。したがって、伝達フィルター１０２の出力は時間領域での入力オーディオサンプルｘ［ｎ］の周波数に依存してスケーリングされたものとなる。

フィルターバンク１０４
フィルターされたオーディオ信号は、フィルターバンク又はフィルターバンク機能（「フィルターバンク」）１０４（図１）に入力される。フィルターバンク１０４は内耳の基底膜に沿って生じるエキサイテーションパターンを模擬するように設計する。フィルターバンク１０４は、ムーア、グラスバーグ及びベーアの(B. C. J. Moore, B. Glasberg, T. Baer, 「閾値音量と部分音量の予想のためのモデル」前出）により定義された等価直角帯域幅（Equivalent Rectangular Bandwidth）（ＥＲＢ）周波数スケールにおいて、その帯域幅と間隔が一定である１組の線形フィルターを具備することができる。

ＥＲＢ周波数スケールがより厳密に人間の聴覚と一致し、主観的音量の効果と一致する客観的音量計測値を生成するための効率の改善を示していたとしても、バーク周波数は効率の低減を伴う。

ヘルツで表した周波数ｆに対して、ヘルツで表したＥＲＢ帯域の幅は以下のように近似される。

ERB(f) = 24.7 (4.37f/1000+1) （１）

この関係から歪ませた周波数スケールは、歪ませたスケールのどの点においても、歪ませたスケールのユニットにおいて対応するＥＲＢは等しいと定義される。ヘルツで表した線形周波数からこのＥＲＢ周波数スケールへの変換のための関数は、式（１）の逆数を積分することにより得られる。

式（２ａ）をｆについて解く事によりＥＲＢスケールから線形周波数スケールに戻す関数を表現することは有益なことである。

ここで、ｅはＥＲＢスケールのユニットである。図５は、ＥＲＢスケールとヘルツで表した周波数との関係を示す。

フィルターバンク１０４に対する聴覚フィルターの応答は、標準的なＩＩＲフィルターを用いることで特徴づけ、実施することができる。もっと具体的には、フィルターバンク１０４で実施されるヘルツで表した中心周波数ｆ_ｃにおける個々の聴覚フィルターは、１２次のＩＩＲ伝達関数により定義することができる。

ここで

ｆ_ｓはヘルツで表したサンプリング周波数であり、Ｇは、各フィルターが周波数応答のピークにおいて確実に一様なゲインを持つようにした正規化定数であり、以下のように選択される。

フィルターバンク１０４に、ＥＲＢスケールに沿って一様な間隔を持った中央周波数ｆｃ［１］．．．ｆｃ［Ｍ］において参照される帯域である聴覚フィルターＭを含ませてもよい。もっと具体的には、
ｆｃ「１」＝ｆｍｉｎ（５ａ）
ｆｃ［ｍ］＝fc[m-1]+ERBToHz(HzToERB(fc[m-1])＋Δ) m=2...M （５ｂ）
ｆｃ［Ｍ］＜ｆｍａｘ（５ｃ）
ここでΔはフィルターバンク１０４における好ましいＥＲＢの間隔であり、ｆｍｉｎ及びｆｍａｘは、それぞれ中央周波数の好ましい最小値と最大値である。Δ＝１を選択することができ、人間の耳が感知できる周波数範囲を考慮して、ｆｍｉｎ＝５０Ｈｚと、またｆｍａｘ＝２０，０００Ｈｚと設定することができる。このようなパラメータを用いて、例えば、式（５ａ）〜（５ｃ）を適用することでＭ＝４０の聴覚フィルターが作られる。このようなＭの聴覚フィルターの大きさは、ＥＲＢスケールのクリティカル帯域に近似し、図６に示される。

あるいは、フルレート実施と呼ばれるようなオーディオ信号のサンプリングレートでのフィルター処理の実施を行なうことは正確な音量計測に必要とする以上の時間分解能を与えると考えられているので、一般に短時間離散フーリエ変換（ＳＴＤＦＴ）と呼ばれる有限長の離散フーリエ変換を用いてフィルター処理を適切に近似させてもよい。フルレート実施の代わりにＳＴＤＦＴを用いることで、効率の向上と計算の複雑さの軽減が達成される。

入力オーディオ信号ｘ［ｎ］は以下で定義される。

ここでｋは周波数指数、ｔは時間ブロック指数、ＮはＤＦＴサイズ、Ｔはホップサイズ（ｈｏｐｓｉｚｅ）、ｘ［ｎ］は、下式となるように正規化された長さＮの窓である。

ここで、式（６）における変数ｔは、秒単位の時間計測と対立するＳＴＤＦＴの時間ブロックを表す離散的な指数である点に留意すべきである。ｔの各増加は信号ｘ［ｎ］でのＴサンプル分のホップを表す。したがって、指数ｔもこの定義によるとみなされる。実施の形態の詳細に応じて異なった変数の設定と窓の形式を用いることができ、ｆ_ｓ＝４４１００Ｈｚで、Ｎ＝４０９６、Ｔ＝２０４８そしてｗ［ｎ］に対して、ハミング窓は優れた結果を残した。上述のＳＴＤＦＴは、高速フーリエ変換を用いることによりもっと効率がよくなる。

入力オーディオ信号の音量を計算するために、フィルターバンク１０４の各フィルターにおけるオーディオ信号のエネルギーの計測が必要である。各フィルターバンク１０４の短時間エネルギー出力は、周波数領域におけるフィルターの応答と入力信号のパワースペクトルとを乗算することにより近似することができる。

ここで、ｍは帯域数、ｔはブロック数、そしてＰは伝達フィルターである。ここで、式（３）で指定されたものとは異なる聴覚フィルターの振幅応答に対する形式として、同様の結果を得るため式（８）を使うこともできることに留意すべきである。例えば、ムーアとグラスバーグは、式（３）と同様なことを行なう指数関数で記述されたフィルターの形態を提案している。加えて、少し性能は低下するが、１つのＥＲＢの帯域幅を持つレンガ壁（ｂｒｉｃｋ-ｗａｌｌ）帯域通過フィルターとして各フィルターを近似することもでき、さらなる近似として、伝達フィルターＰを総和演算から外すことができる。この場合式（８）は以下のように簡単化される。

このようにして、フィルターバンク１０４のエキサイテーション出力は時間周期ｔ毎のそれぞれのＥＲＢ帯域ｍにおけるエネルギーＥの周波数領域での表現となる。

マルチチャンネル
入力オーディオ信号が各チャンネルに１つづつある多数のラウドスピーカを通して聞くようなマルチチャンネルである場合、個々のチャンネルに対するエキサイテーションを上述のように最初に計算してもよい。引き続いて全てのチャンネルを統合して感知される音量を計算するために、個々のエキサイテーションは共に加算して、リスナーの耳に到達するエキサイテーションに近似する単一のエキサイテーションにすることができる。

時間平均化１０６
音響心理学的及び主観的音量の試験における研究結果から、さまざまなオーディオ信号を比較するとき、リスナーは、比較に使うための長時間感知音量の値にするために短時間又は「瞬間的な」信号の音量に対して一種の時間積分を行なうことが示唆されている。音量認知のモデルを構築するとき、この時間積分は、エキサイテーションを非線形のものから特定音量へと変換した後に実行すべきであるとの提案がなされている。しかしながら、本発明の発明者は、特定音量へと変換する前にエキサイテーションに線形補間を行なうことによってこの時間積分が適切にモデル化できることを見出した。本発明の特徴によれば、特定音量の計算に先立って平滑化を行なうことにより、先に説明した方法でその計測された音量を調整するために信号に適用する必要のあるゲインの計算において顕著な利点が実現する。さらに以下に説明するように、ゲインは、エキサイテーションの計算を除外しただけではなく、このような時間積分も除外した反復ループを用いて計算することができる。このようにして、この反復ループにより、時間積分の全時間間隔に依存する計算とは反対に、ゲインを計算するために現在の時間フレームのみに依存する計算を通してゲインを算出することができる。その結果は、処理時間とメモリーの節約となる。反復ループを用いたゲインの計算を行なう実施形態には、図２、３及び１０〜１２に関連して以下に説明する内容が含まれる。

図１の説明に戻って、エキサイテーションの線形補間は、さまざまな方法で実施される。例えば、以下の方程式を採用する時間平均装置又は時間平均機能（「時間平均化」）１０６を用いて再帰的に平滑化を行なってもよい。

ここで初期条件は

である。平滑フィルター独自の特徴は、平滑パラメータλｍを変化させ、平滑化されたエネルギー

は、Ｅ［ｍ，ｔ］の実時間平均からＥ［ｍ，ｔ］の消失メモリー平均（ｆａｄｉｎｇｍｅｍｏｒｙａｖｅｒａｇｅ）までの間で変動する。もしλ_ｍ＝１ならば式（１０ｂ）から

で、

は時間ブロック０からｔまでに対してＥ［ｍ，ｔ］の実時間平均に等しくなることが分かるであろう。もし０≦λ_ｍ＜１ならば、ｔ→∞で

となり、

は単に、Ｅ［ｍ，ｔ］に１つのポールスムーザー（ｐｏｌｅｓｍｏｏｔｈｅｒ）を適用した結果となる。有限長のオーディオセグメントの長期音量を描写する単一の数値が要求される応用例では、λ_ｍ＝１を全てのｍに設定してもよい。連続オーディオストリームの時間的に変動する長期音量を実時間で追求するような実時間的応用例においては、０≦λ_ｍ＜１で、λ_ｍを全てのｍで同じ値に設定してもよい。

Ｅ［ｍ，ｔ］の時間平均を計算する場合において、「静か過ぎる」と考えられ且つ感知音量に寄与しないと考えられる短時間セグメントを除外することが好ましいかもしれない。これを達成するために、第２の限界スムーザーは式（１０）のスムーザーと平行して走らせてもよい。この第２のスムーザーは、もしＥ［ｍ，ｔ］が

と比較して小さければ現在値を保持する。

ここでｔｄＢはデシベルで定義される相対的な閾値である。本発明にとって決定的ではないが、ｔｄＢ＝−２４の値で良い結果が得られることが分かっている。もし第２のスムーザーが平行して走らない場合は、

となる。

特定音量制御装置１２４／特定音量１２０
複合モデル
１つの特徴において、本発明は、帯域化されたエキサイテーションを帯域化された特定音量に変換するため、ブロック１２０に複数のモデルを用いる。入力オーディオ信号から副経路の特定音量制御１２４を経て得られた制御情報は、モデルを選択するか又は、モデルが特定音量に寄与する程度を制御する。ブロック１２４において、１以上の特定音量モデルをこれらの変数から選択するのに役に立つ特徴又は特性がオーディオから抽出される。どのモデル又はモデルの組み合わせを用いるべきかを示す制御信号が、抽出された特徴又は特性から作られる。２以上のモデルを用いることが好ましい場合は、この制御信号にはこのようなモデルをどのように結合するかを示す情報もまた含まれる。

例えば、特定音量Ｎ’［ｍ，ｔ］の帯域毎に、各モデルＮ’ｑ［ｍ，ｔ］の帯域毎の線形結合として表現することができる。

ここで、Ｑはモデルの総数を示し、制御情報α_ｑ［ｍ，ｔ］は各モデルに対する重み付け又は寄与を意味する。重み付けの総和は、用いられるモデルによって、１に等しくしてもしなくても良い。

本発明はこれらに限定されないが、２つのモデルが的確な結果を与えることを見つけている。１つのモデルは、オーディオ信号が狭帯域として特徴づけられるときに最良となり、もう１つは、オーディオ信号が広帯域として特徴づけられるときに最良となる。

最初に、特定音量の計算において、

の各帯域のエキサイテーションレベルを、伝達フィルターＰ（ｚ）（図８）により正規化されたＩＳ０２２６（図７）の等音量曲線により定義された１ｋＨｚでの等価エキサイテーションレベルに変換することができる。

ここでＬ_１ｋＨｚ（Ｅ，ｆ）は、１ｋＨｚでのレベルを発生する関数であり、周波数ｆでレベルＥに等しい音量である。実際にはＬ_１ｋＨｚ（Ｅ，ｆ）は、伝達フィルターにより正規化された等音量曲線の参照テーブルの補間として組み込まれる。１ｋＨｚにおける等価レベルへの変換は以下の特定音量の計算により簡単化される。

次に、各帯域における特定音量は以下のように計算することができる。

N'[m, t] = α[m, t]N'_NB[m,t]+(1-α[m,t])N'_WB[m,t], (14)

ここで、Ｎ'_ＮＢ［ｍ，ｔ］及びＮ'_ＷＢ［ｍ，ｔ］は、それぞれ、狭帯域信号モデル及び広帯域信号モデルに基づく特定音量値である。α［ｍ，ｔ］は、オーディオ信号から計算される０と１の間にある補間係数であり、その詳細は以下に説明する。

狭帯域の特定音量値と広帯域の特定音量値、Ｎ'_ＮＢ［ｍ，ｔ］及びＮ'_ＷＢ［ｍ，ｔ］は、指数関数を用いて帯域化されたエキサイテーションから推定することができる。

ここで、ＴＱ_１ｋＨｚは、１ｋＨｚのトーンに対して聞こえなくなる閾値でのエキサイテーションレベルである。等音量曲線（図７及び８）からＴＱ_１ｋＨｚは４．３ｄＢに等しい。ここで、これらの特定音量関数は両方とも、エキサイテーションが聞こえなくなる閾値に等しいときゼロに等しくなることに留意しなければならない。聞こえなくなる閾値より大きいエキサイテーションに対しては、両方の関数は、聴覚の強度についてのスティーブンスの原理にしたがうパワーの原理により単調に増加する。狭帯域の関数の指数は、広帯域の関数の指数より大きくなるよう選定され、狭帯域の関数を広帯域の関数より速く増大させる。狭帯域の場合と広帯域の場合の指数βとゲインＧの具体的な選択については、以下に説明する。

音量１２２は、特定音量１２０の帯域化された特定の音量を、オーディオ信号の単一の音量の測度すなわち、知覚単位での音量値であるターミナル１２３での出力を作るために用いる。この音量の測度は、異なったオーディオ信号の音量を比較において、どちらが大きくどちらが小さいかを示す限りにおいて恣意的な単位を持つことができる。

ソーン単位で示される全体音量は、特定音量の全ての周波数帯域にわたる総計として計算することができる。

ここで、Δは式（６ｂ）で定義したＥＲＢの間隔である。式（１５）での係数Ｇ_ＮＢとβ_ＮＢとは、α［ｍ，ｔ］＝１のとき、１ｋＨｚのトーンにおけるＳＰＬに対するソーン単位のＳのプロットが実質的にツビッカーにより提示された対応する実験データ（図９の丸印）（ツビッカー及びＨ．ファステル「音響心理学‐実際とモデル」前述）と一致するように選択される。式（１５ｂ）での係数Ｇ_ＷＢとβ_ＷＢとは、α［ｍ，ｔ］＝０のとき、ユニフォームエキサイティングノイズ（各ＥＲＢにおいて同一のパワーを持つノイズ）におけるＳＰＬに対するソーン単位のＮのプロットが実質的にツビッカーにより提示された対応する実験データ（図９の角印）と一致するように選択される。少なくともツビッカーのデータに一致する角印のデータから以下が生じる。

Ｇ_ＮＢ＝０．０４０４（１７ａ）
β_ＪＢ＝０．２７９（１７ｂ）
Ｇ_ＨＢ＝０．０５８（１７ｃ）
β_ＮＢ＝０．２１２（１７ｄ）

図９（実線）は、ユニフォームエキサイティングノイズと１ｋＨｚのトーンの両方における音量を示す。

特定音量制御１２４
先に述べたように、実際の実施の形態（式（１５ａ）及び（１５ｂ））において２つの特定音量のモデルが用いられ、１つは狭帯域信号にもう１つは広帯域信号に用いられる。副経路における特定音量制御１２４は、各帯域において入力信号が狭帯域又は広帯域のどちらかの側に付く程度を表す指標、α［ｍ，ｔ］を計算する。一般的な意味では、α［ｍ，ｔ］は、信号が帯域の中心周波数ｆｃ［ｍ］に近い狭帯域のときは１に等しく、信号が帯域の中心周波数ｆｃ［ｍ］に近い広帯域のときは０に等しい。このような特性の混合を変動させるため、制御は２つの極端な値を連続的に変動させる。簡単にするために、制御α［ｍ，ｔ］は、全帯域にわたって一定とし、この場合帯域の指標ｍは省略され、α［ｍ，ｔ］が続いてα［ｔ］として参照される。したがって制御α［ｔ］は、全ての帯域を通じて狭帯域の程度を示す測度を意味する。このような制御を行なわせる適切な方法は次に説明するが、この特別な方法は決定的なものではなく、他の適切な方法を採用しても良い。

制御α［ｔ］は、信号ｘ［ｎ］の他の処理においてではなく、フィルターバンク１０４の出力にてエキサイテーションＥ［ｍ，ｔ］から計算することもできる。Ｅ［ｍ，ｔ］は、ｘ［ｎ］の「狭帯域性」と「広帯域性」とを計測するための適切な基準を提供し、その結果、計算をほとんど付加せずにα［ｔ］を生成することができる。

「スペクトルの平坦性」は、α［ｔ］を算出することができるＥ［ｍ，ｔ］の特徴である。ジェイアントとノルにより定義されたスペクトルの平坦性(N.S.Jayant,P.Noll,「波形のディジタルコーディング」、PrenticeHall,NewJersey,1984)は、周波数全般にわたって（Ｅ［ｍ，ｔ］の場合は指標ｍについて）取得した平均である算術的平均に対する幾何学的平均の比率となる。Ｅ［ｍ，ｔ］がｍ全般にわたって一定のとき、幾何学的平均は、算術的平均に等しくなり、スペクトルの平坦性は１に等しくなる。これは、広帯域の場合に対応する。Ｅ［ｍ，ｔ］がｍと共に顕著に変動する場合、幾何学的平均は、算術的平均より顕著に小さくなり、スペクトルの平坦性は０に近づく。これは狭帯域の場合に対応する。１からスペクトルの平坦性を減算したとき１になった場合は、「狭帯域性」の測度を生成し、０になった場合は「広帯域性」の測度を生成し、０は広帯域に対応し１は狭帯域に対応する。具体的には、１から修正されたスペクトルの平坦性Ｅ［ｍ，ｔ］を減算する計算は以下のようになされる。

ここで、Ｐ［ｍ］は、周波数ω＝２πｆ_ｃ［ｍ］／ｆ_ｓでサンプリングした伝達フィルターＰ（ｚ）の周波数応答に等しい。伝達フィルターの適用により「狭帯域性」の指標を膨張させる傾向にあるＥ［ｍ，ｔ］における「バンプ（bump）」が導入されるので、伝達フィルターによるＥ［ｍ，ｔ］の正規化により、さらによい結果を得ることができる。加えて、Ｅ［ｍ，ｔ］の帯域のサブセット全般にわたってスペクトルの平坦性を計算することにより、さらによい結果を生み出すことができる。式（１８）の下限及び上限、Ｍ_ｌ［ｔ］及びＭ_ｕ［ｔ］、は全てのＭ帯域より小さい領域を定義する。Ｍ_ｌ［ｔ］とＭ_ｕ［ｔ］は、エネルギーの大部分を含み、Ｍ_ｌ［ｔ］とＭ_ｕ［ｔ］で定義される範囲がＥＲＢスケールにおいて拡がった２４単位以下であるＥ［ｍ，ｔ］の部分を有することが好ましい。もっと具体的には（ｆ_ｃ［ｍ］がＨｚにおける帯域ｍの中心周波数であることを想起して）、下式の関係が好ましい。

HzToERB(f_c[Mu[t]]) - HzToERB(f_c[Ml[t]])≒24 （１９ａ）

さらに下式を必要とする。

HzToERB(f_c[Mu[t]])≧CT[t]≧HzToERB(f_c[M_l[t]]) （１９ｂ）
HzToERB(f_c[Ml[t]])≧HzToERB(f_c[1]) （１９ｃ）
HzToERB(f_c[Mu[t]])≦HzToERB(f_c[M]) （１９ｄ）

ここで、ＣＴ［ｔ］はＥＲＢスケールで計測したＥ［ｍ，ｔ］のスペクトルの重心である。

理想的には、ＥＲＢスケールで計測した和の制限、Ｍ_ｌ［ｔ］とＭ_ｕ［ｔ］は、ＣＴ［ｔ］付近に集中するが、ＣＴ［ｔ］がその範囲の下限又は上限に近いとき、このとことは常に成り立つとは限らない。

次に、ＮＢ［ｔ］は、式（１１ａ）と同様の方法で時間的に平滑化することができる。

ここで

は、式（１１ｂ）で定義される、全てのｍについてのσ［ｍ，ｔ］の最大値である。最後に、α［ｔ］は、

から以下のように計算される。

ここで、

Φ{x}=12.2568x³- 22.8320x² + 14.5869x - 2.9594 （２１b）

である。

Φ｛ｘ｝の正確な形は決定的ではないが、式（２１ｂ）の多項式は、さまざまなオーディオ素材の主観的な計測値に対してα［ｔ］を最適化することにより求められる。

図２は、本発明の第２の特徴による音量計測装置又は音量計測処理２００の機能ブロック図を示す。図２の装置又は機能２０２，２０４，２０６，２２０，２２２，２２３，及び２２４は、図１の各々の装置又は機能１０２，１０４，１０６，１２０，１２２，１２３，及び１２４に対応する。

図１に実施の形態を示した本発明の第１の特徴によれば、音量計測装置又は音量計算は、知覚単位で音量値を算出する。入力信号の音量値を調整するために有益な尺度は、（例えば、以下に説明する図３の実施の形態に於けるような）入力信号ｘ［ｎ］と乗算したとき、その音量が参照音量レベルＳ_ｒｅｆに等しくなるようなゲインＧ［ｔ］である。参照音量Ｓ_ｒｅｆは、任意に定義することもでき、あるいは、本発明の第１の特徴に係る他の装置又はプロセスにより、既知のオーディオ信号から計測することもできる。Ψ｛ｘ［ｎ］，ｔが音量Ｓ［ｔ］を計算するために信号ｘ［ｎ］に対して行なう全ての計算を示すものとし、以下のようなＧ［ｔ］を求めるものとする、

S_ref=S[t]=Ψ{g[t]x[n],t （２３）

Ψ｛．で具体的に行なわれる処理は非線形なので、Ｇ［ｔ］に対する解の近似式がなく、その代わり、反復計算により近似解を求めることができる。各反復計算ｉにおいて、Ｇ_ｉを現在の推定値Ｇ［ｔ］とする。全ての反復計算において、Ｇ_ｉは、参照音量との差の絶対値を下げるために更新される。

|S_ref-Ψ{G_ix[n],t}|<|S_ref-Ψ{G_i-1x[n],t}| （２４）

上記差を小さくするためにＧ_ｉを更新するのに適した技法は多く存在する。その方法の１つが勾配法であり（Dimitri P. Bertseakas, Athena Scientific, Belmont, MA 1995による「非線形プログラミング」参照のこと）、それによれば、先の反復による差に比例した量でＧｉが更新される。

G_i=G_i-1+μ(S_ref-Ψ{G_i-1x[n],t}) （２５）

ここでμは、最初のステップサイズである。上記反復は、差の絶対値が閾値以下になるまで、又は、反復の回数が所定の最大値に到達するまで、又は、指定された時間が経過するまで続ける。その点においてＧ［ｔ］はＧ_ｉと等しくなるよう設定される。

式（６）〜（８）に戻って、信号ｘ［ｎ］のエキサイテーションは、ＳＴＤＦＴの強度の信号の平方、｜Ｘ［ｋ,ｔ］｜^２に対する線形計算により得られることに留意すべきである。これから、ゲインが補正された信号Ｇｘ［ｎ］は、ｘ［ｎ］にＧ^２を乗算したエキサイテーションに等しいことが導かれる。さらに、長期知覚音量の推定に必要な時間積分は、エキサイテーションの線形時間平均を行なうことにより行なうことができるので、Ｇｘ［ｎ］に対応する時間平均は、ｘ［ｎ］にＧ２を乗算した時間平均されたエキサイテーションに等しい。その結果、上述の反復処理において、Ψ｛Ｇ_ｉｘ［ｎ］,ｔの再推定のたびに全入力信号履歴にわたって、時間平均を再計算する必要がなくなる。代わりに、時間平均化したエキサイテーション

をｘ［ｎ］から一度だけ計算し、反復計算において、更新したゲインの二乗を直接

に適用することにより音量の更新値を得ることができる。具体的には、Ｓ［ｔ］を算出するために、時間平均化したエキサイテーション

に対してなされる全ての処理に対して

を代理させて、全体的な乗算ゲインＧに対して以下の関係を保持させる。

この関係を用いて、Ψ｛Ｇ_ｉ［ｎ］,ｔ｝を

で置き換えることにより、反復処理を単純化することができる。時間積分において、特定音量の非線形変換の後に長期知覚音量の推定を行う必要があったのならば、このような単純化は可能ではなかったであろう。

Ｇ［ｔ］を計算するための反復処理は図２に示されている。ターミナル２２３における出力音量Ｓ［ｔ］は、減算結合装置又は減算結合機能２３１にてターミナル２３０における参照音量Ｓｒｅｆから減算される。得られた差信号２３２は、反復計算における次のゲインＧ_ｉを算出する反復ゲイン更新装置又は反復ゲイン更新機能に送られる。このゲインの二乗Ｇ_ｉ ^２は、出力２３４にて乗算結合装置２０８にフィードバックされ、そこで、ブロック２０６からの時間平均化したエキサイテーション信号とＧ_ｉ ^２とを乗算する。次いで、ブロック２２０と２２２とにより、時間平均化したエキサイテーションから反復計算におけるＳ［ｔ］の次の値が計算される。このループは、ターミナル２３５におけるゲインＧ［ｔ］が最新の値Ｇ_ｉに等しくなる時に、終了条件が満たされるまで繰り返される。最終値Ｇ［ｔ］は、例えば、すべてのＦＦＴフレームｔ、又は、エキサイテーションがオーディオ部分の全ての期間にわたって平均化された後のオーディオ部分の最後に一度だけ、上述の反復処理により計算することができる。

この反復処理と関連して、ゲインにより修正されない信号音量を計算したいばあいは、ゲインＧ_ｉは、各時間周期ｔでの各反復処理の開始時に１に初期化することができる。このようにして、ループで計算されたＳ［ｔ］の最初の値は、元の信号音量を表し、そのように記録することができる。この値を記録したくなければ、しかしながら、Ｇ_ｉをどのような値にも初期化することができる。Ｇ［ｔ］を連続する時間フレームにわたって計算するときに、元の信号音量を記録したくない場合は、初期値Ｇ_ｉは前の時間周期における値Ｇ［ｔ］に等しくすることが好ましい。このように信号が前の時間周期における値と大きく異ならない場合は、値Ｇ［ｔ］はおそらく実質的に同じになる。したがって、適切な値に収束させるまでほんの少しの反復計算を必要とするだけである。

反復計算が終了すると、Ｇ［ｔ］は、修正された信号が参照信号と一致するように、外部装置によって２０１にて入力信号に適用されるゲインを表す。図３は、ゲインを調整した出力信号を出力させるための、電圧制御増幅器（ＶＣＡ）２３６のような、信号レベル制御装置又は信号レベル制御機能の入力に、反復ゲイン更新２３３からゲインＧ［ｔ］が適用される適切な構成を示す。図３のＶＣＡは、ライン２３５上にあるゲインＧ［ｔ］の視聴覚的表示に応答して操作員がゲイン調整装置を制御することで置き換えてもよい。視聴覚的表示は、例えば指示計により表示される。ゲインＧ［ｔ］は時間平滑化（不図示）を受ける必要があるかもしれない。

いくつかの信号に対して、式（１０）及び（１１）に示した平滑化に代わるものが長期感知音量の計算に必要かもしれない。リスナーは信号の最も大きな部分と信号の長期音量とを関連づける傾向にある。その結果、式（１０）及び（１１）に示された平滑化では、長期の静寂が短期の大音量の素材で中断されるような信号が含まれている感知音量を過小評価してしまうかもしれない。このような信号は、長期の背景的ノイズの中に短いダイアログがあるようなフィルムのサウンドトラックにおいてしばしば見られる。式（１１）に閾値があるとはいえ、そのような信号の静寂部分は時間平均化したエキサイテーション

に対する寄与度が大きすぎる。

この問題を扱うために、本発明のさらなる特徴では、長期音量の計算に統計的な技術を採用することができる。まず、式（１０）及び（１１）の平滑時定数を非常に小さくし、

が「瞬間的な」エキサイテーションを表現するようにｔｄＢをマイナス無限大に設定する。この場合、平滑時定数λ_ｍは、瞬間的な音量の感知具合が周波数によって変動するようなもっと正確なモデルにするために、帯域ｍにより変動するように選ばれる。しかし実際には、ｍの変化に対して一定なλ_ｍを選択しても、満足できる結果を出力する。先に説明した手順の残りは、変化させないように動作し、式（１６）に示すような瞬間的な音量信号Ｓ［ｔ］となる。ｔ_１＜ｔ＜ｔ_２の範囲にわたって、この範囲の内のｐパーセントの時間はＳ［ｔ］より大きく、この範囲の内の１００−ｐパーセントの時間はＳ［ｔ］より小さい値として長期音量Ｓ_ｐ［ｔ_１,ｔ_２］が定義される。実験では、ほぼ９０％にした設定値ｐは、主観的に感知される長期音量に一致する。この設定では、長期音量に影響を与えるためにはＳ［ｔ］の値のほんの１０％が顕著であることが必要である。他の９０％は、比較的静寂であっても長期音量を下げることがないようにすることができる。

Ｓ_ｐ［ｔ_１,ｔ_２］の値は、Ｓ［ｔ］、ｔ_１≦ｔ≦ｔ_２、の値を昇順にソートして、リストＳ_ｓｏｒｔ｛ｉ｝、０≦ｉ≦ｔ_２−ｔ_１、にすることにより計算することができる。長期音量は、全体のｐパーセントの要素をリストにすることにより得られる。

S_p[t₁,t₂]=S_sort{round(p(t₂-t₁)/100)} （２７）

上記計算は単純なものである。しかし、ｘ［ｎ］を乗算すると、参照音量Ｓ_ｒｅｆと等しいＳ_ｐ［ｔ_１,ｔ_２］となるようなＧ［ｔ_１，ｔ_２］を計算したい場合は、この計算はさらに非常に複雑になる。先に説明したように反復計算が必要となるが、長期音量計測Ｓ_ｐ［ｔ_１,ｔ_２］は、反復計算の各々においてＧ_ｉの更新と共に更新しなければならない値のＳ［ｔ］、ｔ_１≦ｔ≦ｔ_２に全範囲において依存する。これらの更新を計算するために、信号

をｔ_１≦ｔ≦ｔ_２に全範囲において記憶させなければならない。加えて、Ｓ［ｔ］のＧ_ｉへの依存性は非線形なので、Ｓ［ｔ］、ｔ_１≦ｔ≦ｔ_２の相対順位は各反復計算により変動するかもしれず、したがってＳ_ｓｏｒｔ｛ｉ｝も再計算しなければならない。反復計算における特定のゲインに対して聴覚の閾値よりスペクトルの小さい信号部分のソート時間を考えたとき、再ソートの必要性が簡単に明らかとなる。ゲインが増大するとき、大部分のスペクトルが可聴となり、先に可聴であった信号の他の狭帯域部分よりその部分のトータル音量は大きくなる。範囲ｔ_１≦ｔ≦ｔ_２が広くなったとき、又は、ゲインＧ_ｐ［ｔ_１，ｔ_２］をスライディング時間窓の関数として連続的に計算したいとき、反復処理における計算コスト及びメモリーコストは法外なものになるかもしれない。

Ｓ［ｔ］がＧ_ｉの単調増加関数となることを実現することにより、計算とメモリーの大幅な削減が達成される。言い換えれば、Ｇ_ｉの増大は常に各瞬間における短期音量の増大をもたらす。この知見に基づき、好ましいマッチングゲインＧ_ｐ［ｔ_１，ｔ_２］が以下のように効率的に計算される。まず、範囲ｔ_１≦ｔ≦ｔ_２におけるｔの全値に対して前述の反復計算を用いて

から先に定義したマッチングゲインＧ［ｔ］を計算する。ここで、各値ｔに対してＧ［ｔ］は、１つの

の値について反復することにより計算することに留意すべきである。次いで、値Ｇ［ｔ］、ｔ_１≦ｔ≦ｔ_２、を昇順にソートして、リストＧ_ｓｏｒｔ｛ｉ｝、０≦ｉ≦ｔ_２−ｔ_１、にすることにより、長期マッチングゲインＧ_ｐ［ｔ_１，ｔ_２］を計算し、そして、

G_p[t₁,t₂]=G_sort{round((100-P)(t₂-t₁)/100)} （２８）

を設定する。

ここで、ｘ［ｎ］を乗算したとき、好ましい音量Ｓ_ｒｅｆに等しくなるようなＳ_ｐ［ｔ_１,ｔ_２］との計算結果となるゲインに、Ｇ_ｐ［ｔ_１，ｔ_２］が等しくなることについて説明する。ここで、式（２８）から範囲ｔ_１≦ｔ≦ｔ_２における時間値の１００−ｐパーセントに対してＧ［ｔ］＜Ｇ_ｐ［ｔ_１，ｔ_２］であり、他のｐパーセントに対してＧ［ｔ］＞Ｇ_ｐ［ｔ_１，ｔ_２］であることに留意しなければならない。Ｇ［ｔ］＜Ｇ_ｐ［ｔ_１，ｔ_２］であるこれらの値Ｇ［ｔ］について、もしＧ［ｔ］ではなく対応する

の値にＧ_ｐ［ｔ_１，ｔ_２］を適用したとすると、その結果算出されるＳ［ｔ］は、求める参照音量より大きくなることに留意しなければならない。Ｓ［ｔ］はゲインの単調増加関数であるので、このことは事実である。同様に、もしＧ［ｔ］＞Ｇ_ｐ［ｔ_１，ｔ_２］となるようなＧ［ｔ］に対応する

の値にＧ_ｐ［ｔ_１，ｔ_２］を適用したとすると、その結果算出されるＳ［ｔ］は、求める参照音量より小さくなることに留意しなければならない。したがって、Ｇ_ｐ［ｔ_１，ｔ_２］をｔ_１≦ｔ≦ｔ_２の範囲で全ての

に適用すると、１００−ｐパーセントの時間は求める参照値より大きく、ｐパーセントの時間は求める参照値より小さいようなＳ［ｔ］がその結果算出される。言い換えれば、Ｓ_ｐ［ｔ_１，ｔ_２］が求める参照値に等しくなる。

マッチングゲインを計算するこの代替的な方法は、ｔ_１≦ｔ≦ｔ_２の範囲にわたって

とＳ［ｔ］とを記憶させることを未然に防止する。Ｇ［ｔ］のみを記憶する必要がある。加えて、Ｓ［ｔ］を繰り返し再記憶させる必要がある先に説明した方法とは反対に、計算するＧ_ｐ［ｔ_１，ｔ_２］の全ての値に対して、ｔ_１≦ｔ≦ｔ_２の範囲にわたるＧ［ｔ］のソートは一度行なえばよい。Ｇ_ｐ［ｔ_１，ｔ_２］をある長さＴのスライディング窓（すなわち、ｔ_１＝ｔ−Ｔ，ｔ_２＝ｔ）にわたって連続的に計算する場合は、リストＧ_ｓｏｒｔ｛ｉ｝は、新しい時間区間毎に単に１つの値を取り除きソートしたリストから１つの値を加えるだけで効率的に維持できる。範囲ｔ１≦ｔ≦ｔ２が非常に長い（例えば、曲又はフィルムの全長さの）場合、Ｇ［ｔ］を記憶するメモリーはなお法外なものとなるかもしれない。この場合、Ｇ_ｐ［ｔ_１，ｔ_２］は、Ｇ［ｔ］の離散化ヒストグラム（discretized histogram）から近似することができる。実際には、このヒストグラムはデシベル単位でＧ［ｔ］から作ることができる。このヒストグラムは、以下のように、Ｈ［ｉ］＝ｔ_１≦ｔ≦ｔ_２の範囲でのサンプルの数として計算することができる。

ここで、Δ_dBはヒストグラムの分解能でありdB_minは、ヒストグラムの最小値である。マッチングゲインは、以下で近似される。

G_p[t₁,t₂]≒Δ_dBｉ_ｐ＋dB_min （３０ａ）

ここで

そして、Ｉは最大ヒストグラム指標である。この離散化ヒストグラムを用いると、Ｉの値のみを記憶する必要があり、新たなＧ［ｔ］の値と共にＧ_ｐ［ｔ_１，ｔ_２］が簡単に更新される。

Ｇ［ｔ］からＧ_ｐ［ｔ_１，ｔ_２］を近似する他の方法も考えられ、そのような技法も本発明に含まれる。本発明のこの部分の主要な特徴は、それからＧ_ｐ［ｔ_１，ｔ_２］を反復計算により算定するための長期音量Ｓ_ｐ［ｔ_１,ｔ_２］を生成するために短期音量Ｓ［ｔ］を処理する代わりに、長期マッチングゲインＧ_ｐ［ｔ_１，ｔ_２］を生成するためにマッチングゲインＧ［ｔ］にある種の平滑化を行なうことである。

図１０と１１は、それぞれ図２と３に似たシステムを表しているが、ここでは、マッチングゲインＧ［ｔ］の平滑化（装置又は機能２３７）が、平滑化されたゲイン信号Ｇ_ｐ［ｔ_１，ｔ_２］（信号２３８）を生成するために用いられる。

入力２３０（図２，３，１０，１１）における参照音量は、「固定」又は「可変」とすることができ、参照音量の発信元は本発明の実施の形態における構成の内部又は外部に置くことができる。例えば、参照音量はユーザーが設定することとしてもよく、この場合は、その発信源は外部となりユーザーによって再設定がなされるまでの期間設定は「固定」される。あるいは、参照音量は、図１の例に示した構成のような本発明による音量計測処理又は音量計測装置から導かれた他のオーディオ源の音量の測度としてもよい。

オーディオ発生装置の通常のボリューム制御は、図３又は図１１の例のような、本発明の特徴に従った処理又は装置に置き換えることができる。この場合、ユーザーが操作するボリュームノブ、スライダー、その他は図３又は図１１の２３０の参照音量を制御し、したがって、オーディオ発生装置は、ユーザーが調整したボリューム制御に相応した音量を発生することになる。

可変参照値の例を図１２に示す。ここでは、参照音量Ｓ_ｒｅｆは、例えば、参照音量可変装置又は参照音量可変機能（「可変参照音量」）２３９を通った音量信号Ｓ［ｔ］から計算される可変参照値Ｓ_ｒｅｆ［ｔ］に置き換えられる。この構成では、各期間ｔでの各反復計算の最初に、２０８でのエキサイテーションにゲインが適用される前に、補正されていない音量Ｓ［ｔ］から可変参照値Ｓ_ｒｅｆ［ｔ］を計算することができる。参照音量可変機能を通して、Ｓ_ｒｅｆ［ｔ］とＳ［ｔ］との関係はさまざまな効果を達成するためにさまざまな形式をとることができる。例えば、この関数は、元の音量に対して固定された比率の参照値を生成するために単に倍率をＳ［ｔ］にかけるものでもよい。あるいは、この関数は、Ｓ［ｔ］がある閾値以下のときＳ［ｔ］以上の参照値を生成し、Ｓ［ｔ］がある閾値以上のときＳ［ｔ］以下の参照値を生成するようにしてもよく、このようにして、オーディオの感知音量のダイナミックレンジを減少させてもよい。この関数がどのような形であろうと、先に説明したＧ［ｔ］を計算するための反復計算が以下のようになされる。

マッチングゲインはＧ［ｔ］は、求める知覚効果を達成するために先に説明したような技法又は他の適切な技法により平滑化される。最後に、オーディオ信号２０１とＶＣＡブロック２３６との間の時間遅れ２４０が、ゲインの平滑化計算における待ち時間を補償するために導入される。このような時間遅れは図３及び１１の構成においても用いられる。

図３のゲイン制御信号Ｇ［ｔ］の構成及び図１１の平滑化されたゲイン制御信号Ｇｐ［ｔ_１，ｔ_２］は、例えば、知覚音量がチャンネルごとに異なる放送されたテレビジョン又は衛星ラジオを含むさまざまな応用例に有用である。このような環境の下では、本発明の装置又は方法は、各チャンネルからのオーディオ信号を参照音量レベル（又は参照信号の音量）と比較することができる。オペレータ又は自動化された装置は、このゲインを各チャンネルの音量を調整するために使うことができる。このようにして全てのチャンネルが実質的に同じ感知音量を持つことになる。図１３は、１からＮまでの複数のテレビジョンチャンネル又はオーディオチャンネルからのオーディオが、各々図３又は１１に示したような本発明の特徴に従うプロセス又は装置２５０，２５２の入力２０１として適用される構成例を示す。同じ参照音量レベルがプロセス又は装置２５０，２５２の各々に適用され、その結果、各出力２３６で１チャンネルからＮチャンネルまでのオーディオが音量調整される。

計測及びゲイン調整技法は、入力オーディオ素材を監視し、主として人間のスピーチ信号が含まれているオーディオ内容を特定し、そして、スピーチ信号があらかじめ定義された参照レベルに実質的に一致するようにゲインを計算するようなリアルタイム計測装置に適用することもできる。オーディオ素材におけるスピーチを特定するために適した技法は、２００２年８月３０日に米国特許出願Ｓ.Ｎ.１０／２３３，０７３として出願され、２００４年３月４日にＵＳ２００４／００４４５２５Ａｌとして出願公開された出願に記載されている。上記出願は、その全体が参照として本出願に組み込まれる。オーディオ内容に対する聴衆の不快感は、プログラム素材のスピーチ部分に集中する傾向があるので、計測及びゲイン調整技法は、一般にテレビジョン、フィルム、及びミュージック素材に用いられるオーディオにおいて不快感のレベルの差異を大きく減少させる。

実施の形態
本発明は、ハードウェア又はソフトウェア又は両者の組み合わせ（例えば、プログラマブルロジックアレー）により実施することができる。特記なき場合は、本発明の一部として含まれるアルゴリズムは、特定のコンピュータ又は他の装置に本質的に関連するものではない。特に、ここでの開示にしたがって書かれたプログラムによりさまざまな汎用マシーンを使用してもよく、また、要求される方法を実行するために特別に作られた装置（例えば、集積回路）を作ることはもっと便利かもしれない。このように、各々が少なくとも１つのプロセッサ、少なくとも１つのデータ記憶システム（揮発性メモリー、不揮発性メモリー、及び／又は記憶素子を含む）、少なくとも１つの入力装置又は入力ポート、及び少なくとも１つの出力装置又は出力ポートからなる１以上のプログラム可能なコンピュータシステム上で動作する１以上のコンピュータプログラムにより本発明を実施することができる。プログラムコードは、本明細書に記載した機能を実行し出力情報を生成するために入力データにおいて適用される。出力情報は、既知の方法で、１以上の出力装置において適用される。

このようなプログラムの各々は、コンピュータシステムト通信するために好ましいどんなコンピュータ言語（機械語、アセンブリ言語、又は高級手続言語、ロジック言語、又はオブジェクト指向プログラム言語を含む）で実行してもよい。どの場合でも、言語はコンパイラでもインタプリタでもよい。

記憶媒体又は装置をコンピュータが読み出し、ここに記載した手続を実行させるために、このようなコンピュータプログラムは、汎用コンピュータ又は特定目的のプログラム可能なコンピュータで読み出し可能な記憶媒体又は装置（例えば、半導体メモリ又は媒体、又は次期媒体又は光学媒体）に記憶しておくことが好ましい。本発明のシステムは、コンピュータプログラムとして構成され、この記憶媒体がここに記載した機能を実行するために具体的かつあらかじめ定めた方法でコンピュータを動作させるよう構成されている、コンピュータで読み出し可能な記憶媒体として実施することも考えられる。

本発明の種々の実施の形態をここで説明した。しかしながら、本発明の思想や範囲から逸脱することなしにさまざまな変更を加えることが可能であることは了解されよう。例えば、上述の工程のいくつかはその順序に関係がなく、したがって、ここに説明したものとは異なる順序で実施することができる。したがって、他の実施の形態も以下の特許請求の範囲に含まれる。

本発明における一実施の形態の概略機能ブロックダイアグラムである。本発明における他の実施の形態の概略機能ブロックダイアグラムである。本発明におけるさらに他の実施の形態の概略機能ブロックダイアグラムである。本発明の一実施の形態における伝達フィルターに適した線形フィルターＰ（ｚ）の理想的な応答を示す。ここで垂直軸はデシベル（ｄＢ）単位で示した減衰で、水平軸はヘルツ（Ｈｚ）単位で示した底１０の対数で示した周波数である。ＥＲＢ周波数スケール（垂直軸）とヘルツ（Ｈｚ）単位で示した周波数（水平軸）との関係を示す。ＥＲＢスケールにおけるクリティカル帯域を近似した応答特性を持つ理想的な聴覚フィルターを示す。水平軸はヘルツ単位で示した周波数で、垂直軸はデシベル単位で示したレベルである。ＩＳ０２６６の等音量曲線を示す。水平軸はヘルツ（Ｈｚ）単位で示した周波数であり（底１０の対数）、垂直軸はデシベル単位で示した音圧レベルである伝達フィルターＰ（ｚ）により正規化されたＩＳ０２６６の等音量曲線を示す。水平軸はヘルツ（Ｈｚ）単位で示した周波数であり（底１０の対数）、垂直軸はデシベル単位で示した音圧レベルである。ユニフォームエキサイティングノイズ（uniform-exciting noise）と１ｋＨｚトーンでの音量をプロットしたものを示し（実線）、実線は、パラメータをツビッカーの実験データ（四角及び丸）に適合するように選んだ本発明の実施の形態によるものである。垂直軸はソーン単位で示した音量（底１０の対数）であり、水平軸はデシベル単位で示した音圧レベルである。本発明におけるさらに他の実施の形態の概略機能ブロックダイアグラムである。本発明におけるなおさらなる他の実施の形態の概略機能ブロックダイアグラムである。本発明における別の１つの実施の形態の概略機能ブロックダイアグラムである。本発明におけるさらに別の１つの実施の形態の概略機能ブロックダイアグラムである。

Claims

オーディオ信号を処理する方法であって、
前記オーディオ信号に応答して、該オーディオ信号に乗算するとトータル音量と参照音量との差が閾値以下になるようなゲイン値を計算するステップであって、該ゲイン値を計算するステップの一部は、該ゲイン値の閉形式解が存在しないものに対する非線形処理であり、該計算するステップには、線形処理の過程で前記オーディオ信号から複数帯域のエキサイテーション信号を導き出すステップと、非線形処理の過程で該複数帯域のエキサイテーション信号から各帯域の特定音量とトータル音量とを導き出すステップとが含まれることを特徴とするステップと、
前記トータル音量と前記参照音量との差が閾値以下になるまで前記エキサイテーション信号の大きさを反復的に調整するステップであって、該反復的に調整するステップは、各帯域の特定音量を導き出すステップとトータル音量を導き出すステップとが含まれ前記エキサイテーション信号を導き出すステップが含まれないことを特徴とするステップと、
を具備することを特徴とする方法。
前記非線形処理には、２以上の前記特定音量モデル関数のグループから、１つの特定音量モデル関数又は２以上の前記特定音量モデル関数の１つの組み合わせを選択する特定音量計算が含まれ、前記選択は、入力オーディオ信号の特性を示す測度により制御されることを特徴とする請求項１に記載の方法。
前記エキサイテーション信号は時間的に平滑化されており、及び／又は、ゲイン値Ｇ［ｔ］を時間的に平滑化するステップをさらに具備することを特徴とする請求項１に記載の方法。
前記エキサイテーション信号は、線形的に時間的に平滑化されていることを特徴とする請求項３に記載の方法。
前記方法は、ゲイン値Ｇ［ｔ］を平滑化するステップをさらに具備し、前記平滑化するステップはヒストグラム技法を採用することを特徴とする請求項５に記載の方法。
前記反復的処理ループには、時間的に平滑化するステップが含まれることを特徴とする請求項１に記載の方法。
前記反復的に調整するステップは、最小化アルゴリズムに従うことを特徴とする請求項１に記載の方法。
前記最小化アルゴリズムは、最小化のための勾配法によることを特徴とする請求項７に記載の方法。
前記参照音量は、ユーザーにより設定されることを特徴とする請求項１乃至請求項８のいずれか１項に記載の方法。
前記参照音量は、前記オーディオ信号の、計算された感知音量の特性を示す測度から導き出されることを特徴とする請求項１乃至請求項９のいずれか１項に記載の方法。
前記参照音量は、前記オーディオ信号の、計算された感知音量に倍率を掛けたものであることを特徴とする請求項１０に記載の方法。
前記参照音量は、計算された感知音量が閾値以下の場合は計算された感知音量より大きく、計算された感知音量が閾値以上の場合は計算された感知音量より小さいことを特徴とする請求項１１に記載の方法。
複数のオーディオ信号を処理する方法であって複数の処理を含み、各処理では前記オーディオ信号のそれぞれ１つを受け取るステップを具備し、各処理において、
前記それぞれのオーディオ信号に応答して、エキサイテーション信号を作り、
少なくとも前記エキサイテーション信号に応答して、ゲイン値Ｇ［ｔ］を計算し、前記ゲイン値を前記オーディオ信号に適用した場合、結果として生じた音量は参照音量と実質的に同じとなり、前記計算するステップには、少なくとも１つの非線形処理を含む反復的処理ループが含まれており、
前記それぞれのオーディオ信号の結果として生じた音量が参照音量と実質的に同じとなるよう、前記ゲインＧ［ｔ］でぞれぞれのオーディオ信号の強度を制御し、
前記複数の処理の各々に同一の参照音量を適用する、
ことを特徴とする方法。
オーディオ信号を処理する方法であって、
前記オーディオ信号に応答して、エキサイテーション信号を作るステップと、
前記エキサイテーション信号と前記オーディオ信号の特性を示す測度に応答して前記オーディオ信号の音量を計算するステップとを具備し、前記計算するステップでは、２以上の特定音量モデル関数のグループから、１つの特定音量モデル関数又は２以上の特定音量モデル関数の１つの組み合わせを選択し、この選択は、入力オーディオ信号の特性を示す測度により制御されることを特徴とする方法。
前記オーディオ信号の特性を示す測度は、入力信号のスペクトル的に平坦な程度を示す測度であることを特徴とする請求項１４に記載の方法。
前記計算するステップでは、２つの特定音量モデル関数からの選択、又は２つの特定音量モデル関数の組み合わせをおこない、ここで、第１の特定音量モデル関数は、スペクトル的に平坦でない入力信号から得られた特性を示す測度により選択されたものであり、第２の特定音量モデル関数は、スペクトル的に平坦な入力信号から得られた特性を示す測度により選択されたものであり、第１の特定音量モデル関数と第２の特定音量モデル関数の組み合わせは、一部がスペクトル的に平坦でなく一部がスペクトル的に平坦である入力信号から結果として得られた特性を示す測度により選択されたものであることを特徴とする、請求項１４に記載の方法。
請求項１乃至請求項１６のいずれか１項に記載の方法を実行するように作られた装置。
請求項１乃至請求項１６のいずれか１項に記載の方法をコンピュータに実行させるためにコンピュータで読み込み可能な媒体に記憶させたコンピュータプログラム。