JP2020517179A

JP2020517179A - 入力音響信号を処理する装置および対応する方法

Info

Publication number: JP2020517179A
Application number: JP2019555777A
Authority: JP
Inventors: マバンデ，エドウィン; ケッヒ，ファビアン; クラツシュマー，ミハエル; マイヤー，ミハエル; ノイゲバウアー，ベルンハルト
Original assignee: フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date: 2017-04-13
Filing date: 2018-04-10
Publication date: 2020-06-11
Anticipated expiration: 2038-04-10
Also published as: ZA201907360B; BR112019021377A2; WO2018188812A1; CA3059618C; AU2018253130B2; EP3389183A1; CA3059618A1; EP3610572A1; US20200112294A1; AR111639A1; JP6833062B2; EP3610572B1; SG11201909415TA; US10886883B2; KR20200004319A; MX2019012195A; RU2734741C1; CN110754040B; CN110754040A; AU2018253130A1

Abstract

入力音響信号（１００）を処理する装置（１）は、入力音響信号（１００）の音量を評価して音量範囲（ＬＲＡｉｎ）および実際の音量値を決定する評価器（１０）を備えている。計算機（１１）は、決定された音量範囲（ＬＲＡｉｎ）と、目標音量範囲（ＬＲＡｄｅｓ）と、決定された実際の音量値とに基づいて、圧縮機伝達関数を決定する。計算機（１１）はさらに、決定された圧縮機伝達関数に基づいて少なくとも１つの音量範囲制御ゲインを決定する。調整器（１２）は、入力音響信号（１００）と少なくとも１つの決定された音量範囲制御ゲインとに基づいて出力音響信号（１０１）を提供する。計算機（１１）は、出力音響信号（１０１）の平均音量（μ_ｏｕｔ）と入力音響信号（１００）の平均音量（μ_ｉｎ）との差が最小になるように、圧縮機伝達関数を決定するように構成されている。対応する方法も提供される。
【選択図】図３

Description

本発明は、入力音響信号を処理する装置に関する。本発明はまた、対応する方法およびコンピュータプログラムにも関する。

本発明は、音響信号を処理する分野に関し、より具体的には、音響信号の音量範囲を制御する、すなわち、所望の目標音量範囲に一致するように音響信号の音量範囲を調整するアプローチに関する。

音量範囲［１］は、音響信号の強弱の尺度である。［１］に記載されているように、本出願の意味において、音量範囲は、時間変化する音量測定値の変動を定量化する。したがって、音量範囲は、測定された瞬間音量値の統計的分布を表す。

音量範囲を制御することは、幅広いシナリオ、例えば、
・音響再生システムの機能に制約がある装置での再生、
・深夜モードなどの特別な表示モードでの再生、
・周囲ノイズが高い環境での再生、
・リアルタイムの音量正規化のための前処理、
の場合に望ましい。

音響信号の音量範囲を制御して目標音量範囲を達成できる方法は、ここでは音量範囲制御（ＬｏｕｄｎｅｓｓＲａｎｇｅＣｏｎｔｒｏｌ：ＬＲＡＣ）法と呼ばれる。文献では、大部分の方法が音響信号のダイナミックレンジの制御、つまりダイナミック・レンジ・コントロール（ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌ：ＤＲＣ）を求めている。音量範囲の定義は標準化されている［１］が、ダイナミックレンジの定義は時々異なる。もちろん、ダイナミックレンジの制御は、音量範囲の制御に関連している。したがって、簡単にするために、両方をＬＲＡＣ法として扱うことができる。

自動ゲイン制御（Ａｕｔｏｍａｔｉｃｇａｉｎｃｏｎｔｒｏｌ：ＡＧＣ）は、音響信号の全体的なレベルの制御に関連する方法を表す。ゲインは通常、時間変化するという事実により、これは通常、ダイナミックレンジの変更につながり、つまり、ダイナミックレンジは通常減少する。ただし、ダイナミックレンジの変化量は予測できず、つまり、出力信号のダイナミックレンジは不明であり、望ましい方法で制御することはできない。

もちろん、予め選択された固定の伝達関数（プロファイルとも呼ばれる）を備えた圧縮機を適用する目的は、音響信号の音量範囲を変更することである。伝達関数の選択は、表示モードなどの予め定義された基準に基づいている。ただし、予め定義された圧縮機伝達関数を適用しても、出力において目標音量範囲が達成されることを保証することはできない。

所望の目標音量範囲を達成するために、特定の音響信号に固有の伝達関数が決定される。次に、伝達関数が音響信号に適用され、音量範囲が制御された音響が生成される。さらに、伝達関数は、音響信号品質の低下を最小限に抑えながら、所望の目標音量範囲を達成するように設計する必要がある。

最新技術では、さまざまな方法が知られている。

予め定義された／固定の伝達関数：
伝達関数は予め定義されており、映画、ニュース、音楽などの予想される再生コンテンツに基づいて、または深夜モードなどのリスニングモードに基づいて選択される。

基準信号ベースの伝達関数：
他の方法［２］は、測定された基準信号、例えば、リスニング環境のバックグラウンドノイズのレベルと、再生装置の音量制御設定の組み合わせを使用することを提案している。

パラメータベースの伝達関数：
ここでは、伝達関数はユーザ定義の入力パラメータのみに基づいて設計されている。

［３］で提案されている方法では、入力音響信号の平均レベルとダイナミックレンジとが決定される。平均レベルとユーザの希望するダイナミックレンジの設定とに基づいて、伝達関数が計算され、入力音響信号に適用される。

図１は、スライダベースの望ましいダイナミックレンジの許容範囲と対応する伝達関数とを示している。図のｘ軸には［ｄＢ］の入力音量が、ｙ軸には［ｄＢ］の出力音量が表示される。左側の例のスライダでは、伝達関数の形式に影響を与える「ダイナミックレンジの許容範囲」を設定できる。入力音量の低い領域は、ノイズフロアの上限に達する。この後に、一定の出力音量を持つセクションが続く。この場合、ダイナミックレンジの許容範囲は、所望のダイナミックレンジに対応する。伝達関数の線形部分は、時間に依存し、出力音量が一定のもう一つ続くセクションが平均信号レベル（水平シフト）に配置される。

測定されたダイナミックレンジは伝達関数の計算には使用されず、つまり、入力音響信号のダイナミックレンジまたは音量範囲の専用制御は不可能である。

［４］では、平均音量からの平均絶対偏差である動的拡散が制御される。図２（出力音量対入力音量）に示すように、２つの線分を持つ特定の圧縮機が使用される。推定される２つのパラメータは、圧縮機のしきい値（黒い点で示されている）と勾配（つまり、破線で示された線形曲線からの偏差）である。しきい値はユーザによってパーセンタイルとして指定され、ダイナミクスプロファイル［ｄＢｖｓパーセンタイル］を使用してｄＢに変換される。勾配は、動的拡散の変化と勾配の変化との間に線形関係があるという仮定に基づいて計算される。

（１）
ここで、Ｓ_ｄｅｓおよびＤ_ｄｅｓはそれぞれ所望の勾配および動的拡散であり、Ｄ_ｉｎは測定された動的拡散である。

通常、Ｓ_ｍｉｎ＝Ｄ_ｍｉｎ＝０、Ｓ_ｍａｘ＝１、およびＤ_ｍａｘ＝Ｄ_ｉｎであり、したがって、

（２）

伝達関数は、反復プロセスを介して適応される。

最初に、伝達関数は、達成された動的拡散を決定するために、音響データの入力ヒストグラムまたは音響データに適用される。次に、伝達関数の勾配が調整され、所望の動的拡散が達成されるまで手順が繰り返される。

ダイナミック・レンジ・コントロールに対するこのアプローチには、２つの欠点がある。

１）伝達関数の勾配のみが決定され、原点に対する位置、つまり入力／出力レベルが広がる平面のシフトは決定されない。したがって、結果のゲインの範囲は予測できない。

２）最初の伝達関数から最終的な伝達関数を取得するための反復プロセスは計算上非常に複雑であり、ユーザ定義のしきい値を使用して初期伝達関数を選択すると、見込まれる最終伝達関数の特性が制限されるため、必ずしも最良の結果にならない場合がある。

メイクアップゲインは、最終伝達関数を入力ヒストグラムに適用し、続いて入力ヒストグラムから出力音量を近似することによって計算される。

本発明の目的は、特に最新技術の欠点を被らない出力信号の音量に関する入力音響信号を処理するための装置および方法を提供することである。

この目的は、評価器、計算機、および調整器を含む、入力音響信号を処理するための装置によって達成される。評価器は、入力音響信号の音量を評価して、音量範囲と実際の音量値とを決定するように構成されている。音量範囲は、一実施形態では、入力音響信号全体に対して決定され、別の実施形態では、入力音響信号の所与の期間（例えば時間枠）に対して決定される。実際の音量値は、例えば入力音響信号の瞬間的または短期的な音量値［６］である。前述の実際の音量測定値の代わりに、入力音響信号の少なくとも一定期間のレベルまたは出力、例えば平均出力の適切な測定値を示すまたは提供する任意の測定値を使用できることは明らかである。計算機は、決定された音量範囲、目標音量範囲、および決定された実際の音量値に基づいて、圧縮機の伝達関数を決定するように構成されている。いくつかの実施形態では、圧縮機伝達関数はさらに、音量値の決定された統計モーメントに基づいている。統計モーメントは、例えばＩＴＵ−ＲＢＳ．１７７０［５］に準拠した音響入力の音量値または統合されたゲート音量の平均である。計算機は、決定された圧縮機伝達関数に基づいて、少なくとも１つの音量範囲制御ゲインを決定するように構成されている。調整器は、入力音響信号と少なくとも１つの決定された音量範囲制御ゲインとに基づいて出力音響信号を提供するように構成されている。別の実施形態では、計算機は、出力音響信号を提供するために、調整器に音量範囲制御ゲインを提供する。

一実施形態では、評価器は、入力音響信号の音量を評価して、音量値の統計モーメントを決定するように構成される。さらに、計算機は、決定された音量範囲、目標音量範囲、および決定された実際の音量値と決定された音量値の統計モーメントとの差に基づいて、圧縮機伝達関数を決定するように構成される。

別の実施形態では、計算機は、曲線およびシフトに基づいて圧縮機伝達関数を決定するように構成され、計算機は、決定された音量範囲および目標音量範囲に基づいて曲線を決定するように構成され、計算機は、音量値の決定された統計モーメントに基づいてシフトを決定するように構成される。

一実施形態によれば、計算機は、勾配およびシフトに基づいて圧縮機伝達関数を決定するように構成され、計算機は、決定された音量範囲および目標音量範囲に基づいて勾配を決定するように構成され、計算機は、音量値の決定された統計モーメントに基づいてシフトを決定するように構成される。

一実施形態では、決定された圧縮機伝達関数は、入力音響信号全体に対して有効である。

一実施形態によれば、評価器は、入力音響信号全体の音量を評価するように構成される。

一実施形態では、評価器は、入力音響信号の少なくともある期間の音量を評価するように構成される。

一実施形態によれば、評価器は、瞬間的または短期的な音量値を実際の音量値として決定するように構成される。

一実施形態では、評価器は、音量値の統計モーメントとして平均音量を決定するように構成される。

別の実施形態では、評価器は、統合されたゲート音量を音量値の統計モーメントとして決定するように構成される。

一実施形態によれば、計算機は、出力音響信号の平均音量と決定された入力音響信号の平均音量とが等しくなるように、圧縮機伝達関数を決定するように構成される。

一実施形態では、計算機は、決定された音量範囲制御ゲインを調整器に提供するように構成される。

一実施形態では、計算機は、計算された音量範囲制御ゲインが最大ゲイン値以下である場合にのみ、決定された音量範囲制御ゲインを調整器に提供するように構成される。一実施形態によれば、決定された音量範囲制御ゲインが最大ゲイン値よりも大きい場合、計算機は、調整器に最大ゲイン値を提供するように構成される。代替実施形態では、決定された音量範囲制御ゲインが最大ゲイン値よりも大きい場合、計算機は調整器にゲインを提供せず、調整器は最大ゲイン値を仮定するか、そのような状況のために保存されたゲインを使用する。

さらなる実施形態において、計算機は、決定された圧縮機伝達関数および最大ゲイン値に基づいて音量範囲制御ゲインを決定し、決定された音量範囲制御ゲインが最大ゲイン値以下になるように構成される。したがって、計算機は、例えば、実際に決定されたゲイン値の最小値と最大ゲイン値とを計算することにより、決定された音量範囲制御ゲインを調整器に送るよう決定する。

一実施形態によれば、最大ゲイン値は、ユーザ入力によって設定される。代替実施形態では、最大ゲイン値は、入力音響信号の目標音量範囲と決定された音量範囲との差に依存する。

一実施形態によれば、装置は、目標音量範囲の値を受信するように構成された入力インターフェースをさらに備える。したがって、ユーザは入力インターフェースを介して、所望の目標音量範囲を入力する。

装置およびそれに応じた方法のいくつかのさらなる実施形態は以下のとおりである。

一実施形態では、評価器は、入力音響信号の音量を評価して、音量範囲および平均音量を決定するように構成される。計算機は、入力音響信号の目標音量範囲と決定された音量範囲との間の比に比例する勾配値を計算するように構成される。計算機は、入力音響信号の決定された平均音量に依存するシフト値を計算するように構成される（一実施形態では、シフトは、決定された平均音量に１と勾配の差を掛けたものに依存する）。計算機は、計算されたシフト値と計算された勾配値に依存する線形伝達関数に基づいて音量範囲制御データを計算するように構成されている。最後に、調整器は、入力音響信号と音量範囲制御データとに基づいて出力音響信号を提供するように構成されている。

一実施形態では、線形伝達関数は、入力音響信号全体に対して有効である。この実施形態では、１つの線形伝達関数が入力音響信号全体、すなわちすべての音量値に使用される。一実施形態では、線形伝達関数は、非常に高いおよび／または低い音量値を除いて、入力音響信号全体に対して有効である。

一実施形態によれば、評価器は、入力音響信号全体の音量範囲および平均音量を決定するように構成される。この実施形態は、入力音響信号のオフライン処理に特に関連している。

一実施形態では、評価器は、入力音響信号の少なくとも一部の音量範囲および平均音量を決定するように構成される。

一実施形態によれば、計算機は、比例定数と入力音響信号の目標音量範囲と決定された音量範囲との間の比との積として勾配値を計算するように構成される。目標音量範囲はユーザによって入力され、出力音響信号の音量範囲を指し、決定された音量範囲は入力音響信号によって与えられる。

一実施形態では、比例定数は１に設定される。したがって、勾配値は、目標音量範囲と決定された音量範囲との比によって与えられる。

一実施形態によれば、計算機は、出力音響信号の平均音量と入力音響信号の決定された平均音量とが等しくなるようにシフト値を計算するように構成される。

一実施形態では、計算機は、以下の式を使用してシフト値を計算するように構成される：ａ＝μ_ｉｎ＊（１−ｂ）。シフト値はａで与えられ、入力音響信号の決定された平均音量はμ_ｉｎで示され、ｂは計算された勾配値である。

一実施形態によれば、計算機は、音量範囲制御ゲインを提供するように構成され、調整器は、音量範囲制御ゲインを入力音響信号に適用するように構成される。

一実施形態では、評価器は、短期持続時間を有する入力音響信号のフレームの入力音量値を決定するように構成される。計算機は、入力音響信号のフレームに対応する出力音響信号のフレームの出力音量値を提供するように構成されている。さらに、計算機は、次の式を使用して出力音量値を計算するように構成されている：Ｎ_ｏｕｔ（ｋ）＝ａ＋ｂ＊Ｎ_ｉｎ（ｋ）。ここで、Ｎ_ｏｕｔ（ｋ）は出力音量値、ａはシフト値、ｂは勾配値、Ｎ_ｉｎ（ｋ）は入力音響信号の対応するフレームの決定された入力音量値、ｋはフレームの指標である。したがって、フレームは音量範囲および／または平均音量が決定される入力信号の一部である。

一実施形態によれば、計算機は、出力音響信号のフレームの計算された音量値と入力音響信号の対応するフレームの決定された音量値との差として音量範囲制御ゲインを提供するように構成される。

一実施形態では、計算機は、以下の式を使用して音量範囲制御ゲインを提供するように構成されている：Ｇ（ｋ）＝ａ＋（ｂ−１）＊Ｎ_ｉｎ（ｋ）。Ｇ（ｋ）は音量範囲制御ゲイン、ａは計算されたシフト値、ｂは計算された勾配値、Ｎ_ｉｎ（ｋ）は入力音響信号のフレームの決定された入力音量値、ｋはフレームの指標である。したがって、音量範囲制御ゲインは、調整器によって使用される音量範囲制御データの例である。

一実施形態によれば、調整器は、音量範囲制御ゲインを入力音響信号に適用して出力音響信号を提供するように構成される。

一実施形態では、計算機は、調整器に計算された音量範囲制御ゲインを提供するように構成される。一実施形態によれば、提供される計算された音量範囲制御ゲインは、最大ゲイン値以下である。

一実施形態によれば、最大ゲイン値は、ユーザ入力によって設定される。

一実施形態では、最大ゲイン値は、目標音量範囲と入力音響信号の決定された音量範囲との差に依存する。

一実施形態によれば、計算機は、調整器に計算された音量範囲制御ゲインを提供するように構成される。提供される計算された音量範囲制御ゲインは、一実施形態では、最小ゲイン値以上である。

一実施形態では、評価器は、入力音響信号の統合音量を決定するように構成される。さらに、計算機は、入力音響信号の決定された統合音量および出力信号の目標統合音量に基づいてメイクアップゲイン値を計算するように構成される。最後に、調整器は、メイクアップゲイン値を適用することにより、出力音響信号の音量を変更するように構成されている。

一実施形態によれば、評価器は、入力音響信号の統合音量を決定するように構成される。計算機は、シフト値、勾配値、および決定された統合音量に基づいてメイクアップゲイン値を計算するように構成されている。調整器は、メイクアップゲイン値を適用することにより、出力音響信号の音量を変更するように構成されている。

一実施形態では、計算機は、次の式を使用してメイクアップゲイン値を計算するように構成される：Ｇ_ｍｕ＝ａ＋（ｂ−１）Ｉ_ｉｎ。
Ｇ_ｍｕはメイクアップゲイン値、ａはシフト値、ｂは勾配値、Ｉ_ｉｎは、入力音響信号の決定された統合音量である。

この目的は、入力音響信号を処理する方法によっても達成される。表現入力音響信号は、発話信号と同様に音響信号を含む。

入力音響信号を処理する方法は、少なくとも、
・入力音響信号の音量を評価して、音量範囲と実際の音量値を決定するステップと、
・決定された音量範囲、目標音量範囲、決定された実際の音量値、および決定された音量値の統計モーメントに基づいて、圧縮機伝達関数を決定するステップと、
・決定された圧縮機伝達関数に基づいて、少なくとも１つの音量範囲制御ゲインを決定するステップと、
・入力音響信号および少なくとも１つの決定された音量範囲制御ゲインに基づいて出力音響信号を提供するステップと、
を備えている。

別の実施形態では、
・入力音響信号の音量を評価して、音量範囲と平均音量とを決定するステップと、
・目標音量範囲と決定された音量範囲との比に比例する勾配値を計算するステップと、
・決定された平均音量に依存するシフト値を計算するステップと、
・計算されたシフト値と計算された勾配値に依存する線形伝達関数とに基づいて音量範囲制御データを計算ステップと、
・入力音響信号および音量範囲制御データに基づいて出力音響信号を提供するステップと、
が実行される。

上記の装置の実施形態は、この方法にも有効である。

本発明はまた、コンピュータまたはプロセッサで動作しているときに、入力音響信号を処理する方法を実行するためのコンピュータプログラムに関する。

本発明は、添付の図面および添付の図面に示される実施形態に関して以下に説明される。

最先端のＬＲＡＣの伝達関数を示す。は、最先端のＬＲＡＣの異なる伝達関数を示す。入力音響信号を処理するための装置のブロック図を示す。入力音響信号を処理する方法のステップの異なるブロック図を示している。勾配（図５ａ）と勾配およびシフト（図５ｂ）の伝達関数を示す。（上図）映画の１時間の音響セグメントの短期音量ヒストグラムと（下図）２つの異なる伝達関数とを示す。例示的なヒストグラム、最新技術による異なる伝達関数、および本発明による伝達関数を示す。

図１および図２は、最新技術による伝達関数を示す。

図３は、入力音響信号１００を処理し、出力音響信号１０１を提供する装置１の例示的な実施形態を示す。評価器１０は、この示された実施形態において、入力音響信号１００の音量範囲ＬＲＡ_ｉｎおよび平均音量μ_ｉｎを決定するために、入力音響信号１００の音量を評価する。この示された実施形態では、評価器１０は、入力音響信号１００の統合音量Ｉ_ｉｎおよび入力音響信号１００の異なるフレームｋの入力音量値Ｎ_ｉｎ（ｋ）も決定する。

決定された値は計算機１１に送信され、計算機１１は、入力インターフェース１３を介してユーザによって入力された所望の目標音量範囲ＬＲＡ_ｄｅｓも参照する。

計算機１１は、調整器１２、すなわち音量の調整器、によって使用される音量範囲制御データを計算し、入力音響信号１００に作用し、出力音響信号１０１を提供する。さらに、計算機１１は、音量範囲制御ゲインＧの形で音量範囲制御データを提供し、ここでも、メイクアップゲインＧ_ｍｕを提供する。これは、圧縮機伝達関数を決定した結果である。

本実施形態では、本発明のＬＲＡＣは、出力音響信号１０１の音量範囲制御を達成するために、入力音響信号１００に線形変換を適用する。

本発明のＬＲＡＣのさらなる実施形態のブロック図が図４に示されている。

この実施形態では、ステップは次のとおりである。
・音響を取得、つまり、入力音響信号を取得する。これは、次のｘで示される。
・瞬間音量を計算する。
・計算された瞬間音量は、ユーザが設定した目標音量に依存するメイクアップゲインを計算するステップに使用される。
・計算された瞬間音量は、短期音量を計算するステップと、それに続く、ユーザが設定した目標音量範囲に依存する伝達関数を決定するステップにも使用される。
・決定された伝達関数は、上記のメイクアップゲインを計算するステップと、ＬＲＡＣゲインを計算する次のステップに送信される。
・ＬＲＡＣゲインおよびメイクアップゲインは、音響、つまり入力音響信号の次のステップで適用される。
・ここでｙと名付けられた出力音響信号を出力する。

出力音響信号ｙは次のように取得される。
ｙ＝ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ）ｘ（３）
ここで、ｇは、音量範囲を制御するために入力音響信号ｘに適用されるゲインである。ゲインｇは、入力音響ＬＲＡ_ｉｎの音量範囲、所望の目標音量範囲ＬＲＡ_ｄｅｓ、および期間Ｎ_ｉｎにわたる音量測定値、例えば短期または瞬間音量に基づいて取得される。これは、評価器または入力音響信号の音量を評価するステップによって決定される実際の音量値とも呼ばれる。音量測定値Ｎ_ｉｎは、通常、時間変化する。一実施形態では、ゲインは、音量値の決定された統計モーメントに基づいてさらに取得される。統計モーメントは、例えば、ＩＴＵ−ＲＢＳ．１７７０［５］による音響入力の音量値または統合されたゲート音量の平均である。

ｄＢ単位のゲインは
Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ）＝１０ｌｏｇ_１０（ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ））（４）
である。

一実施形態では、ゲインＧは、入力音響ＬＲＡ_ｉｎの音量範囲、所望の目標音量範囲ＬＲＡ_ｄｅｓ、および音量測定値の統計モーメントと音量測定値との差ΔＮに基づくマッピング関数Ｑから得られる。
Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ）＝Ｑ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，△Ｎ）（５）

一実施形態では、ΔＮの実現は、音響入力μ_ｉｎの平均音量（または代替として、ＩＴＵ−ＲＢＳ．１７７０［５］による音響入力の統合ゲート音量）と期間Ｎ_ｉｎの音量測定値との差、つまり次の式によって与えられる。
ΔＮ＝μ_ｉｎ−Ｎ_ｉｎ

期間Ｎ_ｉｎの音量測定値は、入力音響信号の期間またはフレームの実際の音量値のそのような例である。

以下では、μ_ｉｎは入力音響信号の平均音量の一例である。別の実施形態では、μ_ｉｎは、ＩＴＵ−ＲＢＳ．１７７０［５］または長期の音量測定値を決定するための同様の規則による統合されたゲート音量を指す。一般に、μ_ｉｎは入力音響信号の音量値の統計モーメントである。

あるいは、Ｇは、曲線ＫとシフトＫ_{ｓｈｉｆｔ}との重ね合わせで構成される以下のマッピング関数に基づいて取得される。曲線はＬＲＡ_ｉｎとＬＲＡ_ｄｅｓに依存し、シフトはμ_ｉｎに依存する。
Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ）＝Ｋ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ）＋Ｋ_{ｓｈｉｆｔ}（μ_ｉｎ）（６）

曲線Ｋの適切な選択は、例えば、シグモイド関数である。式（６）は、曲線Ｋが勾配Ｓで指定されている場合にさらに制限できる。
Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ）＝Ｓ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ）Ｎ_ｉｎ＋Ｋ_{ｓｈｉｆｔ}（μ_ｉｎ）（７）

ご覧のように、マッピング関数は勾配ＳとシフトＫ_{ｓｈｉｆｔ}によって決定される。

音量値が低い信号の過剰な増幅を回避するために、ゲインＧは、最終的なゲインを取得するようにその後、制限される。
Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ）＝ｍｉｎ（Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ），Ｇ_ｍａｘ）（８）

ここで、Ｇ_ｍａｘは最大許容ゲインである。この最大ゲインは、例えばユーザによって事前に定義するか、または入力音響信号に基づいて決定することができる。

以下では、オフラインおよびオンラインＬＲＡＣの実施形態について説明する。

オフライン版では、入力音響信号全体が利用可能である。ここで、本発明のＬＲＡＣは、音量範囲制御を達成するために、フレームごとに音響信号に線形変換を適用することに基づいている。この場合、曲線は決定された勾配を持つ線である。

いくつかの理論的な考慮事項について説明する。

標準偏差σ_ｗおよび平均μ_ｗの正規分布確率変数ｗが与えられた場合、勾配ｂおよびシフトａを持つ線形伝達関数の適用により、正規分布確率変数が得られる。
ｚ＝ａ＋ｂｗ、（９）
確率変数ｚの標準偏差はσ_ｚ＝ｂσ_ｗであり、平均μ_ｚ＝ａ＋ｂμ_ｗである。

２つの仮定が行われる。

１）音量測定値Ｎ_ｉｎ（つまり、入力音響信号の決定された実際の音量値）は、正規分布確率変数である。

２）入力標準偏差と出力標準偏差の比率は、入力ＬＲＡと出力ＬＲＡの比率に比例する。

（１０）

ここで、ξは比例定数で、モデルへの音響信号の偏差を補正するために使用できる。通常、ＬＲＡは減少するため、ＬＲＡ_ｚ＜ＬＲＡ_ｗである。

ＬＲＡＣゲインを決定する手順は次のとおりである。
最初に、時間依存音量測定値Ｎ_ｉｎ（ｋ）（ｋは音響フレームインデックス）、音量の平均μ_ｉｎ、および入力音量範囲（ＬＲＡ）ＬＲＡ_ｉｎは、入力音響信号から計算される。
選択される：

一実施形態では、ξ＝１が設定される。

ゲインは、次の２つの例示的な方法を使用して計算できる。

〈方法１〉
式（５）を考慮すると、関数Ｑは次のように定義される。

（１１）
および
△Ｎ（ｋ）＝μ_ｉｎ−Ｎ_ｉｎ（ｋ）（１２）

一実施形態では、正規化項β（ｋ）は時間変化する。一実施形態では、以下によって実現される。

ここで、γ＞０は実数値であり、パラメータＧ_ｍａｘは、一実施形態では、例えばユーザによって、事前に定義されるか、または入力音響信号に基づいて決定される。例えば、
Ｇ_ｍａｘ＝｜ＬＲＡ_ｄｅｓ−ＬＲＡ_ｉｎ｜（１３）

したがって、この場合、ゲインは次のように決定できる。

（１４）

別の実施形態では、正規化パラメータは省略される、すなわち、β（ｋ）＝１である。

〈方法２〉
式（７）を考慮すると、関数ＳとＫ_{ｓｈｉｆｔ}は次のように定義できる。
Ｓ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ）＝ｂ−１（１５）
および
Ｋ_{ｓｈｉｆｔ}（μ_ｉｎ）＝ａ（１６）
ここで、式（１６）のａは、次のように決定できる。
ａ＝（１−ｂ）μ_ｉｎ
これにより、μ_ｏｕｔ＝μ_ｉｎ、つまり、音量処理の前と後での統合音量の差が最小化される。

したがって、この場合、ゲインは次のように決定できる。

Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ（ｋ））＝（ｂ−１）Ｎ_ｉｎ（ｋ）＋ａ（１７）

ａ＝（１−ｂ）μ_ｉｎおよびｂ＝ＬＲＡ_ｄｅｓ／ＬＲＡ_ｉｎを選択すると、上記の式は代わりに次のように表せる。
Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ（ｋ））＝（１−ｂ）△Ｎ（ｋ）（１８）

これは、入力ＬＲＡと出力ＬＲＡの比率、および入力音響信号の平均音量μ_ｉｎと実際の音量値（例えば、短期または瞬間音量測定値）の差ΔＮ（ｋ）に依存するマッピング関数に対応する。

次に、決定されたゲインの値は、望ましい最大値に制限される。
Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ（ｋ））＝ｍｉｎ（Ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ（ｋ）），Ｇ_ｍａｘ）（１９）

〈決定された音量範囲制御ゲインの適用〉
フレームごとの出力信号は次の式で与えられる。
ｙ（ｋ）＝ｇ（ＬＲＡ_ｉｎ，ＬＲＡ_ｄｅｓ，Ｎ_ｉｎ（ｋ））ｘ（ｋ）（２０）
ここで、式（２０）のｇは、以下の式（２１）で表される。

（２１）

ＬＲＡＣ処理による統合音量の変化をさらに低減するために、一実施形態では、例えば次のように入力統合音量Ｉ_ｉｎに直接変換を適用することにより、メイクアップゲインが計算される。
Ｇ_ｍｕ＝（ｂ−１）Ｉ_ｉｎ＋ａ（２２）

次に、ゲイン

が音響信号ｙに適用される。このメイクアップゲインを適用すると、通常、２ＬＵ未満の統合音量偏差が得られる。

さらなる実施形態では、変換を適用すると、出力短期音量は次の式で与えられ、
Ｎ_ｏｕｔ（ｋ）＝ａ＋ｂＮ_ｉｎ（ｋ）
ここで、ｋはフレームインデックスである。

上記に基づいて、ＬＲＡＣゲインが計算される。

ｄＢ単位のＬＲＡＣゲインは次のように計算される。
Ｇ（ｋ）＝Ｎ_ｏｕｔ（ｋ）−Ｎ_ｉｎ（ｋ）＝ａ＋（ｂ−１）Ｎ_ｉｎ（ｋ）

短期間の音量値が低い信号の過剰な増幅を避けるため、一実施形態では、ゲインはその後、次のように制限される。
Ｇ（ｋ）＝ｍｉｎ（Ｇ（ｋ），Ｇ_ｍａｘ）

ここで、Ｇ_ｍａｘは最大許容ゲインである。この最大ゲインは、実施形態に応じて、推測的に定義されるか、音響信号に基づいて決定される。
Ｇ_ｍａｘ＝｜ＬＲＡ_ｄｅｓ−ＬＲＡ_ｉｎ｜

ＬＲＡＣ処理による統合音量の変化をさらに低減するために、一実施形態では、次のように入力統合音量Ｉ_ｉｎに直接変換を適用することにより、メイクアップゲインが計算される。
Ｇ_ｍｕ＝ａ＋（ｂ−１）Ｉ_ｉｎ
このメイクアップゲインＧ_ｍｕは、音響信号に適用される。

オフライン処理のいくつかの側面は次のとおりである。

線形伝達関数は、図５に示すように、音響信号の統計分析から決定された勾配ｂとシフトａで計算される。音量範囲制御（ＬＲＡＣ）ゲインは、この伝達関数に基づいて計算される。

線形伝達関数の勾配ｂは、入力ＬＲＡとユーザが設定した所望の目標ＬＲＡの関数である。図５ａ）に示すように、入力音響信号に対する勾配のみに依存する伝達関数に基づいてＬＲＡＣゲインを計算し入力音響信号に適用すると、ＬＲＡを制御するという望ましい効果が得られる。ただし、これにより、入力音量と出力音量との間に大きな違いが生じる。さらに、低音量レベルのセグメントの非常に高い増幅と、処理された入力音響信号のクリッピングまたは望ましくない変調アーチファクトにつながる可能性のある高音量レベルのセグメントの増幅につながる。

勾配ｂとシフトａとの組み合わせにより、図５ｂに示す伝達関数が得られる。最終的なＬＲＡＣゲインは、この伝達関数から決定される。シフトａにより、音量分布の平均が維持されるため、結果として生じる入力音量と出力音量との差は小さくなる。さらに、これにより、低音量レベルのセグメントに適用されるゲインが自動的に減少し、高音量レベルのセグメントの増幅が回避されるため、クリッピングおよび変調が回避される。

いくつかの実施形態における決定されたＬＲＡＣゲインのその後の制約は、バックグラウンドノイズなどの低レベル音響が過度に増幅されないことを保証する後処理ステップである。シフトａにより、得られたゲインは最初から妥当な範囲に留まり、適切な最大ゲインを推測的に定義できる。

映画の音響抜粋の短期音量値の例示的なヒストグラムと、異なる所望のＬＲＡに対応するゲイン関数とを図６に示す。示されているのは、ＬＲＡが２２．８ＬＵの映画の１時間の音響セグメントの短期音量ヒストグラムである（一番上の行）。また、それぞれ１０ＬＵと１５ＬＵの２つの所望のＬＲＡの伝達関数も示している（下段）。

一実施形態では、音量正規化ゲインが計算される。

本発明のＬＲＡＣ方法の適用は、音響の統合音量の変化をもたらし得る。ゲインを計算して、所望の目標の統合音量を達成できる。

所望の目標音量が入力音量と等しくなるように選択された場合、測定された入力統合音量Ｉ_ｉｎと測定または推定された出力統合音量との差を計算することにより、正規化ゲインを得ることができる。出力統合音量は、入力瞬時音量値に変換を適用して得られる出力瞬時音量値を使用して推定できる。そうでない場合、正規化ゲインは、推定または測定された出力統合音量と所望の目標統合音量との差から計算される。

オンラインＬＲＡＣは、オフライン版から派生できる。オンライン版は、入力ＬＲＡの音響信号の時間セグメントと、音響信号全体ではなく平均音量評価を考慮する。この場合、パラメータは時間依存になる。つまり、ａ（ｋ）＝（１−ｂ（ｋ））μ_ｉｎ（ｋ）で、入力音量の統計モーメントが対応する出力音量の統計モーメントに等しくなるようにする。例えば平均音量値：μ_ｏｕｔ（ｋ）＝μ_ｉｎ（ｋ）。さらに、ｂ（ｋ）＝ξＬＲＡ_ｄｅｓ／ＬＲＡ_ｉｎ（ｋ）である。

したがって、２つのオンライン方法は次のとおりである。

〈方法１〉
関数は次のように定義される。

（２３）
および

△Ｎ（ｋ）＝μ_ｉｎ（ｋ）−Ｎ_ｉｎ（ｋ）（２４）
および

ここで、γ＞０は実数値であり、パラメータＧ_ｍａｘ（ｋ）は、一実施形態では、時間に依存しないユーザが定義したパラメータＧ_ｍａｘ（ｋ）＝Ｇ_ｍａｘとして定義されるか、信号依存パラメータＧ_ｍａｘ（ｋ）＝｜ＬＲＡ_ｄｅｓ−ＬＲＡ_ｉｎ（ｋ）｜である。

したがって、この場合、ゲインは次のように決定できる。

（２５）

〈方法２〉
関数ＳとＫ_{ｓｈｉｆｔ}（μ_ｉｎ（ｋ））は次のように定義される
Ｓ（ＬＲＡ_ｄｅｓ，ＬＲＡ_ｉｎ（ｋ））＝ｂ（ｋ）−１（２６）
そして
Ｋ_{ｓｈｉｆｔ}（μ_ｉｎ（ｋ））＝ａ（ｋ）（２７）

ＬＲＡＣゲインは次のように計算される。
Ｇ（ＬＲＡ_ｄｅｓ，ＬＲＡ_ｉｎ（ｋ），Ｎ_ｉｎ（ｋ））＝（ｂ（ｋ）−１）Ｎ_ｉｎ（ｋ）＋ａ（ｋ）（２８）

過度の増幅を避けるため、その後ゲインは次のように制限される。
Ｇ（ＬＲＡ_ｄｅｓ，ＬＲＡ_ｉｎ（ｋ），Ｎ_ｉｎ（ｋ））＝ｍｉｎ（Ｇ（ＬＲＡ_ｄｅｓ，ＬＲＡ_ｉｎ（ｋ），Ｎ_ｉｎ（ｋ）），Ｇ_ｍａｘ（ｋ））（２９）

さらなる実施形態では、変換パラメータは次のように計算される。

そして
ａ（ｋ）＝（１−ｂ（ｋ））μ_ｉｎ（ｋ）、これにより、μ_ｏｕｔ（ｋ）＝μ_ｉｎ（ｋ）が保証される。

変換を適用すると、出力の短期音量は次のようになる。
Ｎ_ｏｕｔ（ｋ）＝ａ（ｋ）＋ｂ（ｋ）Ｎ_ｉｎ（ｋ）

次にＬＲＡＣゲインは次のように計算される。
Ｇ（ｋ）＝Ｎ_ｏｕｔ（ｋ）−Ｎ_ｉｎ（ｋ）＝ａ（ｋ）＋（ｂ（ｋ）−１）Ｎ_ｉｎ（ｋ）

短期間の音量値が低い信号の過剰な増幅を避けるため、一実施形態では、ゲインはその後次のように制限される。
Ｇ（ｋ）＝ｍｉｎ（Ｇ（ｋ）、Ｇ_ｍａｘ（ｋ））

ここで、Ｇ_ｍａｘ（ｋ）は一実施形態であり、時間に依存しない固定のユーザが定義したパラメータＧ_ｍａｘ（ｋ）＝Ｇ_ｍａｘであり、別の実施形態では信号依存パラメータＧ_ｍａｘ（ｋ）＝｜ＬＲＡ_ｄｅｓ−ＬＲＡ_ｉｎ（ｋ）｜である。したがって、オンラインＬＲＡＣは、入力音響信号の期間全体ではなく、入力音響信号の時間的セグメントを考慮する。

本発明の方法の一実施形態は、以下のステップを含む。

１）入力音響信号を受信するステップ。

２）音響フレームのシーケンスについて、実際の音量値の例として、瞬間的または短期的な音量値を計算するステップ。

３）計算された瞬間的または短期的な音量値の集合から入力音量範囲（ＬＲＡ）を決定するステップ。

４）勾配ｂとシフトａとに基づいて圧縮機伝達関数を決定するステップ。入力ＬＲＡと所望の目標ＬＲＡとから勾配ｂを決定し、音量値の統計モーメントからシフトａを決定する。
または、入力ＬＲＡ、所望のＬＲＡ、および瞬間的または短期的な音量値と音量値の統計モーメントとの差に基づいて、圧縮機伝達関数を決定する。
または、曲線とシフトとに基づいて圧縮機伝達関数を決定する。入力ＬＲＡと所望のＬＲＡとから曲線を決定し、音量値の統計モーメントからのシフトを決定する。

５）決定された圧縮機伝達関数に基づいて、時間変化するＬＲＡＣゲインを計算するステップ。

６）入力音響信号の音響サンプルにＬＲＡＣゲインを適用して、出力音響信号を決定するステップ。

一実施形態では、勾配およびシフトに基づいて圧縮機伝達関数を決定するステップ、および入力ＬＲＡと所望のＬＲＡとから勾配を決定し、計算された瞬間的または短期の音量値からシフトを決定するステップを含む。

一実施形態は、以下のステップを含む。それより下では、伝達関数が、入力および所望の出力ＬＲＡから決定される勾配とは異なる勾配を有する、圧縮機伝達関数の閾値点を決定する。これは、最小圧縮機ゲインに制約をかけることに対応する。

さらなる実施形態は、計算されたＬＲＡＣゲインに適用される最大ゲイン制約を（発見的に）決定または定義するステップを含む。

別の実施形態では、以下のステップが含まれる。瞬間的な音量値およびＬＲＡＣゲインに基づいて、出力信号の所望の目標音量を得るために音量制御ゲインを計算する。入力音響信号の音響サンプルにＬＲＡＣゲインと音量制御ゲイン（または両方の組み合わせ）とを適用して、出力音響信号を決定する。

図７では、例示的なヒストグラムが上の図に示されている。中央の図は、最新の［４］動的拡散制御方法の伝達関数を示している。下図は、本発明による伝達関数を示している。伝達関数は、ｘ軸に入力音量、ｙ軸に出力音量を持つ図に示されている。３つの図すべてにマークされているのは平均音量である。

［４］で提案されている方法には、２つのパラメータ、つまり、しきい値ポイントと勾配が必要である。しきい値ポイント（点と矢印でマーク）は、音量分布のパーセンタイルとして選択されるユーザ定義のパラメータである。これは、入力音響の種類ごとにしきい値がｄＢ単位で変化することを意味する。ただし、選択したしきい値ポイントが平均値に近い場合、伝達関数の非線形部分により、音響にアーチファクトが生じる可能性がある。さらに、高いしきい値を選択した場合、望ましい動的拡散を実現するには、より大きな勾配が必要になる。ただし、勾配は入力と所望の動的拡散に基づいて計算され、選択したしきい値ポイントに依存しない。上記の考慮事項は、選択したしきい値によってはこれでは不十分な場合があることを示している。そのため、勾配の反復計算が必要である。

提案された発明は、適切な伝達関数を決定するためにユーザまたは反復処理を必要としない。必要なパラメータはすべて、入力信号と所望のＬＲＡから自動的に決定される。

いくつかの態様を装置の文脈で説明したが、これらの態様は対応する方法の説明も表し、ブロックまたは装置が方法ステップまたは方法ステップの特徴に対応することは明らかである。同様に、方法ステップの文脈で説明される態様は、対応するブロックまたはアイテムまたは対応する装置の機能の説明も表す。方法ステップの一部またはすべては、例えばマイクロプロセッサ、プログラム可能なコンピュータ、または電子回路などのハードウェア装置によって（または使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップのうちのいくつかの１つ以上が、そのような装置によって実行され得る。

本発明の送信または符号化された信号は、デジタル記憶媒体に格納することができ、または無線伝送媒体またはインターネットなどの有線伝送媒体などの伝送媒体で送信することができる。

特定の実行要件に応じて、本発明の実施形態は、ハードウェアまたはソフトウェアで実行することができる。電子的に読み取り可能な制御信号が保存されたデジタル記憶媒体、例えばフロッピーディスク、ＤＶＤ、ブルーレイ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭまたはフラッシュメモリを使用して実行できる。その上で、それぞれの方法が実行されるように、プログラム可能なコンピュータシステムと協力する（または協力することができる）。したがって、デジタル記憶媒体はコンピュータで読み取り可能であってもよい。

本発明によるいくつかの実施形態は、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有するデータキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法の１つを実行するように動作する。プログラムコードは、例えば、機械読み取り可能なキャリアに保存されてもよい。

他の実施形態は、機械読み取り可能なキャリアに格納された、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを含む。

言い換えれば、したがって、本発明の方法の一実施形態は、コンピュータプログラムがコンピュータ上で実行されるときに、本明細書に記載の方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

したがって、本発明の方法のさらなる実施形態は、本書に記載されている方法のうちの１つを実行するためのコンピュータプログラムを記録したデータキャリア（またはデジタル記憶媒体などの非一時的記憶媒体、またはコンピュータ可読媒体）である。データキャリア、デジタル記憶媒体、または記録された媒体は通常、有形および／または非一時的である。

したがって、本発明の方法のさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号シーケンスは、例えば、データ通信接続、例えばインターネットを介して転送されるように構成することができる。

さらなる実施形態は、本明細書に記載の方法の１つを実行するように構成または適合された処理手段、例えばコンピュータまたはプログラム可能な論理デバイスを含む。

さらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをインストールしたコンピュータを含む。

本発明によるさらなる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的または光学的に）転送するように構成された装置またはシステムを含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、例えば、コンピュータプログラムを受信機に転送するためのファイルサーバを備えてもよい。

いくつかの実施形態では、プログラマブル・ロジック・デバイス（例えば、フィールド・プログラマブル・ゲート・アレイ）を使用して、本明細書に記載の方法の機能性の一部またはすべてを実行することができる。いくつかの実施形態では、フィールド・プログラマブル・ゲート・アレイは、本明細書に記載の方法の１つを実行するためにマイクロプロセッサと協働してもよい。一般に、これらの方法は、任意のハードウェア装置によって実行されることが好ましい。

上述の実施形態は、本発明の原理の単なる実例である。本明細書に記載の配置および詳細の修正および変更は、当業者には明らかであることを理解されたい。したがって、本明細書の実施形態の説明および説明として提示される特定の詳細によってではなく、差し迫った特許請求の範囲によってのみ制限されることが意図されている。

［１］ＥＢＵＴｅｃｈＤｏｃ３３４２ＬｏｕｄｎｅｓｓＲａｎｇｅ：ＡＤｅｓｃｒｉｐｔｏｒｔｏｓｕｐｐｌｅｍｅｎｔＬｏｕｄｎｅｓｓＮｏｒｍａｌｉｚａｔｉｏｎｉｎａｃｃｏｒｄａｎｃｅｗｉｔｈＥＢＵＲ１２８（２０１６）
［５］ＩＴＵ−Ｒ、勧告ＩＴＵ−ＲＢＳ．１７７０−３．音響プログラムの音量とトゥルーピーク音響レベルを測定するアルゴリズム、２０１２年８月（Ａｌｇｏｒｉｔｈｍｔｏｍｅａｓｕｒｅａｕｄｉｏｐｒｏｇｒａｍｍｅｌｏｕｄｎｅｓｓａｎｄｔｒｕｅ−ｐｅａｋａｕｄｉｏｌｅｖｅｌ，０８／２０１２．）。
［６］ＥＢＵＴｅｃｈＤｏｃ３３４１音量メータリング：ＥＢＵＲ１２８に従って音量の正規化を補完する「ＥＢＵモード」メータリング

［２］米国特許第８２２９１２５号明細書
［３］米国特許出願公開第２０１４／０３６９５２７号明細書
［４］米国特許第７８４８５３１号明細書

Claims

入力音響信号（１００）を処理する装置（１）であって、
評価器（１０）と、計算機（１１）と、調整器（１２）と、を備え、
前記評価器（１０）は、前記入力音響信号（１００）の音量を評価して、音量範囲（ＬＲＡ_ｉｎ）および実際の音量値を決定するように構成されており、
前記計算機（１１）は、前記決定された音量範囲（ＬＲＡ_ｉｎ）と、目標音量範囲（ＬＲＡ_ｄｅｓ）と、前記決定された実際の音量値とに基づいて、圧縮機伝達関数を決定するように構成されており、
前記計算機（１１）は、前記決定された圧縮機伝達関数に基づいて少なくとも１つの音量範囲制御ゲインを決定するように構成されており、
前記調整器（１２）は、前記入力音響信号（１００）および少なくとも１つの前記決定された音量範囲制御ゲインに基づいて出力音響信号（１０１）を提供するように構成されており、
前記計算機（１１）は、前記出力音響信号（１０１）の平均音量（μ_ｏｕｔ）と前記入力音響信号（１００）の平均音量（μ_ｉｎ）との差が最小になるように、前記圧縮機伝達関数を決定するように構成されている、
装置（１）。
前記評価器（１０）は、前記入力音響信号（１００）の前記音量を評価して前記音量値の統計モーメントを決定するように構成されており、
前記計算機（１１）は、前記決定された音量範囲（ＬＲＡ_ｉｎ）と、前記目標音量範囲（ＬＲＡ_ｄｅｓ）と、前記決定された実際の音量値と前記音量値の前記決定された統計モーメントとの差とに基づいて、前記圧縮機伝達関数を決定するように構成されている、
請求項１に記載の装置（１）。
前記計算機（１１）は、曲線およびシフトに基づいて前記圧縮機伝達関数を決定するように構成されており、
前記計算機（１１）は、前記決定された音量範囲（ＬＲＡ_ｉｎ）および前記目標音量範囲（ＬＲＡ_ｄｅｓ）に基づいて前記曲線を決定するように構成されており、
前記計算機（１１）は、前記音量値の前記決定された統計モーメントに基づいて前記シフトを決定するように構成されている、
請求項２に記載の装置（１）。
前記計算機（１１）は、勾配およびシフトに基づいて前記圧縮機伝達関数を決定するように構成されており、
前記計算機（１１）は、前記決定された音量範囲（ＬＲＡ_ｉｎ）と前記目標音量範囲（ＬＲＡ_ｄｅｓ）とに基づいて前記勾配を決定するように構成されており、
前記計算機（１１）は、前記音量値の前記決定された統計モーメントに基づいて前記シフトを決定するように構成されている、
請求項２または３に記載の装置（１）。
前記決定された圧縮機伝達関数は、前記入力音響信号（１００）全体に対して有効である、
請求項４に記載の装置（１）。
前記評価器（１０）は、前記入力音響信号（１００）全体の前記音量を評価するように構成されている、
請求項１〜５のいずれか一項に記載の装置（１）。
前記評価器（１０）は、前記入力音響信号（１００）の少なくともある期間の前記音量を評価するように構成されている、
請求項１〜５のいずれか一項に記載の装置（１）。
前記評価器（１０）は、前記実際の音量値として瞬間的または短期的な音量値を決定するように構成されている、
請求項１〜７のいずれか一項に記載の装置（１）。
前記評価器（１０）が、前記音量値の前記統計モーメントとして平均音量を決定するように構成されている、
または
前記評価器（１０）が、統合されたゲート音量を前記音量値の前記統計モーメントとして決定するように構成されている、
請求項２〜８のいずれか一項に記載の装置（１）。
前記計算機（１１）は、前記出力音響信号（１０１）の前記平均音量（μ_ｏｕｔ）と前記入力音響信号（１００）の前記平均音量（μ_ｉｎ）とが等しくなるように前記圧縮機伝達関数を決定するように構成されている、
請求項１〜９のいずれか一項に記載の装置（１）。
前記計算機（１１）は、前記決定された圧縮機伝達関数および最大ゲイン値（Ｇ_ｍａｘ）に基づいて、決定された前記音量範囲制御ゲインが前記最大ゲイン値（Ｇ_ｍａｘ）以下になるように前記音量範囲制御ゲインを決定するように構成されている、
請求項１〜１０のいずれか一項に記載の装置（１）。
前記最大ゲイン値（Ｇ_ｍａｘ）がユーザ入力によって設定され、
または
前記最大ゲイン値（Ｇ_ｍａｘ）が、前記入力音響信号（１００）の前記目標音量範囲（ＬＲＡ_ｄｅｓ）と前記決定された音量範囲（ＬＲＡ_ｉｎ）との差に依存する、
請求項１１に記載の装置（１）。
入力インターフェース（１３）をさらに備え、
前記入力インターフェース（１３）は、前記目標音量範囲（ＬＲＡ_ｄｅｓ）の値を受信するように構成されている、
請求項１〜１２のいずれか一項に記載の装置（１）。
入力音響信号（１００）を処理する方法であって、
前記入力音響信号（１００）の音量を評価して、音量範囲（ＬＲＡ_ｉｎ）と実際の音量値とを決定することと、
前記決定された音量範囲（ＬＲＡ_ｉｎ）と、目標音量範囲（ＬＲＡ_ｄｅｓ）と、前記音量値の決定された統計モーメントとに基づいて、圧縮機伝達関数を決定することと、
前記決定された圧縮機伝達関数に基づいて、少なくとも１つの音量範囲制御ゲインを決定することと、
前記入力音響信号（１００）と少なくとも１つの前記決定された音量範囲制御ゲインとに基づいて出力音響信号（１０１）を提供することと、を含み、
前記圧縮機伝達関数は、前記出力音響信号（１０１）の平均音量（μ_ｏｕｔ）と前記入力音響信号（１００）の平均音量（μ_ｉｎ）との差が最小になるように決定される、
方法。
コンピュータまたはプロセッサで動作するときに請求項１４に記載の方法を実行するためのコンピュータプログラム。