以下では、添付の図面を参照して、本発明の実施例について、本発明の属する技術の分野における通常の知識を有する者が容易に実施できるように詳細に説明する。ただし、本発明は、様々な異なる形態で具現されてもよく、ここで説明する実施例に限定されない。そして、図面中、本発明を明確に説明するために、説明と関係ない部分は省略し、明細書全体を通じて類似の部分には類似の参照符号を付する。また、ある部分がある構成要素を「含む」としたとき、これは、特に断りのない限り、他の構成要素を除外する意味ではなく、他の構成要素をさらに含み得るということを意味する。
本開示は、オーディオ信号処理装置が入力コンテンツの出力ラウドネス(loudness)レベルを調整する方法に関する。本開示において、入力コンテンツは、オーディオ信号を含むコンテンツであってよい。本開示において、入力コンテンツは、入力オーディオ信号と呼ぶことができる。また、ラウドネスは、聴覚で認知される音響の大きさを表すことができる。ラウドネスレベルは、ラウドネスを示す数値であってよい。例えば、ラウドネスレベルは、LKFS(Loudness K-Weighted relative to Full Scale)又はLUFS(Loudness Unit relative to Full Scale)のような単位で表示されてよい。また、ラウドネスレベルは、sone又はphonのような単位で表示されてもよい。
以下では、図1を参照して、オーディオ信号のラウドネスについて説明する。図1は、本発明の一実施例によって複数のコンテンツが再生される間に時間によって変化するラウドネスレベルを示す図である。図1を参照すると、時間によって変化する平均ラウドネス(average loudness)、短区間ラウドネス(short-term loudness)及びラウドネス動的範囲(dynamic range)が示されている。平均ラウドネスレベルは、一つのコンテンツに対応する単一のラウドネス値であってよい。平均ラウドネスレベルは、コンテンツ(content1,content2,content3)別に異なってよい。図1において、実線は、各コンテンツ(content1,content2,content3)別平均ラウドネスレベルを表す。図1の平均ラウドネスは、累積ラウドネス(integrated loudness)を表すことができる。前述した、累積ラウドネス及び短区間ラウドネスは、ITU-R BS.1770-4、EBU R 128、EBU TECH 3341、EBU TECH 3342のようなラウドネス標準の定義に従うことができる。
一実施例によって、短区間ラウドネスレベルは、入力オーディオ信号の全区間よりも短い区間で測定されたラウドネスレベルであってよい。短区間ラウドネスレベルは、コンテンツの一部分に対するラウドネス測定値であってよい。このとき、コンテンツの一部分は、一つの測定ウィンドウに含まれた部分であってよい。オーディオ信号処理装置は一つのコンテンツに対して複数の短区間ラウドネスレベルを取得することができる。また、平均ラウドネスレベルは、複数の短区間ラウドネスレベルの平均であってよい。
図1で、再生及び転換される複数のコンテンツのそれぞれは、異なるラウドネス特性を有する。例えば、映像提供サービスを提供するプラットホームにおいて異なるコンテンツが転換される場合、転換されるコンテンツの間に広告コンテンツが挿入されてよい。この場合、オーディオ信号処理装置は一定の範囲内のラウドネスレベルを保持し難いことがある。また、異なるコンテンツ間にラウドネス動的範囲の差異が大きいことがある。このような環境において、オーディオ信号処理装置は、聴取者の所望する範囲内のラウドネスレベルを提供し難いことがある。
具体的に、コンテンツが転換される場合、聴取者は、まず、短区間ラウドネスレベルが急に変化することが認知できる。これにより、聴取者は、オーディオ信号を出力する機器のボリュームを調節する必要があり得る。また、聴取者は、転換されたコンテンツが再生されながら平均ラウドネスに従う適正ゲインを設定するためにボリュームを再び調節する必要があり得る。例えば、転換されたコンテンツの初期区間のラウドネスに基づいて調節されたボリュームによって転換されたコンテンツが再生される場合、コンテンツ特性によってラウドネスレベルが急に増加又は急に減少する状況が発生し得る。ラウドネスレベルが急に増加又は急に減少してコンテンツの内容が把握できない場合、聴取者はオーディオ信号を出力する機器のボリュームを再び調節する必要があり得る。
このため、本発明の一実施例に係るオーディオ信号処理装置は、入力コンテンツの出力ラウドネスレベルを制御して聴取者の便宜性を高めることができる。具体的に、オーディオ信号処理装置は、入力コンテンツのラウドネスゲインに基づいてラウドネスレベルを調整することができる。このとき、オーディオ信号処理装置は、入力オーディオ信号のラウドネス情報を含むラウドネスメタデータを用いることができる。
本発明の一実施例によれば、異なる基準で生成されるか、特定の基準無しで生成された入力コンテンツのラウドネスレベルを、ターゲットラウドネス(target loudness)レベルを基準に正規化することができる。ここで、ターゲットラウドネスレベルは、オーディオ信号処理装置が出力しようとするラウドネスレベルであってよい。例えば、ターゲットラウドネスレベルは、入力コンテンツのコンテンツ製作者によって設定されてよい。この場合、オーディオ信号処理装置は、入力コンテンツと共にターゲットラウドネスに関する情報を受信することができる。また、ターゲットラウドネスレベルは、入力コンテンツのジャンルによって異なる値に設定されてよい。この場合、オーディオ信号処理装置は、入力コンテンツのジャンルに基づいてターゲットラウドネスレベルを決定することができる。ターゲットラウドネスレベルは、オーディオ信号処理装置に既に保存されたデフォルト値に設定されてもよい。この場合、ターゲットラウドネスレベルは、入力コンテンツ又は入力コンテンツのジャンルと関係ない値に設定されてよい。オーディオ信号処理装置は、ターゲットラウドネスレベルに基づいて入力コンテンツの出力ラウドネスレベルを調整することができる。
一実施例によって、オーディオ信号処理装置は、入力コンテンツのラウドネスレベルとターゲットラウドネスレベル間の関係に基づいてラウドネスゲインを取得することができる。入力コンテンツのラウドネスレベルとターゲットラウドネスレベル間の関係は、入力コンテンツのラウドネスレベルとターゲットラウドネスレベルとの差又は比率を含むことができる。
例えば、オーディオ信号処理装置は、入力コンテンツの代表ラウドネスレベルとターゲットラウドネスレベルとの関係に基づいてラウドネスゲインを取得することができる。ここで、代表ラウドネスレベルは、入力コンテンツ全区間に対するラウドネスレベルを代表するラウドネスレベルであってよい。オーディオ信号処理装置は、入力コンテンツと共に入力コンテンツの代表ラウドネスレベルを受信することができる。又は、オーディオ信号処理装置は、入力コンテンツから分析されたラウドネス情報に基づいて代表ラウドネスレベルを取得することもできる。この場合、オーディオ信号処理装置は、入力コンテンツに対するラウドネス測定値に基づいてラウドネス情報を取得することができる。本開示において、入力オーディオ信号のラウドネス情報は、メタデータ形式に変換されたラウドネスメタデータを含むことができる。
また、オーディオ信号処理装置は、ラウドネスゲインに基づいて入力コンテンツの出力ラウドネスレベルを調整することができる。具体的に、オーディオ信号処理装置は、入力コンテンツにラウドネスゲインを適用し、ラウドネスレベルの調整された出力オーディオ信号を取得することができる。
本発明の一実施例に係るオーディオ信号処理装置は、入力オーディオ信号のラウドネスメタデータを用いて入力オーディオ信号の出力ラウドネスレベルを調整することができる。これにより、オーディオ信号処理装置は、入力コンテンツに含まれる入力オーディオ信号の音質毀損を発生させないで入力コンテンツのラウドネスレベルを制御することができる。
例えば、既に設定されたターゲットラウドネスレベルが入力オーディオ信号の代表ラウドネスレベルよりも大きいことがある。この場合、入力オーディオ信号が既に設定されたターゲットラウドネスレベルによって出力されると、音質毀損が発生し得る。このため、オーディオ信号処理装置は、ラウドネス特性及び既に設定されたターゲットラウドネスに基づいてラウドネスゲインを取得することができる。オーディオ信号処理装置は、ラウドネス特性に基づき、入力オーディオ信号の音質毀損を発生させないラウドネスゲインを取得することができる。オーディオ信号処理装置は、取得されたラウドネスゲインに基づいて入力オーディオ信号の出力ラウドネスレベルを調整することができる。
このとき、オーディオ信号処理装置は、入力オーディオ信号のラウドネスメタデータを用いてラウドネス情報を取得することができる。具体的に、オーディオ信号処理装置は、オーディオ信号処理装置の外部の装置から入力オーディオ信号のラウドネスメタデータを受信することができる。外部の装置は、入力オーディオ信号のラウドネス特性を分析し、分析されたラウドネス特性に基づいて入力オーディオ信号のラウドネスメタデータを生成することができる。また、外部の装置は、入力オーディオ信号のラウドネスメタデータをオーディオ信号処理装置に送信することができる。
以下では、本発明の一実施例によって入力コンテンツの出力ラウドネスレベルが調整される方法について、図2を参照して説明する。図2は、本発明の一実施例によって第1オーディオ信号処理装置210及び第2オーディオ信号処理装置220を含むシステム200を示す概略図である。図2で、第1オーディオ信号処理装置210はサーバーであってよい。図2で、第2オーディオ信号処理装置220はクライアント装置であってよい。
図2では、入力コンテンツのラウドネス正規化のための一連の動作がサーバー-クライアント構造のシステムによって行われるとして示しているが、本開示がこれに制限されるものではない。例えば、図2で説明される一連の動作は、単一のオーディオ信号処理装置によって行われてもよい。
本発明の一実施例によって、第1オーディオ信号処理装置210は入力オーディオ信号のラウドネスメタデータを生成することができる。第1オーディオ信号処理装置210は、生成されたラウドネスメタデータを、当該入力オーディオ信号を出力しようとする第2オーディオ信号処理装置220に送信すことができる。第2オーディオ信号処理装置220は、第1オーディオ信号処理装置210からラウドネスメタデータを受信することができる。また、第2オーディオ信号処理装置220は、受信されたラウドネスメタデータに基づいて入力オーディオ信号の出力ラウドネスレベルを調整することができる。具体的に、第2オーディオ信号処理装置220は、ラウドネスメタデータに基づき、入力オーディオ信号に適用されるラウドネスゲインを決定することができる。また、第2オーディオ信号処理装置220は、決定されたラウドネスゲインに基づいて入力オーディオ信号のラウドネスレベルを調整することができる。
具体的に、第1オーディオ信号処理装置210は、入力コンテンツを受信することができる。本開示において、入力コンテンツは、複数のフレームで構成された入力オーディオ信号であってよい。次に、第1オーディオ信号処理装置210は、入力コンテンツのラウドネスレベルを測定することができる。第1オーディオ信号処理装置210は、聴覚尺度に基づくラウドネスフィルターを用いてオーディオ信号のラウドネス測定値を取得することができる。具体的に、ラウドネスフィルターは、等ラウドネス曲線(equal-loudness contours)の逆フィルター、又はこれを近似化させたK加重(K-weighting)フィルターの少なくとも一つであってよい。
例えば、第1オーディオ信号処理装置210は、既に受信された入力コンテンツの少なくとも一部の区間にラウドネスフィルターを適用してラウドネス測定値を取得することができる。ここで、一部の区間は、一つのラウドネス測定値の取得に用いられる単位時間であってよい。一部の区間は、少なくとも一つのフレームを含むことができる。本開示において、一つのラウドネス測定値の取得に用いられる単位時間を、測定ウィンドウと呼ぶことができる。
第1オーディオ信号処理装置210は、入力コンテンツに対する測定ウィンドウ別ラウドネス測定値を取得することができる。このとき、取得されたラウドネス測定値は、測定ウィンドウの長さによって瞬間ラウドネスレベル又は短区間ラウドネスレベルであってよい。瞬間ラウドネスレベルは、短区間ラウドネスレベルに比べて短い時間区間において測定されたラウドネス測定値であってよい。例えば、一つの瞬間ラウドネスレベル取得に用いられる測定ウィンドウの長さは、400ミリ秒(ms)であってよい。また、一つの短区間ラウドネスレベル取得に用いられる測定ウィンドウの長さは、3秒であってよい。ただし、本開示がこれに制限されるものではない。ラウドネス分析のための測定ウィンドウの長さは、入力コンテンツ別に異なってよい。一実施例によって、測定ウィンドウの長さは、入力コンテンツの付加情報に基づいて決定されてもよい。オーディオ信号処理装置が測定ウィンドウの長さを決定する方法については、図18で後述する。
次に、第1オーディオ信号処理装置210は、入力コンテンツに対するラウドネス測定値に基づいて入力コンテンツのラウドネス情報を取得することができる。ラウドネス情報は、入力コンテンツに対する少なくとも一つのラウドネス測定値を含むことができる。また、ラウドネス情報は、入力コンテンツに対するラウドネス測定値に基づいて演算された情報を含むことができる。第1オーディオ信号処理装置210は、ラウドネス情報を実時間でアップデートすることができる。例えば、ラウドネス情報は、累積ラウドネスレベル、短区間ラウドネスレベル、瞬間ラウドネスレベルの少なくとも一つを含むことができる。第1オーディオ信号処理装置210は、入力コンテンツに対するラウドネス測定が始まった時点から現在時点までに累積された複数のラウドネス測定値を代表する累積ラウドネスレベルを取得することができる。
本開示において、累積ラウドネスレベルは、ラウドネスレベルを測定する装置において設定されたセットアップ時点から累積されたラウドネスレベルを表すことができる。一実施例によって、累積ラウドネスレベルは、第1オーディオ信号処理装置210において設定されたセットアップ時点から測定されたラウドネス測定値に基づいて算出されたラウドネスレベルであってよい。例えば、累積ラウドネスレベルは、セットアップ時点から取得された区間別ラウドネス測定値に基づいて計算された平均ラウドネスレベルであってよい。このとき、区間別ラウドネス測定値は、短区間ラウドネスレベル及び瞬間ラウドネスレベルのいずれか一つを表すことができる。
一実施例によって、累積ラウドネスレベルは、セットアップ時点と現在時点との間で測定された有効ラウドネス測定値の平均に基づいて取得することができる。ここで、有効ラウドネス測定値は、セットアップ時点と現在時点との間において測定された複数のラウドネス測定値のうち、少なくとも一つの基準要件を満たすラウドネス測定値であってよい。
例えば、有効ラウドネス測定値は、ラウドネスレベルが特定レベル以上であるラウドネス測定値であってよい。まず、第1オーディオ信号処理装置210は、複数のラウドネス測定値のうち、ラウドネスレベルが第1臨界値以上であるラウドネス測定値に対する第1平均を演算することができる。このとき、第1臨界値は、最小可聴大きさに基づいて設定された値であってよい。次に、第1オーディオ信号処理装置210は、第1平均の演算に用いられたラウドネス測定値のうち、ラウドネスレベルが第2臨界値以上であるラウドネス測定値に対する第2平均を演算することができる。このとき、第2臨界値は、第1平均から既に設定された値を引いた値であってよい。また、第1オーディオ信号処理装置210は、第2平均を、入力コンテンツの累積ラウドネスレベルとして用いることができる。一方、第1オーディオ信号処理装置210は、特定要件によって累積ラウドネスレベルのためのセットアップ時点を再設定することができる。
次に、第1オーディオ信号処理装置210は、ラウドネス情報に基づいてラウドネスメタデータを生成することができる。例えば、第1オーディオ信号処理装置210は、ラウドネス情報から不要な情報を除去し、第2オーディオ信号処理装置220が理解できるシンタックス(Syntax)形態のラウドネスメタデータを生成することができる。さらに、第1オーディオ信号処理装置210は、入力オーディオ信号に関連した付加情報を含むラウドネスメタデータを生成することができる。入力オーディオ信号に関連した付加情報は、入力オーディオ信号の長さ、ジャンル、コンテンツ提供者、コンテンツ製作者、人気度、視聴回数、アルバム、チャネルのそれぞれを示す情報のうち少なくとも一つを含むことができる。これにより、第1オーディオ信号処理装置210は、入力オーディオ信号を出力する他の装置が付加情報を用いて入力オーディオ信号の出力ラウドネスレベルを調整できるようにする。
例えば、入力オーディオ信号が既に再生されたオーディオ信号と同じコンテンツ製作者の音源であってよい。この場合、入力オーディオ信号と既に再生されたオーディオ信号は、類似のスタイル/音色などの音特性を有していてよい。これにより、入力オーディオ信号を出力する装置(例えば、第2オーディオ信号処理装置220は、既に再生されたオーディオ信号のターゲットラウドネスレベルに基づいて入力オーディオ信号のラウドネスゲインを決定することができる。このとき、第2オーディオ信号処理装置220は、付加情報を含むラウドネスメタデータに使用することができる。
次に、第1オーディオ信号処理装置210によって生成されたラウドネスメタデータは、メタデータデータベース(database;以下、‘DB’)に保存されてよい。第1オーディオ信号処理装置210は、第2オーディオ信号処理装置220から入力オーディオ信号のラウドネスメタデータ要請を受信することができる。この場合、第1オーディオ信号処理装置210は、当該入力オーディオ信号のラウドネスメタデータを第2オーディオ信号処理装置に送信することができる。
本発明の一実施例に係る第2オーディオ信号処理装置220は、第1オーディオ信号処理装置210から入力オーディオ信号のラウドネス情報を取得することができる。具体的に、第2オーディオ信号処理装置220は、第1オーディオ信号処理装置210に入力オーディオ信号のラウドネスメタデータを要請することができる。また、第2オーディオ信号処理装置220は、第1オーディオ信号処理装置210から入力オーディオ信号のラウドネスメタデータを受信することができる。第2オーディオ信号処理装置220は、受信したラウドネスメタデータに基づいて入力オーディオ信号のラウドネス情報を取得することができる。
第2オーディオ信号処理装置220は、ラウドネス情報に基づき、入力コンテンツに適用されるラウドネスゲインを取得することができる。具体的に、第2オーディオ信号処理装置220は、ラウドネス情報及びターゲットラウドネスレベルに基づいてラウドネスゲインを取得することができる。一実施例によって、第2オーディオ信号処理装置220は、入力コンテンツの特定フレームに適用されるラウドネスゲインを取得することができる。入力コンテンツの一部の特定区間においてフレーム別に適用されるラウドネスゲインは、時間によって動的に調整されてもよい。特定区間以外の区間においてフレーム別に適用されるラウドネスゲインは、動的に調整されない静的ゲインであってよい。また、入力コンテンツの一部の特定区間においてラウドネスゲインは特定範囲内の値に制限されてよい。
次に、第2オーディオ信号処理装置220は、ラウドネスゲインに基づいて入力コンテンツの出力ラウドネスレベルを調整することができる。例えば、第2オーディオ信号処理装置220は、入力コンテンツにラウドネスゲインを適用して出力ラウドネスレベルを調整することができる。一実施例によって、ラウドネスゲインは、入力コンテンツを構成するフレーム別に適用されてよい。この場合、第2オーディオ信号処理装置220は、それぞれのフレームに対応するオーディオ信号にラウドネスゲインをかけて入力コンテンツの出力ラウドネスレベルを調整することができる。第2オーディオ信号処理装置220は、入力コンテンツから、ラウドネスゲインによって出力ラウドネスレベルの調整された出力コンテンツを取得することができる。また、第2オーディオ信号処理装置220は、取得された出力コンテンツを出力することができる。例えば、第2オーディオ信号処理装置220は出力コンテンツを再生することができる。又は、第2オーディオ信号処理装置220は、出力コンテンツを有/無線インターフェースを介して再生機器に伝達することもできる。
さらに、第2オーディオ信号処理装置220は、調整された出力ラウドネスレベルの動的範囲を制御することができる。入力コンテンツの特定フレームに対する出力ラウドネスレベルが既に設定された動的範囲を外れる場合、クリッピング(clipping)による音質歪みが発生し得るわけである。第2オーディオ信号処理装置220は、既に設定された動的範囲に基づき、出力ラウドネスレベルの動的範囲を制御することができる。例えば、第2オーディオ信号処理装置220は、リミッター(limiter)及び動的範囲制限機(Dynamic Range Compressor,DRC)のようなプロセシングを用いて出力ラウドネスレベルの動的範囲を制御することができる。
図3は、本発明の一実施例によって入力オーディオ信号のラウドネスレベルが調整される方法を示すフローチャートである。図3では、説明の便宜のために、入力オーディオ信号の出力ラウドネスレベル調整のための一連の動作が、単一のオーディオ信号処理装置によって行われるとして説明しているが、本開示はこれに制限されない。例えば、図3で説明される動作の一部は、サーバーで行われ、他部はクライアントによって行われてもよい。
図3の段階S301において、オーディオ信号処理装置は、入力オーディオ信号に対する後処理(Post Processing)動作を行うことができる。例えば、オーディオ信号処理装置は、入力オーディオ信号に対するイコライゼーション(equalization)及び音場モードのうち少なくとも一つの動作を行うことができる。このとき、オーディオ信号処理装置によって行われるイコライゼーション及び音場モードは、一般のメディア再生システムの動作であってよい。
段階S303において、オーディオ信号処理装置は、入力オーディオ信号のラウドネス情報を抽出することができる。一実施例によって、段階S301が行われる場合、段階S303において、オーディオ信号処理装置は、後処理の周波数特性に基づいてラウドネス情報を抽出することができる。オーディオ信号処理装置は、後処理の周波数特性に基づき、後処理によって変化するバンド別ラウドネスレベル情報(weight of post processing,w_Proc)を取得することができる。また、オーディオ信号処理装置は、w_Procを用いてラウドネス情報を抽出することができる。
例えば、入力オーディオ信号に対して前述したイコライゼーションが行われる場合、w_Procは、当該周波数領域におけるイコライゼーションカーブ(equalization curve)情報を含むことができる。オーディオ信号処理装置は、前記イコライゼーションカーブ情報に基づいて入力オーディオ信号のラウドネス情報を抽出することができる。入力オーディオ信号に対して前述の音場モードが適用される場合、w_Procは、当該音場モードに用いられるフィルターの特性情報及びリバーブ(reverb)情報の少なくとも一つを含むことができる。
他の実施例によって、入力オーディオ信号が出力される環境が、携帯電話で用いられる小型スピーカーのように周波数特性が均等でなく、低周波に対する応答が小さい環境であり得る。この場合、w_Procは、当該出力環境の周波数特性情報を含むことができる。最終的に、オーディオ信号処理装置は、w_Procに基づいて入力オーディオ信号の出力ラウドネスレベルを調整することができる。これにより、オーディオ信号処理装置は、入力オーディオ信号が出力される機器の特性を反映する出力ラウドネスレベル調整を提供することができる。
本開示の一実施例によって、段階S303で抽出されたラウドネス情報は、累積ラウドネス情報(Integrated Loudness,L_Integ)、品質保障ヒストグラム指標(Quality Secure Histogram Index,QSHI)及びラウドネス変化予測値(Difference in Loudness by post-Processing,dL_Proc)の少なくとも一つを含むことができる。このとき、L_Integは、ITU-R BS.1770-4標準規格に従うことができる。また、QSHIは、出力端リミッターによって認知的音質損傷が発生しない閾ラウドネスレベルを表すことができる。本開示において、QSHIは、ターゲットラウドネス最大許容値(maximum target loudness,Max_TL)を含むことができる。QSHIは、自動アルゴリズムに基づいて計算されるか、或いはコンテンツ製作者によって定義されてよい。QSHIが取得される具体的な方法については、図4で後述する。また、dL_Procは、後処理後の入力オーディオ信号のラウドネス変化に対する予測値であってよい。オーディオ信号処理装置は、ユーザによって設定された後処理情報に基づいてdL_Procを取得することができる。オーディオ信号処理装置は、入力オーディオ信号の周波数別特性及びw_Procの少なくとも一つに基づいてdL_Procを取得することができる。
段階S305において、オーディオ信号処理装置は、入力オーディオ信号のラウドネスゲインG_targetを決定することができる。例えば、オーディオ信号処理装置は、既に設定されたターゲットラウドネスレベルL_target及び段階S303で抽出されたラウドネス情報に基づいてラウドネスゲインG_targetを決定することができる。このとき、既に設定されたターゲットラウドネスレベルは、ユーザによって設定された値であってよい。段階S307において、オーディオ信号処理装置は、段階S301で後処理された入力オーディオ信号に最終ラウドネスゲインを適用して出力オーディオ信号を出力することができる。
このとき、出力オーディオ信号は、リミッターを経た信号であってよい。例えば、オーディオ信号処理装置は、後処理された入力オーディオ信号に最終ラウドネスゲインを適用して第1出力オーディオ信号を生成することができる。また、オーディオ信号処理装置は、第1出力オーディオ信号にリミッターを適用して第2出力オーディオ信号を生成することができる。最終的に、オーディオ信号処理装置は、リミッターの適用された第2出力オーディオ信号を出力することができる。
以下、オーディオ信号処理装置がラウドネス情報を抽出する方法について、図4を用いて具体的に説明する。図4は、本発明の一実施例によってオーディオ信号処理装置が入力オーディオ信号のラウドネス情報を抽出する方法を具体的に示すブロック図である。図4では説明の便宜のためにそれぞれのユニット/部がそれぞれの動作を行うものとして記載されているが、本開示はこれに制限されない。例えば、図4のラウドネス情報抽出部400のユニット/部のそれぞれの動作は、オーディオ信号処理装置に含まれるプロセッサによって行われる一連の動作であってよい。
図4を参照すると、ラウドネス情報抽出部400は、ラウドネス測定部401、周波数別ラウドネス分析部402、後処理ラウドネス予測部403、及びQSHI抽出部404を含むことができる。ラウドネス情報抽出部400は、図3の段階S303で説明した動作を行うことができる。
一実施例によって、ラウドネス測定部401は、入力オーディオ信号のラウドネス測定値を取得することができる。例えば、ラウドネス測定部401は、入力オーディオ信号の短区間ラウドネスレベル及び累積ラウドネスレベルの少なくとも一つを取得することができる。具体的に、ラウドネス測定部401は、標準規格ITU-R BS.1770-4における例のような過程により、入力オーディオ信号から累積ラウドネス情報L_Integ及び短区間ラウドネス情報L_ShortTermを取得することができる。
一実施例によって、周波数別ラウドネス分析部402は、入力オーディオ信号全体の周波数別ラウドネス比率(Multi-band Weight in loudness,WLoud_MB)を取得することができる。例えば、周波数別ラウドネス分析部402は、入力オーディオ信号にK加重フィルターを適用してWLoud_MBを取得することができる。周波数別ラウドネス分析部402は、K加重フィルターの適用された信号を周波数変換してWLoud_MBを計算することができる。
以下では、式1~式8を参照して、周波数別ラウドネス分析部402がWLoud_MBを計算する具体的な方法について説明する。
[数1]
x_k = filter ( h_kweight, x_in )
又は、
x_k = filter ( h_pre2_kweight, filter ( h_pre1_kweight, x_in ) )
式1において、x_kは、入力オーディオ信号(x_in)に対してK加重フィルターが適用された信号を表す。式1において、“filter(A,B)”は、入力オーディオ信号Bをフィルター係数Aでフィルタリングする演算を表す。式1において、h_kweightは、単一のK加重フィルターを表すことができる。また、h_pre2_kweight及びh_pre1_kweightのそれぞれは、ITU-R BS.1770-4で定義する1次事前フィルター(pre-filter)と2次事前フィルターを表すことができる。周波数別ラウドネス分析部402は、入力オーディオ信号に、K加重フィルター係数をフィルタリングして適用することができる。図5は、ITU-R BS.1770-4で定義する1次事前フィルターの周波数応答を表す。また、図6は、2次事前フィルターの周波数応答を表す。
式1から得られた信号x_kのフレーム(frame)別信号は、式2のように表現されてよい。式2において、x_frame[l]は、信号x_kのl番目フレームの信号を表す。ここで、NFはフレームの長さを表し、NHはホップサイズを表すことができる。
[数2]
x_frame[l] = x_k[ ((l-1)*NH+1) : ((l-1)*NH+NF) ]
次に、式3を参照すると、周波数別ラウドネス分析部402は、x_frame[l]をウィンドウ演算(windowing)してxw_frame[l][-]を取得することができる。このとき、周波数別ラウドネス分析部402は、ウィンドウ関数の全ての係数が1である直方形ウィンドウ(rectangular window)関数を用いてxw_frame[l][-]を取得することができる。又は、周波数別ラウドネス分析部402は、ハミングウィンドウ(hamming window)関数又はハニングウィンドウ(hanning window)関数のような種々のウィンドウ関数を用いてxw_frame[l][-]を取得することができる。ウィンドウ演算は、入力オーディオ信号の周波数分析のための動作であってよい。式3において、wind[n]は、ウィンドウ関数のn番目の係数を表し、nは、ウィンドウのサンプルナンバーになり得る。例えば、NFが512である場合、nの値は、1~512のいずれか一つであってよい。
[数3]
xw_frame[l][n] = x_frame[l][n] * wind[n] for n=1, 2, …, NF
また、周波数別ラウドネス分析部402は、xw_frame[l][-]を離散フーリエ変換(Discrete Fourier Transform,DFT)することができる。xw_frame[l][-]から離散フーリエ変換された周波数領域信号(XW_frame[l])は、式4のように表現されてよい。XW_frame[l]は、式4において、DFT{x}は、時間領域の信号‘x’の離散フーリエ変換を表す。
[数4]
XW_frame[l] = DFT { xw_frame[l][1:NF] }
次に、式5を参照すると、周波数別ラウドネス分析部402は、変換された周波数信号XW_frame[l]の周波数ビン(bin)別パワー(power)を取得することができる。式5において、P_frame_bin[l][k]は、l番目フレームのk番目周波数ビンにおけるパワーを表す。また、conj(x)は、‘x’の共役関数(conjugation function)を表す。
[数5]
P_frame_bin[l][k] = XW_frame[l][k] * conj(XW_frame[l][k]) for k=1, 2, …, NF
次に、式6を参照すると、周波数別ラウドネス分析部402は、P_frame_bin[l][k]を、既に設定された周波数バンドにマップし、l番目フレームの周波数バンド別パワー(P_frame_band[l][b])を取得することができる。式6において、band[b]は、b-周波数バンドの開始周波数ビンのインデックスを表す。すなわち、周波数別ラウドネス分析部402は、band[b]からband[b+1]-1までの周波数ビン別パワーを合算して周波数バンド別パワーを取得することができる。式6において、sum_{y}(x)は、インデックスkを因子として有する関数‘x’インデックス別の和を表すことができる。このとき、‘y’は、当該演算のためのインデックスの範囲を表すことができる。
[数6]
P_frame_band[l][b]
= sum_{k from band[b] to band[b+1]-1} (P_frame_bin[l][k])
式7を参照すると、周波数別ラウドネス分析部402は、l番目フレームの周波数バンド別パワー(P_frame_band[l][b])に基づいて入力オーディオ信号全区間の周波数バンド別パワー(P_band[b])を取得することができる。周波数別ラウドネス分析部402は、フレーム別に取得された周波数バンド別パワー(P_frame_band[l][b])を、同じ周波数バンド同士で合算して、入力オーディオ信号の全区間の周波数バンド別パワー(P_band[b])を取得することができる。式7において、NumberOfFramesは、全frameの個数を表す。また、フレームインデックスを表すlは、1からNumberOfFramesまでの範囲内で定義される。
[数7]
P_band[b] = sum_{l from 1 to NumberOfFrames} (P_frame_band[l][b])
次に、式8を参照すると、周波数別ラウドネス分析部402は、周波数バンド別パワー(P_band[b])に基づいて周波数バンド別ラウドネス比率(WLoud_MB[b])を取得することができる。具体的に、周波数別ラウドネス分析部402は、特定周波数バンド別パワー(P_band[b])を、全周波数バンド別パワーのそれぞれの和に基づいて正規化(normalize)することができる。式8において、NumberOfBandsは、分割された周波数バンドの全個数を表す。また、バンドインデックスを表すbは、1からNumberOfBandsまでの範囲内で定義される。
[数8]
WLoud_MB[b] = P_band[b]/ [sum_{b from 1 to NumberOfBands} (P_band[b])]
式8から計算されたWLoud_MB[b]は、入力オーディオ信号の周波数バンド別累積ラウドネスレベルの比率を表す。例えば、入力オーディオ信号が2バンド信号であり、入力オーディオ信号の累積ラウドネスレベルがL_Integ=-20LKFSであり、WLoud_MB[10]=0.8,WLoud_MB[1]=0.2であってよい。この場合、入力オーディオ信号の1番目周波数バンドに対するラウドネスレベルは、-20+10*log10(0.8)=-20.97LKFSであり、2番目周波数バンドに対するラウドネスレベルは、-20+10*log10(0.2)=-26.99LKFSと予測されてよい。
一実施例によって、後処理ラウドネス予測部403は、後処理によって変化するバンド別ラウドネスレベル情報(w_Proc)及び入力オーディオ信号全体の周波数別ラウドネス比率(WLoud_MB)の少なくとも一つに基づき、ラウドネス変化予測値を取得することができる。
このとき、後処理ラウドネス予測部403は、周波数別ラウドネス分析部402から取得された入力オーディオ信号全体の周波数別ラウドネス比率(WLoud_MB)を用いることができる。また、後処理によって変化するバンド別ラウドネスレベル情報(w_Proc)は、入力オーディオ信号に対する後処理の特性によって取得されてよい。入力オーディオ信号に対する後処理の特性は、ユーザによって入力された情報に基づいて決定されてよい。
具体的に、入力オーディオ信号に、ユーザによって設定されたイコライゼーションが適用され、NumberOfBands個の周波数バンドのそれぞれに対して当該イコライゼーションの周波数バンド別ゲインがデシベル(decibel)単位においてw_ProcBand_dBと設定され、当該イコライゼーションの全ゲインは、w_ProcGain_dBに設定されてよい。この場合、周波数別ラウドネス分析部402は、周波数バンド別ゲイン(w_ProcBand_dB)及び全ゲイン(w_ProcGain_dB)に基づき、周波数バンド別ラウドネス比率を取得することができる。周波数別ラウドネス分析部402が周波数バンド別ラウドネス比率を取得するために演算する方法は、式9のように表すことができる。
[数9]
w_Proc[b] = 10^((w_ProcBand_dB[b] + 0.5*w_ProcGain_dB)/10)
for 1=<b=<NumberOfBands
また、後処理ラウドネス予測部403が、ラウドネス変化予測値dL_Procを取得する方法は、式10のように示すことができる。
[数10]
dL_Proc = 10 * log10 ( sum_{b from 1 to NumberOfBands} (WLoud_MB[b] * w_Proc[b]) )
一実施例によって、QSHI抽出部404は、短区間ラウドネス情報L_ShortTermに基づき、品質保障ヒストグラム指標QSHIを抽出することができる。前述したように、品質保障ヒストグラム指標(以下、‘QSHI’)は、認知的音質損傷が発生しない閾ラウドネスレベルであってよい。QSHI抽出部404は、ラウドネス測定部401から取得した短区間ラウドネス情報L_ShortTermに基づき、QSHIを取得することができる。
例えば、QSHI抽出部404は、短区間ラウドネス情報L_ShortTermを分析してQSHIを取得することができる。このとき、短区間ラウドネス情報L_ShortTermは、入力オーディオ信号の一つ以上の短区間ラウドネスレベルを含むことができる。具体的に、QSHI抽出部404は、一つ以上の短区間ラウドネスレベルに基づき、入力オーディオ信号の短区間ラウドネス大きさ別ヒストグラムを取得することができる。また、QSHI抽出部404は、取得された短区間ラウドネス大きさ別ヒストグラムに基づき、入力オーディオ信号のQSHIを取得することができる。
以下では、式11及び式12を参照して、QSHI抽出部404が入力オーディオ信号の短区間ラウドネス情報L_ShortTermからQSHIを抽出する具体的な方法を説明する。式11において、L_ShortTerm_Sortedは、入力オーディオ信号の短区間ラウドネス情報L_ShortTermに含まれる一つ以上の短区間ラウドネスレベルが大きさ順に整列された情報を表す。例えば、QSHI抽出部404は、一つ以上の短区間ラウドネスレベルを降順(‘descending’)に整列することができる。
[数11]
L_ShortTerm_Sorted = sort ( L_ShortTerm, ‘descending’ )
また、QSHI抽出部404は、L_ShortTerm_Sortedに基づき、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうち、既に設定されたインデックスに対応するラウドネスレベルを取得することができる。式12において、EffectiveIndexは、既に設定された有効インデックスを表すことができる。具体的に、既に設定された有効インデックス(EffectiveIndex)は、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうち、大きさ順に既に設定された順序の短区間ラウドネスレベルを示すことができる。すなわち、QSHI抽出部404は、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうち、EffectiveIndex番目に大きい短区間ラウドネスレベルを取得することができる。このとき、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうちEffectiveIndex番目に大きい短区間ラウドネスレベルは、入力オーディオ信号の有効短区間ラウドネスレベル(L_ShortTerm_Effective)と呼ぶことができる。
[数12]
L_ShortTerm_Effective = L_ShortTerm_Sorted[EffectiveIndex]
次に、QSHI抽出部404は、入力オーディオ信号の有効短区間ラウドネスレベル(L_ShortTerm_Effective)及び累積ラウドネスレベルの少なくとも一つに基づいてQSHIを取得することができる。また、QSHIは、累積ラウドネスレベルよりも大きいか等しい値であってよい。
さらに、QSHI抽出部404は、入力オーディオ信号が既に設定されたターゲットラウドネスレベルにしたがって出力される場合における変更される有効短区間ラウドネスレベル(L_ShortTerm_Effective_Shift)を取得することができる。具体的に、QSHI抽出部404は、入力オーディオ信号の短区間ラウドネス情報L_ShortTermに基づき、変更される短区間ラウドネス情報(L_ShortTerm_Shft)を予測することができる。このとき、変更される短区間ラウドネス情報(L_ShortTerm_Shft)は、入力オーディオ信号が既に設定されたターゲットラウドネスレベルにしたがって出力される場合における一つ以上の変更される短区間ラウドネスレベルを含むことができる。この場合、QSHI抽出部404は、取得されたL_ShortTerm_Effective_Shiftに基づいてQSHIを取得することができる。例えば、QSHIは、L_ShortTerm_Effective_Shift[EffectiveIndex]短区間ラウドネスレベルの閾値以下となるように制限する場合におけるターゲットラウドネス最大許容値であってよい。
例えば、入力オーディオ信号のL_ShortTerm_Effective_Shiftは、短区間ラウドネスレベルの閾値(L_Threshold)として用いられてよい。QSHI抽出部404は、L_ShortTerm_Effective_Shiftに基づいてターゲットラウドネス最大許容値を補正することができる。QSHI抽出部404は、補正されたターゲットラウドネス最大許容値をQSHIの値として用いることができる。又は、QSHI抽出部404は、前記方式で補正されたターゲットラウドネス最大許容値と入力オーディオ信号の累積ラウドネスのうち、大きい値をQSHIの値として選択することができる。
前記方法により、オーディオ信号処理装置は、相対的にリミッターによる入力オーディオ信号の音質低下を効果的に防止することができる。入力オーディオ信号の全区間のうち、相対的に音量が大きく設定された部分は、リミッターによって音質低下が発生し得るわけである。
一実施例によって、QSHIは、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうち、特定値よりも大きい短区間ラウドネスレベルの個数がEffectiveIndexよりも小さくなるように設定された値であってよい。このとき、EffectiveIndexは、オーディオ信号処理装置のリミッターの特性に基づいて決定された値であってよい。例えば、EffectiveIndexは、リミッターの動作によって発生する音質低下の程度によって変更されてよい。さらに、短区間ラウドネス閾値(L_Threshold)は、オーディオ信号処理装置のリミッターの特性に基づいて決定された値であってよい。例えば、短区間ラウドネス閾値(L_Threshold)は、リミッターの動作によって発生する音質低下の程度によって変更されてよい。
具体的な実施例によって、入力オーディオ信号が相対的に大きい動的範囲を有することができる。例えば、入力オーディオ信号の累積ラウドネスレベルがL_Integ=-24LKFSであり、有効短区間ラウドネスレベルがL_ShortTerm_Effective=-10LKFSと抽出されてよい。この場合、EffectiveIndex=10、短区間ラウドネス閾値=-7LKFSに設定したとき、QSHIは-21LKFSと計算されてよい。
前述した実施例では、入力オーディオ信号のQSHIが短区間ラウドネス大きさ別ヒストグラムに基づいて抽出される方法について述べたが、本開示がこれに制限されるものではない。例えば、入力オーディオ信号のQSHIは、入力オーディオ信号を含むコンテンツの製作者又は入力オーディオ信号を出力する音響システムの運営者によって任意に設定された値と定義されてもよい。また、オーディオ信号処理装置は、短区間ラウドネスレベルの他に、入力オーディオ信号のピーク値(peak envelope)、RMSの少なくとも一つに対するヒストグラム分析を行ってQSHIを取得することができる。
一実施例によって、入力オーディオ信号のQSHIは、短区間ラウドネス大きさ別ヒストグラムの変化によって変わってよい。例えば、前述した短区間ラウドネス大きさ別ヒストグラムは、ユーザの入力によって決定された後処理の有無によって変化されてよい。この場合、入力オーディオ信号のQSHIは、既に設定されたテーブルに基づいて他の値に変更されてよい。又は、入力オーディオ信号のQSHIは、後処理の特性に基づいて演算された値に変更されてもよい。
さらに、本開示の一実施例に係るオーディオ信号処理装置が、前述したラウドネス情報に基づいて入力オーディオ信号のラウドネスゲインを決定する方法について説明する。式13は、入力オーディオ信号に対する後処理過程が行われた場合、入力オーディオ信号の変化された累積ラウドネスレベル(L_IntegProc)を表す。オーディオ信号処理装置は、後処理によるラウドネス変化予測値dL_Procに基づき、入力オーディオ信号の変化された累積ラウドネスレベル(L_IntegProc)を取得することができる。式13を参照すると、オーディオ信号処理装置は、入力オーディオ信号の累積ラウドネスレベルに後処理によるラウドネス変化予測値dL_Procを加算して、変化された累積ラウドネスレベル(L_IntegProc)を取得することができる。
[数13]
L_IntegProc = L_Integ + dL_Proc
オーディオ信号処理装置は、前述したQSHI、既に設定されたターゲットラウドネスレベル(L_Target)、及び後処理によって変化された累積ラウドネスレベルに基づき、出力ラウドネスレベル調整のためのラウドネスゲインを計算することができる。
前述した実施例において、ターゲットラウドネスレベル(L_Target)は、ユーザによって設定された値であってよい。ただし、本開示がこれに制限されるものではない。例えば、既に設定されたターゲットラウドネスレベル(L_Target)は、入力オーディオ信号を出力する再生システムから提供するデフォルト値であってよい。又は、既に設定されたターゲットラウドネスレベル(L_Target)は、入力オーディオ信号を出力する再生環境に基づいて設定された値であってよい。オーディオ信号処理装置は、入力オーディオ信号から後処理された第1中間オーディオ信号にラウドネスゲイン(G_Target)を適用することができる。実質的な具現上の便宜のために、後処理以前の入力オーディオ信号にラウドネスゲイン(G_Target)がかけられた後、後処理過程が行われてもよい。また、オーディオ信号処理装置は、ラウドネスゲイン(G_Target)の適用された第2中間オーディオ信号をリミッターに通過させて出力することができる。
一方、マルチメディアストリーミングサービス(multimedia streaming service)は、現在メディア市場で広く用いられる方式である。マルチメディアストリーミングサービスを提供するシステムは、一般に、ストリーミングの対象となるコンテンツを保存するサーバーと、ユーザ機器(すなわち、クライアント)とで構成されてよい。このとき、クライアント側において、マルチメディアストリーミングサービスは、アプリケーション(application)内再生又はウェブ(web)内再生の形態で提供されてよい。サーバー及びクライアントのそれぞれは、本開示で説明する動作を行うオーディオ信号処理装置であってよい。このようなサーバー-クライアント構造において、サーバーは、入力コンテンツ分析を行ってラウドネス情報を提供することができる。また、クライアントは、サーバーから提供されたラウドネス情報に基づき、入力コンテンツの出力ラウドネスレベルを調整することができる。具体的に、サーバーは、入力オーディオ信号のラウドネス情報を含むラウドネスメタデータを、クライアントに送信することができる。クライアントは、サーバーから入力オーディオ信号のラウドネスメタデータを受信することができる。また、クライアントは、入力オーディオ信号のラウドネスメタデータに基づき、入力オーディオ信号に適用されるラウドネスゲインを取得することができる。
図7は、本発明の一実施例に係るサーバーが入力オーディオ信号のラウドネスメタデータを生成する方法を示す図である。本発明の一実施例に係るサーバーは、入力オーディオ信号をエンコードし、オーディオストリームを生成及び/又は出力することができる。本発明の一実施例に係るサーバーは、入力オーディオ信号のラウドネス情報を抽出することができる。例えば、図7のサーバーは、図3のラウドネス情報抽出(段階S303)を参照して説明された動作、及び図4のラウドネス情報抽出部400を参照して説明された動作を行うことができる。また、サーバーは、抽出されたラウドネス情報を含むラウドネスメタデータを生成することができる。サーバーは、生成されたラウドネスメタデータを外部の装置に出力することができる。例えば、サーバーは、生成されたラウドネスメタデータをメタデータストリームの形態でクライアントに送信することができる。
図8は、本発明の一実施例に係るクライアントがラウドネスメタデータを用いて入力オーディオ信号を出力する方法を示す図である。本発明の一実施例に係るクライアントは、オーディオストリームを受信することができる。また、クライアントは、受信したオーディオストリームをデコードして入力オーディオ信号を取得することができる。クライアントは、入力オーディオ信号に対する後処理過程を行うことができる。このとき、後処理過程を行うか否か及び特性は、ユーザから受信した入力又はシステムに既に保存された設定値に基づいて決定されてよい。
本発明の一実施例に係るクライアントは、入力オーディオ信号のラウドネスメタデータに基づいて入力オーディオ信号のラウドネスゲインを決定することができる。例えば、クライアントは、メタデータストリーム形態のラウドネスメタデータを受信することができる。クライアントは、入力オーディオ信号のラウドネスメタデータをパースして入力オーディオ信号のラウドネス情報を取得することができる。具体的に、クライアントは、入力オーディオ信号のラウドネスメタデータから、図3及び図4で前述したWLoud_MB、L_Integ及びQSHIの少なくとも一つを取得することができる。クライアントは、取得したラウドネス情報に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。クライアントは、入力オーディオ信号にラウドネスゲインを適用して出力ラウドネスレベルを調整することができる。クライアントは、出力ラウドネスレベルが調整された中間オーディオ信号にリミッターを適用して出力オーディオ信号を生成することができる。また、クライアントは出力オーディオ信号を出力することができる。
一実施例によって、図8のクライアントは、図3の後処理(段階S301)、ラウドネスゲイン決定(段階S305)、ラウドネスゲイン適用(段階S307)を参照して説明された動作、及び図4の後処理ラウドネス予測部403を参照して説明された動作を行うことができる。
一方、音楽コンテンツは、時代及び/又はジャンルによって様々なラウドネスを有することができる。例えば、クラシック音楽の累積ラウドネスレベルは広い動的範囲を提供するために相対的に低いが、2000年代のポピュラー音楽の累積ラウドネスレベルは相対的に大きい。具体的に、2000年代のポピュラー音楽の累積ラウドネスレベルは-13~-8LKFSであり、クラシック音楽のうち静かな楽章の累積ラウドネスレベルは、-30LKFS程度であってよい。
ターゲットラウドネスレベルを決定する際に、放送標準で定義している-23~-24LKFSを活用することができる。しかし、これは、地下鉄のような騒々しい環境では、外部雑音に対して十分な音量を提供しないことがある。このため、本発明の一実施例に係るオーディオ信号処理装置は、再生環境によって異なるターゲットラウドネスレベルを決定することができる。2000年代のポピュラー音楽のターゲットラウドネスレベルを-10に設定する場合、2000年代のポピュラー音楽の音量は大きい変化がなくてもよい。これに対し、クラシックや1970~80年代の音楽のように相対的に低い統合ラウドネスレベルを有する音楽のターゲットラウドネスレベルを-10に設定する場合、音量の変化が大きくなり得る。
図9は、本発明の一実施例によって入力オーディオ信号の短区間ラウドネス大きさ別ヒストグラムを示す図である。図9で説明される実施例において、入力オーディオ信号のジャンルはクラシックであってよい。また、図9で説明される実施例において、入力オーディオ信号の累積ラウドネスは、-21LKFSであってよい。例えば、当該入力オーディオ信号のターゲットラウドネスレベルは、L_Target=-10LKFSであってよい。この場合、短区間ラウドネス大きさ別ヒストグラムは、右側に+11LKFS移動する。このとき、-7LKFSよりも大きい短区間ラウドネスレベルを有する区間が発生することになる。
一実施例によって、-7LKFSよりも大きい短区間ラウドネスレベルを有する区間において、リミッターによる音質劣化が発生し得る。このため、本発明の一実施例に係るオーディオ信号処理装置は、前述したようにQSHIに基づいて入力オーディオ信号のラウドネス正規化を行うことができる。この場合、ラウドネス正規化性能が相対的に減少することがあるが、音質毀損を防止する範囲内で最も積極的に合わせるベストエフォート(Best-effort)方法を用いることができる。
本発明の一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のラウドネス情報に基づいてターゲットラウドネスレベルに最も近似させるラウドネスゲイン補正方式を用いることができる。オーディオ信号処理装置は、当該方式を用いて、ラウドネスレベルが変化しないイコライゼーションを提供することができる。
イコライゼーションとは、入力オーディオ信号の周波数別エネルギーを調節してユーザー所望の音色を有させることを意味する。このとき、入力オーディオ信号の調節程度によって全体的なエネルギーが大きくなる現象が発生し得る。この場合、入力オーディオ信号がクリッピング(Clipping)されることがある。また、リミッターによって入力オーディオ信号に比べて音質毀損が発生することもある。このため、本発明の一実施例に係るオーディオ信号処理装置は、既に設定されたターゲットラウドネスレベル(L_Target)、累積ラウドネスレベル(L_Integ)、及びQSHIを同一の任意の値に設定することができる。この場合、入力オーディオ信号のラウドネスゲイン(G_Target)は、式14のように表現されてよい。すなわち、オーディオ信号処理装置は、線形のラウドネスゲイン(G_Target)を取得することができる。ターゲットラウドネスレベル(L_Target)、累積ラウドネスレベル(L_Integ)、及びQSHIが互いに相殺されるためである。
[数14]
G_Target = power ( 10, -dL_Proc) / 20
オーディオ信号処理装置は、式14のラウドネスゲイン(G_Target)を入力オーディオ信号に適用させることができる。オーディオ信号処理装置は、後処理によるラウドネス変化を補正し、入力オーディオ信号のラウドネスレベルと同じ出力ラウドネスレベルを提供することができる。オーディオ信号処理装置は、後処理によるラウドネス変化を補正し、入力オーディオ信号のラウドネスレベルを維持することができる。オーディオ信号処理装置は、後処理によるラウドネス変化予測値を用いて、中間オーディオ信号のラウドネスレベルを入力オーディオ信号のラウドネスレベルと同一に設定することができる。このとき、中間オーディオ信号は、入力オーディオ信号から後処理された信号であってよい。これは、オーディオ信号処理装置が、後処理過程によって入力オーディオ信号に対比してトーン(tone)が変更されるが、本来の入力オーディオ信号のラウドネスレベルと同一に提供することを意味する。一方、後処理によるラウドネス変化予測値は、図3及び図4で前述した方法で取得されてよい。後処理によるラウドネス変化予測値は、分析によって提供されたWLoud_MB又はコンテンツの特性に基づくWLoud_MBに基づいて取得されてよい。
図10は、本発明の一実施例によってオーディオ信号処理装置がターゲットラウドネスレベル及び認知的音質劣化を考慮して入力オーディオ信号のラウドネスゲインを最適化するシステムを示すブロック図である。オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネスレベル及びラウドネス情報に基づき、動的プロセッサが受容できるターゲットラウドネスゲインを決定することができる。ここで、動的プロセッサは、前述したリミッター(limiter)又はコンプレッサー(compressor)のようにラウドネスレベルによって信号をクリッピングする処理過程を表すことができる。入力オーディオ信号のラウドネス情報は、累積ラウドネスレベル、短区間ラウドネスレベル、瞬間ラウドネスレベル、サンプルピーク、トゥルーピーク、ラウドネス範囲、及びRMS(root- mean-square)の少なくとも一つを含むことができる。
以下では、オーディオ信号処理装置が入力オーディオ信号のラウドネスゲインを決定する具体的な実施例について説明する。一実施例によってユーザが設定できるターゲットラウドネスレベルの最大値は-10LKFSであり、入力オーディオ信号の累積ラウドネスは-22LKFSであってよい。また、入力オーディオ信号の複数の短区間ラウドネスレベルのうち10番目に該当する短区間ラウドネスレベルは、-18LKFSであってよい。このとき、10番目に該当する短区間ラウドネスレベルは、前述した図4のQSHI抽出部404を参照して説明した有効短区間ラウドネスレベル(L_ShortTerm_Effective)の具体的な実施例であってよい。すなわち、-18LKFSは、DRCによる音質劣化の有無を判別する指標として活用されてよい。ターゲットラウドネスレベルの最大値が-10LKFSである場合、最大増幅量は12LU(Loudness Unit)であってよい。この場合、オーディオ信号処理装置は、最大増幅量だけ増幅させた10番目の短区間ラウドネスレベルに基づいてQSHIを取得することができる。
オーディオ信号処理装置は、ユーザによって入力された既に設定されたターゲットラウドネスレベルとQSHIとを比較することができる。オーディオ信号処理装置は、比較結果に基づいて入力オーディオ信号のラウドネスゲインを決定することができる。例えば、オーディオ信号処理装置は、既に設定されたターゲットラウドネスレベルとQSHIのうち比較的小さい値に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。前述した実施例では、DRC音質劣化の有無を判別する指標を求めるための短区間ラウドネスレベルを、降順整列時に上位10番目として選択したが、本開示はこれに制限されない。また、オーディオ信号処理装置は、短区間ラウドネスレベルの他に信号のピーク値、RMSのうち少なくとも一つに対するヒストグラム分析を行い、QSHIを取得することができる。
図11及び図12は、時間別入力オーディオ信号のラウドネスレベル及びターゲットラウドネスレベルのための固定ゲインを示す図である。図11は、ターゲットラウドネスレベルよりも小さいラウドネス分布を有する第1入力オーディオ信号のラウドネスレベルを、ターゲットラウドネスレベルに調整するための固定ゲインを表す。この場合、0dBFSよりも大きい区間において第1入力オーディオ信号がクリッピングされ、過度な音色歪みが発生することがある。このように、ターゲットラウドネスレベルに近接した値を得るためには、固定ゲインを用いたラウドネスレベル調整方法では限界がある。このため、オーディオ信号処理装置は、第1入力、オーディオ信号の区間(2)及び区間(4)に対しては、固定ゲイン値よりも小さいゲインを適用することができる。
図12を参照すると、第2入力オーディオ信号は、図11の第1入力オーディオ信号に比べて動的範囲が大きい。これにより、オーディオ信号処理装置が、第2入力オーディオ信号にターゲットラウドネスレベルのための固定ゲインを適用する場合、一部の区間は相対的にラウドネスレベルが小さいことがある。このため、オーディオ信号処理装置は、第2入力オーディオ信号の区間(1)及び区間(3)に対しては、固定ゲイン値よりも大きいゲインを適用することができる。
更なる実施例によって、オーディオ信号処理装置は、ゲインブースト(Gain Boost)を適用することができる。例えば、オーディオ信号処理装置は、ターゲットラウドネス範囲を取得することができる。オーディオ信号処理装置は、取得されたターゲットラウドネス範囲に基づき、入力オーディオ信号の区間別追加ゲインを設定することができる。具体的に、オーディオ信号処理装置は、入力オーディオ信号の時間別全区間のうち、ターゲットラウドネス範囲外のラウドネスレベルを有する区間に対して設定された追加ゲインを適用させることができる。
前述したように、本発明の一実施例に係るオーディオ信号処理装置は、入力オーディオ信号に対して時間によって異なるゲインを適用し、入力オーディオ信号の出力ラウドネスレベルを調整することができる。オーディオ信号処理装置は、入力オーディオ信号のラウドネスメタデータに基づいて入力オーディオ信号出力ラウドネスレベルを調整することができる。このとき、入力オーディオ信号のラウドネスメタデータは、時間のよって変更される情報を含むことができる。オーディオ信号処理装置は、時間によって異なるゲインを適用するために、時間によって異なるメタデータを参照してターゲットラウドネスレベル、ターゲットラウドネス範囲によって入力オーディオ信号の出力ラウドネスレベルを正規化することができる。これにより、本開示において、オーディオ信号処理装置は、ラウドネス正規化のために入力オーディオ信号に固定ゲインを適用して補償する場合、前述したような問題点を解決することができる。
図13及び図14は、本開示の一実施例によって入力オーディオ信号の出力ラウドネスレベルが調整される方法を示す概略図である。図13には、単一のオーディオ信号処理装置内で入力オーディオ信号のラウドネス情報が抽出され、入力オーディオ信号の出力ラウドネスレベルが調整される実施例を示す。この場合、オーディオ信号処理装置は、入力オーディオ信号のラウドネスレベルを測定することができる。オーディオ信号処理装置は、ラウドネス測定値に入力コンテンツのラウドネス情報を取得することができる。オーディオ信号処理装置が実時間で入力オーディオ信号のラウドネスレベルを測定する方法については、図19で具体的に説明する。
図14には、図7及び図8を用いて前述したサーバー-クライアント構造を示す。まず、サーバーは、入力オーディオ信号を分析して入力オーディオ信号のラウドネス情報を抽出することができる。また、サーバーは、入力オーディオ信号のラウドネス情報をメタデータフォーマットに変換し、ラウドネスメタデータを生成することができる。次に、クライアントは入力オーディオ信号を受信し、入力オーディオ信号とは別に入力オーディオ信号のラウドネスメタデータを受信することができる。また、クライアントは、ラウドネスメタデータをパースし、入力オーディオ信号の出力ラウドネスレベル調整に用いられるラウドネス情報を取得することができる。また、クライアントは、ラウドネス情報及び既に設定されたターゲットラウドネスレベルに基づいて入力オーディオ信号のラウドネスゲインを取得することができる。クライアントは、入力オーディオ信号の出力ラウドネスレベルを入力オーディオ信号のラウドネスゲインに基づいて調整することができる。
図15は、本発明の一実施例に係るオーディオ信号処理装置が入力オーディオ信号のラウドネス情報を取得する方法を示す図である。オーディオ信号処理装置は、入力オーディオ信号を分析してラウドネス情報を取得することができる。例えば、図15の方法は、前述した図7のサーバーで行われてよい。オーディオ信号処理装置は、ラウドネス情報をラウドネスメタデータの形態で出力することができる。
一実施例によって、ラウドネス情報は、静的ラウドネスメタデータ及び動的ラウドネスメタデータを含むことができる。静的ラウドネスメタデータは、少なくとも一つの静的ラウドネスパラメータを含むことができる。例えば、静的ラウドネスメタデータは、入力オーディオ信号の累積ラウドネスレベル、サンプル最大ピーク(Max.Sample Peak)、ラウドネス範囲(Loudness Range,LRA)、ピーク-トゥ-ラウドネス範囲(Peak to Loudness Range,PLR)、アルバム累積ラウドネス(Album Integrated Loudness)、相対臨界値(Relative Threshold)、最小瞬間ラウドネス(Min.Momentary Loudness)、最大瞬間ラウドネス(Max.Momentary Loudness)、フレーム当たりサンプル(Sample Per Frame)のうち少なくとも一つを含むことができる。
オーディオ信号処理装置は、入力オーディオ信号の静的ラウドネスメタデータを取得することができる。具体的に、オーディオ信号処理装置は、聴覚尺度に基づくラウドネスフィルターを用いて、入力オーディオ信号の瞬間ラウドネスレベル及び入力オーディオ信号の短区間ラウドネスレベルの少なくとも一つを測定することができる。オーディオ信号処理装置は、少なくとも一つの静的ラウドネスパラメータを含む静的ラウドネスメタデータを生成することができる。
動的ラウドネスメタデータは、時間によって変化するラウドネス情報を示すことができる。動的ラウドネスメタデータは、少なくとも一つの動的ラウドネスパラメータを含むことができる。例えば、動的ラウドネスメタデータは、入力オーディオ信号の時間別短区間ラウドネスレベル及びピーク値(Peak Envelope)の少なくとも一つを含むことができる。オーディオ信号処理装置がピーク値を取得する方法については、図21で具体的に説明する。
一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の動的ラウドネスメタデータを取得することができる。例えば、オーディオ信号処理装置は、入力オーディオ信号の特定区間に対する短区間ラウドネス測定値を取得することができる。オーディオ信号処理装置は、当該区間に対する入力オーディオ信号のピーク値を取得することができる。オーディオ信号処理装置は、少なくとも一つの動的ラウドネスパラメータを含む動的ラウドネスメタデータを生成することができる。また、オーディオ信号処理装置は、短区間ラウドネス測定値及びピーク値のような動的ラウドネスパラメータの時間の遅延又は繰り上げを補正することができる。例えば、オーディオ信号処理装置は、動的ラウドネスパラメータをシフト(shift)することができる。これについては、図21を参照して具体的に説明する。
オーディオ信号処理装置は、特定時点を基準にその過去のサンプル値と以降に入力されるサンプル値に対する短区間ラウドネスレベルを取得することができる。これにより、オーディオ信号処理装置は、入力オーディオ信号のラウドネス変化に対してより安定にラウドネスレベルを制御することができる。例えば、オーディオ信号処理装置が既に取得された動的ラウドネスパラメータの時間基準値をシフトし、過去のサンプル値と以降に入力されるサンプル値に対する短区間ラウドネスレベルを取得することができる。また、オーディオ信号処理装置は、バッファを用いて、過去のサンプル値と以降に入力されるサンプル値に対する短区間ラウドネスレベルを取得することができる。このとき、オーディオ信号処理装置は、十分なルック-アヘッド(Look-ahead)時間を設定することができる。
図16は、本発明の一実施例に係るオーディオ信号処理装置が入力オーディオ信号の出力ラウドネスレベルを調整する方法を示す図である。オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネスレベル及びラウドネスメタデータに基づいて入力オーディオ信号のラウドネスゲインを取得することができる。具体的に、オーディオ信号処理装置は、ターゲットラウドネスレベル及び静的ラウドネスメタデータに基づいてゲインパラメータを計算することができる。オーディオ信号処理装置は、計算されたゲインパラメータ及び動的ラウドネスメタデータに基づき、入力オーディオ信号の特定フレームに適用されるラウドネスゲインを取得することができる。例えば、オーディオ信号処理装置は、動的ラウドネスメタデータをパースし、当該フレームに対応する短区間ラウドネスレベル及びピーク値の少なくとも一つを取得することができる。オーディオ信号処理装置は、当該フレームに対応する短区間ラウドネスレベル及びピーク値の少なくとも一つに基づき、当該フレームに適用されるラウドネスゲインを取得することができる。具体的に、オーディオ信号処理装置は、計算されたゲインパラメータ及び当該フレームに対応する短区間ラウドネスレベルに基づき、当該フレームに適用されるラウドネスゲインを取得することができる。このとき、当該フレームに適用されるラウドネスゲインは、当該フレーム内でラウドネスレベルによるクリッピングが発生しないように制限されてよい。オーディオ信号処理装置は、ピーク値に基づき、当該フレーム内でラウドネスレベルによるクリッピングが発生しないように、当該フレームに適用されるラウドネスゲインを補正することができる。オーディオ信号処理装置は、入力オーディオ信号に最終ラウドネスゲインを適用して中間オーディオ信号を生成することができる。また、オーディオ信号処理装置は、中間オーディオ信号にリミッターを適用して出力オーディオ信号を生成することができる。オーディオ信号処理装置は、出力オーディオ信号を出力することができる。更なる実施例によって、隣接したフレーム間のフレーム別ラウドネスゲインの差が、既に設定された大きさ以上である場合、オーディオ信号処理装置は、フレーム別ラウドネスゲインを補正することができる。このとき、オーディオ信号処理装置は、スムージング(Smoothing)方法を用いて、ラウドネスゲインがなだらかに変わるように調整することができる。これにより、オーディオ信号処理装置は、フレーム別ラウドネスゲインの変化による音色歪みや突然にレベルが大きく変わるボリュームパンピング(pumping)を防止することができる。オーディオ信号処理装置がラウドネスゲインをスムージングする方法については、図22で具体的に説明する。
図17は、本発明の一実施例に係るオーディオ信号処理装置が、ターゲットラウドネス範囲に基づいて入力オーディオ信号の出力ラウドネスレベルを調整する方法を示す図である。オーディオ信号処理装置は、前述した図16のゲインパラメータを計算する過程でターゲットラウドネス範囲をさらに考慮することができる。図12で説明したように、ターゲットラウドネス範囲は、入力オーディオ信号の動的範囲に比べて狭いことがある。環境によって、小さいボリュームで映像/音響を聴取する場合や、地下鉄又は道路のように騒々しい環境で音楽を聞く場合、入力オーディオ信号の動的範囲を減少させて再生する必要がある。
これにより、オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネス範囲に基づき、入力オーディオ信号のゲインパラメータを計算することができる。このとき、ゲインパラメータは、ラウドネス圧縮に用いられるゲイン比率(gain ratio)を含むことができる。オーディオ信号処理装置は、ゲイン比率に基づき、入力オーディオ信号が含む複数のフレームのうち、既に設定された大きさよりも小さい短区間ラウドネスを有するフレームに対して追加のブースト(boost)ゲインを適用することができる。オーディオ信号処理装置は、ゲイン比率に基づき、入力オーディオ信号が含む複数のフレームのうち、既に設定された大きさよりも大きい短区間ラウドネスを有するフレームに対して追加のカット(cut)ゲインを適用することができる。これにより、オーディオ信号処理装置は、入力オーディオ信号の全区間の出力ラウドネスレベルがターゲットラウドネスレベルに近似するように調整することができる。
追加の実施例によって、オーディオ信号処理装置は、時間区間別に異なるように測定されたラウドネスパラメータに基づき、時間区間別ラウドネス正規化を行うことができる。具体的に、オーディオ信号処理装置は、ターゲットラウドネスレベル(L_T)、累積ラウドネスレベル(L_I)、短区間ラウドネスレベル(L_S)、相対的な閾値(relative threshold,L_Rel)、ノイズフロアレベル(noise floor level,L_Noise)、ピーク値(P)に基づき、入力オーディオ信号の時間区間別ラウドネスゲイン(G_loud)を決定することができる。ここで、L_Relは、入力オーディオ信号の全区間において有効な動的ラウドネスパラメータの平均に、既に設定された値が加算された値であってよい。このとき、既に設定された値は、-20LUであってよい。また、動的ラウドネスパラメータは、瞬間ラウドネスレベル又は短区間ラウドネスレベルであってよい。
例えば、L_Relは、入力オーディオ信号の区間別短区間ラウドネスレベルのうち、少なくとも有効ラウドネスレベルよりも大きい値を有する短区間ラウドネスレベルの平均に基づいて算出された値であってよい。L_Relは、入力オーディオ信号の区間別瞬間ラウドネスレベルのうち、少なくとも有効ラウドネスレベルよりも大きい値を有する瞬間ラウドネスレベルの平均に基づいて算出された値であってよい。ここで、有効ラウドネスレベルは、聴覚的に認知し難いラウドネスレベルに基づいて設定された値であってよい。有効ラウドネスレベルは、音がほとんど存在しないオーディオ信号のラウドネスレベルに基づいて設定された値であってよい。例えば、有効ラウドネスレベルは、-70LKFSに基づいて設定された値であってよい。
また、L_Noiseは、入力オーディオ信号において音がほとんど存在しない区間ラウドネスレベル又は入力オーディオ信号において非常に低いレベルの背景雑音(background noise)に対応する区間のラウドネスレベルのうち少なくとも一つに基づいて算出された値であってよい。
一実施例によって、L_T、L_I、L_S、L_Rel、L_Noise及びPのそれぞれは、前述したラウドネスメタデータから取得できる。また、時間区間はフレームを含むことができる。前述した実施例において、短区間ラウドネスレベル(L_S)は、特定時間区間を代表するラウドネス代表値に代替されてよい。例えば、短区間ラウドネスレベル(L_S)は、入力オーディオ信号の瞬間ラウドネスレベルに代替されてよい。オーディオ信号処理装置がL_T、L_I、L_S、L_Rel、L_Noise及びPに基づいて時間区間別ラウドネスゲイン(G_loud)を取得する方法を式で表すと、下記の式16の通りである。
[数16]
式16において、r_1及びr_2は、入力オーディオ信号に対して出力オーディオ信号の動的範囲を制御するためのラウドネス圧縮比率を表すことができる。r1は、入力オーディオ信号の入力ラウドネスレベルが、少なくとも累積ラウドネスレベルよりも小さい区間において当該区間のラウドネスゲインを取得するために用いられるラウドネス圧縮比率であってよい。r_1は、入力オーディオ信号のラウドネス範囲を示すLRA、PLR、又は瞬間ラウドネス最大値の少なくとも一つに基づいて設定されてよい。r_1は、0と1の間の任意の定数であってよい。r_2は、入力オーディオ信号の入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルがL_Relよりも小さい区間において、当該区間のラウドネスゲインを取得するために用いられる圧縮比率であってよい。このとき、r_2は、ノイズ成分のブーストを最小化するために、少なくともr_1よりも小さい値に設定されてよい。オーディオ信号処理装置は、G_loud[n]をスムージングして入力オーディオ信号に適用することができる。また、clippingThresholdは、最大許容サンプルピーク値を表すことができる。clippingThresholdは、前述したQSHI、最大トゥルーピーク(truePeak)及び最大サンプルピーク値の少なくとも一つに基づいて設定された値であってよい。例えば、clippingThresholdは、QSHIと同じ値であってよい。又は、clippingThresholdは、オーディオ信号処理装置又はオーディオ提供システムにおいて任意に設定される値であってよい。
以下では、本発明の一実施例に係るオーディオ信号処理装置がラウドネス測定値を取得する方法について、図18を参照して具体的に説明する。図18は、本発明の一実施例によってオーディオ信号処理装置が入力コンテンツのラウドネスを測定する方法を示す図である。一実施例によって、オーディオ信号処理装置は、前述した測定ウィンドウに基づいて入力コンテンツのラウドネスを測定することができる。また、オーディオ信号処理装置は、入力コンテンツの測定ウィンドウ別ラウドネス測定値を取得することができる。オーディオ信号処理装置は、測定ウィンドウ別ラウドネス測定値に基づいてラウドネス情報を取得することができる。
図18の実施例において、オーディオ信号処理装置は、測定ウィンドウ801の長さに基づいて測定ウィンドウ別測定値を取得することができる。このとき、測定ウィンドウ801の長さは、オーディオ信号処理装置に既に保存されたデフォルト値であってよい。本発明の一実施例によって、測定ウィンドウ801の長さは、入力コンテンツによって変わってもよい。例えば、オーディオ信号処理装置は、入力コンテンツの付加情報に基づいて、入力コンテンツに対応する測定ウィンドウの長さを取得することができる。図18の実施例において、入力コンテンツに対応する測定ウィンドウの長さは、400msであってよい。オーディオ信号処理装置は、入力コンテンツ全区間において特定400ms長の区間に対応するラウドネス測定値を取得することができる。
一実施例によって、測定ウィンドウの長さは、付加情報に基づいて取得されてよい。例えば、測定ウィンドウの長さは、入力コンテンツのラウドネス範囲に基づいて取得されてよい。ここで、ラウドネス範囲は、コンテンツの全区間に対するラウドネスレベル分布を表す値であってよい。ラウドネス範囲は、LUのような相対的な測定量を示す単位を用いて表示されてよい。オーディオ信号処理装置は、付加情報から入力コンテンツのラウドネス範囲に関する情報を取得することができる。次に、オーディオ信号処理装置は、入力コンテンツのラウドネス範囲に基づいて測定ウィンドウの長さを決定することができる。このとき、入力コンテンツの測定ウィンドウの長さは、入力コンテンツのラウドネス範囲よりも広いラウドネス範囲の幅を有する他のコンテンツの測定ウィンドウ長よりも短い値に設定されてよい。例えば、第1入力コンテンツのラウドネス範囲が第2入力コンテンツのラウドネス範囲よりも大きい場合、第1入力コンテンツに対する測定ウィンドウの長さは、第2入力コンテンツに対する測定ウィンドウの長さよりも長くてよい。
また、オーディオ信号処理装置は、入力コンテンツに対する測定値を取得する測定周期によって測定ウィンドウ別ラウドネス測定値を取得することができる。本開示において、測定周期は、測定ウィンドウが移動する時間的距離を表すことができる。図18を参照すると、第1測定値802は、入力コンテンツが再生し始まった時点を基準に、(300ms~700ms)区間に対応するラウドネス測定値であってよい。また、第2測定値803は、入力コンテンツが再生し始まった時点を基準に、(400ms~800ms)区間に対応するラウドネス測定値であってよい。入力コンテンツが再生し始まった時点から現在時点までの時間長が測定ウィンドウの長さよりも小さい場合、オーディオ信号処理装置は、現在時点以降に来る最も近い測定周期にラウドネス測定値を取得することができる。この場合、オーディオ信号処理装置は、測定ウィンドウの長さよりも短い区間に対応するラウドネス測定値を取得することができる。
具体的に、オーディオ信号処理装置は、付加情報に基づいて測定周期を決定することができる。例えば、測定周期は、入力コンテンツの長さに基づいて決定されてよい。例えば、第1入力コンテンツの長さよりも第2入力コンテンツの長さが長い場合、第1入力コンテンツの測定周期は第2入力コンテンツの測定周期よりも短くてよい。また、オーディオ信号処理装置は、決定された測定周期に基づいて測定ウィンドウ別ラウドネス測定値を取得することができる。図18の実施例において、測定周期は100msであってよい。オーディオ信号処理装置は、測定ウィンドウを100msごとに移動させ、測定ウィンドウ別ラウドネス測定値を取得することができる。また、オーディオ信号処理装置は、図18で測定された複数のラウドネス測定値に基づき、前述したラウドネス情報を取得することができる。
図19は、本発明の一実施例に係るオーディオ信号処理装置の動作を示すフローチャートである。本発明の一実施例に係るオーディオ信号処理装置は、入力オーディオ信号を受信することができる(段階S1901)。このとき、入力オーディオ信号は、図2で説明した入力コンテンツを含むことができる。次に、オーディオ信号処理装置は、入力オーディオ信号に対応するラウドネスメタデータを受信することができる(段階S1902)。
次に、オーディオ信号処理装置は、ラウドネスメタデータをパースし、入力オーディオ信号のラウドネス情報を取得することができる(段階S1903)。本発明の一実施例によって、ラウドネス情報は、入力オーディオ信号の累積ラウドネスレベル、少なくとも一つの短区間ラウドネスレベル、品質保障ヒストグラム指標(Quality Secure Histogram Index,QSHI)、入力オーディオ信号の動的範囲(dynamic range)、周波数別ラウドネスエネルギー、周波数別ラウドネス比率、及びピーク値(peak envelope)のそれぞれを示す情報の少なくとも一つを含むことができる。オーディオ信号処理装置がラウドネス情報に含まれるそれぞれの情報を取得する方法には、前述した図2~図18を参照して説明される実施例が適用されてよい。
QSHIは、認知的音質損傷が発生しない閾ラウドネスレベルを示すことができる。QSHIは、前述した図3の段階S303、図4のQSHI抽出部404、及び図10で説明した実施例によって取得することができる。例えば、QSHIは、入力オーディオ信号のラウドネスヒストグラムに基づいて算出されたラウドネスパラメータであってよい。このとき、ラウドネスヒストグラムは、入力オーディオ信号の時間別短区間ラウドネスレベルのサイズヒストグラムであってよい。又は、ラウドネスヒストグラムは、入力オーディオ信号の区間別ピーク値又はRMS(root-mean-square)に関するサイズヒストグラムであってよい。QSHIは、前記入力オーディオ信号の累積ラウドネスレベルよりも大きくてよい。
一実施例によって、QSHIは、入力オーディオ信号のラウドネスヒストグラムから予測された予測ラウドネスヒストグラムに基づいて算出されたパラメータであってよい。このとき、予測ラウドネスヒストグラムは、入力オーディオ信号がターゲットラウドネスレベルにしたがって出力される場合、予測されるラウドネスパラメータに基づいて生成されたヒストグラムであってよい。
一実施例によって、QSHIは、オーディオ信号処理装置においてリミッターが駆動される回数に基づいて決定されてよい。この場合、オーディオ信号処理装置は、出力オーディオ信号に出力オーディオ信号のラウドネスレベルを制限するラウドネスリミッター(limiter)を適用して出力することができる。このとき、出力オーディオ信号は、入力オーディオ信号の出力ラウドネスレベルがラウドネスゲインによって調整された信号であってよい。QSHIは、出力オーディオ信号の全区間の短区間ラウドネスレベルが、既に設定されたレベル以下となるように設定されたパラメータであってよい。
次に、オーディオ信号処理装置は、ラウドネス情報及びターゲットラウドネスレベルに基づいて入力オーディオ信号のラウドネスゲインを取得することができる(S1904)。一実施例によって、入力オーディオ信号のラウドネスゲインは、前記入力オーディオ信号の全区間において固定された値を有する固定ゲインであってよい。他の実施例によって、入力オーディオ信号のラウドネスゲインは、前記入力オーディオ信号が再生される時間の間に、時間によって変化するゲインであってよい。
本発明の一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の累積ラウドネスを受信することができる。また、オーディオ信号処理装置は、入力オーディオ信号の累積ラウドネス、QSHI及び前記ターゲットラウドネスレベルに基づいてラウドネスゲインを決定することができる。
一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネスレベルとQSHIとを比較することができる。また、オーディオ信号処理装置は、比較結果に基づいてラウドネスゲインを決定することができる。オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネスレベルとQSHIのうち、より小さい値に基づいてラウドネスゲインを決定することができる。これについては、図10で説明した具体的な実施例が適用されてよい。
一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のQSHIから補正されたQSHIに基づき、入力オーディオ信号のラウドネスゲインを取得することができる。例えば、オーディオ信号処理装置は、入力オーディオ信号に対する後処理(post processing)を行うことができる。この場合、オーディオ信号処理装置は、入力オーディオ信号に対する後処理の特性を示す後処理情報を受信することができる。また、オーディオ信号処理装置は、後処理情報に基づいて既に取得したQSHIを補正することができる。一実施例によって、オーディオ信号処理装置は、後処理情報及び既に保存された関数に基づき、既に取得したQSHIを補正することができる。オーディオ信号処理装置は、後処理情報及び既に保存されたルックアップテーブル(look-up table)に基づき、既に取得したQSHIを補正することができる。このとき、既に保存されたルックアップテーブルは、後処理の特性によるQSHI補正に関する情報を含むテーブルであってよい。また、QSHI補正に関する情報は、後処理の特性によるQSHI補正値を示す情報を含むことができる。オーディオ信号処理装置は、既に保存されたルックアップテーブルに基づき、入力オーディオ信号に対する後処理に対応するQSHI補正値を取得することができる。オーディオ信号処理装置は、取得されたQSHIにQSHI補正値を加算して前記QSHIを補正することができる。オーディオ信号処理装置は、前述した方法で補正されたQSHIに基づき、入力オーディオ信号のラウドネスゲインを決定することができる。
一実施例によって、オーディオ信号処理装置は、周波数別ラウドネスエネルギー及び入力オーディオ信号に対する後処理の特性を示す後処理情報に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。オーディオ信号処理装置は、後処理によって変化するバンド別ラウドネスレベルに基づき、入力オーディオ信号のラウドネスゲインを決定することができる。
一実施例によって、オーディオ信号処理装置は、周波数別ラウドネスエネルギー及び入力オーディオ信号に対する後処理の特性を示す後処理情報に基づき、後処理によって変化するバンド別ラウドネスレベルを取得することができる。オーディオ信号処理装置は、周波数別ラウドネス比率及び入力オーディオ信号の後処理情報に基づき、後処理によって変化するバンド別ラウドネスレベルを取得することができる。後処理によって変化するバンド別ラウドネスレベルは、入力オーディオ信号の周波数別ラウドネス比率の内積に基づいて計算されてよい。後処理によって変化するバンド別ラウドネスレベルは、また、認知的ラウドネス特性に基づいて取得されたパラメータであってよい。オーディオ信号処理装置は、聴覚尺度に基づくラウドネスフィルターに基づき、入力オーディオ信号の後処理によって変化するバンド別ラウドネスレベルを取得することができる。具体的に、ラウドネスフィルターは、等ラウドネス曲線(equal-loudness contours)の逆フィルター、又はこれを近似化させたK加重(K-weighting)フィルターの少なくとも一つであってよい。入力オーディオ信号に含まれる複数のフレームにおける特定フレームのラウドネスレベルが相対的な閾値よりも小さいか等しい場合、オーディオ信号処理装置は、当該フレームに対応する後処理によって変化するバンド別ラウドネスレベルを演算しなくてもよい。他の例として、入力オーディオ信号の後処理によって変化するバンド別ラウドネスレベルは、入力オーディオ信号のジャンル、及びユーザの入力のうち少なくとも一つの基づいて設定されたパラメータであってよい。
入力オーディオ信号の周波数別ラウドネス比率及び/又は周波数別ラウドネスエネルギーは、入力オーディオ信号に対するラウドネス測定値に基づいて算出された値であってよい。周波数別ラウドネス比率は、認知的ラウドネス特性に基づいて取得されたパラメータであってよい。オーディオ信号処理装置は、聴覚尺度に基づくラウドネスフィルターに基づき、入力オーディオ信号の周波数別ラウドネス比率を取得することができる。具体的に、ラウドネスフィルターは、等ラウドネス曲線(equal-loudness contours)の逆フィルター、又はこれを近似化させたK加重(K-weighting)フィルターのうち少なくとも一つであってよい。入力オーディオ信号に含まれる複数のフレームのうち特定フレームのラウドネスレベルが、相対的な閾値よりも小さいか等しい場合、オーディオ信号処理装置は、当該フレームに対応する周波数別ラウドネス比率を演算しなくてもよい。周波数別ラウドネス比率は、図4の周波数別ラウドネス分析部402を参照して説明された実施例によって取得されてよい。他の例として、入力オーディオ信号の周波数別ラウドネス比率は、入力オーディオ信号のジャンル、及びユーザの入力のうち少なくとも一つの基づいて設定されたパラメータであってよい。
オーディオ信号処理装置は、ユーザ入力に基づいて入力オーディオ信号に対する後処理情報を取得することができる。このとき、ユーザ入力は、入力オーディオ信号に関連した入力であってよい。また、ユーザは、オーディオ信号処理装置を使用するユーザであってよい。後処理情報は、オーディオ信号処理装置の出力特性、入力オーディオ信号のジャンル、ユーザ入力による後処理モード、イコライゼーション種類、リバーブレーション(reverberation)、空間補償(room compensation)のそれぞれを示す情報の少なくとも一つを含むことができる。オーディオ信号処理装置が後処理によって変化するバンド別ラウドネスレベルに基づいて入力オーディオ信号のラウドネスゲインを決定する方法には、図3の段階S303で説明した実施例が適用されてよい。
一実施例によって、オーディオ信号処理装置は、ラウドネス変化予測値に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。ラウドネス変化予測値は、後処理による入力オーディオ信号のラウドネス変化に対する予測値であってよい。オーディオ信号処理装置は、ユーザによって設定された後処理情報に基づき、ラウドネス変化予測値を取得することができる。オーディオ信号処理装置は、入力オーディオ信号の周波数別特性及び後処理によって変化するバンド別ラウドネスレベルの少なくとも一つに基づき、ラウドネス変化予測値を取得することができる。ラウドネス変化予測値は、入力オーディオ信号の周波数別ラウドネス比率の内積に基づいて計算されてよい。ラウドネス変化予測値は、認知的ラウドネス特性に基づいて取得されたパラメータであってよい。オーディオ信号処理装置は、聴覚尺度に基づくラウドネスフィルターに基づき、入力オーディオ信号のラウドネス変化予測値を取得することができる。具体的に、ラウドネスフィルターは、等ラウドネス曲線(equal-loudness contours)の逆フィルター、又はこれを近似化させたK加重(K-weighting)フィルターの少なくとも一つであってよい。入力オーディオ信号に含まれる複数のフレームのうち特定フレームのラウドネスレベルが、相対的な閾値よりも小さいか等しい場合、オーディオ信号処理装置は、当該フレームに対応するラウドネス変化予測値を演算しなくてもよい。オーディオ信号処理装置がラウドネス変化予測値を取得する方法には、図4の周波数別ラウドネス分析部402及び後処理ラウドネス予測部403を参照して説明された実施例が適用されてよい。
本発明の一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のフレーム別ラウドネス情報に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。オーディオ信号処理装置は、入力オーディオ信号のフレーム別ラウドネス情報に基づき、入力オーディオ信号のフレーム別ラウドネスゲインを取得することができる。入力オーディオ信号のラウドネスゲインは、前記入力オーディオ信号が再生される時間の間に、時間によって変化するゲインであってよい。一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のフレーム別ラウドネス情報を含むラウドネスメタデータを受信することができる。オーディオ信号処理装置は、ラウドネスメタデータをパースし、入力オーディオ信号のフレーム別ラウドネス情報を取得することができる。フレーム別ラウドネス情報は、動的ラウドネスパラメータを含むことができる。一実施例によって、フレーム別ラウドネス情報は、フレーム別ピーク値を示す情報を含むことができる。フレーム別ピーク値は、既に設定された長さのフレームに含まれたオーディオ信号の最大絶対値に基づいて取得されてよい。
一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のフレーム別ピーク値に基づいて入力オーディオ信号のフレーム別ラウドネスゲインを決定することができる。オーディオ信号処理装置は、ターゲットラウドネスレベル及び入力オーディオ信号のフレーム別ピーク値に基づいて入力オーディオ信号のフレーム別ラウドネスゲインを決定することができる。例えば、オーディオ信号処理装置は、ターゲットラウドネスレベルに基づき、フレーム別ピーク値を超えないようにフレーム別ラウドネスゲインを設定することができる。また、オーディオ信号処理装置は、フレーム別ラウドネスゲインに基づき、入力オーディオ信号の当該フレームの出力ラウドネスレベルを調整することができる。オーディオ信号処理装置がフレーム別ラウドネス情報に基づいてラウドネスゲインを決定する方法には、上の図17を参照して説明した実施例が適用されてよい。
次に、オーディオ信号処理装置は、入力オーディオ信号の出力ラウドネスレベルを、ラウドネスゲインに基づいて調整することができる(S1905)。一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の出力ラウドネスレベルを調整して出力オーディオ信号を生成することができる。このとき、オーディオ信号処理装置は、決定されたラウドネスゲインを使用することができる。一実施例によって、オーディオ信号処理装置は、生成された出力オーディオ信号にラウドネスリミッター(limiter)を適用して出力することができる。
本発明の更なる実施例によって、オーディオ信号処理装置は、入力オーディオ信号の全区間のうち一部の区間に対する区間ラウドネスゲインに基づき、入力オーディオ信号の出力ラウドネスレベルを調整することができる。一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の特定区間に対応するラウドネスパラメータに基づき、当該区間に対応するラウドネスゲインを取得することができる。例えば、入力オーディオ信号の特定区間に対応するラウドネスパラメータは、当該区間に対する少なくとも一つの代表値を含むことができる。このとき、代表値は、当該区間に対応する入力オーディオ信号のラウドネスレベルの絶対値の最大値、及び短区間ラウドネスレベルの少なくとも一つを含むことができる。
一実施例によって、オーディオ信号処理装置は、ターゲットラウドネスレベル、累積ラウドネスレベル、及び入力ラウドネスレベルに基づき、入力オーディオ信号の時間区間別ラウドネスゲインを決定することができる。このとき、入力ラウドネスレベルは、特定区間を代表するラウドネスレベルであってよい。例えば、入力ラウドネスレベルは、短区間ラウドネスレベルであってよい。オーディオ信号処理装置は、ターゲットラウドネスレベル、累積ラウドネスレベル、入力ラウドネスレベル、相対的な閾値(relative threshold)、ノイズフロアレベル(noise floor level)、ピーク値の少なくとも2つを互いに比較することができる。また、オーディオ信号処理装置は、比較結果に基づいて入力オーディオ信号の時間区間別ラウドネスゲインを決定することができる。
例えば、オーディオ信号処理装置は、ターゲットラウドネスレベルと累積ラウドネスレベルとを比較できる。オーディオ信号処理装置は、入力ラウドネスレベルと累積ラウドネスレベルとを比較できる。ターゲットラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルが累積ラウドネスレベルよりも大きい場合、オーディオ信号処理装置は、第1区間別ラウドネスゲインを当該区間の入力オーディオ信号に適用することができる。
他の例として、ターゲットラウドネスレベルが累積ラウドネスレベルよりも大きく、入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルが相対的な閾値よりも大きい場合、オーディオ信号処理装置は、第2区間別ラウドネスゲインを当該区間の入力オーディオ信号に適用することができる。
さらに他の実施例として、ターゲットラウドネスレベルが累積ラウドネスレベルよりも大きく、入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルが相対的な閾値よりも小さく、入力ラウドネスレベルがノイズフロアレベルよりも大きい場合、オーディオ信号処理装置は、第3区間別ラウドネスゲインを、当該区間の入力オーディオ信号に適用することができる。
さらに他の実施例として、ターゲットラウドネスレベルが累積ラウドネスレベルよりも大きく、入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルが相対的な閾値よりも小さく、入力ラウドネスレベルがノイズフロアレベルよりも小さい場合、オーディオ信号処理装置は、第4区間別ラウドネスゲインを当該区間の入力オーディオ信号に適用することができる。このとき、第4区間別ラウドネスゲインは、当該フレームよりも前のフレームのラウドネスゲインであってよい。例えば、ターゲットラウドネスレベルが累積ラウドネスレベルよりも大きく、N番目のフレームに対応する入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、N番目のフレームに対応する入力ラウドネスレベルが相対的な閾値よりも小さく、N番目のフレームに対応する入力ラウドネスレベルがノイズフロアレベルよりも小さい場合、オーディオ信号処理装置は、N-1-番目フレームに対応するラウドネスゲインを、N番目のフレームに対応するラウドネスゲインとして用いることができる。
他の実施例によって、第4区間別ラウドネスゲインは、入力オーディオ信号全体に適用される固定ゲインを示すことができる。また、第1区間別ラウドネスゲイン、第2区間別ラウドネスゲイン、及び第3区間別ラウドネスゲインは、それぞれ、第4区間別ラウドネスゲインを基準に個別の方法で補正されたゲインであってよい。また、第1区間別ラウドネスゲイン、第2区間別ラウドネスゲイン、及び第3区間別ラウドネスゲインは、個別の値を有するゲインであってよい。
一実施例によって、入力オーディオ信号のN番目の区間のラウドネス代表値は、入力オーディオ信号のN番目の区間に隣接した区間に対応する代表値であってよい。例えば、入力オーディオ信号のN番目の特定区間のラウドネス代表値は、N+L番目又はN-L番目の区間に対応する代表値であってよい。このとき、Lは、代表値を取得するための時間区間よりも小さい区間に該当するインデックス値であってよい。例えば、代表値を取得するための時間区間は、3秒であってよい。また、オーディオ信号処理装置は、時間遅延された入力オーディオ信号に基づき、入力オーディオ信号の特定区間の代表値を取得することができる。このとき、オーディオ信号処理装置は、既に設定された遅延時間に基づいて入力オーディオ信号を時間遅延させ、代表値取得に用いられる少なくとも一つのラウドネス測定値を取得することができる。
一実施例によって、オーディオ信号処理装置は、入力オーディオ信号全体に適用されるラウドネス固定ゲインを取得することができる。この場合、オーディオ信号処理装置は、入力オーディオ信号の特定区間に対応するラウドネスパラメータに基づき、ラウドネス固定ゲインを補正することができる。また、オーディオ信号処理装置は、補正されたゲインに基づき、当該区間の入力オーディオ信号の出力ラウドネスレベルを調整することができる。入力オーディオ信号処理装置が入力オーディオ信号の全区間のうち一部の区間に対する区間ラウドネスゲインに基づいて入力オーディオ信号の出力ラウドネスレベルを調整する方法には、上の図17を参照して説明した実施例が適用されてよい。
図20は、本発明の一実施例に係るオーディオ信号処理装置2000の構成を示すブロック図である。一実施例によって、オーディオ信号処理装置2000は、受信部2100、プロセッサ2200、及び出力部2300を含むことができる。ただし、図10に示す構成要素の全てが必ずしもオーディオ信号処理装置の必須構成要素ではない。オーディオ信号処理装置2000は、図20に示していない構成要素をさらに含んでもよい。例えば、一実施例に係るオーディオ信号処理装置は、保存部(図示せず)をさらに含むことができる。なお、図20に示すオーディオ信号処理装置2000の構成要素の少なくとも一部が省略されてもよい。例えば、一実施例に係るオーディオ信号処理装置は、受信部2100及び出力部2300の少なくとも一つを含まなくてもよい。
受信部2100は、オーディオ信号処理装置2000に入力される入力コンテンツを受信することができる。受信部2100は、プロセッサ2200による出力ラウドネスレベルが調整される入力コンテンツを受信することができる。前述したように、入力コンテンツは、オーディオ信号を含むことができる。このとき、オーディオ信号は、アンビソニック信号、オブジェクト信号又はチャネル信号の少なくとも一つを含むことができる。また、オーディオ信号は、1個のオブジェクト信号又はモノ信号であってよい。オーディオ信号は、マルチオブジェクト又はマルチチャネル信号であってもよい。一実施例によって、受信部2100は、有線で送信される入力コンテンツを受信する入力端子を含むことができる。また、受信部2100は、無線で送信される入力コンテンツを受信する無線受信モジュールを含むことができる。
一実施例によって、オーディオ信号処理装置2000は、別のデコーダを含むことができる。この場合、受信部2100は、入力コンテンツの符号化されたビットストリームを受信することができる。また、符号化されたビットストリームは、デコーダで入力コンテンツとして復号化されてよい。さらに、受信部2100は、入力コンテンツに関連した付加情報を受信することができる。
一実施例によって、受信部2100は、ネットワークを介して外部の装置とデータを送受信するための送受信手段を備えることができる。このとき、データは、入力コンテンツのビットストリーム又は付加情報の少なくとも一つを含むことができる。受信部2100は、有線で送信されるデータを受信するための有線送受信端子を含むことができる。また、受信部2100は無線で送信されるデータを受信するための無線送受信モジュールを含むことができる。この場合、受信部2100は、ブルートゥース(登録商標)(bluetooth)又はワイファイ(Wi-Fi)通信方法を用いて無線で送信されるデータを受信することができる。また、受信部2100は、LTE(long term evolution)、LTE-advancedのような移動通信規格に従って送信されるデータを受信することができ、本開示がこれに限定されるものではない。受信部2100は、様々な有無線通信規格に従って送信される様々な形態のデータを受信することができる。
プロセッサ2200は、オーディオ信号処理装置2000の動作全般を制御することができる。プロセッサ2200は、オーディオ信号処理装置2000の各構成要素を制御することができる。プロセッサ2200は、各種データと信号の演算及び処理を行うことができる。プロセッサ2200は、半導体チップ又は電子回路形態のハードウェアによって具現されるか、ハードウェアを制御するソフトウェアによって具現されてよい。プロセッサ2200は、ハードウェアと前記ソフトウェアとが結合した形態で具現されてもよい。例えば、プロセッサ2200は、少なくとも一つのプログラムを実行することによって、受信部2100、及び出力部2300の動作を制御することができる。また、プロセッサ2200は少なくとも一つのプログラムを実行し、上の図1~図19で説明された動作を行うことができる。
一実施例によって、プロセッサ2200は、入力コンテンツの出力ラウドネスレベルを調整することができる。例えば、プロセッサ2200は、ラウドネスゲインに基づいて入力コンテンツの出力ラウドネスレベルを調整することができる。ラウドネス情報は、入力コンテンツから分析された入力コンテンツのラウドネス特性であってよい。このとき、ラウドネスゲインはラウドネス情報に基づいて取得されてよい。また、プロセッサ2200は、入力コンテンツから出力ラウドネスレベルの調整された出力コンテンツを出力することができる。このとき、プロセッサ2200は、後述する出力部2300から出力コンテンツを出力することができる。
出力部2300は出力コンテンツを出力することができる。出力部2300は、プロセッサ2200によって入力コンテンツから出力ラウドネスレベルが調整された出力コンテンツを、出力することができる。ここで、出力コンテンツは、出力オーディオ信号を含むことができる。この場合、出力オーディオ信号は、アンビソニック信号、オブジェクト信号又はチャネル信号の少なくとも一つを含むことができる。出力オーディオ信号は、マルチオブジェクト又はマルチチャネル信号であってもよい。また、出力オーディオ信号は、聴取者の両耳にそれぞれ対応する2チャネル出力オーディオ信号を含むことができる。出力オーディオ信号は、バイノーラル2チャネル出力オーディオ信号を含むことができる。出力部2300は、プロセッサ2200によって出力ラウドネスレベルが調整されたオーディオヘッドホン信号を、出力することができる。
一実施例によって、出力部2300は、出力コンテンツを出力する出力手段を備えることができる。例えば、出力部2300は、出力オーディオ信号を外部に出力する出力端子を含むことができる。このとき、オーディオ信号処理装置2000は、出力端子に連結された外部装置に、出力オーディオ信号を出力することができる。出力部2300は、出力オーディオ信号を外部に出力する無線オーディオ送信モジュールを含むことができる。この場合、出力部2300は、ブルートゥース(登録商標)又はワイファイのような無線通信方法を用いて、外部装置に出力オーディオ信号を出力することができる。
また、出力部2300はスピーカーを含むことができる。この場合、オーディオ信号処理装置2000は、スピーカーから出力オーディオ信号を出力することができる。また、出力部2300は、デジタルオーディオ信号をアナログオーディオ信号に変換するコンバーター(例えば、digital-to-analog converter,DAC)をさらに含むことができる。さらに、出力部2300は、出力コンテンツに含まれるビデオ信号を出力するディスプレイ手段を備えることができる。
前述したように、オーディオ信号処理装置2000は、保存部(図示せず)をさらに含むことができる。保存部は、プロセッサ2200の処理及び制御のためのデータ又はプログラムの少なくとも一つを保存することができる。また、保存部はラウドネス情報を保存することができる。保存部は、受信されたラウドネスメタデータから抽出されたラウドネス情報を保存することができる。保存部は、受信されたターゲットラウドネスレベルを保存することができる。又は、保存部は、プロセッサ2200で取得されたラウドネス測定値を保存することができる。また、保存部は、プロセッサ2200で演算された結果を保存することができる。例えば、保存部は、ラウドネス情報に基づいて決定されたラウドネスゲインを保存することができる。また、保存部は、オーディオ信号処理装置2000に入力されるか、オーディオ信号処理装置2000から出力されるデータを保存することができる。
保存部は、少なくとも一つのメモリを備えることができる。このとき、メモリは、フラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリ(例えば、SD又はXDメモリなど)、RAM(andom Access Memory)、SRAM(Static Random Access Memory)、ROM(Read-Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、PROM(Programmable Read-Only Memory)、磁気メモリ、磁気ディスク、光ディスクのうち少なくとも一つのタイプの記憶媒体を含むことができる。
図21は、本発明の一実施例に係る入力オーディオ信号の時間区間別ピーク値を示す図である。図21の実施例において、時間区間別ピーク値は、入力オーディオ信号から測定されたラウドネス測定値に基づいて取得された値であってよい。図21において、実線で表示された値は、入力オーディオ信号の時間別ラウドネス測定値を示す。また、第1破線(-*-)で表示された値は、入力オーディオ信号の時間別ラウドネス測定値の時間区間別代表値を示す。オーディオ信号処理装置は、時間区間別代表値に基づいて時間区間別ピーク値を取得することができる。このとき、該当代表値は、ラウドネス測定機の入力バッファに入力された値を基準に計算されるため、実際入力オーディオ信号を基準にすれば誤差が発生し得る。
図21において、第2破線(-△-)で表示された値は、15ms程度の時間遅延によって取得した時間区間別代表値であってよい。オーディオ信号処理装置は、入力オーディオ信号に時間遅延を適用して時間区間別代表値を取得することができる。これにより、オーディオ信号処理装置は、取得されたピーク値が入力オーディオ信号のラウドネス変化に、より正しく対応し得るように補正することができる。このとき、時間遅延に用いられる遅延デューレーション(duration)は、入力オーディオ信号の測定フレームの長さを基準に設定されてよい。図21で説明したピーク値の時間遅延補正方法は、図15で説明した他の動的ラウドネスパラメータにも適用可能である。例えば、オーディオ信号処理装置は、時間遅延を用いて短区間ラウドネスレベルを取得することができる。
図22は、本発明の一実施例に係るオーディオ信号処理装置がスムージングを用いて入力オーディオ信号の出力ラウドネスレベルを調整する方法を説明する図である。本発明の一実施例によって、オーディオ信号処理装置は、スムージング用いてラウドネスゲインがなだらかに変わるように入力オーディオ信号の出力ラウドネスレベルを調整することができる。この場合、スムージングは、入力オーディオ信号のラウドネス測定値を基準にして実行(Causal Processing)されるため、オーディオ信号処理装置は、実際ラウドネス変化に対して当該フレームで必要なパラメータを正しく提供し難いことがある。
そのため、オーディオ信号処理装置は、時間遅延によって取得したラウドネスパラメータを用いて、入力オーディオ信号のラウドネスゲインに対するスムージング動作を行うことができる。このとき、時間遅延によって取得したラウドネスパラメータは、図21で前述した方法によって取得されたパラメータであってよい。
図22において、実線で表示された値は、入力オーディオ信号のフレーム別ラウドネスゲインを示すことができる。このとき、実線で表示された値は、スムージングが適用されていないラウドネスゲインを示すことができる。また、第3破線(--)及び第4破線(-・-)のそれぞれで表示された値は、フレーム別ラウドネスゲインからスムージングが適用されたラウドネスゲインであってよい。このとき、第3破線(--)で表示されたフレーム別ラウドネスゲインのそれぞれは、時間遅延が適用された測定値に基づいて取得された第1フレーム別ラウドネスゲイン(smoothing from shifted input)を示すことができる。一方、第4破線(-・-)で表示されたフレーム別ラウドネスゲインのそれぞれは、時間遅延が適用されていない測定値に基づいて取得された第2フレーム別ラウドネスゲイン(smoothing from org.input)を示すことができる。
図22を参照すると、第1フレーム別ラウドネスゲインに比べて第2フレーム別ラウドネスゲインは、入力オーディオ信号のラウドネスレベルとより類似に変化し得る。図22の横軸であるフレームインデックス110~130の区間を参照すると、入力オーディオ信号のスムージングが適用されていないフレーム別ラウドネスゲインが急に減少する。当該区間において、第1フレーム別ラウドネスゲインは、第2フレーム別ラウドネスゲインに比べて漸次減少する。第2フレーム別ラウドネスゲインは、第1フレーム別ラウドネスゲインに比べて急に減少する。また、第1フレーム別ラウドネスゲインは、第2フレーム別ラウドネスゲインに比べて一定フレーム先立って減少し始まる。これにより、オーディオ信号処理装置は、時間遅延が適用された測定値に基づいて取得された第1フレーム別ラウドネスゲインを用いて、聴取者にとって急なラウドネス変化が感じられることを防止することができる。
本発明の一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の特性をターゲットラウドネスレベルに合わせて処理するために、入力オーディオ信号に対して区間別に決定されたラウドネスゲインを適用することができる。この場合、特定区間では過度なラウドネスゲイン値が適用されることがある。このため、0dBFSよりも大きくなるクリッピングが発生するか、事前に定義された数値(Threshold)値よりも大きくなる結果が発生することがある。このため、オーディオ信号処理装置は、出力オーディオ信号にリミッターを適用することができる。これにより、オーディオ信号処理装置は、入力オーディオ信号から出力ラウドネスレベルの調整された出力オーディオ信号のラウドネスレベルが、既に設定されたラウドネスレベルよりも大きくなる区間に対してリミッターを適用することができる。
この場合、リミッターで出力オーディオ信号が処理される方式は、リミッターに関連したリミッターパラメータによって実時間で又は時間順序によって(Causal Processing)処理されてよい。オーディオ信号処理装置がリミッターを使用する場合、オーディオ信号処理装置は、意図しない音色歪みを発生させるこがある。前述したように、オーディオ信号処理装置は、区間別に決定されたラウドネスゲインを用いて、入力オーディオ信号の出力ラウドネスレベルを調整することができる。このとき、区間別に決定されたラウドネスゲインは、区間別ピーク値を考慮したゲインであってよい。オーディオ信号処理装置は、区間別ピーク値に基づき、当該区間で発生するクリッピング又はターゲットラウドネスレベルを超えるレベルを有する区間の発生を予測することができる。また、オーディオ信号処理装置は、前記予測に基づき、入力オーディオ信号の区間別ラウドネスゲインを決定することができる。すなわち、オーディオ信号処理装置は、予測に基づき、逆にラウドネスゲインを補正することができる。これにより、オーディオ信号処理装置は、リミッターによって発生する出力オーディオ信号の音色歪みを防止することができる。
一部の実施例は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能な命令語を含む記録媒体の形態に具現されてもよい。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の可用媒体であってよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれをも含むことができる。また、コンピュータ可読媒体はコンピュータ記憶媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令語、データ構造、プログラムモジュール又はその他データのような情報の保存のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれをも含むことができる。
以上では、本開示を具体的な実施例を用いて説明したが、本開示の属する技術の分野における通常の知識を有する当業者であれば、本開示の趣旨及び範囲から逸脱することなく修正、変更が可能である。すなわち、本開示は、オーディオ信号に対するラウドネスレベル調整の実施例について説明したが、本開示は、オーディオ信号の他、ビデオ信号を含む様々なマルチメディア信号にも同様の適用及び拡張が可能である。したがって、本開示の詳細な説明及び実施例から、本開示の属する技術の分野における当業者が容易に類推できるものは、本開示の権利範囲に属するものとして解釈される。