JP2023103223A

JP2023103223A - ラウドネスレベルを制御するオーディオ信号処理方法及び装置

Info

Publication number: JP2023103223A
Application number: JP2023064367A
Authority: JP
Inventors: サンペ・チョン; Sangbae CHON; キュテ・パク; Kyutae Park; ユンフン・クウォン; Young Hoon Kwon; ヒュノ・オ; Hyun-O Oh; ジョンフン・ソ; Jeonghun Seo; テギュ・イ; Taegyu Lee; ヒュンジュ・チュン; Hyun-Joo Chung
Original assignee: Gaudi Audio Lab Inc
Current assignee: Gaudio Lab Inc
Priority date: 2019-03-14
Filing date: 2023-04-11
Publication date: 2023-07-26
Also published as: US20210367574A1; KR20210019415A; JP2022526271A; US11316490B2; US11791789B2; WO2020185025A1; KR102502521B1; CN116962954A; CN113647120B; CN116866816A; CN113647120A; US20240030881A1; JP7266916B2; KR20230156156A; KR20230027333A; US20220231649A1

Abstract

【課題】コンテンツの出力ラウドネスレベルを効率的に調整する。【解決手段】オーディオ信号処理装置は、入力オーディオ信号を受信する受信部、前記入力オーディオ信号に対応するラウドネス（ｌｏｕｄｎｅｓｓ）メタデータ（ｍｅｔａｄａｔａ）を生成するプロセッサ、及び前記プロセッサで生成されたラウドネスメタデータを送信する出力部を含む。前記プロセッサは、前記入力コンテンツから分析されたラウドネス情報を取得し、前記入力オーディオ信号のラウドネスを測定して前記入力オーディオ信号のラウドネス情報を取得し、前記ラウドネス情報を変換して前記ラウドネスメタデータを生成し、前記出力部から、前記生成されたラウドネスメタデータを、前記入力オーディオ信号を出力する出力装置に送信する。【選択図】図１９

Description

本発明は、オーディオ信号を効果的に再生するためのオーディオ信号処理方法及び装置に関し、より詳細には、コンテンツのオーディオ信号が出力されるラウドネスレベルを調整し、より没入感の高いオーディオ信号をユーザに提供するためのオーディオ信号処理方法及び装置に関する。

ユーザにオーディオを提供する方法がアナログ方式からデジタル化することにより、より広い音量領域の表現が可能になった。また、オーディオ信号の音量は、オーディオ信号に対応するコンテンツによって多様化しつつある趨勢である。オーディオコンテンツ製作過程において、オーディオコンテンツ別に意図するラウドネスが互いに異なるように設定され得るわけである。このため、国際電気通信連合（ＩｎｔｅｒｎａｔｉｏｎａｌＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｏｎ，ＩＴＵ）、ヨーロッパ放送連合（ＥｕｒｏｐｅａｎＢｒｏａｄｃａｓｔｉｎｇＵｎｉｏｎ，ＥＢＵ）のような国際標準団体では、オーディオのラウドネスに対する標準を発行した。しかしながら、国家別にラウドネスを測定する方法と基準がそれぞれ異なるため、国際標準団体によって発行された標準を適用し難いという問題点がある。

コンテンツの製作者らは、相対的にラウドネスが大きくミキシングされたコンテンツを製作してユーザに提供しようとする。オーディオ信号の音響大きさが増加する場合、当該オーディオ信号の音質が向上したかように認知される心理的音響特性のためである。このため、ラウドネス戦争（ＬｏｕｄｎｅｓｓＷａｒ）と呼ばれる競争構図が形成されている。このため、コンテンツ内部的に又は複数のコンテンツ間のラウドネス差ができ、ユーザにとっては、当該コンテンツが再生される機器のボリュームを繰り返し調整しなければならない不便があり得る。したがって、コンテンツ再生機器を使用するユーザの便宜のために、オーディオコンテンツのラウドネスを正規化する技術が望まれる。

本発明の一実施例は、オーディオ信号を含むコンテンツを再生するオーディオ信号処理方法において、当該コンテンツの出力ラウドネスレベルを効率的に調整することを目的とする。

本発明の一実施例によれば、オーディオ信号処理装置は、入力オーディオ信号を受信する受信部、前記入力オーディオ信号に対応するラウドネス（ｌｏｕｄｎｅｓｓ）メタデータ（ｍｅｔａｄａｔａ）を生成するプロセッサ、及び前記プロセッサで生成されたラウドネスメタデータを送信する出力部を含む。前記プロセッサは、前記入力オーディオ信号のラウドネスを測定して前記入力オーディオ信号のラウドネス情報を取得し、前記ラウドネス情報を変換して前記ラウドネスメタデータを生成し、前記出力部から、前記生成されたラウドネスメタデータを、前記入力オーディオ信号を出力する出力装置に送信することができる。前記ラウドネス情報は、前記入力オーディオ信号の品質保障ヒストグラム指標（ＱｕａｌｉｔｙＳｅｃｕｒｅＨｉｓｔｏｇｒａｍＩｎｄｅｘ，ＱＳＨＩ）を示す情報を含み、前記ＱＳＨＩは、認知的音質損傷が発生しない閾ラウドネスレベルを示す。

前記プロセッサは、前記入力オーディオ信号のラウドネスヒストグラムに基づいて前記ＱＳＨＩを取得することができる。

前記プロセッサは、前記入力オーディオ信号の少なくとも一つの短区間ラウドネスレベルの分布に基づいて前記ラウドネスヒストグラムを取得し、前記ラウドネスヒストグラムに基づいて前記ＱＳＨＩを取得することができる。前記短区間ラウドネスレベルは、前記入力オーディオ信号の全区間よりも短い区間で測定されてよい。

前記ラウドネスヒストグラムは、前記入力オーディオ信号の区間別ピーク値又はＲＭＳ（ｒｏｏｔ－ｍｅａｎ－ｓｑｕａｒｅ）に関するサイズヒストグラムであってよい。

前記プロセッサは、前記入力オーディオ信号のラウドネスヒストグラムに基づき、前記入力オーディオ信号がターゲットラウドネスレベルにしたがって出力される場合のラウドネスパラメータを予測し、前記予測されたラウドネスパラメータに基づいて前記入力オーディオ信号の予測ラウドネスヒストグラムを取得し、前記予測されたラウドネス予測ヒストグラムに基づいて前記ＱＳＨＩを取得することができる。

前記ラウドネス情報は、前記入力オーディオ信号の累積ラウドネスレベルを含み、前記ＱＳＨＩは、前記入力オーディオ信号の累積ラウドネスレベルよりも大きく、前記累積ラウドネスレベルは、オーディオ信号処理装置において設定されたセットアップ時点から取得されたラウドネス測定値に基づいて算出されたラウドネスレベルであってよい。

前記ＱＳＨＩは、前記出力装置において前記入力オーディオ信号に対する後処理（ｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）の有無によって補正されるパラメータであってよい。

前記プロセッサは、前記出力装置から出力される前記入力オーディオ信号の全区間の短区間ラウドネスレベルが既に設定されたレベル以下となるようにＱＳＨＩを設定することができる。

本発明の他の側面によれば、オーディオ信号処理装置は、入力オーディオ信号の出力ラウドネス（ｌｏｕｄｎｅｓｓ）レベルを調整するプロセッサを含む。前記プロセッサは、前記入力オーディオ信号に対応するラウドネスメタデータ（ｍｅｔａｄａｔａ）を受信し、前記ラウドネスメタデータをパース（ｐａｒｓｅ）して前記入力オーディオ信号のラウドネス情報を取得し、前記ラウドネス情報及びターゲットラウドネスレベルに基づいて前記入力オーディオ信号のラウドネスゲインを決定し、前記入力オーディオ信号の出力ラウドネスレベルを、前記ラウドネスゲインに基づいて調整することができる。前記ラウドネス情報は、前記入力オーディオ信号の品質保障ヒストグラム指標（ＱｕａｌｉｔｙＳｅｃｕｒｅＨｉｓｔｏｇｒａｍＩｎｄｅｘ，ＱＳＨＩ）を示す情報を含み、前記ＱＳＨＩは、認知的音質損傷が発生しない閾ラウドネスレベルを示すことができる。

前記プロセッサは、前記入力オーディオ信号のターゲットラウドネスレベルと前記ＱＳＨＩとを比較し、前記比較結果に基づいて前記ラウドネスゲインを決定することができる。

前記プロセッサは、前記入力オーディオ信号のターゲットラウドネスレベルと前記ＱＳＨＩのうちより小さい値に基づいて前記ラウドネスゲインを決定することができる。

前記プロセッサは、前記入力オーディオ信号の累積ラウドネスレベルを受信し、前記入力オーディオ信号の累積ラウドネスレベル、前記ＱＳＨＩ及び前記ターゲットラウドネスレベルに基づいて前記ラウドネスゲインを決定することができる。前記累積ラウドネスレベルは、前記入力オーディオ信号のラウドネスを測定する装置において設定されたセットアップ時点から取得されたラウドネス測定値に基づいて算出されたラウドネスレベルであってよい。

前記ＱＳＨＩは、前記入力オーディオ信号のラウドネスヒストグラムに基づいて算出されたラウドネスパラメータであってよい。

前記ラウドネスヒストグラムは、前記入力オーディオ信号の時間別短区間ラウドネスレベルのサイズヒストグラムであり、前記短区間ラウドネスレベルは、前記入力オーディオ信号の全区間よりも短い区間で測定されてよい。

前記ＱＳＨＩは、前記入力オーディオ信号のラウドネスヒストグラムから予測された予測ラウドネスヒストグラムに基づいて算出されたパラメータであり、前記予測ラウドネスヒストグラムは、前記入力オーディオ信号が前記ターゲットラウドネスレベルにしたがって出力される場合、予測されるラウドネスパラメータに基づいて生成されたヒストグラムであってよい。

前記ＱＳＨＩは、前記入力オーディオ信号の累積ラウドネスレベルよりも大きく、前記累積ラウドネスレベルは、前記入力オーディオ信号のラウドネスを測定する装置において設定されたセットアップ時点から取得されたラウドネス測定値に基づいて算出されたラウドネスレベルであってよい。

前記プロセッサは、前記入力オーディオ信号の出力ラウドネスレベルを前記ラウドネスゲインによって調整して出力オーディオ信号を生成し、前記出力オーディオ信号に、出力オーディオ信号のラウドネスレベルを制限するラウドネスリミッター（ｌｉｍｉｔｅｒ）を適用して出力することができる。

前記ＱＳＨＩは、前記オーディオ信号処理装置においてリミッターが駆動される回数に基づいて決定されたラウドネスパラメータであってよい。

前記プロセッサは、前記入力オーディオ信号に対する後処理（ｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）を行い、前記入力オーディオ信号に対する後処理（ｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）の特性を示す後処理情報を受信し、前記後処理情報に基づいて前記取得されたＱＳＨＩを補正し、前記補正されたＱＳＨＩに基づいて前記ラウドネスゲインを決定することができる。

前記プロセッサは、前記後処理情報及び既に保存された関数に基づいて前記ＱＳＨＩを補正することができる。

前記プロセッサは、前記後処理情報及び既に保存されたルックアップテーブル（ｌｏｏｋ－ｕｐｔａｂｌｅ）に基づいて前記ＱＳＨＩを補正することができる。前記既に保存されたルックアップテーブルは、後処理の特性によるＱＳＨＩ補正に関する情報を含むことができる。

前記ＱＳＨＩ補正に関する情報は、後処理の特性によるＱＳＨＩ補正値を示す情報を含むことができる。前記プロセッサは、前記既に保存されたルックアップテーブルに基づき、前記入力オーディオ信号に対する後処理に対応するＱＳＨＩ補正値を取得し、前記取得されたＱＳＨＩに前記ＱＳＨＩ補正値を加算して前記ＱＳＨＩを補正することができる。

前記ラウドネスゲインは、前記入力オーディオ信号の全区間において固定された値を有する固定ゲインであってよい。

前記ラウドネスゲインは、前記入力オーディオ信号が再生される時間の間に、時間によって変化するゲインであってよい。

前記プロセッサは、前記入力オーディオ信号の出力ラウドネスレベルを前記ラウドネスゲインによって調整して出力オーディオ信号を生成することができる。前記ＱＳＨＩは、前記出力オーディオ信号の全区間の短区間ラウドネスレベルが、既に設定されたレベル以下となるように設定されたパラメータであってよい。

本発明の一実施例に係る装置及び方法は、オーディオ信号を含むコンテンツを再生するとき、オーディオ信号のラウドネスレベルを効果的に正規化することができる。また、本発明の一実施例に係る装置及び方法は、ユーザに音質向上及び音量調節に対する便宜を提供することができる。

特に、本発明の一実施例によれば、音質毀損を発生させないでラウドネスレベルを制御することができる。また、本発明の一実施例に係るオーディオ信号処理装置は、ラウドネスメタデータを用いて、より安定した出力ラウドネスレベルを有する出力コンテンツを提供することができる。また、聴取者が実際に認知するラウドネスに近いラウドネス正規化を行うことができる。

本発明の一実施例によって複数のコンテンツが再生される間に時間によって変化するラウドネスレベルを示す図である。

本発明の一実施例によって第１オーディオ信号処理装置及び第２オーディオ信号処理装置を含むシステムを示す概略図である。

本発明の一実施例によって入力オーディオ信号のラウドネスレベルが調整される方法を示すフローチャートである。

本発明の一実施例によってオーディオ信号処理装置が入力オーディオ信号のラウドネス情報を抽出する方法を具体的に示すブロック図である。

ＩＴＵ－ＲＢＳ．１７７０－４で定義する１次事前フィルターの周波数応答を示す。

２次事前フィルターの周波数応答を示す。

本発明の一実施例に係るサーバーが入力オーディオ信号のラウドネスメタデータを生成する方法を示す図である。

本発明の一実施例に係るクライアントがラウドネスメタデータを用いて入力オーディオ信号を出力する方法を示す図である。

本発明の一実施例によって入力オーディオ信号の短区間ラウドネス大きさ別ヒストグラムを示す図である。

本発明の一実施例によってオーディオ信号処理装置がターゲットラウドネスレベル及び認知的音質劣化を考慮して入力オーディオ信号のラウドネスゲインを最適化するシステムを示すブロック図である。

時間別入力オーディオ信号のラウドネスレベル及びターゲットラウドネスレベルのための固定ゲインを示す図である。時間別入力オーディオ信号のラウドネスレベル及びターゲットラウドネスレベルのための固定ゲインを示す図である。

本開示の一実施例によって入力オーディオ信号の出力ラウドネスレベルが調整される方法を示す概略図である。本開示の一実施例によって入力オーディオ信号の出力ラウドネスレベルが調整される方法を示す概略図である。

本発明の一実施例に係るオーディオ信号処理装置が入力オーディオ信号のラウドネス情報を取得する方法を示す図である。

本発明の一実施例に係るオーディオ信号処理装置が入力オーディオ信号の出力ラウドネスレベルを調整する方法を示す図である。

本発明の一実施例に係るオーディオ信号処理装置がターゲットラウドネス範囲に基づいて入力オーディオ信号の出力ラウドネスレベルを調整する方法を示す図である。

本発明の一実施例によってオーディオ信号処理装置が入力コンテンツのラウドネスを測定する方法を示す図である。

本発明の一実施例に係るオーディオ信号処理装置の動作を示すフローチャートである。

本発明の一実施例に係るオーディオ信号処理装置２０００の構成を示すブロック図である。

本発明の一実施例に係る入力オーディオ信号の時間区間別ピーク値を示す図である。

本発明の一実施例に係るオーディオ信号処理装置がスムージングを用いて入力オーディオ信号の出力ラウドネスレベルを調整する方法を説明する図である。

以下では、添付の図面を参照して、本発明の実施例について、本発明の属する技術の分野における通常の知識を有する者が容易に実施できるように詳細に説明する。ただし、本発明は、様々な異なる形態で具現されてもよく、ここで説明する実施例に限定されない。そして、図面中、本発明を明確に説明するために、説明と関係ない部分は省略し、明細書全体を通じて類似の部分には類似の参照符号を付する。また、ある部分がある構成要素を「含む」としたとき、これは、特に断りのない限り、他の構成要素を除外する意味ではなく、他の構成要素をさらに含み得るということを意味する。

本開示は、オーディオ信号処理装置が入力コンテンツの出力ラウドネス（ｌｏｕｄｎｅｓｓ）レベルを調整する方法に関する。本開示において、入力コンテンツは、オーディオ信号を含むコンテンツであってよい。本開示において、入力コンテンツは、入力オーディオ信号と呼ぶことができる。また、ラウドネスは、聴覚で認知される音響の大きさを表すことができる。ラウドネスレベルは、ラウドネスを示す数値であってよい。例えば、ラウドネスレベルは、ＬＫＦＳ（ＬｏｕｄｎｅｓｓＫ－ＷｅｉｇｈｔｅｄｒｅｌａｔｉｖｅｔｏＦｕｌｌＳｃａｌｅ）又はＬＵＦＳ（ＬｏｕｄｎｅｓｓＵｎｉｔｒｅｌａｔｉｖｅｔｏＦｕｌｌＳｃａｌｅ）のような単位で表示されてよい。また、ラウドネスレベルは、ｓｏｎｅ又はｐｈｏｎのような単位で表示されてもよい。

以下では、図１を参照して、オーディオ信号のラウドネスについて説明する。図１は、本発明の一実施例によって複数のコンテンツが再生される間に時間によって変化するラウドネスレベルを示す図である。図１を参照すると、時間によって変化する平均ラウドネス（ａｖｅｒａｇｅｌｏｕｄｎｅｓｓ）、短区間ラウドネス（ｓｈｏｒｔ－ｔｅｒｍｌｏｕｄｎｅｓｓ）及びラウドネス動的範囲（ｄｙｎａｍｉｃｒａｎｇｅ）が示されている。平均ラウドネスレベルは、一つのコンテンツに対応する単一のラウドネス値であってよい。平均ラウドネスレベルは、コンテンツ（ｃｏｎｔｅｎｔ１，ｃｏｎｔｅｎｔ２，ｃｏｎｔｅｎｔ３）別に異なってよい。図１において、実線は、各コンテンツ（ｃｏｎｔｅｎｔ１，ｃｏｎｔｅｎｔ２，ｃｏｎｔｅｎｔ３）別平均ラウドネスレベルを表す。図１の平均ラウドネスは、累積ラウドネス（ｉｎｔｅｇｒａｔｅｄｌｏｕｄｎｅｓｓ）を表すことができる。前述した、累積ラウドネス及び短区間ラウドネスは、ＩＴＵ－ＲＢＳ．１７７０－４、ＥＢＵＲ１２８、ＥＢＵＴＥＣＨ３３４１、ＥＢＵＴＥＣＨ３３４２のようなラウドネス標準の定義に従うことができる。

一実施例によって、短区間ラウドネスレベルは、入力オーディオ信号の全区間よりも短い区間で測定されたラウドネスレベルであってよい。短区間ラウドネスレベルは、コンテンツの一部分に対するラウドネス測定値であってよい。このとき、コンテンツの一部分は、一つの測定ウィンドウに含まれた部分であってよい。オーディオ信号処理装置は一つのコンテンツに対して複数の短区間ラウドネスレベルを取得することができる。また、平均ラウドネスレベルは、複数の短区間ラウドネスレベルの平均であってよい。

図１で、再生及び転換される複数のコンテンツのそれぞれは、異なるラウドネス特性を有する。例えば、映像提供サービスを提供するプラットホームにおいて異なるコンテンツが転換される場合、転換されるコンテンツの間に広告コンテンツが挿入されてよい。この場合、オーディオ信号処理装置は一定の範囲内のラウドネスレベルを保持し難いことがある。また、異なるコンテンツ間にラウドネス動的範囲の差異が大きいことがある。このような環境において、オーディオ信号処理装置は、聴取者の所望する範囲内のラウドネスレベルを提供し難いことがある。

具体的に、コンテンツが転換される場合、聴取者は、まず、短区間ラウドネスレベルが急に変化することが認知できる。これにより、聴取者は、オーディオ信号を出力する機器のボリュームを調節する必要があり得る。また、聴取者は、転換されたコンテンツが再生されながら平均ラウドネスに従う適正ゲインを設定するためにボリュームを再び調節する必要があり得る。例えば、転換されたコンテンツの初期区間のラウドネスに基づいて調節されたボリュームによって転換されたコンテンツが再生される場合、コンテンツ特性によってラウドネスレベルが急に増加又は急に減少する状況が発生し得る。ラウドネスレベルが急に増加又は急に減少してコンテンツの内容が把握できない場合、聴取者はオーディオ信号を出力する機器のボリュームを再び調節する必要があり得る。

このため、本発明の一実施例に係るオーディオ信号処理装置は、入力コンテンツの出力ラウドネスレベルを制御して聴取者の便宜性を高めることができる。具体的に、オーディオ信号処理装置は、入力コンテンツのラウドネスゲインに基づいてラウドネスレベルを調整することができる。このとき、オーディオ信号処理装置は、入力オーディオ信号のラウドネス情報を含むラウドネスメタデータを用いることができる。

本発明の一実施例によれば、異なる基準で生成されるか、特定の基準無しで生成された入力コンテンツのラウドネスレベルを、ターゲットラウドネス（ｔａｒｇｅｔｌｏｕｄｎｅｓｓ）レベルを基準に正規化することができる。ここで、ターゲットラウドネスレベルは、オーディオ信号処理装置が出力しようとするラウドネスレベルであってよい。例えば、ターゲットラウドネスレベルは、入力コンテンツのコンテンツ製作者によって設定されてよい。この場合、オーディオ信号処理装置は、入力コンテンツと共にターゲットラウドネスに関する情報を受信することができる。また、ターゲットラウドネスレベルは、入力コンテンツのジャンルによって異なる値に設定されてよい。この場合、オーディオ信号処理装置は、入力コンテンツのジャンルに基づいてターゲットラウドネスレベルを決定することができる。ターゲットラウドネスレベルは、オーディオ信号処理装置に既に保存されたデフォルト値に設定されてもよい。この場合、ターゲットラウドネスレベルは、入力コンテンツ又は入力コンテンツのジャンルと関係ない値に設定されてよい。オーディオ信号処理装置は、ターゲットラウドネスレベルに基づいて入力コンテンツの出力ラウドネスレベルを調整することができる。

一実施例によって、オーディオ信号処理装置は、入力コンテンツのラウドネスレベルとターゲットラウドネスレベル間の関係に基づいてラウドネスゲインを取得することができる。入力コンテンツのラウドネスレベルとターゲットラウドネスレベル間の関係は、入力コンテンツのラウドネスレベルとターゲットラウドネスレベルとの差又は比率を含むことができる。

例えば、オーディオ信号処理装置は、入力コンテンツの代表ラウドネスレベルとターゲットラウドネスレベルとの関係に基づいてラウドネスゲインを取得することができる。ここで、代表ラウドネスレベルは、入力コンテンツ全区間に対するラウドネスレベルを代表するラウドネスレベルであってよい。オーディオ信号処理装置は、入力コンテンツと共に入力コンテンツの代表ラウドネスレベルを受信することができる。又は、オーディオ信号処理装置は、入力コンテンツから分析されたラウドネス情報に基づいて代表ラウドネスレベルを取得することもできる。この場合、オーディオ信号処理装置は、入力コンテンツに対するラウドネス測定値に基づいてラウドネス情報を取得することができる。本開示において、入力オーディオ信号のラウドネス情報は、メタデータ形式に変換されたラウドネスメタデータを含むことができる。

また、オーディオ信号処理装置は、ラウドネスゲインに基づいて入力コンテンツの出力ラウドネスレベルを調整することができる。具体的に、オーディオ信号処理装置は、入力コンテンツにラウドネスゲインを適用し、ラウドネスレベルの調整された出力オーディオ信号を取得することができる。

本発明の一実施例に係るオーディオ信号処理装置は、入力オーディオ信号のラウドネスメタデータを用いて入力オーディオ信号の出力ラウドネスレベルを調整することができる。これにより、オーディオ信号処理装置は、入力コンテンツに含まれる入力オーディオ信号の音質毀損を発生させないで入力コンテンツのラウドネスレベルを制御することができる。

例えば、既に設定されたターゲットラウドネスレベルが入力オーディオ信号の代表ラウドネスレベルよりも大きいことがある。この場合、入力オーディオ信号が既に設定されたターゲットラウドネスレベルによって出力されると、音質毀損が発生し得る。このため、オーディオ信号処理装置は、ラウドネス特性及び既に設定されたターゲットラウドネスに基づいてラウドネスゲインを取得することができる。オーディオ信号処理装置は、ラウドネス特性に基づき、入力オーディオ信号の音質毀損を発生させないラウドネスゲインを取得することができる。オーディオ信号処理装置は、取得されたラウドネスゲインに基づいて入力オーディオ信号の出力ラウドネスレベルを調整することができる。

このとき、オーディオ信号処理装置は、入力オーディオ信号のラウドネスメタデータを用いてラウドネス情報を取得することができる。具体的に、オーディオ信号処理装置は、オーディオ信号処理装置の外部の装置から入力オーディオ信号のラウドネスメタデータを受信することができる。外部の装置は、入力オーディオ信号のラウドネス特性を分析し、分析されたラウドネス特性に基づいて入力オーディオ信号のラウドネスメタデータを生成することができる。また、外部の装置は、入力オーディオ信号のラウドネスメタデータをオーディオ信号処理装置に送信することができる。

以下では、本発明の一実施例によって入力コンテンツの出力ラウドネスレベルが調整される方法について、図２を参照して説明する。図２は、本発明の一実施例によって第１オーディオ信号処理装置２１０及び第２オーディオ信号処理装置２２０を含むシステム２００を示す概略図である。図２で、第１オーディオ信号処理装置２１０はサーバーであってよい。図２で、第２オーディオ信号処理装置２２０はクライアント装置であってよい。

図２では、入力コンテンツのラウドネス正規化のための一連の動作がサーバー－クライアント構造のシステムによって行われるとして示しているが、本開示がこれに制限されるものではない。例えば、図２で説明される一連の動作は、単一のオーディオ信号処理装置によって行われてもよい。

本発明の一実施例によって、第１オーディオ信号処理装置２１０は入力オーディオ信号のラウドネスメタデータを生成することができる。第１オーディオ信号処理装置２１０は、生成されたラウドネスメタデータを、当該入力オーディオ信号を出力しようとする第２オーディオ信号処理装置２２０に送信すことができる。第２オーディオ信号処理装置２２０は、第１オーディオ信号処理装置２１０からラウドネスメタデータを受信することができる。また、第２オーディオ信号処理装置２２０は、受信されたラウドネスメタデータに基づいて入力オーディオ信号の出力ラウドネスレベルを調整することができる。具体的に、第２オーディオ信号処理装置２２０は、ラウドネスメタデータに基づき、入力オーディオ信号に適用されるラウドネスゲインを決定することができる。また、第２オーディオ信号処理装置２２０は、決定されたラウドネスゲインに基づいて入力オーディオ信号のラウドネスレベルを調整することができる。

具体的に、第１オーディオ信号処理装置２１０は、入力コンテンツを受信することができる。本開示において、入力コンテンツは、複数のフレームで構成された入力オーディオ信号であってよい。次に、第１オーディオ信号処理装置２１０は、入力コンテンツのラウドネスレベルを測定することができる。第１オーディオ信号処理装置２１０は、聴覚尺度に基づくラウドネスフィルターを用いてオーディオ信号のラウドネス測定値を取得することができる。具体的に、ラウドネスフィルターは、等ラウドネス曲線（ｅｑｕａｌ－ｌｏｕｄｎｅｓｓｃｏｎｔｏｕｒｓ）の逆フィルター、又はこれを近似化させたＫ加重（Ｋ－ｗｅｉｇｈｔｉｎｇ）フィルターの少なくとも一つであってよい。

例えば、第１オーディオ信号処理装置２１０は、既に受信された入力コンテンツの少なくとも一部の区間にラウドネスフィルターを適用してラウドネス測定値を取得することができる。ここで、一部の区間は、一つのラウドネス測定値の取得に用いられる単位時間であってよい。一部の区間は、少なくとも一つのフレームを含むことができる。本開示において、一つのラウドネス測定値の取得に用いられる単位時間を、測定ウィンドウと呼ぶことができる。

第１オーディオ信号処理装置２１０は、入力コンテンツに対する測定ウィンドウ別ラウドネス測定値を取得することができる。このとき、取得されたラウドネス測定値は、測定ウィンドウの長さによって瞬間ラウドネスレベル又は短区間ラウドネスレベルであってよい。瞬間ラウドネスレベルは、短区間ラウドネスレベルに比べて短い時間区間において測定されたラウドネス測定値であってよい。例えば、一つの瞬間ラウドネスレベル取得に用いられる測定ウィンドウの長さは、４００ミリ秒（ｍｓ）であってよい。また、一つの短区間ラウドネスレベル取得に用いられる測定ウィンドウの長さは、３秒であってよい。ただし、本開示がこれに制限されるものではない。ラウドネス分析のための測定ウィンドウの長さは、入力コンテンツ別に異なってよい。一実施例によって、測定ウィンドウの長さは、入力コンテンツの付加情報に基づいて決定されてもよい。オーディオ信号処理装置が測定ウィンドウの長さを決定する方法については、図１８で後述する。

次に、第１オーディオ信号処理装置２１０は、入力コンテンツに対するラウドネス測定値に基づいて入力コンテンツのラウドネス情報を取得することができる。ラウドネス情報は、入力コンテンツに対する少なくとも一つのラウドネス測定値を含むことができる。また、ラウドネス情報は、入力コンテンツに対するラウドネス測定値に基づいて演算された情報を含むことができる。第１オーディオ信号処理装置２１０は、ラウドネス情報を実時間でアップデートすることができる。例えば、ラウドネス情報は、累積ラウドネスレベル、短区間ラウドネスレベル、瞬間ラウドネスレベルの少なくとも一つを含むことができる。第１オーディオ信号処理装置２１０は、入力コンテンツに対するラウドネス測定が始まった時点から現在時点までに累積された複数のラウドネス測定値を代表する累積ラウドネスレベルを取得することができる。

本開示において、累積ラウドネスレベルは、ラウドネスレベルを測定する装置において設定されたセットアップ時点から累積されたラウドネスレベルを表すことができる。一実施例によって、累積ラウドネスレベルは、第１オーディオ信号処理装置２１０において設定されたセットアップ時点から測定されたラウドネス測定値に基づいて算出されたラウドネスレベルであってよい。例えば、累積ラウドネスレベルは、セットアップ時点から取得された区間別ラウドネス測定値に基づいて計算された平均ラウドネスレベルであってよい。このとき、区間別ラウドネス測定値は、短区間ラウドネスレベル及び瞬間ラウドネスレベルのいずれか一つを表すことができる。

一実施例によって、累積ラウドネスレベルは、セットアップ時点と現在時点との間で測定された有効ラウドネス測定値の平均に基づいて取得することができる。ここで、有効ラウドネス測定値は、セットアップ時点と現在時点との間において測定された複数のラウドネス測定値のうち、少なくとも一つの基準要件を満たすラウドネス測定値であってよい。

例えば、有効ラウドネス測定値は、ラウドネスレベルが特定レベル以上であるラウドネス測定値であってよい。まず、第１オーディオ信号処理装置２１０は、複数のラウドネス測定値のうち、ラウドネスレベルが第１臨界値以上であるラウドネス測定値に対する第１平均を演算することができる。このとき、第１臨界値は、最小可聴大きさに基づいて設定された値であってよい。次に、第１オーディオ信号処理装置２１０は、第１平均の演算に用いられたラウドネス測定値のうち、ラウドネスレベルが第２臨界値以上であるラウドネス測定値に対する第２平均を演算することができる。このとき、第２臨界値は、第１平均から既に設定された値を引いた値であってよい。また、第１オーディオ信号処理装置２１０は、第２平均を、入力コンテンツの累積ラウドネスレベルとして用いることができる。一方、第１オーディオ信号処理装置２１０は、特定要件によって累積ラウドネスレベルのためのセットアップ時点を再設定することができる。

次に、第１オーディオ信号処理装置２１０は、ラウドネス情報に基づいてラウドネスメタデータを生成することができる。例えば、第１オーディオ信号処理装置２１０は、ラウドネス情報から不要な情報を除去し、第２オーディオ信号処理装置２２０が理解できるシンタックス（Ｓｙｎｔａｘ）形態のラウドネスメタデータを生成することができる。さらに、第１オーディオ信号処理装置２１０は、入力オーディオ信号に関連した付加情報を含むラウドネスメタデータを生成することができる。入力オーディオ信号に関連した付加情報は、入力オーディオ信号の長さ、ジャンル、コンテンツ提供者、コンテンツ製作者、人気度、視聴回数、アルバム、チャネルのそれぞれを示す情報のうち少なくとも一つを含むことができる。これにより、第１オーディオ信号処理装置２１０は、入力オーディオ信号を出力する他の装置が付加情報を用いて入力オーディオ信号の出力ラウドネスレベルを調整できるようにする。

例えば、入力オーディオ信号が既に再生されたオーディオ信号と同じコンテンツ製作者の音源であってよい。この場合、入力オーディオ信号と既に再生されたオーディオ信号は、類似のスタイル／音色などの音特性を有していてよい。これにより、入力オーディオ信号を出力する装置（例えば、第２オーディオ信号処理装置２２０は、既に再生されたオーディオ信号のターゲットラウドネスレベルに基づいて入力オーディオ信号のラウドネスゲインを決定することができる。このとき、第２オーディオ信号処理装置２２０は、付加情報を含むラウドネスメタデータに使用することができる。

次に、第１オーディオ信号処理装置２１０によって生成されたラウドネスメタデータは、メタデータデータベース（ｄａｔａｂａｓｅ；以下、‘ＤＢ’）に保存されてよい。第１オーディオ信号処理装置２１０は、第２オーディオ信号処理装置２２０から入力オーディオ信号のラウドネスメタデータ要請を受信することができる。この場合、第１オーディオ信号処理装置２１０は、当該入力オーディオ信号のラウドネスメタデータを第２オーディオ信号処理装置に送信することができる。

本発明の一実施例に係る第２オーディオ信号処理装置２２０は、第１オーディオ信号処理装置２１０から入力オーディオ信号のラウドネス情報を取得することができる。具体的に、第２オーディオ信号処理装置２２０は、第１オーディオ信号処理装置２１０に入力オーディオ信号のラウドネスメタデータを要請することができる。また、第２オーディオ信号処理装置２２０は、第１オーディオ信号処理装置２１０から入力オーディオ信号のラウドネスメタデータを受信することができる。第２オーディオ信号処理装置２２０は、受信したラウドネスメタデータに基づいて入力オーディオ信号のラウドネス情報を取得することができる。

第２オーディオ信号処理装置２２０は、ラウドネス情報に基づき、入力コンテンツに適用されるラウドネスゲインを取得することができる。具体的に、第２オーディオ信号処理装置２２０は、ラウドネス情報及びターゲットラウドネスレベルに基づいてラウドネスゲインを取得することができる。一実施例によって、第２オーディオ信号処理装置２２０は、入力コンテンツの特定フレームに適用されるラウドネスゲインを取得することができる。入力コンテンツの一部の特定区間においてフレーム別に適用されるラウドネスゲインは、時間によって動的に調整されてもよい。特定区間以外の区間においてフレーム別に適用されるラウドネスゲインは、動的に調整されない静的ゲインであってよい。また、入力コンテンツの一部の特定区間においてラウドネスゲインは特定範囲内の値に制限されてよい。

次に、第２オーディオ信号処理装置２２０は、ラウドネスゲインに基づいて入力コンテンツの出力ラウドネスレベルを調整することができる。例えば、第２オーディオ信号処理装置２２０は、入力コンテンツにラウドネスゲインを適用して出力ラウドネスレベルを調整することができる。一実施例によって、ラウドネスゲインは、入力コンテンツを構成するフレーム別に適用されてよい。この場合、第２オーディオ信号処理装置２２０は、それぞれのフレームに対応するオーディオ信号にラウドネスゲインをかけて入力コンテンツの出力ラウドネスレベルを調整することができる。第２オーディオ信号処理装置２２０は、入力コンテンツから、ラウドネスゲインによって出力ラウドネスレベルの調整された出力コンテンツを取得することができる。また、第２オーディオ信号処理装置２２０は、取得された出力コンテンツを出力することができる。例えば、第２オーディオ信号処理装置２２０は出力コンテンツを再生することができる。又は、第２オーディオ信号処理装置２２０は、出力コンテンツを有／無線インターフェースを介して再生機器に伝達することもできる。

さらに、第２オーディオ信号処理装置２２０は、調整された出力ラウドネスレベルの動的範囲を制御することができる。入力コンテンツの特定フレームに対する出力ラウドネスレベルが既に設定された動的範囲を外れる場合、クリッピング（ｃｌｉｐｐｉｎｇ）による音質歪みが発生し得るわけである。第２オーディオ信号処理装置２２０は、既に設定された動的範囲に基づき、出力ラウドネスレベルの動的範囲を制御することができる。例えば、第２オーディオ信号処理装置２２０は、リミッター（ｌｉｍｉｔｅｒ）及び動的範囲制限機（ＤｙｎａｍｉｃＲａｎｇｅＣｏｍｐｒｅｓｓｏｒ，ＤＲＣ）のようなプロセシングを用いて出力ラウドネスレベルの動的範囲を制御することができる。

図３は、本発明の一実施例によって入力オーディオ信号のラウドネスレベルが調整される方法を示すフローチャートである。図３では、説明の便宜のために、入力オーディオ信号の出力ラウドネスレベル調整のための一連の動作が、単一のオーディオ信号処理装置によって行われるとして説明しているが、本開示はこれに制限されない。例えば、図３で説明される動作の一部は、サーバーで行われ、他部はクライアントによって行われてもよい。

図３の段階Ｓ３０１において、オーディオ信号処理装置は、入力オーディオ信号に対する後処理（ＰｏｓｔＰｒｏｃｅｓｓｉｎｇ）動作を行うことができる。例えば、オーディオ信号処理装置は、入力オーディオ信号に対するイコライゼーション（ｅｑｕａｌｉｚａｔｉｏｎ）及び音場モードのうち少なくとも一つの動作を行うことができる。このとき、オーディオ信号処理装置によって行われるイコライゼーション及び音場モードは、一般のメディア再生システムの動作であってよい。

段階Ｓ３０３において、オーディオ信号処理装置は、入力オーディオ信号のラウドネス情報を抽出することができる。一実施例によって、段階Ｓ３０１が行われる場合、段階Ｓ３０３において、オーディオ信号処理装置は、後処理の周波数特性に基づいてラウドネス情報を抽出することができる。オーディオ信号処理装置は、後処理の周波数特性に基づき、後処理によって変化するバンド別ラウドネスレベル情報（ｗｅｉｇｈｔｏｆｐｏｓｔｐｒｏｃｅｓｓｉｎｇ，ｗ＿Ｐｒｏｃ）を取得することができる。また、オーディオ信号処理装置は、ｗ＿Ｐｒｏｃを用いてラウドネス情報を抽出することができる。

例えば、入力オーディオ信号に対して前述したイコライゼーションが行われる場合、ｗ＿Ｐｒｏｃは、当該周波数領域におけるイコライゼーションカーブ（ｅｑｕａｌｉｚａｔｉｏｎｃｕｒｖｅ）情報を含むことができる。オーディオ信号処理装置は、前記イコライゼーションカーブ情報に基づいて入力オーディオ信号のラウドネス情報を抽出することができる。入力オーディオ信号に対して前述の音場モードが適用される場合、ｗ＿Ｐｒｏｃは、当該音場モードに用いられるフィルターの特性情報及びリバーブ（ｒｅｖｅｒｂ）情報の少なくとも一つを含むことができる。

他の実施例によって、入力オーディオ信号が出力される環境が、携帯電話で用いられる小型スピーカーのように周波数特性が均等でなく、低周波に対する応答が小さい環境であり得る。この場合、ｗ＿Ｐｒｏｃは、当該出力環境の周波数特性情報を含むことができる。最終的に、オーディオ信号処理装置は、ｗ＿Ｐｒｏｃに基づいて入力オーディオ信号の出力ラウドネスレベルを調整することができる。これにより、オーディオ信号処理装置は、入力オーディオ信号が出力される機器の特性を反映する出力ラウドネスレベル調整を提供することができる。

本開示の一実施例によって、段階Ｓ３０３で抽出されたラウドネス情報は、累積ラウドネス情報（ＩｎｔｅｇｒａｔｅｄＬｏｕｄｎｅｓｓ，Ｌ＿Ｉｎｔｅｇ）、品質保障ヒストグラム指標（ＱｕａｌｉｔｙＳｅｃｕｒｅＨｉｓｔｏｇｒａｍＩｎｄｅｘ，ＱＳＨＩ）及びラウドネス変化予測値（ＤｉｆｆｅｒｅｎｃｅｉｎＬｏｕｄｎｅｓｓｂｙｐｏｓｔ－Ｐｒｏｃｅｓｓｉｎｇ，ｄＬ＿Ｐｒｏｃ）の少なくとも一つを含むことができる。このとき、Ｌ＿Ｉｎｔｅｇは、ＩＴＵ－ＲＢＳ．１７７０－４標準規格に従うことができる。また、ＱＳＨＩは、出力端リミッターによって認知的音質損傷が発生しない閾ラウドネスレベルを表すことができる。本開示において、ＱＳＨＩは、ターゲットラウドネス最大許容値（ｍａｘｉｍｕｍｔａｒｇｅｔｌｏｕｄｎｅｓｓ，Ｍａｘ＿ＴＬ）を含むことができる。ＱＳＨＩは、自動アルゴリズムに基づいて計算されるか、或いはコンテンツ製作者によって定義されてよい。ＱＳＨＩが取得される具体的な方法については、図４で後述する。また、ｄＬ＿Ｐｒｏｃは、後処理後の入力オーディオ信号のラウドネス変化に対する予測値であってよい。オーディオ信号処理装置は、ユーザによって設定された後処理情報に基づいてｄＬ＿Ｐｒｏｃを取得することができる。オーディオ信号処理装置は、入力オーディオ信号の周波数別特性及びｗ＿Ｐｒｏｃの少なくとも一つに基づいてｄＬ＿Ｐｒｏｃを取得することができる。

段階Ｓ３０５において、オーディオ信号処理装置は、入力オーディオ信号のラウドネスゲインＧ＿ｔａｒｇｅｔを決定することができる。例えば、オーディオ信号処理装置は、既に設定されたターゲットラウドネスレベルＬ＿ｔａｒｇｅｔ及び段階Ｓ３０３で抽出されたラウドネス情報に基づいてラウドネスゲインＧ＿ｔａｒｇｅｔを決定することができる。このとき、既に設定されたターゲットラウドネスレベルは、ユーザによって設定された値であってよい。段階Ｓ３０７において、オーディオ信号処理装置は、段階Ｓ３０１で後処理された入力オーディオ信号に最終ラウドネスゲインを適用して出力オーディオ信号を出力することができる。

このとき、出力オーディオ信号は、リミッターを経た信号であってよい。例えば、オーディオ信号処理装置は、後処理された入力オーディオ信号に最終ラウドネスゲインを適用して第１出力オーディオ信号を生成することができる。また、オーディオ信号処理装置は、第１出力オーディオ信号にリミッターを適用して第２出力オーディオ信号を生成することができる。最終的に、オーディオ信号処理装置は、リミッターの適用された第２出力オーディオ信号を出力することができる。

以下、オーディオ信号処理装置がラウドネス情報を抽出する方法について、図４を用いて具体的に説明する。図４は、本発明の一実施例によってオーディオ信号処理装置が入力オーディオ信号のラウドネス情報を抽出する方法を具体的に示すブロック図である。図４では説明の便宜のためにそれぞれのユニット／部がそれぞれの動作を行うものとして記載されているが、本開示はこれに制限されない。例えば、図４のラウドネス情報抽出部４００のユニット／部のそれぞれの動作は、オーディオ信号処理装置に含まれるプロセッサによって行われる一連の動作であってよい。

図４を参照すると、ラウドネス情報抽出部４００は、ラウドネス測定部４０１、周波数別ラウドネス分析部４０２、後処理ラウドネス予測部４０３、及びＱＳＨＩ抽出部４０４を含むことができる。ラウドネス情報抽出部４００は、図３の段階Ｓ３０３で説明した動作を行うことができる。

一実施例によって、ラウドネス測定部４０１は、入力オーディオ信号のラウドネス測定値を取得することができる。例えば、ラウドネス測定部４０１は、入力オーディオ信号の短区間ラウドネスレベル及び累積ラウドネスレベルの少なくとも一つを取得することができる。具体的に、ラウドネス測定部４０１は、標準規格ＩＴＵ－ＲＢＳ．１７７０－４における例のような過程により、入力オーディオ信号から累積ラウドネス情報Ｌ＿Ｉｎｔｅｇ及び短区間ラウドネス情報Ｌ＿ＳｈｏｒｔＴｅｒｍを取得することができる。

一実施例によって、周波数別ラウドネス分析部４０２は、入力オーディオ信号全体の周波数別ラウドネス比率（Ｍｕｌｔｉ－ｂａｎｄＷｅｉｇｈｔｉｎｌｏｕｄｎｅｓｓ，ＷＬｏｕｄ＿ＭＢ）を取得することができる。例えば、周波数別ラウドネス分析部４０２は、入力オーディオ信号にＫ加重フィルターを適用してＷＬｏｕｄ＿ＭＢを取得することができる。周波数別ラウドネス分析部４０２は、Ｋ加重フィルターの適用された信号を周波数変換してＷＬｏｕｄ＿ＭＢを計算することができる。

以下では、式１～式８を参照して、周波数別ラウドネス分析部４０２がＷＬｏｕｄ＿ＭＢを計算する具体的な方法について説明する。

［数１］

x_k = filter ( h_kweight, x_in )

又は、

x_k = filter ( h_pre2_kweight, filter ( h_pre1_kweight, x_in ) )

式１において、ｘ＿ｋは、入力オーディオ信号（ｘ＿ｉｎ）に対してＫ加重フィルターが適用された信号を表す。式１において、“ｆｉｌｔｅｒ（Ａ，Ｂ）”は、入力オーディオ信号Ｂをフィルター係数Ａでフィルタリングする演算を表す。式１において、ｈ＿ｋｗｅｉｇｈｔは、単一のＫ加重フィルターを表すことができる。また、ｈ＿ｐｒｅ２＿ｋｗｅｉｇｈｔ及びｈ＿ｐｒｅ１＿ｋｗｅｉｇｈｔのそれぞれは、ＩＴＵ－ＲＢＳ．１７７０－４で定義する１次事前フィルター（ｐｒｅ－ｆｉｌｔｅｒ）と２次事前フィルターを表すことができる。周波数別ラウドネス分析部４０２は、入力オーディオ信号に、Ｋ加重フィルター係数をフィルタリングして適用することができる。図５は、ＩＴＵ－ＲＢＳ．１７７０－４で定義する１次事前フィルターの周波数応答を表す。また、図６は、２次事前フィルターの周波数応答を表す。

式１から得られた信号ｘ＿ｋのフレーム（ｆｒａｍｅ）別信号は、式２のように表現されてよい。式２において、ｘ＿ｆｒａｍｅ［ｌ］は、信号ｘ＿ｋのｌ番目フレームの信号を表す。ここで、ＮＦはフレームの長さを表し、ＮＨはホップサイズを表すことができる。

［数２］

x_frame[l] = x_k[ ((l-1)*NH+1) : ((l-1)*NH+NF) ]

次に、式３を参照すると、周波数別ラウドネス分析部４０２は、ｘ＿ｆｒａｍｅ［ｌ］をウィンドウ演算（ｗｉｎｄｏｗｉｎｇ）してｘｗ＿ｆｒａｍｅ［ｌ］［－］を取得することができる。このとき、周波数別ラウドネス分析部４０２は、ウィンドウ関数の全ての係数が１である直方形ウィンドウ（ｒｅｃｔａｎｇｕｌａｒｗｉｎｄｏｗ）関数を用いてｘｗ＿ｆｒａｍｅ［ｌ］［－］を取得することができる。又は、周波数別ラウドネス分析部４０２は、ハミングウィンドウ（ｈａｍｍｉｎｇｗｉｎｄｏｗ）関数又はハニングウィンドウ（ｈａｎｎｉｎｇｗｉｎｄｏｗ）関数のような種々のウィンドウ関数を用いてｘｗ＿ｆｒａｍｅ［ｌ］［－］を取得することができる。ウィンドウ演算は、入力オーディオ信号の周波数分析のための動作であってよい。式３において、ｗｉｎｄ［ｎ］は、ウィンドウ関数のｎ番目の係数を表し、ｎは、ウィンドウのサンプルナンバーになり得る。例えば、ＮＦが５１２である場合、ｎの値は、１～５１２のいずれか一つであってよい。

［数３］

xw_frame[l][n] = x_frame[l][n] * wind[n] for n=1, 2, …, NF

また、周波数別ラウドネス分析部４０２は、ｘｗ＿ｆｒａｍｅ［ｌ］［－］を離散フーリエ変換（ＤｉｓｃｒｅｔｅＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ，ＤＦＴ）することができる。ｘｗ＿ｆｒａｍｅ［ｌ］［－］から離散フーリエ変換された周波数領域信号（ＸＷ＿ｆｒａｍｅ［ｌ］）は、式４のように表現されてよい。ＸＷ＿ｆｒａｍｅ［ｌ］は、式４において、ＤＦＴ｛ｘ｝は、時間領域の信号‘ｘ’の離散フーリエ変換を表す。

［数４］

XW_frame[l] = DFT { xw_frame[l][1:NF] }

次に、式５を参照すると、周波数別ラウドネス分析部４０２は、変換された周波数信号ＸＷ＿ｆｒａｍｅ［ｌ］の周波数ビン（ｂｉｎ）別パワー（ｐｏｗｅｒ）を取得することができる。式５において、Ｐ＿ｆｒａｍｅ＿ｂｉｎ［ｌ］［ｋ］は、ｌ番目フレームのｋ番目周波数ビンにおけるパワーを表す。また、ｃｏｎｊ（ｘ）は、‘ｘ’の共役関数（ｃｏｎｊｕｇａｔｉｏｎｆｕｎｃｔｉｏｎ）を表す。

［数５］

P_frame_bin[l][k] = XW_frame[l][k] * conj(XW_frame[l][k]) for k=1, 2, …, NF

次に、式６を参照すると、周波数別ラウドネス分析部４０２は、Ｐ＿ｆｒａｍｅ＿ｂｉｎ［ｌ］［ｋ］を、既に設定された周波数バンドにマップし、ｌ番目フレームの周波数バンド別パワー（Ｐ＿ｆｒａｍｅ＿ｂａｎｄ［ｌ］［ｂ］）を取得することができる。式６において、ｂａｎｄ［ｂ］は、ｂ－周波数バンドの開始周波数ビンのインデックスを表す。すなわち、周波数別ラウドネス分析部４０２は、ｂａｎｄ［ｂ］からｂａｎｄ［ｂ＋１］－１までの周波数ビン別パワーを合算して周波数バンド別パワーを取得することができる。式６において、ｓｕｍ＿｛ｙ｝（ｘ）は、インデックスｋを因子として有する関数‘ｘ’インデックス別の和を表すことができる。このとき、‘ｙ’は、当該演算のためのインデックスの範囲を表すことができる。

［数６］

P_frame_band[l][b]

= sum_{k from band[b] to band[b+1]-1} (P_frame_bin[l][k])

式７を参照すると、周波数別ラウドネス分析部４０２は、ｌ番目フレームの周波数バンド別パワー（Ｐ＿ｆｒａｍｅ＿ｂａｎｄ［ｌ］［ｂ］）に基づいて入力オーディオ信号全区間の周波数バンド別パワー（Ｐ＿ｂａｎｄ［ｂ］）を取得することができる。周波数別ラウドネス分析部４０２は、フレーム別に取得された周波数バンド別パワー（Ｐ＿ｆｒａｍｅ＿ｂａｎｄ［ｌ］［ｂ］）を、同じ周波数バンド同士で合算して、入力オーディオ信号の全区間の周波数バンド別パワー（Ｐ＿ｂａｎｄ［ｂ］）を取得することができる。式７において、ＮｕｍｂｅｒＯｆＦｒａｍｅｓは、全ｆｒａｍｅの個数を表す。また、フレームインデックスを表すｌは、１からＮｕｍｂｅｒＯｆＦｒａｍｅｓまでの範囲内で定義される。

［数７］

P_band[b] = sum_{l from 1 to NumberOfFrames} (P_frame_band[l][b])

次に、式８を参照すると、周波数別ラウドネス分析部４０２は、周波数バンド別パワー（Ｐ＿ｂａｎｄ［ｂ］）に基づいて周波数バンド別ラウドネス比率（ＷＬｏｕｄ＿ＭＢ［ｂ］）を取得することができる。具体的に、周波数別ラウドネス分析部４０２は、特定周波数バンド別パワー（Ｐ＿ｂａｎｄ［ｂ］）を、全周波数バンド別パワーのそれぞれの和に基づいて正規化（ｎｏｒｍａｌｉｚｅ）することができる。式８において、ＮｕｍｂｅｒＯｆＢａｎｄｓは、分割された周波数バンドの全個数を表す。また、バンドインデックスを表すｂは、１からＮｕｍｂｅｒＯｆＢａｎｄｓまでの範囲内で定義される。

［数８］

WLoud_MB[b] = P_band[b]/ [sum_{b from 1 to NumberOfBands} (P_band[b])]

式８から計算されたＷＬｏｕｄ＿ＭＢ［ｂ］は、入力オーディオ信号の周波数バンド別累積ラウドネスレベルの比率を表す。例えば、入力オーディオ信号が２バンド信号であり、入力オーディオ信号の累積ラウドネスレベルがＬ＿Ｉｎｔｅｇ＝－２０ＬＫＦＳであり、ＷＬｏｕｄ＿ＭＢ［１０］＝０．８，ＷＬｏｕｄ＿ＭＢ［１］＝０．２であってよい。この場合、入力オーディオ信号の１番目周波数バンドに対するラウドネスレベルは、－２０＋１０＊ｌｏｇ１０（０．８）＝－２０．９７ＬＫＦＳであり、２番目周波数バンドに対するラウドネスレベルは、－２０＋１０＊ｌｏｇ１０（０．２）＝－２６．９９ＬＫＦＳと予測されてよい。

一実施例によって、後処理ラウドネス予測部４０３は、後処理によって変化するバンド別ラウドネスレベル情報（ｗ＿Ｐｒｏｃ）及び入力オーディオ信号全体の周波数別ラウドネス比率（ＷＬｏｕｄ＿ＭＢ）の少なくとも一つに基づき、ラウドネス変化予測値を取得することができる。

このとき、後処理ラウドネス予測部４０３は、周波数別ラウドネス分析部４０２から取得された入力オーディオ信号全体の周波数別ラウドネス比率（ＷＬｏｕｄ＿ＭＢ）を用いることができる。また、後処理によって変化するバンド別ラウドネスレベル情報（ｗ＿Ｐｒｏｃ）は、入力オーディオ信号に対する後処理の特性によって取得されてよい。入力オーディオ信号に対する後処理の特性は、ユーザによって入力された情報に基づいて決定されてよい。

具体的に、入力オーディオ信号に、ユーザによって設定されたイコライゼーションが適用され、ＮｕｍｂｅｒＯｆＢａｎｄｓ個の周波数バンドのそれぞれに対して当該イコライゼーションの周波数バンド別ゲインがデシベル（ｄｅｃｉｂｅｌ）単位においてｗ＿ＰｒｏｃＢａｎｄ＿ｄＢと設定され、当該イコライゼーションの全ゲインは、ｗ＿ＰｒｏｃＧａｉｎ＿ｄＢに設定されてよい。この場合、周波数別ラウドネス分析部４０２は、周波数バンド別ゲイン（ｗ＿ＰｒｏｃＢａｎｄ＿ｄＢ）及び全ゲイン（ｗ＿ＰｒｏｃＧａｉｎ＿ｄＢ）に基づき、周波数バンド別ラウドネス比率を取得することができる。周波数別ラウドネス分析部４０２が周波数バンド別ラウドネス比率を取得するために演算する方法は、式９のように表すことができる。

［数９］

w_Proc[b] = 10^((w_ProcBand_dB[b] + 0.5*w_ProcGain_dB)/10)

for 1=<b=<NumberOfBands

また、後処理ラウドネス予測部４０３が、ラウドネス変化予測値ｄＬ＿Ｐｒｏｃを取得する方法は、式１０のように示すことができる。

［数１０］

dL_Proc = 10 * log10 ( sum_{b from 1 to NumberOfBands} (WLoud_MB[b] * w_Proc[b]) )

一実施例によって、ＱＳＨＩ抽出部４０４は、短区間ラウドネス情報Ｌ＿ＳｈｏｒｔＴｅｒｍに基づき、品質保障ヒストグラム指標ＱＳＨＩを抽出することができる。前述したように、品質保障ヒストグラム指標（以下、‘ＱＳＨＩ’）は、認知的音質損傷が発生しない閾ラウドネスレベルであってよい。ＱＳＨＩ抽出部４０４は、ラウドネス測定部４０１から取得した短区間ラウドネス情報Ｌ＿ＳｈｏｒｔＴｅｒｍに基づき、ＱＳＨＩを取得することができる。

例えば、ＱＳＨＩ抽出部４０４は、短区間ラウドネス情報Ｌ＿ＳｈｏｒｔＴｅｒｍを分析してＱＳＨＩを取得することができる。このとき、短区間ラウドネス情報Ｌ＿ＳｈｏｒｔＴｅｒｍは、入力オーディオ信号の一つ以上の短区間ラウドネスレベルを含むことができる。具体的に、ＱＳＨＩ抽出部４０４は、一つ以上の短区間ラウドネスレベルに基づき、入力オーディオ信号の短区間ラウドネス大きさ別ヒストグラムを取得することができる。また、ＱＳＨＩ抽出部４０４は、取得された短区間ラウドネス大きさ別ヒストグラムに基づき、入力オーディオ信号のＱＳＨＩを取得することができる。

以下では、式１１及び式１２を参照して、ＱＳＨＩ抽出部４０４が入力オーディオ信号の短区間ラウドネス情報Ｌ＿ＳｈｏｒｔＴｅｒｍからＱＳＨＩを抽出する具体的な方法を説明する。式１１において、Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｓｏｒｔｅｄは、入力オーディオ信号の短区間ラウドネス情報Ｌ＿ＳｈｏｒｔＴｅｒｍに含まれる一つ以上の短区間ラウドネスレベルが大きさ順に整列された情報を表す。例えば、ＱＳＨＩ抽出部４０４は、一つ以上の短区間ラウドネスレベルを降順（‘ｄｅｓｃｅｎｄｉｎｇ’）に整列することができる。

［数１１］

L_ShortTerm_Sorted = sort ( L_ShortTerm, ‘descending’ )

また、ＱＳＨＩ抽出部４０４は、Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｓｏｒｔｅｄに基づき、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうち、既に設定されたインデックスに対応するラウドネスレベルを取得することができる。式１２において、ＥｆｆｅｃｔｉｖｅＩｎｄｅｘは、既に設定された有効インデックスを表すことができる。具体的に、既に設定された有効インデックス（ＥｆｆｅｃｔｉｖｅＩｎｄｅｘ）は、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうち、大きさ順に既に設定された順序の短区間ラウドネスレベルを示すことができる。すなわち、ＱＳＨＩ抽出部４０４は、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうち、ＥｆｆｅｃｔｉｖｅＩｎｄｅｘ番目に大きい短区間ラウドネスレベルを取得することができる。このとき、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうちＥｆｆｅｃｔｉｖｅＩｎｄｅｘ番目に大きい短区間ラウドネスレベルは、入力オーディオ信号の有効短区間ラウドネスレベル（Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｅｆｆｅｃｔｉｖｅ）と呼ぶことができる。

［数１２］

L_ShortTerm_Effective = L_ShortTerm_Sorted[EffectiveIndex]

次に、ＱＳＨＩ抽出部４０４は、入力オーディオ信号の有効短区間ラウドネスレベル（Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｅｆｆｅｃｔｉｖｅ）及び累積ラウドネスレベルの少なくとも一つに基づいてＱＳＨＩを取得することができる。また、ＱＳＨＩは、累積ラウドネスレベルよりも大きいか等しい値であってよい。

さらに、ＱＳＨＩ抽出部４０４は、入力オーディオ信号が既に設定されたターゲットラウドネスレベルにしたがって出力される場合における変更される有効短区間ラウドネスレベル（Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｅｆｆｅｃｔｉｖｅ＿Ｓｈｉｆｔ）を取得することができる。具体的に、ＱＳＨＩ抽出部４０４は、入力オーディオ信号の短区間ラウドネス情報Ｌ＿ＳｈｏｒｔＴｅｒｍに基づき、変更される短区間ラウドネス情報（Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｓｈｆｔ）を予測することができる。このとき、変更される短区間ラウドネス情報（Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｓｈｆｔ）は、入力オーディオ信号が既に設定されたターゲットラウドネスレベルにしたがって出力される場合における一つ以上の変更される短区間ラウドネスレベルを含むことができる。この場合、ＱＳＨＩ抽出部４０４は、取得されたＬ＿ＳｈｏｒｔＴｅｒｍ＿Ｅｆｆｅｃｔｉｖｅ＿Ｓｈｉｆｔに基づいてＱＳＨＩを取得することができる。例えば、ＱＳＨＩは、Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｅｆｆｅｃｔｉｖｅ＿Ｓｈｉｆｔ［ＥｆｆｅｃｔｉｖｅＩｎｄｅｘ］短区間ラウドネスレベルの閾値以下となるように制限する場合におけるターゲットラウドネス最大許容値であってよい。

例えば、入力オーディオ信号のＬ＿ＳｈｏｒｔＴｅｒｍ＿Ｅｆｆｅｃｔｉｖｅ＿Ｓｈｉｆｔは、短区間ラウドネスレベルの閾値（Ｌ＿Ｔｈｒｅｓｈｏｌｄ）として用いられてよい。ＱＳＨＩ抽出部４０４は、Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｅｆｆｅｃｔｉｖｅ＿Ｓｈｉｆｔに基づいてターゲットラウドネス最大許容値を補正することができる。ＱＳＨＩ抽出部４０４は、補正されたターゲットラウドネス最大許容値をＱＳＨＩの値として用いることができる。又は、ＱＳＨＩ抽出部４０４は、前記方式で補正されたターゲットラウドネス最大許容値と入力オーディオ信号の累積ラウドネスのうち、大きい値をＱＳＨＩの値として選択することができる。

前記方法により、オーディオ信号処理装置は、相対的にリミッターによる入力オーディオ信号の音質低下を効果的に防止することができる。入力オーディオ信号の全区間のうち、相対的に音量が大きく設定された部分は、リミッターによって音質低下が発生し得るわけである。

一実施例によって、ＱＳＨＩは、入力オーディオ信号の一つ以上の短区間ラウドネスレベルのうち、特定値よりも大きい短区間ラウドネスレベルの個数がＥｆｆｅｃｔｉｖｅＩｎｄｅｘよりも小さくなるように設定された値であってよい。このとき、ＥｆｆｅｃｔｉｖｅＩｎｄｅｘは、オーディオ信号処理装置のリミッターの特性に基づいて決定された値であってよい。例えば、ＥｆｆｅｃｔｉｖｅＩｎｄｅｘは、リミッターの動作によって発生する音質低下の程度によって変更されてよい。さらに、短区間ラウドネス閾値（Ｌ＿Ｔｈｒｅｓｈｏｌｄ）は、オーディオ信号処理装置のリミッターの特性に基づいて決定された値であってよい。例えば、短区間ラウドネス閾値（Ｌ＿Ｔｈｒｅｓｈｏｌｄ）は、リミッターの動作によって発生する音質低下の程度によって変更されてよい。

具体的な実施例によって、入力オーディオ信号が相対的に大きい動的範囲を有することができる。例えば、入力オーディオ信号の累積ラウドネスレベルがＬ＿Ｉｎｔｅｇ＝－２４ＬＫＦＳであり、有効短区間ラウドネスレベルがＬ＿ＳｈｏｒｔＴｅｒｍ＿Ｅｆｆｅｃｔｉｖｅ＝－１０ＬＫＦＳと抽出されてよい。この場合、ＥｆｆｅｃｔｉｖｅＩｎｄｅｘ＝１０、短区間ラウドネス閾値＝－７ＬＫＦＳに設定したとき、ＱＳＨＩは－２１ＬＫＦＳと計算されてよい。

前述した実施例では、入力オーディオ信号のＱＳＨＩが短区間ラウドネス大きさ別ヒストグラムに基づいて抽出される方法について述べたが、本開示がこれに制限されるものではない。例えば、入力オーディオ信号のＱＳＨＩは、入力オーディオ信号を含むコンテンツの製作者又は入力オーディオ信号を出力する音響システムの運営者によって任意に設定された値と定義されてもよい。また、オーディオ信号処理装置は、短区間ラウドネスレベルの他に、入力オーディオ信号のピーク値（ｐｅａｋｅｎｖｅｌｏｐｅ）、ＲＭＳの少なくとも一つに対するヒストグラム分析を行ってＱＳＨＩを取得することができる。

一実施例によって、入力オーディオ信号のＱＳＨＩは、短区間ラウドネス大きさ別ヒストグラムの変化によって変わってよい。例えば、前述した短区間ラウドネス大きさ別ヒストグラムは、ユーザの入力によって決定された後処理の有無によって変化されてよい。この場合、入力オーディオ信号のＱＳＨＩは、既に設定されたテーブルに基づいて他の値に変更されてよい。又は、入力オーディオ信号のＱＳＨＩは、後処理の特性に基づいて演算された値に変更されてもよい。

さらに、本開示の一実施例に係るオーディオ信号処理装置が、前述したラウドネス情報に基づいて入力オーディオ信号のラウドネスゲインを決定する方法について説明する。式１３は、入力オーディオ信号に対する後処理過程が行われた場合、入力オーディオ信号の変化された累積ラウドネスレベル（Ｌ＿ＩｎｔｅｇＰｒｏｃ）を表す。オーディオ信号処理装置は、後処理によるラウドネス変化予測値ｄＬ＿Ｐｒｏｃに基づき、入力オーディオ信号の変化された累積ラウドネスレベル（Ｌ＿ＩｎｔｅｇＰｒｏｃ）を取得することができる。式１３を参照すると、オーディオ信号処理装置は、入力オーディオ信号の累積ラウドネスレベルに後処理によるラウドネス変化予測値ｄＬ＿Ｐｒｏｃを加算して、変化された累積ラウドネスレベル（Ｌ＿ＩｎｔｅｇＰｒｏｃ）を取得することができる。

［数１３］

L_IntegProc = L_Integ + dL_Proc

オーディオ信号処理装置は、前述したＱＳＨＩ、既に設定されたターゲットラウドネスレベル（Ｌ＿Ｔａｒｇｅｔ）、及び後処理によって変化された累積ラウドネスレベルに基づき、出力ラウドネスレベル調整のためのラウドネスゲインを計算することができる。

前述した実施例において、ターゲットラウドネスレベル（Ｌ＿Ｔａｒｇｅｔ）は、ユーザによって設定された値であってよい。ただし、本開示がこれに制限されるものではない。例えば、既に設定されたターゲットラウドネスレベル（Ｌ＿Ｔａｒｇｅｔ）は、入力オーディオ信号を出力する再生システムから提供するデフォルト値であってよい。又は、既に設定されたターゲットラウドネスレベル（Ｌ＿Ｔａｒｇｅｔ）は、入力オーディオ信号を出力する再生環境に基づいて設定された値であってよい。オーディオ信号処理装置は、入力オーディオ信号から後処理された第１中間オーディオ信号にラウドネスゲイン（Ｇ＿Ｔａｒｇｅｔ）を適用することができる。実質的な具現上の便宜のために、後処理以前の入力オーディオ信号にラウドネスゲイン（Ｇ＿Ｔａｒｇｅｔ）がかけられた後、後処理過程が行われてもよい。また、オーディオ信号処理装置は、ラウドネスゲイン（Ｇ＿Ｔａｒｇｅｔ）の適用された第２中間オーディオ信号をリミッターに通過させて出力することができる。

一方、マルチメディアストリーミングサービス（ｍｕｌｔｉｍｅｄｉａｓｔｒｅａｍｉｎｇｓｅｒｖｉｃｅ）は、現在メディア市場で広く用いられる方式である。マルチメディアストリーミングサービスを提供するシステムは、一般に、ストリーミングの対象となるコンテンツを保存するサーバーと、ユーザ機器（すなわち、クライアント）とで構成されてよい。このとき、クライアント側において、マルチメディアストリーミングサービスは、アプリケーション（ａｐｐｌｉｃａｔｉｏｎ）内再生又はウェブ（ｗｅｂ）内再生の形態で提供されてよい。サーバー及びクライアントのそれぞれは、本開示で説明する動作を行うオーディオ信号処理装置であってよい。このようなサーバー－クライアント構造において、サーバーは、入力コンテンツ分析を行ってラウドネス情報を提供することができる。また、クライアントは、サーバーから提供されたラウドネス情報に基づき、入力コンテンツの出力ラウドネスレベルを調整することができる。具体的に、サーバーは、入力オーディオ信号のラウドネス情報を含むラウドネスメタデータを、クライアントに送信することができる。クライアントは、サーバーから入力オーディオ信号のラウドネスメタデータを受信することができる。また、クライアントは、入力オーディオ信号のラウドネスメタデータに基づき、入力オーディオ信号に適用されるラウドネスゲインを取得することができる。

図７は、本発明の一実施例に係るサーバーが入力オーディオ信号のラウドネスメタデータを生成する方法を示す図である。本発明の一実施例に係るサーバーは、入力オーディオ信号をエンコードし、オーディオストリームを生成及び／又は出力することができる。本発明の一実施例に係るサーバーは、入力オーディオ信号のラウドネス情報を抽出することができる。例えば、図７のサーバーは、図３のラウドネス情報抽出（段階Ｓ３０３）を参照して説明された動作、及び図４のラウドネス情報抽出部４００を参照して説明された動作を行うことができる。また、サーバーは、抽出されたラウドネス情報を含むラウドネスメタデータを生成することができる。サーバーは、生成されたラウドネスメタデータを外部の装置に出力することができる。例えば、サーバーは、生成されたラウドネスメタデータをメタデータストリームの形態でクライアントに送信することができる。

図８は、本発明の一実施例に係るクライアントがラウドネスメタデータを用いて入力オーディオ信号を出力する方法を示す図である。本発明の一実施例に係るクライアントは、オーディオストリームを受信することができる。また、クライアントは、受信したオーディオストリームをデコードして入力オーディオ信号を取得することができる。クライアントは、入力オーディオ信号に対する後処理過程を行うことができる。このとき、後処理過程を行うか否か及び特性は、ユーザから受信した入力又はシステムに既に保存された設定値に基づいて決定されてよい。

本発明の一実施例に係るクライアントは、入力オーディオ信号のラウドネスメタデータに基づいて入力オーディオ信号のラウドネスゲインを決定することができる。例えば、クライアントは、メタデータストリーム形態のラウドネスメタデータを受信することができる。クライアントは、入力オーディオ信号のラウドネスメタデータをパースして入力オーディオ信号のラウドネス情報を取得することができる。具体的に、クライアントは、入力オーディオ信号のラウドネスメタデータから、図３及び図４で前述したＷＬｏｕｄ＿ＭＢ、Ｌ＿Ｉｎｔｅｇ及びＱＳＨＩの少なくとも一つを取得することができる。クライアントは、取得したラウドネス情報に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。クライアントは、入力オーディオ信号にラウドネスゲインを適用して出力ラウドネスレベルを調整することができる。クライアントは、出力ラウドネスレベルが調整された中間オーディオ信号にリミッターを適用して出力オーディオ信号を生成することができる。また、クライアントは出力オーディオ信号を出力することができる。

一実施例によって、図８のクライアントは、図３の後処理（段階Ｓ３０１）、ラウドネスゲイン決定（段階Ｓ３０５）、ラウドネスゲイン適用（段階Ｓ３０７）を参照して説明された動作、及び図４の後処理ラウドネス予測部４０３を参照して説明された動作を行うことができる。

一方、音楽コンテンツは、時代及び／又はジャンルによって様々なラウドネスを有することができる。例えば、クラシック音楽の累積ラウドネスレベルは広い動的範囲を提供するために相対的に低いが、２０００年代のポピュラー音楽の累積ラウドネスレベルは相対的に大きい。具体的に、２０００年代のポピュラー音楽の累積ラウドネスレベルは－１３～－８ＬＫＦＳであり、クラシック音楽のうち静かな楽章の累積ラウドネスレベルは、－３０ＬＫＦＳ程度であってよい。

ターゲットラウドネスレベルを決定する際に、放送標準で定義している－２３～－２４ＬＫＦＳを活用することができる。しかし、これは、地下鉄のような騒々しい環境では、外部雑音に対して十分な音量を提供しないことがある。このため、本発明の一実施例に係るオーディオ信号処理装置は、再生環境によって異なるターゲットラウドネスレベルを決定することができる。２０００年代のポピュラー音楽のターゲットラウドネスレベルを－１０に設定する場合、２０００年代のポピュラー音楽の音量は大きい変化がなくてもよい。これに対し、クラシックや１９７０～８０年代の音楽のように相対的に低い統合ラウドネスレベルを有する音楽のターゲットラウドネスレベルを－１０に設定する場合、音量の変化が大きくなり得る。

図９は、本発明の一実施例によって入力オーディオ信号の短区間ラウドネス大きさ別ヒストグラムを示す図である。図９で説明される実施例において、入力オーディオ信号のジャンルはクラシックであってよい。また、図９で説明される実施例において、入力オーディオ信号の累積ラウドネスは、－２１ＬＫＦＳであってよい。例えば、当該入力オーディオ信号のターゲットラウドネスレベルは、Ｌ＿Ｔａｒｇｅｔ＝－１０ＬＫＦＳであってよい。この場合、短区間ラウドネス大きさ別ヒストグラムは、右側に＋１１ＬＫＦＳ移動する。このとき、－７ＬＫＦＳよりも大きい短区間ラウドネスレベルを有する区間が発生することになる。

一実施例によって、－７ＬＫＦＳよりも大きい短区間ラウドネスレベルを有する区間において、リミッターによる音質劣化が発生し得る。このため、本発明の一実施例に係るオーディオ信号処理装置は、前述したようにＱＳＨＩに基づいて入力オーディオ信号のラウドネス正規化を行うことができる。この場合、ラウドネス正規化性能が相対的に減少することがあるが、音質毀損を防止する範囲内で最も積極的に合わせるベストエフォート（Ｂｅｓｔ－ｅｆｆｏｒｔ）方法を用いることができる。

本発明の一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のラウドネス情報に基づいてターゲットラウドネスレベルに最も近似させるラウドネスゲイン補正方式を用いることができる。オーディオ信号処理装置は、当該方式を用いて、ラウドネスレベルが変化しないイコライゼーションを提供することができる。

イコライゼーションとは、入力オーディオ信号の周波数別エネルギーを調節してユーザー所望の音色を有させることを意味する。このとき、入力オーディオ信号の調節程度によって全体的なエネルギーが大きくなる現象が発生し得る。この場合、入力オーディオ信号がクリッピング（Ｃｌｉｐｐｉｎｇ）されることがある。また、リミッターによって入力オーディオ信号に比べて音質毀損が発生することもある。このため、本発明の一実施例に係るオーディオ信号処理装置は、既に設定されたターゲットラウドネスレベル（Ｌ＿Ｔａｒｇｅｔ）、累積ラウドネスレベル（Ｌ＿Ｉｎｔｅｇ）、及びＱＳＨＩを同一の任意の値に設定することができる。この場合、入力オーディオ信号のラウドネスゲイン（Ｇ＿Ｔａｒｇｅｔ）は、式１４のように表現されてよい。すなわち、オーディオ信号処理装置は、線形のラウドネスゲイン（Ｇ＿Ｔａｒｇｅｔ）を取得することができる。ターゲットラウドネスレベル（Ｌ＿Ｔａｒｇｅｔ）、累積ラウドネスレベル（Ｌ＿Ｉｎｔｅｇ）、及びＱＳＨＩが互いに相殺されるためである。

［数１４］

G_Target = power ( 10, -dL_Proc) / 20

オーディオ信号処理装置は、式１４のラウドネスゲイン（Ｇ＿Ｔａｒｇｅｔ）を入力オーディオ信号に適用させることができる。オーディオ信号処理装置は、後処理によるラウドネス変化を補正し、入力オーディオ信号のラウドネスレベルと同じ出力ラウドネスレベルを提供することができる。オーディオ信号処理装置は、後処理によるラウドネス変化を補正し、入力オーディオ信号のラウドネスレベルを維持することができる。オーディオ信号処理装置は、後処理によるラウドネス変化予測値を用いて、中間オーディオ信号のラウドネスレベルを入力オーディオ信号のラウドネスレベルと同一に設定することができる。このとき、中間オーディオ信号は、入力オーディオ信号から後処理された信号であってよい。これは、オーディオ信号処理装置が、後処理過程によって入力オーディオ信号に対比してトーン（ｔｏｎｅ）が変更されるが、本来の入力オーディオ信号のラウドネスレベルと同一に提供することを意味する。一方、後処理によるラウドネス変化予測値は、図３及び図４で前述した方法で取得されてよい。後処理によるラウドネス変化予測値は、分析によって提供されたＷＬｏｕｄ＿ＭＢ又はコンテンツの特性に基づくＷＬｏｕｄ＿ＭＢに基づいて取得されてよい。

図１０は、本発明の一実施例によってオーディオ信号処理装置がターゲットラウドネスレベル及び認知的音質劣化を考慮して入力オーディオ信号のラウドネスゲインを最適化するシステムを示すブロック図である。オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネスレベル及びラウドネス情報に基づき、動的プロセッサが受容できるターゲットラウドネスゲインを決定することができる。ここで、動的プロセッサは、前述したリミッター（ｌｉｍｉｔｅｒ）又はコンプレッサー（ｃｏｍｐｒｅｓｓｏｒ）のようにラウドネスレベルによって信号をクリッピングする処理過程を表すことができる。入力オーディオ信号のラウドネス情報は、累積ラウドネスレベル、短区間ラウドネスレベル、瞬間ラウドネスレベル、サンプルピーク、トゥルーピーク、ラウドネス範囲、及びＲＭＳ（ｒｏｏｔ－ｍｅａｎ－ｓｑｕａｒｅ）の少なくとも一つを含むことができる。

以下では、オーディオ信号処理装置が入力オーディオ信号のラウドネスゲインを決定する具体的な実施例について説明する。一実施例によってユーザが設定できるターゲットラウドネスレベルの最大値は－１０ＬＫＦＳであり、入力オーディオ信号の累積ラウドネスは－２２ＬＫＦＳであってよい。また、入力オーディオ信号の複数の短区間ラウドネスレベルのうち１０番目に該当する短区間ラウドネスレベルは、－１８ＬＫＦＳであってよい。このとき、１０番目に該当する短区間ラウドネスレベルは、前述した図４のＱＳＨＩ抽出部４０４を参照して説明した有効短区間ラウドネスレベル（Ｌ＿ＳｈｏｒｔＴｅｒｍ＿Ｅｆｆｅｃｔｉｖｅ）の具体的な実施例であってよい。すなわち、－１８ＬＫＦＳは、ＤＲＣによる音質劣化の有無を判別する指標として活用されてよい。ターゲットラウドネスレベルの最大値が－１０ＬＫＦＳである場合、最大増幅量は１２ＬＵ（ＬｏｕｄｎｅｓｓＵｎｉｔ）であってよい。この場合、オーディオ信号処理装置は、最大増幅量だけ増幅させた１０番目の短区間ラウドネスレベルに基づいてＱＳＨＩを取得することができる。

オーディオ信号処理装置は、ユーザによって入力された既に設定されたターゲットラウドネスレベルとＱＳＨＩとを比較することができる。オーディオ信号処理装置は、比較結果に基づいて入力オーディオ信号のラウドネスゲインを決定することができる。例えば、オーディオ信号処理装置は、既に設定されたターゲットラウドネスレベルとＱＳＨＩのうち比較的小さい値に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。前述した実施例では、ＤＲＣ音質劣化の有無を判別する指標を求めるための短区間ラウドネスレベルを、降順整列時に上位１０番目として選択したが、本開示はこれに制限されない。また、オーディオ信号処理装置は、短区間ラウドネスレベルの他に信号のピーク値、ＲＭＳのうち少なくとも一つに対するヒストグラム分析を行い、ＱＳＨＩを取得することができる。

図１１及び図１２は、時間別入力オーディオ信号のラウドネスレベル及びターゲットラウドネスレベルのための固定ゲインを示す図である。図１１は、ターゲットラウドネスレベルよりも小さいラウドネス分布を有する第１入力オーディオ信号のラウドネスレベルを、ターゲットラウドネスレベルに調整するための固定ゲインを表す。この場合、０ｄＢＦＳよりも大きい区間において第１入力オーディオ信号がクリッピングされ、過度な音色歪みが発生することがある。このように、ターゲットラウドネスレベルに近接した値を得るためには、固定ゲインを用いたラウドネスレベル調整方法では限界がある。このため、オーディオ信号処理装置は、第１入力、オーディオ信号の区間（２）及び区間（４）に対しては、固定ゲイン値よりも小さいゲインを適用することができる。

図１２を参照すると、第２入力オーディオ信号は、図１１の第１入力オーディオ信号に比べて動的範囲が大きい。これにより、オーディオ信号処理装置が、第２入力オーディオ信号にターゲットラウドネスレベルのための固定ゲインを適用する場合、一部の区間は相対的にラウドネスレベルが小さいことがある。このため、オーディオ信号処理装置は、第２入力オーディオ信号の区間（１）及び区間（３）に対しては、固定ゲイン値よりも大きいゲインを適用することができる。

更なる実施例によって、オーディオ信号処理装置は、ゲインブースト（ＧａｉｎＢｏｏｓｔ）を適用することができる。例えば、オーディオ信号処理装置は、ターゲットラウドネス範囲を取得することができる。オーディオ信号処理装置は、取得されたターゲットラウドネス範囲に基づき、入力オーディオ信号の区間別追加ゲインを設定することができる。具体的に、オーディオ信号処理装置は、入力オーディオ信号の時間別全区間のうち、ターゲットラウドネス範囲外のラウドネスレベルを有する区間に対して設定された追加ゲインを適用させることができる。

前述したように、本発明の一実施例に係るオーディオ信号処理装置は、入力オーディオ信号に対して時間によって異なるゲインを適用し、入力オーディオ信号の出力ラウドネスレベルを調整することができる。オーディオ信号処理装置は、入力オーディオ信号のラウドネスメタデータに基づいて入力オーディオ信号出力ラウドネスレベルを調整することができる。このとき、入力オーディオ信号のラウドネスメタデータは、時間のよって変更される情報を含むことができる。オーディオ信号処理装置は、時間によって異なるゲインを適用するために、時間によって異なるメタデータを参照してターゲットラウドネスレベル、ターゲットラウドネス範囲によって入力オーディオ信号の出力ラウドネスレベルを正規化することができる。これにより、本開示において、オーディオ信号処理装置は、ラウドネス正規化のために入力オーディオ信号に固定ゲインを適用して補償する場合、前述したような問題点を解決することができる。

図１３及び図１４は、本開示の一実施例によって入力オーディオ信号の出力ラウドネスレベルが調整される方法を示す概略図である。図１３には、単一のオーディオ信号処理装置内で入力オーディオ信号のラウドネス情報が抽出され、入力オーディオ信号の出力ラウドネスレベルが調整される実施例を示す。この場合、オーディオ信号処理装置は、入力オーディオ信号のラウドネスレベルを測定することができる。オーディオ信号処理装置は、ラウドネス測定値に入力コンテンツのラウドネス情報を取得することができる。オーディオ信号処理装置が実時間で入力オーディオ信号のラウドネスレベルを測定する方法については、図１９で具体的に説明する。

図１４には、図７及び図８を用いて前述したサーバー－クライアント構造を示す。まず、サーバーは、入力オーディオ信号を分析して入力オーディオ信号のラウドネス情報を抽出することができる。また、サーバーは、入力オーディオ信号のラウドネス情報をメタデータフォーマットに変換し、ラウドネスメタデータを生成することができる。次に、クライアントは入力オーディオ信号を受信し、入力オーディオ信号とは別に入力オーディオ信号のラウドネスメタデータを受信することができる。また、クライアントは、ラウドネスメタデータをパースし、入力オーディオ信号の出力ラウドネスレベル調整に用いられるラウドネス情報を取得することができる。また、クライアントは、ラウドネス情報及び既に設定されたターゲットラウドネスレベルに基づいて入力オーディオ信号のラウドネスゲインを取得することができる。クライアントは、入力オーディオ信号の出力ラウドネスレベルを入力オーディオ信号のラウドネスゲインに基づいて調整することができる。

図１５は、本発明の一実施例に係るオーディオ信号処理装置が入力オーディオ信号のラウドネス情報を取得する方法を示す図である。オーディオ信号処理装置は、入力オーディオ信号を分析してラウドネス情報を取得することができる。例えば、図１５の方法は、前述した図７のサーバーで行われてよい。オーディオ信号処理装置は、ラウドネス情報をラウドネスメタデータの形態で出力することができる。

一実施例によって、ラウドネス情報は、静的ラウドネスメタデータ及び動的ラウドネスメタデータを含むことができる。静的ラウドネスメタデータは、少なくとも一つの静的ラウドネスパラメータを含むことができる。例えば、静的ラウドネスメタデータは、入力オーディオ信号の累積ラウドネスレベル、サンプル最大ピーク（Ｍａｘ．ＳａｍｐｌｅＰｅａｋ）、ラウドネス範囲（ＬｏｕｄｎｅｓｓＲａｎｇｅ，ＬＲＡ）、ピーク－トゥ－ラウドネス範囲（ＰｅａｋｔｏＬｏｕｄｎｅｓｓＲａｎｇｅ，ＰＬＲ）、アルバム累積ラウドネス（ＡｌｂｕｍＩｎｔｅｇｒａｔｅｄＬｏｕｄｎｅｓｓ）、相対臨界値（ＲｅｌａｔｉｖｅＴｈｒｅｓｈｏｌｄ）、最小瞬間ラウドネス（Ｍｉｎ．ＭｏｍｅｎｔａｒｙＬｏｕｄｎｅｓｓ）、最大瞬間ラウドネス（Ｍａｘ．ＭｏｍｅｎｔａｒｙＬｏｕｄｎｅｓｓ）、フレーム当たりサンプル（ＳａｍｐｌｅＰｅｒＦｒａｍｅ）のうち少なくとも一つを含むことができる。

オーディオ信号処理装置は、入力オーディオ信号の静的ラウドネスメタデータを取得することができる。具体的に、オーディオ信号処理装置は、聴覚尺度に基づくラウドネスフィルターを用いて、入力オーディオ信号の瞬間ラウドネスレベル及び入力オーディオ信号の短区間ラウドネスレベルの少なくとも一つを測定することができる。オーディオ信号処理装置は、少なくとも一つの静的ラウドネスパラメータを含む静的ラウドネスメタデータを生成することができる。

動的ラウドネスメタデータは、時間によって変化するラウドネス情報を示すことができる。動的ラウドネスメタデータは、少なくとも一つの動的ラウドネスパラメータを含むことができる。例えば、動的ラウドネスメタデータは、入力オーディオ信号の時間別短区間ラウドネスレベル及びピーク値（ＰｅａｋＥｎｖｅｌｏｐｅ）の少なくとも一つを含むことができる。オーディオ信号処理装置がピーク値を取得する方法については、図２１で具体的に説明する。

一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の動的ラウドネスメタデータを取得することができる。例えば、オーディオ信号処理装置は、入力オーディオ信号の特定区間に対する短区間ラウドネス測定値を取得することができる。オーディオ信号処理装置は、当該区間に対する入力オーディオ信号のピーク値を取得することができる。オーディオ信号処理装置は、少なくとも一つの動的ラウドネスパラメータを含む動的ラウドネスメタデータを生成することができる。また、オーディオ信号処理装置は、短区間ラウドネス測定値及びピーク値のような動的ラウドネスパラメータの時間の遅延又は繰り上げを補正することができる。例えば、オーディオ信号処理装置は、動的ラウドネスパラメータをシフト（ｓｈｉｆｔ）することができる。これについては、図２１を参照して具体的に説明する。

オーディオ信号処理装置は、特定時点を基準にその過去のサンプル値と以降に入力されるサンプル値に対する短区間ラウドネスレベルを取得することができる。これにより、オーディオ信号処理装置は、入力オーディオ信号のラウドネス変化に対してより安定にラウドネスレベルを制御することができる。例えば、オーディオ信号処理装置が既に取得された動的ラウドネスパラメータの時間基準値をシフトし、過去のサンプル値と以降に入力されるサンプル値に対する短区間ラウドネスレベルを取得することができる。また、オーディオ信号処理装置は、バッファを用いて、過去のサンプル値と以降に入力されるサンプル値に対する短区間ラウドネスレベルを取得することができる。このとき、オーディオ信号処理装置は、十分なルック－アヘッド（Ｌｏｏｋ－ａｈｅａｄ）時間を設定することができる。

図１６は、本発明の一実施例に係るオーディオ信号処理装置が入力オーディオ信号の出力ラウドネスレベルを調整する方法を示す図である。オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネスレベル及びラウドネスメタデータに基づいて入力オーディオ信号のラウドネスゲインを取得することができる。具体的に、オーディオ信号処理装置は、ターゲットラウドネスレベル及び静的ラウドネスメタデータに基づいてゲインパラメータを計算することができる。オーディオ信号処理装置は、計算されたゲインパラメータ及び動的ラウドネスメタデータに基づき、入力オーディオ信号の特定フレームに適用されるラウドネスゲインを取得することができる。例えば、オーディオ信号処理装置は、動的ラウドネスメタデータをパースし、当該フレームに対応する短区間ラウドネスレベル及びピーク値の少なくとも一つを取得することができる。オーディオ信号処理装置は、当該フレームに対応する短区間ラウドネスレベル及びピーク値の少なくとも一つに基づき、当該フレームに適用されるラウドネスゲインを取得することができる。具体的に、オーディオ信号処理装置は、計算されたゲインパラメータ及び当該フレームに対応する短区間ラウドネスレベルに基づき、当該フレームに適用されるラウドネスゲインを取得することができる。このとき、当該フレームに適用されるラウドネスゲインは、当該フレーム内でラウドネスレベルによるクリッピングが発生しないように制限されてよい。オーディオ信号処理装置は、ピーク値に基づき、当該フレーム内でラウドネスレベルによるクリッピングが発生しないように、当該フレームに適用されるラウドネスゲインを補正することができる。オーディオ信号処理装置は、入力オーディオ信号に最終ラウドネスゲインを適用して中間オーディオ信号を生成することができる。また、オーディオ信号処理装置は、中間オーディオ信号にリミッターを適用して出力オーディオ信号を生成することができる。オーディオ信号処理装置は、出力オーディオ信号を出力することができる。更なる実施例によって、隣接したフレーム間のフレーム別ラウドネスゲインの差が、既に設定された大きさ以上である場合、オーディオ信号処理装置は、フレーム別ラウドネスゲインを補正することができる。このとき、オーディオ信号処理装置は、スムージング（Ｓｍｏｏｔｈｉｎｇ）方法を用いて、ラウドネスゲインがなだらかに変わるように調整することができる。これにより、オーディオ信号処理装置は、フレーム別ラウドネスゲインの変化による音色歪みや突然にレベルが大きく変わるボリュームパンピング（ｐｕｍｐｉｎｇ）を防止することができる。オーディオ信号処理装置がラウドネスゲインをスムージングする方法については、図２２で具体的に説明する。

図１７は、本発明の一実施例に係るオーディオ信号処理装置が、ターゲットラウドネス範囲に基づいて入力オーディオ信号の出力ラウドネスレベルを調整する方法を示す図である。オーディオ信号処理装置は、前述した図１６のゲインパラメータを計算する過程でターゲットラウドネス範囲をさらに考慮することができる。図１２で説明したように、ターゲットラウドネス範囲は、入力オーディオ信号の動的範囲に比べて狭いことがある。環境によって、小さいボリュームで映像／音響を聴取する場合や、地下鉄又は道路のように騒々しい環境で音楽を聞く場合、入力オーディオ信号の動的範囲を減少させて再生する必要がある。

これにより、オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネス範囲に基づき、入力オーディオ信号のゲインパラメータを計算することができる。このとき、ゲインパラメータは、ラウドネス圧縮に用いられるゲイン比率（ｇａｉｎｒａｔｉｏ）を含むことができる。オーディオ信号処理装置は、ゲイン比率に基づき、入力オーディオ信号が含む複数のフレームのうち、既に設定された大きさよりも小さい短区間ラウドネスを有するフレームに対して追加のブースト（ｂｏｏｓｔ）ゲインを適用することができる。オーディオ信号処理装置は、ゲイン比率に基づき、入力オーディオ信号が含む複数のフレームのうち、既に設定された大きさよりも大きい短区間ラウドネスを有するフレームに対して追加のカット（ｃｕｔ）ゲインを適用することができる。これにより、オーディオ信号処理装置は、入力オーディオ信号の全区間の出力ラウドネスレベルがターゲットラウドネスレベルに近似するように調整することができる。

追加の実施例によって、オーディオ信号処理装置は、時間区間別に異なるように測定されたラウドネスパラメータに基づき、時間区間別ラウドネス正規化を行うことができる。具体的に、オーディオ信号処理装置は、ターゲットラウドネスレベル（Ｌ＿Ｔ）、累積ラウドネスレベル（Ｌ＿Ｉ）、短区間ラウドネスレベル（Ｌ＿Ｓ）、相対的な閾値（ｒｅｌａｔｉｖｅｔｈｒｅｓｈｏｌｄ，Ｌ＿Ｒｅｌ）、ノイズフロアレベル（ｎｏｉｓｅｆｌｏｏｒｌｅｖｅｌ，Ｌ＿Ｎｏｉｓｅ）、ピーク値（Ｐ）に基づき、入力オーディオ信号の時間区間別ラウドネスゲイン（Ｇ＿ｌｏｕｄ）を決定することができる。ここで、Ｌ＿Ｒｅｌは、入力オーディオ信号の全区間において有効な動的ラウドネスパラメータの平均に、既に設定された値が加算された値であってよい。このとき、既に設定された値は、－２０ＬＵであってよい。また、動的ラウドネスパラメータは、瞬間ラウドネスレベル又は短区間ラウドネスレベルであってよい。

例えば、Ｌ＿Ｒｅｌは、入力オーディオ信号の区間別短区間ラウドネスレベルのうち、少なくとも有効ラウドネスレベルよりも大きい値を有する短区間ラウドネスレベルの平均に基づいて算出された値であってよい。Ｌ＿Ｒｅｌは、入力オーディオ信号の区間別瞬間ラウドネスレベルのうち、少なくとも有効ラウドネスレベルよりも大きい値を有する瞬間ラウドネスレベルの平均に基づいて算出された値であってよい。ここで、有効ラウドネスレベルは、聴覚的に認知し難いラウドネスレベルに基づいて設定された値であってよい。有効ラウドネスレベルは、音がほとんど存在しないオーディオ信号のラウドネスレベルに基づいて設定された値であってよい。例えば、有効ラウドネスレベルは、－７０ＬＫＦＳに基づいて設定された値であってよい。

また、Ｌ＿Ｎｏｉｓｅは、入力オーディオ信号において音がほとんど存在しない区間ラウドネスレベル又は入力オーディオ信号において非常に低いレベルの背景雑音（ｂａｃｋｇｒｏｕｎｄｎｏｉｓｅ）に対応する区間のラウドネスレベルのうち少なくとも一つに基づいて算出された値であってよい。

一実施例によって、Ｌ＿Ｔ、Ｌ＿Ｉ、Ｌ＿Ｓ、Ｌ＿Ｒｅｌ、Ｌ＿Ｎｏｉｓｅ及びＰのそれぞれは、前述したラウドネスメタデータから取得できる。また、時間区間はフレームを含むことができる。前述した実施例において、短区間ラウドネスレベル（Ｌ＿Ｓ）は、特定時間区間を代表するラウドネス代表値に代替されてよい。例えば、短区間ラウドネスレベル（Ｌ＿Ｓ）は、入力オーディオ信号の瞬間ラウドネスレベルに代替されてよい。オーディオ信号処理装置がＬ＿Ｔ、Ｌ＿Ｉ、Ｌ＿Ｓ、Ｌ＿Ｒｅｌ、Ｌ＿Ｎｏｉｓｅ及びＰに基づいて時間区間別ラウドネスゲイン（Ｇ＿ｌｏｕｄ）を取得する方法を式で表すと、下記の式１６の通りである。

［数１６］

式１６において、ｒ＿１及びｒ＿２は、入力オーディオ信号に対して出力オーディオ信号の動的範囲を制御するためのラウドネス圧縮比率を表すことができる。ｒ１は、入力オーディオ信号の入力ラウドネスレベルが、少なくとも累積ラウドネスレベルよりも小さい区間において当該区間のラウドネスゲインを取得するために用いられるラウドネス圧縮比率であってよい。ｒ＿１は、入力オーディオ信号のラウドネス範囲を示すＬＲＡ、ＰＬＲ、又は瞬間ラウドネス最大値の少なくとも一つに基づいて設定されてよい。ｒ＿１は、０と１の間の任意の定数であってよい。ｒ＿２は、入力オーディオ信号の入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルがＬ＿Ｒｅｌよりも小さい区間において、当該区間のラウドネスゲインを取得するために用いられる圧縮比率であってよい。このとき、ｒ＿２は、ノイズ成分のブーストを最小化するために、少なくともｒ＿１よりも小さい値に設定されてよい。オーディオ信号処理装置は、Ｇ＿ｌｏｕｄ［ｎ］をスムージングして入力オーディオ信号に適用することができる。また、ｃｌｉｐｐｉｎｇＴｈｒｅｓｈｏｌｄは、最大許容サンプルピーク値を表すことができる。ｃｌｉｐｐｉｎｇＴｈｒｅｓｈｏｌｄは、前述したＱＳＨＩ、最大トゥルーピーク（ｔｒｕｅＰｅａｋ）及び最大サンプルピーク値の少なくとも一つに基づいて設定された値であってよい。例えば、ｃｌｉｐｐｉｎｇＴｈｒｅｓｈｏｌｄは、ＱＳＨＩと同じ値であってよい。又は、ｃｌｉｐｐｉｎｇＴｈｒｅｓｈｏｌｄは、オーディオ信号処理装置又はオーディオ提供システムにおいて任意に設定される値であってよい。

以下では、本発明の一実施例に係るオーディオ信号処理装置がラウドネス測定値を取得する方法について、図１８を参照して具体的に説明する。図１８は、本発明の一実施例によってオーディオ信号処理装置が入力コンテンツのラウドネスを測定する方法を示す図である。一実施例によって、オーディオ信号処理装置は、前述した測定ウィンドウに基づいて入力コンテンツのラウドネスを測定することができる。また、オーディオ信号処理装置は、入力コンテンツの測定ウィンドウ別ラウドネス測定値を取得することができる。オーディオ信号処理装置は、測定ウィンドウ別ラウドネス測定値に基づいてラウドネス情報を取得することができる。

図１８の実施例において、オーディオ信号処理装置は、測定ウィンドウ８０１の長さに基づいて測定ウィンドウ別測定値を取得することができる。このとき、測定ウィンドウ８０１の長さは、オーディオ信号処理装置に既に保存されたデフォルト値であってよい。本発明の一実施例によって、測定ウィンドウ８０１の長さは、入力コンテンツによって変わってもよい。例えば、オーディオ信号処理装置は、入力コンテンツの付加情報に基づいて、入力コンテンツに対応する測定ウィンドウの長さを取得することができる。図１８の実施例において、入力コンテンツに対応する測定ウィンドウの長さは、４００ｍｓであってよい。オーディオ信号処理装置は、入力コンテンツ全区間において特定４００ｍｓ長の区間に対応するラウドネス測定値を取得することができる。

一実施例によって、測定ウィンドウの長さは、付加情報に基づいて取得されてよい。例えば、測定ウィンドウの長さは、入力コンテンツのラウドネス範囲に基づいて取得されてよい。ここで、ラウドネス範囲は、コンテンツの全区間に対するラウドネスレベル分布を表す値であってよい。ラウドネス範囲は、ＬＵのような相対的な測定量を示す単位を用いて表示されてよい。オーディオ信号処理装置は、付加情報から入力コンテンツのラウドネス範囲に関する情報を取得することができる。次に、オーディオ信号処理装置は、入力コンテンツのラウドネス範囲に基づいて測定ウィンドウの長さを決定することができる。このとき、入力コンテンツの測定ウィンドウの長さは、入力コンテンツのラウドネス範囲よりも広いラウドネス範囲の幅を有する他のコンテンツの測定ウィンドウ長よりも短い値に設定されてよい。例えば、第１入力コンテンツのラウドネス範囲が第２入力コンテンツのラウドネス範囲よりも大きい場合、第１入力コンテンツに対する測定ウィンドウの長さは、第２入力コンテンツに対する測定ウィンドウの長さよりも長くてよい。

また、オーディオ信号処理装置は、入力コンテンツに対する測定値を取得する測定周期によって測定ウィンドウ別ラウドネス測定値を取得することができる。本開示において、測定周期は、測定ウィンドウが移動する時間的距離を表すことができる。図１８を参照すると、第１測定値８０２は、入力コンテンツが再生し始まった時点を基準に、（３００ｍｓ～７００ｍｓ）区間に対応するラウドネス測定値であってよい。また、第２測定値８０３は、入力コンテンツが再生し始まった時点を基準に、（４００ｍｓ～８００ｍｓ）区間に対応するラウドネス測定値であってよい。入力コンテンツが再生し始まった時点から現在時点までの時間長が測定ウィンドウの長さよりも小さい場合、オーディオ信号処理装置は、現在時点以降に来る最も近い測定周期にラウドネス測定値を取得することができる。この場合、オーディオ信号処理装置は、測定ウィンドウの長さよりも短い区間に対応するラウドネス測定値を取得することができる。

具体的に、オーディオ信号処理装置は、付加情報に基づいて測定周期を決定することができる。例えば、測定周期は、入力コンテンツの長さに基づいて決定されてよい。例えば、第１入力コンテンツの長さよりも第２入力コンテンツの長さが長い場合、第１入力コンテンツの測定周期は第２入力コンテンツの測定周期よりも短くてよい。また、オーディオ信号処理装置は、決定された測定周期に基づいて測定ウィンドウ別ラウドネス測定値を取得することができる。図１８の実施例において、測定周期は１００ｍｓであってよい。オーディオ信号処理装置は、測定ウィンドウを１００ｍｓごとに移動させ、測定ウィンドウ別ラウドネス測定値を取得することができる。また、オーディオ信号処理装置は、図１８で測定された複数のラウドネス測定値に基づき、前述したラウドネス情報を取得することができる。

図１９は、本発明の一実施例に係るオーディオ信号処理装置の動作を示すフローチャートである。本発明の一実施例に係るオーディオ信号処理装置は、入力オーディオ信号を受信することができる（段階Ｓ１９０１）。このとき、入力オーディオ信号は、図２で説明した入力コンテンツを含むことができる。次に、オーディオ信号処理装置は、入力オーディオ信号に対応するラウドネスメタデータを受信することができる（段階Ｓ１９０２）。

次に、オーディオ信号処理装置は、ラウドネスメタデータをパースし、入力オーディオ信号のラウドネス情報を取得することができる（段階Ｓ１９０３）。本発明の一実施例によって、ラウドネス情報は、入力オーディオ信号の累積ラウドネスレベル、少なくとも一つの短区間ラウドネスレベル、品質保障ヒストグラム指標（ＱｕａｌｉｔｙＳｅｃｕｒｅＨｉｓｔｏｇｒａｍＩｎｄｅｘ，ＱＳＨＩ）、入力オーディオ信号の動的範囲（ｄｙｎａｍｉｃｒａｎｇｅ）、周波数別ラウドネスエネルギー、周波数別ラウドネス比率、及びピーク値（ｐｅａｋｅｎｖｅｌｏｐｅ）のそれぞれを示す情報の少なくとも一つを含むことができる。オーディオ信号処理装置がラウドネス情報に含まれるそれぞれの情報を取得する方法には、前述した図２～図１８を参照して説明される実施例が適用されてよい。

ＱＳＨＩは、認知的音質損傷が発生しない閾ラウドネスレベルを示すことができる。ＱＳＨＩは、前述した図３の段階Ｓ３０３、図４のＱＳＨＩ抽出部４０４、及び図１０で説明した実施例によって取得することができる。例えば、ＱＳＨＩは、入力オーディオ信号のラウドネスヒストグラムに基づいて算出されたラウドネスパラメータであってよい。このとき、ラウドネスヒストグラムは、入力オーディオ信号の時間別短区間ラウドネスレベルのサイズヒストグラムであってよい。又は、ラウドネスヒストグラムは、入力オーディオ信号の区間別ピーク値又はＲＭＳ（ｒｏｏｔ－ｍｅａｎ－ｓｑｕａｒｅ）に関するサイズヒストグラムであってよい。ＱＳＨＩは、前記入力オーディオ信号の累積ラウドネスレベルよりも大きくてよい。

一実施例によって、ＱＳＨＩは、入力オーディオ信号のラウドネスヒストグラムから予測された予測ラウドネスヒストグラムに基づいて算出されたパラメータであってよい。このとき、予測ラウドネスヒストグラムは、入力オーディオ信号がターゲットラウドネスレベルにしたがって出力される場合、予測されるラウドネスパラメータに基づいて生成されたヒストグラムであってよい。

一実施例によって、ＱＳＨＩは、オーディオ信号処理装置においてリミッターが駆動される回数に基づいて決定されてよい。この場合、オーディオ信号処理装置は、出力オーディオ信号に出力オーディオ信号のラウドネスレベルを制限するラウドネスリミッター（ｌｉｍｉｔｅｒ）を適用して出力することができる。このとき、出力オーディオ信号は、入力オーディオ信号の出力ラウドネスレベルがラウドネスゲインによって調整された信号であってよい。ＱＳＨＩは、出力オーディオ信号の全区間の短区間ラウドネスレベルが、既に設定されたレベル以下となるように設定されたパラメータであってよい。

次に、オーディオ信号処理装置は、ラウドネス情報及びターゲットラウドネスレベルに基づいて入力オーディオ信号のラウドネスゲインを取得することができる（Ｓ１９０４）。一実施例によって、入力オーディオ信号のラウドネスゲインは、前記入力オーディオ信号の全区間において固定された値を有する固定ゲインであってよい。他の実施例によって、入力オーディオ信号のラウドネスゲインは、前記入力オーディオ信号が再生される時間の間に、時間によって変化するゲインであってよい。

本発明の一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の累積ラウドネスを受信することができる。また、オーディオ信号処理装置は、入力オーディオ信号の累積ラウドネス、ＱＳＨＩ及び前記ターゲットラウドネスレベルに基づいてラウドネスゲインを決定することができる。

一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネスレベルとＱＳＨＩとを比較することができる。また、オーディオ信号処理装置は、比較結果に基づいてラウドネスゲインを決定することができる。オーディオ信号処理装置は、入力オーディオ信号のターゲットラウドネスレベルとＱＳＨＩのうち、より小さい値に基づいてラウドネスゲインを決定することができる。これについては、図１０で説明した具体的な実施例が適用されてよい。

一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のＱＳＨＩから補正されたＱＳＨＩに基づき、入力オーディオ信号のラウドネスゲインを取得することができる。例えば、オーディオ信号処理装置は、入力オーディオ信号に対する後処理（ｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）を行うことができる。この場合、オーディオ信号処理装置は、入力オーディオ信号に対する後処理の特性を示す後処理情報を受信することができる。また、オーディオ信号処理装置は、後処理情報に基づいて既に取得したＱＳＨＩを補正することができる。一実施例によって、オーディオ信号処理装置は、後処理情報及び既に保存された関数に基づき、既に取得したＱＳＨＩを補正することができる。オーディオ信号処理装置は、後処理情報及び既に保存されたルックアップテーブル（ｌｏｏｋ－ｕｐｔａｂｌｅ）に基づき、既に取得したＱＳＨＩを補正することができる。このとき、既に保存されたルックアップテーブルは、後処理の特性によるＱＳＨＩ補正に関する情報を含むテーブルであってよい。また、ＱＳＨＩ補正に関する情報は、後処理の特性によるＱＳＨＩ補正値を示す情報を含むことができる。オーディオ信号処理装置は、既に保存されたルックアップテーブルに基づき、入力オーディオ信号に対する後処理に対応するＱＳＨＩ補正値を取得することができる。オーディオ信号処理装置は、取得されたＱＳＨＩにＱＳＨＩ補正値を加算して前記ＱＳＨＩを補正することができる。オーディオ信号処理装置は、前述した方法で補正されたＱＳＨＩに基づき、入力オーディオ信号のラウドネスゲインを決定することができる。

一実施例によって、オーディオ信号処理装置は、周波数別ラウドネスエネルギー及び入力オーディオ信号に対する後処理の特性を示す後処理情報に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。オーディオ信号処理装置は、後処理によって変化するバンド別ラウドネスレベルに基づき、入力オーディオ信号のラウドネスゲインを決定することができる。

一実施例によって、オーディオ信号処理装置は、周波数別ラウドネスエネルギー及び入力オーディオ信号に対する後処理の特性を示す後処理情報に基づき、後処理によって変化するバンド別ラウドネスレベルを取得することができる。オーディオ信号処理装置は、周波数別ラウドネス比率及び入力オーディオ信号の後処理情報に基づき、後処理によって変化するバンド別ラウドネスレベルを取得することができる。後処理によって変化するバンド別ラウドネスレベルは、入力オーディオ信号の周波数別ラウドネス比率の内積に基づいて計算されてよい。後処理によって変化するバンド別ラウドネスレベルは、また、認知的ラウドネス特性に基づいて取得されたパラメータであってよい。オーディオ信号処理装置は、聴覚尺度に基づくラウドネスフィルターに基づき、入力オーディオ信号の後処理によって変化するバンド別ラウドネスレベルを取得することができる。具体的に、ラウドネスフィルターは、等ラウドネス曲線（ｅｑｕａｌ－ｌｏｕｄｎｅｓｓｃｏｎｔｏｕｒｓ）の逆フィルター、又はこれを近似化させたＫ加重（Ｋ－ｗｅｉｇｈｔｉｎｇ）フィルターの少なくとも一つであってよい。入力オーディオ信号に含まれる複数のフレームにおける特定フレームのラウドネスレベルが相対的な閾値よりも小さいか等しい場合、オーディオ信号処理装置は、当該フレームに対応する後処理によって変化するバンド別ラウドネスレベルを演算しなくてもよい。他の例として、入力オーディオ信号の後処理によって変化するバンド別ラウドネスレベルは、入力オーディオ信号のジャンル、及びユーザの入力のうち少なくとも一つの基づいて設定されたパラメータであってよい。

入力オーディオ信号の周波数別ラウドネス比率及び／又は周波数別ラウドネスエネルギーは、入力オーディオ信号に対するラウドネス測定値に基づいて算出された値であってよい。周波数別ラウドネス比率は、認知的ラウドネス特性に基づいて取得されたパラメータであってよい。オーディオ信号処理装置は、聴覚尺度に基づくラウドネスフィルターに基づき、入力オーディオ信号の周波数別ラウドネス比率を取得することができる。具体的に、ラウドネスフィルターは、等ラウドネス曲線（ｅｑｕａｌ－ｌｏｕｄｎｅｓｓｃｏｎｔｏｕｒｓ）の逆フィルター、又はこれを近似化させたＫ加重（Ｋ－ｗｅｉｇｈｔｉｎｇ）フィルターのうち少なくとも一つであってよい。入力オーディオ信号に含まれる複数のフレームのうち特定フレームのラウドネスレベルが、相対的な閾値よりも小さいか等しい場合、オーディオ信号処理装置は、当該フレームに対応する周波数別ラウドネス比率を演算しなくてもよい。周波数別ラウドネス比率は、図４の周波数別ラウドネス分析部４０２を参照して説明された実施例によって取得されてよい。他の例として、入力オーディオ信号の周波数別ラウドネス比率は、入力オーディオ信号のジャンル、及びユーザの入力のうち少なくとも一つの基づいて設定されたパラメータであってよい。

オーディオ信号処理装置は、ユーザ入力に基づいて入力オーディオ信号に対する後処理情報を取得することができる。このとき、ユーザ入力は、入力オーディオ信号に関連した入力であってよい。また、ユーザは、オーディオ信号処理装置を使用するユーザであってよい。後処理情報は、オーディオ信号処理装置の出力特性、入力オーディオ信号のジャンル、ユーザ入力による後処理モード、イコライゼーション種類、リバーブレーション（ｒｅｖｅｒｂｅｒａｔｉｏｎ）、空間補償（ｒｏｏｍｃｏｍｐｅｎｓａｔｉｏｎ）のそれぞれを示す情報の少なくとも一つを含むことができる。オーディオ信号処理装置が後処理によって変化するバンド別ラウドネスレベルに基づいて入力オーディオ信号のラウドネスゲインを決定する方法には、図３の段階Ｓ３０３で説明した実施例が適用されてよい。

一実施例によって、オーディオ信号処理装置は、ラウドネス変化予測値に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。ラウドネス変化予測値は、後処理による入力オーディオ信号のラウドネス変化に対する予測値であってよい。オーディオ信号処理装置は、ユーザによって設定された後処理情報に基づき、ラウドネス変化予測値を取得することができる。オーディオ信号処理装置は、入力オーディオ信号の周波数別特性及び後処理によって変化するバンド別ラウドネスレベルの少なくとも一つに基づき、ラウドネス変化予測値を取得することができる。ラウドネス変化予測値は、入力オーディオ信号の周波数別ラウドネス比率の内積に基づいて計算されてよい。ラウドネス変化予測値は、認知的ラウドネス特性に基づいて取得されたパラメータであってよい。オーディオ信号処理装置は、聴覚尺度に基づくラウドネスフィルターに基づき、入力オーディオ信号のラウドネス変化予測値を取得することができる。具体的に、ラウドネスフィルターは、等ラウドネス曲線（ｅｑｕａｌ－ｌｏｕｄｎｅｓｓｃｏｎｔｏｕｒｓ）の逆フィルター、又はこれを近似化させたＫ加重（Ｋ－ｗｅｉｇｈｔｉｎｇ）フィルターの少なくとも一つであってよい。入力オーディオ信号に含まれる複数のフレームのうち特定フレームのラウドネスレベルが、相対的な閾値よりも小さいか等しい場合、オーディオ信号処理装置は、当該フレームに対応するラウドネス変化予測値を演算しなくてもよい。オーディオ信号処理装置がラウドネス変化予測値を取得する方法には、図４の周波数別ラウドネス分析部４０２及び後処理ラウドネス予測部４０３を参照して説明された実施例が適用されてよい。

本発明の一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のフレーム別ラウドネス情報に基づき、入力オーディオ信号のラウドネスゲインを決定することができる。オーディオ信号処理装置は、入力オーディオ信号のフレーム別ラウドネス情報に基づき、入力オーディオ信号のフレーム別ラウドネスゲインを取得することができる。入力オーディオ信号のラウドネスゲインは、前記入力オーディオ信号が再生される時間の間に、時間によって変化するゲインであってよい。一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のフレーム別ラウドネス情報を含むラウドネスメタデータを受信することができる。オーディオ信号処理装置は、ラウドネスメタデータをパースし、入力オーディオ信号のフレーム別ラウドネス情報を取得することができる。フレーム別ラウドネス情報は、動的ラウドネスパラメータを含むことができる。一実施例によって、フレーム別ラウドネス情報は、フレーム別ピーク値を示す情報を含むことができる。フレーム別ピーク値は、既に設定された長さのフレームに含まれたオーディオ信号の最大絶対値に基づいて取得されてよい。

一実施例によって、オーディオ信号処理装置は、入力オーディオ信号のフレーム別ピーク値に基づいて入力オーディオ信号のフレーム別ラウドネスゲインを決定することができる。オーディオ信号処理装置は、ターゲットラウドネスレベル及び入力オーディオ信号のフレーム別ピーク値に基づいて入力オーディオ信号のフレーム別ラウドネスゲインを決定することができる。例えば、オーディオ信号処理装置は、ターゲットラウドネスレベルに基づき、フレーム別ピーク値を超えないようにフレーム別ラウドネスゲインを設定することができる。また、オーディオ信号処理装置は、フレーム別ラウドネスゲインに基づき、入力オーディオ信号の当該フレームの出力ラウドネスレベルを調整することができる。オーディオ信号処理装置がフレーム別ラウドネス情報に基づいてラウドネスゲインを決定する方法には、上の図１７を参照して説明した実施例が適用されてよい。

次に、オーディオ信号処理装置は、入力オーディオ信号の出力ラウドネスレベルを、ラウドネスゲインに基づいて調整することができる（Ｓ１９０５）。一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の出力ラウドネスレベルを調整して出力オーディオ信号を生成することができる。このとき、オーディオ信号処理装置は、決定されたラウドネスゲインを使用することができる。一実施例によって、オーディオ信号処理装置は、生成された出力オーディオ信号にラウドネスリミッター（ｌｉｍｉｔｅｒ）を適用して出力することができる。

本発明の更なる実施例によって、オーディオ信号処理装置は、入力オーディオ信号の全区間のうち一部の区間に対する区間ラウドネスゲインに基づき、入力オーディオ信号の出力ラウドネスレベルを調整することができる。一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の特定区間に対応するラウドネスパラメータに基づき、当該区間に対応するラウドネスゲインを取得することができる。例えば、入力オーディオ信号の特定区間に対応するラウドネスパラメータは、当該区間に対する少なくとも一つの代表値を含むことができる。このとき、代表値は、当該区間に対応する入力オーディオ信号のラウドネスレベルの絶対値の最大値、及び短区間ラウドネスレベルの少なくとも一つを含むことができる。

一実施例によって、オーディオ信号処理装置は、ターゲットラウドネスレベル、累積ラウドネスレベル、及び入力ラウドネスレベルに基づき、入力オーディオ信号の時間区間別ラウドネスゲインを決定することができる。このとき、入力ラウドネスレベルは、特定区間を代表するラウドネスレベルであってよい。例えば、入力ラウドネスレベルは、短区間ラウドネスレベルであってよい。オーディオ信号処理装置は、ターゲットラウドネスレベル、累積ラウドネスレベル、入力ラウドネスレベル、相対的な閾値（ｒｅｌａｔｉｖｅｔｈｒｅｓｈｏｌｄ）、ノイズフロアレベル（ｎｏｉｓｅｆｌｏｏｒｌｅｖｅｌ）、ピーク値の少なくとも２つを互いに比較することができる。また、オーディオ信号処理装置は、比較結果に基づいて入力オーディオ信号の時間区間別ラウドネスゲインを決定することができる。

例えば、オーディオ信号処理装置は、ターゲットラウドネスレベルと累積ラウドネスレベルとを比較できる。オーディオ信号処理装置は、入力ラウドネスレベルと累積ラウドネスレベルとを比較できる。ターゲットラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルが累積ラウドネスレベルよりも大きい場合、オーディオ信号処理装置は、第１区間別ラウドネスゲインを当該区間の入力オーディオ信号に適用することができる。

他の例として、ターゲットラウドネスレベルが累積ラウドネスレベルよりも大きく、入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルが相対的な閾値よりも大きい場合、オーディオ信号処理装置は、第２区間別ラウドネスゲインを当該区間の入力オーディオ信号に適用することができる。

さらに他の実施例として、ターゲットラウドネスレベルが累積ラウドネスレベルよりも大きく、入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルが相対的な閾値よりも小さく、入力ラウドネスレベルがノイズフロアレベルよりも大きい場合、オーディオ信号処理装置は、第３区間別ラウドネスゲインを、当該区間の入力オーディオ信号に適用することができる。

さらに他の実施例として、ターゲットラウドネスレベルが累積ラウドネスレベルよりも大きく、入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、入力ラウドネスレベルが相対的な閾値よりも小さく、入力ラウドネスレベルがノイズフロアレベルよりも小さい場合、オーディオ信号処理装置は、第４区間別ラウドネスゲインを当該区間の入力オーディオ信号に適用することができる。このとき、第４区間別ラウドネスゲインは、当該フレームよりも前のフレームのラウドネスゲインであってよい。例えば、ターゲットラウドネスレベルが累積ラウドネスレベルよりも大きく、Ｎ番目のフレームに対応する入力ラウドネスレベルが累積ラウドネスレベルよりも小さく、Ｎ番目のフレームに対応する入力ラウドネスレベルが相対的な閾値よりも小さく、Ｎ番目のフレームに対応する入力ラウドネスレベルがノイズフロアレベルよりも小さい場合、オーディオ信号処理装置は、Ｎ－１－番目フレームに対応するラウドネスゲインを、Ｎ番目のフレームに対応するラウドネスゲインとして用いることができる。

他の実施例によって、第４区間別ラウドネスゲインは、入力オーディオ信号全体に適用される固定ゲインを示すことができる。また、第１区間別ラウドネスゲイン、第２区間別ラウドネスゲイン、及び第３区間別ラウドネスゲインは、それぞれ、第４区間別ラウドネスゲインを基準に個別の方法で補正されたゲインであってよい。また、第１区間別ラウドネスゲイン、第２区間別ラウドネスゲイン、及び第３区間別ラウドネスゲインは、個別の値を有するゲインであってよい。

一実施例によって、入力オーディオ信号のＮ番目の区間のラウドネス代表値は、入力オーディオ信号のＮ番目の区間に隣接した区間に対応する代表値であってよい。例えば、入力オーディオ信号のＮ番目の特定区間のラウドネス代表値は、Ｎ＋Ｌ番目又はＮ－Ｌ番目の区間に対応する代表値であってよい。このとき、Ｌは、代表値を取得するための時間区間よりも小さい区間に該当するインデックス値であってよい。例えば、代表値を取得するための時間区間は、３秒であってよい。また、オーディオ信号処理装置は、時間遅延された入力オーディオ信号に基づき、入力オーディオ信号の特定区間の代表値を取得することができる。このとき、オーディオ信号処理装置は、既に設定された遅延時間に基づいて入力オーディオ信号を時間遅延させ、代表値取得に用いられる少なくとも一つのラウドネス測定値を取得することができる。

一実施例によって、オーディオ信号処理装置は、入力オーディオ信号全体に適用されるラウドネス固定ゲインを取得することができる。この場合、オーディオ信号処理装置は、入力オーディオ信号の特定区間に対応するラウドネスパラメータに基づき、ラウドネス固定ゲインを補正することができる。また、オーディオ信号処理装置は、補正されたゲインに基づき、当該区間の入力オーディオ信号の出力ラウドネスレベルを調整することができる。入力オーディオ信号処理装置が入力オーディオ信号の全区間のうち一部の区間に対する区間ラウドネスゲインに基づいて入力オーディオ信号の出力ラウドネスレベルを調整する方法には、上の図１７を参照して説明した実施例が適用されてよい。

図２０は、本発明の一実施例に係るオーディオ信号処理装置２０００の構成を示すブロック図である。一実施例によって、オーディオ信号処理装置２０００は、受信部２１００、プロセッサ２２００、及び出力部２３００を含むことができる。ただし、図１０に示す構成要素の全てが必ずしもオーディオ信号処理装置の必須構成要素ではない。オーディオ信号処理装置２０００は、図２０に示していない構成要素をさらに含んでもよい。例えば、一実施例に係るオーディオ信号処理装置は、保存部（図示せず）をさらに含むことができる。なお、図２０に示すオーディオ信号処理装置２０００の構成要素の少なくとも一部が省略されてもよい。例えば、一実施例に係るオーディオ信号処理装置は、受信部２１００及び出力部２３００の少なくとも一つを含まなくてもよい。

受信部２１００は、オーディオ信号処理装置２０００に入力される入力コンテンツを受信することができる。受信部２１００は、プロセッサ２２００による出力ラウドネスレベルが調整される入力コンテンツを受信することができる。前述したように、入力コンテンツは、オーディオ信号を含むことができる。このとき、オーディオ信号は、アンビソニック信号、オブジェクト信号又はチャネル信号の少なくとも一つを含むことができる。また、オーディオ信号は、１個のオブジェクト信号又はモノ信号であってよい。オーディオ信号は、マルチオブジェクト又はマルチチャネル信号であってもよい。一実施例によって、受信部２１００は、有線で送信される入力コンテンツを受信する入力端子を含むことができる。また、受信部２１００は、無線で送信される入力コンテンツを受信する無線受信モジュールを含むことができる。

一実施例によって、オーディオ信号処理装置２０００は、別のデコーダを含むことができる。この場合、受信部２１００は、入力コンテンツの符号化されたビットストリームを受信することができる。また、符号化されたビットストリームは、デコーダで入力コンテンツとして復号化されてよい。さらに、受信部２１００は、入力コンテンツに関連した付加情報を受信することができる。

一実施例によって、受信部２１００は、ネットワークを介して外部の装置とデータを送受信するための送受信手段を備えることができる。このとき、データは、入力コンテンツのビットストリーム又は付加情報の少なくとも一つを含むことができる。受信部２１００は、有線で送信されるデータを受信するための有線送受信端子を含むことができる。また、受信部２１００は無線で送信されるデータを受信するための無線送受信モジュールを含むことができる。この場合、受信部２１００は、ブルートゥース（登録商標）（ｂｌｕｅｔｏｏｔｈ）又はワイファイ（Ｗｉ－Ｆｉ）通信方法を用いて無線で送信されるデータを受信することができる。また、受信部２１００は、ＬＴＥ（ｌｏｎｇｔｅｒｍｅｖｏｌｕｔｉｏｎ）、ＬＴＥ－ａｄｖａｎｃｅｄのような移動通信規格に従って送信されるデータを受信することができ、本開示がこれに限定されるものではない。受信部２１００は、様々な有無線通信規格に従って送信される様々な形態のデータを受信することができる。

プロセッサ２２００は、オーディオ信号処理装置２０００の動作全般を制御することができる。プロセッサ２２００は、オーディオ信号処理装置２０００の各構成要素を制御することができる。プロセッサ２２００は、各種データと信号の演算及び処理を行うことができる。プロセッサ２２００は、半導体チップ又は電子回路形態のハードウェアによって具現されるか、ハードウェアを制御するソフトウェアによって具現されてよい。プロセッサ２２００は、ハードウェアと前記ソフトウェアとが結合した形態で具現されてもよい。例えば、プロセッサ２２００は、少なくとも一つのプログラムを実行することによって、受信部２１００、及び出力部２３００の動作を制御することができる。また、プロセッサ２２００は少なくとも一つのプログラムを実行し、上の図１～図１９で説明された動作を行うことができる。

一実施例によって、プロセッサ２２００は、入力コンテンツの出力ラウドネスレベルを調整することができる。例えば、プロセッサ２２００は、ラウドネスゲインに基づいて入力コンテンツの出力ラウドネスレベルを調整することができる。ラウドネス情報は、入力コンテンツから分析された入力コンテンツのラウドネス特性であってよい。このとき、ラウドネスゲインはラウドネス情報に基づいて取得されてよい。また、プロセッサ２２００は、入力コンテンツから出力ラウドネスレベルの調整された出力コンテンツを出力することができる。このとき、プロセッサ２２００は、後述する出力部２３００から出力コンテンツを出力することができる。

出力部２３００は出力コンテンツを出力することができる。出力部２３００は、プロセッサ２２００によって入力コンテンツから出力ラウドネスレベルが調整された出力コンテンツを、出力することができる。ここで、出力コンテンツは、出力オーディオ信号を含むことができる。この場合、出力オーディオ信号は、アンビソニック信号、オブジェクト信号又はチャネル信号の少なくとも一つを含むことができる。出力オーディオ信号は、マルチオブジェクト又はマルチチャネル信号であってもよい。また、出力オーディオ信号は、聴取者の両耳にそれぞれ対応する２チャネル出力オーディオ信号を含むことができる。出力オーディオ信号は、バイノーラル２チャネル出力オーディオ信号を含むことができる。出力部２３００は、プロセッサ２２００によって出力ラウドネスレベルが調整されたオーディオヘッドホン信号を、出力することができる。

一実施例によって、出力部２３００は、出力コンテンツを出力する出力手段を備えることができる。例えば、出力部２３００は、出力オーディオ信号を外部に出力する出力端子を含むことができる。このとき、オーディオ信号処理装置２０００は、出力端子に連結された外部装置に、出力オーディオ信号を出力することができる。出力部２３００は、出力オーディオ信号を外部に出力する無線オーディオ送信モジュールを含むことができる。この場合、出力部２３００は、ブルートゥース（登録商標）又はワイファイのような無線通信方法を用いて、外部装置に出力オーディオ信号を出力することができる。

また、出力部２３００はスピーカーを含むことができる。この場合、オーディオ信号処理装置２０００は、スピーカーから出力オーディオ信号を出力することができる。また、出力部２３００は、デジタルオーディオ信号をアナログオーディオ信号に変換するコンバーター（例えば、ｄｉｇｉｔａｌ－ｔｏ－ａｎａｌｏｇｃｏｎｖｅｒｔｅｒ，ＤＡＣ）をさらに含むことができる。さらに、出力部２３００は、出力コンテンツに含まれるビデオ信号を出力するディスプレイ手段を備えることができる。

前述したように、オーディオ信号処理装置２０００は、保存部（図示せず）をさらに含むことができる。保存部は、プロセッサ２２００の処理及び制御のためのデータ又はプログラムの少なくとも一つを保存することができる。また、保存部はラウドネス情報を保存することができる。保存部は、受信されたラウドネスメタデータから抽出されたラウドネス情報を保存することができる。保存部は、受信されたターゲットラウドネスレベルを保存することができる。又は、保存部は、プロセッサ２２００で取得されたラウドネス測定値を保存することができる。また、保存部は、プロセッサ２２００で演算された結果を保存することができる。例えば、保存部は、ラウドネス情報に基づいて決定されたラウドネスゲインを保存することができる。また、保存部は、オーディオ信号処理装置２０００に入力されるか、オーディオ信号処理装置２０００から出力されるデータを保存することができる。

保存部は、少なくとも一つのメモリを備えることができる。このとき、メモリは、フラッシュメモリタイプ（ｆｌａｓｈｍｅｍｏｒｙｔｙｐｅ）、ハードディスクタイプ（ｈａｒｄｄｉｓｋｔｙｐｅ）、マルチメディアカードマイクロタイプ（ｍｕｌｔｉｍｅｄｉａｃａｒｄｍｉｃｒｏｔｙｐｅ）、カードタイプのメモリ（例えば、ＳＤ又はＸＤメモリなど）、ＲＡＭ（ａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、ＰＲＯＭ（ＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、磁気メモリ、磁気ディスク、光ディスクのうち少なくとも一つのタイプの記憶媒体を含むことができる。

図２１は、本発明の一実施例に係る入力オーディオ信号の時間区間別ピーク値を示す図である。図２１の実施例において、時間区間別ピーク値は、入力オーディオ信号から測定されたラウドネス測定値に基づいて取得された値であってよい。図２１において、実線で表示された値は、入力オーディオ信号の時間別ラウドネス測定値を示す。また、第１破線（－＊－）で表示された値は、入力オーディオ信号の時間別ラウドネス測定値の時間区間別代表値を示す。オーディオ信号処理装置は、時間区間別代表値に基づいて時間区間別ピーク値を取得することができる。このとき、該当代表値は、ラウドネス測定機の入力バッファに入力された値を基準に計算されるため、実際入力オーディオ信号を基準にすれば誤差が発生し得る。

図２１において、第２破線（－△－）で表示された値は、１５ｍｓ程度の時間遅延によって取得した時間区間別代表値であってよい。オーディオ信号処理装置は、入力オーディオ信号に時間遅延を適用して時間区間別代表値を取得することができる。これにより、オーディオ信号処理装置は、取得されたピーク値が入力オーディオ信号のラウドネス変化に、より正しく対応し得るように補正することができる。このとき、時間遅延に用いられる遅延デューレーション（ｄｕｒａｔｉｏｎ）は、入力オーディオ信号の測定フレームの長さを基準に設定されてよい。図２１で説明したピーク値の時間遅延補正方法は、図１５で説明した他の動的ラウドネスパラメータにも適用可能である。例えば、オーディオ信号処理装置は、時間遅延を用いて短区間ラウドネスレベルを取得することができる。

図２２は、本発明の一実施例に係るオーディオ信号処理装置がスムージングを用いて入力オーディオ信号の出力ラウドネスレベルを調整する方法を説明する図である。本発明の一実施例によって、オーディオ信号処理装置は、スムージング用いてラウドネスゲインがなだらかに変わるように入力オーディオ信号の出力ラウドネスレベルを調整することができる。この場合、スムージングは、入力オーディオ信号のラウドネス測定値を基準にして実行（ＣａｕｓａｌＰｒｏｃｅｓｓｉｎｇ）されるため、オーディオ信号処理装置は、実際ラウドネス変化に対して当該フレームで必要なパラメータを正しく提供し難いことがある。

そのため、オーディオ信号処理装置は、時間遅延によって取得したラウドネスパラメータを用いて、入力オーディオ信号のラウドネスゲインに対するスムージング動作を行うことができる。このとき、時間遅延によって取得したラウドネスパラメータは、図２１で前述した方法によって取得されたパラメータであってよい。

図２２において、実線で表示された値は、入力オーディオ信号のフレーム別ラウドネスゲインを示すことができる。このとき、実線で表示された値は、スムージングが適用されていないラウドネスゲインを示すことができる。また、第３破線（－－）及び第４破線（－・－）のそれぞれで表示された値は、フレーム別ラウドネスゲインからスムージングが適用されたラウドネスゲインであってよい。このとき、第３破線（－－）で表示されたフレーム別ラウドネスゲインのそれぞれは、時間遅延が適用された測定値に基づいて取得された第１フレーム別ラウドネスゲイン（ｓｍｏｏｔｈｉｎｇｆｒｏｍｓｈｉｆｔｅｄｉｎｐｕｔ）を示すことができる。一方、第４破線（－・－）で表示されたフレーム別ラウドネスゲインのそれぞれは、時間遅延が適用されていない測定値に基づいて取得された第２フレーム別ラウドネスゲイン（ｓｍｏｏｔｈｉｎｇｆｒｏｍｏｒｇ．ｉｎｐｕｔ）を示すことができる。

図２２を参照すると、第１フレーム別ラウドネスゲインに比べて第２フレーム別ラウドネスゲインは、入力オーディオ信号のラウドネスレベルとより類似に変化し得る。図２２の横軸であるフレームインデックス１１０～１３０の区間を参照すると、入力オーディオ信号のスムージングが適用されていないフレーム別ラウドネスゲインが急に減少する。当該区間において、第１フレーム別ラウドネスゲインは、第２フレーム別ラウドネスゲインに比べて漸次減少する。第２フレーム別ラウドネスゲインは、第１フレーム別ラウドネスゲインに比べて急に減少する。また、第１フレーム別ラウドネスゲインは、第２フレーム別ラウドネスゲインに比べて一定フレーム先立って減少し始まる。これにより、オーディオ信号処理装置は、時間遅延が適用された測定値に基づいて取得された第１フレーム別ラウドネスゲインを用いて、聴取者にとって急なラウドネス変化が感じられることを防止することができる。

本発明の一実施例によって、オーディオ信号処理装置は、入力オーディオ信号の特性をターゲットラウドネスレベルに合わせて処理するために、入力オーディオ信号に対して区間別に決定されたラウドネスゲインを適用することができる。この場合、特定区間では過度なラウドネスゲイン値が適用されることがある。このため、０ｄＢＦＳよりも大きくなるクリッピングが発生するか、事前に定義された数値（Ｔｈｒｅｓｈｏｌｄ）値よりも大きくなる結果が発生することがある。このため、オーディオ信号処理装置は、出力オーディオ信号にリミッターを適用することができる。これにより、オーディオ信号処理装置は、入力オーディオ信号から出力ラウドネスレベルの調整された出力オーディオ信号のラウドネスレベルが、既に設定されたラウドネスレベルよりも大きくなる区間に対してリミッターを適用することができる。

この場合、リミッターで出力オーディオ信号が処理される方式は、リミッターに関連したリミッターパラメータによって実時間で又は時間順序によって（ＣａｕｓａｌＰｒｏｃｅｓｓｉｎｇ）処理されてよい。オーディオ信号処理装置がリミッターを使用する場合、オーディオ信号処理装置は、意図しない音色歪みを発生させるこがある。前述したように、オーディオ信号処理装置は、区間別に決定されたラウドネスゲインを用いて、入力オーディオ信号の出力ラウドネスレベルを調整することができる。このとき、区間別に決定されたラウドネスゲインは、区間別ピーク値を考慮したゲインであってよい。オーディオ信号処理装置は、区間別ピーク値に基づき、当該区間で発生するクリッピング又はターゲットラウドネスレベルを超えるレベルを有する区間の発生を予測することができる。また、オーディオ信号処理装置は、前記予測に基づき、入力オーディオ信号の区間別ラウドネスゲインを決定することができる。すなわち、オーディオ信号処理装置は、予測に基づき、逆にラウドネスゲインを補正することができる。これにより、オーディオ信号処理装置は、リミッターによって発生する出力オーディオ信号の音色歪みを防止することができる。

一部の実施例は、コンピュータによって実行されるプログラムモジュールのようなコンピュータによって実行可能な命令語を含む記録媒体の形態に具現されてもよい。コンピュータ可読媒体は、コンピュータによってアクセス可能な任意の可用媒体であってよく、揮発性及び非揮発性媒体、分離型及び非分離型媒体のいずれをも含むことができる。また、コンピュータ可読媒体はコンピュータ記憶媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令語、データ構造、プログラムモジュール又はその他データのような情報の保存のための任意の方法又は技術によって具現された揮発性及び非揮発性、分離型及び非分離型媒体のいずれをも含むことができる。

以上では、本開示を具体的な実施例を用いて説明したが、本開示の属する技術の分野における通常の知識を有する当業者であれば、本開示の趣旨及び範囲から逸脱することなく修正、変更が可能である。すなわち、本開示は、オーディオ信号に対するラウドネスレベル調整の実施例について説明したが、本開示は、オーディオ信号の他、ビデオ信号を含む様々なマルチメディア信号にも同様の適用及び拡張が可能である。したがって、本開示の詳細な説明及び実施例から、本開示の属する技術の分野における当業者が容易に類推できるものは、本開示の権利範囲に属するものとして解釈される。

８０１測定ウィンドウ
２０００オーディオ信号処理装置
２１００受信部
２２００プロセッサ
２３００出力部

Claims

オーディオ信号処理装置であって、
入力オーディオ信号を受信する受信部；
前記入力オーディオ信号に対応するラウドネス（ｌｏｕｄｎｅｓｓ）メタデータ（ｍｅｔａｄａｔａ）を生成するプロセッサ；及び
前記プロセッサで生成されたラウドネスメタデータを送信する出力部を含み、
前記プロセッサは、
前記入力オーディオ信号のラウドネスを測定して前記入力オーディオ信号のラウドネス情報を取得し、
前記ラウドネス情報を変換して前記ラウドネスメタデータを生成し、
前記出力部から、前記生成されたラウドネスメタデータを、前記入力オーディオ信号を出力する出力装置に送信し、
前記ラウドネス情報は、前記入力オーディオ信号の品質保障ヒストグラム指標（ＱｕａｌｉｔｙＳｅｃｕｒｅＨｉｓｔｏｇｒａｍＩｎｄｅｘ，ＱＳＨＩ）を示す情報を含み、前記ＱＳＨＩは、認知的音質損傷が発生しない閾ラウドネスレベルを示す、
オーディオ信号処理装置。
前記プロセッサは、
前記入力オーディオ信号のラウドネスヒストグラムに基づいて前記ＱＳＨＩを取得する、
請求項１に記載のオーディオ信号処理装置。
前記プロセッサは、
前記入力オーディオ信号の少なくとも一つの短区間ラウドネスレベルの分布に基づいて前記ラウドネスヒストグラムを取得し、
前記ラウドネスヒストグラムに基づいて前記ＱＳＨＩを取得し、
前記短区間ラウドネスレベルは、前記入力オーディオ信号の全区間よりも短い区間で測定された、
請求項２に記載のオーディオ信号処理装置。
前記ラウドネスヒストグラムは、前記入力オーディオ信号の区間別ピーク値又はＲＭＳ（ｒｏｏｔ－ｍｅａｎ－ｓｑｕａｒｅ）に関するサイズヒストグラムである、
請求項２に記載のオーディオ信号処理装置。
前記プロセッサは、
前記入力オーディオ信号のラウドネスヒストグラムに基づき、前記入力オーディオ信号がターゲットラウドネスレベルにしたがって出力される場合のラウドネスパラメータを予測し、
前記予測されたラウドネスパラメータに基づいて前記入力オーディオ信号の予測ラウドネスヒストグラムを取得し、
前記予測されたラウドネス予測ヒストグラムに基づいて前記ＱＳＨＩを取得する、
請求項２に記載のオーディオ信号処理装置。
前記ラウドネス情報は、前記入力オーディオ信号の累積ラウドネスレベルを含み、
前記ＱＳＨＩは、前記入力オーディオ信号の累積ラウドネスレベルよりも大きく、前記累積ラウドネスレベルは、オーディオ信号処理装置において設定されたセットアップ時点から取得されたラウドネス測定値に基づいて算出されたラウドネスレベルである、
請求項１に記載のオーディオ信号処理装置。
前記ＱＳＨＩは、前記出力装置において前記入力オーディオ信号に対する後処理（ｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）の有無によって補正されるパラメータである、
請求項１に記載のオーディオ信号処理装置。
前記プロセッサは、
前記出力装置から出力される前記入力オーディオ信号の全区間の短区間ラウドネスレベルが既に設定されたレベル以下となるようにＱＳＨＩを設定する、
請求項１に記載のオーディオ信号処理装置。
オーディオ信号処理装置であって、
入力オーディオ信号の出力ラウドネス（ｌｏｕｄｎｅｓｓ）レベルを調整するプロセッサを含み、
前記プロセッサは、
前記入力オーディオ信号に対応するラウドネスメタデータ（ｍｅｔａｄａｔａ）を受信し、
前記ラウドネスメタデータをパース（ｐａｒｓｅ）して前記入力オーディオ信号のラウドネス情報を取得し、
前記ラウドネス情報及びターゲットラウドネスレベルに基づいて前記入力オーディオ信号のラウドネスゲインを決定し、
前記入力オーディオ信号の出力ラウドネスレベルを前記ラウドネスゲインに基づいて調整し、
前記ラウドネス情報は、前記入力オーディオ信号の品質保障ヒストグラム指標（ＱｕａｌｉｔｙＳｅｃｕｒｅＨｉｓｔｏｇｒａｍＩｎｄｅｘ，ＱＳＨＩ）を示す情報を含み、前記ＱＳＨＩは、認知的音質損傷が発生しない閾ラウドネスレベルを示す、
オーディオ信号処理装置。
前記プロセッサは、
前記入力オーディオ信号のターゲットラウドネスレベルと前記ＱＳＨＩとを比較し、前記比較結果に基づいて前記ラウドネスゲインを決定する、
請求項９に記載のオーディオ信号処理装置。
前記プロセッサは、
前記入力オーディオ信号のターゲットラウドネスレベルと前記ＱＳＨＩのうちより小さい値に基づいて前記ラウドネスゲインを決定する、
請求項１０に記載のオーディオ信号処理装置。
前記プロセッサは、
前記入力オーディオ信号の累積ラウドネスレベルを受信し、
前記入力オーディオ信号の累積ラウドネスレベル、前記ＱＳＨＩ及び前記ターゲットラウドネスレベルに基づいて前記ラウドネスゲインを決定し、
前記累積ラウドネスレベルは、前記入力オーディオ信号のラウドネスを測定する装置において設定されたセットアップ時点から取得されたラウドネス測定値に基づいて算出されたラウドネスレベルである、
請求項１０に記載のオーディオ信号処理装置。
前記ＱＳＨＩは、前記入力オーディオ信号のラウドネスヒストグラムに基づいて算出されたラウドネスパラメータである、
請求項１０に記載のオーディオ信号処理装置。
前記ラウドネスヒストグラムは、前記入力オーディオ信号の時間別短区間ラウドネスレベルのサイズヒストグラムであり、
前記短区間ラウドネスレベルは、前記入力オーディオ信号の全区間よりも短い区間で測定された、
請求項１３に記載のオーディオ信号処理装置。
前記ラウドネスヒストグラムは、前記入力オーディオ信号の区間別ピーク値又はＲＭＳ（ｒｏｏｔ－ｍｅａｎ－ｓｑｕａｒｅ）に関するサイズヒストグラムである、
請求項１３に記載のオーディオ信号処理装置。
前記ＱＳＨＩは、前記入力オーディオ信号のラウドネスヒストグラムから予測された予測ラウドネスヒストグラムに基づいて算出されたパラメータであり、前記予測ラウドネスヒストグラムは、前記入力オーディオ信号が前記ターゲットラウドネスレベルにしたがって出力される場合、予測されるラウドネスパラメータに基づいて生成されたヒストグラムである、
請求項１０に記載のオーディオ信号処理装置。
前記ＱＳＨＩは、前記入力オーディオ信号の累積ラウドネスレベルよりも大きく、前記累積ラウドネスレベルは、前記入力オーディオ信号のラウドネスを測定する装置において設定されたセットアップ時点から取得されたラウドネス測定値に基づいて算出されたラウドネスレベルである、
請求項１０に記載のオーディオ信号処理装置。
前記プロセッサは、
前記入力オーディオ信号の出力ラウドネスレベルを前記ラウドネスゲインによって調整して出力オーディオ信号を生成し、
前記出力オーディオ信号に、出力オーディオ信号のラウドネスレベルを制限するラウドネスリミッター（ｌｉｍｉｔｅｒ）を適用して出力する、
請求項１０に記載のオーディオ信号処理装置。
前記ＱＳＨＩは、前記オーディオ信号処理装置においてリミッターが駆動される回数に基づいて決定されたラウドネスパラメータである、
請求項１８に記載のオーディオ信号処理装置。
前記プロセッサは、
前記入力オーディオ信号に対する後処理（ｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）を行い、
前記入力オーディオ信号に対する後処理（ｐｏｓｔｐｒｏｃｅｓｓｉｎｇ）の特性を示す後処理情報を受信し、
前記後処理情報に基づいて前記取得されたＱＳＨＩを補正し、
前記補正されたＱＳＨＩに基づいて前記ラウドネスゲインを決定する、
請求項１０に記載のオーディオ信号処理装置。
前記プロセッサは、
前記後処理情報及び既に保存された関数に基づいて前記ＱＳＨＩを補正する、
請求項２０に記載のオーディオ信号処理装置。
前記プロセッサは、
前記後処理情報及び既に保存されたルックアップテーブル（ｌｏｏｋ－ｕｐｔａｂｌｅ）に基づいて前記ＱＳＨＩを補正し、
前記既に保存されたルックアップテーブルは、後処理の特性によるＱＳＨＩ補正に関する情報を含む、
請求項２０に記載のオーディオ信号処理装置。
前記ＱＳＨＩ補正に関する情報は、後処理の特性によるＱＳＨＩ補正値を示す情報を含み、
前記プロセッサは、
前記既に保存されたルックアップテーブルに基づき、前記入力オーディオ信号に対する後処理に対応するＱＳＨＩ補正値を取得し、
前記取得されたＱＳＨＩに前記ＱＳＨＩ補正値を加算して前記ＱＳＨＩを補正する、
請求項２２に記載のオーディオ信号処理装置。
前記ラウドネスゲインは、前記入力オーディオ信号の全区間において固定された値を有する固定ゲインである、
請求項１０に記載のオーディオ信号処理装置。
前記ラウドネスゲインは、前記入力オーディオ信号が再生される時間の間に、時間によって変化するゲインである、
請求項１０に記載のオーディオ信号処理装置。
前記プロセッサは、
前記入力オーディオ信号の出力ラウドネスレベルを前記ラウドネスゲインによって調整して出力オーディオ信号を生成し、
前記ＱＳＨＩは、前記出力オーディオ信号の全区間の短区間ラウドネスレベルが、既に設定されたレベル以下となるように設定されたパラメータである、
請求項１０に記載のオーディオ信号処理装置。