JP7309734B2 - 音量制御方法および装置 - Google Patents

音量制御方法および装置 Download PDF

Info

Publication number
JP7309734B2
JP7309734B2 JP2020543202A JP2020543202A JP7309734B2 JP 7309734 B2 JP7309734 B2 JP 7309734B2 JP 2020543202 A JP2020543202 A JP 2020543202A JP 2020543202 A JP2020543202 A JP 2020543202A JP 7309734 B2 JP7309734 B2 JP 7309734B2
Authority
JP
Japan
Prior art keywords
format
audio data
power
loudness
volume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020543202A
Other languages
English (en)
Other versions
JP2021514136A (ja
Inventor
グレゴリー ノークロス,スコット
グラント,マイケル
スチュアート カウドリー、ジェイムズ
ナンダ,サチン
ヴィプール シャー,ニサルグ
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2021514136A publication Critical patent/JP2021514136A/ja
Application granted granted Critical
Publication of JP7309734B2 publication Critical patent/JP7309734B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/005Combinations of two or more types of control, e.g. gain control and tone control of digital or coded signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

本開示は、オーディオ信号の処理に関する。特に、本開示は、オーディオ信号を処理して、音量を管理および制御することに関する。
番組の音量管理は、今や放送産業の基本的な部分である。したがって、このような番組の音量の測定または修正はありふれたことである。これは、ITU-R(Radiocommunications Sector of the International Telecommunication Union)により発布された主務の推奨、特に全世界で実施されている種々の規制の基礎であるRecommendation ITU-RBS.1770に部分的に起因する。音量測定は、一般に、平均的な会話またはダイアログの音量に、または番組の平均的なフルミックス(全てのチャネルがBS.1770に記載されたように制御される相対レベルを用いる)に、基づく。
種々のオーディオ処理方法が本願明細書で開示される。1つのこのような方法は、第1フォーマットのオーディオデータを受信するステップと、第1フォーマットのオーディオデータを処理して第2フォーマットのオーディオデータを生成するステップと、を含んでよい。第2フォーマットは、第1フォーマットの削減されたまたは簡略化されたバージョンであってよく、またはそれを含んでよい。方法は、第2フォーマットのオーディオデータに対して音量修正処理を実行して、第2フォーマットの音量修正済みオーディオデータを生成するステップを含んでよい。方法は、第2フォーマットのオーディオデータの第1パワーを決定するステップと、第2フォーマットの音量修正済みオーディオデータの第2パワーを決定するステップと、を含んでよい。方法は、第2フォーマットのオーディオデータのための第2フォーマット音量修正係数を決定するステップを含んでよい。第2フォーマット音量修正係数は、第1パワーの第2パワーに対するパワー比に少なくとも部分的に基づいてよい。
幾つかの例では、方法は、第1フォーマットのオーディオデータと第2フォーマットのオーディオデータとの間のパワー比を決定するステップを含んでよい。方法は、第1フォーマットのオーディオデータのための第1フォーマット音量修正係数を決定するステップであって、第1フォーマット音量修正係数は、パワー比とパワー関係とに少なくとも部分的に基づいてよい、ステップを含んでよい。方法は、第1フォーマット音量修正係数および第2フォーマット音量修正係数を出力するステップを含んでよい。
幾つかの例によると、第1フォーマットは第1チャネルに基づくフォーマットであってよい。幾つかのこのような例では、第2フォーマットは第1チャネルに基づくフォーマットのダウンミックスであってよい。幾つかの例では、パワー関係は、第1チャネルに基づくフォーマットのオーディオデータのパワーとダウンミックスのオーディオデータのパワーとの間の差に対応してよい。
幾つかの実装では、第1フォーマットは、ハイトスピーカのためのオーディオデータを含んでよい。幾つかのこのような実装によると、第2フォーマットは、ハイトスピーカのためのオーディオデータを含まなくてよい。幾つかの例では、パワー関係は、ハイトスピーカのためのオーディオデータのパワーに対応してよい。
幾つかの実装によると、音量修正処理は、第1音量測定処理、音量調整処理、および第2音量測定処理を含んでよい。第1音量測定処理は、1つ以上の線形処理動作と、その後のミキシング動作と、その後の1つ以上の非線形処理動作と、を含んでよい。幾つかの例では、線形処理動作は、K重み付けフィルタを適用することと、空間利得を適用することと、を含んでよい。幾つかの例によると、ミキシング動作は、第3フォーマットの第3オーディオデータを生成するダウンミキシング動作を含んでよい。第3フォーマットは、例えば、第2フォーマットの削減されたまたは簡略化されたバージョンであってよい。幾つかの実装によると、第2フォーマットのオーディオデータは、ダイアログオーディオデータ並びに音楽および効果音(M&E)オーディオデータを含んでよい。幾つかの実装では、ダイアログオーディオデータは、複数の言語のためのダイアログオーディオデータを含んでよい。線形処理動作は、例えば、複数の言語の各々のためのダイアログオーディオデータに対して別個に実行されてよい。幾つかの例によると、M&Eオーディオデータに対する線形処理動作は、ダイアログオーディオデータに対する線形処理動作と別個に実行されてよい。幾つかの実装によると、第1フォーマットのオーディオデータは、第1ダイアログおよびM&Eオーディオデータを含んでよい。
幾つかの例では、第1フォーマットはオーディオオブジェクトフォーマットであってよい。第2フォーマットは、例えば、オーディオオブジェクトフォーマットの簡略化されたバージョンであってよい。
種々の代替のオーディオ処理方法が本願明細書で開示される。1つのこのような方法は、第1フォーマットのオーディオデータのための第1フォーマット音量修正係数と、第2フォーマットのオーディオデータのための第2フォーマット音量修正係数と、を受信するステップを含んでよい。第2フォーマット音量修正係数は、本願明細書で、受信された第2フォーマット音量修正係数を調整または変更された第2フォーマット音量修正係数から区別するために、「受信された第2フォーマット音量修正係数」と呼ばれることがある。
方法は、第1フォーマットのオーディオデータを受信するステップと、第1フォーマットのオーディオデータと第2フォーマットのオーディオデータとの間の変更されたパワー関係の指示を受信するステップと、を含んでよい。幾つかの例では、方法は、受信された第2フォーマット音量修正係数を、第1フォーマット音量修正係数および変更されたパワー関係に少なくとも部分的に基づき調整するステップを含んでよい。
幾つかの例によると、第2フォーマットのオーディオデータは、第1フォーマットのオーディオデータのダウンミックスまたはレンダーであってよい。第2フォーマットは、例えばDolby5.1フォーマットであってよく、第1フォーマットはDolby5.1.2フォーマットであってよい。幾つかの代替の実装では、第2フォーマットは、Dolby5.1フォーマットであってよく、第1フォーマットはDolby7.1.4フォーマットであってよい。
幾つかの実装では、変更されたパワー関係は、元のパワー関係の変更であってよい。幾つかの実装によると、元のパワー関係は、第1フォーマットのチャネルに対応するオーディオデータのレベルが、第2の第1フォーマットのオーディオデータを生成したダウンミキシング処理の間にどのように変更されたかを示してよい。
本願明細書に記載の方法のうちの一部または全部は、1つ以上の非一時的媒体に記憶された命令(例えば、ソフトウェア)に従い1つ以上の装置により実行されてよい。このような非一時的媒体は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、等を含むがこれらに限定されない、本願明細書に記載のようなメモリ装置を含んでよい。したがって、本開示に記載された主題の種々の新規な態様は、ソフトウェアを記憶された1つ以上の非一時的媒体に実装されてよい。ソフトウェアは、例えば、オーディオデータを処理するよう少なくとも1つの装置を制御するための命令を含んでよい。ソフトウェアは、例えば、本願明細書に開示されるような、制御システムの1つ以上のコンポーネントにより実行可能であってよい。
本開示の少なくとも幾つかの態様は、機器を介して実装されてよい。例えば、1つ以上の装置は、本願明細書に開示した方法を少なくとも部分的に実行するよう構成されてよい。幾つかの実装では、機器は、インタフェースシステムおよび制御システムを含んでよい。インタフェースシステムは、1つ以上のネットワークインタフェース、制御システムとメモリシステムとの間の1つ以上のインタフェース、制御システムと別の装置との間の1つ以上のインタフェース、および/または1つ以上の外部装置インタフェースを含んでよい。制御システムは、汎用の単一または複数チッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のプログラマブル論理素子、個別ゲートまたはトランジスタロジック、または個別ハードウェアコンポーネント、のうちの少なくとも1つを含んでよい。
本願明細書に記載の主題の1つ以上の実装の詳細は、添付の図面および以下の説明において説明される。他の特徴、態様、および利点は、説明、図面、および特許請求の範囲から明らかになる。以下の図面の相対的寸法は縮尺通りに描かれないことがある。
本願明細書に開示された方法のうちの少なくとも一部を実行するよう構成されてよい機器のコンポーネントの例を示すブロック図である。
一例による、方法のブロックを概略的に示すフロー図である。
図2の方法の一例を示すブロック図である。
Recommendation ITU-RBS.1770のアネックス1(“Annex 1”)において概略の示された音量測定処理を表すブロック図である。
Annex1に開示されたシェルビングフィルタの周波数応答を示す。
Annex1に開示された高域通過フィルタの周波数応答を示す。
Recommendation ITU-R BS.1770に概略の示された音量測定処理の変更されたバージョンを表すブロック図である。
Recommendation ITU-R BS.1770に概略の示された音量測定処理の別の変更されたバージョンを表すブロック図である。
図6の方法のより一般化されたバージョンを表すブロック図である。
図7に概略の示された方法の一例のブロックの概略を示すフロー図である。
従来のダウンミキシングおよび音量測定の処理を表すブロック図である。
新規なダウンミキシングおよび音量測定の処理の例を表すブロック図である。
図2および3で概略を説明した処理の代替例を示すブロック図である。
一例によるダウンサンプルされたオーディオ信号の近似重みを示す。
種々の図面において類似する番号および指示は、同様の要素示す。
以下の説明は、本開示の幾つかの新規な態様、および該新規な態様の実装され得るコンテキストの例を説明することを目的として、特定の実装を対象とする。例えば、本願明細書に開示される多くの例は、特にDolby5.1フォーマットを参照するが、これらの例は限定と考えられるべきではない。むしろ、これらの例は、任意の適切なフォーマットにより実装され得る単なるインスタンスである。しかしながら、本願明細書における教示は、種々の異なる方法で適用できる。しかしながら、記載される実施形態は、種々のハードウェア、ソフトウェア、ファームウェア、等に実装されてよい。例えば、本願の態様は、少なくとも部分的に、機器、1つより多くの装置を含むシステム、方法、コンピュータプログラムプロダクト、等に具現化されてよい。したがって、本願の態様は、ハードウェアの実施形態、ソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード、等を含む)、および/またはソフトウェアとハードウェアの態様の両者を組み合わせる実施形態の形式を取ってよい。このような実施形態は、本願明細書では、「回路」、「モジュール」、「エンジン」、「プロセス」、または「ブロック」と呼ばれてよい。本願の幾つかの態様は、コンピュータ可読プログラムコードを実装された1つ以上の非一時的媒体に具現化されたコンピュータプログラムプロダクトの形式を取ってよい。このような非一時的媒体は、例えば、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブル読み出し専用メモリ(EPROMまたはフラッシュメモリ)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM)、光記憶装置、磁気記憶装置、またはこれらの任意の適切な組み合わせを含んでよい。したがって、本開示の教示は、本願明細書に図示されたおよび/または記載された実装に限定されず、むしろ広範な適用可能性を有する。
上述のように、音量管理は、今や、放送産業の基本的部分である。放送は、今日、完全な番組ミックスが測定される。従来のチャネルに基づく例では、番組のオーディオがDolby Surround5.1フォーマット(これは、「Dolby5.1」または単に「5.1」とも呼ばれてよい)である場合、消費者/ユーザに配信され再生される完全な5.1ミックスは、音量管理のために測定されてよい。例えば、番組のオーディオは5.1チャネルまたは2チャネルステレオミックスを含んでよい。ここで、各チャネルは全ての要素、音楽および効果音(Music and Effects:M&E)およびダイアログを含む。完全なオーディオ番組またはプレゼンテーションが存在する。これが、視聴者に配信され再生されるものになる。視聴者が受信するものと一緒に正確なミックスを配信することは、音量のような番組特性に対するより多くの制御を可能にする。1つは、番組を配信する前に、番組に対してこれらの処理を実行することにより、配信される番組の音量を測定し、修正し、正規化することができる。
複数の言語および/またはオーディオ説明のサポートが多くの放送地域で要求される。放送局は、全ての番組が要求される音量規制を満たすことを保証するよう要求され得るので、追加番組を伝達するのに必要な追加帯域幅に加えて、多数の音量測定が必要になり得る。幾つかの放送局は、複数のチャネルフォーマットで(例えば、国の最も広く話されている言語の)主要サービスを提供してよいが、追加言語またはビデオ記述サービスはステレオ番組として伝達されるだけであってよい。
幾つかの例では、番組のためのオーディオは、「オーディオオブジェクト」を含んでよい。オーディオオブジェクトは、オーディオデータ(これはモノオーディオデータであってよい)および関連メタデータを含んでよい。メタデータは、例えば、3次元空間内のオーディオオブジェクトの位置、サイズ、および/または軌道、等を含んでよい。オーディオオブジェクトは、オーディオが最終的に再現される再生システムのタイプに関して不可知であってよい。オーディオオブジェクトは、再生システムの能力に従い、スピーカの供給する信号へとレンダリングされてよい。
次世代オーディオシステムでは、最終ミックスは、消費者/ユーザに配信されるものではなくてよい。オブジェクトに基づくオーディオの場合には、オーディオオブジェクトは、オーディオオブジェクトがどのように再生されるべきかに関する情報(例えば、メタデータの形式)と共に配信されてよいが、オーディオの最終ミックスは配信されなくてよい。このアプローチは、複数言語サポートおよびオーディオ記述のような複数の再生シナリオのためにオーディオのより効率的符号化を可能にする。しかしながら、このアプローチは、音量測定および/または修正がどのように行われるかに関して問題を生じる。1つのこのような問題は、複雑性であり、一般により多くの音量測定が行われる必要があることを意味する。
多くのインスタンスまたはアプリケーションでは、精細/正確な音量測定は要求されない。1つのこのような場合は、番組の現在の短期間特性に基づき番組の音量を修正しようとする試みがなされる、リアルタイム音量修正を伴う。
番組全体のファイルに基づく音量修正では、番組全体の音量または平均音量が先ず測定され、結果が、該結果に従いファイルを修正/正規化するために使用されてよい。1つのフォーマットで配信されるが、種々のフォーマット(例えば、Dolby7.1.4またはオブジェクトに基づくオーディオ)で再生できる番組では、1つの音量測定(例えば、Dolby Surround5.1バージョンの音量測定)は、種々の再生構成の音量の一貫性のために、全ての再生環境について修正するために使用されてよい。
リアルタイム音量修正では、番組オーディオは、番組全体より短い時間尺度(例えば、数秒の程度)で調整/修正されてよく、より頻繁な音声測定が行われる必要がある。したがって、オーディオの測定の複雑性を低減するための方法が望まれる。オーディオデータの、音量を含む短期間測定に基づく処理は、オーディオをリアルタイムに変更/調整するために使用されてよい。その結果、結果として生じるオーディオは望ましいレベルまたは特性に適合する。
幾つかの場合には、オーディオを直接変更または破壊的に変えてしまうことは望ましくなく、むしろ、オーディオを修正/処理するために更に下流で使用できる情報(例えばメタデータ)を計算することが望ましい。幾つかの例では、この理由は、限定ではないが分析および/または測定を含む「より良い」処理が、下流の処理により達成され得ることである。幾つかの例では、この理由は、オーディオ再生パラメータの少なくとも幾つかが、番組が再生のために処理されるまで、完全に定義されないことである。これは、番組がオブジェクトに基づくオーディオを介して、またはM&Eおよび複数のダイアログを介して、提供される場合に当てはまる。このような例では、オーディオの処理は、一般に、再生時に、例えば再生装置で行われる。
以上に鑑み、本開示の幾つかの態様は、オーディオ処理のための改良された方法を提供できる。図1は、本願明細書に開示された方法のうちの少なくとも一部を実行するよう構成されてよい機器のコンポーネントの例を示すブロック図である。幾つかの例では、機器105は、放送事業者のためにオーディオ処理を提供するよう構成される装置であってよい。一方で、他の例では、機器105は、再生環境のためにオーディオ処理を提供するよう構成される装置であってよい。幾つかの実装では、機器105は、放送事業者からオーディオデータを受信し再生環境に処理済みオーディオデータを提供する装置のような、ネットワーク内の装置のためにオーディオ処理を提供するよう構成される装置であってよい。
機器105のコンポーネントは、ハードウェアにより、非一時的媒体に記憶されたソフトウェアにより、ファームウェアにより、および/またはそれらの組み合わせにより、実装されてよい。図1および本願明細書に開示される他の図面に示すコンポーネントの種類および数は、単なる例として示される。代替の実装は、より多くの、少ない、および/または異なるコンポーネントを含んでよい。
本例では、機器105は、インタフェースシステム110および制御システム115を含む。インタフェースシステム110は、1つ以上のネットワークインタフェース、制御システム115とメモリシステムとの間の1つ以上のインタフェース、および/または1つ以上の外部インタフェース(例えば、1つ以上のユニバーサルシリアルバス(USB)インタフェース)を含んでよい。幾つかの実装では、インタフェースシステム110は、ユーザインタフェースシステムを含んでよい。ユーザインタフェースシステムは、ユーザから入力を受信するよう構成されてよい。幾つかの実装では、ユーザインタフェースシステムは、ユーザにフィードバックを提供するよう構成されてよい。例えば、ユーザインタフェースシステムは、タッチおよび/またはジェスチャ検出システムに対応する1つ以上のディスプレイを含んでよい。幾つかの例では、ユーザインタフェースシステムは、1つ以上のスピーカを含んでよい。幾つかの例によると、ユーザインタフェースシステムは、モータ、振動子、等のような触覚フィードバックを提供する機器を含んでよい。制御システム115は、例えば、汎用の単一または複数チッププロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、または他のプログラマブル論理素子、個別ゲートまたはトランジスタロジック、および/または個別ハードウェアコンポーネント、を含んでよい。
幾つかの例では、機器105は、単一の装置に実装されてよい。しかしながら、幾つかの実装では、機器105は、1つより多くのの装置に実装されてよい。幾つかのこのような実装では、制御システム115の機能は1つより多くの装置に含まれてよい。幾つかの例では、機器105は、別の装置のコンポーネントであってよい。
図2は、一例による、方法のブロックを概略的に示すフロー図である。方法は幾つかの例では、図1の機器により、または本願明細書に開示される別の種類の機器により、実行されてよい。幾つかの例では、方法200のブロックは、1つ以上の非一時的媒体に記憶されたソフトウェアにより、実装されてよい。方法200のブロックは、本願明細書に記載の他の方法度同様に、必ずしも示された順序で実行されない。さらに、このような方法は、図示および/または記載のものより多数または少数のブロックを含んでよい。
本実装では、ブロック205は、第1フォーマットのオーディオデータを受信するステップを含む。ブロック205は、例えば、インタフェースシステム(例えば、図1のインタフェースシステム110)を介して第1フォーマットのオーディオデータを受信する制御システム(例えば、図1の制御システム115)を含んでよい。
複数のチャネル、高次アンビソニックス(high-order Ambisonics:HOA)ストリームの複数のオブジェクトまたはコンポーネントを有するオーディオ信号では、削減された数のチャネルまたはストリームに対する処理は、複雑性の理由から望ましいことがある。オーディオの完全な表現と削減された表現との間の関係を知ることは、関係が処理された表現に適用されるときに、完全な表現に対して行われた処理または該処理のメタデータ表現を近似するために使用され得る。
したがって、本実装によると、ブロック210は、第1フォーマットのオーディオデータを処理して、第2フォーマットのオーディオデータを生成するステップを含む。本例では、第2フォーマットは、第1フォーマットの削減されたまたは簡略化されたバージョンである。
幾つかのこのような例によると、第1フォーマットは、再生環境のハイト(height)または天井スピーカに対応する、チャネルに基づくまたはオブジェクトに基づく情報のような、「ハイト(height)チャネル」のためのオーディオデータを含んでよい。第2フォーマットは、ハイトスピーカのためのオーディオデータを含まなくてよい。幾つかの実装では、第1フォーマットはオーディオオブジェクトフォーマットであってよい。第2フォーマットは、オーディオオブジェクトフォーマットの簡略化されたバージョンであってよい。幾つかのチャネルに基づく実装では、第1フォーマットは、第1チャネルに基づくフォーマットであってよく、第2フォーマットは、第1チャネルに基づくフォーマットのダウンミックスであってよい。幾つかの例では、第1フォーマットおよび/または第2フォーマットのオーディオデータは、ダイアログオーディオデータ並びに音楽および効果音(M&E)オーディオデータを含んでよい。幾つかの詳細な例が以下に説明される。
本実装では、ブロック215は、第2フォーマットのオーディオデータに対して音量修正処理を実行して、第2フォーマットの音量修正済みオーディオデータを生成するステップを含む。幾つかの例では、音量修正処理は、第1音量測定処理、音量調整処理、および第2音量測定処理を含んでよい。第1音量測定処理は、Recommendation ITU-R BS.1770に準拠してよい。
幾つかのこのような例によると、第1音量測定処理は、1つ以上の線形処理動作と、その後のミキシング動作と、その後の1つ以上の非線形処理動作と、を含んでよい。例えば、線形処理動作は、K重み付けフィルタを適用することと、空間利得を適用することと、を含んでよい。幾つかの例によると、ミキシング動作は、第3フォーマットの第3オーディオデータを生成するダウンミキシング動作を含んでよい。第3フォーマットは、例えば、第2フォーマットの削減されたまたは簡略化されたバージョンであってよい。
図2に示す例では、ブロック220は、第2フォーマットのオーディオデータの第1パワーを決定するステップと、第2フォーマットの音量修正済みオーディオデータの第2パワーを決定するステップと、を含む。用語「第1パワー」および「第2パワー」は、単に第2フォーマットのオーディオデータのパワーを第2フォーマットの音量修正済みオーディオデータのパワーと区別するために使用される用語であり、例えば「第1パワー」および「第2パワー」の間の時間的関係を伝えることを意図しない。第1パワーおよび第2パワーを決定するステップは、例えば、時間間隔の間に、オーディオデータの二乗平均平方根を計算するステップを含んでよい。
本実装によると、ブロック230は、第1パワーの第2パワーに対するパワー比を決定するステップを含む。本例では、ブロック230は、第2フォーマットのオーディオデータのための音量修正係数を決定するステップを含む。第2フォーマットのオーディオデータのための音量修正係数は、本願明細書では、「第2フォーマット音量修正係数」と呼ばれる。ここで、第2フォーマット音量修正係数は、少なくとも部分的に、パワー比に基づく。
本例によると、ブロック235は、第1フォーマットのオーディオデータと第2フォーマットのオーディオデータとの間のパワー関係を決定するステップを含む。幾つかの例によると、第1フォーマットはチャネルに基づくフォーマットであり、第2フォーマットは第1のチャネルに基づくフォーマットのダウンミックスであり、パワー関係は第1のチャネルに基づくフォーマットのオーディオデータのパワーとダウンミックスのオーディオデータのパワーとの間の差(または比)に対応してよい。幾つかの例では、パワー関係は、第1フォーマットのオーディオデータと共に含まれる、メタデータのような情報により示されてよい。例えば、パワー関係は、第1フォーマットのオーディオデータが再生されるとき、ハイトスピーカに提供されるべきパワーに対応してよい。
本例では、ブロック240は、第1フォーマットのオーディオデータのための音量修正係数を決定するステップを含む。第1フォーマットのオーディオデータのための音量修正係数は、本願明細書では、「第1フォーマット音量修正係数」と呼ばれる。本実装では、第1フォーマット音量修正係数は、少なくとも部分的に、パワー比およびパワー関係に基づく。本例によると、ブロック245は、第1フォーマット音量修正係数および第2フォーマット音量修正係数を出力するステップを含む。
図3は、図2の方法の一例を示すブロック図である。図3のブロックは、本願明細書に開示の他の図面のブロックと同様に、ハードウェアにより、ソフトウェア(例えば、1つ以上の非一時的媒体に記憶されたソフトウェアに従い)、ファームウェア、および/またはその組み合わせにより、実行されてよい。本例によると、第1フォーマットのオーディオデータは、本例ではDolby5.1.2フォーマットであり、ダウンミキシングブロック305により受信される。これは、図2のブロック205の一例である。
本実装では、第1フォーマットのオーディオデータは、ダウンミキシングされて、本例ではDolby5.1である第2フォーマットのオーディオデータを生成する。これは、図2のブロック210の一例である。
当業者に知られているように、Dolby5.1フォーマットは、左スクリーンチャネル、中央スクリーンチャネル、右スクリーンチャネル、左サラウンドチャネル、および右サラウンドチャネルを含み、これらは集合的にDolby5.1フォーマットの「5」に対応する。Dolby5.1フォーマットは、Dolby5.1フォーマットの「1」に対応する、低周波数効果(low-frequency effects:LFE)のための別個のチャネルも含む。Dolby5.1.2フォーマットは、Dolby5.1フォーマットの全部のチャネルに加えて、幾つかの例では天井スピーカであってよいハイトスピーカのための2個のハイトチャネルを含む。これらの2個の追加のハイトチャネルは、Dolby5.1.2フォーマットの「2」に対応する。
したがって、図3に示すダウンミキシング動作に入力されるオーディオデータは、ハイトスピーカチャネルを含む第1フォーマットであり、一方で、ダウンミキシング動作から出力されるオーディオデータはハイトチャネルを含まない第2フォーマットである。本例では、「g」は、ダウンミキシング動作で使用され得る係数である。「g」の値は、5.1.2フォーマットのオーディオデータの多のチャネルのパワーと比較した、ハイトスピーカの相対パワーに対応してよい。したがって、「g」の値は、第1オーディオフォーマットのハイトチャネルオーディオデータのパワーが、ダウンミキシング動作の間に、第2オーディオフォーマとの残りのチャネルにどのように分配されるかを示してよい。gの値は、例えば、5.1.2フォーマットのオーディオデータを生成する際に、コンテンツ作成者により、または関連する別の人物により、設定されてよい。
図3に示す例では、第2フォーマットでダウンミキシング動作から出力されるオーディオデータは、音量修正ブロック310に提供される。ブロック310は、第2フォーマットの音量修正済みオーディオデータを生成するよう構成される。第2フォーマットの音量修正済みオーディオデータは、図3で5.1’とラベル付けされる。この処理は、図2のブロック215の一例である。
本例によると、音量修正ブロック310は、音量測定ブロック315および325、並びに音量調整ブロック320を含む。幾つかの例では、音量測定ブロック315および325は、Recommendation ITU-R BS.1770に準拠して構成されてよい。幾つかのこのような例によると、音量測定ブロック315および325は、参照によりここに組み込まれるRecommendation ITU-R BS.1770のAnnex1に従い構成されてよい。しかしながら、代替の実装では、音量測定ブロック315および325は、他の音量測定処理を適用するよう構成されてよい。
図4Aは、Recommendation ITU-RBS.1770のアネックス1(“Annex 1”)において概略の示された音量測定処理を表すブロック図である。図4Aは、音量測定に入力される個々の入力チャネルX1~XNを示す。図3に示す例では、音量測定は、5個の入力チャネルに基づき、Annex1に概略の示された音量測定処理に従い、Dolby5.1のLFEチャネルは測定に含まれない。
本例では、線形K重み付け処理が、K重み付けブロック405によりN個のチャネルの各々に適用されて、フィルタリング済み信号y1~yNを生成する。ここで、K重み付け処理は、シェルビングフィルタが適用される第1段階と、高域通過フィルタが適用される第2段階と、を含む。シェルビングフィルタは、頭部の音響効果を説明し、頭部は剛体球としてモデル化される。図4Bは、Annex1に開示されたシェルビングフィルタの周波数応答を示す。図4Cは、Annex1に開示された高域通過フィルタの周波数応答を示す。代替の実装では、1つ以上の他の種類の周波数重み付けがブロック405で適用されてよい。例えば、幾つかの実装は、A重み付け、またはM重み付け処理を適用することを含んでよい。幾つかの代替の例によると、ブロック405は、1つ以上のチャネルに利得を適用すること、時間遅延を適用すること、等のような、別の種類の線形処理を含んでよい。
図4Aに戻ると、本例では、音量測定処理400の次の段階は、パワー決定ブロック410により表される。ブロック410で、フィルタリング済み信号y1~yNの平均二乗が決定される。測定間隔Tにおけるフィルタリング済み信号y1~yNの平均二乗ziは、次式のように測定されてよい:
Figure 0007309734000001
ブロック415で、重み付け係数Gが、パワー決定ブロック410により出力された平均二乗値z1~zNに適用される。ブロック415の結果は、ブロック420で加算され、測定間隔Tに渡る音量計算はブロック425および430で完了する。本例では、Annex1におけるように、音量Lkが次式のように決定される:
Figure 0007309734000002
Annex1に従い制御された音量測定を計算するために、間隔Tは、重なり合う制御ブロック間隔のセットに分割される。制御ブロックは、最近接サンプルまでの、期間Tg=400msの連続オーディオサンプルのセットである。各制御ブロックの重なり合いは、制御ブロック期間の75%である。周波数重み付けが適用され、次に各チャネルが平方される。したがって、残りの処理は、チャネルのパワーに対して実行される。
図3に戻ると、本例では、第2フォーマット(本例ではDolby5.1)でダウンミキシング動作から出力されるオーディオデータは、音量測定ブロック315に、および音量調整ブロック320に、提供される。音量調整ブロック320は、音量測定ブロック315から出力された音量測定に従い、第2フォーマットのオーディオデータの音量を調整するよう構成される。音量調整ブロック320並びに音量測定ブロック315および325は、幾つかの例では、参照によりここに組み込まれる米国特許出願公開番号第2015/0078585A1号に記載のような1つ以上の処理を実行するよう構成されてよい。幾つかのこのような処理によると、音量調整ブロック320は、知覚レベリングアルゴリズムを適用してよい。幾つかの例では、音量修正ブロック310は、オーディオ信号および該オーディオ信号の所望の音量を受信し、オーディオ信号からアーチファクトを除去し、オーディオ信号の実際の音量を測定し、オーディオ信号の所望の音量と実際の音量との間の差を用いて利得値を計算し、利得値を用いてオーディオ信号を変更するよう構成されてよい。
音量調整ブロック320が、第2フォーマットのオーディオデータの音量を調整した後に、結果として生じた音量修正済みオーディオデータは、音量測定ブロック325に提供される。本例では、音量測定ブロック325が、音量修正済みオーディオデータはRecommendation ITU-R BS.1770に準拠すると決定した場合、第2フォーマットの音量修正済みオーディオデータは、音量修正ブロック310から出力される。第2フォーマットの音量修正済みオーディオデータは、図3で5.1’と示される。音量測定ブロック325が、音量修正済みオーディオデータはRecommendation ITU-R BS.1770に準拠しないと決定した場合、音量修正済みオーディオデータは、音量調整ブロック320により更に処理されてよい。
図3に示す例では、第2フォーマットの音量修正済みオーディオデータ、および第2フォーマットの未修正オーディオデータは、修正係数決定ブロック330および335に提供される。本例では、修正係数決定ブロック330は、第1フォーマットのオーディオデータのための第1フォーマット修正係数を決定するよう構成され、修正係数決定ブロック335は、第2フォーマットのオーディオデータのための第2フォーマット修正係数を決定するよう構成される。
本実装では、修正係数決定ブロック335は、第2フォーマットのオーディオデータ(本例では、未修正Dolby5.1データ)の第1パワーを決定するよう構成され、第2フォーマットの音量修正済みオーディオデータ(本例では、Dolby5.1’と示される音量修正済みオーディオデータ)の第2パワーを決定するよう構成される。ここで、修正係数決定ブロック335は、第1パワーの第2パワーに対するパワー比を決定するよう構成される。本例では、修正係数決定ブロック335は、少なくとも部分的にパワー比に基づく第2フォーマット修正係数を決定し出力するよう構成される。したがって、本例では、修正係数決定ブロック335は、図2のブロック220、225、および230、並びにブロック245の一部の処理を実行するよう構成される。
本実装では、修正係数決定ブロックf330は、さらに、第2フォーマットのオーディオデータ(本例では、未修正Dolby5.1データ)の第1パワーを決定し、第2フォーマットの音量修正済みオーディオデータ(本例では、Dolby5.1’と示される音量修正済みオーディオデータ)の第2パワーを決定するよう構成される。ここで、修正係数決定ブロック330は、第1パワーの第2パワーに対するパワー比を決定するよう構成される。
代替の実装では、修正係数決定ブロック330または修正係数決定ブロック335の両方ではなく、いずれかは、第1パワーの第2パワーに対するパワー比を決定するよう構成されてよい。このような実装では、修正係数決定ブロック330は、修正係数決定ブロック335にパワー比を提供するよう構成されてよく、またはその逆でもよい。
しかしながら、本例では、修正係数決定ブロック330は、さらに、第1フォーマット(本例ではDolby5.1.2)のオーディオデータを受信し、第1フォーマットのオーディオデータと第2フォーマットのオーディオデータとの間のパワー関係を決定するよう構成される。図3に示す例では、修正係数決定ブロック330は、gの形式のパワー関係情報を受信することにより、パワー関係を決定するよう構成される、このgは、5.1.2フォーマットのオーディオデータの他のチャネルのパワーと比べたときのハイトスピーカの相対パワーに対応するメタデータを表す。gの値は、5.1.2フォーマットのオーディオデータを生成する際に、コンテンツ作成者により、または関連する別の人物により、設定されてよい。Dolby5.1.2フォーマットのオーディオデータは、左ハイトスピーカチャネルおよび右ハイトスピーカチャネルを有する。幾つかの例では、gの値は、左ハイトスピーカチャネルのオーディオ信号のレベルが、左ハイトスピーカチャネルのオーディオ信号を左サラウンドスピーカの信号にミキシングする前に低減されるデシベル数を示してよい。幾つかの実装によると、gの値は、右ハイトスピーカチャネルのオーディオ信号のレベルが、右ハイトスピーカチャネルのオーディオ信号を右サラウンドスピーカの信号にミキシングする前に低減されるデシベル数も示してよい。
本実装によると、修正係数決定ブロック330は、第1フォーマットのオーディオデータの第1フォーマット音量修正係数を決定し出力するよう構成される。本例では、第1フォーマット音量修正係数は、少なくとも部分的に、パワー比およびパワー関係に基づく。したがって、本例では、修正係数決定ブロック330は、図2のブロック235および240の処理、並びにブロック245の処理の一部の処理を実行するよう構成される。
第1フォーマット修正係数および第2フォーマット修正係数は、第1および第2フォーマットのオーディオデータと共に符号化されてよい。再生のときに、装置(例えば、再生環境の装置)は、第1フォーマットのオーディオデータまたは第2フォーマットのオーディオデータを復号し、第1フォーマット修正係数および第2フォーマット修正係数に従い音量修正処理を適用してよい。
幾つかの例によると、第1フォーマットはDolby5.1.2であり、第2フォーマットはDolby5.1であり、修正係数決定ブロック330は、Dolby5.1入力の重み付けされた音量に基づき第1フォーマット音量修正係数を、Dolby5.1オーディオデータの修正済み出力、および部分修正係数を決定するよう構成されてよい。幾つかのこのような例によると、修正係数決定ブロック330は、次式に従い、第1フォーマット音量修正係数を決定するよう構成されてよい。
RTLL_Comp_512=L_510_corrected/(L_510_input-PartialcorrectionFactor) (式3)
式3で、RTLL_Comp_512は、5.1.2入力コンテンツを目標音量に修正するために必要な修正係数を表し、L_510_correctedは、修正済みオーディオデータの加重パワーの平均平方(例えば、オーディオフレームに渡る平均パワー、ここで、左および右サラウンドスピーカの信号が1.5dBにより重み付けされる)を表し、L_510_inputは、入力5.1オーディオデータの加重パワーの平均平方(例えば、オーディオフレームに渡る平均パワー、ここで、左および右サラウンドスピーカの信号が1.5dBにより重み付けされる)を表す。
一例では、式3のPartialcorrectionFactorは次式のように表されてよい:
PartialcorrectionFactor=(1.414*g2-1)*(Lts2+Rts2) (式4)
式4で、gは、本願明細書の他の場所に記載したように、5.1.2ハイトチャネルを目標5.1サラウンドチャネルにミキシングするために使用される関係を表す。式4で、LtsおよびRtsは、それぞれ、左および右「トップサラウンド」チャネルのレベルを表す。トップサラウンドチャネルは、本願明細書ではハイトチャネルとも呼ばれる。
幾つかの代替の実装によると、修正係数決定ブロック330は、Dolby5.1入力の加重音量に基づき第1フォーマット音量修正係数を、Dolby5.1オーディオデータの修正済み出力、および完全修正係数を決定するよう構成されてよい。幾つかのこのような例によると、修正係数決定ブロック330は、次式に従い、第1フォーマット音量修正係数を決定するよう構成されてよい。
RTLL_Comp_512=L_510_corrected/(L_510_input-FullcorrectionFactor) (式5)
「FullcorrectionFactor」を除いて、式5の他の変数は、式3を参照して上述された。幾つかの実装では、FullcorrectionFactorは次式のように決定されてよい。
FullcorrectionFactor=[(1.414*g2-1)*(Lts2+Rts2)+(2.828*g)*(Lts*Ls+Rts*Rs)] (式6)
式6で、Lsは左サラウンドチャネルのレベルを表し、Rsは右サラウンドチャネルのレベルを表す。
前述の段落は、Dolby5.1および5.1.2オーディオデータの音量修正係数が、符号化オーディオデータと一緒にビットストリーム内で送信されるためにエンコーダにおいてどのように計算され得るかの例を説明した。5.1番組の生成で使用されるgの値は、メインラウドスピーカにミキシングされるオーバヘッドラウドスピーカからのエネルギ量を制御する。
しかしながら、幾つかの実装では、gの値は、デコーダ側で制御されてよい。幾つかの実装によると、音量修正係数は音量修正処理の全体を再度実行することなく、デコーダにおいて計算され適用されてよい。デコーダにより受信された音量修正係数は、符号化された番組ミックスに基づくが、特定の環境では、このミックスは、オペレータまたはユーザによりデコーダにおいて調整されてよい。この制御のレベルは、個人向け番組ミックスと共にユーザに提供できる。例えば、ダウンミックス計数gは調整されてよく、したがって、望ましくは音量修正係数の変更または適応が行われ得る。同様に、別個のオーディオストリームが異なる番組部分、音楽および効果音、種々のダイアログトラックを運ぶ場合、ユーザはこれらのレベルを調整してよい。デコーダ側における音量修正係数の変更は、このような変化を説明するために行うことができる。
ユーザが、Dolbyオーディオデータと共に送信された音量修正係数を計算するために使用された(または、音量修正済み出力を計算するために使用された)値と異なるgの値を設定することを選択した場合、修正係数は、望ましくは、変化を説明するために相応して再計算され/調整され得る。幾つかの例によると、Dolby5.1フォーマットのオーディオデータのための修正係数は、デコーダにより受信されたオーディオデータを含んだビットストリームの中で送信されたDolby5.1.2フォーマットのための修正係数を用いてデコーダ側で調整されてよい。
1つのこのような例によると、Dolby5.1フォーマットのオーディオデータのための修正係数は、受信した音量修正係数がどのように計算されたかに依存して、式3または式5の再構成バージョンを実施することにより、デコーダ側で調整されてよい。例えば、受信した音量修正係数が式3に従い計算されたとすると、Dolby5.1フォーマットのオーディオデータの修正済み出力は、次式を実施することにより、デコーダ側で決定されてよい。
L_510_corrected=RTLL_Comp_512*(L_510_input-PartialcorrectionFactor) (式7)
式7の「PartialcorrectionFactor」は、例えば、式4に従い決定されてよい。その場合、PartialcorrectionFactorはgの値にも部分的に基づく。したがって、gがデコーダ側で(例えば、ユーザインタフェースを介してユーザから受信した入力に従い)調整される場合、幾つかの例では、Dolby5.1フォーマットのオーディオデータのための修正係数は、式7を実施することにより、デコーダ側で調整されてよい。幾つかの例によると、デコーダ機器の制御システム(例えば、図1に示した制御システム115)は、Dolby5.1フォーマットのオーディオデータ入力のための修正係数を、ユーザにより選択されユーザインタフェース(これは、図1に示したインタフェースシステム110の部分であってよい)を介して入力されたgの値に少なくとも部分的に基づき、決定してよい。
英語チャネル番組および仏語チャネル番組のような完全なオーディオ番組を別個に送る/送信することを回避するために、言語チャネルとは別個にチャネルM&Eを送る/送信することができる。番組のミキシングは、再生装置において実行され得る。メタデータをミキシングすることは、オーディオと一緒に実行され得る。その結果、再生装置では、番組は、それぞれの特定の提示のためにコンテンツ制作者の意図に従いミキシングされる。次世代オーディオフォーマットは、複数の提示(プレゼンテーション)をサポートし、したがって、オーディオ番組の効率的な運搬(carriage)を可能にする。ここで、要素は別個に符号化され、符号化の前にミキシングされず、むしろ、復号の後に再生装置においてミキシングされる。
例えば、放送は、同じ5.1M&E(music and effects)チャネルを使用する2つの提示を含み得る。しかしながら、一方は英語ダイアログトラックを有してよく、他方は仏語ダイアログトラックを有してよい。これは、2つの5.1番組とは反対に、1つの5.1M&Eおよび2つのモノチャネルを配信するだけでよいので、5.1英語および5.1仏語番組を配信するために必要なデータレートを削減し得る。前述の例は、以下に示すより複雑な提示のために拡張できる。ここで、追加の関連ダイアログ要素が含まれてよい。
以下の例では、CMは完全なメイン番組を表し、MEは音楽および効果音を表し、Dはダイアログを表し、ADは関連ダイアログを表す。
一例では、放送は、CM5.1およびADを有するCM5.1を含み得る。別の例では、放送は、ME5.1+Dmono+Dmono+ADmono+ADmonoを含み得る。別の例では、放送は、5.1M&E+1英語+1仏語を(3個の用途/サブストリームの中に)含み得る。別の例では、放送は、5.1M&E+1英語+1英語AD+1仏語+1仏語ADを(5個の用途/サブストリームの中に)含み得る。
提示が別個の5.1ミックスとして伝達されるか、またはプレミックスされた要素として伝達されるかが、通常測定される必要がある。前に開示された方法によると、2つの提示が測定された場合、両方の提示が同じ5.1M&Eに基づく場合でも、処理全体は、2回、つまりそれぞれの提示のために1回、実行されなければならない。さらに多くの提示が使用されるとき、さらに多くの音量測定が実行される必要があり、複雑性が増大する。
音量正規化では、番組の音量が特定の目標に一致するように、番組の実際のオーディオが調整され/オフセットされ、共通のオーディオ要素を有する複数の提示を扱うときには、音量正規化は直接的ではない。例えば、5.1チャネルM&Eおよび2つのダイアログ要素、つまり英語および仏語、を有する単純な場合には、M&Eおよび英語ダイアログミックスの音量を修正し得るが、M&Eおよび仏語ダイアログミックスが適正な音量であることを保証しない。
したがって、オーディオ番組の1つより多くのミックスの配信により、上述のようにミックスが別個の単一の提示としてまたは複数の提示のストリームとして配信されるかに関わらず、通常、複数の音量測定が実行される必要がある。例えば、英語および仏語ダイアログ要素および付随するビデオ記述(description)と一緒に5.1M&E要素が存在する場合、前述の方法に従い、4個の5.1チャネルミックスが測定される必要がある。
幾つかの開示の実装は、複数のミックスが、共通の5.1M&E要素のような共通のオーディオ要素を含むという事実を利用する。幾つかのこのような実装は、種々のミックスの音量の測定を簡略化することを可能にし、処理の複雑性を低減できる。したがって、音量測定および音量制御の複雑性が低減され得る。
同様のオーディオ要素を有する提示について、幾つかの実装は、提示の音量測定が行われるとき、このような要素の処理を繰り返さない。提示を生成するためにオーディオ要素がミックスされる前にできるだけ多くのオーディオ処理を実行することにより、音量測定の複雑性が低減され、より効率的な音量測定エンジンが生成され得る。
例えば、同じ5.1M&Eを含む2つの番組の音量を測定するとき、5.1M&Eの各チャネルのフィルタリングおよび空間利得の適用は、ミキシングの前に1回だけ実行されるだけでよい。この処理は、より効率的な音量測定を可能にする。幾つかのこのような例によると、音量測定処理の全ての線形処理は、提示を生成するためのオーディオのミキシングの前に行われてよく、次に、音量を測定するために、非線形処理を含む更なる処理がミキシング済み提示に対して行われてよい。幾つかのこのような例では、音量測定結果の精度または正確さは、Recommendation ITU-R BS.1770に概略の示された方法を適用するときに達成され得るものと一致する。
図5は、Recommendation ITU-R BS.1770に概略の示された音量測定処理の変更されたバージョンを表すブロック図である。本例では、方法500のブロック505。520、525、530は、図4Aに示した方法のブロック405、420、425、430と同じ方法で実行される。しかしながら、Annex1に概略の示されたアルゴリズムの線形対非線形処理動作を認識すると、空間利得ブロック510は、図5に示した例の平均平方ブロック515の前に実行され、一方で、2つの対応するブロックの順序は図4Aにおいて逆になっている。
図6は、Recommendation ITU-R BS.1770に概略の示された音量測定処理の別の変更されたバージョンを表すブロック図である。本例では、図6のブロック515、520、525、530により表される処理は、図5のブロック515、520、525、530により表される処理と同じである。しかしながら、本例では、ブロック505および510の線形処理は、結合されたKGiブロックで表される。さらに、新しいミキサブロック605が、KGiブロックと平均平方ブロック515との間に導入されている。したがって、本例では、ミキサブロック605の動作は、KGiブロックの線形動作の後、且つ後続の非線形動作の前に実行される。ミキサブロック605の動作は、特定の実装に依存して、アップミキシングまたはダウンミキシングを含んでよい。
図7は、図6の方法のより一般化されたバージョンを表すブロック図である。本例では、チャネルX1~XNのオーディオデータは、線形オーディオ処理ブロック705に入力される。幾つかの例では、線形オーディオ処理ブロック705は、図6に示されるKGiブロックに対応してよい。本実装によると、処理済みオーディオデータはY1~YNは、線形オーディオ処理ブロック705から出力され、ミキサブロック605に提供される。ここで、ミキシング済みオーディオデータY1~YNは、ミキサブロック605から出力され、非線形オーディオ処理ブロック710に提供される。幾つかの例では、非線形オーディオ処理ブロック710は、図6のブロック510~530のうちの1つ以上に対応してよい。
図8は、図7に概略の示された方法の一例のブロックの概略を示すフロー図である。方法は幾つかの例では、図1の機器により、または本願明細書に開示される別の種類の機器により、実行されてよい。幾つかの例では、方法800のブロックは、1つ以上の非一時的媒体に記憶されたソフトウェアにより、実装されてよい。方法800のブロックは、本願明細書に記載の他の方法度同様に、必ずしも示された順序で実行されない。さらに、このような方法は、図示および/または記載のものより多数または少数のブロックを含んでよい。
本実装では、ブロック805は、オーディオデータを受信するステップを含む。ブロック805は、例えば、インタフェースシステム(例えば、図1のインタフェースシステム110)を介してオーディオデータを受信する制御システム(例えば、図1の制御システム115)を含んでよい。
ここで、ブロック810は、オーディオデータに対して線形処理を実行するステップを含む。本例によると、ブロック810は、オーディオデータに対する音量測定処理の線形動作を実行するステップを含む。幾つかの実装によると、ブロック810は、線形オーディオ処理ブロック705および/または図6のKGiブロックのような処理を含んでよい。
本例では、ブロック815は、オーディオデータをミキシングするステップを含む。ブロック815は、特定の実装に依存して、アップミキシング処理またはダウンミキシング処理を含んでよい。
ここで、ブロック820は、ブロック815の動作から出力されたミキシング済みオーディオデータに対して非線形動作を実行するステップを含む。本例によると、ブロック820は、ミキシング済みオーディオデータに対する音量測定処理の非線形動作を実行するステップを含む。幾つかの実装によると、ブロック820は、図7の非線形オーディオ処理ブロック710のような処理を含んでよい。本例では、ブロック825は、音量測定を出力するステップを含む。
図6~8を参照して上述したような処理フローは、潜在的な利益を有し、その幾つかは図9A~10を参照して以下に説明される。図9Aは、従来のダウンミキシングおよび音量測定の処理を表すブロック図である。本例では、Dolby5.1フォーマットのオーディオデータ900は、音量測定ブロック905に、およびダウンミキシングブロック910に入力される。音量測定ブロック905は、オーディオデータ900の音量測定907を出力する。
ダウンミキシングブロック910は、本例では2チャネルオーディオデータであるダウンミキシング済みオーディオデータ912を出力する。音量測定ブロック915は、ダウンミキシング済みオーディオデータ912を受信し、ダウンミキシング済みオーディオデータ912の音量測定917を出力する。音量測定ブロック905および915は、例えば、図4Aを参照して上述したように、Recommendation ITU-R BS.1770のAnnex1に概略の示された音量測定処理に従い入力オーディオデータの音量を測定してよい。
図9Bは、新規なダウンミキシングおよび音量測定処理の例を表すブロック図である。本例では、Dolby5.1フォーマットのオーディオデータ900は、音量測定ブロック920に入力される。本例によると、音量測定部録920の線形処理ブロック925は、音量測定処理の線形動作を実行する。線形処理ブロック925は、例えば、図6を参照して上述したKGiブロックに対応してよい。
線形処理ブロック925の出力は、ミキシングブロック930に提供される。ミキシングブロック930は、図6を参照して上述したミキサ605のような機能を含んでよい。本実装によると、ミキシングブロック930は、Dolby5.1フォーマットのオーディオデータを非線形処理ブロック935に、およびDolby2.0フォーマットのオーディオデータを非線形処理ブロック940に、提供する。
本実装では、非線形処理ブロック935は、Dolby5.1フォーマットのオーディオデータの音量測定907を出力し、非線形処理ブロック940は、Dolby2.0フォーマットのオーディオデータの音量測定917を出力する。非線形処理ブロック935および940は、例えば、図6のブロック515~530に対応する処理を含んでよい。本例では、ミキシングブロック930は、Dolby2.0フォーマットのオーディオデータも出力する。
図9Aを参照して上述した音量測定処理と比べると、図9Bの音量測定処理は、少ない線形処理ステップしか必要としない。したがって、図9Bの音量測定処理は、相対的により効率的である。
図10は、図2および3で概略を説明した処理の代替例を示すブロック図である。本例によると、本例ではDolby5.1.2フォーマットの第1フォーマットのオーディオデータは、図3に示した別個のダウンミキシングブロック305の代わりに、音量修正ブロック1010の音量測定ブロック920により受信される。これは、図2のブロック205の一例である。
図9Bのを参照して上述したように、音量測定ブロック920は、図10に寿司市内ミキシングブロック930を含む。本実装では、第1フォーマットのオーディオデータは、音量測定ブロック920によりダウンミキシングされて、本例ではDolby5.1である第2フォーマットのオーディオデータ1020を生成する。これは、図2のブロック210の一例である。本例では、第1フォーマットのオーディオデータは、音量測定ブロック920によってもダウンミキシングされて、本例ではDolby2.0である第3フォーマットのオーディオデータ912を生成する。
本実装では、音量測定ブロック920は、例えば図9Bを参照して上述したように、Dolby5.1フォーマットのオーディオデータの音量測定907、およびDolby2.0フォーマットのオーディオデータの音量測定917を出力する。本例では、Dolby5.1フォーマットの音量測定907およびオーディオデータ1012は、音量調整ブロック320aに入力され、一方で、Dolby2.0フォーマットの音量測定917およびオーディオデータ912は、音量調整ブロック320bに入力される。音量調整ブロック320aおよび320bは、図3の音量調整ブロック320と実質的に同じ動作を含んでよい。
音量調整ブロック320aおよび320bの出力は、それぞれ音量測定ブロック325aおよび325bに提供される。音量測定ブロック325aおよび325bは、図3の音量測定ブロック325と実質的に同じ動作を含んでよい。本例では、音量修正ブロック1010は、本例ではDolby5.1’と示される、Dolby5.1フォーマットの音量修正済みオーディオデータ、およびDolby2.0フォーマットの音量修正済みオーディオデータを出力する。
本例では、修正係数決定ブロック330および335は、図3を参照して上述した修正係数決定ブロック330および335と実質的に同じ処理を含む。図10に示す実装は、修正係数決定ブロック1035も含む。修正係数決定ブロック1035は、第3フォーマットのオーディオデータ(本例では、未修正Dolby2.0データ)の第1パワーを決定するよう構成され、第3フォーマットの音量修正済みオーディオデータ(本例では、Dolby2.0’と示される音量修正済みオーディオデータ)の第2パワーを決定するよう構成される。ここで、修正係数決定ブロック1035は、第1パワーの第2パワーに対するパワー比を決定するよう構成される。本例では、修正係数決定ブロック335は、少なくとも部分的にパワー比に基づく第3フォーマット修正係数を決定し出力するよう構成される。
本開示に記載の実装に対する種々の変更は、当業者に直ちに明らかであってよい。例えば、幾つかの実装は、例えば係数2でオーディオをダウンサンプリングするステップと、サブレートで音量測定処理を実行するステップと、を含んでよい。この方法では、複雑性が低減され得る。間引きする(decimating)だけで、適正なサンプルレート変換のために低域通過フィルタを含まないことにより、新しいナイキスト(Nyquist)周波数より高い周波数のエネルギは、失われず、フォールドダウンされる(folded down)。これは、実質的に全ての周波数により表されるパワーを保持しながらサンプル数を削減する(例えば半分にする)、パワーに基づく測定にとって有用である。
例えば、任意の低域通過フィルタを有しないで、ひとつおきにサンプルをドロップすることにより、オーディオ信号をダウンサンプリングしようとする場合、fs/4(サンプリング周波数の半分)より上の信号はエイリアスされ(aliased)またはフォールドバックされ(folded back.)得る。Recommendation ITU-R BS.1770に概略の示された音量測定処理は、オーディオ信号の平均パワーに基づく。任意の周波数重み付けを伴わず、エネルギ損失のみがfs/4になり得る。fs/4より上の信号のパワーは、「フォールドオーバされ(folded-over)」またはエイリアスされ、保存され得る。周波数重み付けがあるとき(例えば、Recommendation ITU-R BS.1770に概略の示された音量測定処理で適用されるK加重フィルタによる)、エネルギは保存されないが、代わりに、周波数がどのようにエイリアスされるかに従い周波数重み付けされる。周波数重み付けにおける差は、信号がミラーリングされる(mirrored)ときに生じ得る。これはfs/4の近傍であり得る。
図11は、一例によるダウンサンプルされたオーディオ信号の近似重みを示す。48kHzのサンプリング周波数fsの本例では、24kHzは0にマッピングされ、14kHzは10kHzにマッピングされる、等である。ダウンサンプリングを実行することは、BS.1770アルゴリズムを半分のサンプルに対して実行することにより複雑性を低減し、主要な差分は約21kHzより高い周波数に存在するので、大部分の実際のオーディオ信号について許容可能な近似をもたらす。
本願明細書で定められた一般的な原理は、本開示の範囲から逸脱することなく他の実装に適用されてよい。したがって、請求の範囲は、本願明細書で示された実装を限定することを意図せず、本開示、本願明細書に開示された原理および新規な特徴と整合する最も広い範囲と考えられる。
本発明の種々の態様は、以下に列挙する例示的な実施形態(enumerated example embodiment:EEE)から明らかであり得る。
EEE1. オーディオ処理方法であって、
第1フォーマットのオーディオデータを受信するステップと、
前記第1フォーマットの前記オーディオデータを処理して、第2フォーマットのオーディオデータを生成するステップであって、前記第2フォーマットは前記第1フォーマットの削減されたまたは簡略化されたバージョンである、ステップと、
前記第2フォーマットの前記オーディオデータに対して音量修正処理を行って、前記第2フォーマットの音量修正済みオーディオデータを生成するステップと、
前記第2フォーマットの前記オーディオデータの第1パワーを決定するステップと、
前記第2フォーマットの前記音量修正済みオーディオデータの第2パワーを決定するステップと、
前記第2フォーマットの前記オーディオデータの第2フォーマット音量修正係数を決定するステップであって、前記第2フォーマット音量修正係数は、前記第2パワーに対する前記第1パワーのパワー比に少なくとも部分的に基づく、ステップと、
前記第1フォーマットの前記オーディオデータと前記第2フォーマットの前記オーディオデータとの間のパワー関係を決定するステップと、
前記第1フォーマットの前記オーディオデータの第1フォーマット音量修正係数を決定するステップであって、前記第1フォーマット音量修正係数は、前記パワー比および前記パワー関係に少なくとも部分的に基づく、ステップと、
前記第1フォーマット音量修正係数および前記第2フォーマット音量修正係数を出力するステップと、
を含む方法。
EEE2. 前記第1フォーマットは第1チャネルに基づくフォーマットであり、前記第2フォーマットは前記第1チャネルに基づくフォーマットのダウンミックスである、EEE1に記載の方法。
EEE3. 前記パワー関係は、前記第1チャネルに基づくフォーマットの前記オーディオデータのパワーと前記ダウンミックスの前記オーディオデータのパワーとの間の差に対応する、EEE2に記載の方法。
EEE4. 前記第1フォーマットは、ハイトスピーカのためのオーディオデータを含み、前記第2フォーマットは、ハイトスピーカのためのオーディオデータを含まない、EEE1乃至3のいずれか一項に記載の方法。
EEE5. 前記パワー関係は、前記ハイトスピーカのための前記オーディオデータのパワーに対応する、EEE4に記載の方法。
EEE6. 前記音量修正処理は、第1音量測定処理、音量調整処理、および第2音量測定処理を含む、EEE1乃至5のいずれか一項に記載の方法。
EEE7. 前記第1音量測定処理は、1つ以上の線形処理動作と、その後のミキシング動作と、その後の1つ以上の非線形処理動作と、を含む、EEE6に記載の方法。
EEE8. 前記線形処理動作は、K重み付けフィルタを適用することと、空間利得を適用することと、を含む、EEE7に記載の方法。
EEE9. 前記ミキシング動作は、第3フォーマットの第3オーディオデータを生成するダウンミキシング動作を含み、前記第3フォーマットは、前記第2フォーマットの削減されたまたは簡略化されたバージョンである、EEE7に記載の方法。
EEE10. 前記第2フォーマットの前記オーディオデータは、ダイアログオーディオデータ並びに音楽および効果音(M&E)オーディオデータを含む、EEE7に記載の方法。
EEE11. 前記ダイアログオーディオデータは、複数の言語のためのダイアログオーディオデータを含み、前記線形処理動作は、前記複数の言語のための前記ダイアログオーディオデータに対して別個に実行される、EEE10に記載の方法。
EEE12. 前記M&Eオーディオデータに対する前記線形処理動作は、前記ダイアログオーディオデータに対する線形処理動作と別個に実行される、EEE10に記載の方法。
EEE13. 前記第1フォーマットはオーディオオブジェクトフォーマットであり、前記第2フォーマットは前記第1フォーマットの簡略化されたバージョンである、EEE1乃至12のいずれか一項に記載の方法。
EEE14. 前記第1フォーマットの前記オーディオデータは、少なくとも第1ダイアログおよびM&Eオーディオデータを含む、EEE1乃至13のいずれか一項に記載の方法。
EEE15. ソフトウェアを記憶している1つ以上の非一時的媒体であって、前記ソフトウェアは、EEE1乃至14のいずれか一項に記載の方法を実行するための命令を含む、非一時的媒体。
EEE16. 機器であって、EEE1乃至-14のいずれか一項に記載の方法を実行するよう構成される制御システムを含む機器。
EEE17. オーディオ処理方法であって、
第1フォーマットのオーディオデータのための第1フォーマット音量修正係数と、第2フォーマットのオーディオデータのための受信された第2フォーマット音量修正係数と、を受信するステップと、
前記第1フォーマットの前記オーディオデータを受信するステップと、
前記第1フォーマットの前記オーディオデータと前記第2フォーマットの前記オーディオデータとの間の変更されたパワー関係の指示を受信するステップと、
前記第1フォーマット音量修正係数と前記変更されたパワー関係とに少なくとも部分的に基づき、前記受信された第2フォーマット音量修正係数を調整するステップと、
を含むオーディオ処理方法。
EEE18. 前記第2フォーマットの前記オーディオデータは、前記第1フォーマットの前記オーディオデータのダウンミックスまたはレンダーである、EEE17に記載のオーディオ処理方法。
EEE19. 前記変更されたパワー関係は、元のパワー関係の変更であり、前記元のパワー関係は、前記第1フォーマットのチャネルに対応するオーディオデータのレベルが、前記第2の第1フォーマットの前記オーディオデータを生成したダウンミキシング動作の間にどのように変更されたかを示す、EEE18に記載のオーディオ処理方法。
EEE20. 前記第2フォーマットはDolby5.1フォーマットであり、前記第1フォーマットはDolby5.1.2フォーマットである、EEE17乃至19のいずれか一項に記載のオーディオ処理方法。
EEE21. 前記第2フォーマットはDolby5.1フォーマットであり、前記第1フォーマットはDolby7.1.4フォーマットである、EEE17乃至20のいずれか一項に記載のオーディオ処理方法。

Claims (16)

  1. オーディオ処理方法であって、
    第1フォーマットのオーディオデータを受信するステップと、
    前記第1フォーマットの前記オーディオデータを処理して、第2フォーマットのオーディオデータを生成するステップであって、前記第2フォーマットは前記第1フォーマットの削減されたまたは簡略化されたバージョンである、ステップと、
    前記第2フォーマットの前記オーディオデータに対して音量修正処理を行って、前記第2フォーマットの音量修正済みオーディオデータを生成するステップと、
    前記第2フォーマットの前記オーディオデータの第1パワーを決定するステップと、
    前記第2フォーマットの前記音量修正済みオーディオデータの第2パワーを決定するステップと、
    前記第2フォーマットの前記オーディオデータの第2フォーマット音量修正係数を決定するステップであって、前記第2フォーマット音量修正係数は、前記第2パワーに対する前記第1パワーのパワー比に少なくとも部分的に基づく、ステップと、
    前記第1フォーマットの前記オーディオデータと前記第2フォーマットの前記オーディオデータとの間のパワー関係を決定するステップと、
    前記第1フォーマットの前記オーディオデータの第1フォーマット音量修正係数を決定するステップであって、前記第1フォーマット音量修正係数は、前記パワー比および前記パワー関係に少なくとも部分的に基づく、ステップと、
    前記第1フォーマット音量修正係数および前記第2フォーマット音量修正係数を出力するステップと、
    を含む方法。
  2. 前記第1フォーマットは第1チャネルに基づくフォーマットであり、前記第2フォーマットは前記第1チャネルに基づくフォーマットのダウンミックスである、請求項1に記載の方法。
  3. 前記パワー関係は、前記第1チャネルに基づくフォーマットの前記オーディオデータのパワーと前記ダウンミックスの前記オーディオデータのパワーとの間の差に対応する、請求項2に記載の方法。
  4. 前記第1フォーマットは、ハイトスピーカのためのオーディオデータを含み、前記第2フォーマットは、ハイトスピーカのためのオーディオデータを含まない、請求項1乃至3のいずれか一項に記載の方法。
  5. 前記パワー関係は、前記ハイトスピーカのための前記オーディオデータのパワーに対応する、請求項4に記載の方法。
  6. 前記音量修正処理は、第1音量測定処理、音量調整処理、および第2音量測定処理を含む、請求項1乃至5のいずれか一項に記載の方法。
  7. 前記第1音量測定処理は、1つ以上の線形処理動作と、その後のミキシング動作と、その後の1つ以上の非線形処理動作と、を含む、請求項6に記載の方法。
  8. 前記線形処理動作は、K重み付けフィルタを適用することと、空間利得を適用することと、を含む、請求項7に記載の方法。
  9. 前記ミキシング動作は、第3フォーマットの第3オーディオデータを生成するダウンミキシング動作を含み、前記第3フォーマットは、前記第2フォーマットの削減されたまたは簡略化されたバージョンである、請求項7に記載の方法。
  10. 前記第2フォーマットの前記オーディオデータは、ダイアログオーディオデータ並びに音楽および効果音(M&E)オーディオデータを含む、請求項7に記載の方法。
  11. 前記ダイアログオーディオデータは、複数の言語のためのダイアログオーディオデータを含み、前記線形処理動作は、前記複数の言語のための前記ダイアログオーディオデータに対して別個に実行される、請求項10に記載の方法。
  12. 前記M&Eオーディオデータに対する前記線形処理動作は、前記ダイアログオーディオデータに対する線形処理動作と別個に実行される、請求項10に記載の方法。
  13. 前記第1フォーマットはオーディオオブジェクトフォーマットであり、前記第2フォーマットは前記第1フォーマットの簡略化されたバージョンである、請求項1乃至12のいずれか一項に記載の方法。
  14. 前記第1フォーマットの前記オーディオデータは、少なくとも第1ダイアログおよびM&Eオーディオデータを含む、請求項1乃至13のいずれか一項に記載の方法。
  15. ソフトウェアを記憶している1つ以上の非一時的媒体であって、前記ソフトウェアは、請求項1乃至14のいずれか一項に記載の方法を実行するための命令を含む、非一時的媒体。
  16. 機器であって、請求項1乃至14のいずれか一項に記載の方法を実行するよう構成される制御システムを含む機器。
JP2020543202A 2018-02-15 2019-02-15 音量制御方法および装置 Active JP7309734B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201862631227P 2018-02-15 2018-02-15
EP18156935 2018-02-15
US62/631,227 2018-02-15
EP18156935.1 2018-02-15
PCT/US2019/018207 WO2019161191A1 (en) 2018-02-15 2019-02-15 Loudness control methods and devices

Publications (2)

Publication Number Publication Date
JP2021514136A JP2021514136A (ja) 2021-06-03
JP7309734B2 true JP7309734B2 (ja) 2023-07-18

Family

ID=65496997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020543202A Active JP7309734B2 (ja) 2018-02-15 2019-02-15 音量制御方法および装置

Country Status (5)

Country Link
US (1) US11330370B2 (ja)
EP (1) EP3753105B1 (ja)
JP (1) JP7309734B2 (ja)
CN (1) CN111713016B (ja)
WO (1) WO2019161191A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111640446B (zh) * 2020-06-24 2023-03-10 北京百瑞互联技术有限公司 一种基于音频编码器的响度均衡方法、编码器及蓝牙设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
JP2015516762A (ja) 2012-04-12 2015-06-11 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号におけるラウドネス変化をレベリングするシステム及び方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003094369A2 (en) 2002-05-03 2003-11-13 Harman International Industries, Incorporated Multi-channel downmixing device
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
TWI397903B (zh) * 2005-04-13 2013-06-01 Dolby Lab Licensing Corp 編碼音訊之節約音量測量技術
US8774417B1 (en) * 2009-10-05 2014-07-08 Xfrm Incorporated Surround audio compatibility assessment
TWI525987B (zh) * 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
US9312829B2 (en) 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
CN108174341B (zh) 2013-01-16 2021-01-08 杜比国际公司 测量高阶高保真度立体声响复制响度级的方法及设备
BR122022020326B1 (pt) * 2013-01-28 2023-03-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E. V. Método e aparelho para reprodução de áudio normalizado de mídia com e sem metadados de ruído integrado em novos dispositivos de mídia
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
WO2015038522A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
WO2015081293A1 (en) * 2013-11-27 2015-06-04 Dts, Inc. Multiplet-based matrix mixing for high-channel count multichannel audio
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
US9661435B2 (en) 2014-08-29 2017-05-23 MUSIC Group IP Ltd. Loudness meter and loudness metering method
CN113257274A (zh) * 2014-10-01 2021-08-13 杜比国际公司 高效drc配置文件传输
EP3518236B8 (en) 2014-10-10 2022-05-25 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
WO2016081814A2 (en) * 2014-11-20 2016-05-26 Tymphany Hk Limited Method and apparatus to equalize acoustic response of a speaker system using multi-rate fir and all-pass iir filters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015516762A (ja) 2012-04-12 2015-06-11 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ信号におけるラウドネス変化をレベリングするシステム及び方法
WO2015041070A1 (ja) 2013-09-19 2015-03-26 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ITU-R,Algorithms to measure audio programme loudness and true-peak audio level,Recommendation ITU-R BS.1770-4 (10/2015),2017年

Also Published As

Publication number Publication date
US20210120337A1 (en) 2021-04-22
WO2019161191A1 (en) 2019-08-22
JP2021514136A (ja) 2021-06-03
EP3753105A1 (en) 2020-12-23
CN111713016A (zh) 2020-09-25
CN111713016B (zh) 2023-11-28
EP3753105B1 (en) 2023-01-11
US11330370B2 (en) 2022-05-10

Similar Documents

Publication Publication Date Title
JP6778781B2 (ja) エンコードされたオーディオ拡張メタデータベースのダイナミックレンジ制御
US10861468B2 (en) Apparatus and method for encoding or decoding a multi-channel signal using a broadband alignment parameter and a plurality of narrowband alignment parameters
EP2903301B1 (en) Improving at least one of intelligibility or loudness of an audio program
CN112291699B (zh) 用于处理音频信号的音频处理器和方法及音频编码器
TWI569260B (zh) 用於在基於物件之音訊編碼系統中利用旁通音訊物件信號的通知響度估計之解碼器、編碼器及方法
RU2577199C2 (ru) Устройство для обеспечения представления сигнала повышающего микширования на основе представления сигнала понижающего микширования, устройство для обеспечения битового потока, представляющего многоканальный звуковой сигнал, способы, компьютерная программа и битовый поток, использующий передачу сигналов с контролем искажения
JP5625032B2 (ja) マルチチャネルシンセサイザ制御信号を発生するための装置および方法並びにマルチチャネル合成のための装置および方法
KR101782917B1 (ko) 오디오 신호 처리 방법 및 장치
JP5189979B2 (ja) 聴覚事象の関数としての空間的オーディオコーディングパラメータの制御
US9584235B2 (en) Multi-channel audio processing
KR101538623B1 (ko) 두 개의 입력 오디오 신호 믹싱 방법, 및 이를 실행하기 위한 디코더 및 컴퓨터 판독가능한 매체, 및 입력 오디오 신호 믹싱 디바이스
RU2635884C2 (ru) Устройство и способ для предоставления улучшенных характеристик направленного понижающего микширования для трехмерного аудио
EP4167601A1 (en) Processing object-based audio signals
WO2009150288A1 (en) Method, apparatus and computer program product for providing improved audio processing
CN107077861B (zh) 音频编码器和解码器
Falch et al. Spatial audio object coding with enhanced audio object separation
CN112397076A (zh) 用于自适应控制去相关滤波器的方法和装置
JP7309734B2 (ja) 音量制御方法および装置
JP2023521849A (ja) オーディオディスクリプションの自動ミキシング
CN118120012A (zh) 用于限制声音编解码器中的输出合成失真的方法及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230519

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230705

R150 Certificate of patent or registration of utility model

Ref document number: 7309734

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150