JP6250071B2 - パラメトリック・マルチチャネル・エンコードのための方法 - Google Patents

パラメトリック・マルチチャネル・エンコードのための方法 Download PDF

Info

Publication number
JP6250071B2
JP6250071B2 JP2015558469A JP2015558469A JP6250071B2 JP 6250071 B2 JP6250071 B2 JP 6250071B2 JP 2015558469 A JP2015558469 A JP 2015558469A JP 2015558469 A JP2015558469 A JP 2015558469A JP 6250071 B2 JP6250071 B2 JP 6250071B2
Authority
JP
Japan
Prior art keywords
frame
spatial
parameters
input signal
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015558469A
Other languages
English (en)
Other versions
JP2016509260A (ja
Inventor
フリードリッヒ,トビアス
ミュラー,アレクサンダー
リンツマイアー,カルステン
スペンジャー,クラウス−クリスティアン
エール ワーゲンブラス,トビアス
エール ワーゲンブラス,トビアス
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2016509260A publication Critical patent/JP2016509260A/ja
Application granted granted Critical
Publication of JP6250071B2 publication Critical patent/JP6250071B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

関連出願への相互参照
本願は2013年2月21日に出願された米国仮特許出願第61/767,673号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本稿はオーディオ符号化システムに関する。詳細には、本稿は、パラメトリック・マルチチャネル・オーディオ符号化のための効率的な方法およびシステムに関する。
パラメトリック・マルチチャネル・オーディオ符号化システムは、特に低いデータ・レートにおいて向上した聴取品質を提供するために使用されうる。にもかかわらず、そのようなパラメトリック・マルチチャネル・オーディオ符号化システムを、特に帯域幅効率、計算効率および/または堅牢性に関してさらに改善する必要がある。
ある側面によれば、ダウンミックス〔減数混合〕信号および空間的メタデータを示すビットストリームを生成するよう構成されているオーディオ・エンコード・システムが記述される。空間的メタデータは、ダウンミックス信号からマルチチャネル・アップミックス〔増数混合〕信号を生成するために、対応するデコード・システムによって使われてもよい。ダウンミックス信号は、m個のチャネルを有していてもよく、マルチチャネル・アップミックス信号はn個のチャネルを有していてもよく、n、mは整数であり、m<nである。一例では、n=6、m=2である。空間的メタデータは、対応するデコード・システムが、ダウンミックス信号のm個のチャネルからマルチチャネル・アップミックス信号のn個のチャネルを生成することを許容しうる。
オーディオ・エンコード・システムは、ダウンミックス信号および空間的メタデータを量子化および/またはエンコードして、量子化/エンコードされたデータをビットストリーム中に挿入するよう構成されていてもよい。特に、ダウンミックス信号はドルビー・デジタル・プラス・エンコーダを使ってエンコードされてもよく、ビットストリームはドルビー・デジタル・プラス・ビットストリームに対応していてもよい。量子化/エンコードされた空間的メタデータは、ドルビー・デジタル・プラス・ビットストリームのデータ・フィールド中に挿入されてもよい。
オーディオ・エンコード・システムは、マルチチャネル入力信号からダウンミックス信号を生成するよう構成されたダウンミックス処理ユニットを有していてもよい。ダウンミックス処理ユニットは、本稿ではダウンミックス符号化ユニットとも称される。マルチチャネル入力信号は、前記ダウンミックス信号に基づいて再生成される前記マルチチャネル・アップミックス信号と同様、n個のチャネルを有していてもよい。特に、前記マルチチャネル・アップミックス信号は、マルチチャネル入力信号の近似を提供してもよい。ダウンミックス・ユニットは、上述したドルビー・デジタル・プラス・エンコーダを有していてもよい。マルチチャネル・アップミックス信号およびマルチチャネル入力信号は、5.1または7.1信号であってもよく、ダウンミック信号はステレオ信号であってもよい。
オーディオ・エンコード・システムは、マルチチャネル入力信号から空間的メタデータを決定するよう構成されたパラメータ処理ユニットを有していてもよい。特に、パラメータ処理ユニット(本稿ではパラメータ・エンコード・ユニットとも称される)は、一つまたは複数の空間的パラメータ、たとえば空間的パラメータの集合を決定するよう構成されていてもよい。該パラメータは、マルチチャネル入力信号のチャネルの種々の組み合わせに基づいて決定されてもよい。空間的パラメータの前記集合の空間的パラメータは、マルチチャネル入力信号の異なるチャネルの間の相互相関を示していてもよい。パラメータ処理ユニットは、空間的メタデータ・フレームと称される、マルチチャネル入力信号のフレームについての空間的メタデータを決定するよう構成されていてもよい。マルチチャネル入力信号のフレームは典型的には、マルチチャネル入力信号の、あらかじめ決定された数(たとえば1536個)のサンプルを含む。各空間的メタデータ・フレームは、空間的パラメータの一つまたは複数の集合を含んでいてもよい。
オーディオ・エンコード・システムはさらに、一つまたは複数の外部設定に基づいてパラメータ処理ユニットのための一つまたは複数の制御設定を決定するよう構成されている構成設定ユニットを有していてもよい。前記一つまたは複数の外部設定は、ビットストリームのための目標データ・レートを含んでいてもよい。代替的または追加的に、前記一つまたは複数の外部設定は:前記マルチチャネル入力信号のサンプリング・レート、前記ダウンミックス信号のチャネルの数m、前記マルチチャネル入力信号のチャネルの数nおよび/または対応するデコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期の一つまたは複数を含んでいてもよい。前記一つまたは複数の制御設定は、空間的メタデータのための最大データ・レートを含んでいてもよい。空間的メタデータ・フレームの場合、空間的メタデータのための最大データ・レートは、空間的メタデータ・フレームのためのメタデータ・ビットの最大数を示していてもよい。代替的または追加的に、前記一つまたは複数の制御設定は:決定されるべき空間的メタデータ・フレーム当たりの空間的パラメータの集合の数を示す時間的分解能設定、空間的パラメータが決定されるべき周波数帯域の数を示す周波数分解能設定、空間的メタデータを量子化するために使われるべき量子化器の型を示す量子化器設定および前記マルチチャネル入力信号の現在フレームが独立フレームとしてエンコードされるべきかどうかの指示のうちの一つまたは複数を含んでいてもよい。
パラメータ処理ユニットは、前記一つまたは複数の制御設定に従って決定された空間的メタデータ・フレームのビット数がメタデータ・ビットの最大数を超過するかどうかを判定するよう構成されていてもよい。さらに、パラメータ処理ユニットは、特定の空間的メタデータ・フレームのビット数がメタデータ・ビットの最大数を超過すると判定される場合、その特定の空間的メタデータ・フレームのビット数を減らすよう構成されていてもよい。ビット数のこの低減は、資源(処理パワー)効率のよい仕方で実行されてもよい。特に、ビット数のこの低減は、完全な空間的メタデータ・フレームを再計算する必要なしに実行されてもよい。
上記に示したように、空間的メタデータ・フレームは、空間的パラメータの一つまたは複数の集合を含んでいてもよい。前記一つまたは複数の制御設定は、パラメータ処理ユニットによって決定されるべき空間的メタデータ・フレーム当たりの空間的パラメータの集合の数を示す時間的分解能設定を含んでいてもよい。パラメータ処理ユニットは、現在の空間的メタデータ・フレームについて、時間的分解能設定によって示される数の集合の空間的パラメータを決定するよう構成されていてもよい。典型的には、時間的分解能設定は1または2の値を取る。さらに、パラメータ処理ユニットは、現在の空間的メタデータ・フレームが空間的パラメータの複数の集合を有している場合および現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの最大数を超える場合には、現在の空間的メタデータ・フレームからの空間的パラメータの集合を破棄するよう構成されていてもよい。パラメータ処理ユニットは、空間的メタデータ・フレーム当たり空間的パラメータの少なくとも一つの集合を保持するよう構成されていてもよい。空間的メタデータ・フレームから空間的パラメータの集合を破棄することにより、空間的メタデータ・フレームのビット数は、ほとんど計算努力なしに、マルチチャネル・アップミックス信号の知覚される聴取品質に有意に影響することなく、低減されうる。
空間的パラメータの前記一つまたは複数の集合は、典型的には、対応する一つまたは複数のサンプリング点に関連付けられている。前記一つまたは複数のサンプリング点は、対応する一つまたは複数の時点を示していてもよい。特に、サンプリング点は、デコード・システムが空間的パラメータの対応する集合をフルに適用すべき時点を示していてもよい。換言すれば、サンプリング点は、それについて空間的パラメータの対応する集合が決定されたような時点を示していてもよい。
パラメータ処理ユニットは、現在のメタデータ・フレームの前記複数のサンプリング点が前記マルチチャネル入力信号の過渡成分に関連付けられていない場合、現在の空間的メタデータ・フレームから空間的パラメータの第一の集合を破棄するよう構成されていてもよい。ここで、空間的パラメータの前記第一の集合は、第二のサンプリング点より前の第一のサンプリング点に関連付けられている。他方、パラメータ処理ユニットは、現在のメタデータ・フレームの前記複数のサンプリング点が前記マルチチャネル入力信号の過渡成分に関連付けられている場合には、現在の空間的メタデータ・フレームから空間的パラメータの第二の集合(典型的には最後の集合)を破棄するよう構成されていてもよい。こうすることにより、パラメータ処理ユニットは、前記マルチチャネル・アップミックス信号の聴取品質に対する、空間的パラメータの集合を破棄することの影響を低減するよう構成されうる。
前記一つまたは複数の制御設定は、複数のあらかじめ決定された型の量子化器からの第一の型の量子化器を示す量子化器設定を有していてもよい。前記複数のあらかじめ決定された型の量子化器は、それぞれ異なる量子化器分解能を提供してもよい。特に、前記複数のあらかじめ決定された型の量子化器は細かい量子化および粗い量子化を含んでいてもよい。パラメータ処理ユニットは、前記第一の型の量子化器に従って、現在の空間的メタデータ・フレームの空間的パラメータの前記一つまたは複数の集合を量子化するよう構成されていてもよい。さらに、パラメータ処理ユニットは、現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの最大数を超過すると判定される場合、前記第一の型の量子化器より低い分解能をもつ第二の型の量子化器に従って空間的パラメータの前記一つまたは複数の集合の空間的パラメータの一つ、いくつかまたは全部を再量子化するよう構成されていてもよい。こうすることにより、アップミックス信号の品質には限られた度合いしか影響することなく、オーディオ・エンコード・システムの計算上の複雑さを著しく増すことなく、現在の空間的メタデータ・フレームのビット数が低減されることができる。
パラメータ処理ユニットは、空間的パラメータの現在の集合の、空間的パラメータの直前の集合に対する差に基づいて時間的差分パラメータの集合を決定するよう構成されていてもよい。特に、時間的差分パラメータは、空間的パラメータの現在の集合のあるパラメータと、空間的パラメータの直前の集合の対応するパラメータとの差を決定することによって決定されてもよい。空間的パラメータの集合は、たとえば本稿に記載されるパラメータα1、α2、α3、β1、β2、β3、g、k1、k2を含んでいてもよい。典型的には、パラメータk1、k2のうちの一方だけが伝送される必要があるのでもよい。両パラメータは関係k1 2+k2 2=1によって関係付けられうるからである。例として、パラメータk1だけが送信され、パラメータk2は受信側で計算されてもよい。時間的差分パラメータは、上述したパラメータの対応するものの差に関係していてもよい。
パラメータ処理ユニットは、エントロピー・エンコードを使って、たとえばハフマン符号を使って時間的差分パラメータの集合をエンコードするよう構成されていてもよい。さらに、パラメータ処理ユニットは、時間的差分パラメータのエンコードされた集合を、現在の空間的メタデータ・フレーム中に挿入するよう構成されていてもよい。さらに、パラメータ処理ユニットは、現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの最大数を超えると判定される場合に、時間的差分パラメータの集合のエントロピーを低減するよう構成されていてもよい。この結果として、時間的差分パラメータをエントロピー・エンコードするために必要とされるビット数が低減されうる。それにより、現在の空間的メタデータ・フレームのために使われるビット数が低減されうる。例として、パラメータ処理ユニットは、時間的差分パラメータの前記集合のエントロピーを低減するために、時間的差分パラメータの前記集合の時間的差分パラメータのうちの一つ、いくつかまたは全部を、時間的差分パラメータの可能な値の増大した(たとえば最高の)確率をもつ値に等しく設定するよう構成されていてもよい。特に、前記確率は、設定動作に先立つ時間的差分パラメータの確率に比べて増大させられてもよい。典型的には、時間的差分パラメータの可能な値の最高の確率をもつ値は0に対応する。
空間的パラメータの前記集合の時間的差分エンコードは典型的には独立フレームについては使用されなくてもよいことを注意しておくべきである。よって、パラメータ処理ユニットは、現在の空間的メタデータ・フレームが独立フレームであるかどうかを検証し、現在の空間的メタデータ・フレームが独立フレームでない場合にのみ時間的差分エンコードを適用するよう構成されていてもよい。他方、後述の周波数差分エンコードは、独立フレームについても使用されてもよい。
前記一つまたは複数の制御設定は、周波数分解能設定を含んでいてもよい。ここで、周波数分解能設定は、帯域パラメータと称されるそれぞれの空間的パラメータが決定されるべき異なる周波数帯域の数を示す。パラメータ処理ユニットは、異なる周波数帯域について異なる対応する空間的パラメータ(帯域パラメータ)を決定するよう構成されていてもよい。特に、異なる周波数帯域についての異なるパラメータα1、α2、α3、β1、β2、β3、g、k1、k2が決定されてもよい。したがって、空間的パラメータの前記集合は、該異なる周波数帯域についての対応する帯域パラメータを含んでいてもよい。例として、空間的パラメータの前記集合は、T個の周波数帯域についてのT個の対応する帯域パラメータを含んでいてもよい。Tは整数で、たとえばT=7、9、12または15である。
パラメータ処理ユニットは、第一の周波数帯域における一つまたは複数の帯域パラメータの、第二の、隣接する周波数帯域における対応する一つまたは複数の帯域パラメータに対する差に基づいて、周波数差分パラメータの集合を決定するよう構成されていてもよい。さらに、パラメータ処理ユニットは、エントロピー・エンコードを使って、たとえばハフマン符号に基づいて周波数差分パラメータの集合をエンコードするよう構成されていてもよい。さらに、パラメータ処理ユニットは、周波数差分パラメータのエンコードされた集合を、現在の空間的メタデータ・フレーム中に挿入するよう構成されていてもよい。さらに、パラメータ処理ユニットは、現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの最大数を超えると判定される場合に、周波数差分パラメータの集合のエントロピーを低減するよう構成されていてもよい。特に、パラメータ処理ユニットは、周波数差分パラメータの前記集合のエントロピーを低減するために、周波数差分パラメータの前記集合の周波数差分パラメータのうちの一つ、いくつかまたは全部を、周波数差分パラメータの可能な値の増大した確率をもつ値(たとえば0)に等しく設定するよう構成されていてもよい。特に、前記確率は、設定動作の前の周波数差分パラメータの確率に比べて増大させられてもよい。
代替的または追加的に、パラメータ処理ユニットは、現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの最大数を超えると判定される場合、周波数帯域の数を低減するよう構成されていてもよい。さらに、パラメータ処理ユニットは、低減した数の周波数帯域を使って、現在の空間的メタデータ・フレームについての空間的パラメータの前記一つまたは複数の集合の一部または全部を再決定するよう構成されていてもよい。典型的には、周波数帯域の数の変化は、主として高周波数帯域に影響する。結果として、一つまたは複数の周波数の帯域パラメータは影響されないことがあり、よってパラメータ処理ユニットはすべての帯域パラメータを再計算する必要がないことがある。
上記で示したように、前記一つまたは複数の外部設定は、対応するデコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期を含んでいてもよい。さらに、前記一つまたは複数の制御設定は、現在の空間的メタデータ・フレームが独立フレームとしてエンコードされるべきであるかどうかの指標を含んでいてもよい。パラメータ処理ユニットは、前記マルチチャネル入力信号のフレームの対応するシーケンスについて、空間的メタデータ・フレームのシーケンスを決定するよう構成されていてもよい。前記構成設定ユニットは、空間的メタデータ・フレームの前記シーケンスから、独立フレームとしてエンコードされるべき前記一つまたは複数の空間的メタデータ・フレームを、前記更新周期に基づいて、決定するよう構成されていてもよい。
特に、前記一つまたは複数の独立空間的メタデータ・フレームは、前記更新周期が(平均して)満たされるよう決定されてもよい。この目的のために、前記構成設定ユニットは、前記マルチチャネル入力信号のフレームの前記シーケンスの現在フレームが、前記更新周期の整数倍である(前記マルチチャネル入力信号の始点に対する)時点におけるサンプルを含むかどうかを判定するよう構成されていてもよい。さらに、前記構成設定ユニットは、現在フレームに対応する現在の空間的メタデータ・フレームが(更新周期の整数倍である時点におけるサンプルを含んでいるので)独立フレームであることを判別するよう構成されていてもよい。パラメータ処理ユニットは、現在の空間的メタデータ・フレームが独立フレームとしてエンコードされるべきである場合、現在の空間的メタデータ・フレームの空間的パラメータの一つまたは複数の集合を、以前の(および/または将来の)空間的メタデータ・フレームに含まれるデータから独立にエンコードするよう構成されていてもよい。典型的には、現在の空間的メタデータ・フレームが独立フレームとしてエンコードされるべきである場合、現在の空間的メタデータの空間的パラメータのすべての集合が、以前の(および/または将来の)空間的メタデータ・フレームに含まれるデータから独立にエンコードされる。
もう一つの側面によれば、ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定するよう構成されているパラメータ処理ユニットが記述される。ダウンミックス信号は、m個のチャネルを有していてもよく、マルチチャネル・アップミックス信号はn個のチャネルを有していてもよく、n、mは整数であり、m<nである。上記で概説したように、空間的メタデータ・フレームは、空間的パラメータの一つまたは複数の集合を含んでいてもよい。
パラメータ処理ユニットは、前記マルチチャネル入力信号のあるチャネルの現在フレームおよび直後のフレーム(先読みフレームと称される)から複数のスペクトルを決定するよう構成されている変換ユニットを有していてもよい。変換ユニットは、フィルタバンク、たとえばQMFフィルタバンクを利用してもよい。前記複数のスペクトルのスペクトルは、対応するあらかじめ決定された数の周波数ビン内のあらかじめ決定された数の変換係数を含んでいてもよい。前記複数のスペクトルは対応する複数の時間ビン(または時点)に関連付けられていてもよい。よって、変換ユニットは、現在フレームおよび先読みフレームの時間/周波数表現を提供するよう構成されていてもよい。例として、現在フレームおよび先読みフレームは、それぞれK個のサンプルを有していてもよい。変換ユニットは、それぞれQ個の変換係数を含む2かけるK/Q個のスペクトルを決定するよう構成されていてもよい。
パラメータ処理ユニットは、窓関数を使って前記複数のスペクトルに重み付けすることによって、前記マルチチャネル入力信号のチャネルの現在フレームについて空間的メタデータ・フレームを決定するよう構成されたパラメータ決定ユニットを有していてもよい。窓関数は、特定の空間的パラメータに対するまたは空間的パラメータの特定の集合に対する前記複数のスペクトルのうちのスペクトルの影響を調整するために使われてもよい。例として、窓関数は0から1までの間の値を取ってもよい。
窓関数は:空間的メタデータ・フレーム内に含まれる空間的パラメータの集合の数、前記マルチチャネル入力信号の現在フレームまたは直後のフレームにおける一つまたは複数の過渡成分の存在および/または前記過渡成分の時点の一つまたは複数に依存してもよい。換言すれば、窓関数は、現在フレームおよび/または先読みフレームの属性に従って適応されてもよい。特に、空間的パラメータの集合を決定するために使われる窓関数(集合依存の窓関数と称される)は、現在フレームおよび/または先読みフレームの一つまたは複数の属性に依存してもよい。
よって、窓関数は、集合依存の窓関数を含んでいてもよい。特に、空間的メタデータ・フレームの空間的パラメータを決定するための窓関数は、それぞれ空間的パラメータの前記一つまたは複数の集合について、一つまたは複数の集合依存の窓関数を含んでいてもよい(あるいはそれから構成されてもよい)。前記パラメータ決定ユニットは、前記マルチチャネル入力信号の前記チャネルの現在フレームについての(すなわち、前記現在の空間的メタデータ・フレームについての)空間的パラメータの集合を、集合依存の窓関数を使って前記複数のスペクトルを重み付けすることによって決定するよう構成されていてもよい。上記で概説したように、前記集合依存の窓関数は、現在フレームの一つまたは複数の属性に依存してもよい。特に、集合依存の窓関数は、空間的パラメータの該集合が過渡成分に関連付けられているか否かに依存してもよい。
例として、空間的パラメータの該集合が過渡成分に関連付けられていない場合、集合依存の窓関数は、空間的パラメータの先行する集合のサンプリング点から始まり空間的パラメータの当該集合のサンプリング点までの前記複数のスペクトルのフェーズインを提供するよう構成されていてもよい。フェーズインは、0から1に移行する窓関数によって提供されてもよい。代替的または追加的に、空間的パラメータの前記集合が過渡成分に関連付けられていない場合、空間的パラメータの後続集合が過渡成分に関連付けられていれば、集合依存の窓関数は、空間的パラメータの当該集合の前記サンプリング点から始まり空間的パラメータの前記後続集合のサンプリング点に先行する前記複数のスペクトルを含めてもよい(あるいは、それをフルに考慮してもよいあるいはそれを影響されずに残してもよい)。これは、値1をもつ窓関数によって達成されてもよい。代替的または追加的に、空間的パラメータの前記集合が過渡成分に関連付けられていない場合、空間的パラメータの後続集合が過渡成分に関連付けられていれば、集合依存の窓関数は、空間的パラメータの前記後続集合の前記サンプリング点から始まり前記複数のスペクトルを打ち消してもよい(あるいは、それを排除してもよく、それを減衰させてもよい)。これは、値0をもつ窓関数によって達成されてもよい。代替的または追加的に、空間的パラメータの前記集合が過渡成分に関連付けられていない場合、空間的パラメータの後続集合が過渡成分に関連付けられていなければ、集合依存の窓関数は、空間的パラメータの当該集合のサンプリング点から始まり空間的パラメータの前記後続集合のサンプリング点の前の前記複数のスペクトルのスペクトルまで、前記複数のスペクトルをフェーズアウトしてもよい。フェーズアウトは、1から0に移行する窓関数によって提供されてもよい。
他方、空間的パラメータの該集合が過渡成分に関連付けられている場合、集合依存の窓関数は、空間的パラメータの前記集合のサンプリング点の前の前記複数のスペクトルからのスペクトルを打ち消してもよい(あるいは、それを排除してもよく、それを減衰させてもよい)。代替的または追加的に、空間的パラメータの前記集合が過渡成分に関連付けられている場合、空間的パラメータの後続集合のサンプリング点が過渡成分に関連付けられていれば、集合依存の窓関数は、空間的パラメータの当該集合のサンプリング点から始まり空間的パラメータの前記後続集合のサンプリング点の前の前記複数のスペクトルのスペクトルまで前記複数のスペクトルからのスペクトルを含めてもよく(すなわち、それを影響されずに残してもよく)、空間的パラメータの前記後続集合のサンプリング点から始まる前記複数のスペクトルからのスペクトルを打ち消してもよい(すなわち、それを排除してもよく、それを減衰させてもよい)。代替的または追加的に、空間的パラメータの前記集合が過渡成分に関連付けられている場合、空間的パラメータの後続集合が過渡成分に関連付けられていなければ、集合依存の窓関数は、空間的パラメータの当該集合のサンプリング点から現在フレームの終わりの前記複数のスペクトルのスペクトルまで前記複数のスペクトルのスペクトルを含めてもよく(すなわち、それを影響されずに残してもよく)、直後のフレームの先頭から空間的パラメータの前記後続集合のサンプリング点まで前記複数のスペクトルのスペクトルのフェーズアウトを提供してもよい(すなわち徐々に減衰させてもよい)。
あるさらなる側面によれば、ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定するよう構成されているパラメータ処理ユニットが記述される。ダウンミックス信号は、m個のチャネルを有していてもよく、マルチチャネル・アップミックス信号はn個のチャネルを有していてもよく、n、mは整数であり、m<nである。上記で論じたように、空間的メタデータ・フレームは、空間的パラメータの集合を含んでいてもよい。
上記で概説したように、パラメータ処理ユニットは変換ユニットを有していてもよい。変換ユニットは、マルチチャネル入力信号の第一のチャネルのフレームから第一の複数の変換係数を決定するよう構成されていてもよい。さらに、変換ユニットは、マルチチャネル入力信号の第二のチャネルの対応するフレームから第二の複数の変換係数を決定するよう構成されていてもよい。第一および第二のチャネルは異なっていてもよい。よって、第一および第二の複数の変換係数は、それぞれ第一および第二のチャネルの対応するフレームの第一および第二の時間/周波数表現を提供する。上記で概説したように、第一および第二の時間/周波数表現は、複数の周波数ビンおよび複数の時間ビンを含んでいてもよい。
さらに、パラメータ処理ユニットは、固定小数点算術を使って第一および第二の複数の変換係数に基づいて空間的パラメータの集合を決定するよう構成されたパラメータ決定ユニットを有していてもよい。上記で示したように、空間的パラメータの前記集合は、典型的には、種々の周波数帯域について対応する帯域パラメータを含む。ここで、異なる周波数帯域は異なる数の周波数ビンを含んでいてもよい。特定の周波数帯域についての特定の帯域パラメータは、前記特定の周波数帯域の第一および第二の複数の変換係数からの変換係数に基づいて(典型的には他の周波数帯域の変換係数を考慮することなく)決定されてもよい。パラメータ決定ユニットは、前記特定の帯域パラメータを決定するために前記固定小数点算術によって使用されるシフトを、前記特定の周波数帯域に依存して、決定するよう構成されていてもよい。特に、前記特定の周波数帯域についての前記特定の帯域パラメータを決定するために前記固定小数点算術によって使用されるシフトは、前記特定の周波数帯域内に含まれる周波数ビンの数に依存してもよい。代替的または追加的に、前記特定の周波数帯域についての前記特定の帯域パラメータを決定するために前記固定小数点算術によって使用されるシフトは、前記特定の帯域パラメータを決定するために考慮されるべき時間ビンの数に依存してもよい。
パラメータ決定ユニットは、前記特定の帯域パラメータの精度が最大になるよう、前記特定の周波数帯域についてのシフトを決定するよう構成されていてもよい。これは、前記特定の帯域パラメータの決定プロセスの各積和演算について必要とされるシフトを決定することによって達成されてもよい。
パラメータ決定ユニットは、前記特定の周波数帯域pについての前記特定の帯域パラメータを決定するのを、前記第一の複数の変換係数からの前記特定の周波数帯域pにはいる変換係数に基づいて第一のエネルギー(またはエネルギー推定値)E1,1(p)を決定することによって行なうよう構成されていてもよい。さらに、前記第二の複数の変換係数からの前記特定の周波数帯域pにはいる変換係数に基づいて第二のエネルギー(またはエネルギー推定値)E2,2(p)が決定されてもよい。さらに、前記第一および第二の複数の変換係数からの前記特定の周波数帯域pにはいる変換係数に基づいてクロス積または共分散E1,2(p)が決定されてもよい。パラメータ決定ユニットは、前記第一のエネルギー推定値E1,1(p)、前記第二のエネルギー推定値E2,2(p)および前記共分散E1,2(p)の絶対値のうちの最大に基づいて、前記特定の帯域パラメータpについてのシフトzpを決定するよう構成されていてもよい。
もう一つの側面によれば、ダウンミックス信号のフレームのシーケンスと、ダウンミックス信号のフレームの前記シーケンスからマルチチャネル・アップミックス信号のフレームの対応するシーケンスを生成するための空間的メタデータ・フレームの対応するシーケンスとを示すビットストリームを生成するよう構成されたオーディオ・エンコード・システムが記述される。本システムは、マルチチャネル入力信号のフレームの対応するシーケンスから前記ダウンミックス信号のフレームの前記シーケンスを生成するよう構成されたダウンミックス処理ユニットを有していてもよい。上記で示したように、ダウンミックス信号は、m個のチャネルを有していてもよく、マルチチャネル入力信号はn個のチャネルを有していてもよく、n、mは整数であり、m<nである。さらに、本オーディオ・エンコード・システムは、マルチチャネル入力信号のフレームの前記シーケンスから空間的メタデータ・フレームの前記シーケンスを決定するよう構成されたパラメータ処理ユニットを有していてもよい。
さらに、本オーディオ・エンコード・システムは、ビットストリーム・フレームのシーケンスを含む前記ビットストリームを生成するよう構成されたビットストリーム生成ユニットを有していてもよい。ここで、ビットストリーム・フレームは、マルチチャネル入力信号の第一のフレームに対応する前記ダウンミックス信号のフレームと、マルチチャネル入力信号の第二のフレームに対応する空間的メタデータ・フレームとを示す。第二のフレームは第一のフレームとは異なっていてもよい。特に、第一のフレームは第二のフレームに先行していてもよい。こうすることにより、現在フレームについての前記空間的メタデータ・フレームは、その後のフレームの当該フレームと一緒に伝送されうる。これは、空間的メタデータ・フレームが、必要とされるときにのみ、対応するデコード・システムに到着することを保証する。デコード・システムは典型的には、ダウンミックス信号の現在フレームをデコードし、ダウンミックス信号の現在フレームに基づいて脱相関されたフレームを生成する。この処理は、アルゴリズム遅延を導入し、現在フレームについての空間的メタデータ・フレームを遅延させることによって、ひたびデコードされた現在フレームおよび脱相関されたフレームが提供されてから、空間的メタデータ・フレームがデコード・システムに到着するだけであることが保証される。結果として、デコード・システムの処理パワーおよびメモリ要求が軽減できる。
換言すれば、マルチチャネル入力信号に基づいてビットストリームを生成するよう構成されているオーディオ・エンコード・システムが記述される。上記で概説したように、本システムは、マルチチャネル入力信号の第一の諸フレームの対応するシーケンスから、ダウンミックス信号の諸フレームのシーケンスを生成するよう構成されたダウンミックス処理ユニットを有していてもよい。ダウンミックス信号は、m個のチャネルを有していてもよく、マルチチャネル入力信号はn個のチャネルを有していてもよく、n、mは整数であり、m<nである。さらに、本オーディオ・エンコード・システムは、マルチチャネル入力信号の第二の諸フレームのシーケンスから空間的メタデータ・フレームのシーケンスを決定するよう構成されたパラメータ処理ユニットを有していてもよい。ダウンミックス信号のフレームのシーケンスおよび空間的メタデータ・フレームのシーケンスは、対応するデコード・システムによって、n個のチャネルを含むマルチチャネル・アップミックス信号を生成するために使用されてもよい。
本オーディオ・エンコード・システムはさらに、ビットストリーム・フレームのシーケンスを含む前記ビットストリームを生成するよう構成されたビットストリーム生成ユニットを有していてもよい。ここで、ビットストリーム・フレームは、マルチチャネル入力信号の第一の諸フレームのシーケンスの第一のフレームに対応する前記ダウンミックス信号のフレームと、マルチチャネル入力信号の第二の諸フレームの第二のフレームに対応する空間的メタデータ・フレームとを示す。第二のフレームは第一のフレームとは異なっていてもよい。換言すれば、空間的メタデータ・フレームを決定するために使われるフレーム構成と、ダウンミックス信号のフレームを決定するために使われるフレーム構成は異なっていてもよい。上記で概説したように、異なるフレーム構成は、対応するデコード・システムにおいてデータが整列されることを保証するために使われてもよい。
第一のフレームおよび第二のフレームは典型的には同数のサンプル(たとえば1536個のサンプル)を含んでいてもよい。第一のフレームのサンプルのいくつかは、第二のフレームのサンプルに先行してもよい。特に、第一のフレームは、あらかじめ決定された数のサンプルだけ第二のフレームより先行していてもよい。あらかじめ決定された数のサンプルは、たとえば、フレームのサンプル数のある割合に対応していてもよい。例として、あらかじめ決定された数のサンプルは、フレームのサンプル数の50%またはそれ以上に対応していてもよい。具体例では、あらかじめ決定された数のサンプルは928個のサンプルに対応する。本稿に示されるように、この特定のサンプル数は、オーディオ・エンコードおよびデコード・システムの特定の実装についての最小の全体的遅延および最適な整列を提供する。
あるさらなる側面によれば、マルチチャネル入力信号に基づいてビットストリームを生成するよう構成されたオーディオ・エンコード・システムが記述される。本システムは、マルチチャネル入力信号のフレームの対応するシーケンスについて、クリッピング保護利得(本稿ではクリップ利得および/またはDRC2パラメータとも称される)のシーケンスを決定するよう構成されたダウンミックス処理ユニットを有していてもよい。現在のクリッピング保護利得は、ダウンミックス信号の対応する現在フレームのクリッピングを防止するために、マルチチャネル入力信号の現在フレームに適用されるべき減衰を示していてもよい。同様に、クリッピング保護利得のシーケンスは、ダウンミックス信号のフレームのシーケンスの対応する諸フレームのクリッピングを防止するために、マルチチャネル入力信号のフレームのシーケンスの諸フレームに適用されるべきそれぞれの減衰を示していてもよい。
ダウンミックス処理ユニットは、現在のクリッピング保護利得と、マルチチャネル入力信号の先行フレームの先行クリッピング保護利得とを補間してクリッピング保護利得曲線を与えるよう構成されていてもよい。これは、クリッピング保護利得のシーケンスについて同様の仕方で実行されてもよい。さらに、ダウンミックス処理ユニットは、マルチチャネル入力信号の現在フレームにクリッピング保護利得曲線を適用して、マルチチャネル入力信号の減衰した現在フレームを与えるよう構成されていてもよい。ここでもまた、これはマルチチャネル入力信号のフレームのシーケンスについて同様の仕方で実行されてもよい。さらに、ダウンミックス処理ユニットは、マルチチャネル入力信号の減衰した現在フレームからダウンミックス信号のフレームのシーケンスの現在フレームを生成するよう構成されていてもよい。同様の仕方で、ダウンミックス信号のフレームのシーケンスが生成されてもよい。
本オーディオ処理システムはさらに、マルチチャネル入力信号から空間的メタデータ・フレームのシーケンスを決定するよう構成されたパラメータ処理ユニットを有していてもよい。ダウンミックス信号のフレームのシーケンスおよび空間的メタデータ・フレームのシーケンスは、nチャネルを含むマルチチャネル・アップミックス信号を生成するために使われてもよく、マルチチャネル・アップミックス信号はマルチチャネル入力信号の近似となる。さらに、本オーディオ処理システムは、対応するデコード・システムがマルチチャネル・アップミックス信号を生成できるようにするよう、クリッピング保護利得のシーケンス、ダウンミックス信号のフレームのシーケンスおよび空間的メタデータ・フレームのシーケンスを示すビットストリームを生成するよう構成されたビットストリーム生成ユニットを有していてもよい。
クリッピング保護利得曲線は、先行するクリッピング保護利得から現在のクリッピング保護利得へのなめらかな遷移を提供する遷移セグメントと、現在のクリッピング保護利得において平坦なままである平坦なセグメントとを含んでいてもよい。遷移セグメントは、マルチチャネル入力信号の現在フレームのあらかじめ決定された数のサンプルを通じて広がっていてもよい。サンプルのあらかじめ決定された数は、1より大きく、マルチチャネル入力信号の現在のフレームのサンプルの総数より小さくてもよい。特に、あらかじめ決定された数のサンプルは、サンプルのブロック(ここで、フレームは複数のブロックを含んでいてもよい)に、またはフレームに対応してもよい。具体例では、フレームは1536個のサンプルを有していてもよく、ブロックは256個のサンプルを有していてもよい。
あるさらなる側面によれば、ダウンミックス信号と、ダウンミックス信号からマルチチャネル・アップミックス信号を生成するための空間的メタデータとを示すビットストリームを生成するよう構成されたオーディオ・エンコード・システムが記述される。本システムは、マルチチャネル入力信号から前記ダウンミックス信号を生成するよう構成されたダウンミックス処理ユニットを有していてもよい。さらに、本システムは、マルチチャネル入力信号のフレームの対応するシーケンスについての空間的メタデータのフレームのシーケンスを決定するよう構成されたパラメータ処理ユニットを有していてもよい。
さらに、本オーディオ・エンコード・システムは、一つまたは複数の外部設定に基づいてパラメータ処理ユニットについての一つまたは複数の制御設定を決定するよう構成された構成設定ユニットを有していてもよい。前記一つまたは複数の外部設定は、対応するデコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期を含んでいてもよい。前記構成設定ユニットは、前記更新周期に基づいて、空間的メタデータのフレームのシーケンスから、独立してエンコードされるべき空間的メタデータの一つまたは複数の独立フレームを判別するよう構成されていてもよい。
もう一つの側面によれば、ダウンミックス信号と、ダウンミックス信号からマルチチャネル・アップミックス信号を生成するための空間的メタデータとを示すビットストリームを生成する方法が記述される。本方法は、マルチチャネル入力信号から前記ダウンミックス信号を生成する段階を含んでいてもよい。さらに、本方法は、一つまたは複数の外部設定に基づいて一つまたは複数の制御設定を決定する段階を含んでいてもよい。前記一つまたは複数の外部設定は、ビットストリームのための目標データ・レートを含み、前記一つまたは複数の制御設定は、空間的メタデータのための最大データ・レートを含む。さらに、本方法は、前記制御設定に従って、マルチチャネル入力信号から空間的メタデータを決定する段階を含んでいてもよい。
あるさらなる側面によれば、ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定する方法が記述される。本方法は、マルチチャネル入力信号のあるチャネルの現在フレームおよび直後のフレームから複数のスペクトルを決定する段階を含む。さらに、本方法は、窓関数を使って前記複数のスペクトルに重み付けして、複数の重み付けされたスペクトルを与える段階を含んでいてもよい。さらに、本方法は、前記複数の重み付けされたスペクトルに基づいてマルチチャネル入力信号の前記チャネルの現在フレームについての前記空間的メタデータ・フレームを決定する段階を含んでいてもよい。窓関数は:空間的メタデータ・フレーム内に含まれる空間的パラメータの集合の数、前記マルチチャネル入力信号の現在フレームまたは直後のフレームにおける過渡成分の存在および/または前記過渡成分の時点の一つまたは複数に依存してもよい。
あるさらなる側面によれば、ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定する方法が記述される。本方法は、マルチチャネル入力信号の第一のチャネルのフレームから第一の複数の変換係数を決定し、マルチチャネル入力信号の第二のチャネルの対応するフレームから第二の複数の変換係数を決定することを含んでいてもよい。上記で概説したように、第一および第二の複数の変換係数は典型的には、それぞれ第一および第二のチャネルの対応するフレームの第一および第二の時間/周波数表現を提供する。第一および第二の時間/周波数表現は、複数の周波数ビンおよび複数の時間ビンを含んでいてもよい。空間的パラメータの集合が、それぞれ異なる数の周波数ビンを含む異なる周波数帯域について、対応する帯域パラメータを含んでいてもよい。本方法はさらに、固定小数点算術を使って特定の周波数帯域についての特定の帯域パラメータを決定するときに適用されるシフトを決定することを含んでいてもよい。前記シフトは、前記特定の周波数帯域に基づいて決定されてもよい。さらに、前記シフトは、前記特定の帯域パラメータを決定するために考慮されるべき時間ビンの数に基づいて決定されてもよい。さらに、本方法は、前記特定の周波数帯域にはいる前記第一および第二の複数の変換係数に基づいて、固定小数点算術および決定されたシフトを使って、前記特定の帯域パラメータを決定することを含んでいてもよい。
マルチチャネル入力信号に基づくビットストリームを生成する方法が記述される。本方法は、マルチチャネル入力信号の第一の諸フレームの対応するシーケンスから、ダウンミックス信号の諸フレームのシーケンスを生成する段階を含んでいてもよい。さらに、本方法は、マルチチャネル入力信号の第二の諸フレームのシーケンスから空間的メタデータ・フレームのシーケンスを決定する段階を含んでいてもよい。ダウンミックス信号のフレームのシーケンスおよび空間的メタデータ・フレームのシーケンスは、マルチチャネル・アップミックス信号を生成するためであってもよい。さらに、本方法は、ビットストリーム・フレームのシーケンスを含む前記ビットストリームを生成する段階を含んでいてもよい。ビットストリーム・フレームは、マルチチャネル入力信号の第一の諸フレームのシーケンスの第一のフレームに対応する前記ダウンミックス信号のフレームと、マルチチャネル入力信号の第二の諸フレームのシーケンスの第二のフレームに対応する空間的メタデータ・フレームとを示してもよい。第二のフレームは第一のフレームとは異なっていてもよい。
あるさらなる側面によれば、マルチチャネル入力信号に基づいてビットストリームを生成する方法が記述される。本方法は、マルチチャネル入力信号のフレームの対応するシーケンスについて、クリッピング保護利得のシーケンスを決定する段階を含んでいてもよい。現在のクリッピング保護利得は、ダウンミックス信号の対応する現在フレームのクリッピングを防止するために、マルチチャネル入力信号の現在フレームに適用されるべき減衰を示していてもよい。本方法は、現在のクリッピング保護利得と、マルチチャネル入力信号の先行フレームの先行クリッピング保護利得とを補間してクリッピング保護利得曲線を与えることに進んでもよい。さらに、本方法は、マルチチャネル入力信号の現在フレームにクリッピング保護利得曲線を適用して、マルチチャネル入力信号の減衰した現在フレームを与える段階を含んでいてもよい。マルチチャネル入力信号の減衰した現在フレームからダウンミックス信号のフレームのシーケンスの現在フレームが生成されてもよい。さらに、本方法は、マルチチャネル入力信号から空間的メタデータ・フレームのシーケンスを決定する段階を含んでいてもよい。ダウンミックス信号のフレームのシーケンスおよび空間的メタデータ・フレームのシーケンスは、マルチチャネル・アップミックス信号を生成するために使われてもよい。前記ビットストリームに基づく前記マルチチャネル・アップミックス信号の生成を可能にするため、前記ビットストリームがクリッピング保護利得のシーケンス、ダウンミックス信号のフレームのシーケンスおよび空間的メタデータ・フレームのシーケンスを示すよう、前記ビットストリームが生成されてもよい。
あるさらなる側面によれば、ダウンミックス信号と、ダウンミックス信号からマルチチャネル・アップミックス信号を生成するための空間的メタデータとを示すビットストリームを生成する方法が記述される。本方法は、マルチチャネル入力信号から前記ダウンミックス信号を生成する段階を含んでいてもよい。さらに、本方法は、一つまたは複数の外部設定に基づいて一つまたは複数の制御設定を決定する段階を含んでいてもよい。前記一つまたは複数の外部設定は、対応するデコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期を含んでいてもよい。本方法はさらに、前記制御設定に従って、マルチチャネル入力信号のフレームの対応するシーケンスについて、空間的メタデータのフレームのシーケンスを決定する段階を含んでいてもよい。さらに、本方法は、前記更新周期に従って、空間的メタデータのフレームの前記シーケンスからの空間的メタデータの一つまたは複数のフレームを、独立フレームとしてエンコードすることを含んでいてもよい。
あるさらなる側面によれば、ソフトウェア・プログラムが記述される。該ソフトウェア・プログラムは、プロセッサ上での実行のために、前記プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されていてもよい。
もう一つの側面によれば、記憶媒体が記述される。該記憶媒体は、プロセッサ上での実行のために、前記プロセッサ上で実行されたときに本稿で概説される方法段階を実行するよう適応されているソフトウェア・プログラムを有していてもよい。
さらなる側面によれば、コンピュータ・プログラム・プロダクトが記述される。コンピュータ・プログラムは、コンピュータ上で実行されたときに本稿で概説された方法段階を実行するための実行可能命令を含んでいてもよい。
本特許出願において概説される好ましい実施形態を含む方法およびシステムは、単独でも本稿で開示される他の方法およびシステムとの組み合わせにおいても使用されうることを注意しておくべきである。さらに、本特許出願において概説された方法およびシステムのすべての側面は、任意に組み合わされうる。特に、請求項の特徴は、任意の仕方で互いと組み合わされてもよい。
本発明は、付属の図面を参照して例示的な仕方で下記に説明される。
空間的合成を実行するための例示的なオーディオ処理システムの一般化されたブロック図である。 図1のシステムの例示的な詳細を示す図である。 図1と同様に、空間的合成を実行するための例示的なオーディオ処理システムを示す図である。 空間的分解を実行するための例示的なオーディオ処理システムを示す図である。 例示的なパラメトリック・マルチチャネル・オーディオ・エンコード・システムのブロック図である。 例示的な空間的分解およびエンコード・システムのブロック図である。 マルチチャネル・オーディオ信号のフレームの例示的な時間‐周波数表現を示す図である。 マルチチャネル・オーディオ信号の複数のチャネルの例示的な時間‐周波数表現を示す図である。 図5bに示した空間的分解およびエンコード・システムの変換ユニットによって適用される例示的な窓掛けを示す図である。 空間的メタデータのデータ・レートを低減する例示的な方法の流れ図である。 デコード・システムにおいて実行される空間的メタデータについての例示的な遷移方式を示す図である。 空間的メタデータの決定のために適用される例示的な窓関数を示す図である。 空間的メタデータの決定のために適用される例示的な窓関数を示す図である。 空間的メタデータの決定のために適用される例示的な窓関数を示す図である。 パラメトリック・マルチチャネル・コーデック・システムの例示的な処理経路のブロック図である。 クリッピング保護および/またはダイナミックレンジ制御を実行するよう構成された例示的なパラメトリック・マルチチャネル・オーディオ・エンコード・システムのブロック図である。 クリッピング保護および/またはダイナミックレンジ制御を実行するよう構成された例示的なパラメトリック・マルチチャネル・オーディオ・エンコード・システムのブロック図である。 DRCパラメータを補償する例示的な方法を示す図である。 クリッピング保護のための例示的な補間曲線を示す図である。
導入部で概説したように、本稿は、パラメトリックなマルチチャネル表現を利用するマルチチャネル・オーディオ符号化システムに関する。以下では、例示的なマルチチャネル・オーディオ符号化および復号(コーデック)システムが記述される。図1ないし図3のコンテキストでは、オーディオ・コーデック・システムのデコーダが受領されたパラメトリックなマルチチャネル表現をどのように使って、受領されたmチャネル・ダウンミックス信号X(たとえばm=2)からnチャネル・アップミックス信号Y(典型的にはn>2)を生成するかが記述される。その後、マルチチャネル・オーディオ・コーデック・システムのエンコーダ関係の処理が記述される。特に、パラメトリックなマルチチャネル表現およびmチャネル・ダウンミックス信号がnチャネル入力信号からどのようにして生成されうるかが記述される。
図1は、ダウンミックス信号Xおよび混合パラメータの集合からアップミックス信号Yを生成するよう構成されている例示的なオーディオ処理システム100のブロック図を示している。特に、オーディオ処理システム100は、ダウンミックス信号Xおよび混合パラメータの集合のみに基づいてアップミックス信号を生成するよう構成される。ビットストリームPから、オーディオ・デコーダ140はダウンミックス信号X=[l0 r0]Tおよび混合パラメータの集合を抽出する。図示した例では、混合パラメータの集合は、パラメータα1、α2、α3、β1、β2、β3、g、k1、k2を含む。混合パラメータは、ビットストリームPにおけるそれぞれの混合パラメータ・データ・フィールド内に、量子化されたおよび/またはエントロピー符号化された形で含まれていてもよい。これらの混合パラメータは、メタデータ(または空間的メタデータ)と称されてもよく、これはエンコードされたダウンミックス信号Xと一緒に伝送される。本開示のいくつかの事例では、いくつかの接続線がマルチチャネル信号を伝送するよう適応されていることが明示的に示されている。そこでは、これらの線は、それぞれのチャネル数に隣接した交差線を与えられている。図1に示したシステム100では、ダウンミックス信号Xはm=2個のチャネルを含み、下記で定義されるアップミックス信号Yはn=6個のチャネル(たとえば5.1チャネル)を含む。
混合パラメータにパラメトリックに依存する作用をもつアップミックス段110は、ダウンミックス信号を受領する。ダウンミックス修正プロセッサ120は、非線形処理によっておよびダウンミックス・チャネルの線形結合を形成することによってダウンミックス信号を修正し、それにより修正されたダウンミックス信号D=[d1 d2]Tを得る。第一の混合行列130はダウンミックス信号Xおよび修正されたダウンミックス信号Dを受領し、下記の線形結合を形成することによってアップミックス信号Y=[lf ls rf rs c lfe]Tを出力する。
Figure 0006250071
上記の線形結合において、混合パラメータα3は、ダウンミックス信号から形成される中央型信号(l0+r0に比例する)の、アップミックス信号における全チャネルへの寄与を制御する。混合パラメータβ3は、サイド型信号(l0−r0に比例する)の、アップミックス信号における全チャネルへの寄与を制御する。ここで、ある使用事例では、混合パラメータα3およびβ3は異なる統計的属性をもつことが合理的に期待されることがあり、そのためより効率的な符号化ができる。(アップミックス信号における空間的に左および右のチャネルへのダウンミックス信号からのそれぞれの左チャネルおよび右チャネル寄与を独立な混合パラメータが制御する参照パラメータ化を比較として考えると、そのような混合パラメータの統計的観測可能量は顕著に異ならないことがあることが注意される。)
上記の式に示した線形結合に戻ると、さらに、利得パラメータk1、k2がビットストリームP中の共通の単一の混合パラメータに依存していてもよいことを注意しておく。さらに、これらの利得パラメータは、k1 2+k2 2=1となるよう規格化されてもよい。
修正されたダウンミックス信号からの、アップミックス信号における空間的に左および右のチャネルへの寄与は、パラメータβ1(第一の修正されたチャネルの左チャネルへの寄与)およびβ2(第二の修正されたチャネルの右チャネルへの寄与)によって別個に制御されてもよい。さらに、ダウンミックス信号における各チャネルからの、アップミックス信号におけるその空間的に対応するチャネルへの寄与は、独立な混合パラメータgを変えることによって個別に制御可能であってもよい。好ましくは、利得パラメータgは、大きな量子化誤差を回避するために非一様に量子化される。
ここでさらに図2を参照すると、ダウンミックス修正プロセッサ120は第二の混合行列121において、ダウンミックス・チャネルの次の線形結合(これはクロス混合である)を実行していてもよい。
Figure 0006250071
上記の式によって示されるように、第二の混合行列にはいっている利得は、ビットストリームP内にエンコードされた混合パラメータのいくつかにパラメトリックに依存していてもよい。第二の混合行列121によって実行された処理は、結果として中間信号Z=[z1 z2]Tを与え、これは脱相関器122に供給される。図1は、脱相関器122が、同一の構成に(すなわち、同一の入力に応答して同一の出力を与えるように)されていても異なる構成にされていてもよい二つのサブ脱相関器123、124を有する例を示している。これに対する代替として、図2は、すべての脱相関関係の動作が単一のユニット122によって実行され、該単一のユニットが予備的な修正されたダウンミックス信号D'を出力する例を示している。図2におけるダウンミックス修正プロセッサ120はさらに、アーチファクト減衰器125を含んでいてもよい。例示的な実施形態では、上記で概説したように、アーチファクト減衰器125は、中間信号Zにおける音の終わり(sound endings)を検出し、音の終わりの検出された位置に基づいて、この信号における望ましくないアーチファクトを減衰させることによって是正動作を行なうよう構成されている。この減衰は修正されたダウンミックス信号Dを生成し、それがダウンミックス修正プロセッサ120から出力される。
図3は、図1に示されるものと同様の型の第一の混合行列130と、その付随する変換段301、302および逆変換段311、312、313、314、315、316とを示している。これらの変換段はたとえば、直交ミラー・フィルタバンク(QMF: Quadrature Mirror Filterbank)のようなフィルタバンクを有していてもよい。よって、変換段301、302の上流に位置する信号は時間領域の表現であり、逆変換段311、312、313、314、315、316の下流に位置する信号もそうである。他の信号は周波数領域表現である。他の信号の時間依存性はたとえば、該信号がセグメント分割される時間ブロックに関係した離散的な値または値のブロックとして表現されてもよい。図3は、上記の行列の式に比べ代替的な記法を使っていることを注意しておく。たとえば、XL0〜l0、XR0〜r0、YL〜lf、YLs〜lsなどの対応をもつことができる。さらに、図3の記法は、信号の時間領域表現XL0(t)と同じ信号の周波数領域表現XL0(f)との間の区別を強調している。周波数領域表現は時間フレームにセグメント分割されており、よって時間および周波数変数両方の関数であることが理解される。
図4は、ダウンミックス信号Xと、アップミックス段110によって適用される利得を制御する混合パラメータα1、α2、α3、β1、β2、β3、g、k1、k2とを生成するためのオーディオ処理システム400を示している。このオーディオ処理システム400は典型的にはエンコーダ側に、たとえば放送またはレコーディング設備内に位置される。一方、図1のシステム100は典型的にはデコーダ側に、たとえば再生設備内に配備される。ダウンミックス段410はnチャネル信号Yに基づいてmチャネル信号Xを生成する。好ましくは、ダウンミックス段410は、これらの信号の時間領域表現に対して作用する。パラメータ抽出器420は、nチャネル信号Yを解析し、ダウンミックス段410の定量的および定性的属性を考慮に入れることによって混合パラメータα1、α2、α3、β1、β2、β3、g、k1、k2をの値を生成してもよい。混合パラメータは、図4における記法が示唆するように、周波数ブロックの値のベクトルであってもよく、さらに時間ブロックにセグメント分割されていてもよい。ある例示的な実装では、ダウンミックス段410は時間不変および/または周波数不変である。時間不変性および/または周波数不変性のおかげで、典型的にはダウンミックス段410とパラメータ抽出器420との間で通信接続の必要はなく、パラメータ抽出は独立して進行してもよい。これは、実装のための大幅な自由度を提供する。これはまた、いくつかの処理段階が並列に実行されうるので、システムの総合的なレイテンシーを低減する可能性をも与える。一例として、ドルビー・デジタル・プラス・フォーマット(または向上AC-3)は、ダウンミックス信号Xを符号化するために使用されてもよい。
パラメータ抽出器420は、ダウンミックス指定にアクセスすることによってダウンミックス段410の定量的および/または定性的な属性の知識をもちうる。ダウンミックス指定は、利得値の集合、利得があらかじめ定義されているあらかじめ定義されたダウンミックス・モードを特定するインデックスなどの一つを指定していてもよい。ダウンミックス指定は、ダウンミックス段410およびパラメータ抽出器420のそれぞれにおいてメモリ中にあらかじめロードされたデータ・レコードであってもよい。代替的または追加的に、ダウンミックス指定は、ダウンミックス段410からパラメータ抽出器420に、これらのユニットをつなぐ通信線を通じて伝送されてもよい。さらなる代替として、ダウンミックス段410からパラメータ抽出器420のそれぞれは、オーディオ処理システム内の(たとえば図5aに示される構成設定ユニット520の)メモリのような共通のデータ源または入力信号Yに関連付けられたメタデータ・ストリームにおいてダウンミックス指定にアクセスしてもよい。
図5aは、マルチチャネル・オーディオ入力信号Y 561(n個のチャネルを含む)を、ダウンミックス信号X(m個のチャネルを含む、m<n)およびパラメトリック表現を使ってエンコードする例示的なマルチチャネル・エンコード・システム500を示している。システム500は、たとえば図4のダウンミックス段410を有するダウンミックス符号化ユニット510を有する。ダウンミックス符号化ユニット510は、ダウンミックス信号Xのエンコードされたバージョンを提供するよう構成されていてもよい。ダウンミックス符号化ユニット510はたとえば、ダウンミックス信号Xをエンコードするためのドルビー・デジタル・プラス・エンコーダを利用してもよい。さらに、システム500は、図4のパラメータ抽出器420を有していてもよいパラメータ符号化ユニット50を有する。パラメータ符号化ユニット50は、混合パラメータα1、α2、α3、β1、β2、β3、g、k1(空間的パラメータとも称される)の集合を量子化およびエンコードして、エンコードされた空間的パラメータ562を与えるよう構成されていてもよい。上記で示したように、パラメータk2はパラメータk1から決定されてもよい。さらに、システム500は、エンコードされたダウンミックス信号563からおよびエンコードされた空間的パラメータ562からビットストリームP 564を生成するよう構成されているビットストリーム生成ユニット530を有していてもよい。ビットストリーム564は、あらかじめ決定されたビットストリーム・シンタックスに従ってエンコードされていてもよい。特に、ビットストリーム564は、ドルビー・デジタル・プラス(DD+またはE-AC-3、向上AC-3)に準拠するフォーマットでエンコードされていてもよい。
システム500は、パラメータ符号化ユニット520および/またはダウンミックス符号化ユニット510について一つまたは複数の制御設定552、554を決定するよう構成されている構成設定ユニット540を有していてもよい。前記一つまたは複数の制御設定552、554は、システム500の一つまたは複数の外部設定551に基づいて決定されてもよい。例として、前記一つまたは複数の外部設定は、ビットストリーム564の全体的な(最大または固定)データ・レートを含んでいてもよい。構成設定ユニット540は、前記一つまたは複数の外部設定551に依存して一つまたは複数の制御設定552を決定するよう構成されていてもよい。パラメータ符号化ユニット520についての前記一つまたは複数の制御設定552は、次のうちの一つまたは複数を含んでいてもよい。
・エンコードされた空間的メタデータ562についての最大データ・レート。この制御設定は、本稿ではメタデータ・データ・レート設定と称される。
・オーディオ信号561のフレーム当たりにパラメータ符号化ユニット520によって決定されるべきパラメータ集合の最大数および/または特定の数。この制御設定は、空間的パラメータの時間的分解能に影響することを許容するので、本稿では時間的分解能設定と称される。
・パラメータ符号化ユニット520によって空間的パラメータが決定されるべき周波数帯域の数。この制御設定は、空間的パラメータの周波数分解能に影響することを許容するので、周波数分解能設定と称される。
・空間的パラメータを量子化するために使われるべき量子化器の分解能。この制御設定は、本稿では量子化器設定と称される。
パラメータ符号化ユニット520は、ビットストリーム564中に含められる空間的パラメータを決定および/またはエンコードするために、上述した制御設定552の一つまたは複数を使ってもよい。典型的には、入力オーディオ信号Y 561は、フレームのシーケンスにセグメント分解される。ここで、各フレームは入力オーディオ信号Y 561の所定数のサンプルを含む。メタデータ・データ・レート設定は、入力オーディオ信号561のフレームの空間的パラメータをエンコードするために利用可能なビットの最大数を示してもよい。フレームの空間的パラメータ562をエンコードするために使われる実際のビット数は、メタデータ・データ・レート設定によって割り当てられるビット数より少なくてもよい。パラメータ符号化ユニット520は、実際に使われるビット数553について構成設定ユニット540に通知するよう構成されていてもよく、それにより構成設定ユニット540がダウンミックス信号Xをエンコードするために利用可能なビット数を決定できるようにする。このビット数は、ダウンミックス・エンコード・ユニット510に制御設定554として通信されてもよい。ダウンミックス・エンコード・ユニット510は、制御設定554に基づいて(たとえばドルビー・デジタル・プラスのようなマルチチャネル・エンコーダを使って)ダウンミックス信号Xをエンコードするよう構成されていてもよい。よって、空間的パラメータをエンコードするために使われなかったビットが、ダウンミックス信号をエンコードするために使われてもよい。
図5bは、例示的なパラメータ符号化ユニット520のブロック図を示している。パラメータ符号化ユニット520は、入力信号561の周波数表現を決定するよう構成されている変換ユニット521を有していてもよい。特に、変換ユニット521は、入力信号561のフレームを一つまたは複数のスペクトルに変換するよう構成されていてもよい。各スペクトルは複数の周波数ビンを含む。例として、変換ユニット521は、フィルタバンク、たとえばQMFフィルタバンクを入力信号561に適用するよう構成されていてもよい。フィルタバンクは、臨界サンプリングされるフィルタバンクであってもよい。フィルタバンクは、あらかじめ決定された数Q個のフィルタ(たとえばQ=64個のフィルタ)を有していてもよい。よって、変換ユニット521は、入力信号561からQ個のサブバンド信号を決定するよう構成されていてもよい。ここで、各サブバンド信号は対応する周波数ビン571に関連付けられている。例として、入力信号561のK個のサンプルのフレームが、サブバンド信号当たりK/Q個の周波数係数をもつQ個のサブバンド信号に変換されてもよい。換言すれば、入力信号561のK個のサンプルのフレームがK/Q個のスペクトルに変換されてもよい。ここで、各スペクトルはQ個の周波数ビンをもつ。ある特定の例では、フレーム長はK=1536であり、周波数ビンの数はQ=64であり、スペクトルの数はK/Q=24である。
パラメータ符号化ユニット520は、一つまたは複数の周波数ビン571を周波数帯域572にグループ化するよう構成された帯域化(banding)ユニット522を有していてもよい。周波数ビン571の周波数帯域572へのグループ化は、周波数分解能設定552に依存してもよい。表1は、周波数ビン571の周波数帯域572への例示的なマッピングを示している。ここで、マッピングは、周波数分解能設定552に基づいて帯域化ユニット522によって適用されてもよい。図示した例では、周波数分解能設定552は、周波数ビン571の7個、9個、12個または15個の周波数帯域への帯域化を示しうる。帯域化は典型的には、人間の耳の音響心理学的挙動をモデル化する。この結果として、周波数帯域572当たりの周波数ビン571の数は典型的には周波数が増すとともに増大する。
Figure 0006250071
パラメータ符号化ユニット520のパラメータ決定ユニット523(特にパラメータ抽出器420)は、周波数帯域572のそれぞれについて、混合パラメータα1、α2、α3、β1、β2、β3、g、k1、k2の一つまたは複数の集合を決定するよう構成されていてもよい。このため、周波数帯域572はパラメータ帯域とも称されることがある。周波数帯域572についての混合パラメータα1、α2、α3、β1、β2、β3、g、k1、k2は帯域パラメータと称されることがある。よって、混合パラメータの完全な集合は典型的には各周波数帯域572についての帯域パラメータを含む。帯域パラメータは、図3の混合行列130において、デコードされたアップミックス信号のサブバンド・バージョンを決定するために適用されてもよい。
パラメータ決定ユニット523によって決定されるべき、フレーム当たりの混合パラメータの集合の数は、時間分解能設定552によって指示されてもよい。例として、時間分解能設定552は、混合パラメータの一つまたは複数の集合がフレーム毎に決定されることを指示してもよい。
複数の周波数帯域572についての帯域パラメータを含む混合パラメータの集合の決定は、図5cに示されている。図5cは、入力信号561のフレームから導出された変換係数580の例示的な集合を示している。変換係数580は、特定の時点582および特定の周波数ビン571に対応する。周波数帯域572は、一つまたは複数の周波数ビン571からの複数の変換係数580を含んでいてもよい。図5cから見て取れるように、入力信号561の時間領域サンプルの変換は、入力信号561のフレームの時間‐周波数表現を提供する。
現在フレームについての混合パラメータの集合は、現在フレームの変換係数580に基づいて、また直後のフレーム(先読みフレームとも称される)の変換係数580にも基づいて決定されてもよいことを注意しておくべきである。
パラメータ決定ユニット523は、各周波数帯域572についての混合パラメータα1、α2、α3、β1、β2、β3、g、k1、k2を決定するよう構成されていてもよい。時間的分解能設定が1に設定される場合、特定の周波数帯域572の(現在フレームおよび先読みフレームの)すべての変換係数580が、該特定の周波数帯域572についての混合パラメータを決定するために考慮されてもよい。他方、パラメータ決定ユニット523は、周波数帯域572当たり混合パラメータの二つの集合を決定するよう構成されていてもよい(たとえば、時間的分解能設定が2に設定されているとき)。この場合、その特定の周波数帯域572の変換係数580の時間的な前半(たとえば現在フレームの変換係数580に対応する)は、混合パラメータの前記第一の集合を決定するために使われてもよく、その特定の周波数帯域572の変換係数580の時間的な後半(たとえば先読みフレームの変換係数580に対応する)は、混合パラメータの前記第二の集合を決定するために使われてもよい。
一般的な言い方では、パラメータ決定ユニット523は、現在フレームおよび先読みフレームの変換係数580に基づいて混合パラメータの一つまたは複数の集合を決定するよう構成されていてもよい。混合パラメータの前記一つまたは複数の集合に対する変換係数580の影響を定義するために窓関数が使われてもよい。窓関数の形は、周波数帯域572当たりの混合パラメータの集合の数および/または現在フレームおよび/または先読みフレームの属性(たとえば一つまたは複数の過渡成分の存在)に依存してもよい。例示的な窓関数は図5eおよび図7bないし7dのコンテキストにおいて記述される。
上記は、入力信号561のフレームが過渡的な信号部分を含まない場合に当てはまりうることを注意しておくべきである。システム500(たとえばパラメータ決定ユニット523)は、入力信号561に基づいて過渡検出を実行するよう構成されていてもよい。一つまたは複数の過渡成分が検出される場合、一つまたは複数の過渡インジケーター583、584が設定されてもよく、ここで、過渡インジケーター583、584は対応する過渡成分の時点582を特定してもよい。過渡インジケーター583、584は、混合パラメータのそれぞれの集合のサンプリング点と称されてもよい。過渡成分の場合、パラメータ決定ユニット523は、該過渡成分の時点から始まる変換係数580に基づいて混合パラメータの集合を決定するよう構成されていてもよい(このことは、図5cの異なる斜線が付された領域によって示されている)。他方、該過渡成分の時点より前の変換係数580は無視され、それにより、混合パラメータの集合が過渡成分より後のマルチチャネル状況を反映することを保証する。
図5cは、マルチチャネル入力信号Y 561のあるチャネルの変換係数580を示している。パラメータ符号化ユニット520は典型的には、マルチチャネル入力信号561の複数のチャネルについての変換係数580を決定するよう構成されている。図5dは、入力信号561の第一561−1および第二561−2のチャネルの例示的な変換係数を示している。周波数帯域p 572は、周波数インデックスiからjの範囲の周波数ビン571を含む。時点(またはスペクトル)qにおける周波数ビンi内の第一のチャネル561−1の変換係数580はaq,iと称されてもよい。同様の仕方で、時点(またはスペクトル)qにおける周波数ビンi内の第二のチャネル561−2の変換係数580はbq,iと称されてもよい。変換係数580は複素数であってもよい。周波数帯域pについての混合パラメータの決定は、変換係数580に基づく第一および第二のチャネル561−1、561−2のエネルギーおよび/または共分散の決定に関わってもよい。例として、周波数帯域pにおける時間区間[q,v]についての第一および第二のチャネル561−1、561−2の変換係数580の共分散は、
Figure 0006250071
と決定されてもよい。周波数帯域pにおける時間区間[q,v]についての第一のチャネル561−1の変換係数580のエネルギー推定値は、
Figure 0006250071
と決定されてもよい。周波数帯域pにおける時間区間[q,v]についての第二のチャネル561−2の変換係数580のエネルギー推定値E2,2(p)は同様の仕方で決定されてもよい。
よって、パラメータ決定ユニット523は、種々の周波数帯域572についての帯域パラメータの一つまたは複数の集合573を決定するよう構成されていてもよい。周波数帯域572の数は典型的には周波数分解能設定552に依存し、フレーム当たりの混合パラメータの集合の数は典型的には時間分解能設定552に依存する。例として、周波数分解能設定552は、15個の周波数帯域572を使うことを指示してもよく、時間分解能設定552は混合パラメータの2個の集合を使うことを指示してもよい。この場合、パラメータ決定ユニット523は、混合パラメータの二つの時間的に相異なる集合を決定するよう構成されていてもよい。ここで、混合パラメータの各集合は、帯域パラメータ(すなわち、種々の周波数帯域572についての混合パラメータ)の15個の集合573を含む。
上記で示したように、現在フレームについての混合パラメータは、現在フレームの変換係数580に基づき、かつ後続の先読みフレームの変換係数580に基づき決定されてもよい。パラメータ決定ユニット523は、フレームのシーケンスの相続くフレームの混合パラメータの間のなめらかな遷移を保証するために、および/または入力信号561内の突発的部分(たとえば過渡成分)を考慮に入れるために、変換係数580に窓を適用してもよい。これは、入力オーディオ信号561の現在フレーム585および直後のフレーム590のK/Q個のスペクトル589を対応するK/Q個の相続く時点582において示す図5eに示されている。さらに、図5eは、パラメータ決定ユニット523によって使われる例示的な窓586を示している。窓586は、現在フレーム585および直後のフレーム590(先読みフレームと称される)のK/Q個のスペクトル589の混合パラメータへの影響を反映する。のちにより詳細に概説するように、窓586は、現在フレーム585および先読みフレーム590がいかなる過渡成分も含まない場合を反映している。この場合、窓586は、現在フレーム585および先読みフレーム590のスペクトル589のそれぞれなめらかなフェーズインおよびフェーズアウトを保証し、それにより空間的パラメータのなめらかな発展を許容する。さらに、図5eは、例示的な窓587および588を示している。破線の窓587は現在フレーム585のK/Q個のスペクトル589の、直前フレームの混合パラメータへの影響を反映している。さらに、破線の窓588は直後のフレーム590のK/Q個のスペクトル589の、直後のフレーム590の混合パラメータへの影響を反映している(なめらかな補間の場合)。
混合パラメータの一つまたは複数の集合はその後、パラメータ符号化ユニット520のエンコード・ユニット524を使って量子化され、エンコードされてもよい。エンコード・ユニット524はさまざまなエンコード方式を適用してもよい。例として、エンコード・ユニット524は、混合パラメータの差分エンコードを実行するよう構成されていてもよい。差分エンコードは、(同じ周波数帯域572についての現在の混合パラメータの先行する対応する混合パラメータとの間の)時間的差分に、あるいは(第一の周波数帯域572の現在の混合パラメータと隣接する第二の周波数帯域572の対応する現在の混合パラメータとの間の)周波数差分に基づいていてもよい。
さらに、エンコード・ユニット524は、混合パラメータの集合および/または混合パラメータの時間的または周波数差分を量子化するよう構成されていてもよい。混合パラメータの量子化は、量子化器設定552に依存してもよい。例として、量子化器設定552は、細かい量子化を指示する第一の値と粗い量子化を指示する第二の値の二つの値を取ってもよい。よって、エンコード・ユニット524は、量子化器設定552によって示される量子化型に基づいて、(比較的低い量子化誤差をもつ)細かい量子化または(比較的増大した量子化誤差をもつ)粗い量子化を実行するよう構成されていてもよい。量子化されたパラメータまたはパラメータ差分は次いで、ハフマン符号のようなエントロピー・ベースの符号を使ってエンコードされてもよい。結果として、エンコードされた空間的パラメータ562が得られる。エンコードされた空間的パラメータ562について使われるビットの数553は、構成設定ユニット540に通信されてもよい。
ある実施形態では、エンコード・ユニット524は、(量子化器設定552を考慮したもとで)種々の混合パラメータをまず量子化し、量子化された混合パラメータを与えるよう構成されていてもよい。次いで、量子化された混合パラメータは(たとえばハフマン符号を使って)エンロピー符号化されてもよい。エントロピー符号化は、(先行するフレームを考慮しない)フレームの量子化された混合パラメータ、量子化された混合パラメータの周波数差分または量子化された混合パラメータの時間的差分をエンコードしてもよい。時間的差分のエンコードは、先行フレームから独立してエンコードされるいわゆる独立フレームの場合には使われなくてもよい。
よって、パラメータ・エンコード・ユニット520は、エンコードされた空間的パラメータ562の決定のために、差分符号化およびハフマン符号化の組み合わせを利用してもよい。上記で概説したように、エンコードされた空間的パラメータ562は、エンコードされたダウンミックス信号563と一緒に、メタデータ(空間的メタデータとも称される)としてビットストリーム564に含められてもよい。冗長性を減じ、よってダウンミックス信号563をエンコードするために利用可能な予備のビットレートを増すために、差分符号化およびハフマン符号化が空間的メタデータの伝送のために使われてもよい。ハフマン符号は可変長符号なので、空間的メタデータのサイズは伝送されるべきエンコードされる空間的パラメータ562の統計に依存して大きく変わりうる。空間的メタデータを伝送するために必要とされるデータ・レートは、ステレオ・ダウンミックス信号をエンコードするためにコア・コーデック(たとえばドルビー・デジタル・プラス)に利用可能なデータ・レートから控除する。ダウンミックス信号のオーディオ品質を損なわないために、フレーム当たりに空間的メタデータの伝送のために費やされてもよいバイト数は典型的には制限される。この制限は、エンコーダ・チューニング事情(encoder tuning considerations)に従っていてもよい。エンコーダ・チューニング事情は、構成設定ユニット540によって考慮に入れられてもよい。しかしながら、空間的パラメータの、基礎になる差分/ハフマン符号化の可変長の特性のため、典型的には、データ・レート上限(たとえばメタデータ・データ・レート設定552において反映される)が超過されないことは、さらなる手段なしには保証できない。
本稿では、エンコードされた空間的パラメータ562および/またはエンコードされた空間的パラメータ562を含む空間的メタデータの後処理のための方法が記述される。空間的メタデータの後処理のための方法600は図6のコンテキストにおいて記述される。方法600は、空間的メタデータの一つのフレームの合計サイズが、たとえばメタデータ・データ・レート設定552によって指示されるあらかじめ定義された制限を超過することが判別されるときに適用されてもよい。方法600は、段階を追ってメタデータの量を低減することに向けられる。空間的メタデータのサイズの低減は典型的には空間的メタデータの精度を低下させもするので、再生されるオーディオ信号の空間的像の品質を損なう。しかしながら、方法600は典型的には、空間的メタデータの総量があらかじめ定義された制限を超過しないことを保証し、よって、全体的なオーディオ品質の点で、(mチャネルのマルチチャネル信号を再生成するための)空間的メタデータと(エンコードされたダウンミックス信号563をデコードするための)オーディオ・コーデック・メタデータとの間の改善されたトレードオフを決定することを許容する。さらに、空間的メタデータの後処理のための方法600は、(修正された制御設定552を用いた、エンコードされた空間的パラメータの完全な再計算に比べ)比較的低い計算量で実装できる。
空間的メタデータの後処理のための方法600は、以下の段階の一つまたは複数を含む。上記で概説したように、空間的メタデータ・フレームは、フレーム当たりに複数の(たとえば一つまたは二つの)パラメータ集合を含んでいてもよく、追加的なパラメータ集合の使用は、混合パラメータの時間的分解能を増すことを許容する。フレーム当たり複数のパラメータ集合の使用は、特にアタックに富む(すなわち過渡的な)信号の場合にオーディオ品質を改善できる。かなりゆっくり変化する空間的像をもつオーディオ信号の場合でも、サンプリング点の二倍の密度の格子を用いた空間的パラメータ更新は、オーディオ品質を改善しうる。しかしながら、フレーム当たり複数のパラメータ集合の伝送は、データ・レートの約二倍の増大につながる。よって、空間的メタデータのためのデータ・レートがメタデータ・データ・レート設定552を超過することが判別される(ステップ601)場合、空間的メタデータ・フレームが混合パラメータの二つ以上の集合を含んでいるかどうかが検査されてもよい。特に、メタデータ・フレームが、伝送されると想定される、混合パラメータの二つの集合を含んでいるかどうかが検査されてもよい(ステップ602)。空間的メタデータが混合パラメータの複数の集合を含むことが判別される場合、混合パラメータの単一の集合を超過する集合のうち一つまたは複数が破棄されてもよい(ステップ603)。この結果として、オーディオ品質を損なう程度は比較的低いまま、空間的メタデータのためのデータ・レートは著しく低減できる(混合パラメータの二つの集合の場合、典型的には二分の一に)。
混合パラメータの二つ(またはそれ以上)の集合のうちのどれを脱落させるかの決定は、エンコード・システム500が現在フレームによってカバーされる入力信号561の部分に過渡位置(「アタック」)を検出したか否かに依存してもよい。現在フレームに複数の過渡成分が存在する場合には、すべての単独アタックの音響心理学的なポスト・マスキング効果のため、より早い過渡成分がより遅い過渡成分より重要である。よって、過渡成分が存在する場合、混合パラメータのより後の集合(たとえば二つのうちの二番目の集合)を破棄することが得策であることがある。他方、アタックがない場合には、混合パラメータのより早い集合(たとえば、二つのうちの最初の集合)が破棄されてもよい。これは、空間的パラメータを計算するときに使われる窓掛け(図5eに示した)に起因していてもよい。入力信号561から混合パラメータの二番目の集合のための空間的パラメータを計算するために使われる部分を窓掛けして取り出すために使われる窓586は典型的には、アップミックス段130がパラメータ再構成のためのサンプリング点を置く時点において(すなわち現在フレームの終端において)最大の影響をもつ。他方、混合パラメータの最初の集合は、典型的には、この時点に対して半フレームのオフセットを有している。結果として、混合パラメータの最初の集合を脱落させることによってできる誤差は、混合の二番目の集合を脱落させることによってできる誤差より低い可能性がきわめて高い。このことは図5eに示されている。ここでは、混合パラメータの二番目の集合を決定するために使われる現在フレーム585のスペクトル589の後半が、現在フレーム585のスペクトル589の前半よりも、現在フレーム585のサンプルによってより大きな度合いで影響されることが見て取れる(窓関数586は、スペクトル589の後半についてよりも、前半について、低い値をもつ)。
エンコード・システム500において計算された空間的手がかり(spatial cue)(すなわち、混合パラメータ)は、ビットストリーム562(これは、エンコードされたステレオ・ダウンミックス信号563が搬送されるビットストリーム564の一部であってもよい)を介して対応するデコーダ100に伝送される。空間的手がかりの計算とビットストリーム562におけるその表現との間で、エンコード・ユニット524は典型的には二段階の符号化アプローチを適用する:第一段階の量子化は、空間的手がかりに誤差を加えるので、損失のある段階である。第二段階の差分/ハフマン符号化は無損失の段階である。上記で概説したように、エンコーダ500は、種々の型の量子化(たとえば二つの型の量子化):比較的小さな誤差を加えるがより多数の潜在的な量子化インデックスを与える高分解能量子化方式と、比較的多くの誤差を加えるがより少数の量子化インデックスを与え、よってそれほど大きなハフマン符号語を必要としない低分解能量子化方式との間で選択することができる。異なる型の量子化は、一部または全部の混合パラメータに適用可能であってもよいことを注意しておくべきである。例として、異なる型の量子化は、混合パラメータα1、α2、α3、β1、β2、β3、k1に適用可能であってもよい。他方、利得gは固定した型の量子化で量子化されてもよい。
方法600は、空間的パラメータを量子化するためにどの型の量子化が使われたかを検証するステップ604を含んでいてもよい。比較的細かい量子化分解能が使われたと判定される場合、エンコード・ユニット524は、量子化分解能をより低い型の量子化に低減する605よう構成されていてもよい。結果として、空間的パラメータは今一度量子化されることになる。しかしながら、これは(異なる制御設定552を使った空間的パラメータの再決定に比べて)著しい計算上のオーバーヘッドを加えるものではない。異なる型の量子化は異なる空間的パラメータα1、α2、α3、β1、β2、β3、g、k1のために使われてもよいことを注意しておくべきである。よって、エンコード・ユニット524は、空間的パラメータの各型について個々に量子化分解能を選択し、それにより空間的メタデータのデータ・レートを調整するよう構成されていてもよい。
方法600は、空間的パラメータの周波数分解能を低下させる段階(図6には示さず)を含んでいてもよい。上記で概説したように、フレームの混合パラメータの集合は典型的には周波数帯域またはパラメータ帯域572にクラスター化される。各パラメータ帯域はある周波数範囲を表わし、各帯域について、空間的手がかりの別個の集合が決定される。空間的メタデータを伝送するために利用可能なデータ・レートに依存して、パラメータ帯域572の数は段階的に変えられてもよい(たとえば7、9、12または15個の帯域)。パラメータ帯域572の数は、データ・レートに対してほぼ線形な関係にあり、よって周波数分解能の低下は空間的メタデータのデータ・レートを著しく低下させうる。一方、オーディオ品質はほどほどに影響を受けるだけである。しかしながら、周波数分解能のそのような低下は典型的には、変更された周波数分解能を使った混合パラメータの集合の再計算を必要とし、よって計算量を増すことになる。
上記で概説したように、エンコード・ユニット524は、(量子化された)空間的パラメータの差分エンコードを利用してもよい。構成設定ユニット551は、伝送誤差が無制限な数のフレームにわたって伝搬しないことを保証するため、またデコーダが中間の諸時点で受領されたビットストリーム562に同期できるようにするため、入力オーディオ信号561のフレームの空間的パラメータの直接エンコードを課すよう構成されていてもよい。よって、諸フレームのある割合は、タイムラインに沿った差分エンコードを利用しないことがある。差分エンコードを利用しないそのようなフレームは、独立フレームと称されてもよい。方法600は、現在フレームが独立フレームであるかどうかおよび/または独立フレームが強制された独立フレームであるかどうかを検証するステップ606を含んでいてもよい。空間的パラメータのエンコードは、ステップ606の結果に依存してもよい。
上記で概説したように、差分符号化は典型的には、時間的に相続くものの間でまたは量子化された空間的手がかりの近隣周波数帯域の間で差分が計算されるよう設計される。いずれの場合にも、空間的手がかりの統計は、小さな差が大きな差より頻繁に現われるようなものであり、よって小さな差は大きな差より短いハフマン符号語によって表現される。本稿では、量子化された空間的パラメータの(時間にわたるまたは周波数にわたる)平滑化を実行することが提案される。時間にわたってまたは周波数にわたって空間的パラメータを平滑化することは、典型的にはより小さな差を与え、よってデータ・レートの削減につながる。音響心理学的な事情のため、時間的平滑化が通例は周波数方向での平滑化より好ましい。現在フレームが強制された独立フレームではないことが判別される場合、方法600は、可能性としては時間的な平滑化と組み合わせて、時間的な差分エンコード(ステップ607)を実行することに進んでもよい。他方、現在フレームが独立フレームであることが判別される場合、方法600は、周波数差分エンコード(ステップ608)および可能性としては周波数に沿った平滑化を実行することに進んでもよい。
ステップ607における差分エンコードは、データ・レートを低減するために、時間にわたる平滑化プロセスに従わされてもよい。平滑化の度合いは、データ・レートが低減されるべき量に依存して変わりうる。最も厳しい種類の時間的「平滑化」は、混合パラメータの変更されない前の集合を保持することに対応し、これは0に等しいデルタ値のみを伝送することに対応する。差分エンコードの時間的平滑化は、空間的パラメータの一つまたは複数について(たとえば全部について)実行されてもよい。
時間的平滑化と同様に、周波数にわたる平滑化が実行されてもよい。その最も極端な形では、周波数にわたる平滑化は、入力信号561の完全な周波数範囲について同じ量子化された空間的パラメータを伝送することに対応する。メタデータ・データ・レート設定によって設定された制限が超過されないことを保証しつつ、周波数にわたる平滑化は、空間的メタデータを使って再生できる空間的像の品質に対して比較的大きな影響をもちうる。したがって、周波数にわたる平滑化は、時間的平滑化が許容されない場合(たとえば、現在フレームが、直前のフレームに対する時間差分符号化が使用されてはならない強制された独立フレームである場合)にのみ適用することが好ましいことがありうる。
上記で概説したように、システム500は、ビットストリーム564の全体的な目標データ・レートまたは入力オーディオ信号561のサンプリング・レートのような一つまたは複数の外部設定に従って動作させられてもよい。典型的には、外部設定のすべての組み合わせについての単一の最適な動作点は存在しない。構成設定ユニット540は、外部設定551の有効な組み合わせを制御設定552、554の組み合わせにマッピングするよう構成されていてもよい。例として、構成設定ユニット540は、音響心理学的聴取試験の結果に依拠していてもよい。特に、構成設定ユニット540は、外部設定551のある特定の組み合わせについて(平均で)最適な音響心理学的符号化結果を保証する制御設定552、554の組み合わせを決定するよう構成されていてもよい。
上記で概説したように、デコード・システム100は、所与の時間期間内に、受領されたビットストリーム564に同期できる必要がある。これを保証するために、エンコード・システム500は、いわゆる独立フレーム、すなわち先行フレームについての知識に依存しないフレームを、定期的にエンコードしてもよい。二つの独立フレームの間のフレーム単位での平均距離は、同期のための所与の最大時間遅れと一フレームの継続時間との比によって与えられてもよい。この比は、必ずしも整数でなくてもよい。二つの独立フレームの間の距離は常に整数個のフレームである。
エンコード・システム500(たとえば構成設定ユニット540)は、同期のための最大時間遅れまたは所望される更新時間期間を外部設定551として受領するよう構成されていてもよい。さらに、エンコード・システム500(たとえば構成設定ユニット540)は、ビットストリーム564の最初のエンコードされたフレーム以来経過した時間の絶対量を追跡するよう構成されているタイマー・モジュールを有していてもよい。ビットストリーム564の最初のエンコードされたフレームは、定義により独立フレームである。エンコード・システム500(たとえば構成設定ユニット540)は、次にエンコードされるべきフレームが、所望される更新周期の整数倍である時点に対応するサンプルを有するかどうかを判定するよう構成されていてもよい。次にエンコードされるべきフレームが、所望される更新周期の整数倍である時点におけるサンプルを有するときは常に、エンコード・システム500(たとえば構成設定ユニット540)は、次にエンコードされるべきフレームが独立フレームとしてエンコードされることを保証するよう構成されていてもよい。こうすることにより、たとえ所望される更新時間期間とフレーム長との比が整数でなくても、所望される更新時間期間が維持されることが保証できる。
上記で概説したように、パラメータ決定ユニット523は、マルチチャネル入力信号561の時間/周波数表現に基づいて空間的手がかりを計算するよう構成されている。空間的メタデータのフレームは、現在フレームのK/Q(たとえば24)個のスペクトル589(QMFスペクトル)に基づいて、および/または先読みフレームのK/Q(たとえば24)個のスペクトル589(QMFスペクトル)に基づいて決定されてもよい。ここで、各スペクトル589は、Q(たとえば64)個の周波数ビン571の周波数分解能を有していてもよい。エンコード・システム500が入力信号561において過渡成分を検出するか否かに依存して、空間的手がかりの単一の集合を計算するために使われる信号部分の時間的長さは、異なる数のスペクトル589(たとえば、1個のスペクトルから2かけるK/Q個のスペクトルまで)を有しうる。図5cに示されるように、各スペクトル589はある数の周波数帯域572(たとえば、7、9、12または15個の周波数帯域)に分割される。これらの周波数帯域は、音響心理学的事情のため、異なる数の周波数ビン571(たとえば、1個の周波数ビンから41周波数まで)を含んでいる。異なる諸周波数帯域p 572および異なる諸時間的セグメント[q,v]は、入力信号561の現在フレームおよび先読みフレームの時間/周波数表現上での格子を定義する。この格子における異なる「ます」について、それぞれ該異なる「ます」内での、入力チャネルの少なくともいくつかのチャネルのエネルギーおよび/または共分散の推定値に基づいて、空間的手がかりの異なる集合が計算されてもよい。上記で概説したように、エネルギー推定値および/または共分散はそれぞれ、一つのチャネルの変換係数580の平方を合計することにより、および/または異なるチャネルの変換係数の580の積を合計することにより、計算されてもよい(上記で与えた公式によって示されるように)。異なる変換係数580は、空間的パラメータを決定するために使われる窓関数586に従って重み付けされてもよい。
エネルギー推定値E1,1(p)、E2,2(p)および/または共分散E1,2(p)の計算は、固定小数点算術で実行されてもよい。この場合、時間/周波数格子の「ます」の異なるサイズが、空間的パラメータについて決定される値の算術的精度に影響をもつことがある。上記で概説したように、周波数帯域572当たりの周波数ビン571の数(j−i+1) および/または時間/周波数格子の「ます」の時間区間[q,v]の長さは大きく変わることがある(たとえば、1×1×2と48×41×2の変換係数580(たとえば複素QMF係数の実部および虚部)の間で)。結果として、エネルギーE1,1(p)/共分散E1,2(p)を決定するために合計される必要のある積Re{at,f}Re{bt,f}およびIm{at,f}Im{bt,f}の数は著しく変わりうる。上記計算の結果が固定小数点算術で表現できる数の範囲を越えることを防ぐために、信号は、最大ビット数によって(たとえば、26・26=4096≧48・41・2のため6ビットによって)スケール・ダウンされてもよい。しかしながら、このアプローチは、より小さな「ます」についておよび/または比較的低い信号エネルギーのみを有する「ます」について算術的精度の著しい低下につながる。
本稿では、時間/周波数格子の「ます」ごとの個々のスケーリングを使うことが提案される。個々のスケーリングは、時間/周波数格子の「ます」内に含まれる変換係数580の数に依存していてもよい。典型的には、時間周波数格子の特定の「ます」についての(すなわち、特定の周波数帯域572および特定の時間区間[q,v]についての)空間的パラメータは、その特定の「ます」からの変換係数580にのみ基づいて決定される(他の「ます」からの変換係数580には依存しない)。さらに、空間的パラメータは典型的には、エネルギー推定値および/または共分散の比に基づいて決定されるだけである(典型的には、絶対的なエネルギー推定値および/または共分散によって影響されない)。換言すれば、単一の空間的手がかりは典型的には、ある単一の時間/周波数「ます」からのエネルギー推定値および/またはチャネル横断積しか使わない。さらに、空間的手がかりは典型的には、絶対的なエネルギー推定値/共分散には影響されず、エネルギー推定値/共分散の比によってのみ影響される。したがって、すべての単一の「ます」において個々のスケーリングを使うことが可能である。このスケーリングは、特定の空間的手がかりに寄与する諸チャネルについては一致させるべきである。
周波数帯域p 572および時間区間[q,v]についての、第一および第二のチャネル561−1、561−2のエネルギー推定値E1,1(p)、E2,2(p)および第一および第二のチャネル561−1、561−2の間の共分散E1,2(p)は、たとえば上記の公式によって示されるように決定されてもよい。エネルギー推定値および共分散は、スケーリング因子spによってスケーリングされて、スケーリングされたエネルギーおよび共分散sp・E1,1(p)、sp・E2,2(p)およびsp・E1,2(p)を与えてもよい。エネルギー推定値E1,1(p)、E2,2(p)および共分散E1,2(p)に基づいて導出される空間的パラメータP(p)は、典型的には、エネルギーおよび/または共分散の比に依存し、よって空間的パラメータP(p)の値はスケーリング因子spとは独立である。結果として、異なる周波数帯域p、p+1、p+2について異なるスケーリング因子sp、sp+1、sp+2が使われてもよい。
空間的パラメータの一つまたは複数が二つより多くの異なる入力チャネル(たとえば三つの異なるチャネル)に依存してもよいことを注意しておくべきである。この場合、前記一つまたは複数の空間的パラメータは、それら異なるチャネルのエネルギー推定値E1,1(p)、E2,2(p)……に基づき、かつそれらのチャネルの異なる対の間のそれぞれの共分散、すなわち、E1,2(p)、E1,3(p)、E2,3(p)などに基づいて導出されてもよい。この場合、前記一つまたは複数の空間的パラメータの値は、エネルギー推定値および/または共分散に適用されるスケーリング因子とは独立である。
特に、zpは固定小数点算術におけるシフトを指示する正の整数であるとして、特定の周波数帯域pについてスケーリング因子sp=2-zp
0.5<sp・max{|E1,1(p)|,|E2,2(p)|,|E1,2(p)|}≦1.0
となるように、かつシフトzpが最小となるように決定されてもよい。混合パラメータが決定される各周波数帯域pおよび/または各時間区間[q,v]について個々にこのことを保証することによって、有効な値範囲を保証しつつ、固定小数点算術における増大した(たとえば最大の)精度が達成されうる。
例として、個々のスケーリングは、あらゆる単一のMAC(multiply-accumulate[乗累算])演算についてMAC演算の結果が±1を超えうるかどうかを検査することによって実装されることができる。そうである場合にのみ、その「ます」についての個別のスケーリングは、一ビット増大させられてもよい。ひとたびすべてのチャネルについてこれがなされたら、各「ます」についての最大のスケーリングが決定されてもよく、「ます」のすべての逸脱するスケーリングはしかるべく適応されてもよい。
上記で概説したように、空間的メタデータは、フレーム当たり空間的パラメータの一つまたは複数の(たとえば二つの)集合を含んでいてもよい。よって、エンコード・システム500は、フレーム当たり空間的パラメータの一つまたは複数の集合を、対応するデコード・システム100に伝送してもよい。空間的パラメータのそれらの集合のそれぞれは、空間的メタデータのフレームのK/Q個の時間的に相続くスペクトル289のうちの一つの特定のスペクトルに対応する。この特定のスペクトルは特定の時点に対応し、該特定の時点はサンプリング点と称されてもよい。図5cは、空間的パラメータの二つの集合それぞれの二つの例示的なサンプリング点583、584を示す。サンプリング点583、584は、入力オーディオ信号561内に含まれる特定のイベントに関連付けられていてもよい。あるいはまた、サンプリング点はあらかじめ決定されていてもよい。
サンプリング点583、584は、対応する空間的パラメータがデコード・システム100においてフルに適用されるべき時点を示す。換言すれば、デコード・システム100は、サンプリング点583、584において、空間的パラメータの伝送される集合に従って空間的パラメータを更新するよう構成されていてもよい。さらに、デコード・システム100は、二つの相続くサンプリング点の間で空間的パラメータを補間するよう構成されていてもよい。空間的パラメータは、空間的パラメータの相続く集合の間で実行される遷移の型を示していてもよい。遷移の型の例は、空間的パラメータの間の「なめらかな」遷移と「急峻な」遷移である。これらはそれぞれ、空間的パラメータがなめらかな(たとえば線形な)仕方で補間されことがあり、あるいは突然更新されることがあることを意味する。
「なめらかな」遷移の場合、サンプリング点は固定(すなわち、あらかじめ決定されている)であってもよく、よってビットストリーム564において信号伝達される必要がない。空間的メタデータのフレームが空間的パラメータの単一の集合を伝達する場合、あらかじめ決定されたサンプリング点は、フレームのまさに終端における位置であってもよい。すなわち、サンプリング点はK/Q番目のスペクトル589に対応していてもよい。空間的メタデータが空間的パラメータの二つの集合を伝達する場合には、第一のサンプリング点はK/2Q番目のスペクトル589に対応してもよく、第二のサンプリング点はK/Q番目のスペクトル589に対応してもよい。
「急峻な」遷移の場合、サンプリング点583、584は可変であってもよく、ビットストリーム562において信号伝達されてもよい。あるフレームにおいて使われる空間的パラメータの集合の数についての情報、「なめらかな」遷移と「急峻な」遷移の間の選択についての情報および「急峻な」遷移の場合のサンプリング点の位置についての情報を担持する前記ビットストリーム562の位置は、ビットストリーム562の「フレーム構成(framing)」部分と称されてもよい。図7aは、受領されたビットストリーム562内に含まれるフレーム構成情報に依存してデコード・システム100によって適用されてもよい例示的な遷移方式を示している。
例として、特定のフレームについてのフレーム構成情報が「なめらかな」遷移および空間的パラメータの単一の集合711を指示してもよい。この場合、デコード・システム100(たとえば第一の混合行列130)は、空間的パラメータの集合711についてのサンプリング点がその特定のフレームの最後のスペクトルに対応すると想定してもよい。さらに、デコード・システム100は、直前のフレームについての空間的パラメータの最後の受領された集合710と、その特定のフレームについての空間的パラメータの前記集合711との間で(たとえば線形に)補間701するよう構成されていてもよい。もう一つの例では、特定のフレームについてのフレーム構成情報が「なめらかな」遷移および空間的パラメータの二つの集合711、712を指示してもよい。この場合、デコード・システム100(たとえば第一の混合行列130)は、空間的パラメータの第一の集合711についてのサンプリング点がその特定のフレームの前半の最後のスペクトルに対応し、空間的パラメータの第二の集合712についてのサンプリング点がその特定のフレームの後半の最後のスペクトルに対応すると想定してもよい。さらに、デコード・システム100は、直前のフレームについての空間的パラメータの最後の受領された集合710と、空間的パラメータの前記集合711との間で、また空間的パラメータの第一の集合711と、空間的パラメータの第二の集合712との間で、(たとえば線形に)補間702するよう構成されていてもよい。
あるさらなる例では、特定のフレームについてのフレーム構成情報が「急峻な」遷移、空間的パラメータの単一の集合711および空間的パラメータの該単一の集合711についてのサンプリング点583を指示してもよい。この場合、デコード・システム100(たとえば第一の混合行列130)は、該サンプリング点583までは直前のフレームについての空間的パラメータの最後の受領された集合710を適用し、該サンプリング点583から始まって空間的パラメータの集合711を適用するよう構成されていてもよい(曲線703に示されるように)。もう一つの例では、特定のフレームについてのフレーム構成情報が「急峻な」遷移、空間的パラメータの二つの集合711、712および空間的パラメータの該二つの集合711、712についての二つの対応するサンプリング点583、584を指示してもよい。この場合、デコード・システム100(たとえば第一の混合行列130)は、第一のサンプリング点583までは直前のフレームについての空間的パラメータの最後の受領された集合710を適用し、第一のサンプリング点583から始まり第二のサンプリング点584までは空間的パラメータの第一の集合711を適用し、第二のサンプリング点584から始まって少なくともその特定のフレームの終端までは空間的パラメータの第二の集合712を適用するよう構成されていてもよい(曲線704に示されるように)。
エンコード・システム500は、フレーム構成情報が信号特性に一致することおよび入力信号561の適切な部分が空間的パラメータの一つまたは複数の集合711、712を計算するために選ばれることを保証するべきである。この目的のために、エンコード・システム500は、一つまたは複数のチャネルにおける信号エネルギーが急激に増大する信号位置を検出するよう構成されている検出器を有していてもよい。少なくとも一つのそのような信号位置が見出される場合、エンコード・システム500は「なめらかな」遷移から「急峻な」遷移に切り替わるよう構成されていてもよく、そうでない場合にはエンコード・システム500は「なめらかな」遷移を続けてもよい。
上記で概説したように、エンコード・システム500(たとえばパラメータ決定ユニット523)は、現在フレームについての空間的パラメータを、入力オーディオ信号561の複数のフレーム585、590に基づいて(たとえば現在フレーム585に基づきかつ直後のフレーム590、すなわちいわゆる先読みフレームに基づいて)計算するよう構成されていてもよい。よって、パラメータ決定ユニット523は、2かけるK/Q個のスペクトル589に基づいて空間的パラメータを決定するよう構成されていてもよい(図5eに示されるように)。スペクトル589は、図5eに示されるように窓586によって窓掛けされてもよい。本稿では、決定されるべき空間的パラメータの集合711、712の数に基づき、遷移の型に基づき、および/またはサンプリング点583、584の位置に基づき、窓586を適応させることが提案される。こうすることにより、フレーム構成情報が信号特性に一致し、入力信号561の適切な部分が空間的パラメータの前記一つまたは複数の集合711、712を計算するために選択されることが保証できる。
下記では、種々のエンコーダ/信号状況について例示的な窓関数が記述される。
a)状況:空間的パラメータの単一の集合711、なめらかな遷移、先読みフレーム590内に過渡成分なし
窓関数586:直前のフレームの最後のスペクトルとK/Q番目のスペクトル589との間で窓関数586は0から1に線形に上昇してもよい。K/Q番目のスペクトルと48番目のスペクトル589の間で、窓関数586は1から0に線形に降下してもよい(図5e参照)。
b)状況:空間的パラメータの単一の集合711、なめらかな遷移、N番目のスペクトルに過渡成分(N>K/Q)、すなわち先読みフレーム590内に過渡成分
図7bに示されるような窓関数721:直前のフレームの最後のスペクトルとK/Q番目のスペクトルとの間で窓関数721は0から1に線形に上昇。K/Q番目のスペクトルと(N−1)番目のスペクトルの間で、窓関数721は1で一定のまま。N番目のスペクトルと2*K/Q番目のスペクトルとの間で窓関数586は0で一定のまま。N番目のスペクトルにおける過渡成分は過渡点724(これは直後のフレーム590の空間的パラメータの集合についてのサンプリング点に対応する)によって表現される。さらに、相補的窓関数722(これは、直前のフレームについての空間的パラメータの前記一つまたは複数の集合を決定するときに現在フレーム585のスペクトルに適用される)および窓関数723(これは、直後のフレームについての空間的パラメータの前記一つまたは複数の集合を決定するときに直後のフレーム590のスペクトルに適用される)が図7bに示されている。全体として、窓関数721は、先読みフレーム590における一つまたは複数の過渡成分の場合に、第一の過渡点724より前の先読みフレームのスペクトルは、現在フレーム585についての空間的パラメータの集合711を決定するためにフルに考慮に入れられることを保証する。他方、過渡点724より後の先読みフレーム590のスペクトルは無視される。
c)状況:空間的パラメータの単一の集合711、急峻な遷移、N番目のスペクトルに過渡成分(N≦K/Q)、直後のフレーム590内に過渡成分なし
図7cに示されるような窓関数731:最初のスペクトルと(N−1)番目のスペクトルとの間で窓関数731は0で一定のまま。N番目のスペクトルとK/Q番目のスペクトルの間で、窓関数731は1で一定のまま。K/Q番目のスペクトルと2*K/Q番目のスペクトルとの間で窓関数731は1から0に線形に降下。図7cは、N番目のスペクトルにおける過渡点734(これは空間的パラメータの単一の集合711についてのサンプリング点に対応する)を示している。さらに、図7cは、直前のフレームについての空間的パラメータの前記一つまたは複数の集合を決定するときに現在フレーム585のスペクトルに適用される窓関数732と、直後のフレームについての空間的パラメータの前記一つまたは複数の集合を決定するときに直後のフレーム590のスペクトルに適用される窓関数733とを示している。
d)状況:空間的パラメータの単一の集合、急峻な遷移、N番目およびM番目のスペクトルに過渡成分(N≦K/Q、M>K/Q)
図7dの窓関数741:最初のスペクトルと(N−1)番目のスペクトルとの間で窓関数741は0で一定のまま。N番目のスペクトルと(M−1)番目のスペクトルの間で、窓関数741は1で一定のまま。M番目のスペクトルと48番目のスペクトルとの間で窓関数は0で一定のまま。図7dは、N番目のスペクトルにおける過渡点744(すなわち、空間的パラメータの前記集合のサンプリング点)およびM番目のスペクトルにおける過渡点745を示している。さらに、図7dは、直前のフレームについての空間的パラメータの前記一つまたは複数の集合を決定するときに現在フレーム585のスペクトルに適用される窓関数742と、直後のフレームについての空間的パラメータの前記一つまたは複数の集合を決定するときに直後のフレーム590のスペクトルに適用される窓関数743とを示している。
e)状況:空間的パラメータの二つの集合、なめらかな遷移、後続フレームに過渡成分なし
窓関数:
i)空間的パラメータの第一の集合:直前のフレームの最後のスペクトルとK/2Q番目のスペクトルとの間で窓関数は0から1に線形に上昇。K/2Q番目のスペクトルとK/Q番目のスペクトルの間で、窓は1から0に線形に降下。K/Q番目のスペクトルと2*K/Q番目のスペクトルの間で、窓は0で一定のまま。
ii)空間的パラメータの第二の集合:最初のスペクトルとK/2Q番目のスペクトルとの間で窓は0で一定のまま。K/2Q番目のスペクトルとK/Q番目のスペクトルの間で、窓は0から1に線形に上昇。K/Q番目のスペクトルと3*K/2Q番目のスペクトルの間で、窓は1から0に線形に降下。3*K/2Q番目のスペクトルと2*K/Q番目のスペクトルの間で、窓は0で一定のまま。
f)状況:空間的パラメータの二つの集合、なめらかな遷移、N番目のスペクトルに過渡成分(N>K/Q)
窓関数:
i)空間的パラメータの第一の集合:直前のフレームの最後のスペクトルとK/2Q番目のスペクトルとの間で窓は0から1に線形に上昇。K/2Q番目のスペクトルとK/Q番目のスペクトルの間で、窓は1から0に線形に降下。K/Q番目のスペクトルと2*K/Q番目のスペクトルの間で、窓は0で一定のまま。
ii)空間的パラメータの第二の集合:最初のスペクトルとK/2Q番目のスペクトルとの間で窓は0で一定のまま。K/2Q番目のスペクトルとK/Q番目のスペクトルの間で、窓は0から1に線形に上昇。K/Q番目のスペクトルと(N−1)番目のスペクトルの間で、窓は1で一定のまま。N番目のスペクトルと2*K/Q番目のスペクトルの間で、窓は0で一定のまま。
g)状況:パラメータの二つの集合、急峻な遷移、N番目のスペクトルおよびM番目のスペクトルに過渡成分(N<M≦K/Q)、後続フレームに過渡成分なし
窓関数:
i)空間的パラメータの第一の集合:最初のスペクトルと(N−1)番目のスペクトルとの間で窓は0で一定のまま。N番目のスペクトルと(M−1)番目のスペクトルの間で窓は1で一定のまま。M番目のスペクトルと2*K/Q番目のスペクトルの間で、窓は0で一定のまま。
ii)空間的パラメータの第二の集合:最初のスペクトルと(M−1)番目のスペクトルとの間で窓は0で一定のまま。M番目のスペクトルとK/Q番目のスペクトルの間で、窓は1で一定のまま。K/Q番目のスペクトルと2*K/Q番目のスペクトルの間で、窓は1から0に線形に降下。
h)状況:空間的パラメータの二つの集合、急峻な遷移、N番目、M番目およびO番目のスペクトルに過渡成分(N<M≦K/Q、O>K/Q)
窓関数:
i)空間的パラメータの第一の集合:最初のスペクトルと(N−1)番目のスペクトルとの間で窓は0で一定のまま。N番目のスペクトルと(M−1)番目のスペクトルの間で窓は1で一定のまま。M番目のスペクトルと2*K/Q番目のスペクトルの間で、窓は0で一定のまま。
ii)空間的パラメータの第二の集合:最初のスペクトルと(M−1)番目のスペクトルとの間で窓は0で一定のまま。M番目のスペクトルと(O−1)番目のスペクトルの間で、窓は1で一定のまま。O番目のスペクトルと2*K/Q番目のスペクトルの間で、窓は0で一定のまま。
全体として、空間的パラメータの現在の集合を決定するための窓関数のための次の例示的な規則を定めてもよい。
●空間的パラメータの現在の集合が過渡成分に関連付けられていない場合
・窓関数は、空間的パラメータの直前の集合のサンプリング点から空間的パラメータの現在の集合のサンプリング点までの諸スペクトルのなめらかなフェーズインを提供する;
・空間的パラメータの後続の集合が過渡成分に関連付けられていない場合、窓関数は、空間的パラメータの現在の集合のサンプリング点から空間的パラメータの後続の集合のサンプリング点まで諸スペクトルのなめらかなフェーズアウトを提供する;
・空間的パラメータの後続の集合が過渡成分に関連付けられている場合、窓関数は、空間的パラメータの現在の集合のサンプリング点から空間的パラメータの後続の集合のサンプリング点の前のスペクトルまでの諸スペクトルをフルに考慮し、空間的パラメータの後続の集合のサンプリング点から始まる諸スペクトルを打ち消す。
●空間的パラメータの現在の集合が過渡成分に関連付けられている場合
・窓関数は、空間的パラメータの現在の集合のサンプリング点に先行する諸スペクトルを打ち消す;
・空間的パラメータの後続の集合のサンプリング点が過渡成分に関連付けられている場合、窓関数は、空間的パラメータの現在の集合のサンプリング点から空間的パラメータの後続の集合のサンプリング点の前のスペクトルまでの諸スペクトルをフルに考慮し、空間的パラメータの後続の集合のサンプリング点から始まる諸スペクトルを打ち消す;
・空間的パラメータの後続の集合が過渡成分に関連付けられていない場合、窓関数は、空間的パラメータの現在の集合のサンプリング点から現在フレームの終わりのスペクトルまでの諸スペクトルをフルに考慮し、先読みフレームの先頭から空間的パラメータの前記後続の集合のサンプリング点までの諸スペクトルのなめらかなフェーズアウトを提供する。
以下では、エンコード・システム500およびデコード・システム100を有するパラメトリック・マルチチャネル・コーデック・システムにおける遅延を低減する方法が記述される。上記で概説したように、エンコード・システム500は、ダウンミックス信号の生成およびエンコードならびにパラメータの決定およびエンコードのようないくつかの処理経路を有する。デコード・システム100は典型的には、エンコードされたダウンミックス信号のデコードおよび脱相関されたダウンミックス信号の生成を実行する。さらに、デコード・システム100は、エンコードされた空間的メタデータのデコードを実行する。その後、第一のアップミックス行列130において、デコードされた空間的メタデータがデコードされたダウンミックス信号および脱相関されたダウンミックス信号に適用されて、アップミックス信号を生成する。
デコード・システム100が低減された遅延および/または低減されたバッファ・メモリをもってアップミックス信号Yを生成できるようにするビットストリーム564を提供するよう構成されたエンコード・システム500を提供することが望ましい。上記で概説したように、エンコード・システム500は、ビットストリーム564内でデコード・システム100に提供されるエンコードされたデータがデコード時に正しくマッチするよう整列されうるいくつかの異なる経路を有する。上記で概説したように、エンコード・システム500は、PCM信号561のダウンミックスおよびエンコードを実行する。さらに、エンコード・システム500は、PCM信号561から空間的メタデータを決定する。さらに、エンコード・システム500は、一つまたは複数のクリップ利得(典型的にはフレーム当たり一つのクリップ利得)を決定するよう構成されていてもよい。クリップ利得は、ダウンミックス信号Xがクリッピングされないことを保証するためにダウンミックス信号Xに適用されたクリッピング防止利得を示す。前記一つまたは複数のクリップ利得は、デコード・システム100がアップミックス信号Yを再生成できるようにするために、ビットストリーム564内で(典型的には空間的メタデータ・フレーム内で)伝送されてもよい。さらに、エンコード・システム500は、一つまたは複数のダイナミックレンジ制御(DRC)値(たとえば、フレーム当たり一つまたは複数のDRC値)を決定するよう構成されていてもよい。前記一つまたは複数のDRC値は、アップミックスされた信号Yのダイナミックレンジ制御を実行するためにデコード・システム100によって使用されてもよい。特に、前記一つまたは複数のDRC値は、本稿に記載されるパラメトリック・マルチチャネル・コーデック・システムのDRCパフォーマンスが、ドルビー・デジタル・プラスのようなレガシーのマルチチャネル・コーデック・システムのDRCパフォーマンスと同様である(または等しい)ことを保証しうる。前記一つまたは複数のDRC値は、ダウンミックス・オーディオ・フレーム内で(たとえばドルビー・デジタル・プラスのビットストリームの適切なフィールド内で)伝送されてもよい。
よって、エンコード・システム500は少なくとも四つの信号処理経路を有していてもよい。これら四つの経路を整列させるために、エンコード・システム500は、エンコード・システム500に直接関係しない種々の処理コンポーネントによってシステム中に導入される遅延、たとえばコア・エンコーダ遅延、コア・デコーダ遅延、空間的メタデータ・デコーダ遅延、(LFEチャネルをフィルタリングするための)LFEフィルタ遅延および/またはQMF分解遅延をも考慮に入れてもよい。
上記の種々の経路を整列させるために、DRC処理経路の遅延が考慮されてもよい。DRC処理遅延は典型的には、フレームに整列されるだけであってもよく、時間サンプル毎には整列されなくてもよい。よって、DRC処理遅延は典型的には、次のフレーム整列に丸められて(rounded up)もよいコア・エンコーダ遅延に依存するだけである。すなわち、DRC処理遅延=round up(コア・エンコーダ遅延/フレーム・サイズ)。これに基づいて、ダウンミックス信号を生成するためのダウンミックス処理遅延が決定されてもよい。ダウンミックス処理遅延は、時間サンプル毎に遅延されることができるからである。すなわち、ダウンミックス処理遅延=DRC遅延×フレーム・サイズ−コア・エンコーダ遅延。残りの諸遅延は、個々の遅延線を合計し、遅延がデコーダ段においてマッチすることを保証することによって計算できる。このことは図8に示す。
種々の処理遅延を考慮することにより、ビットストリーム564を書くとき、エンコードされたPCMデータを1536サンプル遅延させる代わりに、結果として得られる空間的メタデータを一フレーム遅延させるとき(入力チャネル数×1536×4バイト−245バイト少ないメモリ)、デコード・システムにおける処理パワー(入力チャネル数−1×1536だけ少ないコピー動作)およびメモリが低減されることができる。遅延の結果として、すべての信号経路が時間サンプルにより厳密に整列され、大まかにマッチされるだけではない。
上記で概説したように、図8は、例示的なエンコード・システム500が受ける種々の遅延を示している。図8の括弧内の数字は、入力信号561のサンプル数での例示的な遅延を示す。エンコード・システム500は典型的には、マルチチャネル入力信号561のLFEチャネルをフィルタリングすることによって引き起こされる遅延801を有する。さらに、ダウンミックス信号がクリッピングされるのを防ぐために入力信号561に適用されるクリップ利得(すなわち、後述するDRC2パラメータ)を決定することによって、遅延802(「clipgainpcmdelayline」〔クリップ利得PCM遅延線〕と称される)が引き起こされうる。特に、この遅延802は、エンコード・システム500におけるクリップ利得適用を、デコード・システム100におけるクリップ利得適用に同期させるために導入されてもよい。この目的のために、ダウンミックス計算(ダウンミックス処理ユニット510によって実行される)への入力は、ダウンミックス信号のデコーダ140の遅延811(「coredecdelay」〔コア・デコーダ遅延〕と称される)に等しい量だけ遅延されてもよい。これは、図示した例ではclipgainpcmdelayline=coredecdelay=288サンプルであることを意味する。
ダウンミックス処理ユニット510(たとえばドルビー・デジタル・プラス・エンコーダを有する)は、オーディオ・データの、すなわちダウンミックス信号の処理経路を遅延させるが、ダウンミックス処理ユニット510は空間的メタデータの処理経路およびDRC/クリップ利得データについての処理経路は遅延させない。結果として、ダウンミックス処理ユニット510は、計算されたDRC利得、クリップ利得および空間的メタデータを遅延させるべきである。DRC利得については、この遅延は典型的には一フレームの整数倍である必要がある。DRC遅延線の遅延807(「drcdelayline」〔DRC遅延線〕と称される)は、drcdelayline=ceil((corencdelay+clipgainpcmdelayline)/frame_size)=2フレームとして計算されうる。ここで、「coreencdelay」〔コア・エンコーダ遅延〕は、ダウンミックス信号のエンコーダの遅延810を指す。
DRC利得の遅延は、典型的にはフレーム・サイズの整数倍であることだけができる。このため、これを補償し、フレーム・サイズの次の整数倍に丸めるために、追加的な遅延がダウンミックス処理経路において加えられる必要があることがある。追加的なダウンミックス遅延806(「dmxdelayline」〔ダウンミックス遅延線〕と称される)は、dmxdelayline+coreencdelay+clipgainpcmdelayline=drcdelayline*frame_sizeによって決定されてもよく、dmxdelayline=drcdelayline*frame_size−coreencdelay−clipgainpcmdelaylineより、dmxdelayline=100となる。
空間的パラメータがデコーダ側で周波数領域において(たとえばQMF領域において)適用されるとき、空間的パラメータはダウンミックス信号と同期しているべきである。ダウンミックス信号のエンコーダが空間的メタデータ・フレームを遅延させず、ダウンミックス処理経路を遅延させるという事実を補償するために、パラメータ抽出器420への入力が次の条件が成り立つように遅延させられるべきである:dmxdelayline+coreencdelay+coredecdelay+aspdecanadelay=aspdelayline+qmfanadelay+framingdelay。上記の公式において、「qmfanadelay」〔QMF分解遅延〕は変換ユニット521によって引き起こされる遅延804を指定し、「framingdelay」〔フレーム構成遅延〕は、変換係数580の窓掛けおよび空間的パラメータの決定によって引き起こされる遅延805を指定する。上記で概説したように、フレーム構成計算は、入力として、現在フレームおよび先読みフレームの二つのフレームを利用する。先読みのため、フレーム構成はちょうど一フレームの長さの遅延805を導入する。さらに、遅延804は既知であり、空間的メタデータを決定するために処理経路に適用されるべき追加的な遅延はaspdelayline=dmxdelayline+coreencdelay+coredecdelay+aspdecanadelay−qmfanadelay−framingdelay=1856である。この遅延は一フレームより大きいので、入力PCMデータを遅延させる代わりに計算されたビットストリームを遅延させることによって、遅延線のメモリ・サイズが低減されることができる。それにより、aspbsdelayline=floor(aspdelayline/frame_size)=1フレーム(遅延809)およびasppcmdelayline=aspdelayline−aspbsdelayline*frame_size=320(遅延803)。
前記一つまたは複数のクリップ利得の計算後、前記一つまたは複数のクリップ利得はビットストリーム生成ユニット530に提供される。よって、前記一つまたは複数のクリップ利得は、aspbsdelayline 809によって最終的なビットストリームに適用される遅延を経験する。よって、クリップ利得についての追加的な遅延808は:clipgainbsdelayline+aspbsdelayline=dmxdelayline+coreencdelay+coredecdelayであるべきであり、これはclipgainbsdelayline=dmxdelayline+coreencdelay+coredecdelay−aspbsdelayline=1フレームを与える。換言すれば、前記一つまたは複数のクリップ利得は、ダウンミックス信号の対応するフレームのデコードの直後にデコード・システム500に提供されることが保証されるべきである。それにより、前記一つまたは複数のクリップ利得は、アップミックス段130においてアップミックスを実行する前に、ダウンミックス信号に適用されることができる。
図8は、デコード・システム100において受けるさらなる遅延を示している。たとえば、デコード・システム100の時間領域から周波数領域への変換301、302によって引き起こされる遅延812(「aspdecanadelay」〔ASPデコーダ分解遅延〕と称される)、周波数領域から時間領域への変換311ないし316によって引き起こされる遅延813(「aspdecsyndelay」〔ASPデコーダ合成遅延〕と称される)およびさらなる遅延814である。
図8から見て取れるように、コーデック・システムの種々の処理経路は、処理関係の遅延と、種々の処理経路からの種々の出力データがデコード・システム100において必要とされるときに利用可能であることを保証する整列遅延とを有する。整列遅延(たとえば遅延803、809、807、808、806)は、エンコード・システム500内で提供され、それによりデコード・システム100において必要とされる処理パワーおよびメモリを低減する。種々の処理経路についての全遅延(すべての処理経路に適用可能なLFEフィルタ遅延801を除く)は次のとおりである。
・ダウンミックス処理経路:遅延802、806、810の和=3072、すなわち2フレーム;
・DRC処理経路:遅延807=3072、すなわち2フレーム;
・クリップ利得処理経路:遅延808、809、802の和=3360。これはダウンミックス信号のデコーダの遅延811にダウンミックス処理経路の遅延を加えたものに対応する;
・空間的メタデータ処理経路:遅延802、803、804、805、809の和=4000。これは、ダウンミックス信号のデコーダの遅延811および時間領域から周波数領域への変換段301、302によって引き起こされる遅延812にダウンミックス処理経路の遅延を加えたものに対応する。
よって、DRCデータは時点821においてデコード・システム100において利用可能であり、クリップ利得データは時点822において利用可能であり、空間的メタデータは時点823において利用可能であることが保証される。
さらに、図8から、ビットストリーム生成ユニット530が、入力オーディオ信号561の異なる抜粋に関係していてもよいエンコードされたオーディオ・データおよび空間的メタデータを組み合わせてもよいことが見て取れる。特に、ダウンミックス処理経路、DRC処理経路およびクリップ利得処理経路が、エンコード・システム500の出力(インターフェース831、832、833によって示される)までに、(遅延801を無視するとき)ちょうど2フレーム(3072サンプル)の遅延をもつことが見て取れる。エンコードされたダウンミックス信号はインターフェース831によって提供され、DRC利得データはインターフェース832によって提供され、空間的メタデータおよびクリップ利得データはインターフェース833によって提供される。典型的には、エンコードされたダウンミックス信号およびDRC利得データは通常のドルビー・デジタル・プラス・フレームにおいて提供され、クリップ利得データおよび空間的メタデータは空間的メタデータ・フレームにおいて(たとえばドルビー・デジタル・プラス・フレームの補助フィールドにおいて)提供されてもよい。
インターフェース833における空間的メタデータ処理経路は(遅延801を無視するとき)4000サンプルの遅延をもち、これが他の処理経路の遅延(3072サンプル)と異なることが見て取れる。これは、空間的メタデータ・フレームが、ダウンミックス信号のフレームとは、入力信号561の異なる抜粋に関係しうることを意味する。特に、デコード・システム100における整列を保証するために、ビットストリーム生成ユニット530は、ビットストリーム・フレームのシーケンスを含むビットストリーム564を生成するよう構成されるべきであることが見て取れる。ここで、ビットストリーム・フレームは、マルチチャネル入力信号561の第一のフレームに対応するダウンミックス信号のフレームと、マルチチャネル入力信号561の第二のフレームに対応する空間的メタデータ・フレームとを示す。マルチチャネル入力信号561の第一のフレームおよび第二のフレームは、同数のサンプルを含んでいてもよい。にもかかわらず、マルチチャネル入力信号561の第一のフレームおよび第二のフレームは、互いに異なっていてもよい。特に、第一および第二のフレームは、マルチチャネル入力信号561の異なる抜粋に対応してもよい。より特定的には、第一のフレームは第二のフレームのサンプルより先行するサンプルを含んでいてもよい。例として、第一のフレームは、マルチチャネル入力信号561のサンプルであって、マルチチャネル入力信号561の第二のフレームのサンプルより所定のサンプル数だけ、たとえば928サンプルだけ先行するものを含んでいてもよい。
上記で概説したように、エンコード・システム500は、ダイナミックレンジ制御(DRC)および/またはクリップ利得データを決定するよう構成されていてもよい。特に、エンコード・システム500は、ダウンミックス信号Xがクリッピングされないことを保証するよう構成されていてもよい。さらに、エンコード・システム500は、上述したパラメトリック・エンコード方式を使ってエンコードされる、マルチチャネル信号YのDRC挙動が参照マルチチャネル・エンコード・システム(ドルビー・デジタル・プラスのような)を使ってエンコードされるマルチチャネル信号YのDRC挙動と同様であるまたは等しいことを保証するダイナミックレンジ制御(DRC)パラメータを提供するよう構成されていてもよい。
図9aは、例示的なデュアル・モード・エンコード・システム900のブロック図である。デュアル・モード・エンコード・システム900の部分930、931は典型的には別個に設けられることを注意しておくべきである。nチャネル入力信号Y 561は、エンコード・システム900の少なくともマルチチャネル符号化モードにおいてアクティブである上の部分930およびエンコード・システム900の少なくともパラメトリック符号化モードにおいてアクティブである下の部分931のそれぞれに与えられる。エンコード・システム900の下の部分931は、たとえばエンコード・システム500に対応していてもよく、あるいはそれを含んでいてもよい。上の部分930は参照マルチチャネル・エンコーダ(ドルビー・デジタル・プラス・エンコーダのような)に対応していてもよい。上の部分930は一般に、エンコーダ911と並列に配置された離散モードDRC解析器910を有し、その両方がオーディオ信号Y 561を入力として受け取る。この入力信号561に基づいて、エンコーダ911はエンコードされたnチャネル信号(^付きのY)を出力する。一方、DRC解析器910は、適用されるべきデコーダ側DRCを定量化する一つまたは複数の後処理DRCパラメータDRC1を出力する。DRCパラメータDRC1は、「compr」利得(圧縮器利得)および/または「dynrng」利得(ダイナミックレンジ利得)パラメータであってもよい。両方のユニット910、911からの並列な出力は離散モード・マルチプレクサ912によって集められ、該マルチプレクサがビットストリームPを出力する。ビットストリームPは、あらかじめ決定されたシンタックス、たとえばドルビー・デジタル・プラスのシンタックスを有していてもよい。
エンコード・システム900の下の部分931は、パラメトリック・モードDRC解析器921と並列に配置されるパラメトリック解析段922を有する。パラメトリック・モードDRC解析器921は、パラメトリック解析段922と同様に、nチャネル入力信号Yを受け取る。パラメトリック解析段922は、パラメータ抽出器420を有していてもよい。nチャネル・オーディオ信号Yに基づいて、パラメトリック解析段922は、(上記で概説したように)図9aおよび図9bではまとめてαによって表わされる一つまたは複数の混合パラメータと、mチャネル(1<m<n)のダウンミックス信号Xとを出力する。ダウンミックス信号Xは次にコア信号エンコーダ923(たとえばドルビー・デジタル・プラス・エンコーダ)によって処理され、該エンコーダはそれに基づいてエンコードされたダウンミックス信号(^付きのX)を出力する。パラメトリック解析段922は、必要でありうるときに、入力信号の時間ブロックまたはフレームにおいてダイナミックレンジ制限を作用させる。ダイナミックレンジ制限をいつ適用するかを制御する可能な条件は、「非クリップ条件」すなわち「範囲内条件」でありうる。これは、ダウンミックス信号が大きな振幅をもつ時間ブロックまたはフレーム・セグメントにおいて、信号が定義された範囲内に収まるように処理されることを含意する。この条件は、一時間ブロックまたはいくつかの時間ブロックを含む一時間フレームに基づいて実施されてもよい。例として、入力信号561のフレームはあらかじめ決定された数(たとえば6個)のブロックを含んでいてもよい。好ましくは、上記条件は、ピーク値だけを打ち切るまたは同様のアプローチを使うのではなく、広いスペクトルの利得低下を適用することによって実施される。
図9bは、パラメトリック分解段922の可能な実装を示しており、前処理器927およびパラメトリック分解プロセッサ928を有している。前処理器927は、nチャネル入力信号561に対してダイナミックレンジ制限を実行することを受け持ち、それによりダイナミックレンジ制限されたnチャネル信号を出力し、これがパラメトリック分解プロセッサ928に供給される。前処理器527はさらに、前処理DRCパラメータDRC2のブロック毎またはフレーム毎の値を出力する。パラメトリック分解プロセッサ928からの混合パラメータαおよびmチャネル・ダウンミックス信号Xと一緒に、パラメータDRC2が、パラメトリック分解段922からの出力に含められる。
パラメータDRC2は、クリップ利得とも称されうる。パラメータDRC2は、ダウンミック信号Xがクリッピングされないことを保証するためにマルチチャネル入力信号561に適用された利得を示してもよい。ダウンミックス信号Xの前記一つまたは複数のチャネルは、入力信号Yのチャネルの一部または全部の線形結合を決定することによって、入力信号Yのチャネルから決定されうる。例として、入力信号Yは5.1マルチチャネル信号であってもよく、ダウンミックス信号はステレオ信号であってもよい。ダウンミックス信号の左右のチャネルのサンプルは、5.1マルチチャネル入力信号のサンプルの異なる線形結合に基づいて生成されてもよい。
DRC2パラメータは、ダウンミックス信号のチャネルの最大振幅があらかじめ決定された閾値を超えないよう決定されてもよい。これは、ブロックごとにまたはフレームごとに保証されてもよい。ブロック毎またはフレーム毎の単一の利得(クリップ利得)は、上述した条件が満たされることを保証するために、マルチチャネル入力信号Yのチャネルに適用されてもよい。DRC2パラメータは、この利得を(たとえばこの利得の逆数を)示していてもよい。
図9aを参照するに、離散モードDRC解析器910は、適用されるべきデコーダ側DRCを定量化する一つまたは複数の後処理DRCパラメータDRC1を出力するという点で、パラメトリック・モードDRC解析器921と同様に機能することを注意しておく。よって、パラメトリック・モードDRC解析器921は、参照マルチチャネル・エンコーダ930によって実行されるDRC処理をシミュレートするよう構成されていてもよい。パラメトリック・モードDRC解析器921によって提供されるパラメータDRC1は典型的には、パラメトリック符号化モードにおいてビットストリームPに含められず、その代わりに、パラメトリック分解段922によって実行されるダイナミックレンジ制限が考慮されるよう補償を受ける。この目的のために、DRCアップ補償器924は、後処理DRCパラメータDRC1および前処理DRCパラメータDRC2を受領する。各ブロックまたは各フレームについて、DRCアップ補償器924は、一つまたは複数の補償された後処理DRCパラメータDRC3の値を導出する。これらの後処理DRCパラメータは、補償された後処理DRCパラメータDRC3および前処理DRCパラメータDRC2の組み合わされた作用が、後処理DRCパラメータDRC1によって定量化されるDRCと定量的に等価であるようなものである。別の言い方をすれば、DRCアップ補償器924は、DRC解析器921によって出力される後処理DRCパラメータを、パラメトリック分解段922によってすでに実施済みの部分があればその部分だけ低減するよう構成されている。ビットストリームPに含められてもよいのは、補償された後処理DRCパラメータDRC3である。
システム900の下の部分931を参照するに、パラメトリック・モード・マルチプレクサ925は、補償された後処理DRCパラメータDRC3、前処理DRCパラメータDRC2、混合パラメータαおよびエンコードされたダウンミックス信号Xを収集し、それらに基づいてビットストリームPを形成する。よって、パラメトリック・モード・マルチプレクサ925は、ビットストリーム生成ユニット530を含んでいてもよいし、これに対応していてもよい。ある可能な実装では、補償された後処理DRCパラメータDRC3および前処理DRCパラメータDRC2は、デコーダ側の振幅アップスケーリングまたはダウンスケーリングに影響するdB値として、対数の形でエンコードされてもよい。補償された後処理DRCパラメータDRC3はいかなる符号を有していてもよい。しかしながら、「非クリップ条件」などの実施から帰結する後処理DRCパラメータDRC2は典型的には、すべての時点において負でないdB値によって表わされる。
図10は、修正されたDRCパラメータDRC3(たとえば修正された「dynrng利得」および「compr利得」パラメータ)を決定するためにたとえばパラメトリック・モードDRC解析器921およびDRCアップ補償器924において実行されてもよい例示的な処理を示している。
DRC2およびDRC3パラメータは、デコード・システムが異なるオーディオ・ビットストリームを一貫したラウドネス・レベルで再生することを保証するために使用されてもよい。さらに、パラメトリック・エンコード・システム500によって生成されたビットストリームが、レガシーおよび/または参照エンコード・システム(ドルビー・デジタル・プラスのような)によって生成されたビットストリームに対して一貫したラウドネス・レベルをもつことが保証されてもよい。上記で概説したように、これは、クリッピングされないダウンミックス信号をエンコード・システム500によって(DRC2パラメータを使って)生成することによって、およびデコード・システム100が(アップミックス信号を生成するときに)もとのラウドネスを再生成できるようにするために、ビットストリーム内でDRC2パラメータ(たとえば、ダウンミックス信号のクリッピングを防止するために適用された減衰の逆数)を提供することによって、保証されうる。
上記で概説したように、ダウンミックス信号は典型的には、マルチチャネル入力信号561のチャネルの一部または全部の線形結合に基づいて生成される。よって、マルチチャネル入力信号561のチャネルに適用されるスケーリング因子(または減衰)は、マルチチャネル入力信号561の、ダウンミックス信号に寄与したすべてのチャネルに依存してもよい。特に、ダウンミックス信号の前記一つまたは複数のチャネルは、マルチチャネル入力信号561のLFEチャネルに基づいて決定されてもよい。結果として、クリッピング保護のために適用されるスケーリング因子(または減衰)は、LFEチャネルをも考慮に入れるべきである。これは、LFEチャネルが典型的にはクリッピング保護のためには考慮に入れられない、他のマルチチャネル・エンコード・システム(ドルビー・デジタル・プラスのような)とは異なる。LFEチャネルおよび/またはダウンミックス信号に寄与したすべてのチャネルを考慮に入れることによって、クリッピング保護の品質が改善されうる。
よって、対応するデコード・システム100に提供される前記一つまたは複数のDRC2パラメータは、ダウンミックス信号に寄与した入力信号561のすべてのチャネルに依存してもよい。特に、DRC2パラメータは、LFEチャネルに依存してもよい。そうすることにより、クリッピング保護の品質が改善されうる。
dialnormパラメータが、(図10に示されるように)スケーリング因子および/またはDRC2パラメータの計算のために考慮に入れられなくてもよいことを注意しておくべきである。
上記で概説したように、エンコード・システム500は、ダウンミックス信号におけるクリッピングを防止するために入力信号561に対してどの利得が適用されたかを示すいわゆる「クリップ利得」(すなわち、DRC2パラメータ)を、空間的メタデータ・フレーム中に書き込むよう構成されていてもよい。対応するデコード・システム100は、エンコード・システム500において適用されたクリップ利得を正確に打ち消すよう構成されていてもよい。しかしながら、クリップ利得のサンプリング点のみがビットストリームにおいて伝送される。換言すれば、クリップ利得パラメータは典型的には、フレーム毎またはブロック毎にのみ決定される。デコード・システム100は、それらのサンプリング点の間では、近隣のサンプリング点の間でクリップ利得値(たとえば受領されたDRC2パラメータ)を補間するよう構成されていてもよい。
隣接するフレームについてのDRC2パラメータを補間するための例示的な補間曲線は、図11に示されている。特に、図11は、第一のフレームについての第一のDRC2パラメータ953と、後続の第二のフレーム950についての第二のDRC2パラメータ954とを示している。デコード・システム100は、第一のDRC2パラメータ953と第二のDRC2パラメータ954との間で補間するよう構成されていてもよい。補間は、第二のフレーム950のサンプルの部分集合951内で、たとえば第二のフレーム950の第一のブロック951内で実行されてもよい(補間曲線952によって示されるように)。DRC2パラメータの補間は、隣接するオーディオ・フレーム間でのなめらかな遷移を保証し、それにより相続くDRC2パラメータ953、954の間の差によって引き起こされうる可聴アーチファクトを回避する。
エンコード・システム500(特に、ダウンミックス処理ユニット510)は、ダウンミックス信号を生成するときに、デコード・システム500によって実行されるDRC2補間952に対して対応するクリップ利得補間を適用するよう構成されていてもよい。このことは、ダウンミックス信号のクリップ利得保護が、アップミックス信号を生成するときに一貫して除去されることを保証する。換言すれば、エンコード・システム500は、デコード・システム100によって適用されたDRC2補間952から帰結するDRC2値の曲線をシミュレートするよう構成されていてもよい。さらに、エンコード・システム500は、ダウンミックス信号を生成するときに、DRC2値のこの曲線の正確な(サンプルごとの)逆数をマルチチャネル入力信号561に適用するよう構成されていてもよい。
本稿に記載された方法およびシステムは、ソフトウェア、ファームウェアおよび/またはハードウェアとして実装されてもよい。ある種のコンポーネントは、たとえばデジタル信号プロセッサまたはマイクロプロセッサ上で走るソフトウェアとして実装されてもよい。他のコンポーネントは、ハードウェアとしておよびまたは特定用途向け集積回路として実装されてもよい。記載される方法およびシステムにおいて遭遇する信号は、ランダム・アクセス・メモリまたは光学式記憶媒体のような媒体上に記憶されてもよい。それらの信号は、電波ネットワーク、衛星ネットワーク、無線ネットワークまたは有線ネットワーク、たとえばインターネットのようなネットワークを介して転送されてもよい。本稿に記載される方法およびシステムを利用する典型的な装置は、オーディオ信号を記憶および/またはレンダリングするポータブル電子装置または他の消費者設備である。
いくつかの態様を記載しておく。
〔態様1〕
ダウンミックス信号と、前記ダウンミックス信号からマルチチャネル・アップミックス信号を生成するための空間的メタデータとを示すビットストリームを生成するよう構成されたオーディオ・エンコード・システムであって:
・マルチチャネル入力信号から前記ダウンミックス信号を生成するよう構成されたダウンミックス処理ユニット(510)であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、ダウンミックス処理ユニットと;
・前記マルチチャネル入力信号から前記空間的メタデータを決定するよう構成されたパラメータ処理ユニット(520)と;
・一つまたは複数の外部設定に基づいて前記パラメータ処理ユニットのための一つまたは複数の制御設定を決定するよう構成された構成設定ユニット(540)であって、前記一つまたは複数の外部設定は、前記ビットストリームのための目標データ・レートを含み、前記一つまたは複数の制御設定は、前記空間的メタデータのための最大データ・レートを含む、構成設定ユニットとを有する、
オーディオ・エンコード・システム。
〔態様2〕
・前記パラメータ処理ユニットは、空間的メタデータ・フレームと称される、前記マルチチャネル入力信号のフレームについての空間的メタデータを決定するよう構成されており;
・前記マルチチャネル入力信号のフレームは、前記マルチチャネル入力信号の、あらかじめ決定された数のサンプルを含み;
・前記空間的メタデータのための前記最大データ・レートは、空間的メタデータ・フレームのためのメタデータ・ビットの最大数を示す、
態様1記載のオーディオ・エンコード・システム。
〔態様3〕
前記パラメータ処理ユニットは、前記一つまたは複数の制御設定に基づいて決定された空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過するかどうかを判定するよう構成されている、態様2記載のオーディオ・エンコード・システム。
〔態様4〕
・空間的メタデータ・フレームが空間的パラメータの一つまたは複数の集合を含み;
・前記一つまたは複数の制御設定が、前記パラメータ処理ユニットによって決定されるべき空間的メタデータ・フレーム当たりの空間的パラメータの集合の数を示す時間的分解能設定を含み;
・前記パラメータ処理ユニットが、現在の空間的メタデータ・フレームが空間的パラメータの複数の集合(711、712)を有している場合かつ現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過している場合には、現在の空間的メタデータ・フレームからの空間的パラメータの集合(711)を破棄するよう構成されている、
態様3記載のオーディオ・エンコード・システム。
〔態様5〕
・空間的パラメータの前記一つまたは複数の集合は、対応する一つまたは複数のサンプリング点に関連付けられており;
・前記一つまたは複数のサンプリング点は、対応する一つまたは複数の時点を示し;
・前記パラメータ処理ユニットは、現在のメタデータ・フレームの前記複数のサンプリング点(583、584)が前記マルチチャネル入力信号の過渡成分に関連付けられていない場合、現在の空間的メタデータ・フレームから空間的パラメータの第一の集合(711)を破棄するよう構成されており、空間的パラメータの前記第一の集合は、第二のサンプリング点(584)より前の第一のサンプリング点(583)に関連付けられており;
・前記パラメータ処理ユニットは、現在のメタデータ・フレームの前記複数のサンプリング点が前記マルチチャネル入力信号の過渡成分に関連付けられている場合には、現在の空間的メタデータ・フレームから空間的パラメータの第二の集合(712)を破棄するよう構成されている、
態様4記載のオーディオ・エンコード・システム。
〔態様6〕
・前記一つまたは複数の制御設定は、複数のあらかじめ決定された型の量子化器からの第一の型の量子化器を示す量子化器設定を含み;
・前記パラメータ処理ユニットは、前記第一の型の量子化器に従って、空間的パラメータの前記一つまたは複数の集合を量子化するよう構成されており;
・前記複数のあらかじめ決定された型の量子化器は、それぞれ異なる量子化器分解能を提供し;
・前記パラメータ処理ユニットは、現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過すると判定される場合、前記第一の型の量子化器より低い分解能をもつ第二の型の量子化器に従って空間的パラメータの前記一つまたは複数の集合の空間的パラメータの一つ、いくつかまたは全部を再量子化するよう構成されている、
態様4または5記載のオーディオ・エンコード・システム。
〔態様7〕
前記複数のあらかじめ決定された型の量子化器が細かい量子化および粗い量子化を含む、態様6記載のオーディオ・エンコード・システム。
〔態様8〕
前記パラメータ処理ユニットは:
・空間的パラメータの現在の集合(712)の、空間的パラメータの直前の集合(711)に対する差に基づいて時間的差分パラメータの集合を決定し;
・エントロピー符号化を使って時間的差分パラメータの前記集合をエンコードし;
・時間的差分パラメータのエンコードされた集合を、現在の空間的メタデータ・フレーム中に挿入し;
・現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過すると判定される場合、時間的差分パラメータの前記集合のエントロピーを低減する
よう構成されている、態様4ないし7のうちいずれか一項記載のオーディオ・エンコード・システム。
〔態様9〕
前記パラメータ処理ユニットは、時間的差分パラメータの前記集合のエントロピーを低減するために、時間的差分パラメータの前記集合の時間的差分パラメータのうちの一つ、いくつかまたは全部を、時間的差分パラメータの可能な値の増大した確率をもつ値に等しく設定するよう構成されている、態様8記載のオーディオ・エンコード・システム。
〔態様10〕
・前記一つまたは複数の制御設定は、周波数分解能設定を含み;
・前記周波数分解能設定は、異なる周波数帯域の数を示し;
・前記パラメータ処理ユニットは、異なる周波数帯域について、帯域パラメータと称される異なる空間的パラメータを決定するよう構成されており;
・空間的パラメータの集合は、前記異なる周波数帯域についての対応する帯域パラメータを含む、
態様4ないし9のうちいずれか一項記載のオーディオ・エンコード・システム。
〔態様11〕
前記パラメータ処理ユニットは、
・第一の周波数帯域における一つまたは複数の帯域パラメータの、第二の、隣接する周波数帯域における対応する一つまたは複数の帯域パラメータに対する差に基づいて、周波数差分パラメータの集合を決定し;
・エントロピー符号化を使って、周波数差分パラメータの前記集合をエンコードし;
・周波数差分パラメータのエンコードされた集合を、現在の空間的メタデータ・フレーム中に挿入し;
・現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過すると判定される場合に、周波数差分パラメータの前記集合のエントロピーを低減する
よう構成されている、態様10記載のオーディオ・エンコード・システム。
〔態様12〕
前記パラメータ処理ユニットは、周波数差分パラメータの前記集合のエントロピーを低減するために、周波数差分パラメータの前記集合の周波数差分パラメータのうちの一つ、いくつかまたは全部を、周波数差分パラメータの可能な値の増大した確率をもつ値に等しく設定するよう構成されている、態様11記載のオーディオ・エンコード・システム。
〔態様13〕
前記パラメータ処理ユニットが、
・現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過すると判定される場合、周波数帯域の数を低減し;
・低減した数の周波数帯域を使って、現在の空間的メタデータ・フレームについての空間的パラメータの前記一つまたは複数の集合を再決定する
よう構成されている、態様10ないし12のうちいずれか一項記載のオーディオ・エンコード・システム。
〔態様14〕
・前記一つまたは複数の外部設定は:前記マルチチャネル入力信号のサンプリング・レート、前記ダウンミックス信号のチャネルの数m、前記マルチチャネル入力信号のチャネルの数nおよび対応するデコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期のうちの一つまたは複数をさらに含み;
・前記一つまたは複数の制御設定は:決定されるべき空間的メタデータのフレーム当たりの空間的パラメータの集合の数を示す時間的分解能設定、空間的パラメータが決定されるべき周波数帯域の数を示す周波数分解能設定、空間的メタデータを量子化するために使われるべき量子化器の型を示す量子化器設定および前記マルチチャネル入力信号の現在フレームが独立フレームとしてエンコードされるべきかどうかの指示のうちの一つまたは複数をさらに含む、
態様1ないし13のうちいずれか一項記載のオーディオ・エンコード・システム。
〔態様15〕
・前記一つまたは複数の外部設定は、対応するデコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期をさらに含み;
・前記一つまたは複数の制御設定は、現在の空間的メタデータ・フレームが独立フレームとしてエンコードされるべきであるかどうかの指標をさらに含み;
・前記パラメータ処理ユニットは、前記マルチチャネル入力信号のフレームの対応するシーケンスについて、空間的メタデータ・フレームのシーケンスを決定するよう構成されており;
・前記構成設定ユニットは、空間的メタデータ・フレームの前記シーケンスから、独立フレームとしてエンコードされるべき前記一つまたは複数の空間的メタデータ・フレームを、前記更新周期に基づいて、決定するよう構成されている、
態様2ないし14のうちいずれか一項記載のオーディオ・エンコード・システム。
〔態様16〕
前記構成設定ユニットは、
・前記マルチチャネル入力信号のフレームの前記シーケンスの現在フレームが、前記更新周期の整数倍である時点におけるサンプルを含むかどうかを判定し;
・現在フレームに対応する現在の空間的メタデータ・フレームが独立フレームであることを判別する
よう構成されている、態様15記載のオーディオ・エンコード・システム。
〔態様17〕
前記パラメータ処理ユニットは、現在の空間的メタデータ・フレームが独立フレームとしてエンコードされるべきである場合、現在の空間的メタデータ・フレームの空間的パラメータの一つまたは複数の集合を、以前の空間的メタデータ・フレームに含まれるデータとは独立にエンコードするよう構成されている、態様15記載のオーディオ・エンコード・システム。
〔態様18〕
・n=6かつm=2である;および/または
・前記マルチチャネル・アップミックス信号は5.1信号である;および/または
・前記ダウンミックス信号はステレオ信号である;および/または
・前記マルチチャネル入力信号は5.1信号である、
態様1ないし17のうちいずれか一項記載のオーディオ・エンコード・システム。
〔態様19〕
・前記ダウンミックス処理ユニットが、前記ダウンミックス信号を、ドルビー・デジタル・プラス・エンコーダを使ってエンコードするよう構成されており;
・前記ビットストリームは、ドルビー・デジタル・プラス・ビットストリームに対応し;
・前記空間的メタデータは、前記ドルビー・デジタル・プラス・ビットストリームのデータ・フィールド内に含まれる、
態様1ないし18のうちいずれか一項記載のオーディオ・エンコード・システム。
〔態様20〕
・前記空間的メタデータが空間的パラメータの一つまたは複数の集合を含み;
・空間的パラメータの前記集合のある空間的パラメータが、前記マルチチャネル入力信号の異なるチャネルの間の相互相関を示す、
態様1ないし19のうちいずれか一項記載のオーディオ・エンコード・システム。
〔態様21〕
ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定するよう構成されているパラメータ処理ユニット(520)であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル・アップミックス信号はn個のチャネルを有し、n、mは整数であり、m<nであり、前記空間的メタデータ・フレームは、空間的パラメータの一つまたは複数の集合を含み、当該パラメータ処理ユニットは、
・マルチチャネル入力信号のあるチャネルの現在フレームおよび直後のフレームから複数のスペクトルを決定するよう構成された変換ユニット(521)と;
・窓関数を使って前記複数のスペクトルに重み付けすることによって、前記マルチチャネル入力信号の前記チャネルの現在フレームについての前記空間的メタデータ・フレームを決定するよう構成されたパラメータ決定ユニット(523)を有し;
前記窓関数は:前記空間的メタデータ・フレーム内に含まれる空間的パラメータの集合の数、前記マルチチャネル入力信号の現在フレーム内または直後のフレーム内の一つまたは複数の過渡成分の存在および/または前記過渡成分の時点の一つまたは複数に依存する、
パラメータ処理ユニット。
〔態様22〕
・前記窓関数は、集合依存の窓関数を含み;
・前記パラメータ決定ユニットは、前記集合依存の窓関数を使って前記複数のスペクトルに重み付けすることによって、前記マルチチャネル入力信号の前記チャネルの現在フレームについての空間的パラメータの集合を決定するよう構成されており;
・前記集合依存の窓関数は、空間的パラメータの前記集合が過渡成分に関連付けられているか否かに依存する、
態様21記載のパラメータ処理ユニット。
〔態様23〕
空間的パラメータの前記集合(711)が過渡成分に関連付けられていない場合、
・前記集合依存の窓関数は、空間的パラメータの先行する集合(710)のサンプリング点から空間的パラメータの前記集合(711)のサンプリング点までの前記複数のスペクトルのフェーズインを提供する;および/または
・空間的パラメータの後続集合(712)が過渡成分に関連付けられていれば、前記集合依存の窓関数は、空間的パラメータの前記集合(711)のサンプリング点から空間的パラメータの前記後続集合(712)のサンプリング点の前の前記複数のスペクトルのうちのスペクトルまで、前記複数のスペクトルを含め、空間的パラメータの前記後続集合(712)のサンプリング点から始まり前記複数のスペクトルを打ち消す、
態様22記載のパラメータ処理ユニット。
〔態様24〕
空間的パラメータの前記集合(711)が過渡成分に関連付けられている場合、
・前記集合依存の窓関数は、空間的パラメータの前記集合(711)のサンプリング点の前の前記複数のスペクトルからのスペクトルを打ち消す;および/または
・空間的パラメータの後続集合(712)のサンプリング点が過渡成分に関連付けられていれば、前記集合依存の窓関数は、空間的パラメータの前記集合(711)のサンプリング点から空間的パラメータの前記後続集合(712)のサンプリング点の前の前記複数のスペクトルのうちの前記スペクトルまで、前記複数のスペクトルからのスペクトルを含め、空間的パラメータの前記後続集合(712)のサンプリング点から始まり前記複数のスペクトルからのスペクトルを打ち消す;および/または
・空間的パラメータの前記後続集合(712)が過渡成分に関連付けられていなければ、前記集合依存の窓関数は、空間的パラメータの前記集合(711)のサンプリング点から現在フレーム(585)の終わりにある前記複数のスペクトルのうちのスペクトルまで前記複数のスペクトルのスペクトルを含め、直後のフレーム(590)の先頭から空間的パラメータの前記後続集合(712)のサンプリング点まで前記複数のスペクトルのスペクトルのフェーズアウトを提供する、
態様22記載のパラメータ処理ユニット。
〔態様25〕
ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定するよう構成されたパラメータ処理ユニット(520)であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル・アップミックス信号はn個のチャネルを有し、n、mは整数であり、m<nであり、前記空間的メタデータ・フレームは空間的パラメータの集合を含み、当該パラメータ処理ユニットは:
・マルチチャネル入力信号の第一のチャネルのフレームから第一の複数の変換係数を決定し、前記マルチチャネル入力信号の第二のチャネルの対応するフレームから第二の複数の変換係数を決定するよう構成された変換ユニット(561)であって、前記第一および第二の複数の変換係数は、それぞれ前記第一および第二のチャネルのフレームの第一および第二の時間/周波数表現を提供し、前記第一および第二の時間/周波数表現は、複数の周波数ビンおよび複数の時間ビンを含む、変換ユニットと;
・固定小数点算術を使って前記第一および第二の複数の変換係数に基づいて空間的パラメータの前記集合を決定するよう構成されたパラメータ決定ユニット(523)であって、空間的パラメータの前記集合は、異なる数の周波数ビンを含む異なる周波数帯域について対応する帯域パラメータを含み、特定の周波数帯域についての特定の帯域パラメータは、前記特定の周波数帯域の前記第一および第二の複数の変換係数からの変換係数に基づいて決定され、前記特定の帯域パラメータを決定するために前記固定小数点算術によって使用されるシフトが、前記特定の周波数帯域に依存する、パラメータ決定ユニットとを有する、
パラメータ処理ユニット。
〔態様26〕
前記特定の周波数帯域についての前記特定の帯域パラメータを決定するために前記固定小数点算術によって使用される前記シフトが、前記特定の周波数帯域内に含まれる周波数ビンの数に依存する、態様25記載のパラメータ処理ユニット。
〔態様27〕
前記特定の周波数帯域についての前記特定の帯域パラメータを決定するために前記固定小数点算術によって使用される前記シフトが、前記特定の帯域パラメータを決定するために使われる時間ビンの数に依存する、態様25または26記載のパラメータ処理ユニット。
〔態様28〕
前記パラメータ決定ユニットは、前記特定の周波数帯域について、前記特定の帯域パラメータの精度を最大にする対応するシフトを決定するよう構成されている、態様25ないし27のうちいずれか一項記載のパラメータ処理ユニット。
〔態様29〕
前記パラメータ決定ユニットは、前記特定の周波数帯域についての前記特定の帯域パラメータを決定するのを、
・前記第一の複数の変換係数からの前記特定の周波数帯域にはいる変換係数に基づいて第一のエネルギー推定値を決定し;
・前記第二の複数の変換係数からの前記特定の周波数帯域にはいる変換係数に基づいて第二のエネルギー推定値を決定し;
・前記第一および第二の複数の変換係数からの前記特定の周波数帯域にはいる変換係数に基づいて共分散を決定し;
・前記第一のエネルギー推定値、前記第二のエネルギー推定値および前記共分散のうちの最大に基づいて、前記特定の帯域パラメータについての前記シフトを決定する
ことによって行なうよう構成されている、態様25ないし28のうちいずれか一項記載のパラメータ処理ユニット。
〔態様30〕
マルチチャネル入力信号に基づいてビットストリームを生成するよう構成されたオーディオ・エンコード・システムであって:
・前記マルチチャネル入力信号の第一の諸フレームの対応するシーケンスから、ダウンミックス信号の諸フレームのシーケンスを生成するよう構成されたダウンミックス処理ユニット(510)であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、ダウンミックス処理ユニットと;
・前記マルチチャネル入力信号の第二の諸フレームのシーケンスから空間的メタデータ・フレームのシーケンスを決定するよう構成されたパラメータ処理ユニット(520)であって、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスは、n個のチャネルを含むマルチチャネル・アップミックス信号を生成するためである、パラメータ処理ユニットと;
・ビットストリーム・フレームのシーケンスを含む前記ビットストリームを生成するよう構成されたビットストリーム生成ユニット(503)であって、ビットストリーム・フレームは、前記マルチチャネル入力信号の第一の諸フレームの前記シーケンスの第一のフレームに対応する前記ダウンミックス信号のフレームと、前記マルチチャネル入力信号の第二の諸フレームの前記シーケンスの第二のフレームに対応する空間的メタデータ・フレームとを示し、前記第二のフレームは前記第一のフレームとは異なる、ビットストリーム生成ユニットとを有する、
オーディオ・エンコード・システム。
〔態様31〕
・前記第一のフレームおよび前記第二のフレームは同数のサンプルを有する;および/または
・前記第一のフレームのサンプルが前記第二のフレームのサンプルに先行する、
態様30記載のオーディオ・エンコード・システム。
〔態様32〕
前記第一のフレームは、あらかじめ決定された数のサンプルだけ前記第二のフレームより先行する、態様30または31記載のオーディオ・エンコード・システム。
〔態様33〕
前記あらかじめ決定された数のサンプルは、928個のサンプルである、態様32記載のオーディオ・エンコード・システム。
〔態様34〕
マルチチャネル入力信号に基づいてビットストリームを生成するよう構成されたオーディオ・エンコード・システムであって、
・ダウンミックス処理ユニット(510)であって、
・前記マルチチャネル入力信号のフレームの対応するシーケンスについて、クリッピング保護利得のシーケンスを決定する段階であって、現在のクリッピング保護利得は、ダウンミックス信号の対応する現在フレームのクリッピングを防止するために、前記マルチチャネル入力信号の現在フレームに適用されるべき減衰を示す、段階と;
・現在のクリッピング保護利得と、前記マルチチャネル入力信号の先行フレームの先行クリッピング保護利得とを補間してクリッピング保護利得曲線を与える段階と;
・前記マルチチャネル入力信号の現在フレームに前記クリッピング保護利得曲線を適用して、前記マルチチャネル入力信号の減衰した現在フレームを与える段階と;
・前記マルチチャネル入力信号の減衰した現在フレームから前記ダウンミックス信号のフレームのシーケンスの現在フレームを生成する段階であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、段階とを実行するよう構成されている
ダウンミックス処理ユニットと;
・前記マルチチャネル入力信号から空間的メタデータ・フレームのシーケンスを決定するよう構成されたパラメータ処理ユニット(520)であって、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスは、nチャネルを含むマルチチャネル・アップミックス信号を生成するためである、パラメータ処理ユニットと;
・対応するデコード・システムが前記マルチチャネル・アップミックス信号を生成できるようにするよう、クリッピング保護利得の前記シーケンス、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスを示す前記ビットストリームを生成するよう構成されたビットストリーム生成ユニット(503)とを有する、
オーディオ・エンコード・システム。
〔態様35〕
前記クリッピング保護利得曲線は、
・前記先行クリッピング保護利得から前記現在のクリッピング保護利得へのなめらかな遷移を提供する遷移セグメントと;
・前記現在のクリッピング保護利得において平坦なままである平坦なセグメントとを含む、
態様34記載のオーディオ・エンコード・システム。
〔態様36〕
・前記遷移セグメントは、前記マルチチャネル入力信号の現在フレームのあらかじめ決定された数のサンプルを通じて広がり、
・サンプルの前記あらかじめ決定された数は、1より大きく、前記マルチチャネル入力信号の現在フレームのサンプルの総数より小さい、
態様35記載のオーディオ・エンコード・システム。
〔態様37〕
ダウンミックス信号と、前記ダウンミックス信号からマルチチャネル・アップミックス信号を生成するための空間的メタデータとを示すビットストリームを生成するよう構成されたオーディオ・エンコード・システムであって:
・マルチチャネル入力信号から前記ダウンミックス信号を生成するよう構成されたダウンミックス処理ユニット(510)であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、ダウンミックス処理ユニットと;
・前記マルチチャネル入力信号のフレームの対応するシーケンスについての空間的メタデータのフレームのシーケンスを決定するよう構成されたパラメータ処理ユニットと;
・一つまたは複数の外部設定に基づいて前記パラメータ処理ユニットについての一つまたは複数の制御設定を決定するよう構成された構成設定ユニット(540)とを有し、
前記一つまたは複数の外部設定は、対応するデコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期を含み、前記構成設定ユニットは、前記更新周期に基づいて、空間的メタデータのフレームの前記シーケンスから、独立フレームとしてエンコードされるべき空間的メタデータの一つまたは複数のフレームを決定するよう構成されている、
オーディオ・エンコード・システム。
〔態様38〕
ダウンミックス信号と、前記ダウンミックス信号からマルチチャネル・アップミックス信号を生成するための空間的メタデータとを示すビットストリームを生成する方法であって、
・マルチチャネル入力信号から前記ダウンミックス信号を生成する段階であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、段階と;
・一つまたは複数の外部設定に基づいて一つまたは複数の制御設定を決定する段階であって、前記一つまたは複数の外部設定は、前記ビットストリームのための目標データ・レートを含み、前記一つまたは複数の制御設定は、前記空間的メタデータのための最大データ・レートを含む、段階と;
・前記一つまたは複数の制御設定に従って、前記マルチチャネル入力信号から前記空間的メタデータを決定する段階とを含む、
方法。
〔態様39〕
ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定する方法であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル・アップミックス信号はn個のチャネルを有し、n、mは整数であり、m<nであり、前記空間的メタデータ・フレームは、空間的パラメータの一つまたは複数の集合を含み、当該方法は、
・マルチチャネル入力信号のあるチャネルの現在フレームおよび直後のフレームから複数のスペクトルを決定する段階と;
・窓関数を使って前記複数のスペクトルに重み付けして、複数の重み付けされたスペクトルを与える段階と;
・前記複数の重み付けされたスペクトルに基づいて前記マルチチャネル入力信号の前記チャネルの現在フレームについての前記空間的メタデータ・フレームを決定する段階であって、前記窓関数は:前記空間的メタデータ・フレーム内に含まれる空間的パラメータの集合の数、前記マルチチャネル入力信号の前記現在フレームまたは前記直後のフレームにおける一つまたは複数の過渡成分の存在および/または前記過渡成分の時点、のうちの一つまたは複数に依存する、段階とを含む、
方法。
〔態様40〕
ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定する方法であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル・アップミックス信号はn個のチャネルを有し、n、mは整数であり、m<nであり、前記空間的メタデータ・フレームは、空間的パラメータの集合を含み、当該方法は、
・マルチチャネル入力信号の第一のチャネルのフレームから第一の複数の変換係数を決定する段階と;
・前記マルチチャネル入力信号の第二のチャネルの対応するフレームから第二の複数の変換係数を決定する段階であって、前記第一および第二の複数の変換係数は、それぞれ前記第一および第二のチャネルのフレームの第一および第二の時間/周波数表現を提供し、前記第一および第二の時間/周波数表現は複数の周波数ビンおよび複数の時間ビンを含み、空間的パラメータの前記集合が、異なる数の周波数ビンを含む異なる周波数帯域について、対応する帯域パラメータを含む、段階と;
・固定小数点算術を使って特定の周波数帯域についての特定の帯域パラメータを決定するときに適用されるべきシフトを決定する段階であって、前記シフトは、前記特定の周波数帯域に基づいて決定される、段階と;
・前記特定の周波数帯域にはいる前記第一および第二の複数の変換係数に基づいて、固定小数点算術および決定された前記シフトを使って、前記特定の帯域パラメータを決定する段階とを含む、
方法。
〔態様41〕
マルチチャネル入力信号に基づくビットストリームを生成する方法であって、
・前記マルチチャネル入力信号の第一の諸フレームの対応するシーケンスから、ダウンミックス信号の諸フレームのシーケンスを生成する段階であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、段階と;
・前記マルチチャネル入力信号の第二の諸フレームのシーケンスから空間的メタデータ・フレームのシーケンスを決定する段階であって、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスは、n個のチャネルを有するマルチチャネル・アップミックス信号を生成するためである、段階と;
・ビットストリーム・フレームのシーケンスを含む前記ビットストリームを生成する段階であって、ビットストリーム・フレームは、前記マルチチャネル入力信号の第一の諸フレームの前記シーケンスの第一のフレームに対応する前記ダウンミックス信号のフレームと、前記マルチチャネル入力信号の第二の諸フレームの前記シーケンスの第二のフレームに対応する空間的メタデータ・フレームとを示し、前記第二のフレームは前記第一のフレームとは異なる、段階とを含む、
方法。
〔態様42〕
マルチチャネル入力信号に基づいてビットストリームを生成する方法であって、
・前記マルチチャネル入力信号のフレームの対応するシーケンスについて、クリッピング保護利得のシーケンスを決定する段階であって、現在のクリッピング保護利得は、ダウンミックス信号の対応する現在フレームのクリッピングを防止するために、前記マルチチャネル入力信号の現在フレームに適用されるべき減衰を示す、段階と;
・現在のクリッピング保護利得と、前記マルチチャネル入力信号の先行フレームの先行クリッピング保護利得とを補間してクリッピング保護利得曲線を与える段階と;
・前記マルチチャネル入力信号の現在フレームに前記クリッピング保護利得曲線を適用して、前記マルチチャネル入力信号の減衰した現在フレームを与える段階と;
・前記マルチチャネル入力信号の減衰した現在フレームから前記ダウンミックス信号のフレームのシーケンスの現在フレームを生成する段階であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、段階と;
・前記マルチチャネル入力信号から空間的メタデータ・フレームのシーケンスを決定する段階であって、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスは、n個のチャネルを有するマルチチャネル・アップミックス信号を生成するためである、段階と;
・前記ビットストリームに基づく前記マルチチャネル・アップミックス信号の生成を可能にするため、クリッピング保護利得の前記シーケンス、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスを示す前記ビットストリームを生成する段階とを含む、
方法。
〔態様43〕
ダウンミックス信号と、前記ダウンミックス信号からマルチチャネル・アップミックス信号を生成するための空間的メタデータとを示すビットストリームを生成する方法であって、
・マルチチャネル入力信号から前記ダウンミックス信号を生成する段階であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、段階と;
・一つまたは複数の外部設定に基づいて一つまたは複数の制御設定を決定する段階であって、前記一つまたは複数の外部設定は、デコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期を含む、段階と;
・前記一つまたは複数の制御設定に従って、前記マルチチャネル入力信号のフレームの対応するシーケンスについて、空間的メタデータのフレームのシーケンスを決定する段階と;
・前記更新周期に基づいて、空間的メタデータのフレームの前記シーケンスからの空間的メタデータの一つまたは複数のフレームを、独立フレームとしてエンコードする段階とを含む、
方法。
〔態様44〕
態様38、41ないし43のうちいずれか一項によって生成されたビットストリームをデコードするよう構成されているオーディオ・デコーダ(140)。

Claims (39)

  1. ダウンミックス信号と、前記ダウンミックス信号からマルチチャネル・アップミックス信号を生成するための空間的メタデータとを示すビットストリームを生成するよう構成されたオーディオ・エンコード・システムであって:
    ・マルチチャネル入力信号から前記ダウンミックス信号を決定するよう構成されたダウンミックス処理ユニット(510)であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、ダウンミックス処理ユニットと;
    ・前記マルチチャネル入力信号から前記空間的メタデータを生成するよう構成されたパラメータ処理ユニット(520)と;
    ・一つまたは複数の外部設定に基づいて前記パラメータ処理ユニットのための一つまたは複数の制御設定を決定するよう構成された構成設定ユニット(540)であって、前記一つまたは複数の外部設定は、前記ビットストリームのための目標データ・レートを含み、前記一つまたは複数の制御設定は、前記空間的メタデータのための最大データ・レートを含む、構成設定ユニットとを有しており、
    ・前記パラメータ処理ユニットは、空間的メタデータ・フレームと称される、前記マルチチャネル入力信号のフレームについての空間的メタデータを決定するよう構成されており;
    ・前記マルチチャネル入力信号のフレームは、前記マルチチャネル入力信号の、あらかじめ決定された数のサンプルを含み;
    ・前記空間的メタデータのための前記最大データ・レートは、空間的メタデータ・フレームのためのメタデータ・ビットの最大数を示し、
    前記パラメータ処理ユニットは、前記一つまたは複数の制御設定に基づいて決定された空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過するかどうかを判定するよう構成されており、
    ・空間的メタデータ・フレームが空間的パラメータの一つまたは複数の集合を含み;
    ・前記一つまたは複数の制御設定が、前記パラメータ処理ユニットによって決定されるべき空間的メタデータ・フレーム当たりの空間的パラメータの集合の数を示す時間的分解能設定を含み;
    ・前記パラメータ処理ユニットが、現在の空間的メタデータ・フレームが空間的パラメータの複数の集合を有している場合かつ現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過している場合には、空間的パラメータの前記複数の集合のうちの少なくとも一つの集合を残して一つまたは複数の集合を破棄するよう構成されている、
    オーディオ・エンコード・システム。
  2. ・前記メタデータ・フレームが空間的パラメータの複数の集合を有しており、現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過しており;
    ・空間的パラメータの前記複数の集合は、対応する二つ以上のサンプリング点に関連付けられており;
    ・前記二つ以上のサンプリング点は、対応する二つ以上の時点を示し;
    ・前記パラメータ処理ユニットは、現在のメタデータ・フレームの前記複数のサンプリング点(583、584)が前記マルチチャネル入力信号の過渡成分に関連付けられていない場合、現在の空間的メタデータ・フレームから空間的パラメータの第一の集合(711)を破棄するよう構成されており、空間的パラメータの前記第一の集合は、第二のサンプリング点(584)より前の第一のサンプリング点(583)に関連付けられており;
    ・前記パラメータ処理ユニットは、現在のメタデータ・フレームの前記複数のサンプリング点が前記マルチチャネル入力信号の過渡成分に関連付けられている場合には、現在の空間的メタデータ・フレームから空間的パラメータの第二の集合(712)を破棄するよう構成されている、
    請求項1記載のオーディオ・エンコード・システム。
  3. ・前記一つまたは複数の制御設定は、複数のあらかじめ決定された型の量子化器からの第一の型の量子化器を示す量子化器設定を含み;
    ・前記パラメータ処理ユニットは、前記第一の型の量子化器に従って、空間的パラメータの前記一つまたは複数の集合を量子化するよう構成されており;
    ・前記複数のあらかじめ決定された型の量子化器は、それぞれ異なる量子化器分解能を提供し;
    ・前記パラメータ処理ユニットは、現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過すると判定される場合、前記第一の型の量子化器より低い分解能をもつ第二の型の量子化器に従って空間的パラメータの前記一つまたは複数の集合の空間的パラメータの一つ、いくつかまたは全部を再量子化するよう構成されている、
    請求項1または2記載のオーディオ・エンコード・システム。
  4. 前記複数のあらかじめ決定された型の量子化器が細かい量子化および粗い量子化を含む、請求項3記載のオーディオ・エンコード・システム。
  5. 前記パラメータ処理ユニットは:
    ・空間的パラメータの現在の集合(712)の、空間的パラメータの直前の集合(711)に対する差に基づいて時間的差分パラメータの集合を決定し;
    ・エントロピー符号化を使って時間的差分パラメータの前記集合をエンコードし;
    ・時間的差分パラメータのエンコードされた集合を、現在の空間的メタデータ・フレーム中に挿入し;
    ・現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過すると判定される場合、時間的差分パラメータの前記集合のエントロピーを低減する
    よう構成されている、請求項1ないし4のうちいずれか一項記載のオーディオ・エンコード・システム。
  6. 前記パラメータ処理ユニットは、時間的差分パラメータの前記集合のエントロピーを低減するために、時間的差分パラメータの前記集合の時間的差分パラメータのうちの一つ、いくつかまたは全部を、時間的差分パラメータの可能な値の増大した確率をもつ値に等しく設定するよう構成されている、請求項5記載のオーディオ・エンコード・システム。
  7. ・前記一つまたは複数の制御設定は、周波数分解能設定を含み;
    ・前記周波数分解能設定は、異なる周波数帯域の数を示し;
    ・前記パラメータ処理ユニットは、異なる周波数帯域について、帯域パラメータと称される異なる空間的パラメータを決定するよう構成されており;
    ・空間的パラメータの集合は、前記異なる周波数帯域についての対応する帯域パラメータを含む、
    請求項1ないし6のうちいずれか一項記載のオーディオ・エンコード・システム。
  8. 前記パラメータ処理ユニットは、
    ・第一の周波数帯域における一つまたは複数の帯域パラメータの、第二の、隣接する周波数帯域における対応する一つまたは複数の帯域パラメータに対する差に基づいて、周波数差分パラメータの集合を決定し;
    ・エントロピー符号化を使って、周波数差分パラメータの前記集合をエンコードし;
    ・周波数差分パラメータのエンコードされた集合を、現在の空間的メタデータ・フレーム中に挿入し;
    ・現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過すると判定される場合に、周波数差分パラメータの前記集合のエントロピーを低減する
    よう構成されている、請求項7記載のオーディオ・エンコード・システム。
  9. 前記パラメータ処理ユニットは、周波数差分パラメータの前記集合のエントロピーを低減するために、周波数差分パラメータの前記集合の周波数差分パラメータのうちの一つ、いくつかまたは全部を、周波数差分パラメータの可能な値の増大した確率をもつ値に等しく設定するよう構成されている、請求項8記載のオーディオ・エンコード・システム。
  10. 前記パラメータ処理ユニットが、
    ・現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過すると判定される場合、周波数帯域の数を低減し;
    ・低減した数の周波数帯域を使って、現在の空間的メタデータ・フレームについての空間的パラメータの前記一つまたは複数の集合を再決定する
    よう構成されている、請求項7ないし9のうちいずれか一項記載のオーディオ・エンコード・システム。
  11. ・前記一つまたは複数の外部設定は:前記マルチチャネル入力信号のサンプリング・レート、前記ダウンミックス信号のチャネルの数m、前記マルチチャネル入力信号のチャネルの数nおよび対応するデコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期のうちの一つまたは複数をさらに含み;
    ・前記一つまたは複数の制御設定は:決定されるべき空間的メタデータのフレーム当たりの空間的パラメータの集合の数を示す時間的分解能設定、空間的パラメータが決定されるべき周波数帯域の数を示す周波数分解能設定、空間的メタデータを量子化するために使われるべき量子化器の型を示す量子化器設定および前記マルチチャネル入力信号の現在フレームが独立フレームとしてエンコードされるべきかどうかの指示のうちの一つまたは複数をさらに含む、
    請求項1ないし10のうちいずれか一項記載のオーディオ・エンコード・システム。
  12. ・前記一つまたは複数の外部設定は、対応するデコード・システムが前記ビットストリームに同期することが要求される時間期間を示す更新周期をさらに含み;
    ・前記一つまたは複数の制御設定は、現在の空間的メタデータ・フレームが独立フレームとしてエンコードされるべきであるかどうかの指標をさらに含み;
    ・前記パラメータ処理ユニットは、前記マルチチャネル入力信号のフレームの対応するシーケンスについて、空間的メタデータ・フレームのシーケンスを決定するよう構成されており;
    ・前記構成設定ユニットは、空間的メタデータ・フレームの前記シーケンスから、独立フレームとしてエンコードされるべき前記一つまたは複数の空間的メタデータ・フレームを、前記更新周期に基づいて、決定するよう構成されている、
    請求項1ないし11のうちいずれか一項記載のオーディオ・エンコード・システム。
  13. 前記構成設定ユニットは、
    ・前記マルチチャネル入力信号のフレームの前記シーケンスの現在フレームが、前記更新周期の整数倍である時点におけるサンプルを含むかどうかを判定し;
    ・現在フレームに対応する現在の空間的メタデータ・フレームが独立フレームであることを判別する
    よう構成されている、請求項12記載のオーディオ・エンコード・システム。
  14. 前記パラメータ処理ユニットは、現在の空間的メタデータ・フレームが独立フレームとしてエンコードされるべきである場合、現在の空間的メタデータ・フレームの空間的パラメータの一つまたは複数の集合を、以前の空間的メタデータ・フレームに含まれるデータとは独立にエンコードするよう構成されている、請求項12記載のオーディオ・エンコード・システム。
  15. ・n=6かつm=2である;および/または
    ・前記マルチチャネル・アップミックス信号は5.1信号である;および/または
    ・前記ダウンミックス信号はステレオ信号である;および/または
    ・前記マルチチャネル入力信号は5.1信号である、
    請求項1ないし14のうちいずれか一項記載のオーディオ・エンコード・システム。
  16. ・前記ダウンミックス処理ユニットが、前記ダウンミックス信号を、ドルビー・デジタル・プラス・エンコーダを使ってエンコードするよう構成されており;
    ・前記ビットストリームは、ドルビー・デジタル・プラス・ビットストリームに対応し;
    ・前記空間的メタデータは、前記ドルビー・デジタル・プラス・ビットストリームのデータ・フィールド内に含まれる、
    請求項1ないし15のうちいずれか一項記載のオーディオ・エンコード・システム。
  17. ・前記空間的メタデータが空間的パラメータの一つまたは複数の集合を含み;
    ・空間的パラメータの前記集合のある空間的パラメータが、前記マルチチャネル入力信号の異なるチャネルの間の相互相関を示す、
    請求項1ないし16のうちいずれか一項記載のオーディオ・エンコード・システム。
  18. ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定するよう構成されているパラメータ処理ユニット(520)であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル・アップミックス信号はn個のチャネルを有し、n、mは整数であり、m<nであり、前記空間的メタデータ・フレームは、空間的パラメータの一つまたは複数の集合を含み、当該パラメータ処理ユニットは、
    ・マルチチャネル入力信号のあるチャネルの現在フレームおよび直後のフレームから複数のスペクトルを決定するよう構成された変換ユニット(521)と;
    ・窓関数を使って前記複数のスペクトルに重み付けすることによって、前記マルチチャネル入力信号の前記チャネルの現在フレームについての前記空間的メタデータ・フレームを決定するよう構成されたパラメータ決定ユニット(523)を有し;
    前記窓関数は:前記空間的メタデータ・フレーム内に含まれる空間的パラメータの集合の数、前記マルチチャネル入力信号の現在フレーム内または直後のフレーム内の一つまたは複数の過渡成分の存在および/または前記一つまたは複数の過渡成分の時点、のうちの一つまたは複数に依存する、
    パラメータ処理ユニット。
  19. ・前記窓関数は、集合依存の窓関数を含み;
    ・前記パラメータ決定ユニットは、前記集合依存の窓関数を使って前記複数のスペクトルに重み付けすることによって、前記マルチチャネル入力信号の前記チャネルの現在フレームについての空間的パラメータの集合を決定するよう構成されており;
    ・前記集合依存の窓関数は、空間的パラメータの前記集合が過渡成分に関連付けられているか否かに依存する、
    請求項18記載のパラメータ処理ユニット。
  20. 空間的パラメータの前記集合(711)が過渡成分に関連付けられていない場合、
    ・前記集合依存の窓関数は、空間的パラメータの先行する集合(710)のサンプリング点から空間的パラメータの前記集合(711)のサンプリング点までの前記複数のスペクトルのフェーズインを提供する;および/または
    ・空間的パラメータの後続集合(712)が過渡成分に関連付けられていれば、前記集合依存の窓関数は、空間的パラメータの前記集合(711)のサンプリング点から空間的パラメータの前記後続集合(712)のサンプリング点の前の前記複数のスペクトルのうちのスペクトルまで、前記複数のスペクトルを含め、空間的パラメータの前記後続集合(712)のサンプリング点から始まり前記複数のスペクトルを打ち消す、
    請求項19記載のパラメータ処理ユニット。
  21. 空間的パラメータの前記集合(711)が過渡成分に関連付けられている場合、
    ・前記集合依存の窓関数は、空間的パラメータの前記集合(711)のサンプリング点の前の前記複数のスペクトルからのスペクトルを打ち消す;および/または
    ・空間的パラメータの後続集合(712)のサンプリング点が過渡成分に関連付けられていれば、前記集合依存の窓関数は、空間的パラメータの前記集合(711)のサンプリング点から空間的パラメータの前記後続集合(712)のサンプリング点の前の前記複数のスペクトルのうちの前記スペクトルまで、前記複数のスペクトルからのスペクトルを含め、空間的パラメータの前記後続集合(712)のサンプリング点から始まり前記複数のスペクトルからのスペクトルを打ち消す;および/または
    ・空間的パラメータの前記後続集合(712)が過渡成分に関連付けられていなければ、前記集合依存の窓関数は、空間的パラメータの前記集合(711)のサンプリング点から現在フレーム(585)の終わりにある前記複数のスペクトルのうちのスペクトルまで前記複数のスペクトルのスペクトルを含め、直後のフレーム(590)の先頭から空間的パラメータの前記後続集合(712)のサンプリング点まで前記複数のスペクトルのスペクトルのフェーズアウトを提供する、
    請求項19記載のパラメータ処理ユニット。
  22. ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定するよう構成されたパラメータ処理ユニット(520)であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル・アップミックス信号はn個のチャネルを有し、n、mは整数であり、m<nであり、前記空間的メタデータ・フレームは空間的パラメータの集合を含み、当該パラメータ処理ユニットは:
    ・マルチチャネル入力信号の第一のチャネルのフレームから第一の複数の変換係数を決定し、前記マルチチャネル入力信号の第二のチャネルの対応するフレームから第二の複数の変換係数を決定するよう構成された変換ユニット(561)であって、前記第一および第二の複数の変換係数は、それぞれ前記第一および第二のチャネルのフレームの第一および第二の時間/周波数表現を提供し、前記第一および第二の時間/周波数表現は、複数の周波数ビンおよび複数の時間ビンを含む、変換ユニットと;
    ・固定小数点算術を使って前記第一および第二の複数の変換係数に基づいて空間的パラメータの前記集合を決定するよう構成されたパラメータ決定ユニット(523)であって、空間的パラメータの前記集合は、異なる数の周波数ビンを含む異なる周波数帯域について対応する帯域パラメータを含み、特定の周波数帯域についての特定の帯域パラメータは、前記特定の周波数帯域の前記第一および第二の複数の変換係数からの変換係数に基づいて決定され、前記特定の帯域パラメータを決定するために前記固定小数点算術によって使用されるシフトが、前記特定の周波数帯域に依存する、パラメータ決定ユニットとを有する、
    パラメータ処理ユニット。
  23. 前記特定の周波数帯域についての前記特定の帯域パラメータを決定するために前記固定小数点算術によって使用される前記シフトが、前記特定の周波数帯域内に含まれる周波数ビンの数に依存する、請求項22記載のパラメータ処理ユニット。
  24. 前記特定の周波数帯域についての前記特定の帯域パラメータを決定するために前記固定小数点算術によって使用される前記シフトが、前記特定の帯域パラメータを決定するために使われる時間ビンの数に依存する、請求項22または23記載のパラメータ処理ユニット。
  25. 前記パラメータ決定ユニットは、前記特定の周波数帯域について、前記特定の帯域パラメータの精度を最大にする対応するシフトを決定するよう構成されている、請求項22ないし24のうちいずれか一項記載のパラメータ処理ユニット。
  26. 前記パラメータ決定ユニットは、前記特定の周波数帯域についての前記特定の帯域パラメータを決定するのを、
    ・前記第一の複数の変換係数からの前記特定の周波数帯域にはいる変換係数に基づいて第一のエネルギー推定値を決定し;
    ・前記第二の複数の変換係数からの前記特定の周波数帯域にはいる変換係数に基づいて第二のエネルギー推定値を決定し;
    ・前記第一および第二の複数の変換係数からの前記特定の周波数帯域にはいる変換係数に基づいて共分散を決定し;
    ・前記第一のエネルギー推定値、前記第二のエネルギー推定値および前記共分散のうちの最大の値に基づいて、前記特定の帯域パラメータについての前記シフトを決定する
    ことによって行なうよう構成されている、請求項22ないし25のうちいずれか一項記載のパラメータ処理ユニット。
  27. マルチチャネル入力信号に基づいてビットストリームを生成するよう構成されたオーディオ・エンコード・システムであって:
    ・前記マルチチャネル入力信号の第一の諸フレームの対応するシーケンスから、ダウンミックス信号の諸フレームのシーケンスを生成するよう構成されたダウンミックス処理ユニット(510)であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、ダウンミックス処理ユニットと;
    ・前記マルチチャネル入力信号の第二の諸フレームのシーケンスから空間的メタデータ・フレームのシーケンスを決定するよう構成されたパラメータ処理ユニット(520)であって、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスは、n個のチャネルを含むマルチチャネル・アップミックス信号を生成するためである、パラメータ処理ユニットと;
    ・ビットストリーム・フレームのシーケンスを含む前記ビットストリームを生成するよう構成されたビットストリーム生成ユニット(503)であって、ビットストリーム・フレームは、前記マルチチャネル入力信号の第一の諸フレームの前記シーケンスの第一のフレームに対応する前記ダウンミックス信号のフレームと、前記マルチチャネル入力信号の第二の諸フレームの前記シーケンスの第二のフレームに対応する空間的メタデータ・フレームとを示し、前記第二のフレームは前記第一のフレームとは異なる、ビットストリーム生成ユニットとを有する、
    オーディオ・エンコード・システム。
  28. ・前記第一のフレームおよび前記第二のフレームは同数のサンプルを有する;および/または
    ・前記第一のフレームのサンプルが前記第二のフレームのサンプルに先行する、
    請求項27記載のオーディオ・エンコード・システム。
  29. 前記第一のフレームは、あらかじめ決定された数のサンプルだけ前記第二のフレームより先行する、請求項27または28記載のオーディオ・エンコード・システム。
  30. 前記あらかじめ決定された数のサンプルは、928個のサンプルである、請求項29記載のオーディオ・エンコード・システム。
  31. マルチチャネル入力信号に基づいてビットストリームを生成するよう構成されたオーディオ・エンコード・システムであって、
    ・ダウンミックス処理ユニット(510)であって、
    ・前記マルチチャネル入力信号のフレームの対応するシーケンスについて、クリッピング保護利得のシーケンスを決定する段階であって、現在のクリッピング保護利得は、ダウンミックス信号の対応する現在フレームのクリッピングを防止するために、前記マルチチャネル入力信号の現在フレームに適用されるべき減衰を示す、段階と;
    ・現在のクリッピング保護利得と、前記マルチチャネル入力信号の先行フレームの先行クリッピング保護利得とを補間してクリッピング保護利得曲線を与える段階と;
    ・前記マルチチャネル入力信号の現在フレームに前記クリッピング保護利得曲線を適用して、前記マルチチャネル入力信号の減衰した現在フレームを与える段階と;
    ・前記マルチチャネル入力信号の減衰した現在フレームから前記ダウンミックス信号のフレームのシーケンスの現在フレームを生成する段階であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、段階とを実行するよう構成されている
    ダウンミックス処理ユニットと;
    ・前記マルチチャネル入力信号から空間的メタデータ・フレームのシーケンスを決定するよう構成されたパラメータ処理ユニット(520)であって、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスは、nチャネルを含むマルチチャネル・アップミックス信号を生成するためである、パラメータ処理ユニットと;
    ・対応するデコード・システムが前記マルチチャネル・アップミックス信号を生成できるようにするよう、クリッピング保護利得の前記シーケンス、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスを示す前記ビットストリームを生成するよう構成されたビットストリーム生成ユニット(503)とを有する、
    オーディオ・エンコード・システム。
  32. 前記クリッピング保護利得曲線は、
    ・前記先行クリッピング保護利得から前記現在のクリッピング保護利得へのなめらかな遷移を提供する遷移セグメントと;
    ・前記現在のクリッピング保護利得において平坦なままである平坦なセグメントとを含む、
    請求項31記載のオーディオ・エンコード・システム。
  33. ・前記遷移セグメントは、前記マルチチャネル入力信号の現在フレームのあらかじめ決定された数のサンプルを通じて広がり、
    ・サンプルの前記あらかじめ決定された数は、1より大きく、前記マルチチャネル入力信号の現在フレームのサンプルの総数より小さい、
    請求項32記載のオーディオ・エンコード・システム。
  34. ダウンミックス信号と、前記ダウンミックス信号からマルチチャネル・アップミックス信号を生成するための空間的メタデータとを示すビットストリームを生成する方法であって、
    ・マルチチャネル入力信号から前記ダウンミックス信号を生成する段階であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、段階と;
    ・前記マルチチャネル入力信号から前記空間的メタデータを決定する段階と;
    ・一つまたは複数の外部設定に基づいて一つまたは複数の制御設定を決定する段階であって、前記一つまたは複数の外部設定は、前記ビットストリームのための目標データ・レートを含み、前記一つまたは複数の制御設定は、前記空間的メタデータのための最大データ・レートを含む、段階と;
    ・前記一つまたは複数の制御設定に従って、前記マルチチャネル入力信号から前記空間的メタデータを決定する段階とを含み、
    ・前記空間的メタデータを決定する段階は、空間的メタデータ・フレームと称される、前記マルチチャネル入力信号のフレームについての空間的メタデータを決定することを含み;
    ・前記マルチチャネル入力信号のフレームは、前記マルチチャネル入力信号の、あらかじめ決定された数のサンプルを含み;
    ・前記空間的メタデータのための前記最大データ・レートは、空間的メタデータ・フレームのためのメタデータ・ビットの最大数を示し、
    前記空間的メタデータを決定する段階は、前記一つまたは複数の制御設定に基づいて決定された空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過するかどうかを判定することを含み、
    ・空間的メタデータ・フレームが空間的パラメータの一つまたは複数の集合を含み;
    ・前記一つまたは複数の制御設定が、前記空間的メタデータを決定する段階によって決定されるべき空間的メタデータ・フレーム当たりの空間的パラメータの集合の数を示す時間的分解能設定を含み;
    ・前記空間的メタデータを決定する段階が、現在の空間的メタデータ・フレームが空間的パラメータの複数の集合を有している場合かつ現在の空間的メタデータ・フレームのビット数がメタデータ・ビットの前記最大数を超過している場合には、空間的パラメータの前記複数の集合のうちの少なくとも一つの集合を残して一つまたは複数の集合を破棄するよう構成されている、
    方法。
  35. ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定する方法であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル・アップミックス信号はn個のチャネルを有し、n、mは整数であり、m<nであり、前記空間的メタデータ・フレームは、空間的パラメータの一つまたは複数の集合を含み、当該方法は、
    ・マルチチャネル入力信号のあるチャネルの現在フレームおよび直後のフレームから複数のスペクトルを決定する段階と;
    ・窓関数を使って前記複数のスペクトルに重み付けして、複数の重み付けされたスペクトルを与える段階と;
    ・前記複数の重み付けされたスペクトルに基づいて前記マルチチャネル入力信号の前記チャネルの現在フレームについての前記空間的メタデータ・フレームを決定する段階とを含み
    前記窓関数は:前記空間的メタデータ・フレーム内に含まれる空間的パラメータの集合の数、前記マルチチャネル入力信号の前記現在フレームまたは前記直後のフレームにおける一つまたは複数の過渡成分の存在および/または前記一つまたは複数の過渡成分の時点、のうちの一つまたは複数に依存する
    方法。
  36. ダウンミックス信号の対応するフレームからマルチチャネル・アップミックス信号のフレームを生成するための空間的メタデータ・フレームを決定する方法であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル・アップミックス信号はn個のチャネルを有し、n、mは整数であり、m<nであり、前記空間的メタデータ・フレームは、空間的パラメータの集合を含み、当該方法は、
    ・マルチチャネル入力信号の第一のチャネルのフレームから第一の複数の変換係数を決定する段階と;
    ・前記マルチチャネル入力信号の第二のチャネルの対応するフレームから第二の複数の変換係数を決定する段階であって、前記第一および第二の複数の変換係数は、それぞれ前記第一および第二のチャネルのフレームの第一および第二の時間/周波数表現を提供し、前記第一および第二の時間/周波数表現は複数の周波数ビンおよび複数の時間ビンを含み、空間的パラメータの前記集合が、異なる数の周波数ビンを含む異なる周波数帯域について、対応する帯域パラメータを含む、段階と;
    ・固定小数点算術を使って特定の周波数帯域についての特定の帯域パラメータを決定するときに適用されるべきシフトを決定する段階であって、前記シフトは、前記特定の周波数帯域に基づいて決定される、段階と;
    ・前記特定の周波数帯域にはいる前記第一および第二の複数の変換係数に基づいて、固定小数点算術および決定された前記シフトを使って、前記特定の帯域パラメータを決定する段階とを含む、
    方法。
  37. マルチチャネル入力信号に基づくビットストリームを生成する方法であって、
    ・前記マルチチャネル入力信号の第一の諸フレームの対応するシーケンスから、ダウンミックス信号の諸フレームのシーケンスを生成する段階であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、段階と;
    ・前記マルチチャネル入力信号の第二の諸フレームのシーケンスから空間的メタデータ・フレームのシーケンスを決定する段階であって、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスは、n個のチャネルを有するマルチチャネル・アップミックス信号を生成するためである、段階と;
    ・ビットストリーム・フレームのシーケンスを含む前記ビットストリームを生成する段階であって、ビットストリーム・フレームは、前記マルチチャネル入力信号の第一の諸フレームの前記シーケンスの第一のフレームに対応する前記ダウンミックス信号のフレームと、前記マルチチャネル入力信号の第二の諸フレームの前記シーケンスの第二のフレームに対応する空間的メタデータ・フレームとを示し、前記第二のフレームは前記第一のフレームとは異なる、段階とを含む、
    方法。
  38. マルチチャネル入力信号に基づいてビットストリームを生成する方法であって、
    ・前記マルチチャネル入力信号のフレームの対応するシーケンスについて、クリッピング保護利得のシーケンスを決定する段階であって、現在のクリッピング保護利得は、ダウンミックス信号の対応する現在フレームのクリッピングを防止するために、前記マルチチャネル入力信号の現在フレームに適用されるべき減衰を示す、段階と;
    ・現在のクリッピング保護利得と、前記マルチチャネル入力信号の先行フレームの先行クリッピング保護利得とを補間してクリッピング保護利得曲線を与える段階と;
    ・前記マルチチャネル入力信号の現在フレームに前記クリッピング保護利得曲線を適用して、前記マルチチャネル入力信号の減衰した現在フレームを与える段階と;
    ・前記マルチチャネル入力信号の減衰した現在フレームから前記ダウンミックス信号のフレームのシーケンスの現在フレームを生成する段階であって、前記ダウンミックス信号はm個のチャネルを有し、前記マルチチャネル入力信号はn個のチャネルを有し、n、mは整数であり、m<nである、段階と;
    ・前記マルチチャネル入力信号から空間的メタデータ・フレームのシーケンスを決定する段階であって、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスは、n個のチャネルを有するマルチチャネル・アップミックス信号を生成するためである、段階と;
    ・前記ビットストリームに基づく前記マルチチャネル・アップミックス信号の生成を可能にするため、クリッピング保護利得の前記シーケンス、前記ダウンミックス信号のフレームの前記シーケンスおよび空間的メタデータ・フレームの前記シーケンスを示す前記ビットストリームを生成する段階とを含む、
    方法。
  39. 請求項34、37、38のうちいずれか一項によって生成されたビットストリームをデコードするよう構成されているオーディオ・デコーダ(140)。
JP2015558469A 2013-02-21 2014-02-21 パラメトリック・マルチチャネル・エンコードのための方法 Active JP6250071B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361767673P 2013-02-21 2013-02-21
US61/767,673 2013-02-21
PCT/EP2014/053475 WO2014128275A1 (en) 2013-02-21 2014-02-21 Methods for parametric multi-channel encoding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017223244A Division JP6472863B2 (ja) 2013-02-21 2017-11-21 パラメトリック・マルチチャネル・エンコードのための方法

Publications (2)

Publication Number Publication Date
JP2016509260A JP2016509260A (ja) 2016-03-24
JP6250071B2 true JP6250071B2 (ja) 2017-12-20

Family

ID=50151293

Family Applications (6)

Application Number Title Priority Date Filing Date
JP2015558469A Active JP6250071B2 (ja) 2013-02-21 2014-02-21 パラメトリック・マルチチャネル・エンコードのための方法
JP2017223244A Active JP6472863B2 (ja) 2013-02-21 2017-11-21 パラメトリック・マルチチャネル・エンコードのための方法
JP2019009146A Active JP6728416B2 (ja) 2013-02-21 2019-01-23 パラメトリック・マルチチャネル・エンコードのための方法
JP2020113774A Active JP7138140B2 (ja) 2013-02-21 2020-07-01 パラメトリック・マルチチャネル・エンコードのための方法
JP2022140475A Pending JP2022172286A (ja) 2013-02-21 2022-09-05 パラメトリック・マルチチャネル・エンコードのための方法
JP2024110637A Pending JP2024147632A (ja) 2013-02-21 2024-07-10 パラメトリック・マルチチャネル・エンコードのための方法

Family Applications After (5)

Application Number Title Priority Date Filing Date
JP2017223244A Active JP6472863B2 (ja) 2013-02-21 2017-11-21 パラメトリック・マルチチャネル・エンコードのための方法
JP2019009146A Active JP6728416B2 (ja) 2013-02-21 2019-01-23 パラメトリック・マルチチャネル・エンコードのための方法
JP2020113774A Active JP7138140B2 (ja) 2013-02-21 2020-07-01 パラメトリック・マルチチャネル・エンコードのための方法
JP2022140475A Pending JP2022172286A (ja) 2013-02-21 2022-09-05 パラメトリック・マルチチャネル・エンコードのための方法
JP2024110637A Pending JP2024147632A (ja) 2013-02-21 2024-07-10 パラメトリック・マルチチャネル・エンコードのための方法

Country Status (5)

Country Link
US (7) US9715880B2 (ja)
EP (2) EP2959479B1 (ja)
JP (6) JP6250071B2 (ja)
CN (3) CN116665683A (ja)
WO (1) WO2014128275A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105531761B (zh) 2013-09-12 2019-04-30 杜比国际公司 音频解码系统和音频编码系统
MY181977A (en) * 2013-10-22 2021-01-18 Fraunhofer Ges Forschung Concept for combined dynamic range compression and guided clipping prevention for audio devices
EP3210206B1 (en) * 2014-10-24 2018-12-05 Dolby International AB Encoding and decoding of audio signals
WO2016162165A1 (en) * 2015-04-10 2016-10-13 Thomson Licensing Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
US10115403B2 (en) * 2015-12-18 2018-10-30 Qualcomm Incorporated Encoding of multiple audio signals
KR102219752B1 (ko) 2016-01-22 2021-02-24 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 채널 간 시간 차를 추정하기 위한 장치 및 방법
CN108701463B (zh) * 2016-02-03 2020-03-10 杜比国际公司 音频译码中的高效格式转换
DE102016104665A1 (de) * 2016-03-14 2017-09-14 Ask Industries Gmbh Verfahren und Vorrichtung zur Aufbereitung eines verlustbehaftet komprimierten Audiosignals
US10015612B2 (en) 2016-05-25 2018-07-03 Dolby Laboratories Licensing Corporation Measurement, verification and correction of time alignment of multiple audio channels and associated metadata
GB2551780A (en) * 2016-06-30 2018-01-03 Nokia Technologies Oy An apparatus, method and computer program for obtaining audio signals
CN107731238B (zh) 2016-08-10 2021-07-16 华为技术有限公司 多声道信号的编码方法和编码器
US10224042B2 (en) * 2016-10-31 2019-03-05 Qualcomm Incorporated Encoding of multiple audio signals
CN108665902B (zh) * 2017-03-31 2020-12-01 华为技术有限公司 多声道信号的编解码方法和编解码器
US10699723B2 (en) * 2017-04-25 2020-06-30 Dts, Inc. Encoding and decoding of digital audio signals using variable alphabet size
CN114898761A (zh) 2017-08-10 2022-08-12 华为技术有限公司 立体声信号编解码方法及装置
GB2574238A (en) * 2018-05-31 2019-12-04 Nokia Technologies Oy Spatial audio parameter merging
US10169852B1 (en) * 2018-07-03 2019-01-01 Nanotronics Imaging, Inc. Systems, devices, and methods for providing feedback on and improving the accuracy of super-resolution imaging
US10755722B2 (en) 2018-08-29 2020-08-25 Guoguang Electric Company Limited Multiband audio signal dynamic range compression with overshoot suppression
GB2576769A (en) * 2018-08-31 2020-03-04 Nokia Technologies Oy Spatial parameter signalling
GB2577698A (en) 2018-10-02 2020-04-08 Nokia Technologies Oy Selection of quantisation schemes for spatial audio parameter encoding
GB2582916A (en) * 2019-04-05 2020-10-14 Nokia Technologies Oy Spatial audio representation and associated rendering
US11538489B2 (en) 2019-06-24 2022-12-27 Qualcomm Incorporated Correlating scene-based audio data for psychoacoustic audio coding
US11361776B2 (en) * 2019-06-24 2022-06-14 Qualcomm Incorporated Coding scaled spatial components
GB2585187A (en) * 2019-06-25 2021-01-06 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN112151045B (zh) * 2019-06-29 2024-06-04 华为技术有限公司 一种立体声编码方法、立体声解码方法和装置
CA3147429A1 (en) * 2019-08-01 2021-02-04 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing
CN112447166B (zh) * 2019-08-16 2024-09-10 阿里巴巴集团控股有限公司 一种针对目标频谱矩阵的处理方法及装置
GB2586586A (en) 2019-08-16 2021-03-03 Nokia Technologies Oy Quantization of spatial audio direction parameters
GB2587196A (en) 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
GB2592896A (en) * 2020-01-13 2021-09-15 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
CN116762127A (zh) * 2020-12-15 2023-09-15 诺基亚技术有限公司 量化空间音频参数
KR20230153402A (ko) * 2021-03-11 2023-11-06 돌비 레버러토리즈 라이쎈싱 코오포레이션 다운믹스 신호들의 적응형 이득 제어를 갖는 오디오 코덱

Family Cites Families (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100496144B1 (ko) * 1997-03-25 2005-11-23 삼성전자주식회사 디브이디 오디오 디스크 및 이를 재생하는 장치 및 방법
CN1320547C (zh) * 1997-11-21 2007-06-06 日本胜利株式会社 一种音频信号的记录重放方法
US6757396B1 (en) * 1998-11-16 2004-06-29 Texas Instruments Incorporated Digital audio dynamic range compressor and method
GB2373975B (en) 2001-03-30 2005-04-13 Sony Uk Ltd Digital audio signal processing
US7072477B1 (en) 2002-07-09 2006-07-04 Apple Computer, Inc. Method and apparatus for automatically normalizing a perceived volume level in a digitally encoded file
JP4547965B2 (ja) 2004-04-02 2010-09-22 カシオ計算機株式会社 音声符号化装置、方法及びプログラム
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
DE102004042819A1 (de) * 2004-09-03 2006-03-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Multikanalsignals und Vorrichtung und Verfahren zum Decodieren eines codierten Multikanalsignals
US8744862B2 (en) 2006-08-18 2014-06-03 Digital Rise Technology Co., Ltd. Window selection based on transient detection and location to provide variable time resolution in processing frame-based data
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
US7729673B2 (en) 2004-12-30 2010-06-01 Sony Ericsson Mobile Communications Ab Method and apparatus for multichannel signal limiting
US20060235683A1 (en) 2005-04-13 2006-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Lossless encoding of information with guaranteed maximum bitrate
JP4521032B2 (ja) 2005-04-19 2010-08-11 ドルビー インターナショナル アクチボラゲット 空間音声パラメータの効率的符号化のためのエネルギー対応量子化
KR20070003544A (ko) * 2005-06-30 2007-01-05 엘지전자 주식회사 아비트러리다운믹스게인을 이용한 클리핑복원
US8494667B2 (en) * 2005-06-30 2013-07-23 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
US7742913B2 (en) * 2005-10-24 2010-06-22 Lg Electronics Inc. Removing time delays in signal paths
US8238561B2 (en) * 2005-10-26 2012-08-07 Lg Electronics Inc. Method for encoding and decoding multi-channel audio signal and apparatus thereof
KR100888474B1 (ko) * 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
US20080025530A1 (en) 2006-07-26 2008-01-31 Sony Ericsson Mobile Communications Ab Method and apparatus for normalizing sound playback loudness
KR101065704B1 (ko) * 2006-09-29 2011-09-19 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
WO2008060111A1 (en) * 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
US8200351B2 (en) * 2007-01-05 2012-06-12 STMicroelectronics Asia PTE., Ltd. Low power downmix energy equalization in parametric stereo encoders
KR101401964B1 (ko) * 2007-08-13 2014-05-30 삼성전자주식회사 메타데이터 인코딩/디코딩 방법 및 장치
EP2204044B1 (en) 2007-09-28 2014-07-30 Dolby Laboratories Licensing Corporation Multimedia coding and decoding with additional information capability
US8239210B2 (en) * 2007-12-19 2012-08-07 Dts, Inc. Lossless multi-channel audio codec
US20090253457A1 (en) 2008-04-04 2009-10-08 Apple Inc. Audio signal processing for certification enhancement in a handheld wireless communications device
CA2871268C (en) 2008-07-11 2015-11-03 Nikolaus Rettelbach Audio encoder, audio decoder, methods for encoding and decoding an audio signal, audio stream and computer program
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
ES2387869T3 (es) * 2008-07-30 2012-10-03 FRANCE TéLéCOM Reconstrucción de datos de audio multicanal
JP5603339B2 (ja) 2008-10-29 2014-10-08 ドルビー インターナショナル アーベー 既存のオーディオゲインメタデータを使用した信号のクリッピングの保護
JP2010135906A (ja) 2008-12-02 2010-06-17 Sony Corp クリップ防止装置及びクリップ防止方法
CN105225667B (zh) * 2009-03-17 2019-04-05 杜比国际公司 编码器系统、解码器系统、编码方法和解码方法
JP5267362B2 (ja) 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
JP5531486B2 (ja) * 2009-07-29 2014-06-25 ヤマハ株式会社 オーディオ機器
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
TWI529703B (zh) * 2010-02-11 2016-04-11 杜比實驗室特許公司 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
ES2810824T3 (es) * 2010-04-09 2021-03-09 Dolby Int Ab Sistema decodificador, método de decodificación y programa informático respectivo
ES2526761T3 (es) 2010-04-22 2015-01-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para modificar una señal de audio de entrada
JP5903758B2 (ja) 2010-09-08 2016-04-13 ソニー株式会社 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8989884B2 (en) 2011-01-11 2015-03-24 Apple Inc. Automatic audio configuration based on an audio output device
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
KR101748756B1 (ko) 2011-03-18 2017-06-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 오디오 콘텐츠를 표현하는 비트스트림의 프레임들 내의 프레임 요소 배치
JP2012235310A (ja) 2011-04-28 2012-11-29 Sony Corp 信号処理装置および方法、プログラム、並びにデータ記録媒体
US8965774B2 (en) 2011-08-23 2015-02-24 Apple Inc. Automatic detection of audio compression parameters
JP5845760B2 (ja) 2011-09-15 2016-01-20 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2013102411A (ja) 2011-10-14 2013-05-23 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
MX349398B (es) 2011-12-15 2017-07-26 Fraunhofer Ges Forschung Metodo, aparato y programa de computadora para evitar artefactos de recorte.
US8622251B2 (en) 2011-12-21 2014-01-07 John OREN System of delivering and storing proppant for use at a well site and container for such proppant
TWI517142B (zh) 2012-07-02 2016-01-11 Sony Corp Audio decoding apparatus and method, audio coding apparatus and method, and program
US9516446B2 (en) * 2012-07-20 2016-12-06 Qualcomm Incorporated Scalable downmix design for object-based surround codec with cluster analysis by synthesis
EP2757558A1 (en) 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
CA2898567C (en) 2013-01-28 2018-09-18 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Method and apparatus for normalized audio playback of media with and without embedded loudness metadata on new media devices
US9559651B2 (en) 2013-03-29 2017-01-31 Apple Inc. Metadata for loudness and dynamic range control
US9607624B2 (en) 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
JP2015050685A (ja) 2013-09-03 2015-03-16 ソニー株式会社 オーディオ信号処理装置および方法、並びにプログラム
CN105531762B (zh) 2013-09-19 2019-10-01 索尼公司 编码装置和方法、解码装置和方法以及程序
US9300268B2 (en) 2013-10-18 2016-03-29 Apple Inc. Content aware audio ducking
MY181977A (en) 2013-10-22 2021-01-18 Fraunhofer Ges Forschung Concept for combined dynamic range compression and guided clipping prevention for audio devices
US9240763B2 (en) 2013-11-25 2016-01-19 Apple Inc. Loudness normalization based on user feedback
US9276544B2 (en) 2013-12-10 2016-03-01 Apple Inc. Dynamic range control gain encoding
JP6593173B2 (ja) 2013-12-27 2019-10-23 ソニー株式会社 復号化装置および方法、並びにプログラム
US9608588B2 (en) 2014-01-22 2017-03-28 Apple Inc. Dynamic range control with large look-ahead
CA2942743C (en) 2014-03-25 2018-11-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
US9654076B2 (en) 2014-03-25 2017-05-16 Apple Inc. Metadata for ducking control
EP3522554B1 (en) 2014-05-28 2020-12-02 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Data processor and transport of user control data to audio decoders and renderers
RU2699406C2 (ru) 2014-05-30 2019-09-05 Сони Корпорейшн Устройство обработки информации и способ обработки информации
CA2953242C (en) 2014-06-30 2023-10-10 Sony Corporation Information processing apparatus and information processing method
TWI631835B (zh) 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
US20160315722A1 (en) 2015-04-22 2016-10-27 Apple Inc. Audio stem delivery and control
US10109288B2 (en) 2015-05-27 2018-10-23 Apple Inc. Dynamic range and peak control in audio using nonlinear filters
CN108028631B (zh) 2015-05-29 2022-04-19 弗劳恩霍夫应用研究促进协会 用于音量控制的装置和方法
MY181475A (en) 2015-06-17 2020-12-23 Fraunhofer Ges Forschung Loudness control for user interactivity in audio coding systems
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
US9837086B2 (en) 2015-07-31 2017-12-05 Apple Inc. Encoded audio extended metadata-based dynamic range control
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC

Also Published As

Publication number Publication date
EP2959479B1 (en) 2019-07-03
JP2024147632A (ja) 2024-10-16
US11817108B2 (en) 2023-11-14
US10360919B2 (en) 2019-07-23
US20190348052A1 (en) 2019-11-14
JP7138140B2 (ja) 2022-09-15
US10643626B2 (en) 2020-05-05
US10930291B2 (en) 2021-02-23
CN110379434B (zh) 2023-07-04
JP2020170188A (ja) 2020-10-15
JP2022172286A (ja) 2022-11-15
EP3582218A1 (en) 2019-12-18
CN110379434A (zh) 2019-10-25
US9715880B2 (en) 2017-07-25
US20200321011A1 (en) 2020-10-08
US11488611B2 (en) 2022-11-01
CN105074818B (zh) 2019-08-13
WO2014128275A1 (en) 2014-08-28
JP6472863B2 (ja) 2019-02-20
US20240144941A1 (en) 2024-05-02
US20210249022A1 (en) 2021-08-12
JP2019080347A (ja) 2019-05-23
EP2959479A1 (en) 2015-12-30
JP6728416B2 (ja) 2020-07-22
CN105074818A (zh) 2015-11-18
US20230123244A1 (en) 2023-04-20
US12100404B2 (en) 2024-09-24
US20160005407A1 (en) 2016-01-07
JP2018049287A (ja) 2018-03-29
CN116665683A (zh) 2023-08-29
US20170309280A1 (en) 2017-10-26
JP2016509260A (ja) 2016-03-24

Similar Documents

Publication Publication Date Title
JP6472863B2 (ja) パラメトリック・マルチチャネル・エンコードのための方法
US8738385B2 (en) Pitch-based pre-filtering and post-filtering for compression of audio signals
JP6735053B2 (ja) マルチチャネル符号化におけるステレオ充填装置及び方法
US7340391B2 (en) Apparatus and method for processing a multi-channel signal
JP4712799B2 (ja) マルチチャネル出力信号を発生するためのマルチチャネルシンセサイザおよび方法
EP2279562B1 (en) Factorization of overlapping transforms into two block transforms
US20090204397A1 (en) Linear predictive coding of an audio signal
JP5163545B2 (ja) オーディオ復号装置及びオーディオ復号方法
KR20070088329A (ko) 멀티채널 합성장치 제어 신호를 발생하기 위한 장치 및방법과 멀티채널 합성을 위한 장치 및 방법
EP2904609A1 (en) Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
US20100250260A1 (en) Encoder
RU2635244C2 (ru) Устройство и способ для пространственного кодирования аудиообъекта с использованием скрытых объектов для воздействия на смесь сигналов
RU2799737C2 (ru) Устройство повышающего микширования звука, выполненное с возможностью работы в режиме с предсказанием или в режиме без предсказания
US20150170656A1 (en) Audio encoding device, audio coding method, and audio decoding device
KR20140037118A (ko) 오디오 신호 처리방법, 오디오 부호화장치, 오디오 복호화장치, 및 이를 채용하는 단말기

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20161018

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171005

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171121

R150 Certificate of patent or registration of utility model

Ref document number: 6250071

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250