JP7471326B2 - パラメータの符号化および復号 - Google Patents
パラメータの符号化および復号 Download PDFInfo
- Publication number
- JP7471326B2 JP7471326B2 JP2021573912A JP2021573912A JP7471326B2 JP 7471326 B2 JP7471326 B2 JP 7471326B2 JP 2021573912 A JP2021573912 A JP 2021573912A JP 2021573912 A JP2021573912 A JP 2021573912A JP 7471326 B2 JP7471326 B2 JP 7471326B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- matrix
- covariance
- channels
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000011159 matrix material Substances 0.000 claims description 506
- 238000002156 mixing Methods 0.000 claims description 213
- 230000015572 biosynthetic process Effects 0.000 claims description 207
- 238000003786 synthesis reaction Methods 0.000 claims description 207
- 238000000034 method Methods 0.000 claims description 140
- 230000001052 transient effect Effects 0.000 claims description 104
- 239000002131 composite material Substances 0.000 claims description 68
- 238000003860 storage Methods 0.000 claims description 15
- 230000002194 synthesizing effect Effects 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 8
- 238000009499 grossing Methods 0.000 claims description 7
- 230000011664 signaling Effects 0.000 claims description 5
- 230000007423 decrease Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 33
- 238000012545 processing Methods 0.000 description 28
- 230000005236 sound signal Effects 0.000 description 25
- 238000004364 calculation method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 21
- 210000002370 ICC Anatomy 0.000 description 19
- 238000010988 intraclass correlation coefficient Methods 0.000 description 19
- 239000013598 vector Substances 0.000 description 17
- 230000002829 reductive effect Effects 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 13
- 238000005192 partition Methods 0.000 description 13
- 238000004458 analytical method Methods 0.000 description 12
- 238000013459 approach Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000013507 mapping Methods 0.000 description 9
- 238000004088 simulation Methods 0.000 description 9
- 230000002776 aggregation Effects 0.000 description 7
- 238000004220 aggregation Methods 0.000 description 7
- 238000013139 quantization Methods 0.000 description 7
- 230000003044 adaptive effect Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 3
- 238000006731 degradation reaction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 230000008450 motivation Effects 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 230000001143 conditioned effect Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000001308 synthesis method Methods 0.000 description 2
- 241001417495 Serranidae Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001010 compromised effect Effects 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000002604 ultrasonography Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/02—Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Stereophonic System (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
ここでは符号化および復号の技法のいくつかの例が開示される。詳細には、たとえばDirACフレームワークを使用して、マルチチャンネルオーディオコンテンツを低ビットレートで符号化および復号するための発明である。この方法によって、低ビットレートを使用しながら高品質の出力を得ることが可能になる。これは、芸術作品、通信、および仮想現実を含む多くのアプリケーションに使用され得る。
本セクションでは、先行技術について簡単に説明する。
マルチチャンネルコンテンツをコーディングおよび送信するための最も簡単な手法は、事前の処理も仮定もなしに、マルチチャンネルオーディオ信号の波形を直接定量化および符号化することである。この方法は理論的には完全に機能するが、マルチチャンネルコンテンツを符号化するためにビット消費量を必要とするという大きな欠点が1つある。したがって、説明する他の方法(および提案する発明)は、元のオーディオマルチチャンネル信号自体の代わりに、メタパラメータを使用してマルチチャンネルオーディオ信号を記述および送信するので、いわゆる「パラメトリック手法」である。
MPEGサラウンドは、2006年に最終決定された、マルチチャンネルサウンドのパラメトリックコーディングのためのISO/MPEG規格である[1]。この方法は、主に2つのパラメータセットに依存する。
- 所与のマルチチャンネルオーディオ信号のあらゆるチャンネル間のコヒーレンスを表す、チャンネル間コヒーレンス(ICC: Interchannel coherence)。
- マルチチャンネルオーディオ信号の2つの入力チャンネル間のレベル差に対応する、チャンネルレベル差(CLD: Channel Level Difference)。
方向性オーディオコーディング(略して「DirAC: Directional Audio Coding」)[2]もまた、空間オーディオを再現するためのパラメトリック手法であり、フィンランドにあるアールト大学のVille Pulkkiによって開発された。DirACは、2つのパラメータセットを使用して空間サウンドを記述する周波数帯域処理に依存する。
- オーディオ信号における主要なサウンドの到来方向を表す度単位の角度である、到来方向(DOA: Direction Of Arrival)。
- サウンドがどの程度「拡散」するかを表す0と1との間の値である、拡散性。値が0である場合、サウンドは、拡散性がなく、正確な角度から到来する点状の音源として取り込まれ得、値が1である場合、サウンドは、十分に拡散性があり、「あらゆる」角度から到来すると仮定される。
バイノーラルキューコーディング(BCC: Binaural Cue Coding)[3]は、Christof Fallerによって開発されたパラメトリック手法である。この方法は、MPEGサラウンド(1.1.2参照)について説明されているものと同様のパラメータセットに依存する。
- マルチチャンネル入力信号の2つのチャンネル間のエネルギー比の尺度である、チャンネル間レベル差(ICLD: Interchannel Level Difference)。
- マルチチャンネル入力信号の2つのチャンネル間の遅延の尺度である、チャンネル間時間差(ICTD: interchannel time difference)。
- マルチチャンネル入力信号の2つのチャンネル間の相関の尺度である、チャンネル間相関(ICC: interchannel correlation)。
ここでは、空間オーディオオブジェクトコーディング[4]について簡単に説明する。空間オーディオオブジェクトコーディングは、マルチチャンネル信号にある程度関連する、いわゆるオーディオオブジェクトをコーディングするためのMPEG規格である。空間オーディオオブジェクト符号化は、MPEGサラウンドと同様のパラメータを使用する。
1.5.1 動機付け
1.5.1.1 DirACフレームワークを使用する
言及しなければならない本発明の一態様は、本発明がDirACフレームワークの中に適合しなければならないということである。それでもなお、DirACのパラメータはマルチチャンネルオーディオ信号には適していないことも前述した。このトピックに関して、さらに説明する。
本発明の目標および目的の1つは、低ビットレートのアプリケーションを可能にする手法を提案することである。この手法は、符号化器と復号器との間のマルチチャンネルコンテンツを記述するための最適なデータセットを見出すことを必要とする。この手法は、送信されるパラメータの数および出力品質の観点から最適なトレードオフを見出すことも必要とする。
本発明の別の重要な目標は、任意のラウドスピーカ設定で再現されることを意図した任意のマルチチャンネルオーディオフォーマットを許容できる柔軟性のあるシステムを提案することである。出力品質は、入力設定に応じて損なわれるべきではない。
いくつかの欠点として前述した先行技術を、以下のTable(表1)に列挙する。
2.1 発明の要約
一態様によれば、ダウンミックス信号から合成信号を生成するためのオーディオ合成器(符号化器)であって、合成信号がいくつかの合成チャンネルを有し、オーディオ合成器が、
ダウンミックス信号を受信するように構成された入力インターフェースであって、ダウンミックス信号がいくつかのダウンミックスチャンネルおよびサイド情報を有し、サイド情報が原信号のチャンネルレベルおよび相関情報を含み、原信号がいくつかの原チャンネルを有する、入力インターフェースと、
原信号のチャンネルレベルおよび相関情報、ならびに
ダウンミックス信号に関連する共分散情報
を使用して、少なくとも1つの混合規則に従って、合成信号を生成するように構成された合成プロセッサと
を備える、オーディオ合成器が提供される。
ダウンミックス信号からプロトタイプ信号を算出するように構成されたプロトタイプ信号算出器であって、プロトタイプ信号がいくつかの合成チャンネルを有する、プロトタイプ信号算出器と、
原信号のチャンネルレベルおよび相関情報、ならびに
ダウンミックス信号に関連する共分散情報
を使用して、少なくとも1つの混合規則を算出するように構成された、混合規則算出器(402)とを備え得、
合成プロセッサは、プロトタイプ信号および少なくとも1つの混合規則を使用して合成信号を生成するように構成される。
少なくとも1つの第1のチャンネルまたは対のチャンネルの共分散情報と、
少なくとも1つの第2のチャンネルまたは対のチャンネルのチャンネルレベルおよび相関情報と
の両方から、元のチャンネルレベルと相関情報との両方の推定バージョンによって、共分散情報のターゲットバージョンを再構築するようにさらに構成される。
オーディオ合成器は、異なる帯域または帯域のグループに対して異なる方法で動作して、異なる帯域または帯域のグループに対して異なる混合規則を取得するように構成される。
現在のチャンネルレベルおよび相関情報を、過渡現象スロットおよび/またはフレームの過渡現象スロットに続くスロットに関連付け、
先行スロットのチャンネルレベルおよび相関情報を、過渡現象スロットに先行するフレームのスロットに関連付けるように構成される。
オーディオ合成器は、原信号のチャンネルレベルおよび相関情報、ダウンミックス信号に関連する共分散情報、原チャンネルの識別情報、ならびに合成チャンネルの識別情報のうちの少なくとも1つを使用して、少なくとも1つの混合規則を算出するようにさらに構成され得る。
チャンネルレベルおよび相関情報から再構築される、合成信号に関連する共分散行列、および
ダウンミックス信号に関連する共分散行列
から算出された第1の混合行列に従って合成信号の第1の成分を合成するように構成された第1の混合行列ブロック
を含む、第1の経路と、
合成信号の第2の成分を合成するための第2の経路であって、第2の成分が残差成分であり、第2の経路が、
ダウンミックス信号をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするように構成されたプロトタイプ信号ブロック、
アップミックスされたプロトタイプ信号を非相関化するように構成された非相関化器、
ダウンミックス信号の非相関バージョンから第2の混合行列に従って、合成信号の第2の成分を合成するように構成された第2の混合行列ブロックであって、第2の混合行列が残差混合行列である、第2の混合行列ブロック
を含む、第2の経路と
を備え、オーディオ合成器は、
第1の混合行列ブロックによって提供される残差共分散行列、および
ダウンミックス信号に関連する共分散行列から取得された非相関プロトタイプ信号の共分散行列の推定値
から第2の混合行列を推定するように構成され、
オーディオ合成器は、合成信号の第1の成分を合成信号の第2の成分と合計するための加算器ブロックをさらに備える。
チャンネルレベルおよび相関情報から再構築される、合成信号に関連する共分散行列、および
ダウンミックス信号に関連する共分散行列
から算出された第1の混合行列に従って合成信号の第1の成分を合成するように構成された第1の混合行列ブロック
を含む、第1の経路と、
合成信号の第2の成分を合成するための第2の経路であって、第2の成分が残差成分であり、第2の経路が、
ダウンミックス信号をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするように構成されたプロトタイプ信号ブロック、
アップミックスされたプロトタイプ信号を非相関化するように構成された非相関化器、
ダウンミックス信号の非相関バージョンから第2の混合行列に従って、合成信号の第2の成分を合成するように構成された第2の混合行列ブロックであって、第2の混合行列が残差混合行列である、第2の混合行列ブロック
を含む、第2の経路と
を備え、オーディオ合成器が、
第1の混合行列ブロックによって提供される残差共分散行列、および
ダウンミックス信号に関連する共分散行列から取得された非相関プロトタイプ信号の共分散行列の推定値
から第2の混合行列を算出するように構成され、
オーディオ合成器が、合成信号の第1の成分を合成信号の第2の成分と合計するための加算器ブロックをさらに備える、オーディオ合成器が提供され得る。
合成信号に関連する残差共分散行列を分解することによって取得される第2の行列、
非相関プロトタイプ信号の共分散行列の推定値から取得される対角行列の逆行列または正則化された逆行列である第1の行列
から、第2の混合行列を定義するように構成され得る。
第2の行列は、ダウンミックス信号に関連する共分散行列を分解することによって取得され、
第2の行列は、ダウンミックス信号に関連する再構築されたターゲット共分散行列を分解することによって取得される。
原信号のチャンネルレベルおよび相関情報を推定するように構成されたパラメータ推定器と、
ダウンミックス信号が、原信号のチャンネルレベルおよび相関情報を含むサイド情報を有するようにビットストリーム内に符号化されるように、ダウンミックス信号をビットストリーム内に符号化するためのビットストリームライタと
を備える、オーディオ符号化器が提供され得る。
- χiは、チャンネルiのICLDであり、
- Piは、現在のチャンネルiのパワーであり、
- Pdmx,iは、ダウンミックス信号の共分散情報の値の線形結合である。
原信号の同じチャンネルレベルおよび相関情報が選択され得る連続するフレームの数を選択するように構成され得る。
過渡現象に先行するスロットに関連付けられた原信号のチャンネルレベルおよび相関情報を符号化せずに、
過渡現象が発生したスロットおよび/またはフレーム内の後続スロットに関連付けられた原信号のチャンネルレベルおよび相関情報を符号化するように構成され得る。
帯域の数が低減するように、かつ/または
少なくとも1つの帯域の幅が別の帯域との集約によって増加するように、
帯域をさらに集約するように構成され得る。
符号化器によって推定された、選択されていないチャンネルレベルおよび相関情報と、
復号器において、符号化されていないチャンネルレベルおよび相関情報の推定値をシミュレートすることによって再構築された、選択されていないチャンネルレベルおよび相関情報と
の間の誤差情報を算出し、その結果、
算出された誤差情報に基づいて、
適切に再構築可能なチャンネルレベルおよび相関情報と、
適切に再構築不可能なチャンネルレベルおよび相関情報と
を区別し、その結果、
ビットストリームのサイド情報内に符号化される、適切に再構築不可能なチャンネルレベルおよび相関情報の選択、ならびに
適切に再構築可能なチャンネルレベルおよび相関情報の非選択
について決定し、それによって、適切に再構築可能なチャンネルレベルおよび相関情報をビットストリームのサイド情報内に符号化しないように構成され得る。
既定の順序に関連付けられたインデックスがビットストリームのサイド情報内に符号化される、チャンネルレベルおよび相関情報の適応的提供と、
符号化されるチャンネルレベルおよび相関情報が事前に決定され、インデックスの提供なしで既定の固定順序に従って順序付けられるような、チャンネルレベルおよび相関情報の固定的提供と
の間の選択を実行するように構成され得る。
ダウンミックス信号を受信するステップであって、ダウンミックス信号がいくつかのダウンミックスチャンネル、およびサイド情報を有し、サイド情報が、
原信号のチャンネルレベルおよび相関情報
を含み、原信号がいくつかの原チャンネルを有する、ステップと、
原信号のチャンネルレベルおよび相関情報(220)、ならびに信号に関連する共分散情報を使用して、合成信号を生成するステップと
を含む、方法が提供される。
ダウンミックス信号からプロトタイプ信号を算出するステップであって、プロトタイプ信号がいくつかの合成チャンネルを有する、ステップと
原信号のチャンネルレベルおよび相関情報、およびダウンミックス信号に関連する共分散情報を使用して、混合規則を算出するステップと、
プロトタイプ信号および混合規則を使用して合成信号を生成するステップと
を含み得る。
原信号のチャンネルレベルおよび相関情報を推定するステップと、
ダウンミックス信号が、原信号のチャンネルレベルおよび相関情報を含むサイド情報を有するようにビットストリーム内に符号化されるように、ダウンミックス信号をビットストリーム内に符号化するステップと
を含む、方法が提供される。
合成信号に関連する共分散行列、および
ダウンミックス信号に関連する共分散行列
から算出された第1の混合行列に従って合成信号の第1の成分を合成すること
を含む、第1のフェーズと、
合成信号の第2の成分を合成するための第2のフェーズであって、第2の成分が残差成分であり、第2のフェーズが、
ダウンミックス信号をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするプロトタイプ信号ステップ、
アップミックスされたプロトタイプ信号を非相関化する非相関化器ステップ、
ダウンミックス信号の非相関バージョンから、第2の混合行列に従って、合成信号の第2の成分を合成する第2の混合行列ステップであって、第2の混合行列が残差混合行列である、第2の混合行列ステップ
を含む、第2のフェーズと
を含み、方法が、
第1の混合行列ステップによって提供される残差共分散行列、および
ダウンミックス信号に関連する共分散行列から取得された非相関プロトタイプ信号の共分散行列の推定値
から、第2の混合行列を算出し、
方法が、合成信号の第1の成分を合成信号の第2の成分と合計し、それによって合成信号を取得する加算器ステップをさらに含む、方法が提供される。
ダウンミックス信号を受信するように構成された入力インターフェースであって、ダウンミックス信号が少なくとも1つのダウンミックスチャンネルおよびサイド情報を有し、サイド情報が、
原信号のチャンネルレベルおよび相関情報であって、原信号がいくつかの原チャンネルを有し、原チャンネルの数が1より多いまたは2より多い、チャンネルレベルおよび相関情報
のうちの少なくとも1つを含む、入力インターフェースと、
ダウンミックス信号からプロトタイプ信号を算出するように構成された、プロトタイプ信号算出器[たとえば、「プロトタイプ信号計算」]などの部分であって、プロトタイプ信号がいくつかの合成チャンネルを有する、部分と、
原信号のチャンネルレベルおよび相関情報、ダウンミックス信号に関連する共分散情報を使用して、1つ(または複数)の混合規則[たとえば、混合行列]を算出するように構成された、混合規則算出器[たとえば、「パラメータ再構築」]などの部分と、
プロトタイプ信号および混合規則を使用して合成信号を生成するように構成された、合成プロセッサ[たとえば、「合成エンジン」]などの部分と
のうちの少なくとも1つを備える、オーディオ合成器が提供される。
ダウンミックス信号内の第1のチャンネルのレベル、または1対のチャンネル間のエネルギー関係を記述する、ダウンミックス信号に関連する共分散情報と、
原信号内の第1のチャンネルのレベル、または1対のチャンネル間のエネルギー関係を記述する、原信号のチャンネルレベルおよび相関情報と
の両方を検索し、結果として、
少なくとも1つの第1のチャンネルまたは対のチャンネルの原チャンネルの共分散情報、ならびに
少なくとも1つの第2のチャンネルまたは対のチャンネルを記述するチャンネルレベルおよび相関情報
のうちの少なくとも1つを使用することによって、元のチャンネルレベルおよび相関情報のターゲットバージョンを再構築するように構成され得る。
ダウンミックス信号を受信するステップであって、ダウンミックス信号が少なくとも1つのダウンミックスチャンネルおよびサイド情報を有し、サイド情報が、
原信号のチャンネルレベルおよび相関情報であって、原信号がいくつかの原チャンネルを有し、原チャンネルの数が1より多いまたは2より多い、チャンネルレベルおよび相関情報
を含む、ステップと、
ダウンミックス信号からプロトタイプ信号を算出するステップであって、プロトタイプ信号がいくつかの合成チャンネルを有する、ステップと
原信号のチャンネルレベルおよび相関情報、ダウンミックス信号に関連する共分散情報を使用して、混合規則を算出するステップと、
プロトタイプ信号および混合規則[たとえば、規則]を使用して合成信号を生成するステップと
を含む、方法が提供される。
原信号のチャンネルレベルおよび相関情報を推定するように構成されたパラメータ推定器、および
ダウンミックス信号が、原信号のチャンネルレベルおよび相関情報を含むサイド情報を有するようにビットストリーム内に符号化されるように、ダウンミックス信号をビットストリーム内に符号化するためのビットストリームライタ
のうちの少なくとも1つを備える、オーディオ符号化器が提供される。
原信号のチャンネルレベルおよび相関情報を推定するステップと、
ダウンミックス信号が、原信号のチャンネルレベルおよび相関情報を含むサイド情報を有するようにビットストリーム内に符号化されるように、ダウンミックス信号をビットストリーム内に符号化するステップと
を含み得る。
3.1 図
例が、信号212をダウンミックスし、チャンネルレベルおよび相関情報220を復号器に提供する符号化器に基づいていることが分かる。復号器は、チャンネルレベルおよび相関情報220から混合規則(たとえば、混合行列)を生成し得る。混合規則の生成に重要な情報は、原信号212の共分散情報(たとえば、共分散行列Cy)およびダウンミックス信号の共分散情報(たとえば、共分散行列Cx)を含み得る。共分散行列Cxは、復号器によってダウンミックス信号を解析することによって直接推定され得、原信号212の共分散行列Cyは、復号器によって容易に推定される。原信号212の共分散行列Cyは、一般に、対称行列(たとえば、5チャンネルの原信号212の場合は5x5行列)であり、行列は、各チャンネルのレベルを対角線で提示し、チャンネル間の共分散を非対角エントリで提示する。一般的なチャンネルiとチャンネルjとの間の共分散は、jとiとの間の共分散と同じであるため、行列は対角である。したがって、復号器に共分散情報全体を提供するには、対角エントリで5つのレベル、および非対角エントリで10の共分散を復号器にシグナリングする必要がある。しかし、符号化される情報の量を低減することが可能であることが示される。
図1は、オーディオシステム100を符号化器側および復号器側を用いて示す。符号化器側は、符号化器200によって具現化され得、たとえば、オーディオセンサユニット(たとえば、マイクロフォン)から、記憶ユニットから、または(たとえば、無線送信を介して)リモートユニットから、オーディオ信号212を取得し得る。復号器側は、オーディオ再現ユニット(たとえば、ラウドスピーカ)にオーディオコンテンツを提供することができるオーディオ復号器(オーディオ合成器)300によって具現化され得る。符号化器200および復号器300は、たとえば、有線または無線であり得る通信チャンネルを介して(たとえば、無線周波数波、光、または超音波などを介して)互いに通信し得る。したがって、符号化器および/または復号器は、符号化されたビットストリーム248を符号化器200から復号器300に送信するための通信ユニット(たとえば、アンテナ、トランシーバなど)を含み得るか、またはその通信ユニットに接続され得る。場合によっては、符号化器200は、符号化されたビットストリーム248を、将来使用するために、記憶ユニット(たとえば、RAMメモリ、FLASHメモリなど)に記憶することができる。類似的に、復号器300は、記憶ユニットに記憶されたビットストリーム248を読み取ることができる。いくつかの例では、符号化器200および復号器300は同じデバイスとすることができ、その場合、ビットストリーム248を符号化して保存した後、デバイスは、オーディオコンテンツの再生のためにビットストリーム248を読み取る必要があり得る。
ペイロードが高い場合、同じ特定のパラメータに関連する連続するフレームの数が増加し、それにより、ビットストリーム内に書き込まれるビット量が減少する。
ペイロードが低い場合、同じ特定のパラメータに関連する連続するフレームの数が減少し、それにより、混合品質が向上する。
高ペイロードの場合、ビットストリーム248のサイド情報228内に実際に書き込まれる行列900のエントリ908の数が減少し、
ペイロードがより低い場合、ビットストリーム248のサイド情報228内に実際に書き込まれる行列900のエントリ908の数が減少する。
1つの第1のフレームの場合、図9cのICC908のみが、ビットストリーム248のサイド情報228内に符号化されるように選択され、ICC907は、ビットストリーム248のサイド情報228内に符号化されない。
第2のフレームの場合、異なるICCが符号化されるように選択され、選択されていない異なるICCは符号化されない。
符号化器によって推定された、選択されていないチャンネルレベルおよび相関情報(220)と、
復号器(300)において、符号化されていないチャンネルレベルおよび相関情報(220)の推定値をシミュレートすることによって再構築された、選択されていないチャンネルレベルおよび相関情報と
の間の誤差情報を算出し、その結果、
算出された誤差情報に基づいて、
適切に再構築可能なチャンネルレベルおよび相関情報と、
適切に再構築不可能なチャンネルレベルおよび相関情報と
を区別し、その結果、
ビットストリーム(248)のサイド情報(228)内に符号化される、適切に再構築不可能なチャンネルレベルおよび相関情報の選択、ならびに
適切に再構築可能なチャンネルレベルおよび相関情報の非選択
について決定し、それによって、適切に再構築可能なチャンネルレベルおよび相関情報をビットストリーム(248)のサイド情報(228)内に符号化しないようにすることが可能である。
ICDLは、ICDLをビットマップで示す必要なしに、どのような場合でも符号化され得、
ICCは、適応的提供の対象となり得る。
grp14=[0,1,2,3,4,5,6,8,10,13,16,20,28,40,60]
s14=[1,1,1,1,1,1,1,0,0,0,0,0,0,0]
であり、ここで、s14[j]は、パラメータ帯域jがどのサブセットに属するかを示す。
原信号(212、y)のチャンネルレベルおよび相関情報(たとえば、314、Cy、ξ、χ、またはその要素)、および
ダウンミックス信号(324、246、x)に関連する共分散情報(たとえば、Cxまたはその要素)
のうちの少なくとも1つを使用して混合規則403を(たとえば、混合規則算出器402を介して)算出するように構成され得る。
たとえばダウンミックス信号246のフィルタリングされたバージョンまたはFDバージョンであり得る、ダウンミックス信号246(x)のバージョン322、および
(チャンネルレベルおよび相関情報220を含む)サイド情報228
のうちの少なくとも1つによって供給され得る。
4.1 概要
本例の新規な手法は、とりわけ、原信号に可能な限り近いサウンド品質を維持し、マルチチャンネル信号の空間特性を保ちながら、マルチチャンネルコンテンツの符号化および復号を低ビットレート(160kbits/sec以下を意味する)で実行することを目的とする。新規な手法うちの1つの機能は、前述のDirACフレームワーク中に適合することでもある。出力信号は、入力212と同じラウドスピーカ設定で、または(ラウドスピーカによってより大きくまたはより小さくなり得る)異なる設定で、レンダリングされ得る。また、出力信号は、バイノーラルレンダリングを使用してラウドスピーカ上でレンダリングされ得る。
- 符号化器200。符号化器200は、入力信号212から必要なパラメータ220を導出し、(222において)それらを量子化し、(226において)それらを符号化する。符号化器200はまた、ビットストリーム248内に符号化される(復号器300に送信され得る)ダウンミックス信号246を計算し得る。
- 復号器300。復号器300は、原信号212に可能な限り近い品質のマルチチャンネル出力を作成するために、符号化された(たとえば、送信された)パラメータおよびダウンミックスされた信号246を使用する。
- 処理は、任意のラウドスピーカ設定と共に使用され得る。ラウドスピーカの数を増やすと、プロセスの複雑さおよび送信されるパラメータの符号化に必要なビットも増えることに留意されたい。
- 処理全体はフレームベースで実施され得る。すなわち、入力信号212は、独立して処理されるフレームに分割され得る。符号化器側では、各フレームが、パラメータのセットを生成し、パラメータのセットは、復号器側に送信されて処理される。
- フレームはまた、スロットに分割され得る。この場合、これらのスロットは、フレームスケールでは取得できなかった統計的特性を提示する。フレームは、たとえば8つのスロットに分割され得、各スロットの長さはフレームの長さの1/8に等しくなる。
符号化器の目的は、マルチチャンネル信号212を記述するための適切なパラメータ220を抽出し、(222において)それらを量子化し、(226において)それらをサイド情報228として符号化し、次いで、場合によっては、それらを復号器側に送信することである。ここでは、パラメータ220およびそれらをどのように計算できるかについて詳細に説明する。
符号化器側のフィルタバンク(たとえば、フィルタバンク214)または復号器側のフィルタバンク(たとえば、フィルタバンク320および/または338)について説明する。
態様1:マルチチャンネルコンテンツを記述および合成するための共分散行列の使用
- Cy:マルチチャンネルストリーム(信号)の共分散行列、および/または
- Cx:ダウンミックスストリーム(信号)の共分散行列246
- 実数部の代わりに、それは派生元の複素数値(たとえば、絶対値)と関係のある実数値をもたらす任意の他の演算とすることができる。
- *は、共役転置演算子を示す。
- Bは、元の帯域数とグループ化された帯域との間の関係を示す(パーティショングループ化についての4.2.1参照)。
- YおよびXは、それぞれ元のマルチチャンネル信号212および周波数領域内のダウンミックスされた信号246である。
-
- 中央チャンネルと右チャンネル
- 中央チャンネルと左チャンネル
- 左チャンネルと左サラウンドチャンネル
- 右チャンネルと右サラウンドチャンネル
の間のいずれかであり得る。
- Piは現在のチャンネルiのパワーであり、Cyの対角線、すなわち、
- Pdmx,iはチャンネルiに依存するが、常にCxの値の線形結合になる。また、元のスピーカの設定にも依存する。
量子化パラメータ224を得るためのパラメータ220の量子化の例は、たとえば、図2bおよび図4のパラメータ量子化モジュール222によって実行され得る。
ここで後述するいくつかの例は、図5に示されているものと理解され得、これは、図1および図2dのブロック214の一例であり得る。
現在のチャンネルレベルおよび相関情報(220)を、過渡現象が発生したスロットおよび/またはフレーム内の後続スロットに関連付け、
先行スロットのチャンネルレベルおよび相関情報(220)を、過渡現象が発生したスロットに先行するフレームのスロットに関連付け得る。
エントロピコーディングモジュール(ビットストリームライタ)226は、最後の符号化器のモジュールであり得、その目的は、以前に取得された量子化された値を、「サイド情報」とも呼ばれるバイナリビットストリームに変換することである。
処理のダウンミックス部244は単純であるが、いくつかの例では極めて重要であり得る。本発明において使用されるダウンミックスは、パッシブなものであり得、これは、処理中、ダウンミックスが計算される方法が同じままであり、所与の時間における信号またはその特性に依存しないことを意味する。それでもなお、(たとえば、[7]で説明されているように)244でのダウンミックス計算をアクティブなものに拡張できることが理解されている。
- 1回目は、パラメータ推定(4.2.2参照)のために符号化器側で計算され、その理由は、(いくつかの例において)共分散行列Cxの計算にダウンミックス信号246が必要とされ得るからである。
- 2回目は、符号化器側で計算され、(時間領域内の)符号化器200と復号器300との間において、ダウンミックスされた信号246は、符号化および/または復号器300に送信され、モジュール334での合成の基礎として使用される。
- ダウンミックスの左チャンネルは、左チャンネルと、左サラウンドチャンネルと、中央チャンネルとの合計である。
復号器の目的は、符号化された(たとえば、送信された)ダウンミックス信号(246、324)と符号化されたサイド情報228とを使用して、所与のラウドスピーカ設定でオーディオ出力信号(336、340、yR)を合成することである。復号器300は、入力(212、y)に使用されるものと同じラウドスピーカ設定または異なるラウドスピーカ設定で出力オーディオ信号(334、240、yR)をレンダリングすることができる。一般性を失うことなく、入力ラウドスピーカと出力ラウドスピーカの設定は同じであると想定される(ただし、例では異なる場合がある)。このセクションでは、復号器300を構成し得る様々なモジュールについて説明する。
- 符号化されたパラメータを有するサイド情報228(4.2.2に記載)
- 時間領域内にあり得るダウンミックスされた信号(246、y)(4.2.6に記載)
が入力され得る(たとえば、受信され得る)。
ブロック312(入力インターフェース)でのエントロピ復号は、以前に4で得られた量子化されたパラメータ314を取得することを可能にし得る。ビットストリーム248の復号は、単純な動作として理解され得る。ビットストリーム248は、4.2.5で使用された符号化方法に従って読み取られ、次いでそれを復号し得る。
パラメータ再構築は、たとえば、ブロック316および/または混合規則算出器402によって実行され得る。
最初に、ダウンミックス信号246から行列Cx(または、より一般的には、ダウンミックス信号246に関連する共分散情報)が再計算される(このステップは、ダウンミックス信号246に関連する共分散情報が実際にビットストリーム248のサイド情報228内に符号化される場合に回避され得る)。
次いで、たとえば、送信されたパラメータと、Cx、より一般的にはダウンミックス信号246に関連する共分散情報とを少なくとも部分的に使用して、行列Cy(または、より一般的には、原信号212のレベルおよび相関情報)が復元され得る(このステップは、原信号212のレベルおよび相関情報が実際にビットストリーム248のサイド情報228内に符号化される場合に回避され得る)。
Cx,t=Cx,t+Cx,t-1
である。
- Qは、ダウンミックスされた信号と原信号との間の関係を表す、いわゆるプロトタイプ行列(プロトタイプ規則、推定規則)である(4.3.3参照)(これは、プロトタイプ規則の一例である)
- Cxは、ダウンミックス信号の共分散行列である(これは、ダウンミックス信号212の共分散情報の例である)。
- *は、共役転置を示す。
- 下付き文字Rは、再構築された行列を示す(これは、元のレベルおよび相関情報の再構築されたバージョンの一例である)。
- 集合{送信されたインデックス}は、サイド情報228内で復号された(たとえば、符号化器から復号器に送信された)すべての(i,j)ペアに対応する。
プロトタイプ信号モジュール326の目的は、ダウンミックス信号212(またはその周波数領域バージョン324)を、合成エンジン334(4.3.5参照)によって使用され得るように成形することである。プロトタイプ信号モジュール326は、ダウンミックスされた信号のアップミキシングを実行し得る。プロトタイプ信号328の計算は、プロトタイプ信号モジュール326によって、ダウンミックスされた信号212(または324)にいわゆるプロトタイプ行列Qを乗算することによって行われ得る。
Yp=XQ (9)
- Qは、(プロトタイプ規則の一例である)プロトタイプ行列である。
- Xは、ダウンミックスされた信号(212または324)である。
- Ypは、プロトタイプ信号(328)である。
ダウンミックスチャンネルの数から合成チャンネルの数に変換するプロトタイプ行列Qを使用すること
が可能であり、このプロトタイプ行列Qは、
式(9)を、プロトタイプ信号が合成チャンネルの数を有するように適応させ、
式(4)を適応させ、したがって、合成チャンネルの数で
式(5)~式(8)を維持し、それにより原チャンネルの数で式(5)~式(8)を取得するが、
原チャンネルのグループ(たとえば、原チャンネルの対)を単一の合成チャンネルに割り当てる(たとえば、幾何形状の観点から割当てを選択する)こと、またはその逆
によって、取得され得る。
非相関化モジュール330の目的は、プロトタイプ信号の各チャンネル間の相関の量を低減することである。相関性の高いラウドスピーカ信号は、ファントム音源(phantom source)を引き起こし、出力マルチチャンネル信号の品質および空間特性を低下させることがある。このステップは任意選択であり、アプリケーションの要件に応じて実装されることも、実装されないこともある。本発明では、合成エンジンの前に非相関化が使用される。一例として、全通過の周波数非相関化器が使用され得る。
先行技術によるMPEGサラウンドでは、いわゆる「混合行列」(標準ではM1およびM2と表記)が使用されている。行列M1は、利用可能なダウンミックスされた信号を非相関化器にどのように入力するかを制御する。行列M2は、出力信号を生成するために直接信号と非相関信号とをどのように組み合わせるかを表す。
- プロトタイプ行列Qは、MPEGサラウンドで使用される行列とはまったく異なる機能を有し、この行列のポイントは、プロトタイプ信号を生成することである。このプロトタイプ信号の目的は、合成エンジンに入力されることである。
- プロトタイプ行列は、非相関化器のダウンミックスされた信号を準備するためのものではなく、要件およびターゲットアプリケーションに応じて適応させることができる。たとえば、プロトタイプ行列は、入力ラウドスピーカ設定のプロトタイプ信号よりも大きな、出力ラウドスピーカ設定のプロトタイプ信号を生成することができる。
- 提案する発明における非相関化器の使用は必須ではない。処理は、合成エンジン(5.1参照)内の共分散行列の使用に依存する。
- 提案する発明は、直接信号と非相関信号とを組み合わせることによって出力信号を生成しない。
- M1およびM2の計算は、ツリー構造に大きく依存し、これらの行列の様々な係数は構造の観点から事例に依存する。これは、提案する発明における事例ではなく、処理は、ダウンミックス計算(5.2参照)に関知せず、概念的には、提案する処理は、ツリー構造を用いて実行され得るようにチャンネルペアだけでなくすべてのチャンネル間の関係を考慮することを目的とする。
復号器の最後のステップは、合成エンジン334または合成プロセッサ402(追加として、必要に応じて合成フィルタバンク338)を含む。合成エンジン334の目的は、特定の制約を基準として最終的な出力信号336を生成することである。合成エンジン334は、特性が入力パラメータによって制約される出力信号336を計算することができる。本発明では、プロトタイプ信号328(または332)を除いて、合成エンジン338の入力パラメータ318は、共分散行列CxおよびCyである。特に、
提案する発明が、[8]で提案された方法の範囲を超えていることに留意することも重要である。注目すべき相違点は、とりわけ次のとおりである。
- ターゲット共分散行列
- ターゲット共分散行列
- 処理は、周波数帯域ごとに個別に実行されず、(0において述べたように)パラメータ帯域ごとにグループ化される。
- より大域的な観点から、共分散合成は、ここではプロセス全体の1つのブロックにすぎず、復号器側の他のすべての要素と共に使用されなければならない。
以下の態様のうちの少なくとも1つは、本発明を特徴付け得る。
1. 符号化器側
a. マルチチャンネルオーディオ信号246を入力する。
b. フィルタバンク214を使用して、信号212を時間領域から周波数領域(216)に変換する。
c. ブロック244においてダウンミックス信号246を計算する。
d. 原信号212および/またはダウンミックス信号246から、マルチチャンネルストリーム(信号)246を記述するためのパラメータの第1のセット、すなわち、共分散行列Cxおよび/またはCyを推定する。
e. 共分散行列Cxおよび/またはCyを直接送信および/または符号化するか、ICCおよび/またはICLDを計算して、それらを送信する。
f. 適切なコーディング方式を使用して、送信されたパラメータ228をビットストリーム248内に符号化する。
g. 時間領域において、ダウンミックスされた信号246を計算する。
h. 時間領域において、サイド情報(すなわちパラメータ)およびダウンミックスされた信号246を送信する。
2. 復号器側
a. サイド情報228およびダウンミックス信号246を含むビットストリーム248を復号する。
b. (任意選択)周波数領域においてダウンミックス信号246のバージョン324を取得するために、ダウンミックス信号246にフィルタバンク320を適用する。
c. 以前に復号されたパラメータ228およびダウンミックス信号246から、共分散行列Cx、および
d. ダウンミックス信号246(324)からプロトタイプ信号328を計算する。
e. (任意選択) (ブロック330において)プロトタイプ信号を非相関化する。
f. 再構築されたCxおよび
g. (任意選択)共分散合成334の出力336に合成フィルタバンク338を適用する。
h. 出力マルチチャンネル信号340を取得する。
本セクションでは、図1~図3dのシステム内に実装され得るいくつかの技法について説明する。ただし、これらの技法は単独でも実装され得る。たとえば、いくつかの例では、図8a~図8cおよび式(1)~式(8)で実行した共分散計算は必要ない。したがって、いくつかの例でにおいて、
YpR=XQ
が使用され得る。
(たとえば、図3cのブロック384において、かつ/または式(1)を使用して推定された)ダウンミックス信号324の共分散行列Cx、および
プロトタイプ行列Q
から取得される。
原信号212の共分散行列Cy(Cyは、上記の式(6)~式(8)のうちの少なくともいくつかを使用して推定され得る。たとえば、図8を参照。これは、たとえば式(8)を用いて推定された、いわゆる「ターゲットバージョン」
ダウンミックス信号246、324の共分散行列Cx(Cyは、たとえば、式(1)を使用して推定され得る)
から取得され得る。
特異ベクトル(たとえば、左特異ベクトル)の行列UCxと、
特異値の対角行列SCxと
を提供することができ、その結果、SCxの対応するエントリ内の値の平方根をエントリ内に有する対角行列をUCxに乗算することによって、Kxが取得される。
特異ベクトル(たとえば、右特異ベクトル)の行列VCyと
特異値の対角行列SCyと
を提供することができ、その結果、SCyの対応するエントリ内の値の平方根をエントリに含む対角行列をUCyに乗算することによって、Kyが取得される。
Cx(ダウンミックス信号324の共分散行列)、および
P=VΛU*
Pdecorr=diag(QCxQ*)
を、入力信号共分散
特異ベクトルの行列UCr(たとえば、左特異ベクトル)と、
特異値の対角行列SCrと
を生成し、その結果、(706において)SCrの対応するエントリ内の値の平方根をエントリ内に有する対角行列(この対角行列は704において取得されている)をUCrに乗算することによって、Krが取得される。
%Compute residual mixing matrix
function [M]=ComputeMixingMatrixResidual(C_hat_y,Cr,reg_sx,reg_ghat)
EPS_=single(1e-15); %Epsilon to avoid divisions by zero
num_outputs=size(Cr,1);
%Decomposition of Cy
[U_Cr, S_Cr]=svd(Cr);
Kr=U_Cr*sqrt(S_Cr);
%SVD of a diagonal matrix is the diagonal elements ordered,
%we can skip the ordering and get Kx directly form Cx
K_hat_y=sqrt(diag(C_haty));
limit=max(K_hat_y)*reg_sx+EPS_;
S_hat_y_reg_diag=max(K_hat_y,limit);
%Formulate regularized Kx
K_hat_y_reg_inverse=1./S_hat_y_reg_diag;
% Formulate normalization matrix G hat
% Q is the identity matrix in case of the residual/diffuse part so
% Q*Cx*Q'=Cx
Cy_hat_diag=diag(C_hat_y);
limit=max(Cy_hat_diag)*reg_ghat+EPS_;
Cy_hat_diag=max(Cy_hat_diag,limit);
G_hat=sqrt(diag(Cr)./Cy_hat_diag);
%Formulate optimal P
%Kx, G_hat are diagonal matrixes, Q is I...
K_hat_y=K_hat_y.*G_hat;
for k=1:num_outputs
Ky_dash(k,:)=Kr(k,:)*K_hat_y(k);
end
[U,~,V]=svd(Ky_dash);
P=V*U';
%Formulate M
M=Kr*P;
for k=1:num_outputs
M(:,k)=M(:,k)*K_hat_y_reg_inverse(k);
end
end
・図4bと図4cの両方の例において、第1の経路(610b'、610c')では、混合行列MMは、原信号212の共分散Cyおよびダウンミックス信号324の共分散Cxに依存することによって(ブロック600b、600cにおいて)生成される。
・図4bと図4cの両方の例において、第2の経路(610b、610c)では、非相関化器(614b、614c)があり、(ブロック618b、618cにおいて)混合行列MRが生成され、これは、非相関信号(616b、616c)の共分散
・図4bの例では、非相関信号(616b、616c)の共分散
・図4cの例では、非相関信号(616b、616c)の共分散は、行列Cxからその共分散を推定することによって反直感的に算出され、原チャンネルyのエネルギーにおいて重み付けされる。
5.1 非相関の使用の削減および合成エンジンの最適な使用
提案する技法、ならびに処理に使用されるパラメータ、およびそれらのパラメータが合成エンジン334と組み合わされる方法を考慮すると、オーディオ信号(たとえば、そのバージョン328において)の強力な非相関の必要性が減少する、また、非相関化モジュール330がない場合でも、非相関の影響(たとえば、空間特性のアーチファクトもしくは劣化または信号品質の劣化)が排除されるとは言わないまでも少なくなると説明される。
提案する技法、ならびにプロトタイプ信号328が計算される方法、およびそれらが合成エンジン334でどのように使用されるかを考慮すると、ここでは、提案する復号器が、ダウンミックスされた信号212が符号化器において計算される方法に関知しないと説明される。
提案する技法、ならびにパラメータ(28、314、318)が計算される方法、およびそれらが合成エンジン334で使用される方法、ならびにそれらが復号器側での推定される方法を考慮すると、マルチチャンネルオーディオ信号を記述するために使用されるパラメータの数および目的がスケーラブルであると説明される。
提案する技法、ならびに使用される合成エンジン334およびパラメータ(たとえば、Cyおよび/もしくはCx、またはその要素)の柔軟性を考慮すると、ここでは、提案する発明により、出力設定に関して広範囲にレンダリングすることが可能になると説明される。
以下に5.1に関する表を示すが、LFEが省略されていたため、後からLFEも処理に含めた(関係LFE/Cに対する1つだけのICC、およびLFEに対するICLDは、最も低いパラメータ帯域でのみ送信され、復号器側での合成において、他のすべての帯域についてそれぞれ1および0に設定される)。チャンネルの命名および順序は、ISO/IEC 23091-3「Information technology - Coding independent code-points - Part 3: Audio」において見出されるCICPに従う。Qは常に、復号器におけるプロトタイプ行列と符号化器におけるダウンミックス行列との両方として使用される。5.1(CICP6)。αiは、ICLDを算出するために使用される。
5.1+4(CICP16)
7.1+4(CICP19)
上記の技術について、主に構成要素または機能デバイスとして説明してきたが、本発明はまた、方法としても実装され得る。上記で説明したブロックおよび要素はまた、方法のステップおよび/またはフェーズとして理解され得る。
ダウンミックス信号(246、x)を受信するステップであって、ダウンミックス信号(246、x)がいくつかのダウンミックスチャンネル、およびサイド情報(228)を有し、サイド情報(228)が、
原信号(212、y)のチャンネルレベルおよび相関情報(220)
を含み、原信号(212、y)がいくつかの原チャンネルを有する、ステップと、
原信号(212、y)のチャンネルレベルおよび相関情報(220)、ならびに信号(246、x)に関連する共分散情報(Cx)を使用して、合成信号を生成するステップと
を含む、復号方法が提供される。
ダウンミックス信号(246、x)からプロトタイプ信号を算出するステップであって、プロトタイプ信号がいくつかの合成チャンネルを有する、ステップと
原信号(212、y)のチャンネルレベルおよび相関情報、およびダウンミックス信号(246、x)に関連する共分散情報を使用して、混合規則を算出するステップと、
プロトタイプ信号および混合規則を使用して合成信号を生成するステップと
のうちの少なくとも1つを含み得る。
合成信号に関連する共分散行列(
ダウンミックス信号(324)に関連する共分散行列(Cx)
から算出された第1の混合行列(MM)に従って合成信号の第1の成分(336M')を合成すること
を含む、第1のフェーズ(610c')と、
合成信号の第2の成分(336R')を合成するための第2のフェーズ(610c)であって、第2の成分(336R')が残差成分であり、第2のフェーズ(610c)が、
ダウンミックス信号(324)をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするプロトタイプ信号ステップ(612c)、
アップミックスされたプロトタイプ信号(613c)を非相関化する非相関化器ステップ(614c)、
ダウンミックス信号(324)の非相関バージョン(615c)から、第2の混合行列(MR)に従って、合成信号の第2の成分(336R')を合成する第2の混合行列ステップ(618c)であって、第2の混合行列(MR)が残差混合行列である、第2の混合行列ステップ(618c)
を含む、第2のフェーズ(610c)と
を含み、方法が、
第1の混合行列ステップ(600c)によって提供される残差共分散行列(Cr)、および
ダウンミックス信号(324)に関連する共分散行列(Cx)から取得された非相関プロトタイプ信号の共分散行列(
方法が、合成信号の第1の成分(336M')を合成信号の第2の成分(336R')と合計し、それによって合成信号(336)を取得する加算器ステップ(620c)をさらに含む、復号方法も提供される。
原信号(212、y)のチャンネルレベルおよび相関情報(220)を推定するステップ(218)と、
ダウンミックス信号(246、x)が、原信号(212、y)のチャンネルレベルおよび相関情報(220)を含むサイド情報(228)を有するようにビットストリーム(248)内に符号化されるように、ダウンミックス信号(246、x)をビットストリーム(248)内に符号化するステップ(226)と
を含む、符号化方法が提供される。
さらに、本発明は、プロセッサによって実行されるとプロセッサに上記のような方法を実行させる命令を記憶する非一過性の記憶ユニットにおいて実装され得る。
いくつかの態様は、装置の文脈で説明されているが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。類似的に、方法ステップの文脈で説明される態様もまた、対応するブロックもしくはアイテム、または対応する装置の特徴の説明を表す。方法ステップのいくつかまたはすべては、たとえば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路のような、ハードウェア装置によって(またはハードウェア装置を使用することによって)実行され得る。いくつかの態様において、最も重要な方法ステップの何らかの1つまたは複数は、そのような装置によって実行され得る。
200 符号化器
212 原信号、入力信号
214 フィルタバンク
216 周波数領域バージョン
218 パラメータ推定器
220 チャンネルレベルおよび相関情報
220s スケーラ
226 ビットストリームライタ
228 サイド情報
244 ダウンミックス部
246 ダウンミックス信号
247 コアコーダ
248 ビットストリーム
249 マルチプレクサ
254s スイッチ
258 過渡現象検出器
263 フィルタ
270 ストレージ
273 減算器
300 復号器
312 入力インターフェース
314 チャンネルレベルおよび相関情報
316 パラメータ再構築モジュール
320 フィルタバンク
324 ダウンミックス信号
326 プロトタイプ信号算出器
328 プロトタイプ信号
332 プロトタイプ信号
334 合成エンジン
336 合成信号
338 フィルタバンク
340 合成信号
347 コアデコーダ
384 共分散推定器
402 混合規則算出器
403 混合規則
404 合成プロセッサ
502 共分散推定器
504 共分散推定器
600a 合成プロセッサ
600b 合成プロセッサ
614c 非相関化器
616b COV推定器
616c コア推定器
630 セレクタ
900 ICC行列
Claims (42)
- ダウンミックス信号(246、x)から合成信号(336、340、yR)を生成するためのオーディオ合成器(300)であって、前記合成信号(336、340、yR)が複数の合成チャンネルを有し、前記オーディオ合成器(300)が、
前記ダウンミックス信号(246、x)を受信するように構成された入力インターフェース(312)であって、前記ダウンミックス信号(246、x)が複数のダウンミックスチャンネルおよびサイド情報(228)を有し、前記サイド情報(228)が原信号(212、y)のチャンネルレベルおよび相関情報(314、ξ、χ)を含み、前記原信号(212、y)が複数の原チャンネルを有する、入力インターフェース(312)と、
合成プロセッサ(404)であって、
前記原信号(212、y)のチャンネルレベルおよび相関情報(220、314、ξ、χ)、ならびに
前記ダウンミックス信号(324、246、x)の共分散情報(Cx)
を使用して、少なくとも1つの混合行列に従って、前記合成信号(336、340、yR)を生成するように構成された合成プロセッサ(404)と
を備え、
前記オーディオ合成器(300)は、前記原信号の共分散情報(Cy)のターゲットバージョン
前記オーディオ合成器(300)は、前記原信号の前記共分散情報(Cy)の推定バージョン(
前記オーディオ合成器(300)は、前記ダウンミックス信号(324、246、x)の共分散情報(Cx)から前記原信号の前記共分散情報の前記推定バージョン(
オーディオ合成器(300)。 - 前記ダウンミックス信号(324、246、x)から前記プロトタイプ信号(328)を算出するように構成されたプロトタイプ信号算出器(326)であって、前記プロトタイプ信号(328)がいくつかの合成チャンネルを有する、プロトタイプ信号算出器(326)と、
混合行列算出器(402)であって、
前記原信号(212、y)の前記チャンネルレベルおよび相関情報(314、ξ、χ)、ならびに
前記ダウンミックス信号(324、246、x)の前記共分散情報(Cx)
を使用して少なくとも1つの混合行列(403)を算出するように構成された、混合行列算出器(402)と
を備え、前記合成プロセッサ(404)が、前記プロトタイプ信号(328)および前記少なくとも1つの混合行列(403)を使用して前記合成信号(336、340、yR)を生成するように構成される、請求項1に記載のオーディオ合成器(300)。 - 前記合成信号(336、340、yR)のチャンネルの数に適応した前記共分散情報(Cy)の前記ターゲットバージョン(
- 原チャンネルのグループを単一の合成チャンネルに割り当てることによって、またはその逆によって、前記合成信号(336、340、yR)のチャンネルの数に適応した前記共分散情報(Cy)のターゲットバージョン(
- 前記いくつかの原チャンネルに関する前記共分散情報の前記ターゲットバージョン(
(
に到達することによって、前記合成信号(336、340、yR)のチャンネルの前記数に適応した前記共分散情報(Cy)の前記ターゲットバージョン(
を再構築するように構成された、請求項4に記載のオーディオ合成器。 - 少なくとも1対のチャンネルについて、前記原信号の前記共分散情報(Cy)の前記推定バージョン(
- 前記原信号の前記共分散情報(Cy)の正規化された推定バージョン(
- 前記サイド情報(228)において取得されたエントリ(908)を挿入することによって前記行列を完成させるように構成された、請求項7に記載のオーディオ合成器。
- 前記対のチャンネルを形成する前記チャンネルの前記レベルの平方根によって前記原信号の前記共分散情報(Cy)の前記推定バージョン(
- 前記ダウンミックス信号(324、246、x)の前記サイド情報(228)の中から、チャンネルレベルおよび相関情報(ξ、χ)を検索するように構成され、
少なくとも1対のチャンネルの共分散情報(Cx)と、
少なくとも1つの第2のチャンネルおよび1対のチャンネルのチャンネルレベルおよび相関情報(ξ、χ)と
の両方から、前記元のチャンネルレベルと相関情報と(220)の両方の推定バージョン(
によって、前記共分散情報(Cy)の前記ターゲットバージョン(
- 同じチャンネルまたは対のチャンネルの前記ダウンミックス信号(324、246、x)から再構築された前記共分散情報(Cy)よりも、ビットストリーム(248)の前記サイド情報(228)から取得された前記チャンネルまたは対のチャンネルを記述する前記チャンネルレベルおよび相関情報(ξ、χ)を優先するように構成された、請求項10に記載のオーディオ合成器。
- 前記原信号の前記共分散情報(Cy)の前記再構築されたターゲットバージョン(
- 前記ダウンミックス信号(246、x)の周波数領域FDバージョン(324)を取得するように構成され、前記ダウンミックス信号(246、x)の前記FDバージョン(324)が帯域または帯域のグループに分割され、異なるチャンネルレベルおよび相関情報(220)が異なる帯域または帯域のグループに関連付けられ、
前記オーディオ合成器が、異なる帯域または帯域のグループに対して異なる方法で動作して、異なる帯域または帯域のグループに対して異なる混合行列(403)を取得するように構成される、請求項1から12のいずれか一項に記載のオーディオ合成器。 - 前記ダウンミックス信号(324、246、x)がスロットに分割され、異なるチャンネルレベルおよび相関情報(220)が異なるスロットに関連付けられ、前記オーディオ合成器が、異なるスロットに対して異なる方法で動作して、異なるスロットに対して異なる混合行列(403)を取得するように構成される、請求項1から13のいずれか一項に記載のオーディオ合成器。
- 前記ダウンミックス信号(324、246、x)がフレームに分割され、各フレームがスロットに分割され、前記オーディオ合成器が、1つのフレーム内の過渡現象の存在および位置が、1つの過渡現象スロットにあるものとしてシグナリングされると(261)、
現在のチャンネルレベルおよび相関情報(220)を、前記過渡現象スロットおよび/または前記フレームの過渡現象スロットに続くスロットに関連付け、
先行フレームの前記チャンネルレベルおよび相関情報(220)を、前記過渡現象スロットに先行する前記フレームのスロットに関連付ける
ように構成される、請求項1から14のいずれか一項に記載のオーディオ合成器。 - 合成チャンネルの数に基づいてプロトタイプ信号(328)を算出するように構成された前記プロトタイプ行列(Q)を選択するように構成された、請求項1から15のいずれか一項に記載のオーディオ合成器。
- 複数の事前に記憶されたプロトタイプ行列の中から前記プロトタイプ行列(Q)を選択するように構成された、請求項16に記載のオーディオ合成器。
- 手動選択に基づいて前記プロトタイプ行列(Q)を定義するように構成された、請求項1から17のいずれか一項に記載のオーディオ合成器。
- 前記プロトタイプ行列が、第1の次元および第2の次元を有する行列(Q)を含み、前記第1の次元がダウンミックスチャンネルの数に関連付けられ、前記第2の次元が合成チャンネルの数に関連付けられる、請求項17または18に記載のオーディオ合成器。
- 160kbit/s以下のビットレートで動作するように構成された、請求項1から19のいずれか一項に記載のオーディオ合成器。
- 前記サイド情報(314)を有する前記ダウンミックス信号(246、x)を取得するためのエントロピ復号器(312)をさらに備える、請求項1から20のいずれか一項に記載のオーディオ合成器。
- 異なるチャンネル間の相関の量を低減するための非相関化モジュール(614b、614c、330)をさらに備える、請求項1から21のいずれか一項に記載のオーディオ合成器。
- 前記プロトタイプ信号(328)が、非相関化を実行せずに前記合成プロセッサ(600a、600b、404)に直接提供される、請求項1から21のいずれか一項に記載のオーディオ合成器。
- 前記サイド情報(228)が、前記原チャンネルの識別情報を含み、
前記オーディオ合成器が、前記原信号(212、y)の前記チャンネルレベルおよび相関情報(ξ、χ)、前記ダウンミックス信号(246、x)の共分散情報(Cx)、前記原チャンネルの前記識別情報、ならびに前記合成チャンネルの識別情報のうちの少なくとも1つを使用して、前記少なくとも1つの混合行列(403)を算出するようにさらに構成される、請求項1から23のいずれか一項に記載のオーディオ合成器。 - 特異値分解SVDによって少なくとも1つの混合行列を算出するように構成された、請求項1から24のいずれか一項に記載のオーディオ合成器。
- 前記ダウンミックス信号がフレームに分割され、前記オーディオ合成器が、前のフレームに対して取得された、パラメータ、または推定もしくは再構築された値、または混合行列との線形結合を使用して、受信されたパラメータ、または推定もしくは再構築された値、または混合行列を平滑化するように構成される、請求項1から25のいずれか一項に記載のオーディオ合成器。
- 1つのフレームにおける過渡現象の存在および/または位置がシグナリング(261)されると、前記受信されたパラメータ、または推定もしくは再構築された値、または混合行列の前記平滑化を無効にするように構成される、請求項26に記載のオーディオ合成器。
- 前記ダウンミックス信号がフレームに分割され、前記フレームがスロットに分割され、前記原信号(212、y)の前記チャンネルレベルおよび相関情報(220、ξ、χ)が、ビットストリーム(248)の前記サイド情報(228)からフレーム単位の様式で取得され、前記オーディオ合成器が、現在のフレームに対して算出された混合行列を、前記現在のフレームの後続スロットに沿って増加する係数によってスケーリングすること、および先行フレームに対して使用される前記混合行列を、前記現在のフレームの前記後続スロットに沿って減少する係数によってスケーリングされたバージョンで追加することによって取得された前記混合行列を、前記現在のフレームに対して使用するように構成される、請求項1から10のいずれか一項に記載のオーディオ合成器。
- 合成チャンネルの数が原チャンネルの数よりも多い、請求項1から28のいずれか一項に記載のオーディオ合成器。
- 合成チャンネルの数が原チャンネルの数よりも少ない、請求項1から29のいずれか一項に記載のオーディオ合成器。
- 前記少なくとも1つの混合行列が、第1の混合行列(MM)および第2の混合行列(MR)を含み、前記オーディオ合成器が、
前記合成信号(212)の共分散行列(
前記ダウンミックス信号(324)の共分散行列(Cx)
から算出された前記第1の混合行列(MM)に従って、前記合成信号の第1の成分(336M')を合成するように構成された第1の混合行列ブロック(600c)
を含む第1の経路(610c')と、
前記合成信号の第2の成分(336R')を合成するための第2の経路(610c)であって、前記第2の成分(336R')が残差成分であり、前記第2の経路(610c)が、
前記ダウンミックス信号(324)をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするように構成されたプロトタイプ信号ブロック(612c)、
前記アップミックスされたプロトタイプ信号(613c)を非相関化し、それにより前記ダウンミックス信号(324)の非相関バージョン(615c)を取得するように構成された非相関化器(614c)、
前記ダウンミックス信号(324)の前記非相関バージョン(615c)から第2の混合行列(MR)に従って、前記合成信号の前記第2の成分(336R')を合成するように構成された第2の混合行列ブロック(618c)であって、前記第2の混合行列(MR)が残差混合行列である、第2の混合行列ブロック(618c)
を含む、第2の経路(610c)と
を備え、前記オーディオ合成器(300)が、
前記第1の混合行列ブロック(600c)によって提供される残差共分散行列(Cr)、および
前記ダウンミックス信号(324)の前記共分散行列(Cx)から取得された前記ダウンミックス信号(324)の前記非相関バージョン(615c)の前記共分散行列(
前記オーディオ合成器(300)が、前記合成信号の前記第1の成分(336M')を前記合成信号の前記第2の成分(336R')と合計するための加算器ブロック(620c)をさらに備える、請求項1から30のいずれか一項に記載のオーディオ合成器。 - 複数のダウンミックスチャンネルを有するダウンミックス信号(324、x)から合成信号(336)を生成するためのオーディオ合成器(300)であって、前記合成信号(336)が複数の合成チャンネルを有し、前記ダウンミックス信号(324)が複数の原チャンネルを有する原信号(212)のダウンミックスされたバージョンであり、前記オーディオ合成器(300)が、
第1の経路(610c')であって、
前記合成信号(212)の共分散行列(
前記ダウンミックス信号(324)の共分散行列(Cx)
から算出された第1の混合行列(MM)に従って、前記合成信号の第1の成分(336M')を合成するように構成された第1の混合行列ブロック(600c)
を含む第1の経路(610c')と、
前記合成信号の第2の成分(336R')を合成するための第2の経路(610c)であって、前記第2の成分(336R')が残差成分であり、前記第2の経路(610c)が、
前記ダウンミックス信号(324)をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするように構成されたプロトタイプ信号ブロック(612c)、
前記アップミックスされたプロトタイプ信号(613c)を非相関化し、それにより前記ダウンミックス信号(324)の非相関バージョン(615c)を取得するように構成された非相関化器(614c)、
前記ダウンミックス信号(324)の前記非相関バージョン(615c)から第2の混合行列(MR)に従って、前記合成信号の前記第2の成分(336R')を合成するように構成された第2の混合行列ブロック(618c)であって、前記第2の混合行列(MR)が残差混合行列である、第2の混合行列ブロック(618c)
を含む、第2の経路(610c)と
を備え、前記オーディオ合成器(300)が、
前記第1の混合行列ブロック(600c)によって提供される残差共分散行列(Cr)、および
前記ダウンミックス信号(324)の前記共分散行列(Cx)から取得された前記ダウンミックス信号(324)の前記非相関バージョン(615c)の前記共分散行列(
前記オーディオ合成器(300)が、前記合成信号の前記第1の成分(336M')を前記合成信号の前記第2の成分(336R')と合計するための加算器ブロック(620c)をさらに備える、オーディオ合成器(300)。 - 前記残差共分散行列(Cr)が、前記合成信号(212)の前記共分散行列(
- 前記合成信号の前記残差共分散行列(Cr)を分解することによって取得される第2の行列(Kr)、
前記非相関プロトタイプ信号の前記共分散行列(
- 前記対角行列(
- 前記第2の行列(Kr)が、前記合成信号の前記残差共分散行列(Cr)に適用される特異値分解SVD(702)によって取得される、請求項34または35に記載のオーディオ合成器。
- 前記非相関プロトタイプ信号の前記共分散行列(
- 前記非相関プロトタイプ信号の前記共分散行列(
- ダウンミックス信号から合成信号を生成するための復号方法であって、前記合成信号が複数の合成チャンネルを有し、前記方法が、
ダウンミックス信号(246、x)を受信するステップであって、前記ダウンミックス信号(246、x)が複数のダウンミックスチャンネル、およびサイド情報(228)を有し、前記サイド情報(228)が、
原信号(212、y)のチャンネルレベルおよび相関情報(220)
を含み、前記原信号(212、y)が複数の原チャンネルを有する、ステップと、
前記原信号(212、y)の前記チャンネルレベルおよび相関情報(220)、ならびに前記ダウンミックス信号(246、x)の共分散情報(Cx)を使用して、前記合成信号を生成するステップと
を含み、
前記方法は、
前記原信号の前記共分散情報(Cy)の推定バージョン(
前記原信号の前記共分散情報の前記推定バージョン(
復号方法。 - 前記方法が、
前記ダウンミックス信号(246、x)からプロトタイプ信号を算出するステップであって、前記プロトタイプ信号がいくつかの合成チャンネルを有する、ステップと
前記原信号(212、y)の前記チャンネルレベルおよび相関情報、ならびに前記ダウンミックス信号(246、x)の共分散情報を使用して、混合行列を算出するステップと、
前記プロトタイプ信号および前記混合行列を使用して前記合成信号を生成するステップと
を含む、請求項39に記載の方法。 - いくつかのダウンミックスチャンネルを有するダウンミックス信号(324、x)から合成信号(336)を生成するための方法であって、前記合成信号(336)がいくつかの合成チャンネルを有し、前記ダウンミックス信号(324、x)が、いくつかの原チャンネルを有する原信号(212)のダウンミックスされたバージョンであり、前記方法が、以下のフェーズ、すなわち、
前記合成信号(212)の共分散行列(
前記ダウンミックス信号(324)の共分散行列(Cx)
から算出された第1の混合行列(MM)に従って前記合成信号の第1の成分(336M')を合成すること
を含む、第1のフェーズ(610c')と、
前記合成信号の第2の成分(336R')を合成するための第2のフェーズ(610c)であって、前記第2の成分(336R')が残差成分であり、前記第2のフェーズ(610c)が、
前記ダウンミックス信号(324)をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするプロトタイプ信号ステップ(612c)、
前記アップミックスされたプロトタイプ信号(613c)を非相関化する非相関化器ステップ(614c)、
前記ダウンミックス信号(324)の非相関バージョン(615c)から、第2の混合行列(MR)に従って、前記合成信号の前記第2の成分(336R')を合成する第2の混合行列ステップ(618c)であって、前記第2の混合行列(MR)が残差混合行列である、第2の混合行列ステップ(618c)
を含む、第2のフェーズ(610c)と
を含み、前記方法が、
第1の混合行列ステップ(600c)によって提供される残差共分散行列(Cr)、および
前記ダウンミックス信号(324)の前記共分散行列(Cx)から取得された前記ダウンミックス信号(324)の前記非相関バージョン(615c)の前記共分散行列の推定値
から、前記第2の混合行列(MR)を算出し、
前記方法が、前記合成信号の前記第1の成分(336M')を前記合成信号の前記第2の成分(336R')と合計し、それによって前記合成信号(336)を取得する加算器ステップ(620c)をさらに含む、方法。 - プロセッサによって実行されると前記プロセッサに請求項39から41のいずれか一項に記載の方法を実行させる命令を記憶する、非一過性の記憶ユニット。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023215842A JP2024029071A (ja) | 2019-06-14 | 2023-12-21 | パラメータの符号化および復号 |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP19180385 | 2019-06-14 | ||
EP19180385.7 | 2019-06-14 | ||
PCT/EP2020/066456 WO2020249815A2 (en) | 2019-06-14 | 2020-06-15 | Parameter encoding and decoding |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023215842A Division JP2024029071A (ja) | 2019-06-14 | 2023-12-21 | パラメータの符号化および復号 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022537026A JP2022537026A (ja) | 2022-08-23 |
JP7471326B2 true JP7471326B2 (ja) | 2024-04-19 |
Family
ID=66912589
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021573912A Active JP7471326B2 (ja) | 2019-06-14 | 2020-06-15 | パラメータの符号化および復号 |
JP2023215842A Pending JP2024029071A (ja) | 2019-06-14 | 2023-12-21 | パラメータの符号化および復号 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023215842A Pending JP2024029071A (ja) | 2019-06-14 | 2023-12-21 | パラメータの符号化および復号 |
Country Status (14)
Country | Link |
---|---|
US (3) | US11990142B2 (ja) |
EP (2) | EP4398243A3 (ja) |
JP (2) | JP7471326B2 (ja) |
KR (3) | KR20220025107A (ja) |
CN (1) | CN114270437A (ja) |
AU (3) | AU2020291190B2 (ja) |
BR (1) | BR112021025265A2 (ja) |
CA (2) | CA3193359A1 (ja) |
ES (1) | ES2980822T3 (ja) |
MX (1) | MX2021015314A (ja) |
PL (1) | PL3984028T3 (ja) |
TW (2) | TWI843389B (ja) |
WO (1) | WO2020249815A2 (ja) |
ZA (1) | ZA202110293B (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022079044A1 (en) | 2020-10-13 | 2022-04-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a plurality of audio objects using direction information during a downmixing or apparatus and method for decoding using an optimized covariance synthesis |
MX2023004247A (es) | 2020-10-13 | 2023-06-07 | Fraunhofer Ges Forschung | Aparato y metodo para codificar una pluralidad de objetos de audio o aparato y metodo para decodificacion usando dos o mas objetos de audio relevantes. |
GB2624869A (en) * | 2022-11-29 | 2024-06-05 | Nokia Technologies Oy | Parametric spatial audio encoding |
GB202218103D0 (en) * | 2022-12-01 | 2023-01-18 | Nokia Technologies Oy | Binaural audio rendering of spatial audio |
WO2024175587A1 (en) * | 2023-02-23 | 2024-08-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal representation decoding unit and audio signal representation encoding unit |
WO2024208420A1 (en) | 2023-04-05 | 2024-10-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor, audio processing system, audio decoder, method for providing a processed audio signal representation and computer program using a time scale modification |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009531735A (ja) | 2006-03-28 | 2009-09-03 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置 |
JP2016528811A (ja) | 2013-07-22 | 2016-09-15 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2572805C (en) | 2004-07-02 | 2013-08-13 | Matsushita Electric Industrial Co., Ltd. | Audio signal decoding device and audio signal encoding device |
US20070055510A1 (en) * | 2005-07-19 | 2007-03-08 | Johannes Hilpert | Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding |
JP5111375B2 (ja) | 2005-08-30 | 2013-01-09 | エルジー エレクトロニクス インコーポレイティド | オーディオ信号をエンコーディング及びデコーディングするための装置とその方法 |
WO2007080211A1 (en) | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
CN101406074B (zh) | 2006-03-24 | 2012-07-18 | 杜比国际公司 | 解码器及相应方法、双耳解码器、包括该解码器的接收机或音频播放器及相应方法 |
JP5270557B2 (ja) * | 2006-10-16 | 2013-08-21 | ドルビー・インターナショナル・アクチボラゲット | 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現 |
WO2008060111A1 (en) | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
CN101821799B (zh) * | 2007-10-17 | 2012-11-07 | 弗劳恩霍夫应用研究促进协会 | 使用上混合的音频编码 |
KR101629862B1 (ko) * | 2008-05-23 | 2016-06-24 | 코닌클리케 필립스 엔.브이. | 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더 |
US9165558B2 (en) * | 2011-03-09 | 2015-10-20 | Dts Llc | System for dynamically creating and rendering audio objects |
EP2560161A1 (en) | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
EP2717262A1 (en) * | 2012-10-05 | 2014-04-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding |
US8804971B1 (en) | 2013-04-30 | 2014-08-12 | Dolby International Ab | Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio |
EP2804176A1 (en) | 2013-05-13 | 2014-11-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio object separation from mixture signal using object-specific time/frequency resolutions |
EP2830053A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal |
BR112016008426B1 (pt) * | 2013-10-21 | 2022-09-27 | Dolby International Ab | Método para reconstrução de uma pluralidade de sinais de áudio, sistema de decodificação de áudio, método para codificação de uma pluralidade de sinais de áudio, sistema de codificação de áudio, e mídia legível por computador |
EP2879131A1 (en) * | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
GB201718341D0 (en) * | 2017-11-06 | 2017-12-20 | Nokia Technologies Oy | Determination of targeted spatial audio parameters and associated spatial audio playback |
GB2595475A (en) * | 2020-05-27 | 2021-12-01 | Nokia Technologies Oy | Spatial audio representation and rendering |
-
2020
- 2020-06-15 CA CA3193359A patent/CA3193359A1/en active Pending
- 2020-06-15 EP EP24166906.8A patent/EP4398243A3/en active Pending
- 2020-06-15 ES ES20732888T patent/ES2980822T3/es active Active
- 2020-06-15 BR BR112021025265A patent/BR112021025265A2/pt unknown
- 2020-06-15 AU AU2020291190A patent/AU2020291190B2/en active Active
- 2020-06-15 WO PCT/EP2020/066456 patent/WO2020249815A2/en active Application Filing
- 2020-06-15 TW TW112100738A patent/TWI843389B/zh active
- 2020-06-15 JP JP2021573912A patent/JP7471326B2/ja active Active
- 2020-06-15 CA CA3143408A patent/CA3143408A1/en active Pending
- 2020-06-15 EP EP20732888.1A patent/EP3984028B1/en active Active
- 2020-06-15 KR KR1020227003867A patent/KR20220025107A/ko active Search and Examination
- 2020-06-15 PL PL20732888.1T patent/PL3984028T3/pl unknown
- 2020-06-15 TW TW109120318A patent/TWI792006B/zh active
- 2020-06-15 KR KR1020227001443A patent/KR20220024593A/ko active Application Filing
- 2020-06-15 CN CN202080057545.XA patent/CN114270437A/zh active Pending
- 2020-06-15 KR KR1020227003875A patent/KR20220025108A/ko active IP Right Grant
- 2020-06-15 MX MX2021015314A patent/MX2021015314A/es unknown
-
2021
- 2021-12-10 ZA ZA2021/10293A patent/ZA202110293B/en unknown
- 2021-12-14 US US17/550,905 patent/US11990142B2/en active Active
- 2021-12-14 AU AU2021286309A patent/AU2021286309B2/en active Active
- 2021-12-14 US US17/550,931 patent/US20220108707A1/en active Pending
- 2021-12-14 US US17/550,953 patent/US20220122621A1/en active Pending
- 2021-12-14 AU AU2021286307A patent/AU2021286307C1/en active Active
-
2023
- 2023-12-21 JP JP2023215842A patent/JP2024029071A/ja active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009531735A (ja) | 2006-03-28 | 2009-09-03 | テレフオンアクチーボラゲット エル エム エリクソン(パブル) | マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置 |
JP2016528811A (ja) | 2013-07-22 | 2016-09-15 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現 |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7471326B2 (ja) | パラメータの符号化および復号 | |
US11252523B2 (en) | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals | |
US10431227B2 (en) | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals | |
JP2008530616A (ja) | ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成 | |
JP2016525716A (ja) | 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制 | |
JP6732739B2 (ja) | オーディオ・エンコーダおよびデコーダ | |
RU2806701C2 (ru) | Кодирование и декодирование параметров | |
RU2803451C2 (ru) | Кодирование и декодирование параметров |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220214 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230131 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230508 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231221 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20231222 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20240122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240311 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240409 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7471326 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |