JP7471326B2 - パラメータの符号化および復号 - Google Patents

パラメータの符号化および復号 Download PDF

Info

Publication number
JP7471326B2
JP7471326B2 JP2021573912A JP2021573912A JP7471326B2 JP 7471326 B2 JP7471326 B2 JP 7471326B2 JP 2021573912 A JP2021573912 A JP 2021573912A JP 2021573912 A JP2021573912 A JP 2021573912A JP 7471326 B2 JP7471326 B2 JP 7471326B2
Authority
JP
Japan
Prior art keywords
signal
matrix
covariance
channels
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021573912A
Other languages
English (en)
Other versions
JP2022537026A (ja
Inventor
アレクサンドル・ブテオン
ギヨーム・フックス
マルクス・ムルトゥルス
ファビアン・キュッヒ
オリヴァー・ティールガルト
シュテファン・バイヤー
ザシャ・ディッシュ
ユルゲン・ヘレ
Original Assignee
フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ. filed Critical フラウンホファー ゲセルシャフト ツール フェールデルンク ダー アンゲヴァンテン フォルシュンク エー.ファオ.
Publication of JP2022537026A publication Critical patent/JP2022537026A/ja
Priority to JP2023215842A priority Critical patent/JP2024029071A/ja
Application granted granted Critical
Publication of JP7471326B2 publication Critical patent/JP7471326B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Description

1. 序論
ここでは符号化および復号の技法のいくつかの例が開示される。詳細には、たとえばDirACフレームワークを使用して、マルチチャンネルオーディオコンテンツを低ビットレートで符号化および復号するための発明である。この方法によって、低ビットレートを使用しながら高品質の出力を得ることが可能になる。これは、芸術作品、通信、および仮想現実を含む多くのアプリケーションに使用され得る。
1.1. 先行技術
本セクションでは、先行技術について簡単に説明する。
1.1.1 マルチチャンネルコンテンツの離散コーディング(discrete coding)
マルチチャンネルコンテンツをコーディングおよび送信するための最も簡単な手法は、事前の処理も仮定もなしに、マルチチャンネルオーディオ信号の波形を直接定量化および符号化することである。この方法は理論的には完全に機能するが、マルチチャンネルコンテンツを符号化するためにビット消費量を必要とするという大きな欠点が1つある。したがって、説明する他の方法(および提案する発明)は、元のオーディオマルチチャンネル信号自体の代わりに、メタパラメータを使用してマルチチャンネルオーディオ信号を記述および送信するので、いわゆる「パラメトリック手法」である。
1.1.2 MPEGサラウンド
MPEGサラウンドは、2006年に最終決定された、マルチチャンネルサウンドのパラメトリックコーディングのためのISO/MPEG規格である[1]。この方法は、主に2つのパラメータセットに依存する。
- 所与のマルチチャンネルオーディオ信号のあらゆるチャンネル間のコヒーレンスを表す、チャンネル間コヒーレンス(ICC: Interchannel coherence)。
- マルチチャンネルオーディオ信号の2つの入力チャンネル間のレベル差に対応する、チャンネルレベル差(CLD: Channel Level Difference)。
MPEGサラウンドの特殊性の1つは、いわゆる「ツリー構造」の使用であり、この構造により「単一の出力チャンネルを用いて2つの入力チャンネルを記述する」([1]からの引用)ことが可能になる。一例として、以下では、MPEGサラウンドを使用した5.1マルチチャンネルオーディオ信号の符号化器方式を見出すことができる。この図では、6つの入力チャンネル(図では「L」、「LS」、「R」、「RS」、「C」、および「LFE」と表記)が、ツリー構造要素(図では「R_OTT」と表記)を介して連続して処理される。これらのツリー構造要素はそれぞれ、パラメータのセット(前述のICCおよびCLD)および残差信号を作成し、これらのパラメータのセットおよび残差信号は、別のツリー構造を介して再度処理され、別のパラメータのセットを生成することになる。ツリーの終端に達すると、ダウンミックスされた信号と同様に、これまでに計算された様々なパラメータが復号器に送信される。これらの要素は、出力マルチチャンネル信号を生成するために復号器によって使用され、復号器処理は、基本的に、符号化器によって使用されるツリー構造とは逆のツリー構造である。
MPEGサラウンドの主な強みは、この構造の使用および前述のパラメータの使用に依存している。しかし、MPEGサラウンドの欠点の1つは、ツリー構造に起因するその柔軟性の欠如である。また、処理の特異性に起因して、いくつかの特定のアイテムにおいて品質の低下が生じる場合がある。
特に、[1]から抜粋した5.1信号用のMPEGサラウンド符号化器の概要を示す図7を参照されたい。
1.2. 方向性オーディオコーディング
方向性オーディオコーディング(略して「DirAC: Directional Audio Coding」)[2]もまた、空間オーディオを再現するためのパラメトリック手法であり、フィンランドにあるアールト大学のVille Pulkkiによって開発された。DirACは、2つのパラメータセットを使用して空間サウンドを記述する周波数帯域処理に依存する。
- オーディオ信号における主要なサウンドの到来方向を表す度単位の角度である、到来方向(DOA: Direction Of Arrival)。
- サウンドがどの程度「拡散」するかを表す0と1との間の値である、拡散性。値が0である場合、サウンドは、拡散性がなく、正確な角度から到来する点状の音源として取り込まれ得、値が1である場合、サウンドは、十分に拡散性があり、「あらゆる」角度から到来すると仮定される。
DirACでは、出力信号を合成するために、サウンドが拡散部分と非拡散部分に分解されると仮定する。拡散サウンド合成は、周囲のサウンドの知覚を作成することを目的とし、直接サウンド合成は、主要なサウンドを生成することを目的とする。
DirACは高品質の出力を提供するが、大きな欠点が1つある。それは、マルチチャンネルオーディオ信号を対象としていないことであった。したがって、DOAおよび拡散パラメータは、マルチチャンネルオーディオ入力を記述するにはあまり適しておらず、結果として、出力の品質が影響を受ける。
1.3. バイノーラルキューコーディング
バイノーラルキューコーディング(BCC: Binaural Cue Coding)[3]は、Christof Fallerによって開発されたパラメトリック手法である。この方法は、MPEGサラウンド(1.1.2参照)について説明されているものと同様のパラメータセットに依存する。
- マルチチャンネル入力信号の2つのチャンネル間のエネルギー比の尺度である、チャンネル間レベル差(ICLD: Interchannel Level Difference)。
- マルチチャンネル入力信号の2つのチャンネル間の遅延の尺度である、チャンネル間時間差(ICTD: interchannel time difference)。
- マルチチャンネル入力信号の2つのチャンネル間の相関の尺度である、チャンネル間相関(ICC: interchannel correlation)。
BCC手法は、後で説明する新規な発明と比較すると、送信するパラメータの計算に関して非常に類似した特性を有するが、送信されるパラメータの柔軟性およびスケーラビリティが十分ではない。
1.4. MPEG空間オーディオオブジェクトコーディング
ここでは、空間オーディオオブジェクトコーディング[4]について簡単に説明する。空間オーディオオブジェクトコーディングは、マルチチャンネル信号にある程度関連する、いわゆるオーディオオブジェクトをコーディングするためのMPEG規格である。空間オーディオオブジェクト符号化は、MPEGサラウンドと同様のパラメータを使用する。
1.5 動機付け/先行技術の欠点
1.5.1 動機付け
1.5.1.1 DirACフレームワークを使用する
言及しなければならない本発明の一態様は、本発明がDirACフレームワークの中に適合しなければならないということである。それでもなお、DirACのパラメータはマルチチャンネルオーディオ信号には適していないことも前述した。このトピックに関して、さらに説明する。
元のDirAC処理は、マイクロフォン信号またはアンビソニックス信号のいずれかを使用する。これらの信号から、パラメータ、すなわち到来方向(DOA)および拡散性が計算される。
マルチチャンネルオーディオ信号によってDirACを使用するために試行した最初の手法の1つは、[5]に記載のVille Pulkkiによって提案された方法を使用してマルチチャンネル信号をアンビソニックスコンテンツに変換することであった。次いで、これらのアンビソニック信号がマルチチャンネルオーディオ信号から導出されると、DOAおよび拡散性を使用して通常のDirAC処理を実行した。この最初の試行の結果は、出力マルチチャンネル信号の品質および空間特徴が低下し、対象アプリケーションの要件を満たしていなかった。
したがって、この新規な発明の背後にある主な動機付けは、マルチチャンネル信号を効率的に記述するパラメータセットを使用するとともに、DirACフレームワークを使用することである。詳細についてはセクション1.1.2において説明する。
1.5.1.2 低ビットレートで動作するシステムを提供する
本発明の目標および目的の1つは、低ビットレートのアプリケーションを可能にする手法を提案することである。この手法は、符号化器と復号器との間のマルチチャンネルコンテンツを記述するための最適なデータセットを見出すことを必要とする。この手法は、送信されるパラメータの数および出力品質の観点から最適なトレードオフを見出すことも必要とする。
1.5.1.3 柔軟性のあるシステムを提供する
本発明の別の重要な目標は、任意のラウドスピーカ設定で再現されることを意図した任意のマルチチャンネルオーディオフォーマットを許容できる柔軟性のあるシステムを提案することである。出力品質は、入力設定に応じて損なわれるべきではない。
1.5.2 先行技術の欠点
いくつかの欠点として前述した先行技術を、以下のTable(表1)に列挙する。
Figure 0007471326000001
[1] J. Herre、K. Kjorling、J. Breebart、C. Faller、S. Disch、H. Purnhagen、J. Koppens、J. Hilpert、J. Roden、W. Oomen、K. LinzmeierおよびK. S. Chong、「MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding」、Audio English Society、vol. 56、no. 11、932~955頁、2008 [2] V. Pulkki、「Spatial Sound Reproduction with Directional Audio Coding」、Audio English Society、vol. 55、no. 6、503~516頁、2007 [3] C. FallerおよびF. Baumgarte、「Binaural Cue Coding - Part II: Schemes and Applications」、IEEE Transactions on Speech and Audio Processing、vol. 11、no. 6、520~531頁、2003 [4] O. Hellmuth、H. Purnhagen、J. Koppens、J. Herre、J. Engdegard、J. Hilpert、L. Villemoes、L. Terentiv、C. Falch、A. Holzer、M. L. Valero、B. Resch、H. MundtおよびH.-O. Oh、「MPEG Spatial Audio Object Coding - The ISO/MPEG Standard for Efficient Coding of Interactive Audio Scenes」in AES、San Fransisco、2010 [5] L. Mikko-VilleおよびV. Pulkki、「Converting 5.1. Audio Recordings to B-Format for Directional Audio Coding Reproduction」in ICASSP、Prague、2011 [6] D. A. Huffman、「A Method for the Construction of Minimum-Redundancy Codes」、Proceedings of the IRE、vol. 40、no. 9、1098~1101頁、1952 [7] A. Karapetyan、F. FleischmannおよびJ. Plogsties、「Active Multichannel Audio Downmix」、in 145th Audio Engineering Society、New York、2018 [8] J. Vilkamo、T. BackstromおよびA. Kuntz、「Optimized Covariance Domain Framework for Time-Frequency Processing of Spatial Audio」、Journal of the Audio Engineering Society、vol. 61、no. 6、403~411頁、2013 ISO/IEC 23091-3、「Information technology - Coding independent code-points - Part 3: Audio」
2. 発明の説明
2.1 発明の要約
一態様によれば、ダウンミックス信号から合成信号を生成するためのオーディオ合成器(符号化器)であって、合成信号がいくつかの合成チャンネルを有し、オーディオ合成器が、
ダウンミックス信号を受信するように構成された入力インターフェースであって、ダウンミックス信号がいくつかのダウンミックスチャンネルおよびサイド情報を有し、サイド情報が原信号のチャンネルレベルおよび相関情報を含み、原信号がいくつかの原チャンネルを有する、入力インターフェースと、
原信号のチャンネルレベルおよび相関情報、ならびに
ダウンミックス信号に関連する共分散情報
を使用して、少なくとも1つの混合規則に従って、合成信号を生成するように構成された合成プロセッサと
を備える、オーディオ合成器が提供される。
オーディオ合成器は、
ダウンミックス信号からプロトタイプ信号を算出するように構成されたプロトタイプ信号算出器であって、プロトタイプ信号がいくつかの合成チャンネルを有する、プロトタイプ信号算出器と、
原信号のチャンネルレベルおよび相関情報、ならびに
ダウンミックス信号に関連する共分散情報
を使用して、少なくとも1つの混合規則を算出するように構成された、混合規則算出器(402)とを備え得、
合成プロセッサは、プロトタイプ信号および少なくとも1つの混合規則を使用して合成信号を生成するように構成される。
オーディオ合成器は、原信号のターゲット共分散情報を再構築するように構成され得る。
オーディオ合成器は、合成信号のチャンネルの数に適応したターゲット共分散情報を再構築するように構成され得る。
オーディオ合成器は、原チャンネルのグループを単一の合成チャンネルに割り当てることによって、またはその逆によって、合成信号のチャンネルの数に適応した共分散情報(Cy)を再構築し、その結果、再構築されたターゲット共分散情報が合成信号のいくつかのチャンネルに報告されるように構成され得る。
オーディオ合成器は、いくつかの原チャンネルに関するターゲット共分散情報を生成し、続いてダウンミキシング規則またはアップミキシング規則およびエネルギー補償を適用して合成チャンネルのターゲット共分散に到達することによって、合成信号のチャンネルの数に適応した共分散情報を再構築するように構成され得る。
オーディオ合成器は、元の共分散情報の推定バージョンに基づいて共分散情報のターゲットバージョンを再構築するように構成され得、元の共分散情報の推定バージョンは、いくつかの合成チャンネルまたはいくつかの原チャンネルに報告される。
オーディオ合成器は、ダウンミックス信号に関連する共分散情報から元の共分散情報の推定バージョンを取得するように構成され得る。
オーディオ合成器は、ダウンミックス信号に関連する共分散情報に、プロトタイプ信号を算出するためのプロトタイプ規則に関連する推定規則を適用することによって、元の共分散情報の推定バージョンを取得するように構成され得る。
オーディオ合成器は、少なくとも1対のチャンネルについて、元の共分散情報(Cy)の推定バージョン
Figure 0007471326000002
を、対のチャンネルのうちのチャンネルのレベルの平方根に正規化するように構成され得る。
オーディオ合成器は、元の共分散情報の正規化された推定バージョンを有する行列を解釈するように構成され得る。
オーディオ合成器は、ビットストリームのサイド情報において取得されたエントリを挿入することによって行列を完成させるように構成され得る。
オーディオ合成器は、対のチャンネルを形成するチャンネルのレベルの平方根によって元の共分散情報の推定バージョンをスケーリングすることによって、行列を非正規化するように構成され得る。
オーディオ合成器は、ダウンミックス信号のサイド情報の中から検索するように構成され得、オーディオ合成器は、
少なくとも1つの第1のチャンネルまたは対のチャンネルの共分散情報と、
少なくとも1つの第2のチャンネルまたは対のチャンネルのチャンネルレベルおよび相関情報と
の両方から、元のチャンネルレベルと相関情報との両方の推定バージョンによって、共分散情報のターゲットバージョンを再構築するようにさらに構成される。
オーディオ合成器は、同じチャンネルまたは対のチャンネルのダウンミックス信号から再構築された共分散情報よりも、ビットストリームのサイド情報から取得されたチャンネルまたは対のチャンネルを記述するチャンネルレベルおよび相関情報を優先するように構成され得る。
元の共分散情報の再構築されたターゲットバージョンは、1対のチャンネル間のエネルギー関係を記述するものとして理解され得、対のチャンネルの各チャンネルに関連するレベルに少なくとも部分的に基づく。
オーディオ合成器は、ダウンミックス信号の周波数領域FDバージョンを取得するように構成され得、ダウンミックス信号のFDバージョンは帯域または帯域のグループに分割され、異なるチャンネルレベルおよび相関情報は異なる帯域または帯域のグループに関連付けられ、
オーディオ合成器は、異なる帯域または帯域のグループに対して異なる方法で動作して、異なる帯域または帯域のグループに対して異なる混合規則を取得するように構成される。
ダウンミックス信号はスロットに分割され、異なるチャンネルレベルおよび相関情報は異なるスロットに関連付けられ、オーディオ合成器は、異なるスロットに対して異なる方法で動作して、異なるスロットに対して異なる混合規則を取得するように構成される。
ダウンミックス信号はフレームに分割され、各フレームはスロットに分割され、オーディオ合成器は、1つのフレーム内の過渡現象(transient)の存在および位置が、1つの過渡現象スロットにあるものとしてシグナリングされると、
現在のチャンネルレベルおよび相関情報を、過渡現象スロットおよび/またはフレームの過渡現象スロットに続くスロットに関連付け、
先行スロットのチャンネルレベルおよび相関情報を、過渡現象スロットに先行するフレームのスロットに関連付けるように構成される。
オーディオ合成器は、合成チャンネルの数に基づいてプロトタイプ信号を算出するように構成されたプロトタイプ規則を選択するように構成され得る。
オーディオ合成器は、複数の事前に記憶されたプロトタイプ規則の中からプロトタイプ規則を選択するように構成され得る。
オーディオ合成器は、手動選択に基づいてプロトタイプ規則を定義するように構成され得る。
プロトタイプ規則は、第1の次元および第2の次元を有する行列に基づき得るか、または含み得、第1の次元はダウンミックスチャンネルの数に関連付けられ、第2の次元は合成チャンネルの数に関連付けられる。
オーディオ合成器は、160kbit/s以下のビットレートで動作するように構成され得る。
オーディオ合成器は、サイド情報を有するダウンミックス信号を取得するためのエントロピ復号器をさらに備え得る。
オーディオ合成器は、異なるチャンネル間の相関の量を低減するための非相関化モジュールをさらに備える。
プロトタイプ信号は、非相関化を実行せずに合成プロセッサに直接提供され得る。
原信号のチャンネルレベルおよび相関情報、少なくとも1つの混合規則、ならびにダウンミックス信号に関連する共分散情報のうちの少なくとも1つは、行列の形式である。
サイド情報は、原チャンネルの識別情報を含み、
オーディオ合成器は、原信号のチャンネルレベルおよび相関情報、ダウンミックス信号に関連する共分散情報、原チャンネルの識別情報、ならびに合成チャンネルの識別情報のうちの少なくとも1つを使用して、少なくとも1つの混合規則を算出するようにさらに構成され得る。
オーディオ合成器は、特異値分解SVDによって少なくとも1つの混合規則を算出するように構成され得る。
ダウンミックス信号はフレームに分割され得、オーディオ合成器は、先行フレームに対して取得された、パラメータ、または推定もしくは再構築された値、または混合行列との線形結合を使用して、受信されたパラメータ、または推定もしくは再構築された値、または混合行列を平滑化するように構成される。
オーディオ合成器は、1つのフレームにおける過渡現象の存在および/または位置がシグナリングされると、受信されたパラメータ、または推定もしくは再構築された値、または混合行列の平滑化を無効にするように構成され得る。
ダウンミックス信号はフレームに分割され得、フレームはスロットに分割され、原信号のチャンネルレベルおよび相関情報は、ビットストリームのサイド情報からフレーム単位の様式で取得され、オーディオ合成器は、現在のフレームに対して算出された混合行列(または、混合規則)を、現在のフレームの後続スロットに沿って増加する係数によってスケーリングすること、および先行フレームに対して使用される混合行列(または、混合規則)を、現在のフレームの後続スロットに沿って減少する係数によってスケーリングされたバージョンで追加することによって取得された混合規則を、現在のフレームに対して使用するように構成される。
合成チャンネルの数は、原チャンネルの数よりも多い場合がある。合成チャンネルの数は、原チャンネルの数よりも少ない場合がある。合成チャンネルの数および原チャンネルの数は、ダウンミックスチャンネルの数よりも多い場合がある。
合成チャンネルの数、原チャンネルの数、およびダウンミックスチャンネルの数のうちの少なくとも1つまたはすべてが複数である。
少なくとも1つの混合規則は、第1の混合行列および第2の混合行列を含み得、オーディオ合成器は、
チャンネルレベルおよび相関情報から再構築される、合成信号に関連する共分散行列、および
ダウンミックス信号に関連する共分散行列
から算出された第1の混合行列に従って合成信号の第1の成分を合成するように構成された第1の混合行列ブロック
を含む、第1の経路と、
合成信号の第2の成分を合成するための第2の経路であって、第2の成分が残差成分であり、第2の経路が、
ダウンミックス信号をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするように構成されたプロトタイプ信号ブロック、
アップミックスされたプロトタイプ信号を非相関化するように構成された非相関化器、
ダウンミックス信号の非相関バージョンから第2の混合行列に従って、合成信号の第2の成分を合成するように構成された第2の混合行列ブロックであって、第2の混合行列が残差混合行列である、第2の混合行列ブロック
を含む、第2の経路と
を備え、オーディオ合成器は、
第1の混合行列ブロックによって提供される残差共分散行列、および
ダウンミックス信号に関連する共分散行列から取得された非相関プロトタイプ信号の共分散行列の推定値
から第2の混合行列を推定するように構成され、
オーディオ合成器は、合成信号の第1の成分を合成信号の第2の成分と合計するための加算器ブロックをさらに備える。
一態様によれば、いくつかのダウンミックスチャンネルを有するダウンミックス信号から合成信号を生成するためのオーディオ合成器であって、合成信号がいくつかの合成チャンネルを有し、ダウンミックス信号が、いくつかの原チャンネルを有する原信号のダウンミックスされたバージョンであり、オーディオ合成器が、
チャンネルレベルおよび相関情報から再構築される、合成信号に関連する共分散行列、および
ダウンミックス信号に関連する共分散行列
から算出された第1の混合行列に従って合成信号の第1の成分を合成するように構成された第1の混合行列ブロック
を含む、第1の経路と、
合成信号の第2の成分を合成するための第2の経路であって、第2の成分が残差成分であり、第2の経路が、
ダウンミックス信号をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするように構成されたプロトタイプ信号ブロック、
アップミックスされたプロトタイプ信号を非相関化するように構成された非相関化器、
ダウンミックス信号の非相関バージョンから第2の混合行列に従って、合成信号の第2の成分を合成するように構成された第2の混合行列ブロックであって、第2の混合行列が残差混合行列である、第2の混合行列ブロック
を含む、第2の経路と
を備え、オーディオ合成器が、
第1の混合行列ブロックによって提供される残差共分散行列、および
ダウンミックス信号に関連する共分散行列から取得された非相関プロトタイプ信号の共分散行列の推定値
から第2の混合行列を算出するように構成され、
オーディオ合成器が、合成信号の第1の成分を合成信号の第2の成分と合計するための加算器ブロックをさらに備える、オーディオ合成器が提供され得る。
残差共分散行列は、合成信号に関連する共分散行列から、ダウンミックス信号に関連する共分散行列に第1の混合行列を適用することによって取得された行列を差し引くことによって取得される。
オーディオ合成器は、
合成信号に関連する残差共分散行列を分解することによって取得される第2の行列、
非相関プロトタイプ信号の共分散行列の推定値から取得される対角行列の逆行列または正則化された逆行列である第1の行列
から、第2の混合行列を定義するように構成され得る。
対角行列は、非相関プロトタイプ信号の共分散行列の主対角要素に平方根関数を適用することによって取得され得る。
第2の行列は、合成信号に関連する残差共分散行列に適用される特異値分解SVDによって取得され得る。
オーディオ合成器は、非相関プロトタイプ信号の共分散行列の推定値から取得された対角行列の逆行列または正則化された逆行列と、第3の行列とを、第2の行列に乗算することによって、第2の混合行列を定義するように構成され得る。
オーディオ合成器は、非相関プロトタイプ信号の共分散行列の正規化バージョンから取得された行列に適用されるSVPによって第3の行列を取得するように構成され得、正規化は、主対角線、残差共分散行列、ならびに対角行列および第2の行列に対して行われる。
オーディオ合成器は、第2の行列、および第2の行列の逆行列または正則化された逆行列から、第1の混合行列を定義するように構成され得、
第2の行列は、ダウンミックス信号に関連する共分散行列を分解することによって取得され、
第2の行列は、ダウンミックス信号に関連する再構築されたターゲット共分散行列を分解することによって取得される。
オーディオ合成器は、ダウンミックス信号に関連する共分散行列に、プロトタイプブロックにおいてダウンミックス信号をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするために使用されるプロトタイプ規則を適用することから取得された行列の対角エントリから、非相関プロトタイプ信号の共分散行列を推定するように構成され得る。
帯域は互いに集約されて集約帯域のグループになり、集約帯域のグループに関する情報はビットストリームのサイド情報において提供され、帯域の同じ集約グループの異なる帯域に対して同じ少なくとも1つの混合行列を算出するように、原信号のチャンネルレベルおよび相関情報は、帯域のグループごとに提供される。
一態様によれば、原信号からダウンミックス信号を生成するためのオーディオ符号化器であって、原信号が複数の原チャンネルを有し、ダウンミックス信号がいくつかのダウンミックスチャンネルを有し、オーディオ符号化器が、
原信号のチャンネルレベルおよび相関情報を推定するように構成されたパラメータ推定器と、
ダウンミックス信号が、原信号のチャンネルレベルおよび相関情報を含むサイド情報を有するようにビットストリーム内に符号化されるように、ダウンミックス信号をビットストリーム内に符号化するためのビットストリームライタと
を備える、オーディオ符号化器が提供され得る。
オーディオ符号化器は、原信号のチャンネルレベルおよび相関情報を正規化された値として提供するように構成され得る。
サイド情報内に符号化された原信号のチャンネルレベルおよび相関情報は、少なくとも、原チャンネルの全体に関連するチャンネルレベル情報を表す。
サイド情報内に符号化された原信号のチャンネルレベルおよび相関情報は、少なくとも、少なくとも1対の異なる原チャンネル間であるが原チャンネルのすべてより少ないチャンネル間のエネルギー関係を記述する相関情報を表す。
原信号のチャンネルレベルおよび相関情報には、1対の原チャンネルの2つのチャンネル間のコヒーレンスを記述する少なくとも1つのコヒーレンス値を含む。
コヒーレンス値は、正規化され得る。コヒーレンス値は、
Figure 0007471326000003
であり得、式中、
Figure 0007471326000004
は、チャンネルiとチャンネルjとの間の共分散であり、
Figure 0007471326000005
および
Figure 0007471326000006
はそれぞれチャンネルiおよびチャンネルjに関連するレベルである。
原信号のチャンネルレベルおよび相関情報は、少なくとも1つのチャンネル間レベル差ICLDを含む。
少なくとも1つのICLDは、対数値として提供され得る。少なくとも1つのICLDは正規化され得る。ICLDは、
であり得、式中、
- χiは、チャンネルiのICLDであり、
- Piは、現在のチャンネルiのパワーであり、
- Pdmx,iは、ダウンミックス信号の共分散情報の値の線形結合である。
オーディオ符号化器は、ペイロードが比較的低い場合、チャンネルレベルおよび相関情報の増加量をサイド情報に含めるように、ステータス情報に基づいて、原信号のチャンネルレベルおよび相関情報の少なくとも一部を符号化するか否かを選択するように構成され得る。
オーディオ符号化器は、より影響を受けやすいメトリクスに関連するチャンネルレベルおよび相関情報をサイド情報に含めるように、チャンネル上のメトリクスに基づいて、原信号のチャンネルレベルおよび相関情報のどの部分をサイド情報内に符号化するかを選択するように構成され得る。
原信号のチャンネルレベルおよび相関情報は、行列のエントリの形式であり得る。
行列は対称行列またはエルミート行列であり得、行列の対角線におけるエントリの全体のすべてもしくは全体未満、および/または行列の非対角要素の半分未満に対して、チャンネルレベルおよび相関情報のエントリが提供される。
ビットストリームライタは、少なくとも1つのチャンネルの識別を符号化するように構成され得る。
原信号またはその処理されたバージョンは、同等の時間長の複数の後続のフレームに分割され得る。
オーディオ符号化器は、各フレームに固有の原信号のチャンネルレベルおよび相関情報をサイド情報内に符号化するように構成され得る。
オーディオ符号化器は、複数の連続するフレームに集合的に関連付けられた原信号の同じチャンネルレベルおよび相関情報をサイド情報内に符号化するように構成され得る。
オーディオ符号化器は、ビットレートまたはペイロードが比較的高いことが、原信号の同じチャンネルレベルおよび相関情報が関連付けられる連続するフレームの数の増加を意味し、また逆も同様であるように、
原信号の同じチャンネルレベルおよび相関情報が選択され得る連続するフレームの数を選択するように構成され得る。
オーディオ符号化器は、過渡現象の検出時に、原信号の同じチャンネルレベルおよび相関情報が関連付けられる連続するフレームの数を低減するように構成され得る。
各フレームは、整数個の連続するスロットに細分され得る。
オーディオ符号化器は、各スロットのチャンネルレベルおよび相関情報を推定し、異なるスロットについて推定されたチャンネルレベルおよび相関情報の合計または平均または別の既定の線形結合をサイド情報内に符号化するように構成され得る。
オーディオ符号化器は、フレームの時間領域バージョンに対して過渡現象解析を実行して、フレーム内の過渡現象の発生を判断するように構成され得る。
オーディオ符号化器は、フレームのどのスロットで過渡現象が発生したかを判断し、
過渡現象に先行するスロットに関連付けられた原信号のチャンネルレベルおよび相関情報を符号化せずに、
過渡現象が発生したスロットおよび/またはフレーム内の後続スロットに関連付けられた原信号のチャンネルレベルおよび相関情報を符号化するように構成され得る。
オーディオ符号化器は、フレームの1つのスロット内での過渡現象の発生をサイド情報においてシグナリングするように構成され得る。
オーディオ符号化器は、フレームのどのスロットで過渡現象が発生したかをサイド情報においてシグナリングするように構成され得る。
オーディオ符号化器は、フレームの複数のスロットに関連する原信号のチャンネルレベルおよび相関情報を推定し、それらを合計するか、または平均するか、または線形結合して、フレームに関連するチャンネルレベルおよび相関情報を取得するように構成され得る。
原信号は、周波数領域信号に変換され得、オーディオ符号化器は、原信号のチャンネルレベルおよび相関情報を、帯域単位の様式でサイド情報内に符号化するように構成される。
オーディオ符号化器は、原信号のチャンネルレベルおよび相関情報を、集約帯域単位の様式でサイド情報内に符号化するように、原信号のいくつかの帯域をより少ない数の帯域に集約するように構成され得る。
オーディオ符号化器は、フレーム内で過渡現象が検出された場合に、
帯域の数が低減するように、かつ/または
少なくとも1つの帯域の幅が別の帯域との集約によって増加するように、
帯域をさらに集約するように構成され得る。
オーディオ符号化器は、1つの帯域の少なくとも1つのチャンネルレベルおよび相関情報を、以前に符号化されたチャンネルレベルおよび相関情報に対する増分としてビットストリーム内に符号化するようにさらに構成され得る。
オーディオ符号化器は、推定器によって推定されたチャンネルレベルおよび相関情報と比べて不完全なバージョンのチャンネルレベルおよび相関情報を、ビットストリームのサイド情報内に符号化するように構成され得る。
オーディオ符号化器は、推定器によって推定されたチャンネルレベルおよび相関情報全体の中から、ビットストリームのサイド情報内に符号化される選択された情報を適応的に選択するように構成され得、その結果、推定器によって推定された残りの選択されていない情報チャンネルレベルおよび/または相関情報は符号化されない。
オーディオ符号化器は、選択されたチャンネルレベルおよび相関情報からチャンネルレベルおよび相関情報を再構築し、それによって、選択されていないチャンネルレベルおよび相関情報の推定値を復号器においてシミュレートし、
符号化器によって推定された、選択されていないチャンネルレベルおよび相関情報と、
復号器において、符号化されていないチャンネルレベルおよび相関情報の推定値をシミュレートすることによって再構築された、選択されていないチャンネルレベルおよび相関情報と
の間の誤差情報を算出し、その結果、
算出された誤差情報に基づいて、
適切に再構築可能なチャンネルレベルおよび相関情報と、
適切に再構築不可能なチャンネルレベルおよび相関情報と
を区別し、その結果、
ビットストリームのサイド情報内に符号化される、適切に再構築不可能なチャンネルレベルおよび相関情報の選択、ならびに
適切に再構築可能なチャンネルレベルおよび相関情報の非選択
について決定し、それによって、適切に再構築可能なチャンネルレベルおよび相関情報をビットストリームのサイド情報内に符号化しないように構成され得る。
チャンネルレベルおよび相関情報は、既定の順序に従ってインデックス付けされ得、符号化器は、既定の順序に関連付けられたインデックスを、ビットストリームのサイド情報においてシグナリングするように構成され、インデックスは、チャンネルレベルおよび相関情報のどれが符号化されているかを示す。インデックスは、ビットマップを介して提供される。インデックスは、1次元インデックスを行列のエントリに関連付ける組合せ番号システムに従って定義され得る。
オーディオ符号化器は、
既定の順序に関連付けられたインデックスがビットストリームのサイド情報内に符号化される、チャンネルレベルおよび相関情報の適応的提供と、
符号化されるチャンネルレベルおよび相関情報が事前に決定され、インデックスの提供なしで既定の固定順序に従って順序付けられるような、チャンネルレベルおよび相関情報の固定的提供と
の間の選択を実行するように構成され得る。
オーディオ符号化器は、チャンネルレベルおよび相関情報が適応的提供に従って提供されるか、固定的提供に従って提供されるかを、ビットストリームのサイド情報においてシグナリングするように構成され得る。
オーディオ符号化器は、現在のチャンネルレベルおよび相関情報を、前のチャンネルレベルおよび相関情報に対する増分としてビットストリーム内に符号化するようにさらに構成され得る。
オーディオ符号化器は、静的ダウンミキシングに従ってダウンミックス信号を生成するようにさらに構成され得る。
一態様によれば、ダウンミックス信号から合成信号を生成するための方法であって、合成信号がいくつかの合成チャンネルを有し、方法が、
ダウンミックス信号を受信するステップであって、ダウンミックス信号がいくつかのダウンミックスチャンネル、およびサイド情報を有し、サイド情報が、
原信号のチャンネルレベルおよび相関情報
を含み、原信号がいくつかの原チャンネルを有する、ステップと、
原信号のチャンネルレベルおよび相関情報(220)、ならびに信号に関連する共分散情報を使用して、合成信号を生成するステップと
を含む、方法が提供される。
方法は、
ダウンミックス信号からプロトタイプ信号を算出するステップであって、プロトタイプ信号がいくつかの合成チャンネルを有する、ステップと
原信号のチャンネルレベルおよび相関情報、およびダウンミックス信号に関連する共分散情報を使用して、混合規則を算出するステップと、
プロトタイプ信号および混合規則を使用して合成信号を生成するステップと
を含み得る。
一態様によれば、原信号からダウンミックス信号を生成するための方法であって、原信号がいくつかの原チャンネルを有し、ダウンミックス信号がいくつかのダウンミックスチャンネルを有し、方法が、
原信号のチャンネルレベルおよび相関情報を推定するステップと、
ダウンミックス信号が、原信号のチャンネルレベルおよび相関情報を含むサイド情報を有するようにビットストリーム内に符号化されるように、ダウンミックス信号をビットストリーム内に符号化するステップと
を含む、方法が提供される。
一態様によれば、いくつかのダウンミックスチャンネルを有するダウンミックス信号から合成信号を生成するための方法であって、合成信号がいくつかの合成チャンネルを有し、ダウンミックス信号が、いくつかの原チャンネルを有する原信号のダウンミックスされたバージョンであり、方法が、以下のフェーズ、すなわち、
合成信号に関連する共分散行列、および
ダウンミックス信号に関連する共分散行列
から算出された第1の混合行列に従って合成信号の第1の成分を合成すること
を含む、第1のフェーズと、
合成信号の第2の成分を合成するための第2のフェーズであって、第2の成分が残差成分であり、第2のフェーズが、
ダウンミックス信号をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするプロトタイプ信号ステップ、
アップミックスされたプロトタイプ信号を非相関化する非相関化器ステップ、
ダウンミックス信号の非相関バージョンから、第2の混合行列に従って、合成信号の第2の成分を合成する第2の混合行列ステップであって、第2の混合行列が残差混合行列である、第2の混合行列ステップ
を含む、第2のフェーズと
を含み、方法が、
第1の混合行列ステップによって提供される残差共分散行列、および
ダウンミックス信号に関連する共分散行列から取得された非相関プロトタイプ信号の共分散行列の推定値
から、第2の混合行列を算出し、
方法が、合成信号の第1の成分を合成信号の第2の成分と合計し、それによって合成信号を取得する加算器ステップをさらに含む、方法が提供される。
一態様によれば、ダウンミックス信号から合成信号を生成するためのオーディオ合成器であって、合成信号がいくつかの合成チャンネルを有し、合成チャンネルの数が、1より多いまたは2より多く、オーディオ合成器が、
ダウンミックス信号を受信するように構成された入力インターフェースであって、ダウンミックス信号が少なくとも1つのダウンミックスチャンネルおよびサイド情報を有し、サイド情報が、
原信号のチャンネルレベルおよび相関情報であって、原信号がいくつかの原チャンネルを有し、原チャンネルの数が1より多いまたは2より多い、チャンネルレベルおよび相関情報
のうちの少なくとも1つを含む、入力インターフェースと、
ダウンミックス信号からプロトタイプ信号を算出するように構成された、プロトタイプ信号算出器[たとえば、「プロトタイプ信号計算」]などの部分であって、プロトタイプ信号がいくつかの合成チャンネルを有する、部分と、
原信号のチャンネルレベルおよび相関情報、ダウンミックス信号に関連する共分散情報を使用して、1つ(または複数)の混合規則[たとえば、混合行列]を算出するように構成された、混合規則算出器[たとえば、「パラメータ再構築」]などの部分と、
プロトタイプ信号および混合規則を使用して合成信号を生成するように構成された、合成プロセッサ[たとえば、「合成エンジン」]などの部分と
のうちの少なくとも1つを備える、オーディオ合成器が提供される。
合成チャンネルの数は、原チャンネルの数よりも多い場合がある。代替として、合成チャンネルの数は、原チャンネルの数よりも少ない場合がある。
オーディオ合成器(具体的には、いくつかの態様では、混合規則算出器)は、元のチャンネルレベルおよび相関情報のターゲットバージョンを再構築するように構成され得る。
オーディオ合成器(具体的には、いくつかの態様では、混合規則算出器)は、合成信号のチャンネルの数に適応した元のチャンネルレベルおよび相関情報のターゲットバージョンを再構築するように構成され得る。
オーディオ合成器(具体的には、いくつかの態様では、混合規則算出器)は、元のチャンネルレベルおよび相関情報の推定バージョンに基づいて、元のチャンネルレベルおよび相関情報のターゲットバージョンを再構築するように構成され得る。
オーディオ合成器(具体的には、いくつかの態様では、混合規則算出器)は、ダウンミックス信号に関連する共分散情報から、元のチャンネルレベルおよび相関情報の推定バージョンを取得するように構成され得る。
オーディオ合成器(具体的には、いくつかの態様では、混合規則算出器)は、プロトタイプ信号を算出するためにプロトタイプ信号算出器[たとえば、「プロトタイプ信号計算」]によって使用されるプロトタイプ規則に関連する推定規則を、ダウンミックス信号に関連する共分散情報に適用することによって、元のチャンネルレベルおよび相関情報の推定バージョンを取得するように構成され得る。
オーディオ合成器(具体的には、いくつかの態様では、混合規則算出器)は、ダウンミックス信号のサイド情報の中から、
ダウンミックス信号内の第1のチャンネルのレベル、または1対のチャンネル間のエネルギー関係を記述する、ダウンミックス信号に関連する共分散情報と、
原信号内の第1のチャンネルのレベル、または1対のチャンネル間のエネルギー関係を記述する、原信号のチャンネルレベルおよび相関情報と
の両方を検索し、結果として、
少なくとも1つの第1のチャンネルまたは対のチャンネルの原チャンネルの共分散情報、ならびに
少なくとも1つの第2のチャンネルまたは対のチャンネルを記述するチャンネルレベルおよび相関情報
のうちの少なくとも1つを使用することによって、元のチャンネルレベルおよび相関情報のターゲットバージョンを再構築するように構成され得る。
オーディオ合成器(具体的には、いくつかの態様では、混合規則算出器)は、同じチャンネルまたは対のチャンネルの原チャンネルの共分散情報よりも、チャンネルまたは対のチャンネルを記述するチャンネルレベルおよび相関情報を優先するように構成され得る。
対のチャンネル間のエネルギー関係を記述する元のチャンネルレベルおよび相関情報の再構築されたターゲットバージョンは、対のチャンネルの各チャンネルに関連するレベルに少なくとも部分的に基づく。
ダウンミックス信号は、帯域または帯域のグループに分割され得、異なるチャンネルレベルおよび相関情報は、異なる帯域または帯域のグループに関連付けられ得、合成器(プロトタイプ信号算出器、具体的には、いくつかの態様では、混合規則算出器および合成プロセッサのうちの少なくとも1つ)は、異なる帯域または帯域のグループに対して異なる方法で動作して、異なる帯域または帯域のグループに対して異なる混合規則を取得する。
ダウンミックス信号はスロットに分割され得、異なるチャンネルレベルおよび相関情報は異なるスロットに関連付けられ、合成器の構成要素のうちの少なくとも1つ(たとえば、プロトタイプ信号算出器、混合規則算出器、合成プロセッサ、または合成器の他の要素)は、異なるスロットに対して異なる方法で動作して、異なるスロットに対して異なる混合規則を取得する。
合成器(たとえば、プロトタイプ信号算出器)は、合成チャンネルの数に基づいてプロトタイプ信号を算出するように構成されたプロトタイプ規則を選択するように構成され得る。
合成器(たとえば、プロトタイプ信号算出器)は、複数の事前に記憶されたプロトタイプ規則の中からプロトタイプ規則を選択するように構成され得る。
合成器(たとえば、プロトタイプ信号算出器)は、手動選択に基づいてプロトタイプ規則を定義するように構成され得る。
合成器(たとえば、プロトタイプ信号算出器)は、第1の次元および第2の次元を有する行列を含み得、第1の次元は、ダウンミックスチャンネルの数に関連付けられ、第2の次元は、合成チャンネルの数に関連付けられる。
オーディオ合成器(たとえば、プロトタイプ信号算出器)は、64kbit/sまたは160Kbit/s以下のビットレートで動作するように構成され得る。
サイド情報は、原チャンネルの識別情報[たとえば、L、R、Cなど]を含み得る。
オーディオ合成器(具体的には、いくつかの態様では、混合規則算出器)は、原信号のチャンネルレベルおよび相関情報、ダウンミックス信号に関連する共分散情報、ならびに原チャンネルの識別、および合成チャンネルの識別を使用して、混合規則[たとえば、混合行列]を算出[「パラメータ再構築」]するように構成され得る。
オーディオ合成器は、[たとえば、手動選択などの選択によって、または事前選択によって、または、たとえば、ラウドスピーカの数を認識することによって自動的に]、合成信号について、サイド情報内の原信号のチャンネルレベルおよび相関情報のうちの少なくとも1つに関係なく、いくつかのチャンネルを選択し得る。
いくつかの例において、オーディオ合成器は、異なる選択に対して異なるプロトタイプ規則を選択し得る。混合規則算出器は、混合規則を算出するように構成され得る。
一態様によれば、ダウンミックス信号から合成信号を生成するための方法であって、合成信号がいくつかの合成チャンネルを有し、合成チャンネルの数が、1より多いまたは2より多く、方法が、
ダウンミックス信号を受信するステップであって、ダウンミックス信号が少なくとも1つのダウンミックスチャンネルおよびサイド情報を有し、サイド情報が、
原信号のチャンネルレベルおよび相関情報であって、原信号がいくつかの原チャンネルを有し、原チャンネルの数が1より多いまたは2より多い、チャンネルレベルおよび相関情報
を含む、ステップと、
ダウンミックス信号からプロトタイプ信号を算出するステップであって、プロトタイプ信号がいくつかの合成チャンネルを有する、ステップと
原信号のチャンネルレベルおよび相関情報、ダウンミックス信号に関連する共分散情報を使用して、混合規則を算出するステップと、
プロトタイプ信号および混合規則[たとえば、規則]を使用して合成信号を生成するステップと
を含む、方法が提供される。
一態様によれば、原信号[たとえば、y]からダウンミックス信号を生成するためのオーディオ符号化器であって、原信号が少なくとも2つのチャンネルを有し、ダウンミックス信号が少なくとも1つのダウンミックスチャンネルを有し、オーディオ符号化器が、
原信号のチャンネルレベルおよび相関情報を推定するように構成されたパラメータ推定器、および
ダウンミックス信号が、原信号のチャンネルレベルおよび相関情報を含むサイド情報を有するようにビットストリーム内に符号化されるように、ダウンミックス信号をビットストリーム内に符号化するためのビットストリームライタ
のうちの少なくとも1つを備える、オーディオ符号化器が提供される。
サイド情報内に符号化された原信号のチャンネルレベルおよび相関情報は、原信号のチャンネルのすべてより少ないチャンネルに関連するチャンネルレベル情報を表す。
サイド情報内に符号化された原信号のチャンネルレベルおよび相関情報は、原信号内の少なくとも1対の異なる原チャンネル間であるが原信号のチャンネルのすべてより少ないチャンネル間のエネルギー関係を記述する相関情報を表す。
原信号のチャンネルレベルおよび相関情報は、1対のチャンネルの2つのチャンネル間のコヒーレンスを記述する少なくとも1つのコヒーレンス値を含み得る。
原信号のチャンネルレベルおよび相関情報は、1対のチャンネルの2つのチャンネル間の少なくとも1つのチャンネル間レベル差ICLDを含み得る。
オーディオ符号化器は、オーバロードが比較的低い場合、チャンネルレベルおよび相関情報の増加量をサイド情報に含めるように、ステータス情報に基づいて、原信号のチャンネルレベルおよび相関情報の少なくとも一部を符号化するか否かを選択するように構成され得る。
オーディオ符号化器は、より影響を受けやすいメトリクス[たとえば、より知覚的に有意な共分散に関連するメトリクス]に関連するチャンネルレベルおよび相関情報をサイド情報に含めるように、チャンネル上のメトリクスに基づいて、原信号のチャンネルレベルおよび相関情報のどの部分をサイド情報内に符号化するかを決定するかどうかを選択するように構成され得る。
原信号のチャンネルレベルおよび相関情報は、行列の形式であり得る。
ビットストリームライタは、少なくとも1つのチャンネルの識別を符号化するように構成され得る。
一態様によれば、原信号からダウンミックス信号を生成するための方法が提供され、原信号は少なくとも2つのチャンネルを有し、ダウンミックス信号は少なくとも1つのダウンミックスチャンネルを有する。
方法は、
原信号のチャンネルレベルおよび相関情報を推定するステップと、
ダウンミックス信号が、原信号のチャンネルレベルおよび相関情報を含むサイド情報を有するようにビットストリーム内に符号化されるように、ダウンミックス信号をビットストリーム内に符号化するステップと
を含み得る。
オーディオ符号化器は、復号器に関知しない場合がある。オーディオ合成器は、復号器に関知しない場合がある。
一態様によれば、上記または下記のオーディオ合成器と、上記または下記のオーディオ符号化器とを含むシステムが提供される。
一態様によれば、プロセッサによって実行されるとプロセッサに上記または下記の方法を実行させる命令を記憶する非一過性の記憶ユニットが提供される。
3. 例
3.1 図
本発明による処理の簡略概要図である。 本発明によるオーディオ符号化器の図である。 本発明によるオーディオ符号化器の別の図である。 本発明によるオーディオ符号化器の別の図である。 本発明によるオーディオ符号化器の別の図である。 本発明によるオーディオ合成器(復号器)の図である。 本発明によるオーディオ合成器(復号器)の別の図である。 本発明によるオーディオ合成器(復号器)の別の図である。 共分散合成の例を示す図である。 共分散合成の例を示す図である。 共分散合成の例を示す図である。 共分散合成の例を示す図である。 本発明によるオーディオ符号化器のためのフィルタバンクの例を示す図である。 本発明によるオーディオ符号化器の動作の例を示す図である。 本発明によるオーディオ符号化器の動作の例を示す図である。 本発明によるオーディオ符号化器の動作の例を示す図である。 先行技術の例を示す図である。 本発明による共分散情報を取得する方法の例を示す図である。 本発明による共分散情報を取得する方法の例を示す図である。 本発明による共分散情報を取得する方法の例を示す図である。 チャンネル間コヒーレンス行列の例を示す図である。 チャンネル間コヒーレンス行列の例を示す図である。 チャンネル間コヒーレンス行列の例を示す図である。 チャンネル間コヒーレンス行列の例を示す図である。 フレームの例を示す図である。 フレームの例を示す図である。 混合行列を取得するために復号器によって使用される方式を示す図である。
3.2 発明に関する概念
例が、信号212をダウンミックスし、チャンネルレベルおよび相関情報220を復号器に提供する符号化器に基づいていることが分かる。復号器は、チャンネルレベルおよび相関情報220から混合規則(たとえば、混合行列)を生成し得る。混合規則の生成に重要な情報は、原信号212の共分散情報(たとえば、共分散行列Cy)およびダウンミックス信号の共分散情報(たとえば、共分散行列Cx)を含み得る。共分散行列Cxは、復号器によってダウンミックス信号を解析することによって直接推定され得、原信号212の共分散行列Cyは、復号器によって容易に推定される。原信号212の共分散行列Cyは、一般に、対称行列(たとえば、5チャンネルの原信号212の場合は5x5行列)であり、行列は、各チャンネルのレベルを対角線で提示し、チャンネル間の共分散を非対角エントリで提示する。一般的なチャンネルiとチャンネルjとの間の共分散は、jとiとの間の共分散と同じであるため、行列は対角である。したがって、復号器に共分散情報全体を提供するには、対角エントリで5つのレベル、および非対角エントリで10の共分散を復号器にシグナリングする必要がある。しかし、符号化される情報の量を低減することが可能であることが示される。
さらに、場合によっては、レベルおよび共分散の代わりに、正規化値が提供され得ることが示される。たとえば、チャンネル間コヒーレンス(ICC、またξi,jで示す)、およびエネルギーの値を示すチャンネル間レベル差(ICLD、またχiで示す)が提供され得る。ICCは、たとえば、行列Cyの非対角エントリの共分散の代わりに提供される相関値であり得る。相関情報の一例は、
Figure 0007471326000008
の形式であり得る。いくつかの例では、ξi,jの一部のみが実際に符号化される。
このようにして、ICC行列が生成される。ICC行列の対角エントリは、原則として1に等しくなり、したがって、対角エントリをビットストリーム内に符号化する必要はない。しかし、符号化器が、復号器にICLDを
Figure 0007471326000009
の形式で提供することが可能であることが理解されている(下記参照)。いくつかの例では、すべてのχiが実際に符号化される。
図9a~図9dは、ICLD χiであり得る対角値「d」と、902、904、905、906、907(以下参照)で示された、ICC ξi,jであり得る非対角値とを有するICC行列900の例を示す。
本書では、行列間の積は、記号がないことによって示される。たとえば、行列Aと行列Bとの間の積はABによって示される。行列の共役転置はアスタリスク(*)で示される。
対角線を参照する場合、対角線は主対角線を意図している。
3.3 本発明
図1は、オーディオシステム100を符号化器側および復号器側を用いて示す。符号化器側は、符号化器200によって具現化され得、たとえば、オーディオセンサユニット(たとえば、マイクロフォン)から、記憶ユニットから、または(たとえば、無線送信を介して)リモートユニットから、オーディオ信号212を取得し得る。復号器側は、オーディオ再現ユニット(たとえば、ラウドスピーカ)にオーディオコンテンツを提供することができるオーディオ復号器(オーディオ合成器)300によって具現化され得る。符号化器200および復号器300は、たとえば、有線または無線であり得る通信チャンネルを介して(たとえば、無線周波数波、光、または超音波などを介して)互いに通信し得る。したがって、符号化器および/または復号器は、符号化されたビットストリーム248を符号化器200から復号器300に送信するための通信ユニット(たとえば、アンテナ、トランシーバなど)を含み得るか、またはその通信ユニットに接続され得る。場合によっては、符号化器200は、符号化されたビットストリーム248を、将来使用するために、記憶ユニット(たとえば、RAMメモリ、FLASHメモリなど)に記憶することができる。類似的に、復号器300は、記憶ユニットに記憶されたビットストリーム248を読み取ることができる。いくつかの例では、符号化器200および復号器300は同じデバイスとすることができ、その場合、ビットストリーム248を符号化して保存した後、デバイスは、オーディオコンテンツの再生のためにビットストリーム248を読み取る必要があり得る。
図2a、図2b、図2c、および図2dは、符号化器200の例を示す。いくつかの例では、図2aおよび図2bおよび図2cおよび図2dの符号化器は、同じであり得、一方の図面および/または他方の図面にいくつかの要素がないという理由で互いに異なるだけであり得る。
オーディオ符号化器200は、原信号212からダウンミックス信号246を生成するように構成され得る(原信号212は、少なくとも2つ(たとえば、3つ以上)のチャンネルを有し、ダウンミックス信号246は、少なくとも1つのダウンミックスチャンネルを有する)。
オーディオ符号化器200は、原信号212のチャンネルレベルおよび相関情報220を推定するように構成されたパラメータ推定器218を備え得る。オーディオ符号化器200は、ダウンミックス信号246をビットストリーム248内に符号化するためのビットストリームライタ226を備え得る。したがって、ダウンミックス信号246は、原信号212のチャンネルレベルおよび相関情報を含むサイド情報228を有するように、ビットストリーム248内に符号化される。
特に、いくつかの例において、入力信号212は、たとえば、オーディオサンプルの時系列などの時間領域オーディオ信号と理解され得る。原信号212は、たとえば、(たとえば、ステレオオーディオ位置、またはステレオオーディオ位置であるがマルチチャンネルオーディオ位置の場合)異なるマイクロフォンに対応し得るか、または、たとえば、オーディオ再現ユニットの異なるラウドスピーカ位置に対応し得る、少なくとも2つのチャンネルを有する。ダウンミキサ計算ブロック244において、入力信号212がダウンミックスされて、原信号212のダウンミックスされたバージョン246(xとしても示す)を取得することができる。原信号212のこのダウンミックスバージョンを、ダウンミックス信号246とも呼ぶ。ダウンミックス信号246は、少なくとも1つのダウンミックスチャンネルを有する。ダウンミックス信号246は、原信号212よりも有するチャンネルが少ない。ダウンミックス信号212は、時間領域内にあり得る。
ビットストリームを記憶するか、または(たとえば、復号器側に関連する)受信機に送信するために、ダウンミックス信号246は、(たとえば、エントロピ符号化器、またはマルチプレクサ、またはコアコーダを含む)ビットストリームライタ226によってビットストリーム248内に符号化される。符号化器200は、パラメータ推定器(またはパラメータ推定ブロック)218を含み得る。パラメータ推定器218は、原信号212に関連するチャンネルレベルおよび相関情報220を推定し得る。チャンネルレベルおよび相関情報220は、サイド情報228としてビットストリーム248内に符号化され得る。例において、チャンネルレベルおよび相関情報220は、ビットストリームライタ226によって符号化される。例において、図2bは、ダウンミックス計算ブロック244の下流にビットストリームライタ226を示していないが、それでもなお、ビットストリームライタ226が存在し得る。図2cでは、ダウンミックス信号246の符号化されたバージョンを得るために、ビットストリームライタ226が、ダウンミックス信号246を符号化するためのコアコーダ247を含み得ることが示されている。図2cはまた、ビットストリームライタ226がマルチプレクサ249を含み得ることを示しており、マルチプレクサ249は、コーディングされたダウンミックス信号246と、サイド情報228内の(たとえば、コーディングされたパラメータとしての)チャンネルレベルおよび相関情報220との両方をビットストリーム248内に符号化する。
図2bによって示すように(図2aおよび図2cにはない)、原信号212の周波数領域バージョン216を取得するために(たとえば、フィルタバンク214によって、以下参照)原信号212が処理され得る。
パラメータ推定器218が、後にビットストリーム内に符号化されるパラメータξi,jおよびχi(たとえば、正規化パラメータ)を定義する、パラメータ推定の一例を図6cに示す。共分散推定器502および504は、符号化されるダウンミックス信号246および入力信号212についてそれぞれ、共分散CxおよびCyを推定する。次いで、ICLDブロック506において、ICLDパラメータχiが計算され、ビットストリームライタ246に提供される。共分散対コヒーレンスブロック510において、ICC ξi,j(412)が取得される。ブロック250では、ICCの一部のみが符号化対象として選択されている。
パラメータ量子化ブロック222(図2b)は、量子化されたバージョン224においてチャンネルレベルおよび相関情報220を取得することを可能にし得る。
原信号212のチャンネルレベルおよび相関情報220は、一般に、原信号212のチャンネルのエネルギー(またはレベル)に関する情報を含み得る。追加として、または代替として、原信号212のチャンネルレベルおよび相関情報220は、2つの異なるチャンネル間の相関など、対のチャンネル間の相関情報を含み得る。チャンネルレベルおよび相関情報は、各列および各行が原信号212の特定のチャンネルに関連する共分散行列Cyに関連する情報を(たとえば、相関またはICCなどの正規化形式で)含み得、チャンネルレベルは、行列Cyの対角要素および相関情報によって記述され、相関情報は、行列Cyの非対角要素によって記述される。行列Cyは、その行列が対称行列である(すなわち、その行列が自身の転置に等しい)、またはエルミート行列である(すなわち、その行列が自身の共役転置に等しい)というものであり得る。Cyは、一般に、半正定値である。いくつかの例において、相関は、共分散によって置換され得る(相関情報は、共分散情報によって置換され得る)。原信号212のチャンネルすべてより少ないチャンネルに関連する情報を、ビットストリーム248のサイド情報228内に符号化することが可能であることが理解されている。たとえば、すべてのチャンネルまたはすべての対のチャンネルに関するチャンネルレベルおよび相関情報を提供する必要がない。たとえば、ダウンミックス信号212の対のチャンネル間の相関に関する情報の減少したセットのみがビットストリーム248内に符号化され得、残りの情報は復号器側で推定され得る。一般に、Cyの対角要素よりも少ない要素を符号化することが可能であり、Cyの対角線の外側の要素よりも少ない要素を符号化することが可能である。
たとえば、チャンネルレベルおよび相関情報は、原信号212の共分散行列Cy(原信号のチャンネルレベルおよび相関情報220)および/またはダウンミックス信号246の共分散行列Cx(ダウンミックス信号の共分散情報)のエントリを、たとえば正規化形式で含み得る。たとえば、共分散行列は、異なるチャンネル間の共分散、および行列の対角線で各チャンネルのレベルを表すように、各行および各列を各チャンネルに関連付け得る。いくつかの例において、サイド情報228内に符号化される原信号212のチャンネルレベルおよび相関情報220は、チャンネルレベル情報のみ(たとえば、相関行列Cyの対角値のみ)または相関情報のみ(たとえば、相関行列Cyの対角線の外側の値のみ)を含み得る。同じことがダウンミックス信号の共分散情報にも適用される。
後で示すように、チャンネルレベルおよび相関情報220は、対のチャンネルi、jの2つのチャンネルiとチャンネルjとの間のコヒーレンスを記述する少なくとも1つのコヒーレンス値(ξi,j)を含み得る。追加として、または代替として、チャンネルレベルおよび相関情報220は、少なくとも1つのチャンネル間レベル差ICLD(χi)を含み得る。特に、ICLD値またはチャンネル間コヒーレンス(ICC)値を有する行列を定義することが可能である。したがって、行列Cyおよび行列Cxの要素の送信に関する上記の例は、チャンネルレベルおよび相関情報220および/またはダウンミックスチャンネルのコヒーレンス情報を具現化するために符号化される(たとえば、送信される)他の値に対して一般化され得る。
入力信号212は、複数のフレームに細分され得る。異なるフレームは、たとえば、同等の時間長を有し得る(たとえば、異なるフレームはそれぞれ、1つのフレームの経過時間中に、時間領域内の同じ数のサンプルによって構成され得る)。したがって、異なるフレームは、一般に、同じ時間長を有する。ビットストリーム248において、ダウンミックス信号246(時間領域信号であり得る)は、フレーム単位の様式で符号化され得る(または、いずれの場合でも、フレームへの細分は復号器によって決定され得る)。ビットストリーム248においてサイド情報228として符号化されたチャンネルレベルおよび相関情報220は、各フレームに関連付けられ得る(たとえば、チャンネルレベルおよび相関情報220のパラメータは、各フレームに対して、または複数の連続するフレームに対して提供され得る)。したがって、ダウンミックス信号246の各フレームについて、関連するサイド情報228(たとえば、パラメータ)は、ビットストリーム248のサイド情報228内に符号化され得る。場合によっては、複数の連続するフレームを、ビットストリーム248のサイド情報228内に符号化されたものと同じチャンネルレベルおよび相関情報220に(たとえば、同じパラメータに)関連付けることができる。したがって、1つのパラメータは、複数の連続するフレームに集合的に関連付けられる結果となり得る。これは、いくつかの例において、2つの連続するフレームが同様の特性を有する場合、または(たとえば、ペイロードを低減する必要があるため)ビットレートを低下させる必要がある場合に発生し得る。たとえば、
ペイロードが高い場合、同じ特定のパラメータに関連する連続するフレームの数が増加し、それにより、ビットストリーム内に書き込まれるビット量が減少する。
ペイロードが低い場合、同じ特定のパラメータに関連する連続するフレームの数が減少し、それにより、混合品質が向上する。
他の場合では、ビットレートが低下すると、同じ特定のパラメータに関連する連続するフレームの数が増加し、それにより、ビットストリーム内に書き込まれるビット量が減少する。逆の場合も同様である。
場合によっては、現在のフレームに先行するパラメータ(または、共分散などの再構築または推定された値)との線形結合を使用して、たとえば加算、平均などによって、パラメータ(または、共分散などの再構築または推定された値)を平滑化することが可能である。
いくつかの例において、フレームは、複数の後続スロットの間で分割され得る。図10aは、(4つの連続するスロット921~924に細分された)フレーム920を示し、図10bは、(4つの連続するスロット931~934に細分された)フレーム930を示す。異なるスロットの時間長は同じであり得る。フレーム長が20msでスロットサイズが1.25msである場合、1つのフレームに16個のスロットが存在する(20/1.25=16)。
スロットの細分化は、以下で説明するフィルタバンク(たとえば、214)において実行され得る。
一例において、フィルタバンクは、複素変調低遅延フィルタバンク(CLDFB: Complex-modulated Low Delay Filter Bank)であり、フレームサイズは20ms、スロットサイズは1.25msであり、結果として、1フレームあたり16個のフィルタバンクスロットがあり、各スロットの帯域数は入力サンプリング周波数に依存し、帯域幅は400Hzである。したがって、たとえば、入力サンプリング周波数が48kHzの場合、サンプルのフレーム長は960、スロット長は60サンプル、1スロットあたりのフィルタバンクサンプル数も60である。
Figure 0007471326000010
各フレーム(同様に各スロット)が時間領域で符号化され得る場合でも、帯域単位の解析が実行され得る。例では、フレーム(またはスロット)ごとに複数の帯域が解析される。たとえば、フィルタバンクが時間信号に適用され得、結果として生じるサブ帯域信号が解析され得る。いくつかの例では、チャンネルレベルおよび相関情報220もまた、帯域単位の様式で提供される。たとえば、入力信号212またはダウンミックス信号246の帯域ごとに、関連するチャンネルレベルおよび相関情報220(たとえば、CyまたはICC行列)が提供され得る。いくつかの例では、帯域の数は、信号および/もしくは要求されたビットレートの特性、または現在のペイロードの測定値に基づいて変更され得る。いくつかの例では、同様のビットレートを維持するのに必要なスロットが多いほど、使用される帯域が少なくなる。
スロットサイズはフレームサイズ(時間長)よりも小さいので、フレーム内で検出された原信号212における過渡現象が検出された場合、スロットは適切に使用され得る。符号化器(具体的には、フィルタバンク214)は、過渡現象の存在を認識し、その存在をビットストリームにおいてシグナリングし、ビットストリーム248のサイド情報228において、フレームのどのスロットで過渡現象が発生したかを示し得る。さらに、ビットストリーム248のサイド情報228内に符号化されたチャンネルレベルおよび相関情報220のパラメータは、したがって、過渡現象に続くスロットおよび/または過渡現象が発生したスロットにのみ適宜に関連付けられ得る。したがって、復号器は、過渡現象の存在を判断し、チャンネルレベルおよび相関情報220を、過渡現象の後続スロットおよび/または過渡現象が発生したスロットにのみ関連付けることになる(過渡現象に先行するスロットの場合、復号器は、前のフレームのチャンネルレベルおよび相関情報220を使用することになる)。図10aでは、過渡現象は発生しておらず、したがって、サイド情報228内に符号化されたパラメータ220は、フレーム920全体に関連付けられていると理解され得る。図10bでは、スロット932において過渡現象が発生している。したがって、サイド情報228内に符号化されたパラメータ220は、スロット932、933、および934を参照し、一方、スロット931に関連付けられたパラメータは、フレーム930に先行するフレームと同じであると想定される。
上記を考慮して、各フレーム(またはスロット)および各帯域について、原信号212に関連する特定のチャンネルレベルおよび相関情報220を定義することができる。たとえば、各帯域について、共分散行列Cyの要素(たとえば、共分散および/またはレベル)を推定することができる。
複数のフレームが集合的に同じパラメータに関連付けられているときに過渡現象の検出が発生した場合、混合品質を向上させるために、集合的に同じパラメータに関連するフレームの数を低減することが可能である。
図10aは、原信号212において8つの帯域が定義されているフレーム920(ここでは「通常のフレーム」と示している)を示す(8つの帯域1...8を縦軸に示し、スロット921~924を横軸に示す)。チャンネルレベルおよび相関情報220のパラメータは、理論的には、ビットストリーム248のサイド情報228において、帯域単位の様式で符号化され得る(たとえば、元の帯域ごとに1つの共分散行列が存在する)。しかし、サイド情報228の量を低減するために、符号化器は、複数の元の帯域(たとえば、連続する帯域)を集約して、複数の元の帯域よって形成される少なくとも1つの集約帯域を取得することができる。たとえば、図10aでは、8つの元の帯域をグループ化して、4つの集約帯域(元の帯域1に関連付けられた集約帯域1、元の帯域2に関連付けられた集約帯域2、元の帯域3および帯域4をグループ化した集約帯域3、元の帯域5...8をグループ化した集約帯域4)を取得する。共分散、相関、ICCなどの行列は、集約帯域のそれぞれに関連付けられ得る。いくつかの例では、ビットストリーム248のサイド情報228内に符号化されるものは、各集約帯域に関連付けられたパラメータの合計(または平均、または別の線形結合)から得られるパラメータである。したがって、ビットストリーム248のサイド情報228のサイズはさらに縮小される。以下において、「集約帯域」は、パラメータ220を決定するために使用される帯域を指すので、「パラメータ帯域」とも呼ばれる。
図10bは、(4つの連続するスロット931~934、または別の整数に細分された、)過渡現象が発生するフレーム930を示す。ここでは、過渡現象は第2のスロット932(「過渡現象スロット」)で発生する。この場合、復号器は、チャンネルレベルおよび相関情報220のパラメータに、過渡現象スロット932ならびに/または後続スロット933および934のみを参照させることを決定し得る。先行スロット931のチャンネルレベルおよび相関情報220は提供されない。スロット931のチャンネルレベルおよび相関情報は、原則として、スロットのチャンネルレベルおよび相関情報と具体的には異なるが、フレーム930に先行するフレームのチャンネルレベルおよび相関情報により類似している可能性があると理解されている。したがって、復号器は、フレーム930に先行するフレームのチャンネルレベルおよび相関情報をスロット931に適用し、フレーム930のチャンネルレベルおよび相関情報をスロット932、933、および934にのみ適用することになる。
過渡現象を伴うスロット931の存在および位置が、ビットストリーム248のサイド情報228において(たとえば、後述するように261において)シグナリングされ得るので、サイド情報228のサイズの増加を回避または低減するための技法が開発された。すなわち、集約帯域間のグループ化を変更することができ、たとえば、集約帯域1は、今度は元の帯域1および2をグループ化し、集約帯域2は、元の帯域3...8をグループ化する。したがって、帯域の数は、図10aの場合に比べてさらに減少し、パラメータは2つの集約帯域に対してのみ提供されることになる。
図6aは、パラメータ推定ブロック(パラメータ推定器)218が特定の数のチャンネルレベルおよび相関情報220を検索できることを示す。
図6aは、パラメータ推定器218が、図9a~図9dの行列900のICCであり得る特定の数のパラメータ(チャンネルレベルおよび相関情報220)を検索できることを示す。
しかし、推定されたパラメータの一部のみが、サイド情報228を符号化するために実際にビットストリームライタ226に送出される。その理由は、符号化器200が、(図1~図5に示されていない決定ブロック250において)原信号212のチャンネルレベルおよび相関情報220の少なくとも一部を符号化するか否かを選択するように構成され得るからである。
これは、図6aにおいて、決定ブロック250からの選択(コマンド)254によって制御される複数のスイッチ254sとして示されている。ブロックパラメータ推定218の出力220のそれぞれが図9cの行列900のICCである場合、パラメータ推定ブロック218によって推定されたパラメータ全体が、ビットストリーム248のサイド情報228内に実際に符号化されるわけではない。具体的には、エントリ908(チャンネル間、すなわちRとLの間、CとLの間、CとRの間、RSとCSの間のICC)は実際には符号化されるが、エントリ907は符号化されない(すなわち、図6cのものと同じであり得る決定ブロック250は、符号化されないエントリ907のスイッチ254sを開放しているように見える可能性があるが、ビットストリーム248のサイド情報228内に符号化されるエントリ908のスイッチ254sを閉鎖している)。どのパラメータが符号化対象に選択されているかに関する情報254'(エントリ908)が、(たとえば、ビットマップ、またはどのエントリ908が符号化されるかに関する他の情報として)符号化され得ることに留意されたい。実際には、(たとえば、ICCマップであり得る)情報254'は、符号化されたエントリ908の(図9dに図式化した)インデックスを含み得る。情報254'は、ビットマップの形式であり得る。たとえば、情報254'は、固定長フィールドによって構成され得、各位置は、事前定義された順序に従ってインデックスに関連付けられ、各ビットの値は、そのインデックスに関連付けられているパラメータが実際に提供されているかどうかに関する情報を提供する。
一般に、決定ブロック250は、たとえばステータス情報252に基づいて、チャンネルレベルおよび相関情報220の少なくとも一部を符号化するか否かを選択し得る(すなわち、行列900のエントリを符号化するか否かを決定する)。ステータス情報252は、ペイロードステータスに基づくことができ、たとえば、送信が高負荷である場合、ビットストリーム248内に符号化されるサイド情報228の量を低減することが可能である。たとえば、9cを参照すると、
高ペイロードの場合、ビットストリーム248のサイド情報228内に実際に書き込まれる行列900のエントリ908の数が減少し、
ペイロードがより低い場合、ビットストリーム248のサイド情報228内に実際に書き込まれる行列900のエントリ908の数が減少する。
代替として、または追加として、どのパラメータ220をサイド情報228内に符号化するべきか(たとえば、行列900のどのエントリを符号化されるエントリ908に定め、どのエントリを破棄するべきか)を決定するために、メトリクス252が評価され得る。この場合、(より影響を受けやすいメトリクスに関連する)パラメータ220のみをビットストリーム内に符号化することが可能である(たとえば、より知覚的に有意な共分散に関連するメトリクスは、符号化されたエントリ908として選択されるエントリに関連付けられ得る)。
このプロセスが、フレームごとに(または、ダウンサンプリングの場合は複数のフレームに対して)、帯域ごとに、繰り返され得ることに留意されたい。
したがって、決定ブロック250は、ステータスメトリクスなどに加えて、図6aのコマンド251を介してパラメータ推定器218によっても制御され得る。
いくつかの例(たとえば、図6b)において、オーディオ符号化器は、現在のチャンネルレベルおよび相関情報220tを、前のチャンネルレベルおよび相関情報220(t-1)に対する増分220kとしてビットストリーム248内に符号化するようにさらに構成され得る。このビットストリームライタ226によってサイド情報228内に符号化されるものは、現在のフレーム(またはスロット)に関連付けられた、前のフレームに対する増分220kであり得る。これを図6bに示す。現在のチャンネルレベルおよび相関情報220tが記憶要素270に提供され、その結果、記憶要素270は、現在のチャンネルレベルおよび相関情報220tの値を後続フレームのために記憶する。一方、現在のチャンネルレベルおよび相関情報220tは、以前に取得されたチャンネルレベルおよび相関情報220(t-1)と比較され得る(これを、図6bに減算器273として示す)。したがって、減算の結果220Δは、減算器273によって取得され得る。スケーラ220sにおいて、差分220Δを使用して、前のチャンネルレベルおよび相関情報220(t-1)と現在のチャンネルレベルおよび相関情報220tとの間の相対増分220kを取得することができる。たとえば、現在のチャンネルレベルおよび相関情報220tが前のチャンネルレベルおよび相関情報220(t-1)よりも10%大きい場合、ビットストリームライタ226によってサイド情報228内に符号化された増分220は、10%の増分の情報を示すことになる。いくつかの例では、相対増分220kを提供する代わりに、単純に差分220Δが符号化され得る。
上述および後述するように、ICCおよびICLDなどのパラメータの中からの、実際に符号化するべきパラメータの選択は、特定の状況に適応され得る。たとえば、いくつかの例において、
1つの第1のフレームの場合、図9cのICC908のみが、ビットストリーム248のサイド情報228内に符号化されるように選択され、ICC907は、ビットストリーム248のサイド情報228内に符号化されない。
第2のフレームの場合、異なるICCが符号化されるように選択され、選択されていない異なるICCは符号化されない。
スロットおよび帯域(および、ICLDなどの様々なパラメータ)についても同じことが有効であり得る。したがって、符号化器(具体的には、ブロック250)は、どのパラメータを符号化するか、およびどのパラメータを符号化しないかを決定し、それにより、符号化するパラメータの選択を特定の状況(たとえば、ステータス、選択...)に適応させることができる。したがって、どのパラメータを符号化し、どのパラメータを符号化しないかを選択するために、「重要性の特徴」が分析され得る。重要性の特徴は、たとえば、復号器によって実行される動作のシミュレーションで得られた結果に関連するメトリクスであり得る。たとえば、符号化器は、符号化されない共分散パラメータ907の復号器の再構築をシミュレートすることができ、重要性の特徴は、符号化されない共分散パラメータ907と、復号器によって再構築されたと想定されるものと同じパラメータとの間の絶対誤差を示すメトリクスであり得る。符号化される共分散パラメータ908と、符号化されない共分散パラメータ907とを、最も影響の少ないシミュレーションシナリオに基づいて区別するために、様々なシミュレーションシナリオにおける誤差を測定することによって(たとえば、各シミュレーションシナリオは、いくつかの符号化された共分散パラメータ908の送信に関連し、誤差の測定は、符号化されない共分散パラメータ907の再構築に影響を与える)、誤差による影響が最も少ないシミュレーションシナリオ(たとえば、再構築におけるすべての誤差に関するメトリクスが含まれるシミュレーションシナリオ)を決定することが可能である。影響が最も少ないシナリオでは、選択されないパラメータ907は、最も容易に再構築可能なパラメータであり、選択されるパラメータ908は、傾向的に、誤差に関連するメトリクスが最大となるパラメータである。
ICCおよびICLDのようなパラメータをシミュレートする代わりに、復号器による共分散の再構築または推定をシミュレートするか、または混合特性または混合結果をシミュレートすることによって、同じことが実行され得る。特に、シミュレーションは、フレームごとまたはスロットごとに実行され得、帯域ごとまたは集約帯域ごとに行われ得る。
一例は、ビットストリーム248のサイド情報228内に符号化されたパラメータから開始して、式(4)または式(6)(以下参照)を使用して共分散の再構築をシミュレートしている場合がある。
より一般的には、選択されたチャンネルレベルおよび相関情報からチャンネルレベルおよび相関情報を再構築し、それによって、選択されていないチャンネルレベルおよび相関情報(220、Cy)の推定値を復号器(300)においてシミュレートし、
符号化器によって推定された、選択されていないチャンネルレベルおよび相関情報(220)と、
復号器(300)において、符号化されていないチャンネルレベルおよび相関情報(220)の推定値をシミュレートすることによって再構築された、選択されていないチャンネルレベルおよび相関情報と
の間の誤差情報を算出し、その結果、
算出された誤差情報に基づいて、
適切に再構築可能なチャンネルレベルおよび相関情報と、
適切に再構築不可能なチャンネルレベルおよび相関情報と
を区別し、その結果、
ビットストリーム(248)のサイド情報(228)内に符号化される、適切に再構築不可能なチャンネルレベルおよび相関情報の選択、ならびに
適切に再構築可能なチャンネルレベルおよび相関情報の非選択
について決定し、それによって、適切に再構築可能なチャンネルレベルおよび相関情報をビットストリーム(248)のサイド情報(228)内に符号化しないようにすることが可能である。
一般的には、符号化器は、復号器の任意の動作をシミュレートし、シミュレーションの結果から誤差メトリクスを評価し得る。
いくつかの例において、重要性の特徴は、誤差に関連付けられたメトリクスの評価とは異なり得る(または、その評価と異なる他のメトリクスを含み得る)。場合によっては、重要性の特徴は、手動選択に関連するか、または心理音響的基準に基づく重要性に基づき得る。たとえば、シミュレーションなしでも、最も重要な対のチャンネルを選択して符号化することができる(908)。
次に、どのパラメータ908がビットストリーム248のサイド情報220内に実際に符号化されるかを符号化器がどのようにシグナリングし得るかを説明するために、いくつかの追加の説明を提供する。
図9dを参照すると、ICC行列900の対角線上のパラメータは、順序付けされたインデックス1..10に関連付けられている(順序は事前に決定され、復号器によって認識されている)。図9cでは、符号化されるように選択されたパラメータ908が、それぞれインデックス1、2、5、10によってインデックス付けされた対L-R、L-C、R-C、LS-RSのICCであることが示されている。したがって、ビットストリーム248のサイド情報228において、インデックス1、2、5、10の指示も(たとえば、図6aの情報254'において)提供される。したがって、復号器は、ビットストリーム248のサイド情報228において提供される4つのICCがL-R、L-C、R-C、LS-RSであることを、同様に符号化器によってサイド情報228において提供されるインデックス1、2、5、10に関する情報によって理解する。インデックスは、たとえば、ビットマップ内の各ビットの位置を予め定められたものに関連付けるビットマップを介して提供され得る。たとえば、インデックス1、2、5、10をシグナリングするには、1番目、2番目、5番目、および10番目のビットがインデックス1、2、5、10を参照するので、(サイド情報228のフィールド254'に)「1100100001」を書き込むことが可能である(他の可能なものは当業者が自由に使用することができる)。これはいわゆる1次元インデックスであるが、他のインデックス付け戦略も可能である。たとえば、組合せ番号技法であり、この技法に従って、特定の対のチャンネルに一義的に関連付けられている番号Nが(サイド情報228のフィールド254'で)符号化される(https://en.wikipedia.org/wiki/Combinatorial_number_systemも参照)。ビットマップは、ICCを参照する場合、ICCマップとも呼ばれ得る。
場合によっては、パラメータの非適応的(固定的)提供が使用され得ることに留意されたい。これは、図6aの例において、符号化されるパラメータの中からの選択254が固定されており、選択されたパラメータをフィールド254'に示す必要がないことを意味する。図9bは、パラメータの固定的提供の例を示しており、選択されたICCは、L-C、L-LS、R-C、C-RSであり、復号器はビットストリーム248のサイド情報228にどのICCが符号化されているかをすでに知っているので、それらのインデックスをシグナリングする必要はない。
しかし、場合によっては、符号化器は、パラメータの固定的提供とパラメータの適応的提供との間での選択を実行し得る。符号化器は、ビットストリーム248のサイド情報228において選択をシグナリングすることができ、その結果、復号器は、どのパラメータが実際に符号化されているかを知ることができる。
場合によっては、少なくともいくつかのパラメータは、適応なしで提供され得る。たとえば、
ICDLは、ICDLをビットマップで示す必要なしに、どのような場合でも符号化され得、
ICCは、適応的提供の対象となり得る。
説明は、各フレーム、またはスロット、または帯域に関する。後続のフレーム、またはスロット、または帯域の場合、異なるパラメータ908が復号器に提供され、異なるインデックスが後続のフレーム、またはスロット、または帯域に関連付けられ、様々な選択(たとえば、固定対適応)が実行され得る。図5は、原信号212を処理して周波数領域信号216を取得するために使用され得る符号化器200のフィルタバンク214の一例を示す。図5に見られるように、時間領域(TD)信号212は、過渡現象解析ブロック258(過渡現象検出器)によって解析され得る。さらに、複数の帯域での入力信号212の周波数領域(FD)バージョン264への変換は、(たとえば、フーリエフィルタ、短時間フーリエフィルタ、直交ミラーなどを実装し得る)フィルタ263によって実現される。入力信号212の周波数領域バージョン264は、たとえば、帯域解析ブロック267において解析され得、帯域解析ブロック267は、パーティショングループ化ブロック265で実行される帯域の特定のグループ化を決定(コマンド268)し得る。その後、FD信号216は、集約帯域の数が減少した信号になる。帯域の集約については、図10aおよび図10bに関して上記で説明している。パーティショングループ化ブロック265はまた、過渡現象解析ブロック258によって実行される過渡現象解析によって条件付けられ得る。上記で説明したように、過渡現象の場合、集約帯域の数をさらに低減することが可能であり得る。したがって、過渡現象に関する情報260が、パーティショングループ化を条件付けることができる。追加として、または代替として、過渡現象に関する情報261は、ビットストリーム248のサイド情報228内に符号化される。情報261は、サイド情報228内に符号化されるとき、たとえば、過渡現象が発生したかどうかを示すフラグ(たとえば、「フレームに過渡現象があった」ことを意味する「1」対「フレームに過渡現象がなかった」ことを意味する「0」など)、および/またはフレーム内の過渡現象の位置の指示(過渡現象がどのスロットで観察されたかを示すフィールドなど)を含み得る。いくつかの例において、情報261が、フレームに過渡現象がないこと(「0」)を示す場合、ビットストリーム248のサイズを縮小するために、過渡現象の位置の指示は、サイド情報228内に符号化されない。情報261は「過渡現象パラメータ」とも呼ばれ、図2dおよび図6bでは、ビットストリーム248のサイド情報228内に符号化されるものとして示されている。
いくつかの例において、ブロック265でのパーティショングループ化は、送信のステータスに関する情報など(たとえば、送信に関連する測定値、誤差率など)の外部情報260'によっても条件付けられ得る。たとえば、ペイロードが高い(または誤差率が高い)ほど、集約が大きくなり(より広い集約帯域が少なくなる傾向がある)、それにより、ビットストリーム248内に符号化されるサイド情報228の量が少なくなる。いくつかの例において、情報260'は、図6aの情報またはメトリクス252に類似している場合がある。
一般に、あらゆる帯域/スロットの組合せのパラメータを送信することは実現不可能であるが、フィルタバンクのサンプルは、フレーム単位で送信されるパラメータセットの数を低減するために、スロット数と帯域数の両方にわたって共にグループ化される。周波数軸に沿って帯域をパラメータ帯域にグループ化するには、パラメータ帯域の帯域数が一定ではなく、心理音響的に動機付けられたパラメータ帯域の分解能に従うことを試みる、パラメータ帯域の非定数分割を使用する。すなわち、より低い帯域ではパラメータ帯域は1つまたは少数のフィルタバンク帯域のみを含み、より高いパラメータ帯域の場合、より多数の(定常的に増加する)フィルタバンク帯域が1つのパラメータ帯域にグループ化される。
したがって、たとえば、ここでも、入力サンプリングレートが48kHz、パラメータ帯域の数が14個に設定されている場合、次のベクトルgrp14は、パラメータ帯域の帯域境界(0から始まるインデックス)を与えるフィルタバンクインデックスを示す。
grp14=[0,1,2,3,4,5,6,8,10,13,16,20,28,40,60]
パラメータ帯域jは、フィルタバンク帯域[grp14[j],grp14[j+1]]を含む。
なお、48kHzの帯域グループ化は、心理音響的に動機付けられた周波数スケールに従うとともに、各サンプリング周波数の帯域数に対応する特定の帯域境界を有するので、単純に端を切り捨てることによって、他の可能なサンプリングレートに直接使用することもできる(Table 1(表1))。
フレームが非過渡現象であるか、過渡現象処理が実装されていない場合、パラメータ帯域ごとに1つのパラメータセットが利用可能であるように、時間軸に沿ったグループ化がフレーム内のすべてのスロットに対して行われる。
依然として、パラメータセットの数は多数になるが、時間分解能は20msフレーム(平均40ms)より低くなる可能性がある。したがって、フレームごとに送信されるパラメータセットの数をさらに低減するために、パラメータ帯域のサブセットのみを使用して、ビットストリーム内で復号器に送信するためのパラメータを決定および符号化する。サブセットは固定されており、符号化器と復号器の両方に認識されている。ビットストリームで送信される特定のサブセットは、ビットストリーム内のフィールドによってシグナリングされ、送信されたパラメータが属するパラメータ帯域のサブセットが属する復号器を示し、次いで、復号器は、このサブセットのパラメータを、送信されたパラメータ(ICC、ICLD)に置き換え、現在のサブセットにないすべてのパラメータ帯域の前のフレームのパラメータ(ICC、ICLD)を保持する。
一例において、パラメータ帯域は、全パラメータ帯域の約半分を含む、より低いパラメータ帯域のための連続するサブセットと、より高いパラメータ帯域のための1つの連続するサブセットとの2つのサブセットに分割され得る。2つのサブセットがあるので、サブセットをシグナリングするためのビットストリームフィールドは単一のビットであり、48kHzおよび14個のパラメータ帯域の場合のサブセットの一例は、
s14=[1,1,1,1,1,1,1,0,0,0,0,0,0,0]
であり、ここで、s14[j]は、パラメータ帯域jがどのサブセットに属するかを示す。
ダウンミックス信号246は、実際には時間領域における信号としてビットストリーム248内に符号化され得ることに留意されたい。簡潔には、後続のパラメータ推定器218は、周波数領域においてパラメータ220(たとえば、ξi,jおよび/またはχi)を推定する(復号器300は、以下で説明するように、混合規則(たとえば、混合行列)403を準備するためにパラメータ220を使用することになる)。
図2dは、先行する符号化器のうちの1つであり得るか、または前述の符号化器の要素を含み得る、符号化器200の一例を示す。符号化器にTD入力信号212が入力されて、ビットストリーム248が出力され、ビットストリーム248は、(たとえば、コアコーダ247によって符号化された)ダウンミックス信号246、およびサイド情報228内に符号化された相関およびレベル情報220を含む。
図2dに見られるように、フィルタバンク214が含まれ得る(図5に、フィルタバンクの一例が提供されている)。入力信号212のFDバージョンであるFD信号264を取得するために、ブロック263(周波数領域DMX)での周波数領域(FD)変換が提供されている。複数の帯域の(Xによっても示されている)FD信号264が取得される。集約帯域におけるFD信号216を取得するために、(図5のグループ化ブロック265を具現化し得る)帯域/スロットグループ化ブロック265が提供され得る。FD信号216は、いくつかの例では、より少ない帯域におけるFD信号264のバージョンであり得る。続いて、信号216は、パラメータ推定器218に提供され得、パラメータ推定器218は、共分散推定ブロック502、504(ここでは単一のブロックとして示す)、下流のパラメータ推定およびコーディングブロック506、510を含む(要素502、504、506、および510の実施形態を図6cに示す)。パラメータ推定符号化ブロック506、510はまた、ビットストリーム248のサイド情報228内に符号化されるパラメータ220を提供し得る。(図5の過渡現象解析ブロック258を具体化し得る)過渡現象検出器258は、過渡現象および/またはフレーム内の過渡現象の位置(たとえば、どのスロットで過渡現象が識別されたか)を見出すことができる。したがって、過渡現象(たとえば、過渡現象パラメータ)に関する情報261は、(たとえば、どのパラメータを符号化するかを決定するために)パラメータ推定器218に提供され得る。過渡現象検出器258はまた、フレーム内の過渡現象の存在および/または位置を考慮に入れることによってグループ化が実行されるように、情報またはコマンド(268)をブロック265に提供し得る。
図3a、図3b、図3cは、オーディオ復号器300(オーディオ合成器とも呼ぶ)の例を示す。例において、図3a、図3b、図3cの復号器は、異なる要素を回避するためのいくつかの違いを除いて、同じ復号器であり得る。例において、復号器300は、図1および図4の復号器と同じであり得る。例において、復号器300はまた、符号化器200と同じデバイスであり得る。
復号器300は、TD(246)またはFD(314)のダウンミックス信号xから合成信号(336、340、yR)を生成するように構成され得る。オーディオ合成器300は、ダウンミックス信号246(たとえば、符号化器200によって符号化されたものと同じダウンミックス信号)と、(たとえば、ビットストリーム248内に符号化された)サイド情報228とを受信するように構成された入力インターフェース312を備え得る。サイド情報228は、上記で説明したように、(符号化器側における元の入力信号212、yであり得る)原信号の、ξ、χなどのうちの少なくとも1つなどのチャンネルレベルおよび相関情報(220、314)、または(以下で説明する)その要素を含み得る。いくつかの例において、ICC行列900(ICCまたはξ値)の対角線の外側のすべてのICLD(χ)およびいくつかのエントリ(すべてではない)906または908は、復号器300によって取得される。
復号器300は、(たとえば、プロトタイプ信号算出器またはプロトタイプ信号計算モジュール326を介して)ダウンミックス信号(324、246、x)からプロトタイプ信号328を算出するように構成され得、プロトタイプ信号328は、合成信号336のいくつかのチャンネル(1より多い)を有する。
復号器300は、
原信号(212、y)のチャンネルレベルおよび相関情報(たとえば、314、Cy、ξ、χ、またはその要素)、および
ダウンミックス信号(324、246、x)に関連する共分散情報(たとえば、Cxまたはその要素)
のうちの少なくとも1つを使用して混合規則403を(たとえば、混合規則算出器402を介して)算出するように構成され得る。
復号器300は、プロトタイプ信号328と混合規則403とを使用して合成信号(336、340、yR)を生成するように構成された合成プロセッサ404を備え得る。
合成プロセッサ404および混合規則算出器402は、1つの合成エンジン334に収集され得る。いくつかの例において、混合規則算出器402は、合成エンジン334の外部にあり得る。いくつかの例において、図3aの混合規則算出器402は、図3bのパラメータ再構築モジュール316と統合され得る。
合成信号(336、340、yR)の合成チャンネルの数は、1つより多く(場合によっては、2つより多いか、または3つより多い)、原信号(212、y)の原チャンネルの数よりも多いか、少ないか、または同じである可能性があり、原チャンネルの数も1つより多い(場合によっては、2つより多いか、または3つより多い)。ダウンミックス信号(246、216、x)のチャンネルの数は、少なくとも1つまたは2つであり、原信号(212、y)の原チャンネルの数および合成信号(336、340、yR)の合成チャンネルの数よりも少ない。
入力インターフェース312は、符号化されたビットストリーム248(たとえば、符号化器200によって符号化された同じビットストリーム248)を読み取ることができる。入力インターフェース312は、ビットストリームリーダおよび/またはエントロピ復号器であり得るか、またはそれらを含み得る。ビットストリーム248は、上記で説明したように、ダウンミックス信号(246、x)およびサイド情報228を符号化し得る。サイド情報228は、たとえば、パラメータ推定器218によって、またはパラメータ推定器218の下流の任意の要素(たとえば、パラメータ量子化ブロック222など)によって出力される形式のいずれかで、元のチャンネルレベルおよび相関情報220を含み得る。サイド情報228は、符号化された値またはインデックス付けされた値、あるいはその両方を含み得る。図3bにおいてダウンミックス信号(346、x)について入力インターフェース312が示されていない場合でも、入力インターフェース312は、それでもなお、図3aのようにダウンミックス信号にも適用され得る。いくつかの例において、入力インターフェース312は、ビットストリーム248から取得されたパラメータを量子化し得る。
したがって、復号器300は、時間領域内にあり得るダウンミックス信号(246、x)を取得し得る。上記で説明したように、ダウンミックス信号246は、フレームおよび/またはスロットに分割され得る(上記参照)。例において、フィルタバンク320は、時間領域内のダウンミックス信号246を変換して、周波数領域内のダウンミックス信号246のバージョン324を取得することができる。上記で説明したように、ダウンミックス信号246の周波数領域バージョン324の帯域は、帯域のグループにグループ化され得る。例において、フィルタバンク214で実行されるのと同じグループ化(上記参照)が実施され得る。グループ化のためのパラメータ(たとえば、どの帯域および/またはいくつの帯域をグループ化するべきか...)は、たとえば、パーティショングルーパ265または帯域解析ブロック267によるシグナリングに基づくことができ、シグナリングはサイド情報228内に符号化される。
復号器300は、プロトタイプ信号算出器326を含み得る。プロトタイプ信号算出器326は、たとえば、プロトタイプ規則(たとえば、行列Q)を適用することによって、ダウンミックス信号(たとえば、バージョン324、246、xのうちの1つ)からプロトタイプ信号328を算出し得る。プロトタイプ規則は、第1の次元および第2の次元を有するプロトタイプ行列(Q)によって具現化され得、第1の次元はダウンミックスチャンネルの数に関連付けられ、第2の次元は合成チャンネルの数に関連付けられる。したがって、プロトタイプ信号は、最終的に生成される合成信号340のいくつかのチャンネルを有する。
プロトタイプ信号算出器326は、それほど多くの「インテリジェンス」を適用せずに、より多くのチャンネルの数(生成される合成信号のチャンネルの数)でダウンミックス信号(324、246、x)のバージョンを単純に生成するという意味で、いわゆるアップミックスをダウンミックス信号(324、246、x)に適用し得る。例において、プロトタイプ信号算出器326は、固定された既定のプロトタイプ行列(本文書では「Q」として識別される)を、ダウンミックス信号246のFDバージョン324に単純に適用し得る。例において、プロトタイプ信号算出器326は、異なるプロトタイプ行列を異なる帯域に適用し得る。プロトタイプ規則(Q)は、たとえば、特定の数のダウンミックスチャンネルおよび特定の数の合成チャンネルに基づいて、複数の事前に記憶されたプロトタイプ規則の中から選択され得る。
プロトタイプ信号328の非相関バージョン332を取得するために、非相関化モジュール330においてプロトタイプ信号328が非相関化され得る。しかし、いくつかの例では、有利には、非相関化モジュール330の回避を可能にするのに本発明が十分に有効であることが証明されているので、非相関化モジュール330は存在しない。
(バージョン328、332のいずれかの)プロトタイプ信号は、合成エンジン334に(具体的には、合成プロセッサ404に)入力され得る。ここで、合成信号(336、yR)を取得するために、プロトタイプ信号(328、332)が処理される。合成エンジン334(具体的には、合成プロセッサ404)は、混合規則403を適用することができる(いくつかの例では、以下で説明するように、混合規則は2つであり、たとえば、1つは合成信号の主成分用の混合規則、1つは残差成分用の規則である)。混合規則403は、たとえば、行列によって具現化され得る。行列403は、たとえば、原信号(212、y)のチャンネルレベルおよび相関情報(314、ξ、χまたはその要素など)に基づいて、混合規則算出器402によって生成され得る。
合成エンジン334によって(具体的には、合成プロセッサ404によって)によって出力される合成信号336は、任意選択で、フィルタバンク338においてフィルタリングされ得る。追加として、または代替として、合成信号336は、フィルタバンク338において時間領域に変換され得る。したがって、合成信号336の(時間領域内の、またはフィルタリングされたのいずれかの)バージョン340は、(たとえば、ラウドスピーカによる)オーディオ再現のために使用され得る。
混合規則(たとえば、混合行列)403を取得するために、原信号のチャンネルレベルおよび相関情報(たとえば、Cy
Figure 0007471326000011
など)、ならびにダウンミックス信号に関連する共分散情報(たとえば、Cx)が、混合規則算出器402に提供され得る。この目的のために、符号化器200によってサイド情報228内に符号化されたチャンネルレベルおよび相関情報220を利用することが可能である。
しかし、場合によっては、ビットストリーム248内に符号化される情報の量を低減するために、すべてのパラメータが符号化器200によって符号化されるわけではない(たとえば、原信号212のチャンネルレベルおよび相関情報全体ではない、かつ/または、ダウンミックスされた信号246の共分散情報全体ではない)。したがって、いくつかのパラメータ318は、パラメータ再構築モジュール316において推定されることになる。
パラメータ再構築モジュール316は、たとえば、
たとえばダウンミックス信号246のフィルタリングされたバージョンまたはFDバージョンであり得る、ダウンミックス信号246(x)のバージョン322、および
(チャンネルレベルおよび相関情報220を含む)サイド情報228
のうちの少なくとも1つによって供給され得る。
サイド情報228は、原信号(212、y)の相関行列Cyに関連する情報を(入力信号のレベルおよび相関情報として)含み得る。しかし、場合によっては、相関行列Cyのすべての要素が実際に符号化されるわけではない。したがって、相関行列Cyのバージョン(
Figure 0007471326000012
)を(たとえば、推定バージョン
Figure 0007471326000013
を取得する中間ステップを介して)再構築するための推定技法および再構築技法が開発された。
モジュール316に提供されるパラメータ314は、エントロピ復号器312(入力インターフェース)によって取得され得、たとえば、量子化され得る。
図3cは、図1~図3bの復号器のうちの1つの一実施形態であり得る復号器300の一例を示す。ここで、復号器300は、デマルチプレクサによって表される入力インターフェース312を含む。復号器300は、合成信号340を出力し、合成信号340は、たとえば、ラウドスピーカによってTDにおいて再生され得る(信号340)、またはFDにおいて再生され得る(信号336)。図3cの復号器300は、コア復号器347を含み得、コア復号器347もまた、入力インターフェース312の一部であり得る。したがって、コアデコーダ347は、ダウンミックス信号x、246を提供し得る。フィルタバンク320は、ダウンミックス信号246をTDからFDに変換し得る。ダウンミックス信号x、246のFDバージョンは、324で示されている。FDダウンミックス信号324は、共分散合成ブロック388に提供され得る。共分散合成ブロック388は、FDにおいて合成信号336(Y)を提供し得る。逆フィルタバンク338は、オーディオ信号314を、そのTDバージョン340に変換し得る。FDダウンミックス信号324は、帯域/スロットグループ化ブロック380に提供され得る。帯域/スロットグループ化ブロック380は、符号化器において、図5および図2dのパーティショングループ化ブロック265によって実行された動作と同じ動作を実行し得る。図5および図2dのダウンミックス信号216の帯域が、符号化器においていくつかの(幅が広い)帯域にグループ化または集約されており、パラメータ220(ICC、ICLD)が集約帯域のグループに関連付けられているので、次に、復号されたダウンミックス信号を同じ方法で集約し、各集約帯域を関連するパラメータに関連付ける必要がある。したがって、数字385は、集約された後のダウンミックス信号XBを指す。フィルタは集約されていないFD表現を提供し、したがって、符号化器と同じ方法でパラメータを処理できるようにするために、復号器(380)における帯域/スロットグループ化は、符号化器と同じように帯域/スロットにわたって集約を行い、集約されたダウンミックスXBを提供することに留意されたい。
帯域/スロットグループ化ブロック380はまた、フレーム内の異なるスロットにわたって集約し、その結果、信号385もまた、符号化器と同様にスロット次元において集約される。帯域/スロットグループ化ブロック380はまた、ビットストリーム248のサイド情報228内に符号化された、過渡現象の存在、場合によってはフレーム内の過渡現象の位置も示す情報261を受信し得る。
共分散推定ブロック384において、ダウンミックス信号246(324)の共分散Cxが推定される。共分散Cyは、共分散計算ブロック386において、たとえば、この目的のために使用され得る式(4)~式(8)を用いることによって取得される。図3cは、たとえば、パラメータ220(ICCおよびICLD)であり得る「マルチチャンネルパラメータ」を示す。次いで、共分散CyおよびCxは共分散合成ブロック388に提供されて、合成信号388が合成される。いくつかの例において、ブロック384、386、および388は、共に利用される場合、上述および後述するように、パラメータ再構築316と、混合の算出402および合成プロセッサ404との両方を具現化し得る。
4 考察
4.1 概要
本例の新規な手法は、とりわけ、原信号に可能な限り近いサウンド品質を維持し、マルチチャンネル信号の空間特性を保ちながら、マルチチャンネルコンテンツの符号化および復号を低ビットレート(160kbits/sec以下を意味する)で実行することを目的とする。新規な手法うちの1つの機能は、前述のDirACフレームワーク中に適合することでもある。出力信号は、入力212と同じラウドスピーカ設定で、または(ラウドスピーカによってより大きくまたはより小さくなり得る)異なる設定で、レンダリングされ得る。また、出力信号は、バイノーラルレンダリングを使用してラウドスピーカ上でレンダリングされ得る。
本セクションでは、本発明および本発明を構成する様々なモジュールについて詳細に説明する。
提案するシステムは、2つの主要な部分で構成される。
- 符号化器200。符号化器200は、入力信号212から必要なパラメータ220を導出し、(222において)それらを量子化し、(226において)それらを符号化する。符号化器200はまた、ビットストリーム248内に符号化される(復号器300に送信され得る)ダウンミックス信号246を計算し得る。
- 復号器300。復号器300は、原信号212に可能な限り近い品質のマルチチャンネル出力を作成するために、符号化された(たとえば、送信された)パラメータおよびダウンミックスされた信号246を使用する。
図1は、一例による、提案する新規な手法の概要を示す。いくつかの例は、全体図に示されているビルディングブロックのサブセットのみを使用し、適用シナリオに応じて特定の処理ブロックを取り除くことに留意されたい。
本発明への入力212(y)は、時間領域または時間周波数領域(たとえば、信号216)におけるマルチチャンネルオーディオ信号212(「マルチチャンネルストリーム」とも呼ぶ)であり、たとえば、ラウドスピーカのセットによって作成される、またはラウドスピーカのセットによって再生されることを意図した、オーディオ信号のセットを意味する。
処理の最初の部分は符号化部分である。時間領域内または周波数領域内のいずれかの入力信号212から導出されるパラメータのセットまたはサイド情報228(4.2.2&4.2.3参照)と共に、マルチチャンネルオーディオ信号から、いわゆる「ダウンミックス」信号246が計算される(4.2.6参照)。これらのパラメータは符号化され(4.2.5参照)、場合によっては復号器300に送信される。
次いで、ダウンミックス信号246および符号化されたパラメータ228は、プロセスの符号化器側および復号器側を連結するコアコーダおよび伝送路(transmission canal)に送信され得る。
復号器側では、ダウンミックスされた信号が処理され(4.3.3&4.3.4)、送信されたパラメータが復号される(4.3.2参照)。復号されたパラメータは、共分散合成を使用した出力信号の合成に使用され(4.3.5参照)、これにより、時間領域での最終的なマルチチャンネル出力信号がもたらされる。
詳細に入る前に、確立すべき一般特性がいくつかあり、その一般特性のうちの少なくとも1つが有効である。
- 処理は、任意のラウドスピーカ設定と共に使用され得る。ラウドスピーカの数を増やすと、プロセスの複雑さおよび送信されるパラメータの符号化に必要なビットも増えることに留意されたい。
- 処理全体はフレームベースで実施され得る。すなわち、入力信号212は、独立して処理されるフレームに分割され得る。符号化器側では、各フレームが、パラメータのセットを生成し、パラメータのセットは、復号器側に送信されて処理される。
- フレームはまた、スロットに分割され得る。この場合、これらのスロットは、フレームスケールでは取得できなかった統計的特性を提示する。フレームは、たとえば8つのスロットに分割され得、各スロットの長さはフレームの長さの1/8に等しくなる。
4.2 符号化器
符号化器の目的は、マルチチャンネル信号212を記述するための適切なパラメータ220を抽出し、(222において)それらを量子化し、(226において)それらをサイド情報228として符号化し、次いで、場合によっては、それらを復号器側に送信することである。ここでは、パラメータ220およびそれらをどのように計算できるかについて詳細に説明する。
符号化器200のより詳細な方式は、図2a~図2dにおいて見出すことができる。この概要では、符号化器の2つの主要な出力228および246に焦点を当てる。
符号化器200の第1の出力は、マルチチャンネルオーディオ入力212から計算されるダウンミックス信号228である。ダウンミックス信号228は、元のコンテンツ(212)よりも少ないチャンネルでの元のマルチチャンネルストリーム(信号)の表現である。その計算のさらなる情報については、4.2.6項において見出すことができる。
符号化器200の第2の出力は、ビットストリーム248においてサイド情報228として表される符号化されたパラメータ220である。これらのパラメータ220は、本例の要点である。これらは、復号器側のマルチチャンネル信号を効率的に記述するために使用されるパラメータである。これらのパラメータ220は、パラメータ220をビットストリーム248内に符号化するために必要なビットの品質と量との間の良好なトレードオフを提供する。符号化器側では、パラメータ計算はいくつかのステップで実施され得る。周波数領域内のプロセスについて説明するが、時間領域内でも同様に実行され得る。パラメータ220は、最初にマルチチャンネル入力信号212から推定され、次いで、それらは量子化器222で量子化され得、次いでそれらはサイド情報228としてデジタルビットストリーム248に変換され得る。これらのステップについてのさらなる情報については、4.2.2、4.2.3、および4.2.5項において見出すことができる。
4.2.1 フィルタバンク&パーティショングループ化
符号化器側のフィルタバンク(たとえば、フィルタバンク214)または復号器側のフィルタバンク(たとえば、フィルタバンク320および/または338)について説明する。
本発明は、プロセス中の様々な時点でフィルタバンクを利用することができる。これらのフィルタバンクは、信号を時間領域から周波数領域(いわゆる集約帯域またはパラメータ帯域)に変換することができ、この場合は「解析フィルタバンク」と呼び、または、信号を周波数から時間領域に変換することができ(たとえば、338)、この場合は「合成フィルタバンク」と呼ぶ。
フィルタバンクの選択は、性能および所望の最適化要件に一致する必要があるが、残りの処理は、フィルタバンクの特定の選択とは独立して実行され得る。たとえば、直交ミラーフィルタに基づくフィルタバンク、または短時間フーリエ変換ベースのフィルタバンクを使用することが可能である。
図5を参照すると、符号化器200のフィルタバンク214の出力は、一定数の周波数帯域にわたって表される周波数領域内の信号216(264に関する266)である。すべての周波数帯域(264)に対して残りの処理を実行することは、より良い品質およびより良い周波数分解能を提供すると理解され得るが、すべての情報を送信するには、さらに多くの重要なビットレートも必要になる。したがって、より小さい帯域のセットで情報266を表すために、いくつかの周波数を共にグループ化することに対応するいわゆる「パーティショングループ化」(265)が、フィルタバンクプロセスと共に実行される。
たとえば、フィルタ263(図5)の出力264は、128帯域で表され得、265でのパーティショングループ化は、20帯域のみを有する信号266(216)をもたらし得る。帯域を共にグループ化する方法はいくつかあるが、有意義な方法の1つは、たとえば、等価矩形帯域幅を概算するよう試みることであり得る。等価矩形帯域幅は、人間の聴覚系がオーディオイベントをどのように処理するかをモデル化しようと試みる、心理音響的に動機付けられた帯域分割の一種であり、すなわち、目的は、人間の聴力に適した方法でフィルタバンクをグループ化することである。
4.2.2 パラメータ推定(たとえば、推定器218)
態様1:マルチチャンネルコンテンツを記述および合成するための共分散行列の使用
218でのパラメータ推定は、本発明の主要なポイントの1つである。これらは、出力マルチチャンネルオーディオ信号を合成するために復号器側で使用される。これらの(サイド情報228として符号化される)パラメータ220は、マルチチャンネル入力ストリーム(信号)212を効率的に記述し、大量のデータを送信する必要がないという理由で選択されている。これらのパラメータ220は、符号化器側で計算され、後で、出力信号を計算するために復号器側の合成エンジンと共同で使用される。
ここで、マルチチャンネルオーディオ信号のチャンネルとダウンミックス信号のチャンネルとの間で、共分散行列が計算され得る。すなわち、
- Cy:マルチチャンネルストリーム(信号)の共分散行列、および/または
- Cx:ダウンミックスストリーム(信号)の共分散行列246
処理はパラメータ帯域ベースで実行され得、したがって、パラメータ帯域は、別のパラメータ帯域から独立しており、一般性を失うことなく所与のパラメータ帯域の方程式が記述され得る。
所与のパラメータ帯域に対して、共分散行列は次のように定義される。
Figure 0007471326000014
Figure 0007471326000015
- Rは、実数部演算子を示す。
- 実数部の代わりに、それは派生元の複素数値(たとえば、絶対値)と関係のある実数値をもたらす任意の他の演算とすることができる。
- *は、共役転置演算子を示す。
- Bは、元の帯域数とグループ化された帯域との間の関係を示す(パーティショングループ化についての4.2.1参照)。
- YおよびXは、それぞれ元のマルチチャンネル信号212および周波数領域内のダウンミックスされた信号246である。
Cy(もしくはその要素、またはCyもしくはその要素から得られる値)は、原信号212のチャンネルレベルおよび相関情報としても示される。Cx(もしくはその要素、またはCyもしくはその要素から得られる値)は、ダウンミックス信号212に関連する共分散情報としても示される。
所与のフレーム(および帯域)に対して、たとえば推定器ブロック218によって、1つもしくは2つの共分散行列Cyおよび/またはCxのみが出力され得る。プロセスはスロットベースであり、フレームベースではないため、所与のスロットのための行列とフレーム全体のための行列との間の関係に関して、様々な実装が実行され得る。一例として、1つのフレームのための行列を出力するために、フレーム内の各スロットの共分散行列を計算し、それらを合計することが可能である。共分散行列を計算するための定義は数学的なものであるが、特定の特性を有する出力信号を取得したい場合は事前にこれらの行列を計算するか、または少なくとも変更することも可能であることに留意されたい。
上記で説明したように、実際には行列Cyおよび/またはCxのすべての要素がビットストリーム248のサイド情報228内に符号化される必要はない。Cxの場合、式(1)を適用することによって符号化されたダウンミックス信号246から、要素を簡単に推定することが可能であり、したがって、符号化器200は、Cxの(または、より一般的には、ダウンミックス信号に関連する共分散情報の)任意の要素を符号化することを単に容易に控えることができる。Cyの場合(または、原信号に関連するチャンネルレベルおよび相関情報の場合)、復号器側において、以下で説明する技法を使用することによってCyの要素のうちの少なくとも1つを推定することが可能である。
態様2a:マルチチャンネルオーディオ信号を記述および再構築するための共分散行列ならびに/またはエネルギーの送信
前述のように、合成には共分散行列が使用される。これらの共分散行列(またはそのサブセット)を符号化器から復号器に直接送信することが可能である。いくつかの例において、行列Cxは、復号器側において、ダウンミックスされた信号246を使用して再計算され得るので、必ずしも送信される必要はないが、適用シナリオによっては、この行列が送信パラメータとして必要になる場合がある。
実装の観点から、たとえば、ビットレートに関する特定の要件を満たすために、これらの行列Cx、Cy内のすべての値を符号化または送信する必要はない。送信されない値は、復号器側において推定され得る(4.3.2参照)。
態様2b:マルチチャンネル信号を記述および再構築するためのチャンネル間コヒーレンスおよびチャンネル間レベル差の送信
共分散行列Cx、Cyから、パラメータの代替セットが定義され、復号器側でマルチチャンネル信号212を再構築するために使用され得る。すなわち、これらのパラメータは、たとえば、チャンネル間コヒーレンス(ICC)および/またはチャンネル間レベル差(ICLD)であり得る。
チャンネル間コヒーレンスは、マルチチャンネルストリームの各チャンネル間のコヒーレンスを表す。このパラメータは、共分散行列Cyから導出され、(所与のパラメータ帯域、および2つの所与のチャンネルiおよびチャンネルjについて)次のように計算され得る。
Figure 0007471326000016
- ξi,jは、入力信号212のチャンネルiとチャンネルjとの間のICCである。
-
Figure 0007471326000017
は、前に式(1)で定義された、入力信号212のチャンネルiとチャンネルjとの間のマルチチャンネル信号の共分散行列内の値である。
ICC値は、マルチチャンネル信号のあらゆるチャンネル間で計算され得、これにより、マルチチャンネル信号のサイズが大きくなるにつれて、大量のデータをもたらすことができる。実際には、ICCの削減されたセットが、符号化および/または送信され得る。いくつかの例では、性能要件に応じて、符号化および/または送信される値を定義する必要がある。
たとえば、5.1(または5.0)によって作成された信号を、ITU勧告「ITU-R BS.2159-4」で定義されているような定義済みのラウドスピーカ設定として処理する場合、4つのICCのみを送信するように選択することが可能である。これらの4つのICCは、
- 中央チャンネルと右チャンネル
- 中央チャンネルと左チャンネル
- 左チャンネルと左サラウンドチャンネル
- 右チャンネルと右サラウンドチャンネル
の間のいずれかであり得る。
一般に、ICC行列から選択されたICCのインデックスは、ICCマップによって記述される。
一般に、ラウドスピーカ設定ごとに、平均して最高の品質を提供するICCの固定セットが、符号化および/または復号器に送信されるように選択され得る。ICCの数、およびどのICCを送信するかは、ラウドスピーカ設定および/または利用可能な合計ビットレートに依存する可能性があり、ビットストリーム248においてICCマップを送信する必要なしに、どちらも符号化器および復号器で利用可能である。言い換えれば、ICCの固定セットおよび/または対応する固定ICCマップは、たとえば、ラウドスピーカ設定および/または合計ビットレートに応じて使用され得る。
この固定セットは特定の材料には適さない可能性があり、場合によっては、ICCの固定セットを使用するすべての材料の平均品質よりも大幅に悪い品質を生じさせる可能性がある。これを克服するために、別の例では、あらゆるフレーム(またはスロット)について、特定のICCの重要性の特徴に基づいて、ICCの最適なセットおよび対応するICCマップが推定され得る。次いで、現在のフレームに使用されるICCマップは、ビットストリーム248内の量子化されたICCと共に明示的に符号化および/または送信される。
たとえば、ICCの重要性の特徴は、4.3.2からの式(4)および式(6)を使用する復号器と同様に、式(1)からのダウンミックス共分散Cxを使用して、共分散の推定値
Figure 0007471326000018
またはICC行列の推定値
Figure 0007471326000019
を生成することによって決定され得る。選択した特徴に応じて、パラメータが現在のフレームで送信されてすべての帯域について結合されるあらゆる帯域について、あらゆるICCまたは共分散行列における対応するエントリについて、特徴が計算される。次いで、この組み合わされた特徴行列を使用して、最も重要なICC、したがって、使用するICCのセットおよび送信するICCマップを決定する。
たとえば、ICCの重要性の特徴は、推定された共分散
Figure 0007471326000020
のエントリと、実際の共分散Cyのエントリとの間の絶対誤差であり、組み合わされた特徴行列は、現在のフレームで送信されるすべての帯域にわたるあらゆるICCの絶対誤差の合計である。組み合わされた特徴行列から、合計された絶対誤差が最も高いn個のエントリが選択され、nは、ラウドスピーカ/ビットレートの組合せに対して送信されるICCの数であり、エントリからICCマップが作成される。
さらに、図6bにおけるような別の例では、フレーム間でICCマップが過度に変更されないようにするために、以前のパラメータフレームの選択されたICCマップ内にあったあらゆるエントリについて、たとえば共分散の絶対誤差の場合は前のフレームのICCマップのエントリに係数>1(220k)を適用することによって、特徴行列が強調され得る。
さらに、別の例では、ビットストリーム248のサイド情報228内で送信されるフラグは、固定ICCマップまたは最適ICCマップが現在のフレームで使用されるかどうかを示し得、フラグが固定セットを示す場合、ICCマップは、ビットストリーム248内で送信されない。
最適ICCマップは、たとえば、ビットマップとして符号化および/または送信される(たとえば、ICCマップは、図6aの情報254'を具現化し得る)。
ICCマップを送信するための別の例は、インデックスをすべての可能なICCマップのテーブルに送信することであり、インデックス自体は、たとえば、追加としてエントロピ符号化される。たとえば、すべての可能なICCマップのテーブルがメモリに記憶されるわけではなく、インデックスによって示されるICCマップが、インデックスから直接計算される。
ICCと共に(または単独で)送信され得る第2のパラメータは、ICLDである。「ICLD」は、チャンネル間レベル差を表し、入力マルチチャンネル信号212の各チャンネル間のエネルギー関係を表す。ICLDの固有の定義はない。この値の重要な態様は、マルチチャンネルストリーム内のエネルギー比を表していることである。一例として、CyからICLDへの変換は、次のように取得することができる。
Figure 0007471326000021
- χiはチャンネルiのICLDである。
- Piは現在のチャンネルiのパワーであり、Cyの対角線、すなわち、
Figure 0007471326000022
から抽出することができる。
- Pdmx,iはチャンネルiに依存するが、常にCxの値の線形結合になる。また、元のスピーカの設定にも依存する。
例において、Pdmx,iは、どのチャンネルについても同じというわけではなく、(復号器のプロトタイプ行列でもある)ダウンミックス行列に関連するマッピングに依存し、これは、式(3)の下の箇条書きのうちの1つにおいて概して言及している。チャンネルiがダウンミックスチャンネルのうちの1つだけにダウンミックスされているか、ダウンミックスチャンネルのうちの2つ以上のチャンネルにダウンミックスされているかによって異なる。言い換えると、Pdmx,iは、ダウンミックス行列にゼロ以外の要素があるCxのすべての対角要素の合計であるか、またはその合計を含み得、したがって、式(3)を、
Figure 0007471326000023
と書き換えることができる。式中、αiは、ダウンミックスに対するチャンネルの予想されるエネルギー寄与に関連する重み係数であり、この重み係数は、特定の入力ラウドスピーカ構成に対して固定され、符号化器と復号器の両方で認識される。行列Qの概念は、以下で提供されている。αiおよび行列Qのいくつかの値も、本文書の最後に記載されている。
すべての入力チャンネルiのマッピングを定義する実装の場合、マッピングインデックスは、入力チャンネルiが単独で混合されるダウンミックスのチャンネルjであるか、マッピングインデックスがダウンミックスチャンネルの数よりも大きい場合である。したがって、次のように、Pdmx,iを決定するために使用されるマッピングインデックスmICLD,iがある。
Figure 0007471326000024
4.2.3 パラメータ量子化
量子化パラメータ224を得るためのパラメータ220の量子化の例は、たとえば、図2bおよび図4のパラメータ量子化モジュール222によって実行され得る。
パラメータ220のセットが計算されると、すなわち、共分散行列{Cx,Cy}またはICCおよびICLD{ξ,χ}のいずれかが計算されると、これらは量子化される。量子化器の選択は、送信するデータの品質と量との間のトレードオフであり得るが、使用される量子化器に関する制限はない。
一例として、ICCおよびICLDが使用される場合、ある量子化器は、ICCの間隔[-1,1]に10の量子化ステップを含む非線形量子化器とすることができ、別の量子化器は、ICLDの間隔[-30,30]に20の量子化ステップを含む非線形量子化器とすることができる。
また、実装の最適化として、送信されたパラメータをダウンサンプリングすることを選択すること、すなわち、量子化されたパラメータ224を2つ以上のフレームで連続して使用することが可能である。
一態様において、現在のフレームにおいて送信されるパラメータのサブセットは、ビットストリーム内のパラメータフレームインデックスによってシグナリングされる。
4.2.4 過渡現象の取扱い、ダウンサンプリングされたパラメータ
ここで後述するいくつかの例は、図5に示されているものと理解され得、これは、図1および図2dのブロック214の一例であり得る。
(たとえば、図5のブロック265で取得された)ダウンサンプリングされたパラメータセットの場合、すなわち、パラメータ帯域のサブセットのパラメータセット220は、2つ以上の処理済みのフレームのために使用することができ、2つ以上のサブセットに現れる過渡現象は、局在化およびコヒーレンスの観点から保存することはできない。したがって、そのようなフレーム内のすべての帯域のパラメータを送信することが有利であり得る。この特殊なタイプのパラメータフレームは、たとえば、ビットストリーム内のフラグによってシグナリングされ得る。
一態様では、信号212内のそのような過渡現象を検出するために、258での過渡現象検出が使用される。現在のフレーム内の過渡現象の位置も検出され得る。各過渡現象位置がフィルタバンク214のスロットまたはスロットのグループに対応し得るように、時間粒度は、使用されるフィルタバンク214の時間粒度に有利にリンクされ得る。次いで、たとえば、過渡現象を含むスロットから現在のフレームの終端までのスロットのみを使用して、過渡現象位置に基づいて、共分散行列CyおよびCxを計算するためのスロットが選択される。
過渡現象検出器(または過渡現象解析ブロック258)は、ダウンミックスされた信号212のコーディングにも使用される過渡現象検出器、たとえば、IVASコアコーダの時間領域過渡現象検出器であり得る。したがって、図5の例は、ダウンミックス計算ブロック244の上流にも適用され得る。
一例では、過渡現象の発生は1ビット(たとえば、「フレーム内に過渡現象があった」ことを意味する「1」、それに対して「フレームに過渡現象がなかった」ことを意味する「0」など)を使用して符号化され、過渡現象が検出された場合に追加として、復号器300において同様の処理を可能にするために、ビットストリーム248内の符号化フィールド261(過渡現象に関する情報)として、過渡現象の位置が符号化および/または送信される。
過渡現象が検出され、すべての帯域の送信が実行される(たとえば、シグナリングされる)場合、通常のパーティショングループ化を使用してパラメータ220を送信すると、結果として、パラメータ220をビットストリーム248内のサイド情報228として送信するのに必要なデータレートが急上昇する可能性がある。さらに、時間分解能は、周波数分解能よりも重要である。したがって、ブロック265において、そのようなフレームのパーティショングループ化を(たとえば、信号バージョン264に多くの帯域から信号バージョン266のより少ない帯域に)変更して、送信する帯域を少なくすることが有利であり得る。例では、たとえば、パラメータの通常のダウンサンプル係数2に対して、すべての帯域にわたって2つの隣接する帯域を組み合わせることによって、このような異なるパーティショングループ化を使用する。一般的には、過渡現象の発生は、共分散行列自体が過渡現象の前後で大きく異なることが予想され得ることを意味する。過渡現象の前のスロットのアーチファクトを回避するために、過渡現象スロット自体と、フレームの終端までの後続のすべてのスロットのみが考慮され得る。これは、事前に信号が十分に静止しているという仮定にも基づいており、前のフレームに対して導出された情報および混合規則を、過渡現象に先行するスロットに対しても使用することが可能である。
要約すると、符号化器は、フレームのどのスロットで過渡現象が発生したかを判断し、過渡現象に先行するスロットに関連付けられた原信号(212、y)のチャンネルレベルおよび相関情報(220)を符号化せずに、過渡現象が発生したスロットおよび/またはフレーム内の後続スロットに関連付けられた原信号(212、y)のチャンネルレベルおよび相関情報(220)を符号化するように構成され得る。
同様に、復号器は、過渡現象の存在および1つのフレーム内の過渡現象の位置がシグナリングされると(261)、(たとえば、ブロック380において)
現在のチャンネルレベルおよび相関情報(220)を、過渡現象が発生したスロットおよび/またはフレーム内の後続スロットに関連付け、
先行スロットのチャンネルレベルおよび相関情報(220)を、過渡現象が発生したスロットに先行するフレームのスロットに関連付け得る。
過渡現象のもう1つの重要な態様は、現在のフレーム内に過渡現象が存在すると判断された場合、現在のフレームに対して平滑化演算がこれ以上実行されないことである。過渡現象がある場合、CyおよびCxの平滑化は行われず、現在のフレームからのCyRおよびCxが、混合行列の算出に使用される。
4.2.5 エントロピコーディング
エントロピコーディングモジュール(ビットストリームライタ)226は、最後の符号化器のモジュールであり得、その目的は、以前に取得された量子化された値を、「サイド情報」とも呼ばれるバイナリビットストリームに変換することである。
値を符号化するために使用される方法は、一例として、ハフマンコーディング[6]またはデルタコーディングであり得る。コーディング方法はそれほど重要ではなく、最終的なビットレートにのみ影響する。実現したいビットレートに応じて、コーディング方法を適応させるべきである。
ビットストリーム248のサイズを低減するために、いくつかの実装最適化が実行され得る。一例として、ビットストリームサイズの観点からどちらがより効率的であるかに応じて、ある符号化方式から別の符号化方式に切り替えるスイッチングメカニズムが実装され得る。
たとえば、パラメータは、1つのフレームの周波数軸に沿ってデルタコーディングされ、結果として得られる一連のデルタインデックスは、レンジコーダによってエントロピコーディングされる。
また、パラメータダウンサンプリングの場合、同様に一例として、データを継続的に送信するために、フレームごとにパラメータ帯域のサブセットのみを送信するメカニズムが実装され得る。
これらの2つの例では、符号化器側での処理の復号器固有の態様をシグナリングするために、信号化ビットが必要である。
4.2.6 ダウンミックス計算
処理のダウンミックス部244は単純であるが、いくつかの例では極めて重要であり得る。本発明において使用されるダウンミックスは、パッシブなものであり得、これは、処理中、ダウンミックスが計算される方法が同じままであり、所与の時間における信号またはその特性に依存しないことを意味する。それでもなお、(たとえば、[7]で説明されているように)244でのダウンミックス計算をアクティブなものに拡張できることが理解されている。
ダウンミックス信号246は、2つの異なる場所で計算され得る。
- 1回目は、パラメータ推定(4.2.2参照)のために符号化器側で計算され、その理由は、(いくつかの例において)共分散行列Cxの計算にダウンミックス信号246が必要とされ得るからである。
- 2回目は、符号化器側で計算され、(時間領域内の)符号化器200と復号器300との間において、ダウンミックスされた信号246は、符号化および/または復号器300に送信され、モジュール334での合成の基礎として使用される。
一例として、5.1入力のステレオダウンミックスの場合、ダウンミックス信号は次のように計算され得る。
- ダウンミックスの左チャンネルは、左チャンネルと、左サラウンドチャンネルと、中央チャンネルとの合計である。
ダウンミックスの右チャンネルは、右チャンネルと、右サラウンドチャンネルと、中央チャンネルとの合計である。または、5.1入力のモノラルのダウンミックスの場合、ダウンミックス信号はマルチチャンネルストリームのすべてのチャンネルの合計として計算される。
例において、ダウンミックス信号246の各チャンネルは、たとえば一定のパラメータを用いて、原信号212のチャンネルの線形結合として取得され得、それにより、パッシブダウンミックスを実装する。
ダウンミックスされた信号の計算は、処理の必要性に応じて拡張され、さらなるラウドスピーカ設定に適応され得る。
態様3:パッシブダウンミックスと低遅延フィルタバンクとを使用した低遅延処理
本発明は、パッシブダウンミックス、たとえば5.1入力について前述したものと、低遅延フィルタバンクとを使用することによって、低遅延処理を提供することができる。これらの2つの要素を使用して、符号化器200と復号器300との間で5ミリ秒未満の遅延を実現することが可能である。
4.3 復号器
復号器の目的は、符号化された(たとえば、送信された)ダウンミックス信号(246、324)と符号化されたサイド情報228とを使用して、所与のラウドスピーカ設定でオーディオ出力信号(336、340、yR)を合成することである。復号器300は、入力(212、y)に使用されるものと同じラウドスピーカ設定または異なるラウドスピーカ設定で出力オーディオ信号(334、240、yR)をレンダリングすることができる。一般性を失うことなく、入力ラウドスピーカと出力ラウドスピーカの設定は同じであると想定される(ただし、例では異なる場合がある)。このセクションでは、復号器300を構成し得る様々なモジュールについて説明する。
図3aおよび図3bは、可能な復号器処理の詳細な概要を示す。図3b内のモジュールのうちの少なくともいくつか(具体的には、320、330、338などの破線の境界線を有するモジュール)は、所与のアプリケーションの必要性および要件に応じて取り除くことができることに留意することが重要である。復号器300には、符号化器200から2セットのデータ、すなわち、
- 符号化されたパラメータを有するサイド情報228(4.2.2に記載)
- 時間領域内にあり得るダウンミックスされた信号(246、y)(4.2.6に記載)
が入力され得る(たとえば、受信され得る)。
符号化されたパラメータ228は、最初に(たとえば、入力ユニット312によって)、以前に使用された逆コーディング方法を用いて復号される必要があり得る。このステップが完了すると、合成に関連するパラメータ、たとえば、共分散行列が再構築され得る。並行して、ダウンミックスされた信号(246、x)は、いくつかのモジュールを介して処理され得る。最初に、解析フィルタバンク320を使用して(4.2.1参照)、ダウンミックス信号246の周波数領域バージョン324を取得することができる。次いで、プロトタイプ信号328が計算され得(4.3.3参照)、(330での)追加の非相関ステップが実行され得る(4.3.4参照)。合成の主要な箇所は、(たとえば、ブロック316で再構築された)共分散行列およびプロトタイプ信号(328または332)を入力として使用し、最終信号336を出力として生成する、合成エンジン334である(4.3.5参照)。最後に、(たとえば、解析フィルタバンク320が以前に使用された場合)時間領域内で出力信号340を生成する合成フィルタバンク338での最後のステップが実行され得る。
4.3.1 エントロピ復号(たとえば、ブロック312)
ブロック312(入力インターフェース)でのエントロピ復号は、以前に4で得られた量子化されたパラメータ314を取得することを可能にし得る。ビットストリーム248の復号は、単純な動作として理解され得る。ビットストリーム248は、4.2.5で使用された符号化方法に従って読み取られ、次いでそれを復号し得る。
実装の観点から、ビットストリーム248は、データではなく符号化器側での処理のいくつかの特殊性を示すシグナリングビットを含み得る。
たとえば、使用される最初の2ビットは、符号化器200がいくつかの符号化方法間で切り替える可能性がある場合に、どのコーディング方法が使用されているかを示すことができる。また、次のビットは、どのパラメータ帯域現在送信されているかを記述するために使用され得る。
ビットストリーム248のサイド情報内に符号化され得る他の情報は、過渡現象を示すフラグと、フレームのどのスロットで過渡現象が発生したかを示すフィールド261とを含み得る。
4.3.2 パラメータ再構築
パラメータ再構築は、たとえば、ブロック316および/または混合規則算出器402によって実行され得る。
このパラメータ再構築の目標は、ダウンミックスされた信号246から、および/またはサイド情報228(または、量子化されたパラメータ314によって表されるそのバージョン)から、共分散行列CxおよびCy(または、より一般的には、ダウンミックス信号246に関連する共分散情報ならびに原信号のレベルおよび相関情報)を構築することである。これらの共分散行列CxおよびCyは、マルチチャンネル信号246を効率的に記述するものであるので、合成に必須であり得る。
モジュール316でのパラメータ再構築は、2つのステップのプロセスであり得る。
最初に、ダウンミックス信号246から行列Cx(または、より一般的には、ダウンミックス信号246に関連する共分散情報)が再計算される(このステップは、ダウンミックス信号246に関連する共分散情報が実際にビットストリーム248のサイド情報228内に符号化される場合に回避され得る)。
次いで、たとえば、送信されたパラメータと、Cx、より一般的にはダウンミックス信号246に関連する共分散情報とを少なくとも部分的に使用して、行列Cy(または、より一般的には、原信号212のレベルおよび相関情報)が復元され得る(このステップは、原信号212のレベルおよび相関情報が実際にビットストリーム248のサイド情報228内に符号化される場合に回避され得る)。
いくつかの例では、各フレームについて、現在のフレームに先行するフレームの再構築された共分散行列との線形結合を使用して、現在のフレームの共分散行列Cxを、たとえば加算、平均などによって平滑化することが可能であることに留意されたい。たとえば、t番目のフレームでは、式(4)に使用される最終的な共分散は、先行するフレームに対して再構築されたターゲット共分散を考慮に入れることができ、たとえば、
Cx,t=Cx,t+Cx,t-1
である。
しかし、現在のフレーム内に過渡現象が存在すると判断された場合、現在のフレームに対して平滑化演算がこれ以上実行されない。過渡現象がある場合、平滑化は行われず、現在のフレームからのCxが使用される。
プロセスの概要は、以下に見出すことができる。
注記:符号化器に関しては、ここでの処理は、帯域ごとに独立してパラメータ帯域ベースで実行され得る。明確にするために、処理は、1つの特定の帯域についてのみ説明されており、表記はそれに適応している。
態様4a:共分散行列が送信される場合のパラメータの再構築
この態様では、サイド情報228(ダウンミックス信号246に関連する共分散行列、および原信号212のチャンネルレベルおよび相関情報)内の符号化された(たとえば、送信された)パラメータは、態様2aにおいて定義されている共分散行列(または、そのサブセット)であると想定している。しかし、いくつかの例では、ダウンミックス信号246に関連する共分散行列および/または原信号212のチャンネルレベルおよび相関情報は、他の情報によって具現化され得る。
完全な共分散行列CxおよびCyが符号化される(たとえば、送信される)場合、ブロック318で行うべき処理はそれ以上はない(したがって、このような例では、ブロック318を回避され得る)。これらの行列のうちの少なくとも1つのサブセットのみが符号化される(たとえば、送信される)場合、欠損値を推定する必要がある。合成エンジン334において(または、より具体的には、合成プロセッサ404において)使用される最終的な共分散行列は、符号化された(たとえば、送信された)値228および復号器側の推定された値から構成されることになる。たとえば、行列Cyのいくつかの要素のみがビットストリーム248のサイド情報228内に符号化される場合、Cyの残りの要素は、ここで推定される。
ダウンミックス信号246の共分散行列Cxの場合、復号器側で、ダウンミックスされた信号246を使用して欠損値を計算し、式(1)を適用することが可能である。
過渡現象の発生および位置が送信または符号化される態様では、ダウンミックスされた信号246の共分散行列Cxを計算するために、符号化器側でのスロットと同じスロットが使用され得る。
共分散行列Cyの場合、最初の推定で、次のように欠損値が計算され得る。
Figure 0007471326000025
-
Figure 0007471326000026
は、原信号212の共分散行列の推定値である(これは、元のチャンネルレベルおよび相関情報の推定バージョンの一例である)。
- Qは、ダウンミックスされた信号と原信号との間の関係を表す、いわゆるプロトタイプ行列(プロトタイプ規則、推定規則)である(4.3.3参照)(これは、プロトタイプ規則の一例である)
- Cxは、ダウンミックス信号の共分散行列である(これは、ダウンミックス信号212の共分散情報の例である)。
- *は、共役転置を示す。
これらのステップが完了すると、共分散行列が再び取得され、最終的な合成に使用され得る。
態様4b:ICCおよびICLDが送信された場合のパラメータの再構築
この態様の場合、サイド情報228内の符号化された(たとえば、送信された)パラメータは、態様2bで定義されたICCおよびICLD(または、それらのサブセット)であると想定され得る。
この場合、最初に共分散行列Cxを再計算する必要があり得る。この再計算は、復号器側でダウンミックスされた信号212を使用し、式(1)を適用して行われ得る。
過渡現象の発生および位置が送信される態様では、ダウンミックスされた信号の共分散行列Cxを計算するために、符号化器でのスロットと同じスロットが使用される。次いで、ICCおよびICLDから、共分散行列Cyが再計算され得る。この演算は、次のように実行され得る。
マルチチャンネル入力の各チャンネルのエネルギー(レベルとも呼ぶ)が取得され得る。これらのエネルギーは、送信されたICLDおよび次の式を使用して導出される。
Figure 0007471326000027
式中、
Figure 0007471326000028
式中、αiは、ダウンミックスに対するチャンネルの予想されるエネルギー寄与に関連する重み係数であり、この重み係数は、特定の入力ラウドスピーカ構成に対して固定され、符号化器と復号器の両方で認識される。すべての入力チャンネルiのマッピングを定義する実装の場合、マッピングインデックスは、入力チャンネルiが単独で混合されるダウンミックスのチャンネルjであるか、マッピングインデックスがダウンミックスチャンネルの数よりも大きい場合である。したがって、次のように、Pdmx,iを決定するために使用されるマッピングインデックスmICLD,iがある。
Figure 0007471326000029
表記は、4.2.2のパラメータ推定で使用されたものと同じである。
これらのエネルギーは、推定されたCyを正規化するために使用され得る。符号化器側からすべてのICCが送信されない場合、送信されない値について、推定値Cyが計算され得る。推定された共分散行列
Figure 0007471326000030
は、式(4)を使用して、プロトタイプ行列Qおよび共分散行列Cxを用いて取得され得る。
共分散行列のこの推定は、ICC行列の推定につながり、この推定では、インデックス(i,j)の項は、
Figure 0007471326000031
によって与えられ得る。
したがって、「再構築された」行列は、次のように定義され得る。
Figure 0007471326000032
式中、
- 下付き文字Rは、再構築された行列を示す(これは、元のレベルおよび相関情報の再構築されたバージョンの一例である)。
- 集合{送信されたインデックス}は、サイド情報228内で復号された(たとえば、符号化器から復号器に送信された)すべての(i,j)ペアに対応する。
例では、
Figure 0007471326000033
は、符号化された値ξi,jほど正確ではないため、
Figure 0007471326000034
よりもξi,jが優先され得る。
最後に、この再構築されたICC行列から、再構築された共分散行列
Figure 0007471326000035
が推定され得る。この行列は、式(5)において取得されたエネルギーを、再構築されたICC行列に適用することによって取得され得、したがって、インデックス(i,j)の場合、
Figure 0007471326000036
である。
完全なICC行列が送信される場合、式(5)および式(8)のみが必要とされる。前の段落は、欠損パラメータを再構築するための1つの手法を示しているが、他の手法を使用することもでき、提案する方法は固有ではない。
5.1信号を使用する態様1bの例から、送信されない値は、復号器側で推定される必要がある値であることに留意されたい。
これで、共分散行列Cxおよび
Figure 0007471326000037
が取得される。再構築された行列
Figure 0007471326000038
は、入力信号212の共分散行列Cyの推定値であり得ることに注意することが重要である。本発明のトレードオフは、復号器側の共分散行列の推定値を元の行列に十分近づけるが、送信するパラメータを可能な限り少なくすることであり得る。これらの行列は、4.3.5に示されている最終的な合成に必須であり得る。
いくつかの例では、各フレームについて、現在のフレームに先行するフレームの再構築された共分散行列との線形結合を使用して、現在のフレームの再構築された共分散行列を、たとえば加算、平均などによって平滑化することが可能であることに留意されたい。たとえば、t番目のフレームでは、合成に使用される最終的な共分散は、先行するフレームに対して再構築されたターゲット共分散を考慮に入れることができ、たとえば、
Figure 0007471326000039
である。
しかし、過渡現象がある場合、平滑化は行われず、現在のフレームに対するCyRが、混合行列の計算に使用される。
いくつかの例では、各フレームについて、ダウンミックスチャンネルCxの平滑化されない共分散行列は、パラメータの再構築に使用され、セクション4.2.3で説明した平滑化された共分散行列Cx,tは、合成に使用される。
図8aは、(たとえば、ブロック386または316...で実行されるように)復号器300において共分散行列Cxおよび
Figure 0007471326000040
を取得するための動作を再開する。図8aのブロックでは、括弧の間に、特定のブロックによって採用されている式も示されている。図に示すように、共分散推定器384は、式(1)を介して、ダウンミックス信号324(または、その縮小された帯域バージョン385)の共分散Cxに到達することを可能にする。最初の共分散ブロック推定器384'は、式(4)および適切なタイプ規則Qを使用することによって、共分散Cyの最初の推定値
Figure 0007471326000041
に到達することを可能にする。続いて、共分散対コヒーレンスブロック390は、式(6)を適用することによって、コヒーレンス
Figure 0007471326000042
を取得する。続いて、ICC置換ブロック392は、式(7)を採用することによって、推定されたICC(
Figure 0007471326000043
)とビットストリーム348のサイド情報228においてシグナリングされたICCのどちらかを選択する。次いで、選択されたコヒーレンスξRは、ICLD(χi)に従ってエネルギーを印加するエネルギー印加ブロック394に入力される。次いで、ターゲット共分散行列
Figure 0007471326000044
が、図3aの混合器規則算出器402または共分散合成ブロック388、または図3cの混合器規則算出器、または図3bの合成エンジン344に提供される。
4.3.3 プロトタイプ信号の計算(ブロック326)
プロトタイプ信号モジュール326の目的は、ダウンミックス信号212(またはその周波数領域バージョン324)を、合成エンジン334(4.3.5参照)によって使用され得るように成形することである。プロトタイプ信号モジュール326は、ダウンミックスされた信号のアップミキシングを実行し得る。プロトタイプ信号328の計算は、プロトタイプ信号モジュール326によって、ダウンミックスされた信号212(または324)にいわゆるプロトタイプ行列Qを乗算することによって行われ得る。
Yp=XQ (9)
- Qは、(プロトタイプ規則の一例である)プロトタイプ行列である。
- Xは、ダウンミックスされた信号(212または324)である。
- Ypは、プロトタイプ信号(328)である。
プロトタイプ行列を確立する方法は、処理に依存することがあり、アプリケーションの要件を満たすように定義され得る。唯一の制約は、プロトタイプ信号328のチャンネルの数が、所望の出力チャンネルの数と同じでなければならないということであり得る。これにより、プロトタイプ行列のサイズが直接制約される。たとえば、Qは、ダウンミックス信号(212、324)のチャンネルの数である行数と、最終合成出力信号(332、340)のチャンネルの数である列数を有する行列であり得る。
一例として、5.1信号または5.0信号の場合、プロトタイプ行列は次のように確立され得る。
Figure 0007471326000045
プロトタイプ行列は、事前に決定され固定され得ることに留意されたい。たとえば、Qはすべてのフレームで同じであり得るが、異なる帯域ごとに異なり得る。さらに、ダウンミックス信号のチャンネルの数と合成信号のチャンネルの数との間の関係が異なると、Qが異なる。Qは、たとえば、特定の数のダウンミックスチャンネルおよび特定の数の合成チャンネルに基づいて、複数の事前に記憶されたQの中から選択され得る。
態様5:出力ラウドスピーカ設定が入力ラウドスピーカ設定と異なる場合のパラメータの再構築
提案する本発明の1つの用途は、原信号212とは異なる(たとえば、ラウドスピーカの数が多いまたは少ないことを意味する)ラウドスピーカ設定で出力信号336または340を生成することである。
そのためには、プロトタイプ行列をそれに応じて修正する必要がある。このシナリオでは、式(9)で得られたプロトタイプ信号は、出力ラウドスピーカ設定と同じ数のチャンネルを含むことになる。たとえば、(信号212側で)入力として5チャンネル信号があり、(信号336側で)出力として7チャンネル信号を取得したい場合、プロトタイプ信号はすでに7チャンネルを含む。
これが行われると、式(4)における共分散行列の推定は依然として有効であり、入力信号212に存在しなかったチャンネルの共分散パラメータを推定するために引き続き使用されることになる。
符号化器と復号器の間で送信されるパラメータ228は依然として関連性があり、式(7)も同様に引き続き使用され得る。より正確には、符号化された(たとえば、送信された)パラメータは、幾何形状の観点から、元の設定に可能な限り近いチャンネルペアに割り当てられる必要がある。基本的には、適応的動作を実行する必要がある。
たとえば、符号化器側において、右の1つのラウドスピーカと左の1つのラウドスピーカとの間でICC値が推定される場合、この値は、同じ左右の位置を有する出力設定のチャンネルペアに割り当てられ得る。幾何形状が異なる場合、この値は、元の位置に可能な限り近い位置にあるラウドスピーカペアに割り当てられ得る。
次いで、新しい出力設定のターゲット共分散行列Cyが取得されると、残りの処理は変更されない。
したがって、ターゲット共分散行列(
Figure 0007471326000046
)を合成チャンネルの数に適応させるために、
ダウンミックスチャンネルの数から合成チャンネルの数に変換するプロトタイプ行列Qを使用すること
が可能であり、このプロトタイプ行列Qは、
式(9)を、プロトタイプ信号が合成チャンネルの数を有するように適応させ、
式(4)を適応させ、したがって、合成チャンネルの数で
Figure 0007471326000047
を推定し、
式(5)~式(8)を維持し、それにより原チャンネルの数で式(5)~式(8)を取得するが、
原チャンネルのグループ(たとえば、原チャンネルの対)を単一の合成チャンネルに割り当てる(たとえば、幾何形状の観点から割当てを選択する)こと、またはその逆
によって、取得され得る。
図8bに一例を示す。図8bは、図8aの1バージョンであり、いくつかの行列およびベクトルのチャンネルの数が示されている。(ビットストリーム348のサイド情報228から取得された)ICCが392においてICC行列に適用されると、原チャンネルのグループ(たとえば、原チャンネルの対)が単一の合成チャンネルに適用される(たとえば、幾何形状の観点から割当てを選択する)か、またはその逆である。
入力チャンネルの数が出力チャンネルの数と異なるターゲット共分散行列を生成する別の実行可能な方法は、最初に、入力チャンネルの数(たとえば、入力信号212の原チャンネルの数)のターゲット共分散行列を生成し、次いで、この最初のターゲット共分散行列を合成チャンネルの数に適応させ、出力チャンネルの数に対応する第2のターゲット共分散行列を取得することである。これは、アップミックス規則またはダウンミックス規則、たとえば、特定の入力(元の)チャンネルと出力チャンネルとの組合せの係数を含む行列を、第1のターゲット共分散行列
Figure 0007471326000048
に適用し、第2のステップにおいて、この行列
Figure 0007471326000049
を、送信された入力チャンネルパワー(ICLD)に適用し、出力(合成)チャンネルの数に対するチャンネルパワーのベクトルを取得し、ベクトルに従って第1のターゲット共分散行列を調整して、要求された合成チャンネルの数を有する第2のターゲット共分散行列を取得することによって行われ得る。この時点で、この調整された第2のターゲット共分散行列を合成の際に使用することができる。その一例を図8cに示す。図8cは、図8aの1バージョンであり、ブロック390~394は、原信号212の原チャンネルの数を有するようにターゲット共分散行列
Figure 0007471326000050
を再構築するように動作する。その後、ブロック395において、プロトタイプ信号QN(合成チャンネルの数に変換するため)およびベクトルICLDが適用され得る。特に、図8cのブロック386は、図8cでは再構築されたターゲット共分散のチャンネルの数が入力信号212の原チャンネルの数とまったく同じである(図8aでは一般に、再構築されたターゲット共分散は合成チャンネルの数を有する)ことを除いて、図8aのブロック386と同じである。
4.3.4 非相関化
非相関化モジュール330の目的は、プロトタイプ信号の各チャンネル間の相関の量を低減することである。相関性の高いラウドスピーカ信号は、ファントム音源(phantom source)を引き起こし、出力マルチチャンネル信号の品質および空間特性を低下させることがある。このステップは任意選択であり、アプリケーションの要件に応じて実装されることも、実装されないこともある。本発明では、合成エンジンの前に非相関化が使用される。一例として、全通過の周波数非相関化器が使用され得る。
MPEGサラウンドに関する注記
先行技術によるMPEGサラウンドでは、いわゆる「混合行列」(標準ではM1およびM2と表記)が使用されている。行列M1は、利用可能なダウンミックスされた信号を非相関化器にどのように入力するかを制御する。行列M2は、出力信号を生成するために直接信号と非相関信号とをどのように組み合わせるかを表す。
4.3.3において定義されたプロトタイプ行列との類似点、および本セクションで説明する非相関化器の使用との類似点があり得るが、次の点に留意することが重要である。
- プロトタイプ行列Qは、MPEGサラウンドで使用される行列とはまったく異なる機能を有し、この行列のポイントは、プロトタイプ信号を生成することである。このプロトタイプ信号の目的は、合成エンジンに入力されることである。
- プロトタイプ行列は、非相関化器のダウンミックスされた信号を準備するためのものではなく、要件およびターゲットアプリケーションに応じて適応させることができる。たとえば、プロトタイプ行列は、入力ラウドスピーカ設定のプロトタイプ信号よりも大きな、出力ラウドスピーカ設定のプロトタイプ信号を生成することができる。
- 提案する発明における非相関化器の使用は必須ではない。処理は、合成エンジン(5.1参照)内の共分散行列の使用に依存する。
- 提案する発明は、直接信号と非相関信号とを組み合わせることによって出力信号を生成しない。
- M1およびM2の計算は、ツリー構造に大きく依存し、これらの行列の様々な係数は構造の観点から事例に依存する。これは、提案する発明における事例ではなく、処理は、ダウンミックス計算(5.2参照)に関知せず、概念的には、提案する処理は、ツリー構造を用いて実行され得るようにチャンネルペアだけでなくすべてのチャンネル間の関係を考慮することを目的とする。
したがって、本発明は、先行技術によるMPGEサラウンドとは異なる。
4.3.5 合成エンジン、行列算出
復号器の最後のステップは、合成エンジン334または合成プロセッサ402(追加として、必要に応じて合成フィルタバンク338)を含む。合成エンジン334の目的は、特定の制約を基準として最終的な出力信号336を生成することである。合成エンジン334は、特性が入力パラメータによって制約される出力信号336を計算することができる。本発明では、プロトタイプ信号328(または332)を除いて、合成エンジン338の入力パラメータ318は、共分散行列CxおよびCyである。特に、
Figure 0007471326000051
は、出力信号の特性をCyによって定義されたものにできるだけ近づけるべきであるので、ターゲット共分散行列と呼ばれる(ターゲット共分散行列の推定バージョンおよび事前構築バージョンについて説明していることが分かる)。
一例として、使用され得る合成エンジン334は固有ではなく、一例として、参照により本明細書に組み込まれる先行技術[8]の共分散合成が使用され得る。使用され得る別の合成エンジン333は、[2]のDirAC処理で説明されているものである。
合成エンジン334の出力信号は、合成フィルタバンク338を介した追加の処理を必要とし得る。
最終結果として、時間領域での出力マルチチャンネル信号340が得られる。
態様6:「共分散合成」を使用した高品質出力信号
先述したように、使用される合成エンジン334は固有ではなく、送信されたパラメータまたはそのサブセットを使用する任意のエンジンを使用することができる。それでもなお、本発明の一態様は、たとえば共分散合成[8]を使用することによって、高品質出力信号336を提供することであり得る。
この合成方法は、共分散行列
Figure 0007471326000052
によって特性が定義される出力信号336を計算することを目的とする。そうするために、いわゆる最適混合行列が計算され、これらの行列は、プロトタイプ信号328を最終的な出力信号336に混合し、ターゲット共分散行列
Figure 0007471326000053
が与えられた場合に、数学的な観点から最適な結果を提供する。
混合行列Mは、関係yR=MxPによってプロトタイプ信号xPを出力信号yR(336)に変換する行列である。
混合行列は、関係yR=Mxによってダウンミックス信号xを出力信号に変換する行列でもある。この関係から、
Figure 0007471326000054
を推定することもできる。
提示された処理において、
Figure 0007471326000055
およびCxは、いくつかの例では、(それぞれターゲット共分散行列
Figure 0007471326000056
およびダウンミックス信号246の共分散行列Cxであるので)すでに認識されている可能性がある。
数学的な観点からの1つの解は、
Figure 0007471326000057
によって与えられ、式中、Kyおよび
Figure 0007471326000058
はすべて、Cxおよび
Figure 0007471326000059
に対して特異値分解を実行することによって得られる行列である。Pに関しては、Pはここでは自由パラメータであるが、プロトタイプ行列Qによって指定された制約に対する(聞き手の知覚的観点からの)最適解が見出され得る。ここで述べている内容の数学的証明は、[8]において見出すことができる。
手法が出力信号問題の再構築に対して最適な数学解を提供するように設計されるので、この合成エンジン334は、高品質な出力336を提供する。
数学的ではない観点では、共分散行列がマルチチャンネルオーディオ信号の異なるチャンネル間のエネルギー関係を表すことを理解することが重要である。元のマルチチャンネル信号212の行列Cyおよびダウンミックスされたマルチチャンネル信号246の行列Cx。これらの行列の各値は、マルチチャンネルストリームの2つのチャンネル間のエネルギー関係に背く。
したがって、共分散合成の背景にある哲学は、ターゲット共分散行列
Figure 0007471326000060
によって特性が引き起こされる信号を生成することである。この行列
Figure 0007471326000061
は、元の入力信号212(または、入力信号と異なる場合は、取得したい出力信号)を表すように計算されたものである。次いで、共分散合成は、最終的な出力信号を生成するために、これらの要素を用いて、プロトタイプ信号を最適に混合する。
さらなる態様において、スロットの合成に使用される混合行列は、平滑な合成を保証するための、現在のフレームの混合行列Mと前のフレームの混合行列Mpとの組合せ、たとえば、現在のフレーム内のスロットインデックスに基づく線形補間である。
過渡現象の発生および位置が送信されるさらなる態様において、前の混合行列Mpは、過渡現象位置の前にあるすべてのスロットに使用され、混合行列Mは、過渡現象位置を含むスロットおよび現在のフレーム内の後続のすべてのスロットに使用される。いくつかの例では、各フレームまたはスロットについて、先行するフレームまたはスロットに使用される混合行列との線形結合を使用して、現在のフレームまたはスロットの混合行列を、たとえば加算、平均などによって、平滑化することが可能であることに留意されたい。現在のフレームtに対して、出力信号のスロットs帯域iが、Ys,i=Ms,iXs,iによって得られると仮定する。式中、Ms,iは、前のフレームに対して使用された混合行列であるMt-1,iと、現在のフレームに対して算出された混合行列であるMt,iとの組合せ、たとえば、それらの間の線形補間、すなわち、
Figure 0007471326000062
であり、式中、nsは、フレーム内のスロット数(たとえば、16)であり、t-1およびtは、前のフレームおよび現在のフレームを示す。より一般的には、各スロットに関連付けられた混合行列Ms,iは、現在のフレームに対して算出された混合行列Mt,iを、増加する係数によって現在のフレームtの後続スロットに沿ってスケーリングすること、およびスケーリングされた混合行列Mt-1,iを、減少する係数によって現在のフレームtの後続スロットに沿って追加することによって取得され得る。係数は、線形であり得る。
(たとえば、情報261でシグナリングされた)過渡現象がある場合、現在の混合行列と過去の混合行列は組み合わされず、前の混合行列は、過渡現象を含むスロットまで、現在の混合行列は、過渡現象を含むスロットおよびフレームの終端までの後続のすべてのスロットにわたることが定められ得る。
Figure 0007471326000063
式中、sは、スロットインデックスであり、iは、帯域インデックスであり、tおよびt-1は、現在のフレームおよび前のフレームを示し、stは、過渡現象を含むスロットである。
先行技術文書[8]との相違点
提案する発明が、[8]で提案された方法の範囲を超えていることに留意することも重要である。注目すべき相違点は、とりわけ次のとおりである。
- ターゲット共分散行列
Figure 0007471326000064
は、提案する処理の符号化器側で計算される。
- ターゲット共分散行列
Figure 0007471326000065
は、別の方法で計算することもできる(提案する発明では、共分散行列は拡散部分と直接部分の合計ではない)。
- 処理は、周波数帯域ごとに個別に実行されず、(0において述べたように)パラメータ帯域ごとにグループ化される。
- より大域的な観点から、共分散合成は、ここではプロセス全体の1つのブロックにすぎず、復号器側の他のすべての要素と共に使用されなければならない。
4.3.好ましい態様の一覧
以下の態様のうちの少なくとも1つは、本発明を特徴付け得る。
1. 符号化器側
a. マルチチャンネルオーディオ信号246を入力する。
b. フィルタバンク214を使用して、信号212を時間領域から周波数領域(216)に変換する。
c. ブロック244においてダウンミックス信号246を計算する。
d. 原信号212および/またはダウンミックス信号246から、マルチチャンネルストリーム(信号)246を記述するためのパラメータの第1のセット、すなわち、共分散行列Cxおよび/またはCyを推定する。
e. 共分散行列Cxおよび/またはCyを直接送信および/または符号化するか、ICCおよび/またはICLDを計算して、それらを送信する。
f. 適切なコーディング方式を使用して、送信されたパラメータ228をビットストリーム248内に符号化する。
g. 時間領域において、ダウンミックスされた信号246を計算する。
h. 時間領域において、サイド情報(すなわちパラメータ)およびダウンミックスされた信号246を送信する。
2. 復号器側
a. サイド情報228およびダウンミックス信号246を含むビットストリーム248を復号する。
b. (任意選択)周波数領域においてダウンミックス信号246のバージョン324を取得するために、ダウンミックス信号246にフィルタバンク320を適用する。
c. 以前に復号されたパラメータ228およびダウンミックス信号246から、共分散行列Cx、および
Figure 0007471326000066
を再構築する。
d. ダウンミックス信号246(324)からプロトタイプ信号328を計算する。
e. (任意選択) (ブロック330において)プロトタイプ信号を非相関化する。
f. 再構築されたCxおよび
Figure 0007471326000067
を使用して、プロトタイプ信号に合成エンジン334を適用する。
g. (任意選択)共分散合成334の出力336に合成フィルタバンク338を適用する。
h. 出力マルチチャンネル信号340を取得する。
4.5 共分散合成
本セクションでは、図1~図3dのシステム内に実装され得るいくつかの技法について説明する。ただし、これらの技法は単独でも実装され得る。たとえば、いくつかの例では、図8a~図8cおよび式(1)~式(8)で実行した共分散計算は必要ない。したがって、いくつかの例でにおいて、
Figure 0007471326000068
(再構築されたターゲット共分散)について言及する場合、これを、(再構築なしで同様に直接提供され得る)Cyに置き換えることもできる。それでもなお、本セクションの技法を、上記の技法と共に有利に使用することができる。
次に、図4a~図4dを参照する。ここでは、共分散合成ブロック388a~388dの例について説明する。ブロック388a~388dは、たとえば、共分散合成を実行するための図3cのブロック388を具現化し得る。ブロック388a~388dは、たとえば、図3aの合成エンジン334の合成プロセッサ404および混合規則算出器402、ならびに/またはパラメータ再構築ブロック316の一部であり得る。図4a~図4dでは、ダウンミックス信号324は、周波数領域FD内(すなわち、フィルタバンク320の下流)にあり、Xで示されており、合成信号336もまたFD内にあり、Yで示されている。しかし、これらの結果を、たとえば時間領域内で一般化することが可能である。図4a~図4dの共分散合成ブロック388a~388dのそれぞれが、(たとえば、380において分解されると)1つの単一の周波数帯域に対して参照され得、したがって、共分散行列Cxおよび
Figure 0007471326000069
(または他の再構築された情報)が1つの特定の周波数帯域に関連付けられ得ることに留意されたい。共分散合成は、たとえば、フレーム単位の様式で実行され得、その場合、共分散行列Cxおよび
Figure 0007471326000070
(または他の再構築された情報)は、1つの単一のフレームに(または複数の連続するフレームに)関連付けられる。したがって、共分散合成は、フレーム単位の様式で、または複数のフレーム単位の様式で実行され得る。
図4aでは、共分散合成ブロック388aは、1つのエネルギー補償された最適混合ブロック600aによって構成され得、相関化器ブロックは欠如している。基本的に、1つの単一の混合行列Mが見出され、追加で実行される唯一の重要な演算は、エネルギー補償された混合行列M'の算出である。
図4bは、[8]に着想を得た共分散合成ブロック388bを示す。共分散合成ブロック388bは、第1の主成分336Mと第2の残差成分336Rとを有する合成信号として合成信号336を取得することを可能にし得る。主成分336Mは、最適主成分混合行列600bにおいて、たとえば、共分散行列Cxおよび
Figure 0007471326000071
から非相関化器なしで混合行列MMを見出すことによって取得され得、残差成分336Rは、別の方法で取得され得る。MRは、原則として、
Figure 0007471326000072
の関係を満たすべきである。通常、取得された混合行列はこれを完全には満たしておらず、残差ターゲット共分散は、
Figure 0007471326000073
によって見出され得る。図に示すように、ダウンミックス信号324は、経路610bに誘導され得る(経路610bは、ブロック600bを含む第1の経路610b'と並列の第2の経路と呼ばれ得る)。ダウンミックス信号324の(YpRで示す)プロトタイプバージョン613bは、プロトタイプ信号ブロック(アップミックスブロック)612bにおいて取得され得る。たとえば、式(9)などの式、すなわち、
YpR=XQ
が使用され得る。
Q(プロトタイプ行列またはアップミキシング行列)の例は、本書に提供されている。ブロック612bの下流には、プロトタイプ信号613bを非相関化して非相関信号615b(
Figure 0007471326000074
によっても示される)を取得するための非相関化器614bが存在する。ブロック616bにおいて、非相関信号615bから、非相関信号
Figure 0007471326000075
(615b)の共分散行列
Figure 0007471326000076
が推定される。最適残差成分混合行列ブロック618bにおいて、非相関信号
Figure 0007471326000077
の共分散行列
Figure 0007471326000078
を主成分混合のCxの均等物として使用し、Crを別の最適混合ブロックにおけるターゲット共分散として使用することによって、合成信号336の残差成分336Rが取得され得る。最適残差成分混合行列ブロック618bは、非相関信号615bを混合して、(特定の帯域の)合成信号336の残差成分336Rを取得するために、混合行列MRが生成されるような方法で実装され得る。加算器ブロック620bにおいて、残差成分336Rは主成分336Mに合計される(したがって、経路610bと610b'は、加算器ブロック620bにおいて共に結合される)。
図4cは、図4bの共分散合成388bの代替となる共分散合成388cの一例を示す。共分散合成ブロック388cは、第1の主成分336M'と第2の残差成分336R'とを有する信号Yとして合成信号336を取得することを可能にする。主成分336M'は、最適主成分混合行列600cにおいて、たとえば、共分散行列Cxおよび
Figure 0007471326000079
(または、Cy、その他の情報220)から相関化器なしで混合行列MMを見出すことによって取得され得、残差成分336R'は、別の方法で取得され得る。ダウンミックス信号324は、経路610cに誘導され得る(経路610cは、ブロック600cを含む第1の経路610c'と並列の第2の経路と呼ばれ得る)。ダウンミックスブロック(アップミックスブロック)612cにおいて、プロトタイプ行列Q(たとえば、ダウンミックスされた信号234を、合成チャンネルの数であるチャンネルの数で、ダウンミックスされた信号234のバージョン613cにアップミックスする行列)を適用することによって、ダウンミックス信号324のプロトタイプバージョン613cが取得され得る。たとえば、式(9)などの式が使用され得る。Qの例は、本書に提供されている。ブロック612cの下流には、非相関化器614cが提供され得る。いくつかの例では、第1の経路に非相関化器がなく、第2の経路に非相関化器がある。
非相関化器614cは、非相関信号615c(
Figure 0007471326000080
によっても示される)を提供し得る。しかし、図4bの共分散合成ブロック388bにおいて使用される技法とは反対に、図4cの共分散合成ブロック388cでは、非相関信号615cの共分散行列
Figure 0007471326000081
は、非相関信号615c(
Figure 0007471326000082
)から推定されない。対照的に、非相関信号615cの共分散行列
Figure 0007471326000083
は、(ブロック616cにおいて)
(たとえば、図3cのブロック384において、かつ/または式(1)を使用して推定された)ダウンミックス信号324の共分散行列Cx、および
プロトタイプ行列Q
から取得される。
最適残差成分混合行列ブロック618cにおいて、ダウンミックス信号324の共分散行列Cxから推定された共分散行列
Figure 0007471326000084
を主成分混合行列のCxの均等物として使用し、Crをターゲット共分散行列として使用することによって、合成信号336の残差成分336R'が取得される。最適残差成分混合行列ブロック618cは、残差成分混合行列MRに従って非相関信号615cを混合することによって残差成分336R'を取得するために、残差成分混合行列MRが生成されるような方法で実装され得る。加算器ブロック620cにおいて、合成信号336を取得するために、残差成分336R'は主成分336M'に合計される(したがって、経路610cと610c'は、加算器ブロック620cにおいて共に結合される)。
いくつかの例において、残差成分336Rまたは336R'は、常にまたは必ずしも算出されるとは限らない(経路610bまたは610cが常に使用されるとは限らない)。いくつかの例において、いくつかの帯域については、残差信号336Rまたは336R'を算出せずに共分散合成が実行されるが、同じフレームの他の帯域については、残差信号336Rまたは336R'も考慮して共分散合成が処理される。図4dは、共分散合成ブロック388bまたは388cの特定の事例であり得る共分散合成ブロック388dの一例を示す。ここで、帯域セレクタ630は、残差信号336Rまたは336R'の算出を(スイッチ631によって表される様式で)選択または選択解除することができる。たとえば、経路610bまたは610cは、セレクタ630によって選択的に、いくつかの帯域については有効にされ得、他の帯域については無効にされ得る。具体的には、経路610bまたは610cは、人間の耳が位相の影響を受けにくい帯域(周波数が閾値を上回る帯域)と、人間の耳が位相の影響を受けやすい帯域(周波数が閾値を下回る帯域)とを区別する閾値(たとえば、最大値)であり得る既定の閾値(たとえば、固定閾値)を超える帯域について、無効にされ得、結果として、残差成分336Rまたは336R'は、周波数が閾値を下回る帯域については算出されず、周波数が閾値を超える帯域については算出される。
図4dの例はまた、ブロック600bまたは600cを図4aのブロック600aで置き換えることによって、およびブロック610bまたは610cを図4bの共分散合成ブロック388bまたは図4cの共分散合成ブロック388cで置き換えることによって取得され得る。
ここでは、ブロック338、402(または404)、600a、600b、600cなどのいずれかで混合規則(行列)を取得する方法に関するいくつかの指示を提供する。上記で説明したように、混合行列を取得する方法は多数あるが、ここではそれらのいくつかについて詳細に説明する。
具体的には、最初に、図4bの共分散合成ブロック388bを参照する。最適主成分混合行列ブロック600cにおいて、合成信号336の主成分336Mの混合行列Mは、たとえば、
原信号212の共分散行列Cy(Cyは、上記の式(6)~式(8)のうちの少なくともいくつかを使用して推定され得る。たとえば、図8を参照。これは、たとえば式(8)を用いて推定された、いわゆる「ターゲットバージョン」
Figure 0007471326000085
の形式であり得る)、および
ダウンミックス信号246、324の共分散行列Cx(Cyは、たとえば、式(1)を使用して推定され得る)
から取得され得る。
たとえば、[8]によって提案されているように、エルミートおよび半正定値である共分散行列CxおよびCyを、次の因数分解、すなわち、
Figure 0007471326000086
に従って分解することが認められている。
たとえば、CxおよびCyから特異値分解(SVD)を2回適用することによって、KxおよびKyが取得され得る。たとえば、Cxに対するSVDは、
特異ベクトル(たとえば、左特異ベクトル)の行列UCxと、
特異値の対角行列SCx
を提供することができ、その結果、SCxの対応するエントリ内の値の平方根をエントリ内に有する対角行列をUCxに乗算することによって、Kxが取得される。
さらに、Cyに対するSVDは、
特異ベクトル(たとえば、右特異ベクトル)の行列VCy
特異値の対角行列SCy
を提供することができ、その結果、SCyの対応するエントリ内の値の平方根をエントリに含む対角行列をUCyに乗算することによって、Kyが取得される。
次いで、主成分混合行列MMを取得することが可能であり、主成分混合行列MMは、ダウンミックス信号324に適用されると、合成信号336の主成分336Mを取得することを可能にする。主成分混合行列MMは、以下のように取得され得る。
Figure 0007471326000087
Kxが非可逆行列である場合、知られている技法を用いて、正則化された逆行列が取得され、
Figure 0007471326000088
の代わりに代入され得る。
パラメータPは一般に自由パラメータであるが、最適化され得る。Pに到達するために、SVDを、
Cx(ダウンミックス信号324の共分散行列)、および
Figure 0007471326000089
(プロトタイプ信号613bの共分散行列)に適用することが可能である。
SVDが実行されると、Pを次のように取得することが可能である。
P=VΛU*
Λは、合成チャンネルの数と同じ数の行と、ダウンミックスチャンネルの数と同じ数の列を有する行列である。Λは、最初の正方形のブロックにおける単位元であり、残りのエントリ内にゼロが記入される。ここで、VおよびUが、Cxおよび
Figure 0007471326000090
からどのように取得されるかについて説明する。VおよびUは、SVD、すなわち、
Figure 0007471326000091
から取得された特異ベクトルの行列である。Sは、典型的にはSVDを介して取得される特異値の対角行列である。
Figure 0007471326000092
は、プロトタイプ信号
Figure 0007471326000093
(615b)のチャンネルごとのエネルギーを合成信号yのエネルギーに正規化する対角行列である。
Figure 0007471326000094
を取得するために、最初に、
Figure 0007471326000095
、すなわちプロトタイプ信号
Figure 0007471326000096
(164b)の共分散行列を算出する必要がある。次いで、
Figure 0007471326000097
から
Figure 0007471326000098
に到達するために、
Figure 0007471326000099
の対角値が、対応するCyの対角値に正規化され、したがって、
Figure 0007471326000100
を提供する。一例として、
Figure 0007471326000101
の対角エントリは、
Figure 0007471326000102
として算出され、式中、
Figure 0007471326000103
は、Cyの対角エントリの値であり、
Figure 0007471326000104
は、
Figure 0007471326000105
の対角エントリの値である。
Figure 0007471326000106
が取得されると、
Figure 0007471326000107
から、残差成分の共分散行列Crが取得される。
Crが取得されると、非相関信号615bを混合するための混合行列を取得して、残差信号336Rを取得することが可能であり、同一の最適混合において、Crは、主最適混合における
Figure 0007471326000108
と同じ役割を有し、非相関プロトタイプの共分散
Figure 0007471326000109
は、Cxが主最適混合を有していた入力信号共分散の役割を担う。
しかし、図4bの技法と比較して、図4cの技法はいくつかの利点を提示することが理解されている。いくつかの例において、図4cの技法は、少なくとも、主行列を算出し、合成信号の主成分を生成するための図4bの技法と同じである。反対に、図4cの技法は、残差混合行列の算出における、より一般的には合成信号の残差成分を生成するための図4bの技法とは異なる。次に、残差混合行列の算出について、図4cに関連して図11を参照する。図4cの例では、周波数領域の非相関化器614cが使用され、非相関化器614cは、プロトタイプ信号613cの非相関化を保証するが、プロトタイプ信号613b自体のエネルギーを保持する。
さらに、図4cの例では、非相関信号615cの非相関チャンネルは相互にインコヒーレントであり、したがって非相関信号の共分散行列のすべての非対角要素はゼロであると(少なくとも近似により)仮定することができる。両方の仮定を使用して、CxにQを適用することで、非相関プロトタイプの共分散を簡単に推定し、その共分散の主対角線(すなわち、プロトタイプ信号のエネルギー)のみを取得することができる。図4cのこの技法は、Cxに対してすでに行われたのと同じ帯域/スロット集約を行う必要がある非相関信号615bからの図4bの例の推定よりも効率的である。したがって、図4cの例では、すでに集約されたCxの行列乗算を簡単に適用することができる。したがって、同じ集約帯域のグループのすべての帯域に対して同じ混合行列が算出される。
したがって、710において、非相関信号の共分散711(
Figure 0007471326000110
)は、
Pdecorr=diag(QCxQ*)
を、入力信号共分散
Figure 0007471326000111
として使用される、すべての非対角要素がゼロに設定された行列の主対角線として使用して、推定され得る。合成信号の主成分336M'の合成を実行するためにCxが平滑化される例では、Pdecorrの算出に使用されるCxのバージョンが、平滑化されていないCxであるという手法が使用され得る。
ここで、プロトタイプ行列Qrが使用されるべきである。しかし、残差信号の場合、Qrは単位行列であることに留意されたい。
Figure 0007471326000112
(対角行列)およびQr(単位行列)の特性に関する知識は、混合行列の計算におけるさらなる単純化につながる(少なくとも1つのSVDが省略され得る)。次の技法およびMatlabのリストを参照されたい。
最初に、図4bの例と同様に、入力信号212の残差ターゲット共分散行列Cr(エルミート、半正定値)は、
Figure 0007471326000113
として分解され得る。行列Krは、SVD(702)を介して取得され得る。Crに適用されたSVD702は、
特異ベクトルの行列UCr(たとえば、左特異ベクトル)と、
特異値の対角行列SCr
を生成し、その結果、(706において)SCrの対応するエントリ内の値の平方根をエントリ内に有する対角行列(この対角行列は704において取得されている)をUCrに乗算することによって、Krが取得される。
この時点で、理論的には、別のSVDを適用することが可能であり得る。今回は、非相関プロトタイプ
Figure 0007471326000114
の共分散に適用する。
しかし、この例(図4c)では、計算量を削減するために、別の経路が選択されている。Pdecorr=diag(QCxQ*)から推定される
Figure 0007471326000115
は対角行列であり、したがって、SVDは必要ない(対角行列のSVDは、対角要素のソートされたベクトルとして特異値を与え、左右の特異ベクトルは、ソートのインデックスを示すだけである)。(712において)
Figure 0007471326000116
の対角線のエントリでの各値の平方根を算出することによって、対角行列
Figure 0007471326000117
が取得される。この対角行列
Figure 0007471326000118
は、
Figure 0007471326000119
のようなものであり、
Figure 0007471326000120
を取得するためにSVDが不要であるという利点がある。非相関信号の対角共分散
Figure 0007471326000121
から、非相関信号615cの推定共分散行列
Figure 0007471326000122
が算出される。しかし、プロトタイプ行列はQr(すなわち、単位行列)であるので、
Figure 0007471326000123
を直接使用して
Figure 0007471326000124
Figure 0007471326000125
として定式化することが可能であり、式中、
Figure 0007471326000126
は、Crの対角エントリの値であり、
Figure 0007471326000127
は、
Figure 0007471326000128
の対角エントリの値である。
Figure 0007471326000129
は、非相関信号
Figure 0007471326000130
(615b)のチャンネルごとのエネルギーを合成信号yの所望のエネルギーに正規化する(722で取得された)対角行列である。
この時点で、(734において)
Figure 0007471326000131
Figure 0007471326000132
を乗算することが可能である(乗算734の結果735は、
Figure 0007471326000133
とも呼ばれる)。次いで(736)、Kr
Figure 0007471326000134
を乗算して
Figure 0007471326000135
を取得する。左特異ベクトル行列Uおよび右特異ベクトル行列Vを得るために、K'yから、SVD(738)が実行され得る。VとU*を乗算(740)することによって、行列Pが取得される(P=VUH)。最後に(742)、
Figure 0007471326000136
を適用することによって、残差信号の混合行列MRを取得することが可能であり、式中、
Figure 0007471326000137
(745で取得される)は、正則化された逆行列に置き換えられ得る。したがって、MRは、ブロック618cにおいて残差混合のために使用され得る。
上記のように共分散合成を実行するためのMatlabコードをここに提供する。コードにおいてアスタリスク(*)は乗算を意味し、アペックス(')はエルミート行列を意味するコードであることに留意されたい。

%Compute residual mixing matrix
function [M]=ComputeMixingMatrixResidual(C_hat_y,Cr,reg_sx,reg_ghat)

EPS_=single(1e-15); %Epsilon to avoid divisions by zero
num_outputs=size(Cr,1);
%Decomposition of Cy
[U_Cr, S_Cr]=svd(Cr);
Kr=U_Cr*sqrt(S_Cr);

%SVD of a diagonal matrix is the diagonal elements ordered,
%we can skip the ordering and get Kx directly form Cx
K_hat_y=sqrt(diag(C_haty));

limit=max(K_hat_y)*reg_sx+EPS_;
S_hat_y_reg_diag=max(K_hat_y,limit);

%Formulate regularized Kx
K_hat_y_reg_inverse=1./S_hat_y_reg_diag;

% Formulate normalization matrix G hat
% Q is the identity matrix in case of the residual/diffuse part so
% Q*Cx*Q'=Cx
Cy_hat_diag=diag(C_hat_y);
limit=max(Cy_hat_diag)*reg_ghat+EPS_;
Cy_hat_diag=max(Cy_hat_diag,limit);
G_hat=sqrt(diag(Cr)./Cy_hat_diag);

%Formulate optimal P
%Kx, G_hat are diagonal matrixes, Q is I...
K_hat_y=K_hat_y.*G_hat;
for k=1:num_outputs
Ky_dash(k,:)=Kr(k,:)*K_hat_y(k);
end
[U,~,V]=svd(Ky_dash);
P=V*U';

%Formulate M
M=Kr*P;
for k=1:num_outputs
M(:,k)=M(:,k)*K_hat_y_reg_inverse(k);
end

end
ここで、図4bおよび図4cの共分散合成に関する考察を提供する。いくつかの例では、帯域ごとに2つの合成方法を検討することができ、いくつかの帯域の場合、図4bの残差経路を含む完全な合成が適用され、典型的には人間の耳が位相の影響を受けにくい一定の周波数を上回る帯域の場合、チャンネル内の所望のエネルギーに到達するために、エネルギー補償が適用される。
したがって、図4bの例においても、一定の(固定された、復号器に認識されている)帯域境界(閾値)を下回る帯域の場合、図4bによる完全な合成が(たとえば、図4dの事例において)実行され得る。図4bの例では、非相関信号615bの共分散
Figure 0007471326000138
は非相関信号615b自体から導出される。対照的に、図4cの例では、周波数領域の非相関化器614cが使用され、プロトタイプ信号613cの非相関化を保証するが、プロトタイプ信号613b自体のエネルギーを保持する。
さらなる考慮事項
・図4bと図4cの両方の例において、第1の経路(610b'、610c')では、混合行列MMは、原信号212の共分散Cyおよびダウンミックス信号324の共分散Cxに依存することによって(ブロック600b、600cにおいて)生成される。
・図4bと図4cの両方の例において、第2の経路(610b、610c)では、非相関化器(614b、614c)があり、(ブロック618b、618cにおいて)混合行列MRが生成され、これは、非相関信号(616b、616c)の共分散
Figure 0007471326000139
を考慮に入れるべきである。しかし、
・図4bの例では、非相関信号(616b、616c)の共分散
Figure 0007471326000140
は、非相関信号(616b、616c)を使用して直感的に算出され、原チャンネルyのエネルギーにおいて重み付けされる。
・図4cの例では、非相関信号(616b、616c)の共分散は、行列Cxからその共分散を推定することによって反直感的に算出され、原チャンネルyのエネルギーにおいて重み付けされる。
共分散行列(
Figure 0007471326000141
)は、(たとえば、ビットストリーム248のサイド情報228内に書き込まれたチャンネルレベルおよび相関情報220から取得される)上記の再構築されたターゲット行列であり得、したがって、原信号212の共分散に関連付けられていると見なされ得ることに留意されたい。いずれにしても、それは合成信号336に使用されることになるので、共分散行列(
Figure 0007471326000142
)は、合成信号に関連する共分散とも見なされ得る。合成信号に関連する残差共分散行列(Cr)として理解され得る残差共分散行列Cr、および合成信号に関連付けられた主共分散行列として理解され得る主共分散行列にも、同じことが当てはまる。
5. 利点
5.1 非相関の使用の削減および合成エンジンの最適な使用
提案する技法、ならびに処理に使用されるパラメータ、およびそれらのパラメータが合成エンジン334と組み合わされる方法を考慮すると、オーディオ信号(たとえば、そのバージョン328において)の強力な非相関の必要性が減少する、また、非相関化モジュール330がない場合でも、非相関の影響(たとえば、空間特性のアーチファクトもしくは劣化または信号品質の劣化)が排除されるとは言わないまでも少なくなると説明される。
より正確には、前に述べたように、処理の非相関部分330は任意選択である。実際、合成エンジン334は、ターゲット共分散行列Cy(またはそのサブセット)を使用することによって信号328の非相関化を処理し、出力信号336を構成するチャンネルがそれらの間で適切に非相関化されることを保証する。共分散行列Cy内の値は、マルチチャンネルオーディオ信号の異なるチャンネル間のエネルギー関係を表し、したがって、合成のターゲットとして使用される。
さらに、合成エンジン334と組み合わされた符号化された(たとえば、送信された)パラメータ228(たとえば、それらのバージョン314または318において)は、空間特性およびサウンド品質が入力信号212に可能な限り近い出力マルチチャンネル信号336を再現するために、合成エンジン334がターゲット共分散行列Cyを使用するという点を考慮して、高品質出力336を保証し得る。
5.2 ダウンミックスに関知しない処理
提案する技法、ならびにプロトタイプ信号328が計算される方法、およびそれらが合成エンジン334でどのように使用されるかを考慮すると、ここでは、提案する復号器が、ダウンミックスされた信号212が符号化器において計算される方法に関知しないと説明される。
これは、提案する発明が、復号器300において、ダウンミックスされた信号246が符号化器で計算される方法とは無関係に実行され得ること、および信号336(または340)の出力品質が特定のダウンミキシング方法に依存しないことを意味する。
5.3 パラメータのスケーラビリティ
提案する技法、ならびにパラメータ(28、314、318)が計算される方法、およびそれらが合成エンジン334で使用される方法、ならびにそれらが復号器側での推定される方法を考慮すると、マルチチャンネルオーディオ信号を記述するために使用されるパラメータの数および目的がスケーラブルであると説明される。
典型的には、符号化器側で推定されたパラメータのサブセット(たとえば、Cyおよび/またはCxのサブセット、たとえば、その要素)のみが符号化され(たとえば、送信され)、これにより、処理で使用されるビットレートを下げることができる。したがって、符号化された(たとえば送信された)パラメータ(たとえば、Cyおよび/またはCxの要素)の量は、送信されていないパラメータが復号器側で再構築されるという点を考慮すると、スケーラブルであり得る。これにより、出力品質およびビットレートの観点から処理全体をスケーリングする機会が与えられ、送信されるパラメータが多いほど、出力品質が向上し、その逆も同様である。
また、これらのパラメータ(たとえば、Cyおよび/もしくはCx、またはその要素)は、目的がスケーラブルであり、これは、出力マルチチャンネル信号の特性を修正するために、ユーザ入力によってパラメータが制御され得ることを意味する。さらに、これらのパラメータは周波数帯域ごとに計算され得、したがって、スケーラブルな周波数分解能が可能になる。
たとえば、出力信号(336、340)において1つのラウドスピーカを中止することを決定することが可能であり得、したがって、そのような変換を実現するために、復号器側でパラメータを直接処理することが可能であり得る。
5.4 出力設定の柔軟性
提案する技法、ならびに使用される合成エンジン334およびパラメータ(たとえば、Cyおよび/もしくはCx、またはその要素)の柔軟性を考慮すると、ここでは、提案する発明により、出力設定に関して広範囲にレンダリングすることが可能になると説明される。
より正確には、出力設定は入力設定と同じである必要はない。元のラウドスピーカ設定に比べて大きい、もしくは小さい、または単に幾何形状が異なるラウドスピーカ設定で出力信号340を生成するために、合成エンジンに供給される再構築されたターゲット共分散行列を処理することが可能である。これは、送信されるパラメータ、および提案するシステムがダウンミックスされた信号に関知しないことによって可能である(5.2参照)。
これらの理由から、提案する発明は、出力ラウドスピーカ設定の観点から柔軟性があると説明される。
5. プロトタイプ行列のいくつかの例
以下に5.1に関する表を示すが、LFEが省略されていたため、後からLFEも処理に含めた(関係LFE/Cに対する1つだけのICC、およびLFEに対するICLDは、最も低いパラメータ帯域でのみ送信され、復号器側での合成において、他のすべての帯域についてそれぞれ1および0に設定される)。チャンネルの命名および順序は、ISO/IEC 23091-3「Information technology - Coding independent code-points - Part 3: Audio」において見出されるCICPに従う。Qは常に、復号器におけるプロトタイプ行列と符号化器におけるダウンミックス行列との両方として使用される。5.1(CICP6)。αiは、ICLDを算出するために使用される。
Figure 0007471326000143
7.1(CICP12)
Figure 0007471326000144
αi=[0.2857 0.2857 0.5714 0.5714 0.2857 0.2857 0.2857 0.2857]
5.1+4(CICP16)
Figure 0007471326000145
αi=[0.1818 0.1818 0.3636 0.3636 0.1818 0.1818 0.1818 0.1818 0.1818 0.1818]
7.1+4(CICP19)
Figure 0007471326000146
αi=[0.1538 0.1538 0.3077 0.3077 0.1538 0.1538 0.1538 0.1538 0.1538 0.1538 0.1538 0.1538]
6. 方法
上記の技術について、主に構成要素または機能デバイスとして説明してきたが、本発明はまた、方法としても実装され得る。上記で説明したブロックおよび要素はまた、方法のステップおよび/またはフェーズとして理解され得る。
たとえば、ダウンミックス信号から合成信号を生成するための復号方法であって、合成信号がいくつかの合成チャンネルを有し、方法が、
ダウンミックス信号(246、x)を受信するステップであって、ダウンミックス信号(246、x)がいくつかのダウンミックスチャンネル、およびサイド情報(228)を有し、サイド情報(228)が、
原信号(212、y)のチャンネルレベルおよび相関情報(220)
を含み、原信号(212、y)がいくつかの原チャンネルを有する、ステップと、
原信号(212、y)のチャンネルレベルおよび相関情報(220)、ならびに信号(246、x)に関連する共分散情報(Cx)を使用して、合成信号を生成するステップと
を含む、復号方法が提供される。
復号方法は、以下のステップ、すなわち、
ダウンミックス信号(246、x)からプロトタイプ信号を算出するステップであって、プロトタイプ信号がいくつかの合成チャンネルを有する、ステップと
原信号(212、y)のチャンネルレベルおよび相関情報、およびダウンミックス信号(246、x)に関連する共分散情報を使用して、混合規則を算出するステップと、
プロトタイプ信号および混合規則を使用して合成信号を生成するステップと
のうちの少なくとも1つを含み得る。
いくつかのダウンミックスチャンネルを有するダウンミックス信号(324、x)から合成信号(336)を生成するための復号方法であって、合成信号(336)がいくつかの合成チャンネルを有し、ダウンミックス信号(324、x)が、いくつかの原チャンネルを有する原信号(212)のダウンミックスされたバージョンであり、方法が、以下のフェーズ、すなわち、
合成信号に関連する共分散行列(
Figure 0007471326000147
)(たとえば、原信号の共分散の再構築されたターゲットバージョン)、および
ダウンミックス信号(324)に関連する共分散行列(Cx)
から算出された第1の混合行列(MM)に従って合成信号の第1の成分(336M')を合成すること
を含む、第1のフェーズ(610c')と、
合成信号の第2の成分(336R')を合成するための第2のフェーズ(610c)であって、第2の成分(336R')が残差成分であり、第2のフェーズ(610c)が、
ダウンミックス信号(324)をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするプロトタイプ信号ステップ(612c)、
アップミックスされたプロトタイプ信号(613c)を非相関化する非相関化器ステップ(614c)、
ダウンミックス信号(324)の非相関バージョン(615c)から、第2の混合行列(MR)に従って、合成信号の第2の成分(336R')を合成する第2の混合行列ステップ(618c)であって、第2の混合行列(MR)が残差混合行列である、第2の混合行列ステップ(618c)
を含む、第2のフェーズ(610c)と
を含み、方法が、
第1の混合行列ステップ(600c)によって提供される残差共分散行列(Cr)、および
ダウンミックス信号(324)に関連する共分散行列(Cx)から取得された非相関プロトタイプ信号の共分散行列(
Figure 0007471326000148
)の推定値から、第2の混合行列(MR)を算出し、
方法が、合成信号の第1の成分(336M')を合成信号の第2の成分(336R')と合計し、それによって合成信号(336)を取得する加算器ステップ(620c)をさらに含む、復号方法も提供される。
さらに、原信号(212、y)からダウンミックス信号(246、x)を生成するための符号化方法であって、原信号(212、y)がいくつかの原チャンネルを有し、ダウンミックス信号(246、x)がいくつかのダウンミックスチャンネルを有し、方法が、
原信号(212、y)のチャンネルレベルおよび相関情報(220)を推定するステップ(218)と、
ダウンミックス信号(246、x)が、原信号(212、y)のチャンネルレベルおよび相関情報(220)を含むサイド情報(228)を有するようにビットストリーム(248)内に符号化されるように、ダウンミックス信号(246、x)をビットストリーム(248)内に符号化するステップ(226)と
を含む、符号化方法が提供される。
これらの方法は、上記で説明した符号化器および復号器のいずれかにおいて実装され得る。
7. 記憶ユニット
さらに、本発明は、プロセッサによって実行されるとプロセッサに上記のような方法を実行させる命令を記憶する非一過性の記憶ユニットにおいて実装され得る。
さらに、本発明は、プロセッサによって実行されるとプロセッサに符号化器または復号器の機能のうちの少なくとも1つを制御させる命令を記憶する非一過性の記憶ユニットにおいて実装され得る。
記憶ユニットは、たとえば、符号化器200または復号器300の一部であり得る。
8. その他の態様
いくつかの態様は、装置の文脈で説明されているが、これらの態様は、対応する方法の説明も表すことは明らかであり、ブロックまたはデバイスは、方法ステップまたは方法ステップの特徴に対応する。類似的に、方法ステップの文脈で説明される態様もまた、対応するブロックもしくはアイテム、または対応する装置の特徴の説明を表す。方法ステップのいくつかまたはすべては、たとえば、マイクロプロセッサ、プログラマブルコンピュータ、または電子回路のような、ハードウェア装置によって(またはハードウェア装置を使用することによって)実行され得る。いくつかの態様において、最も重要な方法ステップの何らかの1つまたは複数は、そのような装置によって実行され得る。
本発明の態様は、特定の実装要件に応じて、ハードウェアまたはソフトウェアにおいて実装され得る。実装は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することが可能な)電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体、たとえば、フロッピーディスク、DVD、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリを使用して実行され得る。したがって、デジタル記憶媒体は、コンピュータ可読であり得る。
本発明によるいくつかの態様は、本明細書に記載の方法のうちの1つが実行されるようにプログラマブルコンピュータシステムと協働することが可能な電子的に読み取り可能な制御信号を有するデータキャリアを含む。
一般に、本発明の態様は、プログラムコードを備えたコンピュータプログラム製品として実装され得、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに方法のうちの1つを実行するために機能する。プログラムコードは、たとえば、機械可読キャリア上に記憶され得る。
他の態様は、機械可読キャリア上に記憶された、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを含む。
したがって、言い換えると、本発明の方法の一態様は、コンピュータプログラムがコンピュータ上で実行されるときに本明細書に記載の方法のうちの1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる態様は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを含み、それが記録されたデータキャリア(またはデジタル記憶媒体、またはコンピュータ可読媒体)である。データキャリア、デジタル記憶媒体、または記録された媒体は、典型的には、有形および/または非一過性である。
したがって、本発明の方法のさらなる態様は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続を介して、たとえばインターネットを介して、転送されるように構成され得る。
さらなる態様は、本明細書に記載の方法のうちの1つを実行するように構成または適応された処理手段、たとえば、コンピュータまたはプログラマブル論理デバイスを含む。
さらなる態様は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
本発明によるさらなる態様は、本明細書に記載の方法のうちの1つを実行するためのコンピュータプログラムを(たとえば、電子的または光学的に)受信機に転送するように構成された装置またはシステムを含む。受信機は、たとえば、コンピュータ、モバイルデバイス、メモリデバイスなどであり得る。装置またはシステムは、たとえば、コンピュータプログラムを受信機に転送するためのファイルサーバを備え得る。
いくつかの態様において、本明細書に記載の方法の機能のうちのいくつかまたはすべてを実行するために、プログラマブル論理デバイス(たとえば、フィールドプログラマブルゲートアレイ)が使用され得る。いくつかの態様において、フィールドプログラマブルゲートアレイは、本明細書に記載の方法のうちの1つを実行するためにマイクロプロセッサと協働し得る。一般に、方法は、任意のハードウェア装置によって実行されることが好ましい。
本明細書に記載の装置は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実装され得る。
本明細書に記載の方法は、ハードウェア装置を使用して、またはコンピュータを使用して、またはハードウェア装置とコンピュータの組合せを使用して実行され得る。
上記の態様は、本発明の原理の例示にすぎない。本明細書に記載の構成および詳細の修正形態および変形形態が当業者には明らかであることが理解されよう。したがって、本明細書の態様の記述および説明として提示された特定の詳細によってではなく、申請中の特許請求の範囲によってのみ制限されることが意図されている。
9. 関連文献&参考文献
100 オーディオシステム
200 符号化器
212 原信号、入力信号
214 フィルタバンク
216 周波数領域バージョン
218 パラメータ推定器
220 チャンネルレベルおよび相関情報
220s スケーラ
226 ビットストリームライタ
228 サイド情報
244 ダウンミックス部
246 ダウンミックス信号
247 コアコーダ
248 ビットストリーム
249 マルチプレクサ
254s スイッチ
258 過渡現象検出器
263 フィルタ
270 ストレージ
273 減算器
300 復号器
312 入力インターフェース
314 チャンネルレベルおよび相関情報
316 パラメータ再構築モジュール
320 フィルタバンク
324 ダウンミックス信号
326 プロトタイプ信号算出器
328 プロトタイプ信号
332 プロトタイプ信号
334 合成エンジン
336 合成信号
338 フィルタバンク
340 合成信号
347 コアデコーダ
384 共分散推定器
402 混合規則算出器
403 混合規則
404 合成プロセッサ
502 共分散推定器
504 共分散推定器
600a 合成プロセッサ
600b 合成プロセッサ
614c 非相関化器
616b COV推定器
616c コア推定器
630 セレクタ
900 ICC行列

Claims (42)

  1. ダウンミックス信号(246、x)から合成信号(336、340、yR)を生成するためのオーディオ合成器(300)であって、前記合成信号(336、340、yR)が複数の合成チャンネルを有し、前記オーディオ合成器(300)が、
    前記ダウンミックス信号(246、x)を受信するように構成された入力インターフェース(312)であって、前記ダウンミックス信号(246、x)が複数のダウンミックスチャンネルおよびサイド情報(228)を有し、前記サイド情報(228)が原信号(212、y)のチャンネルレベルおよび相関情報(314、ξ、χ)を含み、前記原信号(212、y)が複数の原チャンネルを有する、入力インターフェース(312)と、
    合成プロセッサ(404)であって、
    前記原信号(212、y)のチャンネルレベルおよび相関情報(220、314、ξ、χ)、ならびに
    前記ダウンミックス信号(324、246、x)の共分散情報(Cx)
    を使用して、少なくとも1つの混合行列に従って、前記合成信号(336、340、yR)を生成するように構成された合成プロセッサ(404)と
    を備え、
    前記オーディオ合成器(300)は、前記原信号の共分散情報(Cy)のターゲットバージョン
    を再構築(386)するように構成され、
    前記オーディオ合成器(300)は、前記原信号の前記共分散情報(Cy)の推定バージョン(
    )に基づいて前記共分散情報(Cy)のターゲットバージョン(
    )を再構築するように構成され、前記原信号の前記共分散情報(Cy)の前記推定バージョン(
    )が、いくつかの合成チャンネルに報告され、
    前記オーディオ合成器(300)は、前記ダウンミックス信号(324、246、x)の共分散情報(Cx)から前記原信号の前記共分散情報の前記推定バージョン(
    )を取得するように構成され、前記オーディオ合成器(300)は、前記ダウンミックス信号(324、246、x)の前記共分散情報(Cx)に、プロトタイプ信号(326)を算出するためのプロトタイプ行列である、または前記プロトタイプ行列に関連付けられた推定行列(Q)を適用することによって、前記原信号の前記共分散情報(Cy)の前記推定バージョン(
    )を取得するように構成された、
    オーディオ合成器(300)。
  2. 前記ダウンミックス信号(324、246、x)から前記プロトタイプ信号(328)を算出するように構成されたプロトタイプ信号算出器(326)であって、前記プロトタイプ信号(328)がいくつかの合成チャンネルを有する、プロトタイプ信号算出器(326)と、
    混合行列算出器(402)であって、
    前記原信号(212、y)の前記チャンネルレベルおよび相関情報(314、ξ、χ)、ならびに
    前記ダウンミックス信号(324、246、x)の前記共分散情報(Cx)
    を使用して少なくとも1つの混合行列(403)を算出するように構成された、混合行列算出器(402)と
    を備え、前記合成プロセッサ(404)が、前記プロトタイプ信号(328)および前記少なくとも1つの混合行列(403)を使用して前記合成信号(336、340、yR)を生成するように構成される、請求項1に記載のオーディオ合成器(300)。
  3. 前記合成信号(336、340、yR)のチャンネルの数に適応した前記共分散情報(Cy)の前記ターゲットバージョン(
    )を再構築するように構成された、請求項1または2に記載のオーディオ合成器。
  4. 原チャンネルのグループを単一の合成チャンネルに割り当てることによって、またはその逆によって、前記合成信号(336、340、yR)のチャンネルの数に適応した前記共分散情報(Cy)のターゲットバージョン(
    )を再構築し、その結果、前記共分散情報(
    )の前記再構築されたターゲットバージョンが前記合成信号(336、340、yR)のいくつかのチャンネルに報告されるように構成された、請求項3に記載のオーディオ合成器。
  5. 前記いくつかの原チャンネルに関する前記共分散情報の前記ターゲットバージョン(
    )を生成し、続いてダウンミキシング行列またはアップミキシング行列およびエネルギー補償を適用して前記合成チャンネルの前記共分散情報の前記ターゲットバージョン
    (

    に到達することによって、前記合成信号(336、340、yR)のチャンネルの前記数に適応した前記共分散情報(Cy)の前記ターゲットバージョン(

    を再構築するように構成された、請求項4に記載のオーディオ合成器。
  6. 少なくとも1対のチャンネルについて、前記原信号の前記共分散情報(Cy)の前記推定バージョン(
    )を、前記対のチャンネルのうちの前記チャンネルの前記レベルの平方根に正規化するように構成された、請求項1から5のいずれか一項に記載のオーディオ合成器。
  7. 前記原信号の前記共分散情報(Cy)の正規化された推定バージョン(
    )を有する行列を解釈するように構成された、請求項6に記載のオーディオ合成器。
  8. 前記サイド情報(228)において取得されたエントリ(908)を挿入することによって前記行列を完成させるように構成された、請求項7に記載のオーディオ合成器。
  9. 前記対のチャンネルを形成する前記チャンネルの前記レベルの平方根によって前記原信号の前記共分散情報(Cy)の前記推定バージョン(
    )をスケーリングすることによって、前記行列を非正規化するように構成された、請求項6から8のいずれか一項に記載のオーディオ合成器。
  10. 前記ダウンミックス信号(324、246、x)の前記サイド情報(228)の中から、チャンネルレベルおよび相関情報(ξ、χ)を検索するように構成され、
    少なくとも1対のチャンネルの共分散情報(Cx)と、
    少なくとも1つの第2のチャンネルおよび1対のチャンネルのチャンネルレベルおよび相関情報(ξ、χ)と
    の両方から、前記元のチャンネルレベルと相関情報と(220)の両方の推定バージョン(
    )
    によって、前記共分散情報(Cy)の前記ターゲットバージョン(
    )を再構築するようにさらに構成される、請求項1から9のいずれか一項に記載のオーディオ合成器。
  11. 同じチャンネルまたは対のチャンネルの前記ダウンミックス信号(324、246、x)から再構築された前記共分散情報(Cy)よりも、ビットストリーム(248)の前記サイド情報(228)から取得された前記チャンネルまたは対のチャンネルを記述する前記チャンネルレベルおよび相関情報(ξ、χ)を優先するように構成された、請求項10に記載のオーディオ合成器。
  12. 前記原信号の前記共分散情報(Cy)の前記再構築されたターゲットバージョン(
    )が、対のチャンネル間のエネルギー関係を記述するか、または前記対のチャンネルの各チャンネルに関連するレベルに少なくとも部分的に基づく、請求項1から11のいずれか一項に記載のオーディオ合成器。
  13. 前記ダウンミックス信号(246、x)の周波数領域FDバージョン(324)を取得するように構成され、前記ダウンミックス信号(246、x)の前記FDバージョン(324)が帯域または帯域のグループに分割され、異なるチャンネルレベルおよび相関情報(220)が異なる帯域または帯域のグループに関連付けられ、
    前記オーディオ合成器が、異なる帯域または帯域のグループに対して異なる方法で動作して、異なる帯域または帯域のグループに対して異なる混合行列(403)を取得するように構成される、請求項1から12のいずれか一項に記載のオーディオ合成器。
  14. 前記ダウンミックス信号(324、246、x)がスロットに分割され、異なるチャンネルレベルおよび相関情報(220)が異なるスロットに関連付けられ、前記オーディオ合成器が、異なるスロットに対して異なる方法で動作して、異なるスロットに対して異なる混合行列(403)を取得するように構成される、請求項1から13のいずれか一項に記載のオーディオ合成器。
  15. 前記ダウンミックス信号(324、246、x)がフレームに分割され、各フレームがスロットに分割され、前記オーディオ合成器が、1つのフレーム内の過渡現象の存在および位置が、1つの過渡現象スロットにあるものとしてシグナリングされると(261)、
    現在のチャンネルレベルおよび相関情報(220)を、前記過渡現象スロットおよび/または前記フレームの過渡現象スロットに続くスロットに関連付け、
    先行フレームの前記チャンネルレベルおよび相関情報(220)を、前記過渡現象スロットに先行する前記フレームのスロットに関連付ける
    ように構成される、請求項1から14のいずれか一項に記載のオーディオ合成器。
  16. 合成チャンネルの数に基づいてプロトタイプ信号(328)を算出するように構成された前記プロトタイプ行列(Q)を選択するように構成された、請求項1から15のいずれか一項に記載のオーディオ合成器。
  17. 複数の事前に記憶されたプロトタイプ行列の中から前記プロトタイプ行列(Q)を選択するように構成された、請求項16に記載のオーディオ合成器。
  18. 手動選択に基づいて前記プロトタイプ行列(Q)を定義するように構成された、請求項1から17のいずれか一項に記載のオーディオ合成器。
  19. 前記プロトタイプ行列が、第1の次元および第2の次元を有する行列(Q)を含み、前記第1の次元がダウンミックスチャンネルの数に関連付けられ、前記第2の次元が合成チャンネルの数に関連付けられる、請求項17または18に記載のオーディオ合成器。
  20. 160kbit/s以下のビットレートで動作するように構成された、請求項1から19のいずれか一項に記載のオーディオ合成器。
  21. 前記サイド情報(314)を有する前記ダウンミックス信号(246、x)を取得するためのエントロピ復号器(312)をさらに備える、請求項1から20のいずれか一項に記載のオーディオ合成器。
  22. 異なるチャンネル間の相関の量を低減するための非相関化モジュール(614b、614c、330)をさらに備える、請求項1から21のいずれか一項に記載のオーディオ合成器。
  23. 前記プロトタイプ信号(328)が、非相関化を実行せずに前記合成プロセッサ(600a、600b、404)に直接提供される、請求項1から21のいずれか一項に記載のオーディオ合成器。
  24. 前記サイド情報(228)が、前記原チャンネルの識別情報を含み、
    前記オーディオ合成器が、前記原信号(212、y)の前記チャンネルレベルおよび相関情報(ξ、χ)、前記ダウンミックス信号(246、x)の共分散情報(Cx)、前記原チャンネルの前記識別情報、ならびに前記合成チャンネルの識別情報のうちの少なくとも1つを使用して、前記少なくとも1つの混合行列(403)を算出するようにさらに構成される、請求項1から23のいずれか一項に記載のオーディオ合成器。
  25. 特異値分解SVDによって少なくとも1つの混合行列を算出するように構成された、請求項1から24のいずれか一項に記載のオーディオ合成器。
  26. 前記ダウンミックス信号がフレームに分割され、前記オーディオ合成器が、前のフレームに対して取得された、パラメータ、または推定もしくは再構築された値、または混合行列との線形結合を使用して、受信されたパラメータ、または推定もしくは再構築された値、または混合行列を平滑化するように構成される、請求項1から25のいずれか一項に記載のオーディオ合成器。
  27. 1つのフレームにおける過渡現象の存在および/または位置がシグナリング(261)されると、前記受信されたパラメータ、または推定もしくは再構築された値、または混合行列の前記平滑化を無効にするように構成される、請求項26に記載のオーディオ合成器。
  28. 前記ダウンミックス信号がフレームに分割され、前記フレームがスロットに分割され、前記原信号(212、y)の前記チャンネルレベルおよび相関情報(220、ξ、χ)が、ビットストリーム(248)の前記サイド情報(228)からフレーム単位の様式で取得され、前記オーディオ合成器が、現在のフレームに対して算出された混合行列を、前記現在のフレームの後続スロットに沿って増加する係数によってスケーリングすること、および先行フレームに対して使用される前記混合行列を、前記現在のフレームの前記後続スロットに沿って減少する係数によってスケーリングされたバージョンで追加することによって取得された前記混合行列を、前記現在のフレームに対して使用するように構成される、請求項1から10のいずれか一項に記載のオーディオ合成器。
  29. 合成チャンネルの数が原チャンネルの数よりも多い、請求項1から28のいずれか一項に記載のオーディオ合成器。
  30. 合成チャンネルの数が原チャンネルの数よりも少ない、請求項1から29のいずれか一項に記載のオーディオ合成器。
  31. 前記少なくとも1つの混合行列が、第1の混合行列(MM)および第2の混合行列(MR)を含み、前記オーディオ合成器が、
    前記合成信号(212)の共分散行列(
    )であって、前記共分散行列(
    )が、前記チャンネルレベルおよび相関情報(220)から再構築される、共分散行列、および
    前記ダウンミックス信号(324)の共分散行列(Cx)
    から算出された前記第1の混合行列(MM)に従って、前記合成信号の第1の成分(336M')を合成するように構成された第1の混合行列ブロック(600c)
    を含む第1の経路(610c')と、
    前記合成信号の第2の成分(336R')を合成するための第2の経路(610c)であって、前記第2の成分(336R')が残差成分であり、前記第2の経路(610c)が、
    前記ダウンミックス信号(324)をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするように構成されたプロトタイプ信号ブロック(612c)、
    前記アップミックスされたプロトタイプ信号(613c)を非相関化し、それにより前記ダウンミックス信号(324)の非相関バージョン(615c)を取得するように構成された非相関化器(614c)、
    前記ダウンミックス信号(324)の前記非相関バージョン(615c)から第2の混合行列(MR)に従って、前記合成信号の前記第2の成分(336R')を合成するように構成された第2の混合行列ブロック(618c)であって、前記第2の混合行列(MR)が残差混合行列である、第2の混合行列ブロック(618c)
    を含む、第2の経路(610c)と
    を備え、前記オーディオ合成器(300)が、
    前記第1の混合行列ブロック(600c)によって提供される残差共分散行列(Cr)、および
    前記ダウンミックス信号(324)の前記共分散行列(Cx)から取得された前記ダウンミックス信号(324)の前記非相関バージョン(615c)の前記共分散行列(
    )の推定値から、前記第2の混合行列(MR)を推定(618c)するように構成され、
    前記オーディオ合成器(300)が、前記合成信号の前記第1の成分(336M')を前記合成信号の前記第2の成分(336R')と合計するための加算器ブロック(620c)をさらに備える、請求項1から30のいずれか一項に記載のオーディオ合成器。
  32. 複数のダウンミックスチャンネルを有するダウンミックス信号(324、x)から合成信号(336)を生成するためのオーディオ合成器(300)であって、前記合成信号(336)が複数の合成チャンネルを有し、前記ダウンミックス信号(324)が複数の原チャンネルを有する原信号(212)のダウンミックスされたバージョンであり、前記オーディオ合成器(300)が、
    第1の経路(610c')であって、
    前記合成信号(212)の共分散行列(
    )、および
    前記ダウンミックス信号(324)の共分散行列(Cx)
    から算出された第1の混合行列(MM)に従って、前記合成信号の第1の成分(336M')を合成するように構成された第1の混合行列ブロック(600c)
    を含む第1の経路(610c')と、
    前記合成信号の第2の成分(336R')を合成するための第2の経路(610c)であって、前記第2の成分(336R')が残差成分であり、前記第2の経路(610c)が、
    前記ダウンミックス信号(324)をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするように構成されたプロトタイプ信号ブロック(612c)、
    前記アップミックスされたプロトタイプ信号(613c)を非相関化し、それにより前記ダウンミックス信号(324)の非相関バージョン(615c)を取得するように構成された非相関化器(614c)、
    前記ダウンミックス信号(324)の前記非相関バージョン(615c)から第2の混合行列(MR)に従って、前記合成信号の前記第2の成分(336R')を合成するように構成された第2の混合行列ブロック(618c)であって、前記第2の混合行列(MR)が残差混合行列である、第2の混合行列ブロック(618c)
    を含む、第2の経路(610c)と
    を備え、前記オーディオ合成器(300)が、
    前記第1の混合行列ブロック(600c)によって提供される残差共分散行列(Cr)、および
    前記ダウンミックス信号(324)の前記共分散行列(Cx)から取得された前記ダウンミックス信号(324)の前記非相関バージョン(615c)の前記共分散行列(
    )の推定値から、前記第2の混合行列(MR)を算出(618c)するように構成され、
    前記オーディオ合成器(300)が、前記合成信号の前記第1の成分(336M')を前記合成信号の前記第2の成分(336R')と合計するための加算器ブロック(620c)をさらに備える、オーディオ合成器(300)。
  33. 前記残差共分散行列(Cr)が、前記合成信号(212)の前記共分散行列(
    )から、前記ダウンミックス信号(324)の前記共分散行列(Cx)に前記第1の混合行列(MM)を適用することによって取得された行列を差し引くことによって取得される、請求項31または32に記載のオーディオ合成器。
  34. 前記合成信号の前記残差共分散行列(Cr)を分解することによって取得される第2の行列(Kr)、
    前記非相関プロトタイプ信号の前記共分散行列(
    )の前記推定値(711)から取得される対角行列(
    )の逆行列または正則化された逆行列である第1の行列(
    )から、前記第2の混合行列(MR)を定義するように構成される、請求項31または32または33に記載のオーディオ合成器。
  35. 前記対角行列(
    )が、前記非相関プロトタイプ信号の前記共分散行列(
    )の主対角要素に平方根関数(712)を適用することによって取得される、請求項34に記載のオーディオ合成器。
  36. 前記第2の行列(Kr)が、前記合成信号の前記残差共分散行列(Cr)に適用される特異値分解SVD(702)によって取得される、請求項34または35に記載のオーディオ合成器。
  37. 前記非相関プロトタイプ信号の前記共分散行列(
    )の前記推定値から取得された前記対角行列(
    )の前記逆行列(
    )または前記正則化された逆行列と、第3の行列(P)とを、前記第2の行列(Kr)に乗算(742)することによって、前記第2の混合行列(MR)を定義するように構成される、請求項34から36のいずれか一項に記載のオーディオ合成器。
  38. 前記非相関プロトタイプ信号の前記共分散行列(
    )の正規化バージョン(
    )から取得された行列(K'y)に適用されたSVD(738)によって、前記第3の行列(P)を取得するように構成される、請求項37に記載のオーディオ合成器。
  39. ダウンミックス信号から合成信号を生成するための復号方法であって、前記合成信号が複数の合成チャンネルを有し、前記方法が、
    ダウンミックス信号(246、x)を受信するステップであって、前記ダウンミックス信号(246、x)が複数のダウンミックスチャンネル、およびサイド情報(228)を有し、前記サイド情報(228)が、
    原信号(212、y)のチャンネルレベルおよび相関情報(220)
    を含み、前記原信号(212、y)が複数の原チャンネルを有する、ステップと、
    前記原信号(212、y)の前記チャンネルレベルおよび相関情報(220)、ならびに前記ダウンミックス信号(246、x)の共分散情報(Cx)を使用して、前記合成信号を生成するステップと
    を含み、
    前記方法は、
    前記原信号の前記共分散情報(Cy)の推定バージョン(
    )に基づいて前記原信号の前記共分散情報(Cy)のターゲットバージョン(
    )を再構築するステップであって、前記原信号の前記共分散情報(Cy)の前記推定バージョン(
    )が、いくつかの合成チャンネルに報告されるステップをさらに含み、
    前記原信号の前記共分散情報の前記推定バージョン(
    )は、前記ダウンミックス信号(324、246、x)の前記共分散情報(Cx)から取得され、前記原信号の前記共分散情報(Cy)の前記推定バージョン(
    )は、前記ダウンミックス信号(324、246、x)の前記共分散情報(Cx)に、プロトタイプ信号(326)を算出するためのプロトタイプ行列である、または前記プロトタイプ行列に関連付けられた推定行列(Q)を適用することによって取得される、
    復号方法。
  40. 前記方法が、
    前記ダウンミックス信号(246、x)からプロトタイプ信号を算出するステップであって、前記プロトタイプ信号がいくつかの合成チャンネルを有する、ステップと
    前記原信号(212、y)の前記チャンネルレベルおよび相関情報、ならびに前記ダウンミックス信号(246、x)の共分散情報を使用して、混合行列を算出するステップと、
    前記プロトタイプ信号および前記混合行列を使用して前記合成信号を生成するステップと
    を含む、請求項39に記載の方法。
  41. いくつかのダウンミックスチャンネルを有するダウンミックス信号(324、x)から合成信号(336)を生成するための方法であって、前記合成信号(336)がいくつかの合成チャンネルを有し、前記ダウンミックス信号(324、x)が、いくつかの原チャンネルを有する原信号(212)のダウンミックスされたバージョンであり、前記方法が、以下のフェーズ、すなわち、
    前記合成信号(212)の共分散行列(
    )、および
    前記ダウンミックス信号(324)の共分散行列(Cx)
    から算出された第1の混合行列(MM)に従って前記合成信号の第1の成分(336M')を合成すること
    を含む、第1のフェーズ(610c')と、
    前記合成信号の第2の成分(336R')を合成するための第2のフェーズ(610c)であって、前記第2の成分(336R')が残差成分であり、前記第2のフェーズ(610c)が、
    前記ダウンミックス信号(324)をダウンミックスチャンネルの数から合成チャンネルの数にアップミックスするプロトタイプ信号ステップ(612c)、
    前記アップミックスされたプロトタイプ信号(613c)を非相関化する非相関化器ステップ(614c)、
    前記ダウンミックス信号(324)の非相関バージョン(615c)から、第2の混合行列(MR)に従って、前記合成信号の前記第2の成分(336R')を合成する第2の混合行列ステップ(618c)であって、前記第2の混合行列(MR)が残差混合行列である、第2の混合行列ステップ(618c)
    を含む、第2のフェーズ(610c)と
    を含み、前記方法が、
    第1の混合行列ステップ(600c)によって提供される残差共分散行列(Cr)、および
    前記ダウンミックス信号(324)の前記共分散行列(Cx)から取得された前記ダウンミックス信号(324)の前記非相関バージョン(615c)の前記共分散行列の推定値
    から、前記第2の混合行列(MR)を算出し、
    前記方法が、前記合成信号の前記第1の成分(336M')を前記合成信号の前記第2の成分(336R')と合計し、それによって前記合成信号(336)を取得する加算器ステップ(620c)をさらに含む、方法。
  42. プロセッサによって実行されると前記プロセッサに請求項39から41のいずれか一項に記載の方法を実行させる命令を記憶する、非一過性の記憶ユニット。
JP2021573912A 2019-06-14 2020-06-15 パラメータの符号化および復号 Active JP7471326B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2023215842A JP2024029071A (ja) 2019-06-14 2023-12-21 パラメータの符号化および復号

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19180385 2019-06-14
EP19180385.7 2019-06-14
PCT/EP2020/066456 WO2020249815A2 (en) 2019-06-14 2020-06-15 Parameter encoding and decoding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2023215842A Division JP2024029071A (ja) 2019-06-14 2023-12-21 パラメータの符号化および復号

Publications (2)

Publication Number Publication Date
JP2022537026A JP2022537026A (ja) 2022-08-23
JP7471326B2 true JP7471326B2 (ja) 2024-04-19

Family

ID=66912589

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021573912A Active JP7471326B2 (ja) 2019-06-14 2020-06-15 パラメータの符号化および復号
JP2023215842A Pending JP2024029071A (ja) 2019-06-14 2023-12-21 パラメータの符号化および復号

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2023215842A Pending JP2024029071A (ja) 2019-06-14 2023-12-21 パラメータの符号化および復号

Country Status (14)

Country Link
US (3) US11990142B2 (ja)
EP (2) EP4398243A3 (ja)
JP (2) JP7471326B2 (ja)
KR (3) KR20220025107A (ja)
CN (1) CN114270437A (ja)
AU (3) AU2020291190B2 (ja)
BR (1) BR112021025265A2 (ja)
CA (2) CA3193359A1 (ja)
ES (1) ES2980822T3 (ja)
MX (1) MX2021015314A (ja)
PL (1) PL3984028T3 (ja)
TW (2) TWI843389B (ja)
WO (1) WO2020249815A2 (ja)
ZA (1) ZA202110293B (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022079044A1 (en) 2020-10-13 2022-04-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding a plurality of audio objects using direction information during a downmixing or apparatus and method for decoding using an optimized covariance synthesis
MX2023004247A (es) 2020-10-13 2023-06-07 Fraunhofer Ges Forschung Aparato y metodo para codificar una pluralidad de objetos de audio o aparato y metodo para decodificacion usando dos o mas objetos de audio relevantes.
GB2624869A (en) * 2022-11-29 2024-06-05 Nokia Technologies Oy Parametric spatial audio encoding
GB202218103D0 (en) * 2022-12-01 2023-01-18 Nokia Technologies Oy Binaural audio rendering of spatial audio
WO2024175587A1 (en) * 2023-02-23 2024-08-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal representation decoding unit and audio signal representation encoding unit
WO2024208420A1 (en) 2023-04-05 2024-10-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor, audio processing system, audio decoder, method for providing a processed audio signal representation and computer program using a time scale modification

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009531735A (ja) 2006-03-28 2009-09-03 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
JP2016528811A (ja) 2013-07-22 2016-09-15 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2572805C (en) 2004-07-02 2013-08-13 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
US20070055510A1 (en) * 2005-07-19 2007-03-08 Johannes Hilpert Concept for bridging the gap between parametric multi-channel audio coding and matrixed-surround multi-channel coding
JP5111375B2 (ja) 2005-08-30 2013-01-09 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
WO2007080211A1 (en) 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
CN101406074B (zh) 2006-03-24 2012-07-18 杜比国际公司 解码器及相应方法、双耳解码器、包括该解码器的接收机或音频播放器及相应方法
JP5270557B2 (ja) * 2006-10-16 2013-08-21 ドルビー・インターナショナル・アクチボラゲット 多チャネルダウンミックスされたオブジェクト符号化における強化された符号化及びパラメータ表現
WO2008060111A1 (en) 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
CN101821799B (zh) * 2007-10-17 2012-11-07 弗劳恩霍夫应用研究促进协会 使用上混合的音频编码
KR101629862B1 (ko) * 2008-05-23 2016-06-24 코닌클리케 필립스 엔.브이. 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더
US9165558B2 (en) * 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
EP2717262A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
US8804971B1 (en) 2013-04-30 2014-08-12 Dolby International Ab Hybrid encoding of higher frequency and downmixed low frequency content of multichannel audio
EP2804176A1 (en) 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
EP2830053A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
BR112016008426B1 (pt) * 2013-10-21 2022-09-27 Dolby International Ab Método para reconstrução de uma pluralidade de sinais de áudio, sistema de decodificação de áudio, método para codificação de uma pluralidade de sinais de áudio, sistema de codificação de áudio, e mídia legível por computador
EP2879131A1 (en) * 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009531735A (ja) 2006-03-28 2009-09-03 テレフオンアクチーボラゲット エル エム エリクソン(パブル) マルチチャネル・サラウンドサウンドのためのデコーダのための方法及び装置
JP2016528811A (ja) 2013-07-22 2016-09-15 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現

Also Published As

Publication number Publication date
PL3984028T3 (pl) 2024-08-19
ES2980822T3 (es) 2024-10-03
US20220108707A1 (en) 2022-04-07
EP3984028A2 (en) 2022-04-20
CN114270437A (zh) 2022-04-01
EP4398243A2 (en) 2024-07-10
TW202322102A (zh) 2023-06-01
EP4398243A3 (en) 2024-10-09
US20220122621A1 (en) 2022-04-21
CA3193359A1 (en) 2020-12-17
BR112021025265A2 (pt) 2022-03-15
EP3984028B1 (en) 2024-04-17
KR20220025107A (ko) 2022-03-03
AU2021286309B2 (en) 2023-05-04
TWI792006B (zh) 2023-02-11
ZA202110293B (en) 2022-08-31
KR20220025108A (ko) 2022-03-03
KR20220024593A (ko) 2022-03-03
EP3984028C0 (en) 2024-04-17
TW202105365A (zh) 2021-02-01
WO2020249815A2 (en) 2020-12-17
AU2020291190B2 (en) 2023-10-12
JP2024029071A (ja) 2024-03-05
WO2020249815A3 (en) 2021-02-04
AU2021286307C1 (en) 2024-08-29
TWI843389B (zh) 2024-05-21
JP2022537026A (ja) 2022-08-23
AU2021286307B2 (en) 2023-06-15
CA3143408A1 (en) 2020-12-17
AU2021286307A1 (en) 2022-01-20
US11990142B2 (en) 2024-05-21
AU2020291190A1 (en) 2022-01-20
AU2021286309A1 (en) 2022-01-20
US20220122617A1 (en) 2022-04-21
MX2021015314A (es) 2022-02-03

Similar Documents

Publication Publication Date Title
JP7471326B2 (ja) パラメータの符号化および復号
US11252523B2 (en) Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
US10431227B2 (en) Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
JP2008530616A (ja) ニアトランスペアレントまたはトランスペアレントなマルチチャネルエンコーダ/デコーダ構成
JP2016525716A (ja) 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
RU2806701C2 (ru) Кодирование и декодирование параметров
RU2803451C2 (ru) Кодирование и декодирование параметров

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220214

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230131

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230206

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231221

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20231222

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20240122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240409

R150 Certificate of patent or registration of utility model

Ref document number: 7471326

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150