JP6612753B2 - 高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング - Google Patents

高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング Download PDF

Info

Publication number
JP6612753B2
JP6612753B2 JP2016534697A JP2016534697A JP6612753B2 JP 6612753 B2 JP6612753 B2 JP 6612753B2 JP 2016534697 A JP2016534697 A JP 2016534697A JP 2016534697 A JP2016534697 A JP 2016534697A JP 6612753 B2 JP6612753 B2 JP 6612753B2
Authority
JP
Japan
Prior art keywords
channel
channels
layout
surviving
quadruplet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016534697A
Other languages
English (en)
Other versions
JP2017501438A (ja
Inventor
ジェフリー トンプソン
ゾーラン フェジゾ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DTS Inc
Original Assignee
DTS Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US14/447,516 external-priority patent/US9338573B2/en
Application filed by DTS Inc filed Critical DTS Inc
Publication of JP2017501438A publication Critical patent/JP2017501438A/ja
Application granted granted Critical
Publication of JP6612753B2 publication Critical patent/JP6612753B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Stereophonic System (AREA)

Description

(関連出願の相互参照)
本出願は、2013年11月27日出願の米国仮特許出願番号61/909,841「高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング」の非仮出願である2014年11月26日出願の米国特許出願番号14/555,324「高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング」、及び2014年7月30日出願の米国特許出願番号14/447,516「コンスタントパワーペアワイズパニングを備えたマトリックス復号器」の利益を主張し、その開示内容全体は引用により本明細書に組み込まれている。
多くのオーディオ再生システムは、「サラウンドサウンド」と呼ばれる場合もある同期マルチチャンネルオーディオを記録、伝送、及び再生することができる。娯楽用オーディオは単純なモノラルシステムから始まったが、まもなく聴取者を魅了する圧倒的な空間的イメージ及び感覚を表現するために2チャンネル(ステレオ)及び高チャンネル数フォーマット(サラウンドサウンド)が開発された。サラウンドサウンドは、3以上のオーディオチャンネルを使用することによってオーディオ信号の再生を強化するための技術である。コンテンツは、複数のディスクリートオーディオチャンネル上で供給され、ラウドスピーカ(又はスピーカ)のアレイを使用して再生される。付加的なオーディオチャンネル、又は「サラウンドチャンネル」は、聴取者に実体験のようなリスニング経験を提供する。
サラウンドサウンドシステムは、典型的には、聴取者の周りに配置されたスピーカを有し、聴取者に音の定位感及び包囲感を与える。数チャンネル(5.1フォーマットなど)だけをもつ多くのサラウンドサウンドシステムは、聴取者の周りの360度の円弧の特定の位置に配置されたスピーカを有する。また、これらのスピーカは、スピーカの全てが相互に及び聴取者の耳と同一平面になるように配置される。また、多くの高チャンネル数サラウンドサウンドシステム(例えば、7.1、11.1)は、聴取者の耳の平面の上方に配置されたハイトスピーカ又は高さ方向スピーカを含み、オーディオコンテンツに高さの感覚を与える。このようなサラウンドサウンド構成は、付加的な低周波数の低音を提供するディスクリートな低域効果(LFE)チェンネルを含み、他の主オーディオチャンネルにおける低音を増強する。このLFEチャンネルは、他のオーディオチャンネルの帯域幅の一部分だけを必要とするので、「X」チャンネルとして指定され、ここでXは、ゼロを含む任意の正の整数である(例えば、5.1又は7.1サラウンドサウンド)。
理想的には、サラウンドサウンドオーディオは、ディスクリートチャンネルにミキシングされ、このチャンネルは、聴取者への再生を通して離散したままである。しかしながら、現実的には、記憶装置及び伝送の制限によって、サラウンドサウンドオーディオのファイルサイズは、記憶スペース及び伝送帯域幅を最小にするために制限されることを要求する。さらに、2チャンネルオーディオコンテンツは、典型的には、3以上のチャンネルを有するオーディオコンテンツに比べて、多様な放送及び再生システムと互換性がある。
マトリクス化はこのようなニーズに対処するために開発された。マトリクス化は、3以上のディスクリートオーディオチャンネルを有する原信号を2チャンネルオーディオ信号に「ダウンミキシング」することを含む。2つのチャンネルを上回る付加的なチャンネルが、事前に決められたプロセスに従ってダウンミキシングされ、オーディオチャンネルの全てからの情報を含む2チャンネルダウンミックスを生成する。その後、付加的なオーディオチャンネルは、「アップミックス」プロセスを使用して2チャンネルダウンミックスから抽出して合成することができ、オリジナルチャンネルミックスが、ある近似レベルに回復される。アップミキシングは入力として2チャンネルオーディオ信号を受信して、再生のためのより多い数のチャンネルを生成する。この再生は、原信号のディスクリートオーディオチャンネルの許容可能な近似である。
いくつかのアップミキシング技術はコンスタントパワーパンニングを利用する。「パンニング」の概念は、動画、具体的には「パノラマ」という語に由来する。パノラマは、あらゆる方向において所定の領域の完全な視覚的表示を有することを意味する。オーディオ分野では、オーディオはステレオ音場でパンニングすることができ、これによってオーディオは物理的空間に位置付けられるものとして知覚され、聴取者は、演奏における全ての音を適切な位置及び大きさで聞き取る。音楽記録に関して、一般的な方法は、楽器を現実のステージに物理的に配置されることになる場所に位置付ける。例えば、ステージ左側の楽器は左側にパンニングされ、ステージ右側の楽器は右側にパンニングされる。この発想は、再生時、聴取者に対して実際の演奏を再現することを追求する。
コンスタントパワーパンニングは、入力オーディオ信号がオーディオチャンネル間で分配される際にオーディオチャンネル全体で一定の信号パワーを維持する。コンスタントパワーパンニングが普及しているが、現在のダウンミキシング及びアップミキシング技術は、オリジナルミックスに存在する精密なパンニング挙動及び定位を維持及び回復するのに苦労している。加えて、一部の技術はアーティファクトを起こし易く、全てが、時間及び周波数で重なり合うが異なる空間方向から発生する独立信号を分離する能力が制限されている。
例えば、一部の評判のよいアップミキシング技術は電圧制御増幅器を使用して、両方の入力チャンネルをほぼ同じレベルに正規化する。次にこのような2つの信号は、アドホック方式で結合され、出力チャンネルを生成する。しかしながら、このアドホック方式により、最終的な出力は、所望のパンニング挙動を実現するのが難しく、クロストークによる問題を含み、ディスクリートサラウンドサウンドオーディオを近似するのがせいぜいである。
他のタイプのアップミキシング技術は、数少ないパンニング位置でのみ正確であるが、このような位置から離れると不正確である。例示的に、一部のアップミキシング技術は、アップミキシングが正確で予測可能な挙動を生じる制限された数のパンニング位置を定義する。支配ベクトル分析は、正確なパンニング位置ポイントでのデマトリックス係数の事前に定義されたセットの制限された数を補間するために使用される。ポイントの間に入るいずれのパンニング位置も、デマトリックス係数値を見付けるために補間を使用する。この補間により、正確なポイントの間に入るパンニング位置は不正確でありオーディオ品質に悪影響を与える可能性がある。
米国仮特許出願第61/909,841号明細書 米国特許出願第14/555,324号明細書 米国特許出願第14/447,516号明細書
この要約は、以下の詳細な説明で説明される単純化された形式における概念の選択を導入するために提供される。この要約は、請求される主題の主要な特徴又は基本的な特徴を識別することを意図するものではなく、請求される主題の範囲を制限するために使用することを意図するものでもない。
マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態は、高チャンネル数(7又はそれ以上のチャンネル)マルチチャンネルオーディオのチャンネル数(従ってビットレート)を低減する。加えて、コーデック及び方法の実施形態は、空間的精度と基本的オーディオ品質との間のトレードオフを可能にすることによって、オーディオ品質を最適化して、オーディオ信号フォーマットを再生環境構成に変換する。これは、目標ビットレートとビットレートが支援するチャンネルの数(又はサバイビングチャンネル)を決定することによって部分的に達成される。チャンネルの残り(非サバイビングチャンネル)は、サバイビングチャンネルのマルチプレットにダウンミキシングされる。これは、チャンネルのペア(又はダブレット)、トリプレットのチャンネル、クアドラプレットのチャンネル、又はいずれかの高位のマルチプレットチャンネルにすることができる。
例えば、第5非サバイビングチャンネルを4つの他のサバイビングチャンネルにダウンミキシングすることができる。アップミックス中に第5チャンネルは4つの他のチャンネルから抽出され再生環境でレンダリングされる。このような符号化された4つのチャンネルは更に、既存の復号器との後方互換性のために様々な方法で構成及び結合され、次に非可逆又は可逆ビットレート圧縮のいずれかを使用して圧縮される。復号器は、符号化された4つの符号化オーディオチャンネル並びにオリジナルソーススピーカレイアウト(11.xレイアウトなど)への適正な復号を可能にする関連のあるメタデータが提供される。
復号器がチャンネル低減信号を適正に復号するために、復号器には、符号化プロセスで使用されたレイアウト、パラメータ、及び係数を通知する必要がある。例えば、符号器が11.2チャンネルベースミックスを7.1チャンネル低減信号に符号化した場合、次にオリジナルレイアウト、チャンネル低減レイアウト、寄与ダウンミックスチャンネル、及びダウンミクス係数を記述する情報が復号器に送信して、オリジナル11.2チャンネル数レイアウトへの適正な復号を可能にする。このタイプの情報は、ビットストリームのデータ構造で提供される。この性質の情報が提供され原信号を再構成するために使用された場合、コーデックがメタデータモードで作用する。
再生環境のリスニングレイアウトに一致する出力チャンネルレイアウトを作成するために、レガシーコンテンツのブラインドアップミキサとしてコーデック及び方法を使用することもできる。ブラインドアップミックス使用事例における違いは、コーデックが公知の符号化プロセスの代わりにレイアウト及び信号仮定に基づいて信号処理モジュールを構成することである。従って、コーデックは、明示的なメタデータ情報を持たない又は使用しない場合にブラインドモードで作用する。
本明細書で説明するマルチプレットベースの空間的マトリクス化コーデック及び方法は、ミキシング又はレンダリング技術の後方互換性及び融通性に正しい配慮を払えるように、多くのチャンネルを有するマルチチャンネルオーディオをミキシング、配信、及び再生する際に生じる幾つかの相互に関係する問題に対処しようという試みである。音源、マイクロフォン、又はスピーカに対して無数の空間配列が可能であること、及び最終消費者によって所有されるスピーカの配列が、娯楽オーディオのアーティスト、エンジニア、又は配信者にとって完璧に予測可能ではない可能性があることが、当業者によって理解されるであろう。コーデック及び方法の実施形態は、大きなチャンネル数に作用することができる、データ帯域幅、チャンネル数、及び品質間の機能的及び実際的な妥協を達成する必要性にも対処する。
マルチプレットベースの空間的マトリクス化コーデック及び方法は、チャンネル数(及び従ってビットレート)を低減し、空間的精度及び基本的なオーディオ品質間のトレードオフを可能にすることによってオーディオ品質を最適化し、且つオーディオ信号フォーマットを再生環境構成に変換するよう設計される。従って、コーデック及び方法の実施形態は、マトリクス化とディスクリートチャンネル圧縮の組合せを使用して、Mチャンネル(及びLFEチャンネル)を有するベースミックスからNチャンネルを有するマルチチャンネルミックスを作成して再生し、ここでNはMより大きくN及びMの両方は2より大きいとする。この技術は、Nが大きい場合、例えば10から50の範囲にあり高位チャンネル並びにサラウンドチャンネルを含む場合に、及び5.1又は7.1サラウンドミックスなどの後方互換性ベースミックスを提供することが要求される場合に特に有利である。
ベースチャンネル(5.1又は7.1など)及び付加的なチャンネルを含むサウンドミックスを前提として、本発明は、相補的なアップミックスを可能にする方法で付加的なチャンネルをベースチャンネルにミキシングするために、ペアワイズ、トリプレット、及びクワドラプレットの組合せを使用し、前記アップミックスは、各付加的なチャンネルに対して空間的に定義された音源の本物だと思わせるような錯覚と共に、明瞭で鮮明に付加的なチャンネルを回復することができる。レガシー復号器は、ベースミックスを復号することができ、新しい復号器は、コーデック及び方法の実施形態によって可能になり、付加的なチャンネル(高位チャンネルなど)を分離するアップミックスを実行する。
他の実施形態が可能であり、本明細書で説明するステップ及び要素は、特定の実施形態に応じて変更、追加、又は削除される可能性があることに留意すべきである。このような他の実施形態は、本発明の範囲から逸脱することなく使用することができる他のステップ及び他の要素並びに行い得る構造的な変更を含む。
図面を参照すると、同じ参照番号が全体を通して対応する部分を表わす。
用語「ソース」、「波形」、及び「オーディオオブジェクト」の相違を示す図である。 用語「ベッドミックス」、「オブジェクト」、及び「ベースミックス」の相違を示す図である。 聴取者の耳と同じ平面にあるスピーカの数Lと、聴取者の耳より高い場所にあるハイトリングの周りに並べられたスピーカの数Pを有するコンテンツ作成環境スピーカレイアウトの概念を示す図である。 マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態の概要を示すブロック図である。 図4に示したマルチプレットベースの空間的マトリクス化符号器の非レガシー実施形態の詳細を示すブロック図である。 図4に示したマルチプレットベースの空間的マトリクス化復号器の非レガシー実施形態の詳細を示すブロック図である。 図4に示したマルチプレットベースの空間的マトリクス化符号器の後方互換性のある実施形態の詳細を示すブロック図である。 図4に示したマルチプレットベースの空間的マトリクス化復号器の後方互換性のある実施形態の詳細を示すブロック図である。 図5及び7に示したマルチプレットベースのマトリックスダウンミキシングシステムの例示的な実施形態の詳細を示すブロック図である。 図6及び8に示したマルチプレットベースのマトリックスアップミキシングシステムの例示的な実施形態の詳細を示すブロック図である。 図4に示したマルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態の一般的な動作を示す流れ図である。 サイン/コサインパンニング法則のパンニング角度(θ)の関数としてパンニング重みを示す図である。 中心出力チャンネルの同相プロットに対応するパンニング挙動を示す図である。 中心出力チャンネルの異相プロットに対応するパンニング挙動を示す図である。 左サラウンド出力チャンネルの同相プロットに対応するパンニング挙動を示す図である。 左サラウンド及び右サラウンドチャンネルが別個に符号化及び復号されるダウンミックス式に対応する2つの特定の角度を示す図である。 修正された左出力チャンネルの同相プロットに対応するパンニング挙動を示す図である。 修正された左出力チャンネルの異相プロットに対応するパンニング挙動を示す図である。 信号ソース、S、のチャンネルトリプレットへのパンニングを示す図である。 トリプレットにパンニングされている非サバイビング第4チャンネルの抽出を示す図である。 信号ソース、S、のチャンネルクアドラプレットへのパンニングを示す図である。 クアドラプレットにパンニングされている非サバイビング第5チャンネルの抽出を示す図である。 再生環境及び拡張されたレンダリング技術を示す図である。 拡張されたレンダリング技術を使用して単位球面上及び単位球面内のオーディオソースのレンダリングを示す図である。 サバイビングレイアウトに存在しない入力レイアウトにおけるあらゆるスピーカのためのマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。 サバイビングレイアウトに存在しない入力レイアウトにおけるあらゆるスピーカのためのマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。 サバイビングレイアウトに存在しない入力レイアウトにおけるあらゆるスピーカのためのマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。 サバイビングレイアウトに存在しない入力レイアウトにおけるあらゆるスピーカのためのマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。
マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態の以下の説明は添付の図面を参照する。これらの図面は、マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態がどのように実施されるかの特定の実施例を例示する。請求される主題の範囲から逸脱することなく、他の実施形態を利用すること及び構造的な変更を行い得ることを理解されたい。
I.用語
以下は、本文書で使用される幾つかの基本的な用語及び概念である。このような用語及び概念の一部は、他のオーディオ技術に対して使用される際に有する意味とはわずかに異なる意味を有する場合がある。
本文書は、チャンネルベースのオーディオ及びオブジェクトベースのオーディオの両方について論じる。音楽又はサウンドトラックは、伝統的には、レコーディングスタジオで幾つかの異なるサウンドを互いにミキシングして、これらのサウンドが聞かれる場所を決め、且つスピーカシステムの各個々のスピーカで再生される出力チャンネルを作成することによって作成される。このチャンネルベースのオーディオでは、チャンネルは、定義された標準的なスピーカ構成を意図している。異なるスピーカ構成が使用される場合、サウンドは、意図された場所に到達しないか又は正しい再生レベルで到達しない可能性がある。
オブジェクトベースのオーディオでは、3次元(3D)空間におけるその位置を含む、サウンドをどのように再生すべきかを記述する情報又はメタデータが、様々なサウンドの全てに結合される。所与のスピーカシステムに対してオブジェクトをレンダリングするのは再生システム次第であり、これによってオブジェクトは、正しい位置に配置されて意図されたように再生される。オブジェクトベースのオーディオによって、音楽及びサウンドトラックは、異なる数のスピーカで又は聴取者に対して異なる位置にあるスピーカによってシステム上で基本的に同じように聞こえる必要がある。この方法は、アーティストの真意を維持するのを助ける。
図1は、用語「ソース」、「波形」、及び「オーディオオブジェクト」の違いを示す図である。図1に示すように、用語「ソース」は、ベッドミックスの1つのチャンネル又は1つのオーディオオブジェクトのサウンドのいずれかを表わす単一の音波を意味するために使用される。ソースが3D空間で特定の位置を割り当てられた時に、そのサウンドと3D空間におけるサウンドの位置の組合せが「波形」と呼ばれる。「オーディオオブジェクト」(又は「オブジェクト」)は、波形が他のメタデータ(チャンネルセット、オーディオプレゼンテーション階層など)に組み合わせられ、拡張されたビットストリームのデータ構造に記憶された場合に作成される。「拡張されたビットストリーム」は、オーディオデータだけでなく空間データ及び他のタイプのメタデータを包含する。「オーディオプレゼンテーション」は、マルチプレットベースの空間的マトリクス化復号器の実施形態から最終的に出てくるオーディオである。
成句「利得係数」は、ボリュームを上げたり下げたりするためにオーディオ信号のレベルが調節される量である。用語「レンダリング」という語は、所与のオーディオ分散フォーマットを使用する特定の再生スピーカ構成に変換するプロセスを示す。レンダリングは、再生システム及び環境のパラメータ及び制限が与えられた場合に、可能な限りオリジナル空間音響スペースに近い再生空間音響スペースを再現しようと試みる。
サラウンド又はハイトスピーカのいずれかが再生環境におけるスピーカレイアウトから除外された場合、これらの除外されたスピーカに対して意図されたオーディオオブジェクトは、再生環境に物理的に存在する他のスピーカにリマッピングすることができる。この機能を可能にするために、再生環境で使用されるが出力チャンネルには直接関連付けられない「仮想スピーカ」を定義することができる。代わりに、これらの信号は、ダウンミックスマップを使用することによって物理的なスピーカチャンネルに経路変更される。
図2は、用語「ベッドミックス」、「オブジェクト」、及び「ベースミックス」の違いを示す。「ベッドミックス」及び「ベースミックス」の両方は、チャンネルとして又はチャンネルベースのオブジェクトとしてのいずれかで拡張ビットストリームに包含することができるチャンネルベースのオーディオミックス(5.1、7.1、11.1など)を指す。2つの用語の違いは、ベッドミックスがビットストリームに包含される何らかのオーディオオブジェクトを含まないことである。ベースミックスは、標準的なスピーカレイアウト(5.1、7.1など)のチャンネルベースの形式で提示される完全なオーディオプレゼンテーションを包含する。ベースミックスでは、存在するいずれのオブジェクトもチャンネルミックスにミキシングされる。これは図2に示されており、ベースミックスがベッドミックスとあらゆるオーディオオブジェクトの両方を含むことを示している。
本文書で使用する用語「マルチプレット」は、信号がパンニングされる複数のチャンネルのグループ化を意味する。例えば、マルチプレットの1つのタイプは「ダブレット(doublet)」であり、ダブレットにより信号は2つのチャンネルにパンニングされる。同様に、マルチプレットの別のタイプが「トリプレット(triplet)」であり、トリプレットにより信号は3つのチャンネルにパンニングされる。信号が4つのチャンネルにパンニングされた場合に、結果として得られるマルチプレットは「クアドラプレット(quadruplet)」と呼ばれる。マルチプレットは、信号がパンニングされる、5チャンネル、6チャンネル、7チャンネルなどを含む2又はそれ以上のチャンネルのグループ化を含むことができる。教育的な目的で、この文書は、ダブレット、トリプレット、及びクアドラプレトのケースだけを解説する。しかしながら、本明細書に教示される原理を5又はそれ以上のチャンネルを含むマルチプレットに拡張できる点に留意されたい。
マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態又はその態様は、特に多数のチャンネルが伝達又は記録される際に、マルチチャンネルオーディオの配信及び記録のためのシステムで使用される。本文書で使用される「高チャンネル数」マルチチャンネルオーディオは、7又はそれ以上のオーディオチャンネルがあることを意味する。例えば、1つのこのようなシステムでは、多数のチャンネルが記録され、聴取者の周りの耳のレベルに置かれたLチャンネル、耳のレベルより高いところに置かれたハイトリングの周りに配置されたPチャンネル、及び任意的に聴取者の上方の頂点又は頂点近くの中心チャンネルを有する公知の再生ジオメトリに構成されると仮定される(ここでL及びPは1より大きな正の整数である)。
図3は、聴取者の耳と同じ平面にあるL数のスピーカ及び聴取者の耳より高いハイトリングの周りに置かれたP数のスピーカを有するコンテンツ作成環境スピーカ(又はチャンネル)レイアウト300の概念の図である。図3に示すように、聴取者100は、コンテンツ作成環境スピーカレイアウト300でミキシングされるコンテンツを聞いている。コンテンツ作成環境スピーカレイアウト300は、任意のオーバヘッドスピーカ305を備えた11.1レイアウトである。聴取者の耳と同じ平面にあるスピーカのL数を含むL面310は、左スピーカ315、中央スピーカ320、右スピーカ325、左サラウンドスピーカ330、及び右サラウンドスピーカ335を含む。図示された11.1レイアウトは、低域効果(LFE又は「サブウーファー」)スピーカ340も含む。L面310は、サラウンド後方左スピーカ345及びサラウンド後方右スピーカ350も含む。聴取者の耳355の各々も、L面310に位置付けられる。
P(又は高位)面360は、左前面ハイトスピーカ365及び右前面ハイトスピーカ370を包含する。P面360は、左サラウンドハイトスピーカ375及び右サラウンドハイトスピーカ380も含む。任意的なオーバヘッドスピーカ305がP面360に位置付けられているように図示されている。代わりに、任意的なオーバヘッドスピーカ305は、コンテンツ作成環境の頂点のP面360の上方に位置付けることができる。L面310及びP面360は距離dによって分離される。
11.1コンテンツ作成環境スピーカレイアウト300(任意的なオーバヘッドスピーカ305と共に)が図3に示されているが、マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態は、7又はそれ以上のオーディオチャンネルを包含する高チャンネル数環境でコンテンツをミキシングできるように一般化することができる。図3では、コンテンツ作成環境スピーカレイアウト300及び聴取者の頭部及び耳のスピーカは互いに縮尺通りでない点に留意されたい。特に、聴取者の頭部及び耳は、スピーカ及び聴取者の耳の各々がL面310と同じ水平面にあるという概念を示すために縮尺より大きく示されている。
P面360のスピーカは、様々な従来のジオメトリに従って並べることができ、考えられるジオメトリは、ミキシングエンジニア又は記録アーティスト/エンジニアには公知である。マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態により、(L+P)チャンネル数が、チャンネルのより少ない数へのマトリックスミキシングの新しい方法によって低減される(例えば、(L+P)チャンネルがLチャンネルだけにマッピングされる)。次に減数されたチャンネルは、減数されたチャンネルのディスクリート特性を保存する公知の方法により符号化及び圧縮される。
復号では、コーデック及び方法の実施形態の動作が復号器の能力に依存する。レガシー復号器では、ミキシングされたPチャンネルを有し、減数された(L)チャンネルが再生される。より高度な復号器では、(L+P)チャンネルのフルコンソールが、アップミキシングによって回復可能であり、(L+P)スピーカの対応するスピーカに各々ルーティングされる。
本発明により、アップミキシング及びダウンミキシング動作(マトリクス化/デマトリクス化)の両方が、マルチプレットパン法則の組合せ(ダブレット、トリプレット、及びクアドラプレットパン法)を含み、再生時に、記録アーティスト又はエンジニアが意図した推定位置に厳密に対応して知覚サウンドソースを配置する。マトリクス化動作(チャンネルレイアウト低減)は、(a)拡張ビットストリームのベッドミックスプラスオブジェクト合成、(b)拡張ビットストリームのチャンネルベースのみの合成でベッドミックスチャンネルに加えることができる。加えて、マトリクス化動作は、固定オブジェクト(動き回らないオブジェクト)に加えることができ、デマトリクス化の後に、個々のオブジェクトの独立レベル修正及びレンダリングを可能にする十分なオブジェクト分離を達成するか、又は(c)マトリクス化動作をチャンネルベースのオブジェクトに適用する。
II.システムの概要
マルチプレットベースの空間的マトリクス化コーデック及び方法の実施形態は、特定のチャンネルをマルチプレットの残りのチャンネルにパンニングすることによって、高チャンネル数マルチチャンネルオーディオ及びビットレートを低減する。これは、空間的精度及び基本的オーディオ品質の間のトレードオフを可能にすることによってオーディオ品質を最適化するのに役立つ。コーデック及び方法の実施形態は、オーディオ信号フォーマットを再生環境構成に変換する。
図4は、マルチプレットベースの空間的マトリクス化コーデック400及び方法の実施形態の概要を示すブロック図である。図4を参照すると、コーデック400は、マルチプレットベースの空間的マトリクス化符号器410及びマルチプレットベースの空間的マトリクス化復号器420を含む。初めに、オーディオコンテンツ(音楽トラックなど)がコンテンツ作成環境430で作成される。この環境430は、複数のマイクロフォン435(又は他のサウンド取り込みデバイス)を含みオーディオソースを記録することができる。代わりに、オーディオソースを、ソースを記録するためにマイクロフォンを使用する必要がないように事前にデジタル信号にすることができる。サウンドを作成する方法が何であれ、オーディオソースの各々は、コンテンツ作成環境430の出力として最終ミックスにミキシングされる。
コンテンツクリエータは、クリエータの空間的意図を最も良く表すN.xベースミックスを選択し、ここでNは通常のチャンネルの数を表しxは低周波数チャンネルの数を表す。またNは1より大きな正の整数であり、xは負ではない整数である。例えば、11.1サラウンドシステムでは、N=11及びx=1である。これは当然ながら、N+x≦MAXになるようにチャンネルの最大数の前提条件であり、ここでMAXは許容可能なチャンネルの最大数を表わす正の整数である。
図4では、最終ミックスはN.xミックス440であり、オーディオソースの各々はN+x数のチャンネルにミキシングされる。次に、最終N.xミックス440がマルチプレットベースの空間的マトリクス化符号器410を使用して符号化されダウンミキシングされる。符号器410は、典型的には、1又は2以上の処理デバイスを有するコンピュータデバイスに設けられる。符号器410は最終N.xミックスをMの通常のチャンネルとxの低周波数チャンネルとを有するM.xミックス450に符号化及びダウンミックスするが、ここでMは1より大きな正の整数であり、MはNより小さい。
M.x450ダウンミックスは、配信環境460を通して聴取者による聴取のために配信される。ネットワーク460を経由したストリーミング配信を含む幾つかの配信選択肢が利用可能である。代わりに、M.x450ダウンミックスを聴取者による聴取のために媒体470(光学ディスクなど)に記録することができる。加えて、M.x450ダウンミックスを配信するのに使用できる列挙されていない多くの他の配信選択肢が存在する。
配信環境の出力は、マルチプレットベースの空間的マトリクス化復号器420に入力されるM.xストリーム475である。復号器420はM.xストリーム475を復号及びアップミックスして、再構成されたN.xコンテンツ480を取得する。復号器420の実施形態は、典型的には、1又は2以上の処理デバイスを有するコンピュータデバイスに設けられる。
復号器420の実施形態は、M.xストリーム475に記憶された圧縮オーディオからPCMオーディオを抽出する。使用される復号器420は、データを圧縮するために使用されたオーディオ圧縮方式に基づく。不可逆圧縮、低ビットレート符号化、及び可逆圧縮を含む幾つかのタイプのオーディオ圧縮方式をM.xストリームに使用することができる。
復号器420はM.xストリーム475の各チャンネルを復号して、これをN.x出力480によって表現されるディスクリート出力チャンネルに展開する。この再構成されたN.x出力480は、再生スピーカ(又はチャンネル)レイアウトを含む再生環境485で再生される。再生スピーカレイアウトは、コンテンツ作成スピーカレイアウトと同じとすることができるが、同じでなくてもよい。図4に示した再生スピーカレイアウトは11.2レイアウトである。他の実施形態では、再生スピーカレイアウトはヘッドフォンとすることができ、スピーカは、再生環境485でサウンドが発生しているように出力される単なる仮想スピーカである。例えば、聴取者100は、ヘッドフォンを介して再構成されたN.xミックスを聞くことができる。この状況では、スピーカは実際の物理的なスピーカではないが、例えば11.2サラウンドサウンドスピーカ構成に対応する再生環境485の異なる空間的位置からサウンドが発生しているように出力される。
符号器の後方互換性のある実施形態
図5は、図4に示したマルチプレットベースの空間的マトリクス化符号器410の非レガシー実施形態の詳細を示すブロック図である。このような非レガシー実施形態では、符号器410は、後方互換性がレガシー復号器によって維持されるようにコンテンツを符号化しない。さらに、符号器410の実施形態は、オーディオデータと共にビットストリームに含まれる様々なタイプのメタデータを使用する。図5に示すように、符号器410はマルチプレットベースのマトリックスミキシングシステム500並びに圧縮及びビットストリームパッキングモジュール510を含む。コンテンツ作成環境430からの出力は、N.xパルス符号変調(PCM)ベッドミックス520を含み、N.xパルス符号変調(PCM)ベッドミックス520は、チャンネルベースのオーディオ情報と、オブジェクトPCMデータ530及び関連のオブジェクトメタデータ540を含むオブジェクトベースのオーディオ情報とを包含する。図5−8において、中空の矢印は時間ドメインデータを示し、実線の矢印は空間データを示す点に留意されたい。例えば、N.xPCMベッドミックス520からマルチプレットベースのマトリックスミキシングシステム500への矢印は中空矢印であり時間ドメインデータを示す。コンテンツ作成環境430からオブジェクトPCM530への矢印は実線の矢印であり空間データを示す。
N.xPCMベッドミックス520は、マルチプレットベースのマトリックスミキシングシステム500に入力される。システム500は、以下に詳しく解説するようにN.xPCMベッドミックス520を処理して、N.xPCMベッドミックスのチャンネル数をM.xPCMベッドミックス550に低減する。加えて、システム500は、M.xPCMベッドミックス550の空間的レイアウトに関するデータであるM.xレイアウトメタデータ560を含む様々な情報を出力する。また、システム500は、オリジナルチャンネルレイアウト及びマトリクス化メタデータ570に関する情報を出力する。オリジナルチャンネルレイアウトは、コンテンツ作成環境430におけるオリジナルチャンネルのレイアウトに関する空間情報である。マトリクス化メタデータは、ダウンミキシング中に使用された様々な係数に関する情報を包含する。マトリクス化メタデータは、特に、復号器がアップミックスのための正しい方法を分かるように、チャンネルがどのようにダウンミックスに符号化されたかに関する情報を包含する。
図5に示すように、オブジェクトPCM530、オブジェクトメタデータ540、M.xPCMベッドミックス550、M.xレイアウトメタデータ560、及びオリジナルチャンネルレイアウト及びマトリクス化メタデータ570の全ては、圧縮及びビットストリームパッキングモジュール510に入力される。モジュール510は、この情報を受け取り圧縮して、M.x拡張ビットストリーム580にパックする。ビットストリームは、オーディオデータに加えて空間的及び他のタイプのメタデータも包含するので拡張(enhanced)と呼ばれる。
マルチプレットベースのマトリックスミキシングシステム500の実施形態は、これらの変数を合計の利用可能なビットレート、1チャンネル当たりの最小ビットレート、ディスクリートオーディオチャンネル等として調べることによってチャンネル数を低減する。これらの変数に基づいて、システム500はオリジナルNチャンネルを受け取り、これをMチャンネルにダウンミックスする。数Mはデータレートに依存する。例示的に、Nが22オリジナルチャンネルに等しく利用可能なビットレートが500Kビット/秒である場合、システム500は、ビットレートを達成しコンテンツを符号化するためにMが8でなければならないと決定することができる。これは、8オーディオチャンネルを符号化するために十分な帯域幅しかないことを意味する。このような8チャンネルが次に符号化及び伝送されることになる。
復号器420は、これらの8チャンネルがオリジナル22チャンネルから発生することを知っており、このような8チャンネルを最大22チャンネルにアップミックスする。当然ながらビットレートを達成するためにあるレベルの空間忠実度損失が存在することになる。例えば、1チャンネル当たりの所与の最小ビットレートが32Kビット/チャンネルであると仮定する。合計のビットレートが128ビット/秒である場合、4チャンネルを32Kビット/チャンネルで符号化することができる。別の実施例では、符号器410への入力が11.1ベースミックスであるとすると、所与のビットレートは128kビット/秒であり、1チャンネル当たりの最小ビットレートは32Kビット/秒である。これは、コーデック400及び方法がその11オリジナルチャンネルを受け取り、これを4チャンネルにダウンミックスして4チャンネルを送信し、復号側ではこの4チャンネルを11チャンネルにアップミックスすることを意味する。
復号器の後方互換性のない実施形態
M.x拡張ビットストリーム580は、レンダリングのために復号器420を包含する受信デバイスに配信される。図6は、図4に示したマルチプレットベースの空間マトリクス化復号器の非レガシー実施形態の詳細を示すブロック図である。これらの非レガシー実施形態では、復号器420は、以前のビットストリームのタイプとの後方互換性を保持せずこれを復号することができない。図6に示すように、復号器420は、マルチプレットベースのマトリックスアップミキシングシステム600、復元及びビットストリームアンパッキングモジュール610、遅延モジュール620、オブジェクト内包レンダリングエンジン630、及びダウンミキサ及びスピーカリマッピングモジュール640を含む。
図6に示すように、復号器420への入力はM.x拡張ビットストリーム580である。次に、復元及びビットストリームアンパッキングモジュール610はビットストリーム580をアンパックしてPCM信号(ベッドミックス及びオーディオオブジェクトを含む)及び関連のメタデータに復元する。モジュール610からの出力はM.xPCMベッドミックス645である。加えて、オリジナル(N.x)チャンネルレイアウト及びマトリクス化メタデータ650(マトリクス化係数を含む)、オブジェクトPCM655、及びオブジェクトメタデータ660がモジュール610から出力される。
M.xPCMベッドミックス645は、マルチプレットベースのマトリックスアップミキシングシステム600によって処理されてアップミックスされる。マルチプレットベースのマトリックスアップミキシングシステム600を以下に詳細に説明する。システム600の出力はN.xPCMベッドミックス670であり、これはオリジナルレイアウトと同じチャンネル(又はスピーカ)レイアウト構成である。N.xPCMベッドミックス670は、ダウンミキサ及びスピーカリマッピングモジュール640によって処理され、N.xベッドミックス670を聴取者の再生スピーカレイアウトにマッピングする。例えば、N=22及びM=11である場合、符号器410によって22チャンネルが11チャンネルにダウンミックスされる。次に復号器420は11チャンネルを受け取り、これを22チャンネルにアップミックスする。しかし、聴取者が5.1再生スピーカレイアウトしか持たない場合、モジュール640はこの22チャンネルをダウンミックスして、これを聴取者による再生のための再生スピーカレイアウトに再マッピングする。
ダウンミキサ及びスピーカリマッピングモジュール640は、ビットストリーム580に記憶されたコンテンツを所与の出力スピーカ構成に適応させることを担う。理論的には、ある任意の再生スピーカレイアウトに対してオーディオをフォーマット化することができる。再生スピーカレイアウトは、聴取者又はシステムによって選択される。この選択に基づいて、復号器420は、復号する必要があるチャンネルセットを選択して、スピーカリマッピング及びダウンミキシングを実行する必要があるか否かを決定する。出力スピーカレイアウトの選択は、アプリケーションプログラミングインタフェース(API)コールを使用して実行される。
意図された再生ラウドスピーカレイアウトが再生環境485(又はリスニングスペース)の実際の再生ラウドスピーカレイアウトに一致しない場合、オーディオプレゼンテーションの全体的な印象が損なわれる可能性がある。幾つかの評判のよいスピーカ構成におけるオーディオプレゼンテーション品質を最適化するために、M.x拡張ビットストリームは、ラウドスピーカリマッピング係数を包含することができる。
ダウンミキサ及びスピーカリマッピングモジュール640の実施形態には動作の2つのモードがある。第1は「ダイレクトモード」であり、これによって復号器420は空間リマッパーを構成して、可能な限り厳密に、所与の出力スピーカ構成に対するオリジナル符号化チャンネルレイアウトを生成する。第2は「非ダイレクトモード」であり、これによって復号器の実施形態が、ソース構成に関わらずにコンテンツを選択された出力チャンネル構成に変換する。
オブジェクトPCM655は、M.xPCMベッドミックス645がマルチプレットベースのマトリックスアップミキシングシステム600によって処理される間に、あるレベルの待ち時間が存在するように、遅延モジュール620によって遅延される。遅延モジュール620の出力は遅延オブジェクトPCM680である。この遅延オブジェクトPCM680及びオブジェクトメタデータ660が合計され、オブジェクト内包レンダリングエンジン630によってレンダリングされる。
オブジェクト内包レンダリングエンジン630及びオブジェクト除去レンダリングエンジン(以下に説明する)は、3Dオブジェクトベースオーディオレンダリングを実行するための主エンジンである。これらのレンダリングエンジンの主な役割は、登録されたオーディオオブジェクトをベースミックスに追加する又はベースミックスから登録されたオーディオオブジェクトを取り去ることである。各オブジェクトは、方位角、高度、距離、利得、及びオブジェクトを最も近いスピーカ位置にスナップさせる必要がある場合を指示するフラグを含む、3Dスペースにおける当該各オブジェクトの位置を指示する情報を伴う。オブジェクトレンダリングは、必要な処理を実行して指示された位置にオブジェクトを配置する。レンダリングエンジンは、点音源及び拡張音源の両方をサポートする。点音源は、空間の1つの特定のスポットから音が来るように聞こえるが、拡張音源は、「幅」、「高さ」、又はこの双方をもつ音である。
レンダリングエンジンは球座標系表現を使用する。コンテンツ作成環境430におけるオーサリングツールが靴箱のように部屋を表現する場合、同心ボックスから同心球への変換及びその逆を、オーサリングツール内のフードの下で実行することができる。このように、壁の上のソースの配置は、単位球面上のソースの配置に対応付ける。
ダウンミキサ及びスピーカリマッピングモジュールからのベッドミックスと、オブジェクト内包レンダリングエンジン630からの出力とは組み合わされてN.xオーディオプレゼンテーション690が提供される。N.xオーディオプレゼンテーション690は、復号器420から出力され再生スピーカレイアウト(図示せず)で再生される。
復号器420のモジュールの一部は任意とすることができる点に留意されたい。例えば、N=Mである場合、マルチプレットベースのマトリックスアップミキシングシステム600は必要ない。同様に、N=Mである場合、ダウンミックス及びスピーカリマッピングモジュール640は必要ない。M.x拡張ビットストリームにオブジェクトが無い及び信号がチャンネルベースの信号のみである場合、オブジェクト内包レンダリングエンジン630は必要ない。
符号器の後方互換性のある実施形態
図7は、図4に示したマルチプレットベースの空間マトリクス化符号器410のレガシー実施形態の詳細を示すブロック図である。このようなレガシー実施形態では、符号器410が、レガシー復号器との後方互換性が維持されるようにコンテンツを符号化する。多くの構成要素は、後方互換性のない実施形態と同じである。具体的には、マルチプレットベースのマトリックスミキシングシステム500がN.xPCMベッドミックス520をM.xPCMベッドミックス550にダウンミックスする。符号器410はオブジェクトPCM530及びオブジェクトメタデータ540を受け取り、これをM.xPCMベッドミックス550にミキシングしてエンベッディッドダウンミックスを作成する。このエンベッディッドダウンミックスはレガシー復号器によって復号可能である。これらの後方互換性のある実施形態では、エンベッディッドダウンミックスがM.xベッドミックスとオブジェクトの両方を含み、レガシー復号器が復号できるレガシーダウンミックスを作成する。
図7に示すように、符号器410はオブジェクト内包レンダリングエンジン700及びダウンミックスエンベッダ710を含む。後方互換性の目的で、オーディオオブジェクトに記憶されたいずれのオーディオ情報もM.xベッドミックス550にミキシングされて、レガシー復号器が使用することのできるベースミックスを作成する。復号器システムがオブジェクトをレンダリングすることができる場合、二重に再生されないようにベースミックスからオブジェクトを取り除く必要がある。復号されたオブジェクトは、具体的にはこの目的で適切なベッドミックスにレンダリングされ、次にベースミックスから差し引かれる。
オブジェクトPCM530及びオブジェクトメタデータ540はエンジン700に入力され、M.xPCMベッドミックス550にミキシングされる。その結果は、エンベッディッドダウンミックスを作成するダウンミックスエンベッダ710に付与される。このエンベッディッドダウンミックス、ダウンミックスメタデータ720、M.xレイアウトメタデータ560、オリジナルチャンネルレイアウト及びマトリクス化メタデータ570、オブジェクトPCM530、及びオブジェクトメタデータ540は、圧縮及びビットストリームパッキングモジュール510によって圧縮されビットストリームにパッキングされる。出力は、後方互換性M.x拡張ビットストリーム580である。
復号器の後方互換性のある実施形態
後方互換性M.x拡張ビットストリーム580は、レンダリングのための復号器420を包含する受信デバイスに配信される。図8は、図4に示したマルチプレットベースの空間マトリクス化復号器420の後方互換性のある実施形態の詳細を示すブロック図である。これらの後方互換性のある実施形態では、復号器420は、復号器420が以前のタイプのビットストリームを復号できるように以前のタイプのビットストリームとの後方互換性を保持する。
復号器420の後方互換性のある実施形態は、オブジェクト除去部分があることを除いて、図6に示した非後方互換性のある実施形態に類似している。このような後方互換性のある実施形態は、レガシー復号器が復号することのできるビットストリームを提供することが要求される、コーデックのレガシー問題に対応する。この場合、復号器420は、エンベッディッドダウンミックスからオブジェクトを取り除き、次にアップミックスを行いい、オリジナルアップミックスを取得する。
図8に示すように、復元及びビットストリームアンパッキングモジュール610は、オリジナルチャンネルレイアウト及びマトリクス化係数650、オブジェクトPCM655、及びオブジェクトメタデータ660を出力する。また、モジュール610の出力は、エンベッディッドダウンミックスのエンベッディッドダウンミキシングを取り消し800、M.xPCMベッドミックス645を取得する。これは基本的にはチャンネルとオブジェクトを互いに分離する。
符号化の後に、新しい小さなチャンネルレイアウトは、レガシー復号器が使用するビットストリームの一部に記憶するあまりにも多くのチャンネルを有する。このような場合、図7を参照して上述したように、付加的なエンベッディッドダウンミックスが実行され、古い復号器ではサポートされないチャンネルからのオーディオが後方互換性ミックスに含まれることを保証する。追加のチャンネルプレゼントが後方互換性ミックスにダウンミックスされ別々に送信される。ビットストリームが、後方互換性ミックスよりも多くのチャンネルをサポートするスピーカ出力フォーマットに復号された場合、追加のチャンネルからのオーディオがミックスから取り除かれ、代わりにディスクリートチャンネルが使用される。このエンベッディッドダウンミックス800の取り消し動作は、アップミキシングの前に発生する。
また、モジュール610の出力は、M.xレイアウトメタデータ810を含む。M.xレイアウトメタデータ810及びオブジェクトPCM655は、オブジェクト除去レンダリングエンジン820によって使用され、除去されたオブジェクトをM.xPCMベッドミックス645にレンダリングする。オブジェクトPCM655は、遅延モジュール620を通過してオブジェクト内包レンダリングエンジン630に進む。エンジン630は、オブジェクトメタデータ660及び遅延オブジェクトPCM655を受け取り、再生スピーカレイアウト(図示せず)での再生のために、オブジェクト及びN.xベッドミックス670をN.xオーディオプレゼンテーション690にレンダリングする。
III.システムの詳細
マルチプレットベースの空間マトリクス化コーデック及び方法の実施形態の構成要素のシステム詳細を説明する。モジュール、システム、及びコーデックを実施することができる幾つかの方法の一部が以下に詳細に説明されている点に留意されたい。多くの変形例が図9及び10に示したものから可能である。
図9は、図5及び7に示したマルチプレットベースのマトリックスダウンミキシングシステム500の例示的な実施形態の詳細を示すブロック図である。図9に示すように、N.xPCMベッドミックス520がシステム500に入力される。本システムは、入力チャンネルがダウンミックスされるチャンネル数と、どの入力チャンネルがサバイビングチャンネル及び非サバイビングチャンネルであるかを決定する分離モジュールを含む。サバイビングチャンネルは、保持されるチャンネルであり、非サバイビングチャンネルは、サバイビングチャンネルのマルチプレット上にダウンミックスされる入力チャンネルである。
また、システム500はミキシング係数マトリックスダウンミキサ910を含む。図9の中空矢印は、信号が時間ドメイン信号であることを示す。ダウンミキサ910はサバイビングチャンネル920を受け取り、これを処理することなく通過させる。非サバイビングチャンネルは近接性に基づいてマルチプレット上にダウンミックスされる。特に、一部の非サバイビングチャンネルをサバイビングペア(又はダブレット)930にダウンミックスすることができる。一部の非サバイビングチャンネルをサバイビングチャンネルのサバイビングトリプレット940にダウンミックスすることができる。一部の非サバイビングチャンネルは、サバイビングチャンネルのサバイビングクアドラプレット950にダウンミックスすることができる。これは、いずれかのYのマルチプレットに続けることができ、ここでYは2より大きな正の整数である。例えば、Y=8である場合、非サバイビングチャンネルはサバイビングチャンネルのサバイビングオクトプレット(octuplet)にダウンミックスすることができる。これは省略記号960によって図9に示されている。マルチプレットの一部、全部、又はいずれかの組合せを使用して、N.xPCMベッドミックス520をダウンミックスできる点に留意されたい。
ダウンミキサ910からの結果として得られるM.xダウンミックスは、ラウドネス正規化モジュール980に進む。正規化プロセスは以下に詳細に説明する。N.xPCMベッドミックス520は、M.xダウンミックスを正規化するために使用され、出力は正規化M.xPCMベッドミックス550である。
図10は、図6及び8に示したマルチプレットベースのマトリックスアップミキシングシステム600の例示的な実施形態の詳細を示すブロック図である。図10では、太矢印が時間ドメイン信号を表し、破線矢印がサブバンドドメイン信号を表す。図10に示すように、M.xPCMベッドミックス645がシステム600に入力される。M.xPCMベッドミックス645は、オーバサンプリング分析フィルタバンク1000によって処理され、サバイビングチャンネルYマルチプレットにダウンミックスされた様々な非サバイビングチャンネルを取得する。初回パスにおいて、空間分析がYマルチプレット上で実行され(1010)、非サバイビングチャンネルの空間における半径及び角度などの空間情報を取得する。次に、非サバイビングチャンネルがサバイビングチャンネルのYマルチプレットから抽出される(1015)。次に、この最初のリキャプチャチャンネル、C1が、サブバンドパワー正規化モジュール1020に入力される。次にこのパスに包含されるチャンネルがリパンニングされる(1025)。
これらのパスは、省略記号1030によって示されるように、マルチプレットのY数の各々を通って続く。次にパスは、Yマルチプレットの各々が処理されるまで順次続く。図10は、空間分析がクアドラプレットで実行され(1040)、クアドラプレットにダウンミックスされた非サバイビングチャンネルの空間における半径及び角度などの空間情報を取得することを示している。次に、非サバイビングチャンネルがサバイビングチャンネルのクアドラプレットから抽出される(1045)。抽出されたチャンネルC(Y−3)がサブバンドパワー正規化モジュール1020に入力される。次にこのパスに包含されるチャンネルがリパンニングされる(1050)。
次のパスでは、空間分析がトリプレットで実行され(1060)、トリプレットにダウンミックスされた非サバイビングチャンネルの空間における半径及び角度などの空間情報を取得する。次に非サバイビングチャンネルがサバイビングチャンネルのトリプレットから抽出される(1065)。次に抽出されたチャンネル、C(Y−2)がモジュール1020に入力される。次にこのパスに包含されたチャンネルがリパンニングされる(1070)。同様に、最後のパスでは、空間分析がダブレットで実行され(1080)、ダブレットにダウンミックスされた非サバイビングチャンネルの空間における半径及び角度などの空間情報を取得する。次に非サバイビングチャンネルはサバイビングチャンネルのダブレットから抽出される(1085)。次に抽出されたチャンネル、C(Y−1)がモジュール1020に入力される。次にこのパスに包含されたチャンネルがリパンニングされる(1090)。
次に、チャンネルの各々がモジュール1020によって処理され、N.xアップミックスが取得される。このN.xアップミックスは、オーバサンプル合成フィルタバンク1095によって処理され、これをN.xPCMベッドミックス670に結合する。図6及び8に示すように、次にN.xPCMベッドミックスがダウンミキサ及びスピーカリマッピングモジュール640に入力される。
IV.動作の概要
マルチプレットベースの空間マトリクス化コーデック400及び方法の実施形態は、空間符号化及び復号技術であり、チャンネル数(従ってビットレート)を低減し、空間精度と基本的なオーディオ品質との間のトレードオフを可能にすることによってオーディオ品質を最適化して、オーディオ信号フォーマットを再生環境構成に変換する。
符号器410及び復号器420の実施形態は、2つの主な使用事例を有する。第1の使用事例は、マルチプレットベースの空間マトリクス化コーデック400及び方法の実施形態が高チャンネル数ディオ信号を低数のチャンネルに符号化するために使用されるメタデータ使用事例である。加えて、この使用事例は、オリジナル高チャンネル数オーディオの正確な近似を回復するために低数のチャンネルの復号を含む。第2の使用事例は、標準的なモノ、ステレオ、又はマルチチャンネルレイアウト(5.1又は7.1など)におけるレガシーコンテンツの水平及び高位チャンネル位置の両方を含む3Dレイアウトへのブラインドアップミキシングを実行するブラインドアップミックス使用事例である。
メタデータ使用事例
コーデック400及び方法の実施形態の第1使用事例は、ビットレート低減ツールとしての事例である。コーデック400及び方法をビットレート低減のために使用できる1つの例示的なシナリオは、1チャンネル当たりの利用可能なビットレートが、コーデック400によってサポートされる1つのチャンネル当たりの最小ビットレートを下回る場合である。このシナリオでは、コーデック400及び方法の実施形態を使用して符号化チャンネルの数を低減することができ、従って、サバイビングチャンネルのための高ビットレート割り当てを可能にする。このようなチャンネルは、デマトリクス化後のアーティファクトのアンマスキングを阻止するために、十分高いビットレートで符号化する必要がある。
このシナリオで符号器410は、以下の因数の1又は2以上に依存するビットレート低減のためのマトリクス化を使用することができる。1つの因数は、ディスクリートチャンネル符号化(MinBR_Discrとして指定)に必要な1チャンネル当たりの最小ビットレートである。別の因数は、マトリクス化されたチャンネル符号化(MinBR_Mtrxとして指定)に必要な1チャンネル当たりの最小ビットレートである。更に別の因数は、合計の利用可能なビットレート(BR_Totとして指定)である。
符号器410が関与するか否かは((M<N)マトリクス化又はM=Nではない場合)以下の式に基づいて決定される。
Figure 0006612753
加えて、オリジナルチャンネルレイアウトとマトリクス化手順を記述するメタデータとがビットストリームで送られる。MinBR_Mtrxの値は、十分高く選択され(各それぞれのコーデック技術に対して)デマトリクス化後のアーティファクトのアンマスキングを阻止する。
復号器420側では、フォーマットをオリジナルN.xレイアウト又はN.xレイアウトの所定の適正なサブセットに持ち込むためだけにアップミキシングが実行される。更なるフォーマット変換に必要なのはアップミキシングである。オリジナルN.xレイアウトで送られる空間解像度が意図された空間解像度であることが前提とされ、従っていずれかの更なるフォーマット変換は、ダウンミキシング及び可能性のあるスピーカリマッピングだけを含むことになる。チャンネルベースのみのストリームの場合、サバイビングM.xレイアウトを、復号器側で所望のダウンミックスの偏差K.xに対する開始ポイント(k<M)として直接(デマトリクス化を適用することなく)使用することができる(M、Nは整数であり、NはMより大きい)。
コーデック400及び方法をビットレート低減のために使用することができる別の例示的なシナリオは、オリジナル高チャンネル数レイアウトが高空間精度(22.2など)を有しかつ利用可能なビットレートが全てのチャンネルを別個に符号化するのに十分であるが、トランスペアレントに近い基本的なオーディオ品質レベルを提供するには十分でない場合である。このシナリオでは、コーデック400及び方法の実施形態を使用して、空間的精度をわずかに犠牲にするが基本的なオーディオ品質における改善を可能にすることによって、全体的な性能を最適化することができる。これは、オリジナルレイアウトを、チャンネルの少ない十分な空間的精度を備えたレイアウト(11.2など)に変換して、ビットプールの全てをサバイビングチャンネルに割り当てて、空間的精度に大きな影響を与えることなく基本的なオーディオ品質を高レベルに至らせることによって達成される。
この実施例では、符号器410は、ツールとしてマトリクス化を使用して、空間的精度をわずかに犠牲にするが代わりに基本的なオーディオ品質における向上を可能にすることによって、全体的な品質を最適化する。サバイビングチャンネルは、符号化されるチャンネルの最小数でオリジナル空間的精度をもっとも良く保持するために選択される。加えて、オリジナルチャンネルレイアウトとマトリクス化手順を記述するメタデータとはストリームで送られる。
符号器410は、十分に高い1チャンネル当たりのビットレートを選択して、サバイビングレイアウトにオブジェクトを内包すること、並びに更なるダウンミックスエンベッディッディングを可能にする。M.x又は関連のエンベッディッドダウンミックスのいずれかは、5.1/7.1システムで直接再生可能である。
この実施例では、復号器420はアップミキシングを使用して、アップミキシングは、フォーマットをオリジナルN.xレイアウト又はN.xレイアウトの所定の適正なサブセットに持ち込むためだけに実行される。更なるフォーマット変換は必要ない。オリジナルN.xレイアウトで送られる空間解像度は意図された空間解像度であることが前提とされ、従って、いずれの更なるフォーマット変換も、ダウンミキシング及び可能性のあるスピーカリマッピングだけを含むことになる。
上記のシナリオでは、本明細書で説明する符号化及び方法を、チャンネルベースのフォーマット又はオブジェクトプラスベースミックスのフォーマットにおけるベースミックスチャンネルに適用することができる。対応する復号動作は、チャンネル低減レイアウトをオリジナル高チャンネル数レイアウトに持ち込むことになる。
適正に復号されるチャンネル低減信号では、本明細書で説明する復号器420に、符号化プロセスで使用されたレイアウト、パラメータ、及び係数を通知する必要がある。コーデック400及び方法は、符号器410から復号器420にこのような情報を伝送するためのビットストリーム構文を定義する。例えば、符号器410が22.2チャンネルベースミックスを11.2チャンネル低減信号に符号化する場合、オリジナルレイアウト、チャンネル低減レイアウト、寄与ダウンミックスチャンネル、及びダウンミックス係数を記述する情報が復号器420に送信され、オリジナル22.2チャンネル数レイアウトへの適正な復号を可能にする。
ブラインドアップミックス使用事例
コーデック400及び方法の実施形態の第2の使用事例は、レガシーコンテンツのブラインドアップミキシングを実行することである。この機能は、コーデック400及び方法が、レガシーコンテンツを再生環境485のラウドスピーカ位置に一致する水平及び高位チャンネルを含む3Dレイアウトに変換するのを可能にする。ブラインドアップミキシングは、モノ、ステレオ、5.1、7.1、及びその他のような標準的なレイアウトに実行することができる。
概要
図11は、図4に示したマルチプレットベースの空間マトリクス化コーデック400及び方法の実施形態の一般的な動作を示す流れ図である。動作は、ダウンミックスされた出力オーディオ信号に入れるチャンネルのM数を選択することによって始まる(ボックス1100)。この選択は上述したように要求されるビットレートに基づく。N及びMはゼロではない正の整数であり、NはMより大きい点に留意されたい。
次に、Nチャンネルはマルチプレットパン法則の組合せを使用してMチャンネルにダウンミックス及び符号化されて、Mマルチプレット符号化チャンネルを包含するPCMベッドミックスを取得する(ボックス1110)。次に本方法は、ネットワークを経由して要求されるビットレートで又はそれ以下のビットレートでPCMベッドミックスを送信する(ボックス1120)。PCMベッドミックスが受信され、複数のM数のマルチプレット符号化チャンネルに分離される(ボックス1130)。
次に本方法は、マルチプレットパン法則の組合せを使用してMマルチプレット符号化チャンネルの各々をアップミックス及び復号して、Mマルチプレット符号化チャンネルからNチャンネルを抽出してNチャンネルを有する結果として得られる出力オーディオ信号を取得する(ボックス1140)。この結果として得られる出力オーディオ信号は、再生チャンネルレイアウトを有する再生環境でレンダリングされる(ボックス1150)。
コーデック400及び方法の実施形態又はその態様は、特に多数のチャンネルが配信又は記録される(7より多い)場合に、マルチチャンネルオーディオの伝送及び記録のためのシステムで使用される。例えば、1つのこのようなシステムでは、複数のチャンネルが記録され、聴取者の周りの耳レベルに配置されたLチャンネル、耳レベルより高い所に配置されたハイトリングの周りに配置されたPチャンネル、及び任意的に聴取者の上の頂点又は頂点近くの中心チャンネル(ここでL及びPは1より大きな任意の整数である)を有する公知の再生ジオメトリに構成されることを前提とする。Pチャンネルは、様々な従来のジオメトリに従って配置することができ、想定されるジオメトリは、ミキシングエンジニア又は記録アーティスト/エンジニアに公知である。本発明により、LプラスPチャンネル数が、マトリックスミキシングの新しい方法によって低数のチャンネル(例えば、LだけにマップされたL+P)に低減される。次に、低数のチャンネルは、減数チャンネルのディスクリート特性を保存する公知の方法によって符号化及び圧縮される。
復号する場合、本システムの動作は復号器の機能に依存する。レガシー復号器では、Pチャンネルをミキシングした減数(L)チャンネルが再生される。本発明による高度な復号器では、L+Pチャンネルのフルコンソールが、アップミキシングによって回復可能であり、L+Pスピーカの対応するスピーカに各々ルーティングされる。
本発明により、アップミキシング及びダウンミキシング動作の両方(マトリクス化/デマトリクス化)が、ペアワイズ、トリプレット、及び好ましくはクアドラプレットパン法則の組合せを含み、再生時に、記録アーティスト又はエンジニアが意図した推定位置に厳密に対応する知覚サウンドソースを配置する。
マトリクス化動作(チャンネルレイアウト低減)を、a)ストリームのベースミックス+オブジェクト合成、又はb)ストリームのチャンネルベースのみの合成におけるベースミックスチャンネルに適用することができる。
更に、マトリクス化動作は、固定オブジェクト(動き回らないオブジェクト)に適用することができ、デマトリクス化の後に個人のレベル修正を可能にする十分なオブジェクト分離を達成する。
V.動作の詳細
マルチプレットベースの空間マトリクス化コーデック400及び方法の実施形態の動作の詳細を説明する。
V.A.ダウンミックスアーキテクチャ
マルチプレットベースのマトリックスダウンミキシングシステム500の例示的な実施形態では、システム500がNチャンネルオーディオ信号を受け入れMチャンネルオーディオ信号を出力し、ここでN及びMは整数でありNはMより大きい。システム500は、コンテンツ作成環境(オリジナル)チャンネルレイアウト、ダウンミックスされたチャンネルレイアウト、及び各オリジナルチャンネルが各ダウンミックスされたチャンネルに寄与するミキシング重みを記述するミキシング係数の知識を使用して構成することができる。例えば、ミキシング係数は、サイズM×NのマトリックスCによって定義することができ、行が出力チャンネルに対応し列が入力チャンネルに対応する。
Figure 0006612753
一部の実施形態では、システム500は次式のようにダウンミキシング動作を実行することができる。
Figure 0006612753
ここで
Figure 0006612753
は、
Figure 0006612753
である場合に入力オーディオ信号のj番目のチャンネルであり、
Figure 0006612753
は、
Figure 0006612753
である場合に出力オーディオ信号のi番目のチャンネルであり、cijは、マトリックスCのijエントリに対応するミキシング係数である。
ラウドネス正規化
システム500の一部の実施形態は、図9に示したラウドネス正規化モジュール980も含む。ラウドネス正規化プロセスは、ダウンミックスされた信号の知覚されるラウドネスを原信号のラウドネスに正規化するよう設計される。マトリックスCのミキシング係数は、単一の原信号成分のためのパワーを保存するために一般的に選ばれるが、例えば標準的なサイン/コサインパンニング法則は、単一の成分のためのパワーを保存し、より複雑な信号材料では、パワー保存特性は保持されないことになる。ダウンミックスプロセスはオーディオ信号をパワードメインではなく振幅ドメインに結合するので、ダウンミックスされた信号の結果として得られる信号パワーは予測できず信号に依存する。さらに、ラウドネスは関連のある知覚特性であるので、信号パワーの代わりに、ダウンミックスされたオーディオ信号の知覚ラウドネスを保存することが望ましい。
ラウドネス正規化プロセスは、入力ラウドネス対ダウンミックスされたラウドネスの比を比較することによって実行される。入力ラウドネスは以下の式を介して推定される。
Figure 0006612753
ここで、
Figure 0006612753
は、入力ラウドネス推定値であり、
Figure 0006612753
は、ITU−R BS.1770−3ラウドネス測定基準に記述される「K」周波数加重フィルタなどの周波数加重フィルタであり、(*)は畳み込みを示す。
観察できるように、入力ラウドネスは、基本的には周波数加重入力チャンネルの二乗平均平方根(RMS)尺度であり、ここで周波数加重は、ラウドネスの人間知覚との相関関係を改善するよう設計される。同様に、出力ラウドネスは以下の式を介して推定される。
Figure 0006612753
ここで
Figure 0006612753
は出力ラウドネス推定値である。
入力及び出力知覚ラウドネスの両方の推定値が計算されているので、ダウンミックスされた信号のラウドネスが以下の正規化式を介して原信号のラウドネスにほぼ等しくなるようにダウンミックスオーディオ信号を正規化することができる。
Figure 0006612753
上記の式では、ラウドネス正規化プロセスが入力ラウドネス対出力ラウドネスの比によるダウンミックスチャンネルの全てのスケーリングを結果として生じることが観察される。
静的ダウンミックス
所与の出力チャンネルの静的ダウンミックス
Figure 0006612753
は、
Figure 0006612753
であり、ここで
Figure 0006612753
は入力チャンネルであり、
Figure 0006612753
は出力チャンネルi及び入力チャンネルjに対するダウンミックス係数である。
パーチャンネルラウドネス正規化
パーチャンネルラウドネス正規化を使用した動的ダウンミックスは、
Figure 0006612753
ここで
Figure 0006612753
は次式のように与えられるチャンネル依存利得であり、
Figure 0006612753

Figure 0006612753
は、BS.1770で定義されるようなラウドネス推定関数である。
直観的に、時間変化パーチャンネル利得は、各静的ダウンミックスチャンネルのラウドネスによる各入力チャンネルの合計ラウドネス(適切なダウンミックス係数によって加重された)の比として見ることができる。
合計ラウドネス正規化
合計ラウドネス正規化を使用した動的ダウンミックスは、
Figure 0006612753
であり、ここで
Figure 0006612753
は次式のように与えられるチャンネル独立利得である。
Figure 0006612753
直観的に、時間変化チャンネル独立利得は、ダウンミックスされたチャンネルの合計されたラウドネスによる入力チャンネルの合計されたラウドネスの比として見ることができる。
V.B.アップミックスアーキテクチャ
図6に示したマルチプレットベースのマトリックスアップミキシングシステム600の例示的な実施形態では、システム600は、Mチャンネルオーディオ信号を受け入れ、Nチャンネルオーディオ信号を出力するが、M及びNは整数でありNはMより大きい。一部の実施形態では、システム600は、ダウンミキサによって処理されたオリジナルチャンネルレイアウトと同じ出力チャンネルレイアウトを目標にする。一部の実施形態では、分析及び合成フィルタバンクを内包するアップミックス処理が周波数ドメインで実行される。周波数ドメインにおけるアップミックス処理の実行は、複数の周波数帯域での別々の処理を可能にする。マルチ周波数帯域を別々に処理することは、異なる周波数帯域がサウンドフィールドの異なる位置から同時に生じる状況にアップミキサが対処するのを可能にする。しかしながら、ブロードバンド時間ドメイン信号にアップミックス処理を実行できる点にも留意されたい。
入力オーディオ信号が周波数ドメイン表現に変換された後、本明細書に前述したクアドラプレット数学的フレームワークに従ってマトリックスされたサープラスチャンネルのあらゆるクアドラプレットチャンネルセットに空間分析が行われる。クアドラプレット空間分析に基づいて、前述したクアドラプレットフレームワークに従って、出力チャンネルがクアドラプレットセットから抽出される。抽出されたチャンネルは、ダウンミキシングシステム500のクアドラプレットセットに最初にマトリックスされたサープラスチャンネルに対応する。次に、前述したクアドラプレットフレームワークに従って、クアドラプレットセットは、抽出したチャンネルに適切に基づいてリパンニングされる。
クアドラプレット処理が実行された後に、ダウンミックスチャンネルがトリプレット処理モジュールに渡され、ここで本明細書に前述したトリプレット数学的フレームワークに従ってサープラスチャンネルがマトリックスされたあらゆるトリプレットチャンネルセットに空間分析が行われる。トリプレット空間分析に基づいて、前述したトリプレットフレームワークに従って、出力チャンネルがトリプレットセットから抽出される。抽出されたチャンネルは、ダウンミキシングシステム500におけるトリプレットセットに最初にマトリックスされたサープラスチャンネルに対応する。次にトリプレットセットは、前述したトリプレットフレームワークに従って、抽出されたチャンネルに適切に基づいてリパンニングされる。
トリプレット処理が実行された後に、ダウンミックスチャンネルがペアワイズ処理モジュールに渡され、本明細書に上述したペアワイズ数学的フレームワークに従ってサープラスチャンネルがマトリックスされたあらゆるペアワイズチャンネルセットに空間分析が行われる。ペアワイズ空間分析に基づいて、前述したペアワイズフレームワークに従って、出力チャンネルがペアワイズセットから抽出される。抽出されたチャンネルは、ダウンミキシングシステム500におけるペアワイズセットに最初にマトリックスされたサープラスチャンネルに対応する。次にペアワイズセットは、前述したペアワイズフレームワークに従って、抽出されたチャンネルに基づいて適切にリパンニングされる。
この時点で、Nチャンネル出力信号は、(周波数ドメインで)生成され、クアドラプレット、トリプレット、及びペアワイズセットから抽出された全てのチャンネルと並びにリパンニングされたダウンミックスチャンネルとを含む。チャンネルを時間ドメインに変換する前に、アップミキシングシステム600の一部の実施形態は、各出力サブバンド内の合計パワーを各入力ダウンミックスサブバンドのパワーに正規化するよう設計されたサブバンドパワー正規化を実行することができる。各入力ダウンミックスサブバンドの合計パワーは次式のように推定することができる。
Figure 0006612753
ここで
Figure 0006612753
は周波数ドメインにおけるi番目の入力ダウンミックスチャンネルであり、
Figure 0006612753
はサブバンド合計ダウンミックスパワー推定値であり、mは、時間指数であり(フィルタバンク構造に起因して縮小されている可能性がある)、kはサブバンド指数である。
同様に、各出力サブバンドの合計パワーは次式のように推定することができる。
Figure 0006612753
ここで
Figure 0006612753
は周波数ドメインにおけるj番目の出力チャンネルであり、
Figure 0006612753
はサブバンド合計出力パワー推定値である。
入力及び出力サブバンドパワーの両方の推定値が計算されているので、1つのサブバンド当たりの出力信号のパワーが以下の正規化式を介して1つのサブバンド当たりの入力ダウンミックス信号のパワーにほぼ等しくなるように出力オーディオ信号を正規化することができる。
Figure 0006612753
上記の式では、結果として、サブバンドパワー正規化処理が1つのサブバンド当たりの入力パワー対出力パワーの比による出力チャンネルの全てのスケーリングを生じることが観察される。アップミキサが周波数ドメインで実行されない場合、ダウンミックスアーキテクチャで説明したものに類似のラウドネス正規化プロセスを、サブバンドパワー正規化プロセスの代わりに実行することができる。
全ての出力チャンネルが生成されサブバンドパワーが正規化された状態で、周波数ドメイン出力チャンネルは、周波数ドメインチャンネルを時間ドメインチャンネルに変換する合成フィルタバンクモジュールに送られる。
V.C.ミキシング、パンニング、及びアップミックス法則
コーデック400及び方法の実施形態による実際のマトリックスダウンミキシング及び相補アップミキシングが、スピーカ構成に応じて、ペアワイズ、トリプレット、及び好ましくはクアドラプレットミキシング法則の組合せを使用して実行される。換言すると、記録/ミキシングにおいて特定のスピーカがダウンミキシングによって排除又は仮想化される場合、位置が、a)サバイビングスピーカのペア間のラインセグメント又はこの近く、b)3サバイビングチャンネル/スピーカによって定義される三角形内、又はc)各々が頂点に配置される4つのチャンネルスピーカによって定義される四辺形内のケースであるかどうかの決定が適用される。
この最後のケースは、例えば頂点に配置された高位チャンネルをマトリクス化するのに有利である。また、コーデック400及び方法の他の実施形態では、オリジナル及びダウンミックスチャンネルレイアウトのジオメトリが、クイントプレット(quintuplet)又はセックストプレット(sextuplet)チャンネルセット等を要求する場合、マトリクス化を、クアドラプレットを超えて拡張されたチャンネルセットにすることができる点にも留意されたい。
コーデック400及び方法の一部の実施形態では、各オーディオチャンネルの信号が、複数のサブバンド、例えば「バークバンド」などの知覚的に関連のある周波数帯域にフィルタされる。これは、直交ミラーフィルタのバンドによって又は多相フィルタによって有利に行われ、任意的に各サブバンドにおける要求されるサンプルの数を低減するためにデシメーションが続く(当技術で公知)。フィルタリングに続いて、マトリックスダウンミックス分析を、オーディオチャンネルの各結合されたセット(ペア、トリプレット、又はクアドラプレット)の各知覚的に重要なサブバンドで独立して実行する必要がある。次に、各結合されたサブバンドのセットが分析され、好ましくは以下に示す式及び方法によって処理され適切なダウンミックスを提供し、この適切なダウンミックスから、復号器の各サブバンドチャンネルセットに相補的アップミックスを実行することによって、オリジナルディスクリートサブバンドチャンネルセットを回復することができる。
以下の説明は、サープラスチャンネルの各々が、チャンネルペア(ダブレット)、トリプレット、又はクアドラプレットのいずれかにミックスされるNをMチャンネルにダウンミックスする(及び相補的にアップミックスする)(逆もまた同様)ためのコーデック400及び方法の実施形態による好ましい方法を示す。同じ式及び原理が、各サブバンド又はワイドバンド信号チャンネルにミキシングされるか否かに関し、適用可能である。
復号器アップミックスのケースでは、動作の順序が重要であり、コーデック400及び方法の実施形態により、最初にクアドラプレットセット、次にトリプレットセット、次にチャンネルペアを処理することが極めて好ましい。これは、Yマルチプレットが存在するケースに拡張することができ、これによって最も大きなマルチプレットが最初に処理され、次に大きなマルチプレットが続く等々である。最も大きな数のチャンネルを備えたチャンネルセットを最初に処理することは、アップミキサが広範な最も一般的なチャンネル関係を分析するのを可能にする。トリプレット又はペアワイズセットの前にクアドラプレットセットを処理することによって、アップミキサは、クアドラプレットセットに含まれる全てのチャンネルに渡って共通する関連の信号成分を正確に分析することができる。広範囲のチャンネル関係がクアドラプレット処理を介して分析及び処理された後、次に広範なチャンネル関係がトリプレット処理によって分析及び処理される。最も制限されたチャンネル関係、ペアワイズ関係が最後に処理される。トリプレット又はペアワイズセットがクアドラプレットセットの前に偶発的に処理された場合、トリプレット又はペアワイズチャンネル全体に渡って特定の意味のあるチャンネル関係が観察される可能性があるが、このような観察されるチャンネル関係は、真のチャンネル関係のサブセットにすぎない。
例として、オリジナルオーディオ信号の所与のチャンネル(このチャンネルをAと呼ぶ)がクアドラプレットセットにダウンミックスされるシナリオを考える。アップミキサでは、クアドラプレット処理が、そのクアドラプレットセット全体に渡るチャンネルAの共通信号成分を分析してオリジナルオーディオチャンネルAの近似を抽出することができる。いずれの次のトリプレット又はペアワイズ処理も、予想されるように実行され、既に抽出されているのでチャンネルA信号成分に更なる分析又は抽出は行われない。代わりにトリプレット処理がクアドラプレット処理の前に実行される(及びトリプレットセットがクアドラプレットセットのサブセットである)場合、トリプレット処理は、そのトリプレットセット全体に渡ってチャンネルAの共通信号成分を分析して異なる出力チャンネル(すなわち出力チャンネルAではない)へのオーディオ信号を抽出する。次にクアドラプレット処理がトリプレット処理の後に実行された場合、チャンネルA信号成分の一部分だけがクアドラプレットチャンネルセット全体に渡って存在するのでオリジナルオーディオチャンネルAを抽出することができない(すなわち、チャンネルA信号成分の一部分はトリプレット処理の間に既に抽出されている)。
上述のように、最初にクアドラプレットセット、次にトリプレットセット、最後にペアワイズセットの処理が、好ましい処理のシーケンスである。上述の説明はペアワイズ(ダブレット)に対処するが、トリプレット、及びクアドラプレットセット、任意の数のセットも可能である点に注意すべきである。ペアワイズセットでは直線が形成され、トリプレットセットでは三角形が形成され、クアドラプレットセットでは四角形が形成される。しかしながら、さらなる多角形のタイプも可能である。
V.D.ペアワイズマトリクス化ケース
コーデック400及び方法の実施形態により、非サバイビング(又はサープラス)チャンネルの位置が2つのサバイビングチャンネル(又はサバイビングチャンネルの対応するサブバンド)の位置によって定義されたダブレットの間にある場合、以下に示すように、ダウンミックスされるチャンネルをダブレットのセット(又はペアワイズ)チャンネル関係に従ってマトリックス化する必要がある。
マルチプレットベースの空間マトリクス化コーデック400及び方法の実施形態は、左及び右チャンネルの間のチャンネル間レベル差を計算する。この計算は以下に詳細に説明する。コーデック400及び方法は、推定パンニング角度を計算するためにチャンネル間レベル差を使用する。加えて、チャンネル間位相差は、左及び右入力チャンネルを使用する本方法によって計算される。このチャンネル間位相差は、2つのチャンネルの入力オーディオ信号の左及び右信号が同相又は異相であるかどうかを指示する左と右入力チャンネル間の相対的な位相差を決定する。
コーデック400及び方法の一部の実施形態は、パンニング角度(θ)を利用して、2チャンネルダウンミックスからダウンミックス処理及び次のアップミックス処理を決定する。また、一部の実施形態はサイン/コサインパンニング法則を前提とする。このような状況では、2チャンネルダウンミックスが次式のようにパンニング角度の関数の通りに計算される。
Figure 0006612753
Figure 0006612753
ここでXiは入力チャンネルであり、L及びRはダウンミックスチャンネルであり、θはパンニング角度であり(0と1の間で正規化される)、パンニング重みの極性は入力チャンネルXiの位置によって決定される。従来のマトリクス化システムでは、聴取者の前に位置付けられた入力チャンネルが同相信号成分と共に(換言すると、パンニング重みの等しい極性を備えて)ダウンミックスされ、聴取者の背後に位置付けられた出力チャンネルが位相信号成分と共に(換言すると、パンニング重みの反対の極性を備えて)ダウンミックスされるのが一般的である。
図12は、サイン/コサインパンニング法側のパンニング角度(θ)の関数としてのパンニング重みを示す。第1プロット1200は、右チャンネルのパンニング重み(WR)を表わす。第2プロット1210は、左チャンネルの重み(WL)を表わす。例示的に図12を参照すると、中心チャンネルは、ダウンミックス関数をもたらす0.5のパンニング角度を使用することができる。
Figure 0006612753
Figure 0006612753
2チャンネルダウンミックスから付加的なオーディオチャンネルを合成するために、パンニング角度の推定値(又は
Figure 0006612753
として示される推定パンニング角度)を、チャンネル間のレベル差(ICLDとして示す)から計算することができる。ICLDを次式のように定義するとする。
Figure 0006612753
信号成分がサイン/コサインパンニング法側を使用して強度パンニングによって生成されると仮定すると、ICLDをパンニング角度推定値の関数として表すことができる。
Figure 0006612753
次に、パンニング角度推定値をICLDの関数として表すことができる。
Figure 0006612753
以下の角度の加法及び減法定理が、残りの導出を通して使用される。
Figure 0006612753
Figure 0006612753
さらに、以下の導出は、5.1サラウンドサウンド出力構成を前提とする。しかし、この分析は付加的なチャンネルに容易に適用することができる。
中心チャンネル合成
中心チャンネルは、以下の式を使用して2チャンネルダウンミックスから生成される。
Figure 0006612753
ここでa及びb係数は、特定の事前定義された目標を達成するためにパンニング角度推定値
Figure 0006612753
に基づいて決定される。
同相成分
中心チャンネルの同相成分に対する所望のパンニング挙動を図13に示す。図13は、次式によって与えられる同相プロット1300に対応するパンニング挙動を示す。
Figure 0006612753
所望の中心チャンネルパンニング挙動を同相成分に代入すると、仮定されるサイン/コサインダウンミックス関数は次式をもたらす。
Figure 0006612753
角度の加法定理を使用すると、第1デマトリクス化係数(aとして示す)及び第2デマトリクス化係数(bとして示す)を含むデマトリクス化係数を次式のように導出することができる。
Figure 0006612753
Figure 0006612753
異相成分
中心チャンネルの異相成分に対する所望のパンニング挙動を図14に示す。図14は次式によって与えられる異相プロット1400に対応するパンニング挙動を示す。
Figure 0006612753
異相成分に対する所望の中心チャンネルパンニング挙動を代入して仮定されるサイン/コサインダウンミックス関数は以下になる。
Figure 0006612753
角度の加法定理を使用すると、a及びb係数を以下のように導き出すことができる。
Figure 0006612753
Figure 0006612753
サラウンドチャンネルの合成
サラウンドチャンネルは、次式を使用して2チャンネルダウンミックスから生成される。
Figure 0006612753
Figure 0006612753
ここでLSは左サラウンドチャンネルであり、RSは右サラウンドチャンネルである。a及びb係数は、推定されるパンニング角度
Figure 0006612753
に基づいて決定され、事前に定義される所定の目標を達成する。
同相成分
左サラウンドチャンネルの同相成分に対する理想的なパンニング挙動を図15に示す。図15は、次式によって与えられる同相プロット1500に対応するパンニング挙動を示す。
Figure 0006612753
同相成分に対する所望の左サラウンドチャンネルパンニング挙動を代入すると、仮定されるサイン/コサインダウンミックス関数は以下になる。
Figure 0006612753
角度の加法定理を使用すると、a及びb係数は次式のように導き出される。
Figure 0006612753
Figure 0006612753
異相成分
異相成分に対する左サラウンドチャンネルの目標は、図16の異相プロット1600によって示されるようなパンニング挙動を達成することである。図16は、左サラウンド及び右サラウンドチャンネルが別個に符号化され復号されるダウンミックス式に対応する2つの特定の角度を示す(これらの角度は図16の異相プロット1600において約0.25及び0.75である(45°及び135°に対応する))。このような角度は以下のように示される。
Figure 0006612753
Figure 0006612753
左サラウンドチャンネルのa及びb係数は、所望の出力のピースワイズ挙動によるピースワイズ関数によって生成される。
Figure 0006612753
に対して、左サラウンドチャンネルの所望のパンニング挙動は以下に相当する。
Figure 0006612753
異相成分に対する所望の左サラウンドチャンネルパンニング挙動を代入すると、仮定されるサイン/コサインダウンミックス関数は以下になる。
Figure 0006612753
角度の加法定理を使用して、a及びb係数は以下のように導き出すことができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
に対して、左サラウンドチャンネルの所望のパンニング挙動は以下に相当する。
Figure 0006612753
異相成分に対する所望の左サラウンドチャンネルパンニング挙動を代入すると、仮定されるサイン/コサインダウンミックス関数は以下になる。
Figure 0006612753
角度の加法定理を使用して、a及びb係数は以下のように導き出すことができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
の場合、左サラウンドチャンネルの所望のパンニング挙動は以下に相当する。
Figure 0006612753
異相成分の所望の左サラウンドチャンネルパンニング挙動を代入すると、仮定されるサイン/コサインダウンミックス関数は以下になる。
Figure 0006612753
角度の加法定理を使用して、a及びb係数を次式のように導き出すことができる。
Figure 0006612753
Figure 0006612753
右サラウンドチャンネル生成のためのa及びb係数は、上述のように左サラウンドチャンネル生成と同様に計算される。
修正された左及び修正された右チャンネル合成
左及び右チャンネルは、中心及びサラウンドチャンネルに生成された成分を(完全に又は部分的に)取り除くために以下の式を使用して修正される。
Figure 0006612753
Figure 0006612753
ここでa及びb係数は、事前に定義された所定の目標を達成するためにパンニング角度推定値
Figure 0006612753
に基づいて決定され、L’は修正された左チャンネルであり、R’は修正された右チャンネルである。
同相成分
同相成分の修正された左チャンネルの目標は、図17の同相プロット1700によって示されるパンニング挙動を達成することである。図17では、0.5のパンニング角度θがディスクリート中心チャンネルに対応する。修正された左チャンネルのためのa及びb係数が、所望の出力のピースワイズ挙動によるピースワイズ関数を介して生成される。
Figure 0006612753
の場合、修正された左チャンネルの所望のパンニング挙動は次式に相当する。
Figure 0006612753
同相成分に対する所望の修正左チャンネルパンニング挙動を代入すると、仮定されるサイン/コサインダウンミックス関数は以下になる。
Figure 0006612753
角度の加法定理を使用して、a及びb係数を次式のように導き出すことができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
の場合、修正された左チャンネルの所望のパンニング挙動は以下に相当する。
Figure 0006612753
同相成分に対する所望の修正左チャンネルパンニング挙動を代入すると、仮定されるサイン/コサインダウンミックス関数は以下になる。
Figure 0006612753
角度の加法定理を使用して、a及びb係数は次式のように導き出すことができる。
Figure 0006612753
Figure 0006612753
異相成分
異相成分のための修正された左チャンネルの目標は、図18の異相プロット1800によって示されるパンニング挙動を達成することである。図18では、パンニング角度
Figure 0006612753
が左サラウンドチャンネルのための符号化角度に相当する。修正された左チャンネルのためのa及びb係数は、所望の出力のピースワイズ挙動によるピースワイズ関数を介して生成される。
Figure 0006612753
の場合、修正された左チャンネルのための所望のパンニング挙動は以下に相当する。
Figure 0006612753
異相成分に対する所望の修正左チャンネルパンニング挙動を代入すると、仮定されるサイン/コサインダウンミックス関数は以下になる。
Figure 0006612753
角度の加法定理を使用して、a及びb係数を次式のように導き出すことができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
の場合、修正された左チャンネルのための所望のパンニング挙動は以下に相当する。
Figure 0006612753
異相成分に対する所望の修正左チャンネルパンニング挙動を代入すると、仮定されるサイン/コサインダウンミックス関数は以下になる。
Figure 0006612753
角度の加法定理を使用して、a及びb係数を次式のように導き出すことができる。
Figure 0006612753
Figure 0006612753
修正された右チャンネル生成のためのa及びb係数は、上述のように修正された左チャンネル生成と同様に計算される。
係数補間
上記に提示したチャンネル合成導出は、同相又は異相のいずれかであるソースコンテンツに対する所望のパンニング挙動の達成に基づく。ソースコンテンツの相対的な位相差を、次式のように適正に定義されたチャンネル間位相差(ICPD)によって決定することができる。
Figure 0006612753
ここで*は複素共役を示す。
ICPD値は、範囲[−1、1]に入り、−1の値は、成分が異相であることを示し、1の値は成分が同相であることを示す。次に、ICPD特性を使用して、線形補間を使用したチャンネル合成式で使用する最終的なa及びb係数を決定することができる。しかしながら、a及びb係数を直接補間する代わりに、a及びb係数の全てがパンニング角度推定値
Figure 0006612753
の三角関数を使用して生成される点に注目すべきである。
従って、線形補間は、三角関数の角度引数に実行される。この方式で線形補間を実行することには、2つの主な利点がある。まず、あらゆるパンニング角度及びIPCD値に対してa2+b2=1という特性を維持する。次に、必要な三角関数コール数を低減して、これによって処理要件を低減する。
角度補間は、次式のように計算される範囲[0,1]に正規化された修正ICPD値を使用する。
Figure 0006612753
チャンネル出力は以下に示すように計算される。
中心出力チャンネル
中心出力チャンネルは、次式のように定義される修正されたICPD値を使用して生成される。
Figure 0006612753
ここで、
Figure 0006612753
Figure 0006612753
である。
上記の正弦関数の引数における第1項は、第1デマトリクス化係数の同相成分を表し、第2項は異相成分を表わす。従って、αは同相係数を表し、βは異相係数を表わす。同相係数及び異相係数共に、位相係数として公知である。
各出力チャンネルに対して、コーデック400及び方法の実施形態は、推定されるパンニング角度に基づいて位相係数を計算する。中心出力チャンネルに対して、同相係数及び異相係数が次式のように与えられる。
Figure 0006612753
Figure 0006612753
左サラウンド出力チャンネル
左サラウンド出力チャンネルは、次式のように定義される修正ICPD値を使用して生成される。
Figure 0006612753
ここで、
Figure 0006612753
Figure 0006612753
及び
Figure 0006612753
Figure 0006612753
である。
一部の三角関数の公式及び位相ラッピング特性は、上述の式に対するα及びβ係数を単純化するために適用される点に留意されたい。
右サラウンド出力チャンネル
右サラウンド出力チャンネルは、次式のように定義される修正されたICPD値を使用して生成される。
Figure 0006612753
ここで、
Figure 0006612753
Figure 0006612753
及び
Figure 0006612753
Figure 0006612753
右サラウンドチャンネルのα及びβ係数が、
Figure 0006612753
の代わりにパンニング角度として
Figure 0006612753
を使用することは別にして、左サラウンドチャンネルと同様に生成される点に留意されたい。
修正された左出力チャンネル
修正された左出力チャンネルは、以下のように修正されたICPD値を使用して生成される。
Figure 0006612753
ここで
Figure 0006612753
Figure 0006612753
及び
Figure 0006612753
Figure 0006612753

修正された右出力チャンネル
修正された右出力チャンネルは、次式のように修正されたICPD値を使用して生成される。
Figure 0006612753
ここで
Figure 0006612753
Figure 0006612753
及び
Figure 0006612753
Figure 0006612753
右チャンネルのα及びβ係数は、
Figure 0006612753
の代わりにパンニング角度として
Figure 0006612753
を使用することは別にして、左チャンネルと同様に生成される。
上述した主題は、2チャンネルダウンミックスから、中心、左サラウンド、右サラウンド、左、及び右チャンネルを生成するためのシステムである。しかしながら、本システムは、追加のパンニング挙動を定義することによって他の追加のオーディオチャンネルを生成するために容易に修正することができる。
V.E.トリプレットマトリクス化ケース
コーデック400及び方法の実施形態により、非サバイビング(又はサープラス)チャンネルの位置が、3つのサバイビングチャンネル(又はサバイビングチャンネルの対応するサブバンド)の位置によって定義される三角形内にある場合、ダウンミックスされるチャンネルは、以下に示すようにトリプレットチャンネル関係のセットに従ってマトリックスにする必要がある。
ダウンミキシングケース
非サバイビングチャンネルは三角形を形成する3つのサバイビングチャンネルにダウンミックスされる。数学的には、信号、S、は、チャンネルトリプレットC1/C2/C3にパンニングされた振幅である。図19は、チャンネルトリプレットへの信号ソース、S、のパンニングを示す図である。図19を参照すると、チャンネルC1とC2の間に位置付けられる信号ソースSの場合、チャンネルC1/C2/C3が以下の信号モデルに従って生成されることが前提になる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
ここでrは基点からの信号ソースの距離であり(範囲[0,1]に正規化される)、θはチャンネルC1とC2の間の信号ソースの角度である(範囲[0,1]に正規化される)。チャンネルC1/C2/C3に対する上記のチャンネルパンニング重みは、C1/C2/C3にパンニングされた際に信号Sのパワーを保存するよう設計される点に注目されたい。
アップミキシングケース
トリプレットをアップミックスする場合の目的は、入力トリプレットC1/C2/C3から4つの出力チャンネルC1´/C2´/C3´/C4´を作成することによってトリプレットにダウンミックスされた非サバイビングチャンネルを取得することである。図20は、トリプレットにパンニングされていた非サバイビング第4チャンネルの抽出を示す図である。図20を参照すると、第4出力チャンネルC4の位置は、基準点であることが前提であり、他の3つの出力チャンネルC1´/C2´/C3´の位置は、入力チャンネルC1/C2/C3と同一であることが前提とされる。マルチプレットベースの空間マトリクス化復号器420の実施形態は、原信号成分Sの空間位置及び信号エネルギが保存されるように4つの出力チャンネルを生成する。
サウンドソースSの元の位置は、マルチプレットベースの空間マトリクス化復号器420の実施形態には送信されず、入力チャンネルC1/C2/C3自体から推定されるだけである。復号器420の実施形態は、Sのあらゆる任意の位置に対して適切に4つの出力チャンネルを生成することができる。この段落の残りの部分では、原信号成分Sが普遍性を失うことなく導出を単純化するために単位エネルギ(すなわち、|S|=1)を有することを前提とすることができる。
チャンネルエネルギC 1 2 /C 2 2 /C 3 2 からの
Figure 0006612753
及び
Figure 0006612753
推定値の導出
Figure 0006612753
Figure 0006612753
とする。
チャンネルエネルギ比
以下のエネルギ比は、この段落の残りの部分全体で使用するものとする。
Figure 0006612753
これらの3つのエネルギ比は、範囲[0,1]にあり合計すると1になる。
4 チャンネル合成
出力チャンネルC4は以下の式を介して生成される。
Figure 0006612753
ここでa、b、及びc係数は、推定角度
Figure 0006612753
及び半径
Figure 0006612753
に基づいて決定される。
目標は次式である。
Figure 0006612753
a=da'、b=db'、c=dc'とすると、ここで、
Figure 0006612753
Figure 0006612753
Figure 0006612753
である。
上記を代入すると以下になる。
Figure 0006612753

Figure 0006612753

Figure 0006612753
dを解くと以下になる。
Figure 0006612753
a、b、及びc係数は従って以下になる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
最終的なa、b、及びc係数を、チャンネルエネルギ比だけを含む表現に単純化することができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
1 ´/C 2 ´/C 3 ´チャンネル合成
出力チャンネルC1´/C2´/C3´は、出力チャンネルC4で既に生成された信号成分が入力チャンネルC1/C2/C3から適切に「取り除かれる」ように入力チャンネルC1/C2/C3から生成される。
1 ´チャンネル合成
Figure 0006612753
とする。
目標は次式である。
Figure 0006612753

Figure 0006612753

Figure 0006612753
a係数を次式に等しくする。
Figure 0006612753
b=db′びc=dc′とすると、ここで、
Figure 0006612753
Figure 0006612753
上記を代入すると以下になる。
Figure 0006612753

Figure 0006612753

Figure 0006612753

Figure 0006612753
dを解くと以下になる。
Figure 0006612753
最終的なa、b、及びc係数を、チャンネルエネルギ比だけを含む表現に単純化することができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
2 ´チャンネル合成
Figure 0006612753
とする。
目標は以下になる。
Figure 0006612753

Figure 0006612753

Figure 0006612753
a係数を次式に等しくする。
Figure 0006612753
b=db′及びc=dc′とすると、ここで、
Figure 0006612753
Figure 0006612753
上記を代入すると以下になる。
Figure 0006612753

Figure 0006612753

Figure 0006612753

Figure 0006612753
dを解くと以下になる。
Figure 0006612753

最終的なa、b、及びc係数は、チャンネルエネルギ比だけを含む表現に単純化することができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
3 ´チャンネル合成
Figure 0006612753
とする。
目標は以下になる。
Figure 0006612753

Figure 0006612753
a係数を以下に等しくする。
Figure 0006612753
b=db′及びc=dc′とすると、ここで
Figure 0006612753
Figure 0006612753
上記を代入すると以下になる。
Figure 0006612753

Figure 0006612753

Figure 0006612753
dを解くと以下になる。
Figure 0006612753
最終的なa、b、及びc係数は、チャンネルエネルギ比だけを含む表現に単純化することができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
トリプレットチャンネル間位相差(ICPD)
チャンネル間位相差(ICPD)空間特性は、元のペアワイズICPD値からトリプレットに対して計算することができる。
Figure 0006612753
ここで元のペアワイズICPD値は以下の式を使用して計算される。
Figure 0006612753
サウンドソースはトリプレットチャンネルに振幅パンニングされており、3つのチャンネルが十分に相関付けられることを意味することをトリプレットモデルは前提にしている点に留意されたい。トリプレットICPD尺度は、3つのチャンネルの総合的な相関関係を推定するために使用することができる。トリプレットチャンネルが十分に相関付けられる(又はほぼ十分に相関付けられる)場合、トリプレットフレームワークを利用して高度に予測可能な結果をもつ4つの出力チャンネルを生成することができる。トリプレットチャンネルが相関付けられていない場合、相関付けられないトリプレットチャンネルが、予測できない結果を生じる可能性がある仮定される信号モデルを妨害するので、異なるフレームワーク又は方法を使用することが望ましい。
V.F.クアドラプレットマトリクス化ケース
コーデック400及び方法の実施形態により、特定の対称条件が普及する場合、サープラスチャンネル(又はチャンネルサブバンド)は、好都合に四角形の中に入るに考えられる。このようなケースでは、コーデック400及び方法の実施形態は、以下に示したクアドラプレットケースセットの関係に従うダウンミキシング(及び相補アップミキシング)を含む。
ダウンミキシングケース
非サバイビングチャンネルは、四角形を形成する4つのサバイビングチャンネルにダウンミックスされる。数学的には、信号ソース、S、は、チャンネルクアドラプレットC1/C2/C3/C4に振幅パンニングされる。図21は、チャンネルクアドラプレットへの信号ソース、S、のパンニングを示す図である。図21を参照すると、チャンネルC1とC2の間に位置付けられる信号ソースSに対して、チャンネルC1/C2/C3/C4は以下の信号モデルに従って生成されると仮定される。
Figure 0006612753
Figure 0006612753
Figure 0006612753
Figure 0006612753
ここでrは基点からの信号ソースの距離であり(範囲[0、1]に正規化される)、θはチャンネルC1とC2の間の信号ソースの角度である(範囲[0、1])に正規化される)。チャンネルC1/C2/C3/C4に対する上記のチャンネルパンニング重みは、C1/C2/C3/C4にパンニングされた場合に信号Sのパワーを保存するよう設計される点に留意されたい。
アップミキシングケース
クアドラプレットをアップミックスする場合の目的は、入力クアドラプレットC1/C2/C3/C4から5つの出力チャンネルC1´/C2´/C3´/C4´/C5を作成することによってクアドラプレットにダウンミックスされた非サバイビングチャンネルを取得することである。図22は、クアドラプレットにパンニングされている非サバイビング第5チャンネルの抽出を示す図である。図22を参照すると、第5出力チャンネルC5の位置は基準点にあることが前提とされ、他の4つの出力チャンネルC1´/C2´/C3´/C4´の位置は、入力チャンネルC1/C2/C3/C4に同一であることが前提とされる。マルチプレットベースの空間マトリクス化復号器420の実施形態は、原信号成分Sの空間位置及び信号エネルギが保存されるように5つの出力チャンネルを生成する。
サウンドソースSの元の位置は、復号器420の実施形態に送信されず、入力チャンネルC1/C2/C3/C4自体から推定されるだけである。復号器420の実施形態は、Sのあらゆる任意の位置に対しても5つの出力チャンネルを適切に生成できる必要がある。
段落の残りの部分では、普遍性を失うことなく導出を単純化するために原信号成分Sが単位エネルギを有する(換言すると、|S|=1)であることを前提とすることができる。最初に、復号器はチャンネルエネルギC1 2/C2 2/C3 2/C4 2から
Figure 0006612753
及び
Figure 0006612753
推定値を導出する。
Figure 0006612753
Figure 0006612753
3及びC4チャンネルの最小エネルギが上記の式で使用され(換言すると
Figure 0006612753
)入力クアドラプレットC1/C2/C3/C4が前に識別された信号モデルの前提を壊す状況に対処する点に留意されたい。C3及びC4のエネルギレベルが互いに等しくなることを信号モデルは前提とする。しかし、これが任意の入力信号のケースでなくC3がC4に等しくない場合、出力チャンネルC1´/C2´/C3´/C4´/C5´全体に渡る入力信号のリパンニングを制限することが望ましい。これは、最小出力チャンネルC5を合成して可能な限りその対応する入力チャンネルC1/C2/C3/C4に同様に出力チャンネルC1´/C2´/C3´/C4´を保存することによって達成することができる。この段落では、C3及びC4チャンネルにおける最小関数の使用が、この目的を達成しようとする。
チャンネルエネルギ比
以下のエネルギ比を、この段落の残りの部分全体を通して使用するものとする。
Figure 0006612753
これらの4つのエネルギ比は、範囲[0,1]にあり和が1になる。
5 チャンネル合成
出力チャンネルC5は、以下の式を介して生成される。
Figure 0006612753
ここでa、b、c、及びd係数は、推定される角度
Figure 0006612753
及び半径
Figure 0006612753
に基づいて決定される。
目標は以下になる。
Figure 0006612753

Figure 0006612753

Figure 0006612753

Figure 0006612753
a=ea′、b=eb′、c=ec′、及びd=ed′とすると、ここで
Figure 0006612753
Figure 0006612753
Figure 0006612753
Figure 0006612753
である。
上記を代入すると以下になる。
Figure 0006612753

Figure 0006612753

Figure 0006612753

Figure 0006612753
eを解くと以下になる。
Figure 0006612753
a、b、c、及びd係数は従って以下になる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
Figure 0006612753
最終的なa、b、c、及びd係数をチャンネルエネルギ比だけを含む表現に単純化することができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
Figure 0006612753
1 ´/C 2 ´/C 3 ´/C 4 ´チャンネル合成
出力チャンネルC1´/C2´/C3´/C4´は、出力チャンネルC5で既に生成された信号成分が入力チャンネルC1/C2/C3/C4から適切に「取り除かれる」ように入力チャンネルC1/C2/C3/C4から生成される。
1 ´チャンネル合成
Figure 0006612753
目標:
Figure 0006612753

Figure 0006612753

Figure 0006612753

Figure 0006612753
a係数を以下に等しくする。
Figure 0006612753
b=eb′、c=ec′、及びd=ed′とすると、ここで
Figure 0006612753
Figure 0006612753
Figure 0006612753
上記を代入すると以下になる。
Figure 0006612753

Figure 0006612753

Figure 0006612753

Figure 0006612753
eを解くと以下になる。
Figure 0006612753

Figure 0006612753
最終的なa、b、c、及びd係数をチャンネルエネルギ比だけを含む表現に単純化することができる。
Figure 0006612753
Figure 0006612753
Figure 0006612753
Figure 0006612753
2 ´チャンネル合成
Figure 0006612753
目標
Figure 0006612753
a係数を次式に等しくする。
Figure 0006612753
b=eb′、c=ec′、及びd=ed′とすると、ここで
Figure 0006612753
Figure 0006612753
Figure 0006612753
である。
上記を代入すると以下になる。
Figure 0006612753
eを解くと以下になる。
Figure 0006612753
最終的なa、b、c、及びd係数をチャンネルエネルギ比だけを含む表現に単純化することができる。
Figure 0006612753
3 ´チャンネル合成
Figure 0006612753
目標:
Figure 0006612753
a係数を次式に等しくする。
Figure 0006612753
b=eb′、c=ec′、及びd=ed′とすると、ここで
Figure 0006612753
Figure 0006612753
Figure 0006612753
上記を代入すると以下になる。
Figure 0006612753

Figure 0006612753

Figure 0006612753
eを解くと以下になる。
Figure 0006612753
最終的なa、b、c、及びd係数をチャンネルエネルギ比だけを含む表現に単純化することができる。
Figure 0006612753
4 ´チャンネル合成
Figure 0006612753
目標:
Figure 0006612753
a係数を以下に等しくする。
Figure 0006612753
b=eb′、c=ec′、及びd=ed′とすると、ここで
Figure 0006612753
上記を代入すると以下になる。
Figure 0006612753
eを解くと次式になる。
Figure 0006612753

最終的なa、b、c、及びd係数をチャンネルエネルギ比だけを含む表現に単純化することができる。
Figure 0006612753
クアドラプレットチャンネル間位相差(ICPD)
チャンネル間位相差(ICPD)空間特性を、元のペアワイズICPD値からクアドラプレットに対して計算することができる。
Figure 0006612753

ここで、元のペアワイズICPD値は以下の式を使用して計算される。
Figure 0006612753
クアドラプレット信号モデルはサウンドソースがクアドラプレットチャンネルに振幅パンニングされていること、4つのチャンネルが十分に相関付けられることを意味することを前提にしている点に留意されたい。クアドラプレットICPD尺度を使用して4つのチャンネルの全体の相関関係を推定することができる。クアドラプレットチャンネルが十分に相関付けられる(又は、ほぼ十分に相関付けられる)場合、クアドラプレットフレームワークを利用して高度の予測可能な結果をもつ5つの出力チャンネルを生成することができる。クアドラプレットチャンネルが相関付けられない場合、相関付けられないクアドラプレットチャンネルが予測できない結果を生じる可能性がある前提される信号モデルを妨害するので異なるフレームワーク又は方法を使用することが望ましい。
V.G.拡張レンダリング
コーデック400及び方法の実施形態は、ベクトルベースの振幅パンニング(VBAP)技術の新規な拡張を使用してスピーカアレイ全体にオーディオオブジェクト波形をレンダリングする。従来のVBAP技術は、単位球面上の任意数の任意に配置されたラウドスピーカを使用して3次元サウンドフィールドを作成する。単位球面上の半球は、聴取者上方にドームを作成する。VBAPによって、作成できる最もローカライズ可能なサウンドは、ある三角形配列を作り上げる最大3チャンネルから発生する。サウンドが2つのスピーカの間の線上にあるポイントから偶発的に発生する場合、VBAPは、このような2つのスピーカを使用するだけである。サウンドが、スピーカが位置付けられている場所から発していると思われる場合は、VBAPはその1つのスピーカだけを使用する。VBAPは、サウンドを再生するために最大で3つのスピーカ及び最小で1つのスピーカを使用する。再生環境は3より多いスピーカを有することができるが、VBAP技術はこのようなスピーカのうち3つだけを使用してサウンドを再生する。
コーデック400及び方法の実施形態によって使用される拡張レンダリング技術は、単位球面から単位球面内の任意のポイントへオーディオオブジェクトをレンダリングする。例えば、三角形が3つのスピーカを使用して作成されると仮定する。直線に沿ったポイントにソースを位置付ける従来のVBAP方法を拡張し、この方法を3つのスピーカを使用するように拡張することによって、これらの3つのスピーカによって形成される三角形内の任意の場所にソースを位置付けることができる。レンダリングエンジンの目的は、近傍のスピーカへの漏れの量を最も少なくしてこのジオメトリによって作成される3Dベクトルに沿った正しい位置でサウンドを作成するための利得アレイを見付けることである。
図23は、再生環境485及び拡張レンダリング技術の図である。聴取者100は単位球面2300に対して位置付けられる。単位球面2300の半分だけが示されている(半球)が、拡張レンダリング技術は、全単位球面2300上及びその中でのレンダリングをサポートする点に留意されたい。図23は、半径方向距離、r、方位角、q、及び極角、jを含む球面座標系x−y−zが使用されることを示している。
マルチプレット及び球面は、ビットストリームの全波形の位置を網羅する必要がある。この概念は、必要であれば4又はそれ以上のスピーカに拡張することができるので、その中で機能する長方形又は他の多角形を作成して、単位球面2300の半球上の正しい空間位置を正確に実現することができる。
DTS−UHDレンダリングエンジンは、任意のラウドスピーカレイアウトへの点音源及び拡張音源の3Dパンニングを実行する。点音源は、空間における1つの特定のスポットから発しているように音が出るが、拡張音源は、「幅」及び/又は「高さ」をもつサウンドである。音源の空間的拡張に対するサポートは、拡張サウンドの領域をカバーする仮想ソースのモデリング寄与によって行われる。
図24は、拡張レンダリング技術を使用して単位球面2300上及びその中のオーディオソースのレンダリングを示す。オーディオソースは、この単位球面2300上又はその中の任意の場所に位置付けることができる。例えば、第1オーディオソースを単位球面2400上に位置付けることができ、第2オーディオソース2410及び第3オーディオソースを、拡張レンダリング技術を使用して単位球面内に位置付けることができる。
拡張レンダリング技術は、聴取者100を取り囲む単位球面2300上の点音源又は拡張音源をレンダリングする。しかし、単位球面2300の内側の点音源では、音源を単位球面2300から移動させる必要がある。拡張レンダリング技術は3つの方法を使用して単位球面2300からオブジェクトを移動させる。
まず、波形がVBAP(又は類似の)技術を使用して単位球面2300上に位置付けられた状態で、半径、rに沿ってサウンドを引き込むために単位球面2300の中心に位置付けられた音源によってクロスフェードされる。システムのスピーカの全てを使用してクロスフェードが実行される。
次に、高さのある音源では、近くで動いているような印象を聴取者100に与えるために垂直平面にサウンドが拡張される。垂直にサウンドを拡張するのに必要なスピーカだけが使用される。第3に、ゼロの高さをもつことができるか又は持たなくてもよい水平平面の音源では、聴取者100の近くを動いているような印象を与えるために再度水平にサウンドが拡張される。拡張を行うのに必要なのはアクティブスピーカだけである。
V.H.サバイビングチャンネルの例示的な選択
入力レイアウトのカテゴリが与えられると、サバイビングチャンネルの選択された数(M)、及び以下の法則は、実際の入力レイアウトに関わらず固有の方法で各非サバイビングチャンネルのマトリクス化を指示する。図22−25は、サバイビングレイアウトに存在しない入力レイアウトにおけるいずれのスピーカに対してもマトリックスマルチプレットのマッピングを指示するルックアップテーブルである。
以下の法則が図25−28に適用される点に注目されたい。入力レイアウトは5つのカテゴリに分類される。
1.高位チャンネルなしのレイアウト
2.前面にだけ高位チャンネルをもつレイアウト
3.取り囲む高位チャンネルをもつレイアウト(2つのハイトスピーカの間の分離>180°ではない)
4.取り囲む高位チャンネル及びオーバヘッドチャンネルをもつレイアウト
5.取り囲む高位チャンネル、オーバヘッドチャンネル、及び聴取者面より下のチャンネルをもつレイアウト
加えて、各非サバイビングチャンネルは、サバイビングチャンネルのペア間でペアワイズマトリックスされる。一部のシナリオでは、トリプレット、クアドラプレット、又はサバイビングチャンネルの大きなグループを、単一の非サバイビングチャンネルをマトリクス化するために使用することができる。可能である場合は必ず、サバイビングチャンネルのペアが、1つの及び1つだけの非サバイビングチャンネルをマトリクス化するために使用される。
高位チャンネルが入力チャンネルレイアウトに存在する場合、少なくとも1つの高位チャンネルがサバイビングチャンネル間に存在することになる。必要に応じて、各ラウドスピーカリングの少なくとも3つの取り囲むサバイビングチャンネルを使用する必要がある(聴取者面リング及び高位平面リングに適用する)。
オブジェクト内包又はエンベッディッドダウンミックスが要求されない場合、提案される方法の最適化に対して他の可能性が存在する。第1に、非サバイビングチャンネル(このN−Mはこのシナリオでは「疑似サバイビングチャンネル」と呼ばれる)が非常に制限された帯域幅(例えばFc=3kHz)で符号化される。第2に、Fcの上の「疑似サバイビングチャンネル」のコンテンツを選択されたサバイビングチャンネルにマトリクス化する必要がある。第3に、「疑似サバイビングチャンネル」の低バンド及びサバイビングチャンネルの全てのバンドが符号化されストリームにパックされる。
上記の最適化は、ビットレートにおける大幅な低減と共に空間的精度における最小のインパクトを可能にする。復号器MIPSを管理するために、復号器サブバンドサンプルがデマトリクス化合成フィルタバンクに挿入されるように、デマトリクス化のための時間−周波数表現の注意深い選択が必要とされる。一方では、デマトリクス化はFc以下では適用されないので、デマトリクス化のために所望の周波数解像度の緩和が可能である。
V.I.更なる情報
上記の説明では、「リパンニング」は、ダウンミックスされたチャンネルを上回ってナンバリングされたディスクリートチャンネル(N>M)がそれによって各チャンネルセットのダウンミックスから回復されるアップミキシング動作を指すことを理解されたい。これは、各セットに対して複数の知覚的に重要なサブバンドの各々で行われるのが好ましい。
チャンネルジオメトリが記録アーティスト又はエンジニア(ソフトウェア又はハードウェアを介して明示的又は暗示的のいずれかで)によって仮定された場合、及び、更にジオメトリ及び仮定されるチャンネル構成及びダウンミックスパラメータがある手段によって復号器/受信機に伝送された場合、この方法からの最適又は最適に近い結果が適切に近似されることを理解されたい。換言すると、オリジナル記録が22チャンネルディスクリートミックスを使用した場合、上記に示したマトリクス化方法に従って7.1チャンネルダウンミックスにミックスダウンされた特定のマイクロフォン/スピーカジオメトリに基づいて、これらの仮定を何らかの手段によって受信機/復号器に伝送して相補的なアップミックスを可能にする必要がある。
1つの方法は、仮定されるオリジナルジオメトリ及びダウンミックス構成(構成Xにおける高位チャンネルをもつ22−従来の配列における7.1へのダウンミックス)をファイルヘッダで伝送することである。これは、データ帯域幅の最小量及びリアルタイムでの不定期のアップデートしか必要としない。パラメータは、例えば既存のオーディオフォーマットで確保されたフィールドにマルチプレクシングされる。クラウドストレージ、ウェブサイトアクセス、ユーザ入力などを含む他の方法も利用可能である。
コーデック400及び方法の一部の実施形態では、アップミキシングシステム600(又は復号器)がオリジナルオーディオ信号及びチャンネル低減オーディオ信号の双方のチャンネルレイアウト及びミキシング係数を認識している。チャンネルレイアウト及びミキシング係数の知識は、アップミキシングシステム600がチャンネル低減オーディオ信号をオリジナルオーディオ信号の適切な近似に正確に復号することを可能にする。チャンネルレイアウト及びミキシング係数の知識なしでは、アップミキサはオリジナルオーディオチャンネルの適正な近似を生成するのに必要な目標出力チャンネルレイアウト又は正確な復号器関数を決定することができない。
実施例として、オリジナルオーディオ信号は、以下のチャンネル位置、1)中心、2)前面左、3)前面右、4)左側サラウンド、5)右側サラウンド、6)左サラウンド背面、7)右サラウンド背面、8)左又は中心、9)右又は中心、10)中心高位、11)左高位、12)右高位、13)中心高位背面、14)左高位背面、及び15)右高位背面に対応する15のチャンネルを含むことができる。帯域幅制約(又は他のいくつかの目的)に起因して、この高チャンネル数ディオ信号を8チャンネルを含むチャンネル低減オーディオ信号に低減することが望ましい。
ダウンミキシングシステム500は、オリジナル15チャンネルを、以下のチャンネル位置、1)中心、2)前面左、3)前面右、4)左サラウンド、5)右サラウンド、6)左高位、7)右高位、及び8)中心高位背面を含む8チャンネルオーディオ信号に符号化するよう構成することができる。ダウンミキシングシステム500は、オリジナル15チャンネルオーディオ信号をダウンミキシングする時に以下のミキシング係数を使用するよう更に構成することができる。
Figure 0006612753
ここで、一番上の行はオリジナルチャンネルに対応し、左端の列はダウンミックスされたチャンネルに対応し、数字の係数は、各オリジナルチャンネルが各ダウンミックスチャンネルに寄与したミキシング重みに対応する。
上記の実施例のシナリオでは、アップミキシングシステム600がチャンネル低減信号からオリジナルオーディオ信号の近似を最適に又はほぼ最適に復号するために、アップミキシングシステム600は、オリジナル及びダウンミックスされたチャンネルレイアウト(すなわち、C、FL、FR、LSS、RSS、LSR、RSR、LoC、RoC、CH、LH、RH、CHR、LHR、RHR及びC、FL、FR、LS、RS、LH、RH、CHR、それぞれ)及びダウンミックスプロセス中に使用されるミキシング係数(すなわち、上記のミキシング係数マトリックス)の知識を有することができる。この情報の知識によって、アップミキシングシステム600は、使用された実際のダウンミックス構成を十分に認識するので上記に示されたマトリクス化/デマトリクス化数学フレームワークを使用して各出力チャンネルに必要な復号関数を正確に決定することができる。例えば、アップミキシングシステム600は、ダウンミックスされたLS及びRSチャンネルから出力LSRチャンネルを復号することを知り、ディスクリートLSRチャンネル出力(すなわち、0.924及び0.383それぞれ)を暗示するLSとRSチャンネルの間の相対的なチャンネルレベルを知ることになる。
アップミキシングシステム600がオリジナル及びチャンネル低減オーディオ信号に関する関連のチャンネルレイアウト及びミキシング係数情報を取得することができない場合、例えばデータチャンネルがダウンミキシングシステム500からアップミキサにこの情報を送信するために利用できない場合、又は受信されたオーディオ信号が、このような情報が決定されていない又は未知であるレガシー又は非ダウンミックス信号である場合、次にアップミキシングシステム600のための適切な復号関数を選択するためにヒューリスティックを使用することによって満足のいくアップミックスを実行することができる。これらの「ブラインドアップミックス」ケースでは、チャンネル低減レイアウト及び目標アップミックスレイアウトのジオメトリを使用して適切な復号関数を決定することができる。
例示的に、所与の出力チャンネルの復号関数は、その出力チャンネルの位置を入力チャンネルのペア間の最も近いラインセグメントと比較することによって決定することができる。例えば、所与の出力チャンネルが入力チャンネルのペアの間に直接ある場合、出力チャンネルへのそのペアからの等しい強度の共通信号成分を抽出することが決定される。同様に、所与の出力チャンネルが入力チャンネルの1つに接近した位置する場合、復号関数はこのジオメトリを組み入れて、近いチャンネルに大きな強度を与えることができる。代わりに、オーディオ信号の記録、ミキシング、又は生成技術に関する仮定を使用して、適切な復号関数を決定することができる。例えば、高チャンネル成分は、映画からの「フライオーバ」効果中に、7.1オーディオ信号の前面及び背面チャンネルペア(すなわち、L−Lsr及びR−Rsrペア)全体に渡ってパンニングできるという仮定のような、特定のチャンネル間の関係に関する仮定を作るために復号関数は適切とすることができる。
ダウンミキシングシステム500及びアップミキシングシステム600で使用されるオーディオチャンネルは、特定のスピーカ位置に意図された実際のスピーカ供給信号に従う必要はないことを理解されたい。コーデック400及び方法の実施形態は、いわゆる「オブジェクトオーディオ」フォーマットにも適用可能であり、オーディオオブジェクトは、空間的位置、利得、等化、残響、拡散等の付随のメタデータ情報と共に別々に記憶及び送信される別個のサウンド信号に対応する。一般的に、オブジェクトオーディオフォーマットは、符号器から復号器に同時に送信する必要がある多くの同期されたオーディオオブジェクトを含む。
データ帯域幅が制限されるシナリオでは、多数の同時オーディオオブジェクトの存在が、各別個のオーディオオブジェクト波形を別々に符号化する必要性による問題を生じる可能性がある。このケースでは、コーデック400及び方法の実施形態は、符号化する必要があるオーディオオブジェクト波形の数を低減するために適用することができる。例えば、オブジェクトベースの信号にNオーディオオブジェクトが存在する場合、コーデック400及び方法の実施形態のダウンミックスプロセスを使用してオブジェクトの数をMに低減することができ、ここでNはMより大きい。次に圧縮方式がMオブジェクトを符号化することができ、オリジナルNオブジェクトが必要とするよりも小さいデータ帯域幅しか必要としない。
復号器側では、アップミックスプロセスを使用して、オリジナルNオーディオオブジェクトの近似を回復することができる。次にレンダリングシステムが付随のメタデータ情報を使用するオーディオオブジェクトを、各チャンネルが実際の再生環境におけるスピーカ位置に対応するチャンネルベースのオーディオ信号にレンダリングすることができる。例えば、共通のレンダリング方法はベクトルベースの振幅パンニング、又はVBAPである。
VI.他の実施形態及び例示的な動作環境
以下に説明するものより多い他の変種がこの文書から明らかになるであろう。例えば、実施形態に応じて、本明細書で説明する方法及びアルゴリズムのいずれの特定の動作、事象、又は関数も、異なる順序で実行することができ、追加、統合、又は互いに除外することができる(説明する動作又は事象の全てが本方法及びアルゴリズムの実施に必要ではない)。また、特定の実施形態では、順次ではなく、マルチスレッド処理、割り込み処理、又はマルチプロセッサ又はプロセッサコア又は他の並行アーキテクチャなどを介して動作又は事象を同時に実行することができる。加えて、互いに作用することができる異なる機械及びコンピュータシステムによって異なるタスク又は処理を実行することができる。
本明細書で開示した実施形態に関して説明した様々な例証の論理的ブロック、モジュール、方法、及びアルゴリズム処理及びシーケンスは、電子ハードウェア、コンピュータソフトウェア、又はこの双方の組合せとして実施することができる。このハードウェアとソフトウェアの互換性を分かり易く示すために、様々な例証の構成要素、ブロック、モジュール、及び処理動作を、その機能の点から一般的に上述している。このような機能がハードウェア又はソフトウェアとして実施されるかどうかは、全体的なシステムに課される特定の応用及び設計制約に依存する。説明した機能は、各特定の応用に関する様々な方法で実施することができるが、このような実施の決定は、本文書の範囲から逸脱するものとして解釈すべきではない。
本明細書で開示した実施形態に関して説明した様々な例証の論理的ブロック及びモジュールは、本明細書で説明した機能を実行するよう設計された、汎用プロセッサ、処理デバイス、1又は2以上の処理デバイスを有するコンピュータデバイス、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)又は他のプログラマブル論理デバイス、離散的ゲート又はトランジスタ論理、離散的ハードウェア構成要素、又はこれらのあらゆる組合せなどの機械によって実施又は実行することができる。汎用プロセッサ及び処理デバイスは、マイクロプロセッサとすることができるが、代わりに、プロセッサを、コントローラ、マイクロコントローラ、又は状態機械、同じものの組合せなどにすることができる。プロセッサは、DSP及びマイクロプロセッサの組合せ、複数のマイクロプロセッサ、DSPコアと連動した1又は2以上のマイクロプロセッサ、又はいずれかの他のこのような構成などのコンピュータデバイスの組合せとして実施することもできる。
本明細書で説明するマルチプレットベースの空間的マトリクス化コーデック400及び方法の実施形態は、多数のタイプの汎用又は特定用途コンピュータシステム環境又は構成の中で動作可能である。一般的に、コンピュータ環境は、制限されるわけではないが、例を挙げると、1又は2以上のマイクロプロセッサに基づくコンピュータシステム、メインフレームコンピュータ、デジタル信号プロセッサ、携帯式コンピュータデバイス、パーソナルオーガナイザ、デバイスコントローラ、機器内のコンピュータエンジン、移動電話、デスクトップコンピュータ、移動コンピュータ、タブレットコンピュータ、スマートフォン、及びコンピュータを組み込んだ機器を含むいずれのタイプのコンピュータシステムを含むことができる。
このようなコンピュータデバイスは、典型的には、制限されるわけではないが、パーソナルコンピュータ、サーバコンピュータ、手持ち式コンピュータデバイス、ラップトップ又は移動コンピュータ、携帯電話及びPDAなどの通信デバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル消費者電子機器、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、オーディオ又はビデオ媒体プレーヤなどを含む少なくとも一部の最小コンピュータ機能を有するデバイスに見出すことができる。一部の実施形態では、コンピュータデバイスが1又は2以上のプロセッサを含む。各プロセッサは、デジタル信号プロセッサ(DSP)、超長命令語(VLIW)、又は他のマイクロコントローラなどの専用マイクロプロセッサとすることができるか、又はマルチコアCPUにおける専用グラフィクス処理ユニット(GPU)ベースのコアを含む1又は2以上の処理コアを有する従来型の中央処理ユニット(CPU)とすることができる。
本明細書で開示した実施形態に関して説明した方法、処理、又はアルゴリズムの処理動作は、ハードウェアで直接、プロセッサによって実行されるソフトウェアモジュールで、又は2つのいずれかの組合せで実施することができる。ソフトウェアモジュールは、コンピュータデバイスによってアクセスすることができるコンピュータ可読媒体に包含することができる。コンピュータ可読媒体は、取り外し可能、取り外し不可、又はこのある組合せのいずれかとする揮発性及び不揮発性媒体の双方を含む。コンピュータ可読媒体は、コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュール、又は他のデータなどの情報を記憶するために使用される。例によって、及び制限ではなく、コンピュータ可読媒体は、コンピュータ記憶媒体及び通信媒体を含むことができる。
コンピュータ記憶媒体は、制限されるわけではないが、コンピュータ又は機械可読媒体又はブルーレイディスク(BD)のような記憶デバイス、デジタル多機能ディスク(DVD)、コンパクトディスク(CD)、フロッピーディスク、テープドライブ、ハードドライブ、光学ドライブ、固体メモリデバイス、RAMメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、フラッシュメモリ又は他のメモリ技術、磁気カセット、磁気テープ、磁気ディスク記憶装置、又は他の磁気記憶デバイス、又は所望の情報を記憶するために使用することができ且つ1又は2以上のコンピュータデバイスによってアクセスすることができるいずれかの他のデバイスを含む。
ソフトウェアモジュールは、RAMメモリ、フラッシュメモリ、ROMメモリ、EPROMメモリ、EEPROMメモリ、レジスタ、ハードディスク、取り外し可能ディスク、CD−ROM、又はいずれかの他の形態の非一時的コンピュータ可読記憶媒体、複数の媒体、又は当技術で公知の物理的コンピュータ記憶装置に常駐することができる。例示的な記憶媒体はプロセッサに結合することができ、これによってプロセッサは、記憶媒体から情報を読み取り且つ記憶媒体に情報を書き込むことができる。代替的に、記憶媒体はプロセッサと一体にすることができる。プロセッサ及び記憶媒体は、特定用途向け集積回路(ASIC)に常駐することができる。ASICはユーザ端末に常駐することができる。もしくは、プロセッサ及び記憶媒体はユーザ端末の離散的な構成要素として常駐することができる。
本文書で使用する「非一時的」という句は、「永続的又は長命」を意味する。「非一時的コンピュータ可読媒体」という句は、一時的な伝播信号という唯一の例外を除いていずれかの及び全てのコンピュータ可読媒体を含む。これは、例示的かつ非限定的にレジスタメモリ、プロセッサキャッシュ及びランダムアクセスメモリ(RAM)などの非一時的コンピュータ可読媒体を含む。
コンピュータ可読又はコンピュータ実行可能命令、データ構造、プログラムモジュールなどの情報の保存は、多種多様な通信媒体を使用して、1又は2以上の変調データ信号、電磁波(搬送波など)、又は他の転送機構又は通信プロトコルを符号化することによっても達成することができ、いずれの有線又は無線情報配信機構も含む。一般的に、これらの通信媒体は、その特徴セットの1又は2以上を有するか又は信号の情報又は命令を符号化するような方式で変更された信号を指す。例えば、通信媒体は、1又は2以上の変調データ信号を伝送する有線ネットワーク又は直接有線接続などの有線媒体、及び1又は2以上の変調データ信号又は電磁波を送信、受信、又は送受信するための音響、無線周波数(RF)、赤外線、レーザ、及び他の無線媒体などの無線媒体を含む。上記のいずれの組合せも通信媒体の範囲内に含むべきである。
本明細書で説明したマルチプレットベースの空間的マトリクス化コーデック400及び方法の様々な実施形態の一部又は全部を実施するソフトウェア、プログラム、コンピュータプログラム製品の1つ又はいずれの組合せ、又はその一部分も、コンピュータ実行可能命令又は他のデータ構造の形態のコンピュータ又は機械可読媒体又は記憶デバイス及び通信媒体のいずれの所望の組合せからも記憶、受信、送信、又は読み取ることができる。
本明細書で説明したマルチプレットベースの空間的マトリクス化コーデック400及び方法の実施形態は、コンピュータデバイスによって実行されるプログラムモジュールのようなコンピュータ実行可能命令の一般的な概念で説明することができる。一般的に、プログラムモジュールは、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含み、特定のタスクを実行するか又は特定のアブストラクトデータタイプを実施する。本明細書で説明した実施形態は、タスクが1又は2以上の遠隔処理デバイスによって実行される分散コンピュータ環境で、又は1又は2以上の通信ネットワークを介してリンクされる1又は2以上のデバイスのクラウド内で実施することもできる。分散コンピュータ環境では、プログラムモジュールを、媒体記憶デバイスを含むローカル及びリモートのコンピュータ記憶媒体の双方に位置付けることができる。また、前述の命令を、プロセッサを含むことができるか又は含まなくてもよいハードウェア論理回路として部分的に又は全体的に実施することができる。
特に、「can(可能性がある)」、「might(できた)」、「may(できる)」「e.g.(例えば)」などのような本明細書で使用した条件言語は、具体的に他に記述がない限り、又は使用される通りに文脈内で他に理解されない限り、一般的に特定の実施形態が含むことを伝えることを意図され、他の実施形態は、特定の特徴、要素、及び/又は状態を含まない。従ってこのような条件的言語は、特徴、要素及び/又は状態が1又は2以上の実施形態に所望のいずれかの方式であること、又は1又は2以上の実施形態が、これらの特徴、要素、及び/又は状態が、いずれかの特定の実施形態に含まれる又は実行されるかどうかというオーサー入力又は指示あり又はなしで決定するための論理を必ず含むことを意味するとは一般的に意図されないものとする。「comprising(含む)」、「including(包含する)」、「having(有する)」などの語は同義であり、制約のない方式で包括的に使用され、付加的な要素、特徴、動作、作用などを除外しない。「or(又は)」という語は、その包括的な意味で使用され(及びその排他的な意味では使用されない)、例えば使用された時に、要素のリストを接続し、「or(又は)」という語は、リストにある要素の1つ、一部、又は全てを意味する。
上記に詳述した説明は、様々な実施形態に適用されるものとして図示、記述、及び指示しているが、例証したデバイス又はアルゴリズムの形態及び詳細における様々な省略、置換、及び変更が、本開示の精神から逸脱することなく行い得ることが理解されるであろう。認識されるように、本明細書で説明した本発明の特定の実施形態は、本明細書に示した特徴及び利点の全てを提供しない形態内で実施することができ、一部の特徴を他とは別に使用又は実施することができる。
本主題を構造的特徴及び方法動作に固有の言語で説明しているが、添付の請求項に定義した主題は上述した特定の特徴又は動作に必ずしも制限されないことを理解されたい。逆に、上述した特定の特徴及び動作は、請求項を実施する例示的な形態として開示される。
100 聴取者
400 マルチプレットベースの空間的マトリクス化コーデック
410 マルチプレットベースの空間的マトリクス化符号器
420 マルチプレットベースの空間的マトリクス化復号器
430 コンテンツ作成環境
435 複数のマイクロフォン
440 N.xミックス
450 M.xダウンミックス
460 配信環境
465 ネットワーク
470 媒体
475 M.xストリーム
480 再構成されたN.xコンテンツ
485 再生環境

Claims (20)

  1. Nチャンネルを有する入力オーディオ信号を伝送するための1又は2以上の処理デバイスによって実行される方法であって、
    所望のビットレートに基づいてダウンミックス出力オーディオ信号のためのMチャンネルを選択する段階であって、N及びMはゼロでない正の整数でありNはMより大きい、段階と、
    前記1又は2以上の処理デバイス及びマルチプレットパン法則の組合せを使用して前記NチャンネルをMチャンネルにダウンミックス及び符号化して、Mマルチプレット符号化チャンネルを包含するパルス符号変調(PCM)ベッドミックスを取得する段階と、
    前記PCMベッドミックスを前記所望のビットレートで又はそれ以下のビットレートで伝送する段階と、
    前記複数のMマルチプレット符号化チャンネルを分離する段階と、
    前記1又は2以上の処理デバイス及びマルチプレットパン法則の組合せを使用して前記Mマルチプレット符号化チャンネルの各々をアップミックス及び復号して、前記Mマルチプレット符号化チャンネルから前記Nチャンネルを抽出して、Nチャンネルを有する結果として得られる出力オーディオ信号を取得する段階と、
    再生チャンネルレイアウトを有する再生環境で前記結果として得られる出力オーディオ信号をレンダリングする段階と、
    を含む方法。
  2. ダウンミックス及び符号化する段階は、クアドラプレットパン法則を使用して前記Nチャンネルの1つを前記Mチャンネルの4つにダウンミックス及び符号化して、クアドラプレット符号化チャンネルを取得する段階を更に含む、請求項1に記載の方法。
  3. ダウンミックス及び符号化する段階は、前記Nチャンネルの1つを前記Mチャンネルの4つにダウンミックス及び符号化してクアドラプレット符号化チャンネルを取得するようにクアドラプレットパン法則と、前記Nチャンネルの1つを前記Mチャンネルの3つにダウンミックス及び符号化してトリプレット符号化チャンネルを取得するようにトリプレットパン法則とを組み合わせて使用する段階を更に含む、請求項1に記載の方法。
  4. 前記クアドラプレット符号化チャンネルで使用される前記4つのMチャンネルの少なくとも一部は、前記トリプレット符号化チャンネルで使用される前記3つのMチャンネルと同じである、請求項3に記載の方法。
  5. コンテンツ作成環境チャンネルレイアウトを有するコンテンツ作成環境でオーディオコンテンツをミキシングする段階と、
    前記コンテンツ作成環境チャンネルレイアウト及びMマルチプレット符号化チャンネルを包含する前記PCMベッドミックスをビットストリームに多重化して前記ビットストリームを前記所望のビットレート又はそれ以下のビットレートで伝送する段階と、
    を更に含む、請求項1に記載の方法。
  6. 前記入力オーディオ信号の前記Nチャンネルのコンテンツ作成環境チャンネルレイアウトをカテゴライズして、前記コンテンツ作成環境チャンネルレイアウトのカテゴリを取得する段階と、
    抽出されたマルチプレット符号化チャンネルを前記カテゴリ及びルックアップテーブルに基づいて前記再生チャンネルレイアウトにマッピングする段階と、
    を更に含む、請求項1に記載の方法。
  7. 前記コンテンツ作成環境チャンネルレイアウトを前記以下の5つのカテゴリ、(a)高位チャンネルなしのレイアウト、(b)前面にだけ高位チャンネルのあるレイアウト、(c)取り囲む高位チャンネルを有するレイアウト、(d)取り囲む高位チャンネル及びオーバヘッドチャンネルを有するレイアウト、(e)取り囲む高位チャンネル、オーバヘッドチャンネル、及び聴取者の耳の面より下方のチャンネルを有するレイアウトの1又は2以上にカテゴライズする段階を更に含む、請求項6に記載の方法。
  8. を使用してMを選択する段階を更に含み、
    Figure 0006612753
    ここで、MinBR_Mtrxは、マトリックスチャンネル符号化に必要な1チャンネル当たりの最小ビットレートであり、BR_Totは合計の利用可能なビットレートであり、MinBR_Discrは、ディスクリートチャンネル符号化に必要な1チャンネル当たりの最小ビットレートである、請求項1に記載の方法。
  9. 入力ラウドネス対出力ラウドネスの比によって前記Mチャンネルの各々をスケーリングしてラウドネス正規化を達成する段階を更に含む、請求項1に記載の方法。
  10. 前記ラウドネス正規化は、パーチャンネルラウドネス正規化であり、
    Figure 0006612753
    として所与の出力チャンネルを定義する段階と、
    Figure 0006612753
    として前記パーチャンネルラウドネス正規化を定義する段階と、
    を更に含み、
    ここで、
    Figure 0006612753
    は、
    Figure 0006612753
    として与えられるチャンネル依存利得であり、
    L(x)はラウドネス推定関数である、請求項9に記載の方法。
  11. 前記ラウドネス正規化は、合計のラウドネス正規化であり、
    Figure 0006612753
    として前記合計のラウドネス正規化を定義する段階を更に含み、
    ここで、g[n]は、
    Figure 0006612753
    として与えられるチャンネル独立利得である、請求項10に記載の方法。
  12. Nチャンネルを有するオーディオ信号をマトリクスダウンミックスするためのコンピュータデバイスによって実行される方法であって、
    サバイビングチャンネルが合計でMチャンネルになるように、前記Nチャンネルのどれが前記サバイビングチャンネルであるか及びどれが非サバイビングチャンネルであるか選択する段階であって、N及びMはゼロでない正の整数でありNはMより大きい、段階と、 前記コンピュータデバイス及びマルチプレットパン法則を使用して、前記非サバイビングチャンネルの各々を前記サバイビングチャンネルのマルチプレットにダウンミックスしてパンニング重みを取得する段階であって、ダウンミックスする段階は、
    一部の非サバイビングチャンネルを、ダブレットパン法則を使用してサバイビングチャンネルダブレットにダウンミックスする段階と、
    一部の非サバイビングチャンネルを、トリプレットパン法則を使用してサバイビングチャンネルトリプレットにダウンミックスする段階と、
    一部の非サバイビングチャンネルを、クアドラプレットパン法則を使用してサバイビングチャンネルクアドラプレットにダウンミックスする段階と
    を含むことを特徴とする段階と、
    前記サバイビングチャンネルダブレット、トリプレット、及びクアドラプレットを、Mチャンネルを有するビットストリームに符号化及び多重化して、再生環境でレンダリングするためのビットストリームを送信する段階と、
    を含む方法。
  13. 前記クアドラプレットパン重みは、(a)再生環境の基準点からの信号ソース、S、の距離、r、及び(b)前記サバイビングチャンネルクアドラプレットにおける第1チャンネルと第2チャンネルの間の前記信号ソース、S、の角度、θ、に基づいて生成される、請求項12に記載の方法。

  14. Figure 0006612753

    Figure 0006612753

    Figure 0006612753

    Figure 0006612753
    を使用して、前記サバイビングチャンネルクアドラプレット、C1、C2、C3、及びC4のパン重みを生成する段階を更に含む、請求項13に記載の方法。
  15. Mチャンネルを有するオーディオ信号をマトリックスアップミックスするためのコンピュータデバイスによって実行される方法であって、
    前記Mチャンネルを、ダブレットチャンネル、トリプレットチャンネル、及びクアドラプレットチャンネルに分離する段階と、
    前記コンピュータデバイス及びクアドラプレットパン法則を使用して前記クアドラプレットチャンネルから第1チャンネルを抽出する段階と、
    前記第1チャンネルが抽出された後、トリプレットパン法則を使用して前記トリプレットチャンネルから第2チャンネルを抽出する段階と、
    前記第2チャンネルが抽出された後、ダブレットパン法則を使用して前記ダブレットチャンネルから第3チャンネルを抽出する段階と、
    前記第1チャンネル、第2チャンネル、第3チャンネル、及びMチャンネルを互いに多重化して、Nチャンネルを有する出力信号を取得する段階と、
    前記出力信号を再生環境でレンダリングする段階と、
    を含む、方法。
  16. 前記第1チャンネルを抽出する段階は、係数によって各々が加重された前記クアドラプレットチャンネルの4つのチャンネルの和として前記第1チャンネルを取得する段階を更に含む、請求項15に記載の方法。
  17. 式、
    Figure 0006612753
    を使用して、前記第1チャンネル、C5を取得する段階を更に含み、
    前記a、b、c、及びd係数は、次式
    Figure 0006612753

    Figure 0006612753

    Figure 0006612753

    Figure 0006612753
    によって与えられ、
    ここで、
    Figure 0006612753
    はC1及びC2の間の前記C5の推定角度であり、
    Figure 0006612753
    は、再生環境の基点からのC5の距離である、請求項16に記載の方法。
  18. 前記再生環境における聴取者の周りのイメージ単位球面を定義する段階であって、前記聴取者は前記単位球面の中心にいる、段階と、
    半径距離、r、方位角、q、及び極角度、jを含む前記単位球面上のイメージ球座標系を定義する段階と、
    前記第1チャンネルを、前記単位球面の内側の位置にリパンニングする段階と、
    を更に含む、請求項15に記載の方法。
  19. 前記単位球面レンダリング技術に前記第1チャンネルを位置付ける段階と、
    前記半径距離、rに沿って前記第1チャンネルを引き込むために、前記再生環境の全スピーカを使用して前記単位球面の中心に位置付けられたソースで前記第1チャンネルをクロスフェードする段階と、
    を更に含む、請求項18に記載の方法。
  20. 前記オーディオ信号で符号化されたオーディオコンテンツをミキシングするよう使用された前記スピーカレイアウトを示す前記オーディオ信号からのコンテンツ作成環境スピーカレイアウトを抽出する段階を更に含む、請求項15に記載の方法。
JP2016534697A 2013-11-27 2014-11-26 高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング Active JP6612753B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201361909841P 2013-11-27 2013-11-27
US61/909,841 2013-11-27
US14/447,516 US9338573B2 (en) 2013-07-30 2014-07-30 Matrix decoder with constant-power pairwise panning
US14/447,516 2014-07-30
PCT/US2014/067763 WO2015081293A1 (en) 2013-11-27 2014-11-26 Multiplet-based matrix mixing for high-channel count multichannel audio
US14/555,324 US9552819B2 (en) 2013-11-27 2014-11-26 Multiplet-based matrix mixing for high-channel count multichannel audio
US14/555,324 2014-11-26

Publications (2)

Publication Number Publication Date
JP2017501438A JP2017501438A (ja) 2017-01-12
JP6612753B2 true JP6612753B2 (ja) 2019-11-27

Family

ID=56797954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016534697A Active JP6612753B2 (ja) 2013-11-27 2014-11-26 高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング

Country Status (8)

Country Link
US (1) US9552819B2 (ja)
EP (2) EP3074969B1 (ja)
JP (1) JP6612753B2 (ja)
KR (1) KR102294767B1 (ja)
CN (1) CN105981411B (ja)
ES (2) ES2772851T3 (ja)
PL (2) PL3444815T3 (ja)
WO (1) WO2015081293A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016018787A1 (en) * 2014-07-31 2016-02-04 Dolby Laboratories Licensing Corporation Audio processing systems and methods
CN106303897A (zh) * 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
US9590580B1 (en) * 2015-09-13 2017-03-07 Guoguang Electric Company Limited Loudness-based audio-signal compensation
ES2797224T3 (es) 2015-11-20 2020-12-01 Dolby Int Ab Renderización mejorada de contenido de audio inmersivo
US9886234B2 (en) 2016-01-28 2018-02-06 Sonos, Inc. Systems and methods of distributing audio to one or more playback devices
JP6703884B2 (ja) * 2016-04-13 2020-06-03 日本放送協会 チャンネル数変換装置、放送受信機およびプログラム
US10375498B2 (en) * 2016-11-16 2019-08-06 Dts, Inc. Graphical user interface for calibrating a surround sound system
CN106774930A (zh) * 2016-12-30 2017-05-31 中兴通讯股份有限公司 一种数据处理方法、装置及采集设备
US10366695B2 (en) * 2017-01-19 2019-07-30 Qualcomm Incorporated Inter-channel phase difference parameter modification
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
EP3625974B1 (en) 2017-05-15 2020-12-23 Dolby Laboratories Licensing Corporation Methods, systems and apparatus for conversion of spatial audio format(s) to speaker signals
CN107506409B (zh) * 2017-08-09 2021-01-08 浪潮金融信息技术有限公司 一种多音频数据的处理方法
KR102468799B1 (ko) 2017-08-11 2022-11-18 삼성전자 주식회사 전자장치, 그 제어방법 및 그 컴퓨터프로그램제품
EP3681177A4 (en) * 2017-09-06 2021-03-17 Yamaha Corporation AUDIO SYSTEM, AUDIO DEVICE, AND METHOD OF CONTROLLING AN AUDIO DEVICE
CN111133411B (zh) * 2017-09-29 2023-07-14 苹果公司 空间音频上混
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10523171B2 (en) 2018-02-06 2019-12-31 Sony Interactive Entertainment Inc. Method for dynamic sound equalization
US10652686B2 (en) 2018-02-06 2020-05-12 Sony Interactive Entertainment Inc. Method of improving localization of surround sound
US11330370B2 (en) 2018-02-15 2022-05-10 Dolby Laboratories Licensing Corporation Loudness control methods and devices
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
EP3550561A1 (en) 2018-04-06 2019-10-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downmixer, audio encoder, method and computer program applying a phase value to a magnitude value
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
JP2021530723A (ja) * 2018-07-02 2021-11-11 ドルビー ラボラトリーズ ライセンシング コーポレイション 没入的オーディオ信号を含むビットストリームを生成またはデコードするための方法および装置
US10887717B2 (en) 2018-07-12 2021-01-05 Sony Interactive Entertainment Inc. Method for acoustically rendering the size of sound a source
TWI688280B (zh) * 2018-09-06 2020-03-11 宏碁股份有限公司 正交基底修正之音效控制方法及音效輸出裝置
US11304021B2 (en) 2018-11-29 2022-04-12 Sony Interactive Entertainment Inc. Deferred audio rendering
US11348573B2 (en) * 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
CN112216310B (zh) * 2019-07-09 2021-10-26 海信视像科技股份有限公司 音频处理方法与装置、以及多声道系统
US11327802B2 (en) * 2019-07-31 2022-05-10 Microsoft Technology Licensing, Llc System and method for exporting logical object metadata
GB2586214A (en) * 2019-07-31 2021-02-17 Nokia Technologies Oy Quantization of spatial audio direction parameters
GB2590650A (en) * 2019-12-23 2021-07-07 Nokia Technologies Oy The merging of spatial audio parameters
WO2022124620A1 (en) * 2020-12-08 2022-06-16 Samsung Electronics Co., Ltd. Method and system to render n-channel audio on m number of output speakers based on preserving audio-intensities of n-channel audio in real-time
CN113438595B (zh) * 2021-06-24 2022-03-18 深圳市叡扬声学设计研发有限公司 音频处理系统
CN113838470B (zh) * 2021-09-15 2023-10-03 Oppo广东移动通信有限公司 音频处理方法、装置、电子设备及计算机可读介质及产品
WO2023210978A1 (ko) * 2022-04-28 2023-11-02 삼성전자 주식회사 다채널 오디오 신호 처리 장치 및 방법

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5291557A (en) 1992-10-13 1994-03-01 Dolby Laboratories Licensing Corporation Adaptive rematrixing of matrixed audio signals
US5319713A (en) 1992-11-12 1994-06-07 Rocktron Corporation Multi dimensional sound circuit
US5638452A (en) 1995-04-21 1997-06-10 Rocktron Corporation Expandable multi-dimensional sound circuit
US5771295A (en) 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
US5870480A (en) 1996-07-19 1999-02-09 Lexicon Multichannel active matrix encoder and decoder with maximum lateral separation
US6665407B1 (en) 1998-09-28 2003-12-16 Creative Technology Ltd. Three channel panning system
US6507658B1 (en) 1999-01-27 2003-01-14 Kind Of Loud Technologies, Llc Surround sound panner
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
ES2280736T3 (es) 2002-04-22 2007-09-16 Koninklijke Philips Electronics N.V. Sintetizacion de señal.
US7039204B2 (en) * 2002-06-24 2006-05-02 Agere Systems Inc. Equalization for audio mixing
US20050052457A1 (en) 2003-02-27 2005-03-10 Neil Muncy Apparatus for generating and displaying images for determining the quality of audio reproduction
US7283684B1 (en) 2003-05-20 2007-10-16 Sandia Corporation Spectral compression algorithms for the analysis of very large multivariate images
SE0400997D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Efficient coding of multi-channel audio
EP1749296B1 (en) * 2004-05-28 2010-07-14 Nokia Corporation Multichannel audio extension
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
US7283634B2 (en) 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
JP5106115B2 (ja) * 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
US7787631B2 (en) * 2004-11-30 2010-08-31 Agere Systems Inc. Parametric coding of spatial audio with cues based on transmitted channels
JP4610650B2 (ja) * 2005-03-30 2011-01-12 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 多チャンネルオーディオ符号化
US8345899B2 (en) 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
EP2575130A1 (en) * 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
US8385556B1 (en) * 2007-08-17 2013-02-26 Dts, Inc. Parametric stereo conversion system and method
ES2435792T3 (es) * 2008-12-15 2013-12-23 Orange Codificación perfeccionada de señales digitales de audio multicanal
WO2010097748A1 (en) 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Parametric stereo encoding and decoding
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
KR101710113B1 (ko) 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
EP2539889B1 (en) * 2010-02-24 2016-08-24 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus for generating an enhanced downmix signal, method for generating an enhanced downmix signal and computer program
CN101964202B (zh) * 2010-09-09 2012-03-28 南京中兴特种软件有限责任公司 一种混合多种编码格式的音频数据文件播放处理方法
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
CN102158881B (zh) * 2011-04-28 2013-07-31 武汉虹信通信技术有限责任公司 一种全面评估3g视频电话质量的方法和装置
TWI543642B (zh) 2011-07-01 2016-07-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
TWI505262B (zh) * 2012-05-15 2015-10-21 Dolby Int Ab 具多重子流之多通道音頻信號的有效編碼與解碼
WO2014068817A1 (ja) * 2012-10-31 2014-05-08 パナソニック株式会社 オーディオ信号符号化装置及びオーディオ信号復号装置
CN102984642A (zh) * 2012-12-18 2013-03-20 武汉大学 一种五个扬声器的三维平移方法
EP2979467B1 (en) 2013-03-28 2019-12-18 Dolby Laboratories Licensing Corporation Rendering audio using speakers organized as a mesh of arbitrary n-gons
US9521501B2 (en) 2013-09-12 2016-12-13 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content

Also Published As

Publication number Publication date
CN105981411B (zh) 2018-11-30
EP3444815B1 (en) 2020-01-08
EP3444815A1 (en) 2019-02-20
KR20160090869A (ko) 2016-08-01
PL3444815T3 (pl) 2020-11-30
KR102294767B1 (ko) 2021-08-27
ES2772851T3 (es) 2020-07-08
WO2015081293A1 (en) 2015-06-04
EP3074969B1 (en) 2018-11-21
ES2710774T3 (es) 2019-04-26
EP3074969A4 (en) 2017-08-30
PL3074969T3 (pl) 2019-05-31
US9552819B2 (en) 2017-01-24
US20150170657A1 (en) 2015-06-18
EP3074969A1 (en) 2016-10-05
JP2017501438A (ja) 2017-01-12
CN105981411A (zh) 2016-09-28

Similar Documents

Publication Publication Date Title
JP6612753B2 (ja) 高チャンネル数マルチチャンネルオーディオのためのマルチプレットベースのマトリックスミキシング
US10820134B2 (en) Near-field binaural rendering
US20200335115A1 (en) Audio encoding and decoding
CN112262585B (zh) 环境立体声深度提取
JP4944902B2 (ja) バイノーラルオーディオ信号の復号制御
JP6674981B2 (ja) 音響信号のレンダリング方法、装置及び記録媒体
KR102374897B1 (ko) 3차원 오디오 사운드트랙의 인코딩 및 재현
GB2549532A (en) Merging audio signals with spatial metadata
KR20170109023A (ko) 몰입형 오디오를 캡처하고, 인코딩하고, 분산하고, 디코딩하기 위한 시스템 및 방법
BR112016016008B1 (pt) Método para renderizar um sinal de áudio
JP2015509212A (ja) 空間オーディオ・レンダリング及び符号化
JP2016529801A (ja) 一定出力ペアワイズパニングによるマトリクスデコーダ
WO2020080099A1 (ja) 信号処理装置および方法、並びにプログラム
KR20190060464A (ko) 오디오 신호 처리 방법 및 장치
MX2008010631A (es) Codificacion y decodificacion de audio

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190110

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190610

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190912

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191031

R150 Certificate of patent or registration of utility model

Ref document number: 6612753

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250