JP6231093B2 - オーディオ信号の符号化及び復号 - Google Patents

オーディオ信号の符号化及び復号 Download PDF

Info

Publication number
JP6231093B2
JP6231093B2 JP2015521121A JP2015521121A JP6231093B2 JP 6231093 B2 JP6231093 B2 JP 6231093B2 JP 2015521121 A JP2015521121 A JP 2015521121A JP 2015521121 A JP2015521121 A JP 2015521121A JP 6231093 B2 JP6231093 B2 JP 6231093B2
Authority
JP
Japan
Prior art keywords
downmix
time frequency
encoded
tile
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015521121A
Other languages
English (en)
Other versions
JP2015527609A5 (ja
JP2015527609A (ja
Inventor
アーノルドゥス ウェルナー ヨハネス オーメン
アーノルドゥス ウェルナー ヨハネス オーメン
ジェロエン ジェラルドゥス ヘンリクス コッペンス
ジェロエン ジェラルドゥス ヘンリクス コッペンス
エリック ゴスイヌス ペトルス スハイエルス
エリック ゴスイヌス ペトルス スハイエルス
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2015527609A publication Critical patent/JP2015527609A/ja
Publication of JP2015527609A5 publication Critical patent/JP2015527609A5/ja
Application granted granted Critical
Publication of JP6231093B2 publication Critical patent/JP6231093B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding

Description

本発明は、複数のオーディオ信号の符号化及び復号に係り、専らではないが特には複数のオーディオオブジェクトの符号化及び復号に関する。
デジタル信号表現及び通信がアナログ表現及び通信に次第に置き換わっているので、種々のソース信号のデジタル符号化は過去数十年にわたって益々重要になってきている。例えば、音声及び音楽等のオーディオコンテンツは、益々、デジタルコンテンツ符号化に基づくものとなっている。
オーディオ符号化フォーマットは、益々、能力があり、多様で且つ柔軟なオーディオサービスを提供するために開発されており、特に、空間的オーディオサービスをサポートするオーディオ符号化フォーマットが開発されている。
DTS及びドルビデジタル等の良く知られた空間オーディオ符号化技術は、空間イメージを聴者の周囲の固定位置に配置された複数のチャンネルとして表す符号化された多チャンネルオーディオ信号を生成する。当該多チャンネル信号に対応する設定とは異なるスピーカ設定に対しては、空間イメージは次善(準最適)のものとなる。また、これらのチャンネルに基づくオーディオ符号化システムは、典型的に、異なる数のスピーカに対処することができない。
斯様な従来の方法における方法が、図1に図示されている(該図で、文字cはオーディオチャンネルを示す)。入力チャンネル(例えば、5.1チャンネル)がエンコーダに供給され、該エンコーダはチャンネル間関係を利用するためにマトリクス化を実行し、次いで該マトリクス化された信号をビットストリームに符号化する。更に、マトリクス化情報をデコーダに対して当該ビットストリームの一部として伝達することもできる。デコーダ側では、この処理が逆転される。
MPEGサラウンドは、既存のモノ又はステレオ型コーダが多チャンネルオーディオアプリケーションに拡張されることを可能にする多チャンネルオーディオ符号化ツールを提供する。図2は、MPEGサラウンドシステムの構成要素の一例を示す。オリジナルの多チャンネル入力の解析により得られる空間パラメータを用いて、MPEGサラウンドデコーダは、多チャンネル出力信号を得るために、モノ又はステレオ信号の制御されたアップミックスにより空間イメージを再生することができる。
多チャンネル入力信号の空間イメージはパラメータ化されるので、MPEGサラウンドは、多チャンネルスピーカ設備を使用しないレンダリング装置により同じ多チャンネルビットストリームの復号が可能である。一例はヘッドフォン上での仮想サラウンド再生であり、これはMPEGサラウンド両耳復号処理と称される。このモードでは、通常のヘッドフォンを使用しながら、現実的なサラウンド体験を提供することができる。他の例は、より高次の多チャンネル出力(例えば、7.1チャンネル)の、より低次の設備(例えば、5.1チャンネル)への変換である。
MPEGサラウンドの方法(及び両耳キュー符号化又はパラメータステレオ等の同様のパラメータ的多チャンネル符号化方法)が図3に図示されている。離散又は波形符号化方法とは対照的に、入力チャンネルはダウンミックスされる(例えば、ステレオ混合に)。このダウンミックスは、次いで、AAC型コーデック等の従来の符号化技術を用いて符号化される。該符号化されたダウンミックスに加えて、空間イメージの表現もビットストリームで伝送される。デコーダは、該処理の逆を行う。
もっと柔軟性のあるオーディオ表現を提供するために、MPEGは“空間オーディオオブジェクト符号化”(MPEG-D SAOC)として知られているフォーマットを標準化した。DTS、ドルビデジタル及びMPEGサラウンド等の多チャンネルオーディオ符号化システムとは対照的に、SAOCは、オーディオチャンネルというよりは個々のオーディオオブジェクトの効率的な符号化を提供する。MPEGサラウンドでは、各スピーカチャンネルはサウンドオブジェクトの異なる混合から発すると考えることができるが、SAOCは、図4に示されるように、個々のサウンドオブジェクトをデコーダ側で対話的操作のために利用可能にする。SAOCにおいては、複数のサウンドオブジェクトがモノ又はステレオダウンミックスにパラメータ的データと一緒に符号化され、これらサウンドオブジェクトがレンダリング側において抽出されることを可能にし、これにより、個々のサウンドオブジェクトが例えばエンドユーザによる操作のために利用可能となるようにする。
MPEGサラウンドと同様に、SAOCも確かにモノ又はステレオダウンミックスを作成する。更に、オブジェクトパラメータが計算され、含められる。デコーダ側では、ユーザは、これらパラメータを操作して、位置、レベル、等化(イコライゼーション)等の個々のオブジェクトの種々のフィーチャを制御し、又は残響(リバーブ)等の効果を付与することさえできる。図5は、ユーザがSAOCビットストリームに含まれる個々のオブジェクトを制御することを可能にする対話インターフェースを図示している。レンダリングマトリクスにより、個々のサウンドオブジェクトはスピーカチャンネル上にマッピングされる。
図6は、SAOC(又は類似のオブジェクト符号化システム)のパラメータ的方法の高いレベルでのブロック図を示す。オブジェクト信号(o)はダウンミックスされ、結果としてのダウンミックスは符号化される。更に、パラメータ的オブジェクトデータがビットストリームで伝送され、個々のオブジェクトをダウンミックスに関係づける。デコーダ側では、オブジェクトが復号され、スピーカ構成に従ってチャンネルにレンダリングされる。典型的に、このような方法においては、オブジェクトの復号及びスピーカレンダリングを組み合わせることが一層効率的である。
近年、益々多くの再生フォーマットが主流の消費者に対して利用可能になるにつれて、空間サウンドのレンダリングのためのレンダリング構成の変化及び柔軟性が著しく増加した。このことは、オーディオの柔軟性のある表現を必要とする。MPEGサラウンドコーデックの導入に対して重要なステップがとられた。それにも拘わらず、オーディオは、依然として、特定のスピーカ設備に対して生成され伝送されている。異なる設備に対する及び非標準の(即ち、柔軟性のある又はユーザ定義の)スピーカ設備に対する再生は定められていない。
この問題は、再生チャンネルの代わりにオーディオオブジェクトを伝送するSAOCによって部分的に解決することができる。このSAOCは、当該空間がスピーカにより適切にカバーされるならば、空間内の任意の位置にオーディオオブジェクトを配置することを可能にする。このようにして、伝送されるオーディオと再生設備との間には関係が存在せず、従って任意のスピーカ設備を使用することができる。これは、スピーカが居間の配置により殆ど意図した箇所には位置することがない、例えば典型的な居間における家庭用映画設備にとり有益である。SAOCにおいては、音場の何処にオブジェクトが配置されるかはデコーダ側において決定される。このことは、芸術的観点からは、しばしば、望ましいことではなく、従って、SAOC規格は、デフォルトのレンダリングマトリクスをビットストリームで伝送する方法を提供し、デコーダの責任を取り除くようにしている。これらのレンダリングマトリクスも、特定のスピーカ構成に縛られる。
SAOCにおいては、ダウンミックスの結果として、オブジェクトの抽出は特定の限界内のみで動作する。例えばカラオケの使用の場合においては、典型的に、再生のために他のオブジェクトから十分に高い分離度で単一のオブジェクトを抽出することは該他のオブジェクトなしでは不可能である。更に、パラメータ化のために、SAOC技術はビットレートと良く対応しない。特に、ダウンミックスすると共にオーディオオブジェクトを抽出する(アップミックスする)方法は、結果として、非常に高いビットレートにおいてさえも完全に補償されることのない固有の情報損失を生じる。このように、ビットレートが増加されても、結果としてのオーディオ品質は典型的に劣化され、符号化/復号処理が完全に透明になることを妨げる。
これに対処するために、SAOCは限られた群のオブジェクト(4つまで、設計上の選択である)に適用することが可能な所謂残差符号化をサポートする。残差符号化は、基本的に、エラー信号を限られた数のオブジェクトが高度のオブジェクト分離度で抽出され得るように符号化する追加のビットストリーム成分を伝送する。残差波形成分は、品質を徐々に増加させることができるように特定の周波数まで供給することができる。このように、結果としてのオブジェクトは、パラメータ的成分と波形成分との組み合わせである。
3Dオーディオ用のオーディオフォーマットのための他の規格は、SRS(サウンド再生システム)研究所により起こされた産業同盟である3Dオーディオ連盟(3DAA)により開発されている。3DAAは、“現在のスピーカ供給枠組みから柔軟性のあるオブジェクトに基づく方法への移行を促進する”、3Dオーディオの伝送のための規格を開発することに専念している。3DAAにおいては、個々のサウンドオブジェクトを伴う旧来の多チャンネルダウンミックスの伝送を可能にするビットストリームフォーマットが定義されねばならない。加えて、オブジェクト配置データが含まれる。3DAAオーディオストリームを発生する原理が、図7に図示されている。
3DAA方法では、サウンドオブジェクトが拡張ストリームにおいて別個に入力され、これらは多チャンネルダウンミックスから抽出することができる。結果としての多チャンネルダウンミックスは、個別に利用可能なオブジェクトと一緒にレンダリングされる。
3DAAにおいて、多チャンネル基準混合は、選択されたオーディオオブジェクトと共に伝送することができる。3DAAは各オブジェクトに関して3D位置データを伝送する。この場合、オブジェクトは3D位置データを用いて抽出することができる。他の例として、オブジェクトと基準混合との間の関係を記述した逆混合マトリクスを伝送することもできる。図6の図示例は、3DAAの方法に対応すると考えることもできる。
SAOC及び3DAA方法の両者は、デコーダ側で個々に操作することが可能な個々のオーディオオブジェクトの伝送を組み込んでいる。該2つの方法の間の違いは、SAOCはオーディオオブジェクトに関する情報をダウンミックスに対してオブジェクトを特徴付けるパラメータを供給することにより(即ち、オーディオオブジェクトがデコーダ側においてダウンミックスから発生されるように)供給するが、3DAAはオーディオオブジェクトを完全且つ別個のオーディオオブジェクト(即ち、デコーダ側においてダウンミックスとは独立に発生することができるもの)として供給することである。
MPEGにおいては、3Dオーディオに対する新たな作業項目が作業中である。これは、MPEG−3Dオーディオと称され、HEVCビデオ符号化及びDASHシステムと一緒にMPEG−Hスイートの一部となることが意図されている。図8は、意図されるMPEG 3Dオーディオシステムの高レベルブロック図を示す。
従来のチャンネルに基づくフォーマットに加えて、該方法はオブジェクトに基づく及び音場(シーン)に基づくフォーマットもサポートすることを意図している。該システムの重要な側面は、ビットレートを増加させる場合、品質も透明性に対して増加すべきであること、即ち、データレートが増加するにつれて、符号化及び復号により生じる劣化は目立たなくなるまで減少し続けるべきであることである。しかしながら、斯様な要件は、過去において相当に重要に使用されていたパラメータ符号化技術(即ち、HE-AAC v2、MPEGサラウンド、SAOC、USAC)にとっては面倒になりがちである。特に、個々の信号に関する情報損失の補償は、非常に高いビットレートにおいてさえも、パラメータデータにより完全には補償されない傾向がある。確かなことに、品質はパラメータモデルの固有の品質により制限される。
MPEG−3Dオーディオは、更に、再生設備とは独立した結果的ビットストリームを提供することを追求している。想定される再生の可能性は、柔軟性のある22.2チャンネルまでのスピーカ設備、並びにヘッドフォン及び近接したスピーカ上での仮想サウンドを含む。
他の方法は、DirAC:指向性オーディオ符号化(DirAC)として知られているもので、該符号化は、ダウンミックスが合成側における空間イメージの再生を可能にするパラメータと一緒に送信されるという意味で、MPEGサラウンド及びSAOCに類似している。DirACにおいて、これらパラメータは方向及び拡散分析(アジマス、仰角及び拡散Ψ(t/f))の結果を表す。合成の間において、ダウンミックスは2つのストリームに、即ち非拡散音に対応する一方(重み√(1−Ψ))と、拡散音に対応する他方(重み√Ψ)とに、動的に分割される。非拡散音ストリームは点状音源を狙う技術により再生され、拡散音ストリームは目立った方向のない音の知覚を狙う技術により再生される。DirACの方法が、図9に示されている。
DirACは、図10の方法に従う、記録に基づく符号化/復号システムと考えることができる。該システムにおいて、マイクロフォン信号(m)は符号化される。これは、例えば、パラメータ方法と同様にダウンミックス及び空間情報の符号化を用いて実行することができる。デコーダにおいて、上記マイクロフォン信号は再生することができ、供給されるスピーカ構成に基づいて、これらマイクロフォン信号はチャンネルにレンダリングすることができる。効率の理由により、復号及びレンダリング処理は単一のステップに統合することができることに注意されたい。
文献Proc.MPCA-2002, Louvain, Belgium, November 15, 2002におけるM. Kelly 他による論文“The continuity illusion revisited: coding of multiple concurrent sound sources”には、パラメータ符号化及びダウンミックスを使用せず、代わりに個々のオーディオオブジェクトを離散/波形符号化を個別に用いて符号化することが推奨されている。この方法が図11に示されている。図示されたように、全てのオブジェクトは同時に符号化され、デコーダに伝送される。デコーダ側では、上記オブジェクトは復号され、スピーカ構成に従ってチャンネルにレンダリングされる。該方法は、改善されたオーディオ品質を提供することができ、特に透明性に対するスケーリングの能力を有する。しかしながら、該システムは高い符号化効率をもたらすことはなく、低いオーディオ品質のためでさえも相対的に高いデータレートを必要とする。
このように、効率的なオーディオ符号化を提供することを追求する多数の異なる方法が存在する。
オーディオコンテンツは、今日では、増加しつつある多数の異なる再生装置間で共用される。例えば、オーディオは、ヘッドフォン、小型スピーカ上で、ドッキングステーションを介して、及び/又は種々の多チャンネル装置を介して体験することができる。多チャンネル設備の場合、従来は公称のスピーカ装置と見なされていたITU推奨の5.1スピーカ装置でさえ、しばしば、オーディオコンテンツをレンダリングする際に殆ど利用されない。例えば、当該設備に従う5つの空間スピーカの正確な配置は、典型的な居間において殆ど見られない。スピーカは、推奨される角度及び距離の代わりに、都合良い位置に配置される。更に、4.1、6.1、7.1又は22.2構成さえもの代替装置を使用することもできる。これらの再生方式の全てにおいて最良の体験を提供するために、オブジェクト符号化又は音場(シーン)符号化に向かう傾向が見られる。このような方法は、各オーディオチャンネルが公称位置に関連される従来のオーディオチャンネル方法を置換するために益々導入されている(現在のところは主に映画用途のためであるが、家庭での使用も一層普通になると予想される)。
再生チャンネル(即ち、スピーカ)の数及び位置が未知である場合、音響シーンは当該シーンにおける個々のオーディオオブジェクトにより最も良く表すことができる。この場合、デコーダ側において、オブジェクトは空間的知覚(空間認識)が意図する知覚に最も近くなるように再生チャンネル上で各々別個にレンダリングすることができる。
オブジェクトを別個のオーディオ信号/ストリームとして符号化することは、相対的に高いビットレートを必要とする。利用可能な解決策(即ち、SAOC、DirAC、3DAA等)は、ダウンミックスされたオブジェクト信号、及びこのダウンミックスからオブジェクト信号を再生するための手段を伝送する。この結果、ビットレートは大幅に減少する。
SAOCは、オブジェクト抽出パラメータを伴う、ダウンミックスにおける効率的なオブジェクト符号化によりスピーカに依存しないオーディオを供給し、3DAAは、シーンがオブジェクト位置に関して記述されたフォーマットを定義する。DirACは、Bフォーマットダウンミックスを用いることによりオーディオオブジェクトの効率的な符号化を試みる。
このように、これらのシステムはオーディオコンテンツの効率的且つ柔軟性のある符号化及びレンダリングに適している。大幅なデータレートの低減を達成することができ、従って相対的に低いデータレートの構成さえも妥当な又は良好なオーディオ品質をもたらすことができる。しかしながら、このようなシステムの問題は、オーディオ品質がパラメータ符号化及びダウンミックスにより本来的に制限されるということである。利用可能なデータレートが増加されたとしても、符号化/復号処理の影響を検出することができないような完全な透明性を達成することは不可能である。特に、オブジェクトは、高いデータレートにおいてさえも他のオブジェクトからのクロストーク無しで再生することはできない。この結果、オブジェクトが空間的再生において分離される(即ち、異なる位置でレンダリングされる)場合の空間的知覚及びオーディオ品質の低下が生じる。他の欠点は、空間的知覚を生じさせるための重要な特性であるオブジェクト間コヒーレンスが殆ど適切に再生されないことである。該コヒーレンスを再生する試みは、逆相関器の使用に基づくものであり、準最適なオーディオ品質となる傾向がある。
オーディオオブジェクトを個別に波形符号化する代替方法は、高いデータレートにおいて高品質を可能にすることができ、特に完全に透明な符号化/復号を含む完全なスケーラビリティを提供することができる。しかしながら、このような方法は、効率的な符号化をもたらさない低いデータレートには適していない。
このように、パラメータ的ダウンミックスに基づく符号化は低データレート及び低データレートに向かうスケーラビリティには適している一方、波形オブジェクト符号化は高データレート及び高データレートに向かうスケーラビリティに適している。
スケーラビリティは将来のオーディオシステムにとり非常に重要な評価基準であり、従って、非常に低いデータレート及び非常に高いデータレートの両方まで延びるような、特に完全な透明性に対しての効率的なスケーラビリティを有することが極めて望ましい。更に、このようなスケーラビリティは、スケーラビリティの小さな細分性を有することが望ましい。
従って、改善されたオーディオ符号化/復号方法が有利であり、特に柔軟性の増加、複雑さの低減、スケーラビリティの改善及び/又は性能の改善を可能にするシステムが有利であろう。
従って、本発明は好ましくは上述した欠点の1以上を単独又は何らかの組み合わせで軽減、緩和又は除去しようとするものである。
本発明の一態様によればデコーダが提供され、該デコーダは:複数のオーディオ信号を表す符号化データ信号を受信する受信器1401であって、前記符号化データ信号は前記複数のオーディオ信号に関する符号化時間周波数タイルを有し、これら符号化時間周波数タイルは非ダウンミックス時間周波数タイル及びダウンミックス時間周波数タイルを有し、各ダウンミックス時間周波数タイルは前記複数のオーディオ信号の少なくとも2つの時間周波数タイルのダウンミックスであり、各非ダウンミックス時間周波数タイルは前記複数のオーディオ信号の1つのみの時間周波数タイルを表し、前記符号化データ信号は前記複数のオーディオ信号の時間周波数タイルに関するダウンミックス指示情報を更に有し、該ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示す受信器と;前記符号化時間周波数タイルから一群の出力信号を発生する発生器1403であって、該出力信号の発生が、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対するアップミックス処理を有する発生器と、を有する。
本発明は、改善されたオーディオ復号を可能にすることができ、特に多くの実施態様において改善されたスケーラビリティを可能にし得る。特に、本発明は多くの実施態様において透明性に対するデータレートのスケーラビリティを可能にし得る。特に、より高いデータレートにおけるパラメータ符号化に関して知られている符号化アーチファクトを、多くの筋書きにおいて、回避又は軽減することができる。
当該方法は、更に、効率的な符号化を提供することができ、特に一層低いデータレートにおいて効率的な符号化を提供することができる。高度のスケーラビリティを達成することができ、特に、一層低いデータレートにおける効率的符号化に対するスケーラビリティ及び高いデータレートにおける非常に高い品質(及び特に透明性)を達成することができる。
本発明は、高度の適応化及び最適化が可能な非常に柔軟なシステムを提供することができる。符号化及び復号処理は、オーディオ信号の全体的特性に対してのみならず、個々の時間周波数タイルの特性にも適応させることができる。従って、高い効率の符号化を達成することができる。
ダウンミックス時間周波数タイルのアップミックス処理は、別個の処理とすることができるか、又は他の処理と統合することもできる。例えば、該アップミックス処理は、時間周波数タイルの信号値をマトリクス(ベクトル)係数と乗算するマトリクス(ベクトル)演算の一部とすることができ、ここで、上記マトリクス(ベクトル)係数はアップミックス処理を反映することができるが、出力レンダリングチャンネルに対するマッピング等の他の処理を更に反映することもできる。該アップミックス処理は、ダウンミックスの全ての成分のアップミックス処理である必要はない。例えば、該アップミックスは、当該ダウンミックスに含まれる時間周波数タイルの1つのみを発生するための部分的アップミックスとすることもできる。
時間周波数タイルは、時間周波数間隔である。出力信号の時間周波数タイルは、同一の時間間隔及び周波数間隔をカバーする符号化時間周波数タイルから発生することができる。同様に、各ダウンミックス時間周波数タイルは、オーディオ信号の同一の時間間隔及び周波数間隔をカバーする時間周波数タイルのダウンミックスであり得る。時間周波数間隔は、一様なマス目上のものとすることができるか、又は、例えば、特に周波数次元に関して不均一なマス目上のものとすることもできる。このような不均一なマス目は、例えば、人の聴覚の対数的感度を利用及び反映するために使用することができる。
ダウンミックス時間周波数タイルであると示されていない符号化時間周波数タイルに対して、出力信号の発生はアップミックスを含む必要は(含むことは)ない。
前記複数のオーディオ信号の幾つかの時間周波数タイルは、符号化時間周波数タイルに表されないこともある。前記複数のオーディオ信号の時間周波数タイルは、符号化ダウンミックス時間周波数タイル又は非ダウンミックス時間周波数タイルの何れかに表されないこともある。
幾つかの実施態様において、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかの指示は、符号化時間周波数タイルに関して供給することができる。幾つかの実施態様において、ダウンミックス指示値は、前記複数のオーディオ信号の時間周波数タイルに関して個々に供給することができる。等価的に、幾つかの実施態様では、ダウンミックス指示値は、前記複数のオーディオ信号の一群の時間周波数タイルに関して供給することもできる。
非ダウンミックス時間周波数タイルはオーディオ信号の1つのみの時間周波数タイルに関するデータを表す一方、ダウンミックス時間周波数タイルはオーディオ信号の2以上の時間周波数タイルを表す。ダウンミックス時間周波数タイル及び非ダウンミックス時間周波数タイルは、異なる実施態様では、例えば各タイルが別個に符号化される、幾つか又は全てが一緒に符号化される、等を含み、当該符号化データ信号に異なる態様で符号化することができる。
本発明のオプション的フィーチャによれば、前記符号化データ信号はパラメータアップミックスデータを更に有し、前記発生器は該パラメータアップミックスデータに応じて前記アップミックス処理を適応化するように構成される。
この構成は、改善された性能を提供し、特に一層低いデータレートにおいて改善されたオーディオ品質を提供することができる。本発明は、例えば波形及びパラメータ符号化の柔軟な適応化及び相互作用を可能にして、極めてスケーラブルなシステム、特に高いデータレートに対して非常に高いオーディオ品質を提供する一方、より低いデータレートでは効率的な符号化を提供することができるシステムを提供する。
前記発生器は、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対して(前記ダウンミックス指示情報により符号化ダウンミックス時間周波数タイルでないと示された符号化時間周波数タイルに対してではなく)、前記パラメータアップミックスデータに応答して前記出力信号を発生することができる。
本発明のオプション的フィーチャによれば、前記発生器1403は、前記複数のオーディオ信号に関する時間周波数タイルを、空間音源構成に対応する出力信号にマッピングするように構成されたレンダリングユニットを有する。
この構成は、所与の空間的音源(典型的には、スピーカ)構成によるレンダリングに適したオーディオ信号の効率的発生をもたらし得る。斯かるアップミックス処理及びレンダリングマッピング処理は、幾つかの実施態様では、例えば単一のマトリクス乗算等の単一の統合された演算として実行することができる。
幾つかの実施態様において、前記発生器は、前記符号化時間周波数タイルから復号オーディオ信号を発生すると共に、該復号オーディオ信号を前記一群の出力信号に空間的にマッピングすることによりオーディオ信号を発生するように構成され、該一群の出力信号は空間的音源設備に対応する。
本発明のオプション的フィーチャによれば、前記発生器1403は前記符号化時間周波数タイルに対してマトリクス演算を適用することにより前記一群の出力信号のための時間周波数タイルを発生するように構成され、該マトリクス演算の係数は、前記符号化時間周波数タイルが非ダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示す符号化時間周波数タイルに対してではなく、前記符号化時間周波数タイルがダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示す符号化時間周波数タイルに対してアップミックス成分を含む。
この構成は、特に効率的な処理を提供する。上記マトリクス演算は前記符号化時間周波数タイルの信号サンプルに対して適用することができる。これら信号サンプルは復号処理により発生することができる。
本発明のオプション的フィーチャによれば、少なくとも1つのオーディオ信号は、復号された信号において、少なくとも1つの非ダウンミックス時間周波数タイル及び少なくとも1つのダウンミックス時間周波数タイルにより表される。
個々のオーディオ信号は、ダウンミックス時間周波数タイル及び非ダウンミックス時間周波数タイルの両方により表すことができる。前記オーディオ信号の各時間周波数タイルは、全ての時間周波数タイルが同じ態様で表されることを要せずに、ダウンミックス時間周波数タイル又は非ダウンミックス時間周波数タイルにより表すことができる。この方法は、高度の柔軟性及び最適化を可能にし得ると共に、改善されたオーディオ品質、符号化効率及び/又はスケーラビリティをもたらす。
本発明のオプション的フィーチャによれば、少なくとも1つのダウンミックス時間周波数タイルに関する前記ダウンミックス指示情報は、前記複数のオーディオ信号の時間周波数タイルと符号化されたダウンミックス時間周波数タイルとの間のリンクを有する。
この構成は、多くの実施態様において、符号化が時間周波数タイル毎に柔軟に最適化されることを可能にする。該方法は、高度の柔軟性及び最適化を可能にすることができ、その結果、改善されたオーディオ品質、符号化効率及び/又はスケーラビリティが得られ得る。
本発明のオプション的フィーチャによれば、前記複数のオーディオ信号のうちの少なくとも1つのオーディオ信号は、該複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである2つのダウンミックス時間周波数タイルにより表される。
この構成は、多くの実施態様において、符号化が時間周波数タイル毎に柔軟に最適化されることを可能にする。該方法は、高度の柔軟性及び最適化を可能にすることができ、その結果、改善されたオーディオ品質、符号化効率及び/又はスケーラビリティが得られ得る。
本発明のオプション的フィーチャによれば、前記複数のオーディオ信号のうちの少なくとも1つのオーディオ信号は、非ダウンミックス時間周波数タイル又はダウンミックス時間周波数タイルでない少なくとも1つの符号化時間周波数タイルを含む符号化時間周波数タイルにより表される。
この構成は、幾つかの実施態様において改善された符号化効率を可能にし得る。非ダウンミックス時間周波数タイル又はダウンミックス時間周波数タイルでない上記符号化時間周波数タイルは、例えば零時間周波数タイル(信号データを有さない空時間周波数タイルとして符号化された)として符号化することができるか、又は例えば正面/側面符号化(mid/side encoding)等の他の技術を用いて符号化することができる。
本発明のオプション的フィーチャによれば、少なくとも1つのダウンミックス時間周波数タイルは、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクト及び音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルのダウンミックスである。
この構成は、改善された柔軟性及び/又は一層効率的な符号化をもたらし得る。特に、上記ダウンミックス時間周波数タイルはオーディオオブジェクト及びオーディオチャンネルの時間周波数タイルのダウンミックスを含むことができる。
本発明のオプション的フィーチャによれば、前記非ダウンミックス時間周波数タイルの少なくとも幾つかは波形符号化される。
この構成は効率的で且つ潜在的に高品質な符号化/復号を可能にし得る。多くの筋書きにおいて、該構成は改善されたスケーラビリティ、特には透明性に対するスケーラビリティを可能にし得る。
本発明のオプション的フィーチャによれば、前記ダウンミックス時間周波数タイルの少なくとも幾つかは波形符号化される。
この構成は、効率的で且つ潜在的に高品質な符号化/復号を可能にし得る。
本発明のオプション的フィーチャによれば、前記発生器1403は前記ダウンミックス時間周波数タイルをアップミックスして、ダウンミックス時間周波数タイルの前記複数のオーディオ信号の少なくとも1つに関するアップミックスされた時間周波数タイルを発生するように構成され、前記発生器は前記一群の出力信号のための時間周波数タイルを、前記符号化時間周波数タイルがダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示すタイルに関する前記アップミックスされた時間周波数タイルを用いて発生するよう構成される。
この構成は、実施化を容易にし、及び/又は高性能をもたらし得る。
本発明の他の態様によれば、復号する方法は:複数のオーディオ信号を表す符号化データ信号を受信するステップであって、前記符号化データ信号は前記複数のオーディオ信号に関する符号化時間周波数タイルを有し、これら符号化時間周波数タイルは非ダウンミックス時間周波数タイル及びダウンミックス時間周波数タイルを有し、各ダウンミックス時間周波数タイルは前記複数のオーディオ信号の少なくとも2つの時間周波数タイルのダウンミックスであり、各非ダウンミックス時間周波数タイルは前記複数のオーディオ信号の1つのみの時間周波数タイルを表し、前記符号化データ信号は前記複数のオーディオ信号の時間周波数タイルに関するダウンミックス指示情報を更に有し、該ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すステップと;前記符号化時間周波数タイルから一群の出力信号を発生するステップであって、該出力信号の発生が、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対するアップミックス処理を有するステップと、を有する。
本発明の他の態様によれば、エンコーダは:各々が複数の時間周波数タイルを有する複数のオーディオ信号を入力する入力部1301と;前記複数の時間周波数タイルのうちのダウンミックスされるべき第1部分群を選択する選択器1303と;前記第1部分群の時間周波数タイルをダウンミックスして、ダウンミックス時間周波数タイルを発生するダウンミキサ1305と;前記ダウンミックス時間周波数タイルを符号化することにより符号化ダウンミックス時間周波数タイルを発生する第1エンコーダ1307と;前記オーディオ信号の時間周波数タイルの第2部分群を該第2部分群の時間周波数タイルをダウンミックスせずに符号化することにより符号化非ダウンミックス時間周波数タイルを発生する第2エンコーダ1309と;前記第1部分群及び前記第2部分群の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すダウンミックス指示情報を発生するユニット1311と;前記複数のオーディオ信号を表す符号化オーディオ信号を発生する出力部1313であって、該符号化オーディオ信号が前記符号化非ダウンミックス時間周波数タイル、前記符号化ダウンミックス時間周波数タイル及び前記ダウンミックス指示情報を有する出力部と、を有する。
本発明は、改善されたオーディオ符号化を可能にし、特に多くの実施態様において改善されたスケーラビリティを可能にする。特に、本発明は多くの実施態様において透明性に対するデータレートのスケーラビリティを可能にする。特に、より高いデータレートにおけるパラメータ符号化に関して知られている符号化アーチファクトを、多くの筋書きにおいて、回避又は軽減することができる。
当該方法は、効率的な符号化を更に提供することができ、特に、より低いデータレートにおいて効率的な符号化を提供することができる。高度のスケーラビリティを達成することができ、特に、より低いデータレートにおける効率的な符号化に対するスケーラビリティ及び高いデータレートにおける非常に高い品質(及び特に透明性)を達成することができる。
本発明は、高度の適応化及び最適化が可能な非常に柔軟なシステムを提供することができる。符号化及び復号処理は、オーディオ信号の全体的特性に対してのみならず、個々の時間周波数タイルの特性にも適応させることができる。従って、高い効率の符号化を達成することができる。
前記ダウンミキサは、更に、前記ダウンミックス時間周波数タイルからダウンミックスされている時間周波数タイルを復元するためのパラメータデータを発生するように構成することができ、前記出力部は前記符号化時間周波数タイルに該パラメータデータを含めるように構成することができる。
前記第1及び第2エンコーダは、例えば、恐らくは同一の符号化アルゴリズムを用いて前記ダウンミックスを順次に符号化する単一のエンコーダとして実施化することができる。
当該符号化処理は、効率及び品質を改善するために、一群のダウンミックス時間周波数タイル及び個々の時間周波数タイルを考慮に入れることができる。
本発明のオプション的フィーチャによれば、前記選択器1301は、前記第1部分群の時間周波数タイルを前記符号化オーディオ信号に対する目標データレートに応じて選択するように構成される。
この構成は、改善された性能をもたらすことができ、特に符号化オーディオ信号の効率的なスケーリングを可能にし得る。
本発明のオプション的フィーチャによれば、前記選択器1303は、前記第1部分群の時間周波数タイルを:前記時間周波数タイルのエネルギ;前記時間周波数タイルの空間的特徴;及び前記時間周波数タイルの対の間のコヒーレンス特性のうちの少なくとも1つに応じて選択するように構成される。
この構成は、多くの実施態様において且つ多くの信号に対して改善された性能をもたらし得る。
本発明の他の態様によれば、符号化する方法は:各々が複数の時間周波数タイルを有する複数のオーディオ信号を入力するステップと;前記複数の時間周波数タイルのうちのダウンミックスされるべき第1部分群を選択するステップと;前記第1部分群の時間周波数タイルをダウンミックスして、ダウンミックス時間周波数タイルを発生するステップと;前記ダウンミックス時間周波数タイルを符号化することにより符号化ダウンミックス時間周波数タイルを発生するステップと;前記オーディオ信号の時間周波数タイルの第2部分群を該第2部分群の時間周波数タイルをダウンミックスせずに符号化することにより符号化非ダウンミックス時間周波数タイルを発生するステップと;前記第1部分群及び前記第2部分群の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すダウンミックス指示情報を発生するステップと;前記複数のオーディオ信号を表す符号化オーディオ信号を発生するステップであって、該符号化オーディオ信号が前記符号化非ダウンミックス時間周波数タイル、前記符号化ダウンミックス時間周波数タイル及び前記ダウンミックス指示情報を有するステップと、を有する。
本発明の他の態様によれば、符号化・復号システムは、上述したエンコーダ及びデコーダを有する。
本発明の上記及び他の態様、フィーチャ及び利点は、後述する実施態様から明らかとなり斯かる実施態様を参照して解説されるであろう。
図1は、従来技術による多チャンネル信号のオーディオ符号化の原理の一例を示す。 図2は、従来技術によるMPEGサラウンドシステムの構成要素の一例を示す。 図3は、従来技術によるMPEGサラウンドシステムの構成要素の一例を示す。 図4は、従来技術によるSAOCシステムの構成要素の一例を示す。 図5は、ユーザがSAOCビットストリームに含まれる個々のオブジェクトを制御することを可能にする対話型インターフェースを示す。 図6は、従来技術によるSAOCシステムの構成要素の一例を示す。 図7は、従来技術による3DAAのオーディオ符号化の原理の一例を示す。 図8は、従来技術によるMPEG 3Dオーディオステムの構成要素の一例を示す。 図9は、従来技術によるDirACシステムの構成要素の一例を示す。 図10は、従来技術によるDirACシステムの構成要素の一例を示す。 図11は、従来技術によるオーディオシステムの構成要素の一例を示す。 図12は、本発明の幾つかの実施態様によるオーディオシステムの構成要素の一例を示す。 図13は、本発明の幾つかの実施態様によるエンコーダの構成要素の一例を示す。 図14は、本発明の幾つかの実施態様によるデコーダの構成要素の一例を示す。 図15は、本発明の幾つかの実施態様によるオーディオシステムデコーダの構成要素の一例を示す。 図16は、本発明の幾つかの実施態様によるオーディオ信号の時間周波数タイルのダウンミックス又は非ダウンミックス時間周波数タイルとしての符号化の一例を示す。 図17は、本発明の幾つかの実施態様によるオーディオシステムデコーダの構成要素の一例を示す。
以下、本発明の実施態様を、図面を参照して例示としてのみ説明する。
図12は、本発明の幾つかの実施態様によるオーディオレンダリングシステムの一例を示す。該システムは、符号化(エンコード)されるべきオーディオ信号を入力するエンコーダ1201を有している。符号化されたオーディオデータは適切な通信媒体1205を介してデコーダ1203に伝送される。
エンコーダ1201に供給されるオーディオ信号は、異なる形態で供給され、異なる方法で発生することができる。例えば、該オーディオ信号は、マイクロフォンで捕捉されたオーディオであり得、及び/又は例えばコンピュータゲームアプリケーション等のための合成により発生されたオーディオであり得る。該オーディオ信号は、例えば、単一の楽器等の特定のオーディオ源を捕捉するように配置されたマイクロフォン又は特定の合成により発生されたオーディオオブジェクト等の、個々のオーディオオブジェクトとして符号化することができる複数の成分を含むことができる。
各オーディオオブジェクトは、典型的には、単一の音源に対応する。このように、オーディオオブジェクトは、オーディオチャンネル(特には従来の空間多チャンネル信号のオーディオチャンネル)とは対照的に、典型的には、実質的に異なる位置を有し得る複数の音源からの成分は有することがない。同様に、各オーディオオブジェクトは、典型的に、当該音源の全表現を供給する。このように、各オーディオオブジェクトは、典型的に、単一の音源のみに関する空間位置データに関連付けられる。更に詳細には、各オーディオオブジェクトは、典型的に、音源の単一で完全な表現と見なすことができ、単一の空間位置に関連付けることができる。
オーディオオブジェクトは如何なる特定のレンダリング構成にも関連されず、特にサウンドトランスジューサ/スピーカの如何なる特定の空間構成にも関連されることがない。このように、特定の空間スピーカ設備(例えば、サラウンドサウンド設備)等のレンダリング構成と関連されるサウンドチャンネルとは対照的に、オーディオオブジェクトは如何なる特定の空間レンダリング構成に対しても規定されない。
このように、オーディオオブジェクトは、典型的に、例えば歌手、楽器又は合唱団等の個々のインスタンスとして扱われる単一又は組み合わせ音源である。典型的に、オーディオオブジェクトは、該オーディオオブジェクトに関する固有の位置、特には該オーディオオブジェクトに関する点源位置を定める関連する空間位置情報を有する。しかしながら、この位置は固有のレンダリング設備とは無関係である。オブジェクト(オーディオ)信号は、オーディオオブジェクトを表す信号である。オブジェクト信号は、例えば時間的に同時でない複数のオブジェクトを含むことができる。
対照的に、オーディオチャンネルは公称のオーディオ源位置に関連付けられる。このように、オーディオチャンネルは、典型的に、関連する位置データは有することはなく、公称の関連するスピーカ構成におけるスピーカの公称位置に関連付けられる。このように、オーディオチャンネルは関連する構成におけるスピーカ位置に関連付けられるが、オーディオオブジェクトは如何なるスピーカ構成にも関連付けられない。このように、オーディオチャンネルは、レンダリングが公称スピーカ構成を用いて実行される際に所与の公称位置からレンダリングされるべき組み合わせ音声を表す。このように、オーディオチャンネルは、公称スピーカ構成が当該音声源を空間的にレンダリングするために、当該チャンネルに関連付けられた公称位置からレンダリングされるべき音成分を必要とする当該オーディオシーンの全ての音声源を表す。対照的に、オーディオオブジェクトは、典型的に、如何なる特定のレンダリング構成にも関連付けられず、代わりに、1つの音源位置からレンダリングされるべき音声を供給して、関連する音成分が該位置から発するものと知覚されるようにする。
空間オーディオ符号化装置1201は、該空間オーディオ符号化装置1201に供給されたオーディオ信号(即ち、オーディオオブジェクト及び/又はオーディオチャンネル)を表す符号化されたデータを含む符号化された信号を発生するように構成される。
該符号化されたオーディオストリームは、直接通信又はブロードキャストリンクを含む如何なる好適な通信媒体を介しても伝送することができる。例えば、伝送(通信)はインターネット、データネットワーク、ラジオ放送等を介したものとすることができる。上記通信媒体は、代わりに又は更に、CD、ブルーレイ(商標)ディスク、メモリカード等の物理的記憶媒体を介するものとすることができる。
以下の説明は、オーディオオブジェクトの符号化に焦点を合わせるが、説明される原理は、適宜、例えばオーディオチャンネル信号等にも適用することができることが理解されよう。
図13は、エンコーダ1201の構成要素を一層詳細に示す。該例において、エンコーダ1201は複数のオーディオ信号を入力する。該特定の例において、これらオーディオ信号はオーディオオブジェクトである(該特定の例においては、4つのオーディオオブジェクトO〜Oが示されているが、これらは如何なる複数のオーディオオブジェクトをも表すものに過ぎないことが分かる)。
上記オーディオオブジェクトはエンコーダ受信器(入力部)1301により入力され、該エンコーダ受信器は、該オーディオオブジェクトに関する時間周波数タイル(time-frequency tiles)を該エンコーダ1201の残部に供給する。当業者により既知のように、信号に関する時間周波数タイルは所与の時間間隔及び所与の周波数間隔内の信号に対応する。このように、信号を時間周波数タイルで表すことは、該信号が、各タイルが関連する周波数間隔及び関連する時間間隔を有するような複数のタイルで表されることを意味する。各時間周波数タイルは、当該信号値を関連する時間間隔及び周波数間隔で反映する単一の(典型的には、複素の)値を供給することができる。しかしながら、時間周波数タイルは複数の信号値を供給することもできる。信号は、しばしば、一様な時間周波数タイルに分割される。即ち、時間及び/又は周波数間隔は、しばしば、全ての時間周波数タイルに対して同じサイズのものである。しかしながら、幾つかの筋書き又は実施態様では、一様でない時間周波数タイルを、例えば、周波数間隔のサイズが周波数の増加に対して増加するような時間周波数タイルを用いることにより、用いることができる。
多くの実施態様において、オーディオ信号は既に時間周波数タイル表現としてエンコーダに供給することができる。しかしながら、幾つかの実施態様では、エンコーダ受信器1301は斯様な表現を発生することができる。このことは、典型的に、当該信号を時間セグメント(例えば、20msec期間の)に分割し、各セグメントに対してFFT等の時間/周波数変換を実行することにより実施することができる。結果としての周波数ドメイン値は、各々、時間周波数タイルを直接表すことができ、又は、幾つかの場合には、複数の隣接する周波数ビン(時間及び/又は周波数で隣接する)を時間周波数タイルに組み合わせることができる。
簡略化のために、以下の説明は時間周波数タイルを“タイル”なる略語を用いて示す。
エンコーダ受信器1301は選択器1303に結合され、該選択器は上記オーディオオブジェクトのタイルを入力する。この場合、該選択器1303はダウンミックスタイル(ダウンミックスされたタイル)として符号化される幾つかのタイル及び非ダウンミックスタイル(ダウンミックスされないタイル)として符号化される幾つかのタイルを選択するように構成される。ダウンミックスタイルは典型的には少なくとも2つのオーディオオブジェクトから少なくとも2つのタイルをダウンミックスすることにより発生されるタイルであり、非ダウンミックスタイルは如何なるダウンミックスもなしで符号化される。このように、非ダウンミックスタイルは、符号化されるオーディオオブジェクト/信号の1つのタイルのみからのデータを有する。このように、非ダウンミックスタイルは1つのオーディオオブジェクトからのみの寄与分を含む一方、ダウンミックスタイルは少なくとも2つのタイル及び典型的には少なくとも2つのオーディオオブジェクトからの成分/寄与分を含む。即ち、非ダウンミックスタイルは、2以上のタイルのダウンミックスではないタイルである。
選択器1303はダウンミキサ1305に結合され、該ダウンミキサには選択器1303により選択されたタイルが供給される。この場合、該ダウンミキサは、これらタイルからダウンミキサタイルを発生する。例えば、ダウンミックスされる対象となる異なるオーディオオブジェクトからの2つの対応する(同一の周波数間隔及び時間間隔の)タイルは、ダウンミキサ1305により単一のダウンミキサタイルを発生するようにダウンミックスされる。この方法は前記複数のタイルに対して実行され、これにより、各ダウンミックスタイルが典型的には少なくとも2つのオーディオオブジェクトからの少なくとも2つのタイルを表す、一群のダウンミックスタイルを発生する。
多くの実施態様において、ダウンミキサ1305は更にパラメータ(アップミックス)データを発生し、該データは上記ダウンミックスタイルのアップミックスを実行することによりオリジナルのオーディオオブジェクトタイルを再生するために使用することができる。例えば、ダウンミキサ1305は、当業者により良く知られているように、オブジェクト間レベル差(ILD)、オブジェクト間時間差(ITD)、オブジェクト間位相差(IPD)及び/又はオブジェクト間コヒーレンス係数(ICC)を発生することができる。
上記ダウンミックスタイルは第1エンコーダ1307に供給され、該第1エンコーダは各ダウンミックスタイルを符号化して符号化ダウンミックスタイルを発生する。該符号化は、例えば当該ダウンミックスタイルの値の単純な量子化とすることができ、特には当該ダウンミックスタイルにより表される波形を維持する符号化とすることができる。
多くの実施態様において、前記アップミックスパラメータも第1エンコーダ1307に供給することができ、該エンコーダは、これらを何らかの好適な符号化方法を用いて符号化することができる。
前記選択器1303は更に第2エンコーダ1309にも結合され、該第2エンコーダには非ダウンミックスタイルであるべきタイルが供給される。この場合、該第2エンコーダは、これらタイルを符号化する。
図13は第1及び第2エンコーダ1307及び1309を別個の機能ユニットとして図示しているが、これらエンコーダは単一のエンコーダとして構成することができ、同一の符号化アルゴリズムをダウンミックスタイル及び非ダウンミックスタイルの両方に適用することができることが理解されよう。
適切な符号化データ信号を発生するためにダウンミックス及び非ダウンミックスタイルの如何なる符号化も用いることができることが理解される。例えば、幾つかの実施態様では、全てのタイルを別個に符号化することができる。例えば、個々の符号化はタイル毎に如何なる他のタイルも考慮せずに又は如何なる他のタイルからの影響もなしに実行することができる。即ち、各タイルに関する符号化されたデータは、他のタイルとは独立に発生することができる。特定の例として、量子化及びチャンネル符号化は、当該符号化データを発生すべく結合されるデータを発生するために各タイルに対して別個に実行することができる(ダウンミックス又は非ダウンミックスに拘わらず)。
他の実施態様において、タイルの何らかの共同符号化を用いることができる。即ち、ダウンミックスタイル及び/又は非ダウンミックスタイルの選択群を、当該タイル及び/又は該タイルにより表されるオブジェクトの特定の特性及び/又は相関を利用することにより、一緒に符号化して効率を改善することができる。
選択器1303は更に指示プロセッサ1311に結合され、該指示プロセッサはどのタイルがダウンミックスタイルとして符号化され、どのタイルが非ダウンミックスであるかの情報を入力する。この場合、指示プロセッサ1311は、オーディオオブジェクトの当該タイルがダウンミックスタイルとして符号化されるか又は非ダウンミックスタイルとして符号化されるかを示すダウンミックス指示情報を発生する。該ダウンミックス指示情報は、例えば、オーディオオブジェクトの各々の各タイルに関するデータを有することができ、その場合、所与のタイルに関するデータは、このタイルが非ダウンミックスであったか又はダウンミックスとして符号化されたかを示す。後者の場合、該データは、更に、どの他のオーディオオブジェクトが同じダウンミックスにダウンミックスされたかを示すことができる。このようなデータは、デコーダが、符号化されたデータ信号のうちのどのデータが特定のタイルを復号するために使用されるべきかを識別することを可能にし得る。
第1エンコーダ1307、第2エンコーダ1309及び指示プロセッサ1311は出力プロセッサ1313に結合され、該出力プロセッサは、非ダウンミックスタイル、ダウンミックス符号化タイル及びダウンミックス指示情報を含む符号化オーディオ信号を発生する。典型的に、前記アップミックスパラメータも含まれる。
図14は、前記デコーダ1203の構成要素を一層詳細に図示する。
該デコーダ1203は受信器1401を含み、該受信器は前記エンコーダ1201から符号化信号を入力する。このように、該受信器は複数のオーディオオブジェクトを表す符号化データ信号を入力するのもで、該符号化データ信号はダウンミックスタイル又は非ダウンミックスタイルの何れかとして符号化された符号化タイルを有する。更に、該符号化データ信号は、オリジナルのオーディオタイルの異なるタイプの符号化タイルへの分割がどの様になされたかを示すダウンミックス指示情報も含む。典型的に、アップミックスパラメータも含まれる。
受信器1401は発生器1403に結合され、該発生器には入力されたタイル及びダウンミックス指示情報が供給され、これに応答して該発生器は一群の出力信号を発生する。該出力信号は、例えば、復号されたオーディオオブジェクトであり得、該復号オーディオオブジェクトは次いで後処理動作において処理され又は操作することができる。幾つかの実施態様において、発生器1403は、所与のレンダリング設備(及び特別なスピーカ構成)に適した出力信号を直接発生することができる。このように、発生器1403は、幾つかの筋書きでは、当該オーディオオブジェクトを特定のレンダリング構成のオーディオチャンネル上へマッピングする機能を有することができる。
発生器1403は、符号化タイルを、これらがダウンミックスタイルであるか又は非ダウンミックスタイルであるかに従い異なって処理するように構成されている。詳細には、前記ダウンミックス指示情報によりダウンミックスタイルであると示されたタイルに対しては、出力信号のためのタイルの発生はアップミックス処理を有する。このように、アップミックス処理は、オーディオオブジェクトタイルがダウンミックスされているダウンミックスタイルからのオーディオオブジェクトに関するタイルの抽出又は再生に固有に対応し得る。
当該データ信号がパラメータアップミックスデータを含む実施態様において、このデータは、ダウンミックスタイルのアップミックス処理において使用される。
一例として、発生器1403はオリジナルのオーディオオブジェクトを再生する再生発生器1405を有することができる。該再生発生器1405は、例えば、各オーディオオブジェクトを一度に1つずつ、各オーディオオブジェクトが一度に1つのタイルが処理されるように処理することができる。
例えば、再生発生器1405は、所与の(時間)セグメントの間にオーディオオブジェクト1のタイル1(例えば、最低周波数のタイル)で開始することができる。次いで、ダウンミックス指示情報がオブジェクト1のタイル1に対して評価される。該ダウンミックス指示情報が、オブジェクト1のタイル1の符号化されたタイルが非ダウンミックスであることを示す場合、該符号化タイルは復号されてオブジェクト1のタイル1を直接供給する。しかしながら、該ダウンミックス指示情報が、オブジェクト1のタイル1の符号化されたタイルがダウンミックス符号化されていることを示す場合、該符号化タイルは先ず復号されてダウンミックスタイルを形成し、次いでアップミックスされてオーディオオブジェクト1のオリジナルのタイル1を再生する。このように、この(符号化された)ダウンミックスタイルのアップミックスは、エンコーダにおいてダウンミックスされる前のオーディオオブジェクト1の(概算値)を形成する。該アップミックスは、特には、利用可能な場合は前記パラメータアップミックスデータを使用することができる。しかしながら、このようなデータが供給されない場合、上記アップミックスは盲的なアップミックスになり得る。このように、オブジェクト1の符号化タイル1に適用される該アップミックス処理の結果は、エンコーダ1201に供給されたオーディオオブジェクト1のタイル1(の概算値)である。
このように、上記処理の結果はオブジェクト1のタイル1であり、その場合、該タイルの発生は当該ダウンミックス指示情報が、このタイルがダウンミックスとして符号化されているか又は非ダウンミックスタイルとして符号化されているかを示すことに依存する。
再生発生器1405は、次いで、オーディオオブジェクト1のタイル2に対して正確に同じ処理を実行し、これにより、オーディオオブジェクト1の復号されたタイル2が得られる。
上記処理はオーディオオブジェクト1の全てのタイルに対して繰り返され、かくして、発生されたタイルの結果的な収集はオーディオオブジェクト1の時間周波数タイル表現を提供することになる。この情報は再生発生器1405(若しくは発生器1403)により出力することができるか、又は、例えば時間ドメイン信号が必要な場合は、周波数/時間ドメイン変換(例えば、iFFT)を適用することができる。
次いで、全てのオーディオオブジェクトが発生されるまで、同様の方法がオーディオオブジェクト2、次いでオーディオオブジェクト3等々に対して繰り返される。
この例においては、各符号化ダウンミックスタイルに対して複数のアップミックス処理が適用されることが理解されるであろう。例えば、所与の符号化ダウンミックスタイルが例えばオーディオオブジェクト1及び3のタイルのダウンミックスである場合、アップミックス処理は、オーディオオブジェクト1が発生される場合及びオーディオオブジェクト3が発生される場合の両方の場合に実行される。該アップミックス処理は異なるアップミックスパラメータ(即ち、特定のオーディオに対して供給されるパラメータ)を使用するであろう。
幾つかの実施態様において、アップミックス処理はアップミックスタイルの両方(又は全て)を同時に供給することができることが理解されよう。例えば、オーディオオブジェクト1及び3の両方に関してアップミックスされたタイルを直接発生するために、マトリクス演算を用いることができる。全体のアップミックス処理は、例えば、当該アルゴリズムが所与の符号化ダウンミックスタイルに遭遇する場合に(例えば、オブジェクト1を処理する場合に)実行することができる。他のオブジェクトに関する結果としてのアップミックスされたタイルは、符号化ダウンミックスタイルにダウンミックスされる他のタイルが遭遇される場合に(例えば、当該特定の例ではオブジェクト3を処理する場合に)別途のアップミックス処理が必要とされないように、記憶することができる。
幾つかの実施態様又は筋書きでは、再生発生器1405のアップミックス処理により、1つの符号化ダウンミックスタイルから1つのアップミックスタイルのみが発生され得ることが理解される。例えば、再生発生器1405によりオブジェクト1のみが発生される場合、所与のダウンミックスタイルのアップミックス処理は、オブジェクト1に関するアップミックスタイルを供給するのみでよい。
幾つかの実施態様において、復号されたオーディオオブジェクトは当該発生器1403から直接出力することができる。しかしながら、図14の例においては、該復号オーディオオブジェクトはレンダリングプロセッサ1407に供給され、該レンダリングプロセッサは特定のレンダリング設備に、特には特定のスピーカ構成に対応する出力信号を発生するように構成される。このように、該レンダリングプロセッサ1407は上記オーディオオブジェクトを、各々が公称のサウンドレンダリング位置に関連付けられた出力チャンネルにマッピングする。例えば、複数のオーディオオブジェクトを5.1サラウンドサウンドスピーカ設備のオーディオチャンネルにマッピングすることができる。
当業者であれば、オーディオオブジェクトを特定の空間スピーカ構成のためのオーディオチャンネルにマッピングするための異なるアルゴリズムを承知しており、如何なる好適な方法を使用することもできることが理解される。
図14の例では、発生器1403はオーディオオブジェクトを発生するため及びこれらをレンダリングするために、別個の機能を有するように示されている。しかしながら、多くの実施態様では、再生発生器1405及びレンダリングプロセッサ1407の機能は単一の統合機能又は処理へと組み合わせることができる。このように、該発生器は、オーディオオブジェクトを明確な中間信号として発生することなしに、符号化データからレンダリング出力を直接発生することができる。
例えば、上記アップミックス処理はマトリクス演算/乗算として(又は、単一のアップミックス値のみを発生しなければならない場合、複素乗算としてさえ)実行することができる。同様に、レンダリングマッピングはマトリクス演算/乗算として実行することができる。1以上のマトリクス演算/乗算は、特には、ベクトル演算/乗算(即ち、1つの列又は行のみを有するマトリクスを使用する)とすることができる。2つの連続する乗算は、符号化タイルのタイル値に適用される単一のマトリクス乗算へと結合することができることが分かる。このことは、アップミックス処理(実行されるなら)及びレンダリングマッピング処理の両方を反映するようなマトリクス係数を持つマトリクス乗算により達成することができる。このようなマトリクスは、例えば、単にアップミックス処理及びレンダリングマッピング処理に関連する個々のマトリクスを乗算することにより発生することができる。このように、斯かる筋書きにおいては、アップミックス処理は、アップミックスタイル値又はオーディオオブジェクトを中間信号として明確に発生することを要せずに、単一のマトリクス演算の一体部分として実行される。従って、このような実施態様においては、マトリクス係数は、非ダウンミックスタイルであると示されたタイルに対してではなく、ダウンミックスタイルであると示されたタイルに対してアップミックス処理を反映/含むことができる。詳細には、マトリクス係数は、前記ダウンミックス指示情報が当該タイルは非ダウンミックスタイルであることを示す場合ではなく、当該タイルがダウンミックスタイルであることを示す場合に、符号化データ信号で受信されたアップミックスパラメータに依存することができる。
図12のシステムの方法を、図15により図示することができる。図示されたように、或る部分群のオーディオオブジェクトは符号化のために直接供給され、非ダウンミックスタイルとして(即ち、如何なるダウンミックス処理もなしで)符号化される。しかしながら、他の部分群(上記第1の部分群とは切り離された)のオーディオオブジェクトは符号化のために直接供給されるのではなく、先ずダウンミックス部において他のオーディオオブジェクトと組み合わされる。該例においては、4つのオーディオオブジェクトが対状にダウンミックスされて2つのダウンミックスとなる。上記ダウンミックス部は、更に、当該ダウンミックスからオリジナルのオーディオオブジェクトをどの様に発生することができるかを記述/定義するパラメータアップミックスデータ(オブジェクトデータ)を発生する。このようなパラメータは一層長い期間に関して供給することができ、従って該ダウンミックス及びパラメータデータはオリジナルの信号と比較してデータの減少をもたらすことが理解される。上記ダウンミックスは、次いで、上記パラメータデータと一緒に符号化される。デコーダ側においては、先ず上記符号化が解消されて、非ダウンミックス信号のための及びアップミックスのための信号値が発生される。結果としての信号は、次いで、適切な出力チャンネルを発生するために処理される。この処理は、前記ダウンミックスのためのアップミックス処理(前記パラメータアップミックスデータに基づく)、及びオーディオオブジェクトの特定のスピーカ構成へのマッピングを含む。
当該システムにおいて、信号は時間周波数タイル表現において、特には時間周波数タイルドメインで処理することにより処理される。更に、ダウンミックス指示情報が供給され、該指示情報は、個々のタイルに関して、個々のオーディオオブジェクトタイルがダウンミックスタイルとして符号化されているか又は非ダウンミックスタイルとして符号化されているかを示すことができる。このダウンミックス指示情報は、エンコーダからデコーダに通知され、従って、タイルのダウンミックスタイル又は非ダウンミックスタイルとしての割り当てがタイル毎に実行されることを可能にする。このように、図15は、特定のタイルに対して、即ち特定の時間及び周波数間隔に関して当該方法を表すものと考えることができる。しかしながら、他のタイルに関しても、同じオーディオオブジェクトをダウンミックス符号化タイル及び非ダウンミックスタイルへのタイルの異なる割り当てを用いて符号化することができる。このように、当該システムは非常に柔軟性のある符号化法を提供することができ、高度に細分的方法が、所与の目標レートに対する実質的な最適化を、該最適化が特定の信号特性に対して固有のものとなるようにして可能にすることができる。
当該方法は、ダウンミックス符号化及び非ダウンミックス符号化の相対的利点の間の(従って、パラメータ符号化及び波形符号化の相対的利点の間の)非常に効率的な取引を可能にする。例えば、より低いデータレートに対しては、相対的に多数のタイルを、関連するパラメータを伴うダウンミックスタイルとしてパラメータ的に符号化することができる。しかしながら、重要なタイルは依然として如何なるダウンミックスもなしに符号化し、これによりパラメータ符号化の可能性のある品質劣化を低減することができる。目標/利用可能なデータレートが増加されるにつれて、増加する数のタイルを非ダウンミックスタイルとし、これにより品質を上昇させることができる(即ち、オーディオオブジェクトは、益々、パラメータ的に符号化されるよりは波形符号化されるようになり、特にオーディオオブジェクトのクロストークを低減することができる)。このような傾向は、全てのタイルが非ダウンミックスタイルとなるまで継続することができ、全体としての符号化及び復号方法が透明となる。このように、高度に効率的な符号化及び透明性に対するスケーラビリティを達成することができる。
このように、図12のシステムは、ダウンミックスタイル及び付随するパラメータ情報への利用可能なタイルの部分群の事前の組み込みを用いるハイブリッド型波形/パラメータ方法と見ることができる。残りのタイルは上記ダウンミックスタイルと一緒に伝統的な波形符号化タイルを用いて符号化することができる。上記パラメータ情報は、ダウンミックスタイルをオーディオオブジェクトタイルに関係づける。更に、各オブジェクトがどの様に表されるか(純粋に波形又は波形+パラメータ情報;即ち、非ダウンミックス又はダウンミックス符号化)についての情報も、符号化データ信号で伝達される。これらのフィーチャは、特に、符号化信号のデータレートの改善されたスケーラビリティを可能にする。
1つの特別な例は、拡散音場の符号化である。該拡散音場が確かに全方向性であるとの仮定の下では、このことは実質的に無限の数のオブジェクトが該拡散音場を表すことを必要とする。典型的に、人の聴覚系の制限により、拡散音場を非常に多数のオブジェクト/チャンネルを用いて表す必要はない。利用可能なビットレートに依存して、当該拡散音場を表す大きな数のオブジェクト/チャンネルを、パラメータ情報が付随する一層小さな数のオブジェクト/チャンネルにダウンミックスすることができる。
図15の例では、8個のオブジェクトが符号化される。エンコーダは、どのオブジェクトタイルがダウンミックスタイルに組み込まれるべきかを決定する。該ダウンミックスに加えて、ダウンミックスタイルとオリジナルのオブジェクトタイルとの間の関係を表すオブジェクトデータも導出される。オリジナルオブジェクトの各タイルをどの様に導出することができるかについての情報も導出される。ダウンミックスされていないオブジェクトタイル、オブジェクトデータが付随する(部分的に)ダウンミックスされたオブジェクトタイル、及び上記導出情報(ダウンミックス指示情報)からなる結果的情報は、全て符号化される。これらオブジェクトタイル(ダウンミックスされているか否かによらず)は伝統的な波形符号化技術を用いて符号化することができる。
デコーダは1以上のダウンミックスタイルを入力し、その場合、各ダウンミックスタイルは前記オーディオオブジェクトの1以上からの1以上のタイルのダウンミックスを表している。更に、該デコーダはダウンミックスタイルにおけるオブジェクトタイルに関連したパラメータデータも入力する。また、該デコーダは前記オブジェクト信号の1以上から、上記ダウンミックスタイルには存在しない1以上のタイルも入力する。該デコーダは、更に、所与のオブジェクトタイルが非ダウンミックスタイルとして符号化されているか又はパラメータデータを伴うダウンミックスタイルとして符号化されているかを示した情報を供給するダウンミックス指示情報も入力する。この情報に基づいて、該デコーダは、ダウンミックスタイル+パラメータ情報又は非ダウンミックスタイルの何れかを用いて出力信号のためのタイルを発生することができる。
幾つかの実施態様において、全ての処理は対応するタイルに対して実行される。即ち、当該処理は各タイルの周波数間隔及び時間間隔に関して別個に実行される。詳細には、出力信号は、出力信号タイルを同一の時間及び周波数間隔をカバーする符号化タイルに基づいて発生することにより発生される。しかしながら、幾つかの実施態様では、何らかの周波数又は時間変換を当該処理の一部として実行することができる。例えば、複数の符号化タイルを組み合わせて、より大きな周波数間隔をカバーする出力タイルを発生することもできる。
また、典型的に、ダウンミックス処理は同一の周波数間隔及び時間間隔をカバーするタイルについてのものであろう。しかしながら、幾つかの実施態様では、ダウンミックスは、重なり合う又は離れた異なる間隔をカバーするタイルのものであり得る。確かなことに、幾つかの実施態様及び筋書きでは、ダウンミックスは同一の信号の2つのタイルのものでさえあり得る(例えば、周波数次元に沿って隣接している2つのタイル)。
ダウンミックス指示情報の使用及び通知は、オーディオオブジェクトの符号化及び、特に、オーディオオブジェクトを符号化処理の一部としてどの様にして組み合わせる(又は組み合わせない)かの選択の非常に高度の柔軟性を提供する。当該方法は、個々の信号セグメント(個々のタイル)が、当該信号の一部のみの特性に依存して他の信号セグメントと組み合わせるために柔軟に選択されることを可能にし得る。確かなことに、どの信号又はオブジェクトを一緒にダウンミックスすることができるかを単に選択することより、タイルに基づくダウンミックス指示情報の当該適用は、このような考察が個々の信号セグメントに対して、特には個々のタイルに対して実行されることを可能にする。
幾つかの実施態様において、上記ダウンミックス指示情報は各オブジェクトの各タイルに関して別個の指示情報を含むことができ、前記エンコーダは、各タイルに関して、当該タイルがダウンミックスされるかを決定することができ、もしそうなら、該エンコーダはどの他のタイル又は複数のタイルと共に該ダウンミックス処理があるべきかを決定することができる。このように、斯様な実施態様では、全てのタイルに対して、ダウンミックス処理の個々のタイルに基づく最適化を実施することができる。確かなことに、所与の目標レートに対する最高のオーディオ品質を達成するために全体の最適化処理を実行することができる。
当該方法は、特に所与のオブジェクトの幾つかのタイルが他のタイルと一緒にダウンミックスされることを可能にし、該オブジェクトの他のタイルは如何なるダウンミックス処理もなしに符号化される。このように、1つのオブジェクトの符号化は、ダウンミックスタイル及び非ダウンミックスタイルの両方を含むことができる。このことは、符号化効率及び/又は品質を大幅に改善し得る。
例えば、2つのオーディオオブジェクトは、所与の時間セグメントにおいて、知覚的に余り重要でない(例えば、小さな信号値のために)幾つかの周波数間隔を含む一方、他の周波数間隔は知覚的に一層重要であることがあり得る。この場合、上記の知覚的に余り重要でない間隔内のタイルは一緒にダウンミックスすることができる一方、上記の知覚的に一層重要な間隔はクロストークを防止すると共に品質を改善するために別にとっておく。
また、異なるダウンミックスに含まれるオブジェクトを変化させることもできることが理解されよう。例えば、所与のオブジェクトに関して、或るタイルは或る他のオブジェクトとダウンミックスすることができる一方、他のタイルは他のオブジェクトとダウンミックスすることができる。特定の例として、より低い周波数に対しては、オブジェクト1及び2をダウンミックスすることが有利であり得る一方、より高い周波数に対してはオブジェクト1及び3をダウンミックスすることが有利であり得る(例えば、オブジェクト1が高い及び低い両周波数において低い信号エネルギを有し、オブジェクト2が低い周波数では低い信号エネルギを有するが高い周波数では高い信号エネルギを有し、オブジェクト3が高い周波数では低い信号エネルギを有するが低い周波数では高い信号エネルギを有する例において)。
所与のダウンミックスタイルにダウンミックスされるタイルの数は、多くの実施態様では、2つのタイルに限定されるものではなく、幾つかの実施態様及び筋書きでは、確かなことに、1以上のダウンミックスタイルを、3、4又はもっと多くのタイルをダウンミックスすることにより発生することができる。
上記柔軟性は更に時間方向にも広がり、タイルのダウンミックス及び非ダウンミックスタイルへの分布は、確かに、時間的に変化させることができる。このように、該分布は動的に変化させることができ、特に、時間セグメント毎に新たな分布/割り当てを決定することができる。
全てのオブジェクトがダウンミックスされた1以上のタイルを含むことは必ずしも必要とされないことも分かるであろう。オブジェクトの1以上の全てのタイルが非ダウンミックスタイルであり、これにより、これらオブジェクトの高いオーディオ品質を提供することも確かに可能である。このことは、或るオブジェクトが特に知覚的に重要なものである(音楽オーディオシーンのためのボーカル等)場合に、特に適切であり得る。同様に、1以上のオーディオオブジェクトの全タイルが完全にダウンミックスタイルとして符号化されることも可能である。
可能性のある柔軟性の一例が図16に示されており、該図は1つの時間セグメント内でのタイルの分布を示している。図16において、各列は所与のオーディオ入力信号のタイルからなり、各行は特定の周波数間隔(タイルに対応する)である。該例は、5つのオーディオオブジェクト(文字oにより示されている)及び2つのオーディオチャンネル信号(文字cにより示されている)を示す。更に、該例は、各周波数間隔に関して2つのダウンミックス(文字dにより示されている)を含むことができるセグメントの符号化に基づいている。
該例において、第1周波数間隔(即ち、第1行)は2つのダウンミックスタイルのみを用いて符号化される。即ち、この間隔においては、最も左側の3つのオブジェクト及び2つのオーディオチャンネルを第1ダウンミックスへと組み合わせることができ、最も右側の2つのオブジェクトのタイルを第2ダウンミックスタイルへと組み合わせることができる。
次の周波数間隔/行においては、全てのタイルが非ダウンミックスタイルとして符号化される。次の周波数間隔/行においては、2つのオーディオチャンネルの2つのタイルが1つのダウンミックスタイルにダウンミックスされる一方、全てのオブジェクトタイルは非ダウンミックスタイルとして符号化される。次の周波数間隔/行においては、最も右の2つのオブジェクトの2つのタイルが1つのダウンミックスタイルにダウンミックスされる一方、他の全てのタイルは非ダウンミックスタイルとして符号化される等々となる。
結果としての信号/タイルの効率的な符号化のために、例えば疎行列記憶(sparse matrix storage)等の既存の技術を用いることができる。加えて又は代わりに、当該タイルの符号化におけるビットレート効率を改善するために種々の技術を採用することができる。例えば、所与のオブジェクト/タイルに対する量子化レベルを、当該シーンにおける他のオブジェクト/タイルによる空間的マスキングにより増加させることができる。極端なケースでは、例えば、所与のタイルは全く伝送しなくてもよい(即ち、零に量子化される)。
どのタイルが(及びどのダウンミックスに)ダウンミックスされるかを選択するために異なる方法、アルゴリズム又は評価基準を用いることもできることが理解されよう。
多くの実施態様において、前記選択器1303は、符号化されるオーディオ信号のための目標データレートに応じて、ダウンミックスするためのタイルを選択することができる。特に、ダウンミックスされるタイルの数、及び/又は符号化オーディオ信号に含まれるダウンミックスの数は、利用可能な(即ち、目標)データレートに依存し得る。このように、より低いデータレートに対しては、相対的に多数のダウンミックスが発生される。目標データレートが増加するにつれて、ダウンミックスの数は減少され、データレートが十分に高い場合、当該システムは如何なるダウンミックスも実行しないように選択することができる。極端に低いビットレートにおいて、ダウンミックスの数は小さくすることはできるが、各ダウンミックスは多数のタイルのダウンミックスとなり得る。このように、相対的に少数のダウンミックスが、複数のオーディオ信号のうちの殆どの(全部ではなくても)周波数タイルを表すことができる。
選択器1303は、タイルのエネルギに応じて(も)選択を実行することができる。詳細には、当該タイルにおける信号成分の一層低いエネルギを表すタイルはダウンミックスすることができる一方、当該タイルにおける信号の成分の一層高いエネルギを示すタイルは非ダウンミックスタイルとして符号化することができる。より低いエネルギは余り知覚的に重要ではない傾向があるので、ダウンミックス符号化の影響(クロストーク等)は、それに応じて減少され得る。幾つかの筋書きにおいては、所与のダウンミックスに組み合わされるタイルのエネルギを平衡させることが有利であり得る。このことは、例えば、信号が該所与のタイルにおいて一層似たものとなるのでクロストークを減少させ得る。
幾つかの実施態様において、上記選択はタイルの空間的特徴に応じたものとすることができる。例えば、オーディオオブジェクトは互いに近くに配置されそうなオーディオオブジェクトを表し得、従って、これらのタイルは一緒にダウンミックスされるように選択することができる。多くの実施態様において、空間的に隣接したオブジェクトは組み合わされるであろう。この根拠は、オブジェクトの間に一層大きな分離が必要とされるほど、一層大きな空間的露呈(unmasking)が生じるということである。特に、空間的に互いに離れた2つのオーディオ源に対するよりも、2つの接近したオーディオ源の間である場合の方が、クロストークは余り知覚されそうにない。
幾つかの実施態様において、上記選択は、タイルの対の間のコヒーレンス特性に応じたものとすることができる。密に相関された信号の間のクロストークは、非常に緩くしか相関されていない信号の間におけるよりも、余り知覚されそうにない。
前記ダウンミックス指示情報による情報の固有の表現は、個々の実施態様の固有の要件及び優先度に依存し得る。
一例として、予め決められる制限は、オーディオオブジェクトが特定の対でのみ一緒にダウンミックスされ得るということであり得る。例えば、オブジェクト1のタイルはオブジェクト2のタイル(同一の周波数及び時間間隔における)とのみ一緒にダウンミックスすることができ、オブジェクト3のタイルはオブジェクト4のタイルとのみダウンミックスすることができ、等々である。このような場合、前記ダウンミックス指示情報はどのタイルがダウンミックスされたかを単に示せばよく、特定のダウンミックスにダウンミックスされたタイルの識別情報を明示的に示す必要はない。例えば、ダウンミックス指示情報はオブジェクト1及び2の各周波数間隔に対して1ビットを含めばよく、その場合において、該ビットは当該タイルがダウンミックスされたか否かを単に示す。デコーダは、該ビットを解釈し、当該タイルがダウンミックスであることを該ビットが示す場合、該タイルのアップミックスを実行してオブジェクト1及び2のタイルを発生することができる。
ダウンミックス指示情報は、明示的である必要はなく、他のデータにより供給することができる。特に、ダウンミックスがパラメータデータを発生する実施態様の場合、タイルがダウンミックスタイルであるとの指示情報は、単にパラメータアップミックスデータの存在により供給することができる。このように、符号化タイルからアップミックスタイル(又は複数のアップミックスタイル)をどの様に発生するかを記述するパラメータが当該オーディオ信号において供給される場合、このことは、当該タイルが確かにダウンミックスタイルであるとの指示情報を供給することになる。
多くの実施態様において、ダウンミックス指示情報は、どのオブジェクトタイルが所与のダウンミックスタイルにダウンミックスされたかを示すことができる。ダウンミックス指示情報は、ダウンミックスタイルとして符号化された1以上の(恐らくは、全ての)タイルに関して、当該ダウンミックスタイルとオーディオオブジェクトのタイルとの間のリンクを提供することができる。該リンクは、当該ダウンミックスにダウンミックスされたタイルを識別することができる。例えば、該リンクデータは、所与のダウンミックスタイルに関して該タイルが、例えば、オブジェクト1及び2のダウンミックスであることを示すことができ、他のダウンミックスタイルに関しては該タイルが、例えば、オブジェクト2、4及び7のダウンミックスであることを示すことができ、等々である。
ダウンミックスタイルにダウンミックスされたオブジェクトタイルの識別情報を含めることは、柔軟性を増加させることができ、どのタイルをダウンミックスすることができるかについての予め決められる制限の如何なる必要性も回避することができる。当該方法は、ダウンミックスのタイルを、所与のデータレートに対して最適化された(知覚的に)オーディオ品質を提供するために如何なる組み合わせにおいてもダウンミックスすることができる完全に自由な最適化を可能にし得る。
ダウンミックス指示情報は、異なる実施態様では異なって構成することもできることが分かる。特に、ダウンミックス指示情報はオリジナルのオブジェクトタイル(もっと一般的には、符号化されたオーディオ信号のタイル)に関して供給することができることが分かる。例えば、各オブジェクトの各タイルに対して、パラメータアップミックスデータの存在は、該タイルがダウンミックスタイルであることを示すことができる。このタイルに関して、該タイルを特定の符号化ダウンミックスタイルにリンクするデータが供給される。例えば、該データは、符号化データ信号における、対応するダウンミックスタイルが符号化されているデータ位置に対するポインタを供給することができる。
等価的に、ダウンミックス指示情報は、符号化されたタイルに(及び、特にオーディオ信号の符号化ダウンミックスタイルに)関して供給することができる。例えば、オーディオ信号の符号化タイルに対して、オーディオ信号はどのオブジェクトを当該ダウンミックスタイルが表すかを識別するデータ部を含むことができる。
これらの方法は等価であって、符号化タイルを固有に参照するダウンミックス指示情報はオブジェクトタイルに関するダウンミックス指示情報も供給することが分かる。例えば、
オブジェクトAのタイルNは符号化タイルXにダウンミックスされる、
オブジェクトBのタイルMは符号化タイルXにダウンミックスされる、
ことを示すデータ(即ち、オブジェクトタイルを参照するデータ)により供給される情報は、
符号化タイルXはオブジェクトAのタイルN及びオブジェクトBのタイルMのダウンミックスである、
ことを示すデータ(即ち、符号化タイルを参照するデータ)と正確に同じ情報を供給する。
符号化データ信号におけるデータの配置は、特定の実施態様に依存し得る。例えば、幾つかの実施態様において、ダウンミックス指示情報を表すデータは、符号化データタイル及びパラメータ最新情報とは別の1つのデータ部内で供給することができる。他の実施態様において、該データは散在され得、例えば各符号化データタイルには、アップミックスパラメータ及びダウンミックスに含まれるオブジェクトタイルの識別情報を有するフィールドが付随する。
例えば、符号化オーディオ信号は、データストリーム内に連続して配置されたオブジェクト信号により構成することができる。このように、第1データはオブジェクト1のために供給することができる。このデータは、複数の連続したデータ区域を有することができ、これらデータ区域の各々が1つのタイルを表す(例えば、増加する周波数の順に)。このように、第1区域はオブジェクト1のタイル1のための符号化タイルを含み、次の区域はオブジェクト1のタイル2のための符号化タイルを含み、等々とすることができる。
或る区域が非ダウンミックスタイルである符号化タイルを有する場合、該区域には符号化タイルデータのみが含まれる。しかしながら、当該タイルがダウンミックスタイルとして符号化されている場合、該区域は符号化ダウンミックスデータ、即ちダウンミックスタイルを有する。しかしながら、該区域は、加えて、該ダウンミックスタイルからオブジェクト1のためのタイルを発生するためのパラメータアップミックスパラメータを含むフィールドを有する。これは、当該区域がダウンミックスタイルを含むことを示す。更に、どの他のタイル(又は複数のタイル)が当該ダウンミックスに組み合わされているかを識別するフィールドが含まれる(例えば、該フィールドはオブジェクト2の対応するタイルも当該ダウンミックスにより表されていることを示すデータを含むことができる)。
このように、符号化オーディオ信号は第1オーディオオブジェクトの全てのタイルのための連続した区域を含むことができる。
次いで、同じ方法が次のオーディオオブジェクトに対して繰り返される。即ち、オブジェクト1に関する符号化データに続いて、オブジェクト2に関する符号化データが、各々が1つのタイルに対応する複数の区域で供給される。しかしながら、この場合、先の区域(例えば、前のオブジェクトに関する)において既に供給されたダウンミックス符号化データは含まれない。例えば、ダウンミックスがオブジェクト1及び2のタイル2に関して発生される場合、この符号化ダウンミックスデータはオブジェクト1のタイル2に関して既に供給されているので、オブジェクト2のタイル2のためのデータ区域は如何なる符号化データも含まない。しかしながら、幾つかの実施態様では、上記データ区域は当該ダウンミックスタイルからオブジェクト2のタイル2を発生するためのアップミックスパラメータを有することができる。他の実施態様では、このデータは供給されなくてもよい(即ち、盲的アップミックスを用いることができる)か、又は符号化タイルデータと共に供給されてもよい(即ち、オブジェクト1のタイル2のためのデータ区域において)。このような実施態様において、現在の区域は空とするか又は跳ばすことができる。
この方法は、符号化されたダウンミックスデータは符号化データ信号の連続するタイル配置に最初に出会った時のみ含まれるという原則で全てのオブジェクトに対して継続することができる。各時間セグメントに対する符号化データは、時間セグメントが符号化オーディオ信号において連続的に配置される形で、上述した様に供給することができる。
多くの他の配置が可能であり、如何なる好適な配置も使用することができることが分かる。
上記説明は、オーディオオブジェクトに焦点を合わせた。しかしながら、本方法は他のオーディオ信号にも適用可能であることが分かる。詳細には、本方法は、空間多チャンネル信号のオーディオ信号/チャンネル及び/又は公称スピーカ構成における公称位置に関連するチャンネルのためのオーディオ信号の符号化に適用することができる。特に、先の説明におけるオーディオオブジェクトの参照は、適宜、オーディオ信号の参照であると考えることができる。
本方法は、確かに、ハイブリッドなチャンネル/オブジェクトに基づくシステムにおいて使用することができる。このような例が図17に示されている。該例においては、オーディオチャンネル及びオブジェクトの両方が、オーディオオブジェクトに関して前述したのと同様の方法で処理される。エンコーダはオブジェクト及び/又はチャンネルのどのタイルが組み合わされるべきかを決定する。この選択は、オーディオチャンネル及びオブジェクトのタイルを(ハイブリッド)ダウンミックスタイルに固有に組み合わせることができる。
上述した説明は、明瞭化のために、本発明の実施態様を異なる機能回路、ユニット及びプロセッサに関して説明したことが理解される。しかしながら、異なる機能回路、ユニット又はプロセッサの間での如何なる好適な分散も、本発明を損なうことなく使用することができることが分かる。例えば、別個のプロセッサ又はコントローラにより実行されるべきものとして図示された機能は、同一のプロセッサ又はコントローラにより実行することができる。従って、特定の機能ユニット又は回路の参照は、正確な論理的又は物理的構成又は編成を示すというより、記載した機能を提供するための適切な手段の参照としてのみ見られるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウエア又はこれらの組み合わせを含む如何なる好適な形態で実施化することもできる。本発明は、オプションとして、少なくとも部分的に1以上のデータプロセッサ及び/又はデジタル信号プロセッサ上で動作するコンピュータプログラムとして実施化することもできる。本発明の一実施態様の構成要素及び構成部品は、物理的に、機能的に及び論理的に如何なる好適な態様で実施化することもできる。確かなことに、当該機能は単一のユニットで、複数のユニットで又は他の機能ユニットの一部として実施化することができる。かくして、本発明は単一のユニットで実施化することができるか、又は異なるユニット、回路及びプロセッサの間に物理的に及び機能的に分散させることができる。
以上、本発明を幾つかの実施態様に関連して説明したが、これは、ここに記載した特定の形態に限定することを意図するものではない。むしろ、本発明の範囲は添付請求項によってのみ限定されるものである。更に、或るフィーチャは特定の実施態様に関連して説明されているように見えるかも知れないが、当業者であれば、記載された実施態様の種々のフィーチャは本発明に従って組み合わせることができることを認識するであろう。尚、請求項において、有するなる文言は、他の構成要素又はステップの存在を除外するものではない。
更に、個別に掲載されているが、複数の手段、エレメント、回路又は方法ステップは、例えば単一の回路、ユニット又はプロセッサにより実施化することができる。更に、個々のフィーチャは異なる請求項に含まれているかもしれないが、これらは有利に組み合わせることができ、異なる請求項に含まれることは、フィーチャの組み合わせが可能及び/又は有利でないことを意味するものではない。また、或るフィーチャを或る分類の請求項に含めることは、この分類への限定を意味するものではなく、むしろ、該フィーチャが他の請求項分類にも、適宜、等しく適用可能であることを示すものである。更に、請求項におけるフィーチャの順序は、斯かるフィーチャが実施されるべき如何なる特定の順序を意味するものではなく、特に、方法の請求項における個々のステップの順序は、これらステップが該順序で実行されるべきであることを意味するものではない。むしろ、これらステップは如何なる好適な順序で実行することもできる。更に、単数形の参照は複数を排除するものではない。このように、“或る”、“第1”、“第2”等の参照は、複数を排除するものではない。また、請求項における符号は明瞭化のための例として単に設けられたもので、如何なる形でも当該請求項の範囲を限定するものと見なしてはならない。

Claims (17)

  1. 複数のオーディオ信号を表す符号化データ信号を受信する受信器であって、前記符号化データ信号は前記複数のオーディオ信号に関する符号化時間周波数タイルを有し、これら符号化時間周波数タイルは非ダウンミックス時間周波数タイル及びダウンミックス時間周波数タイルを有し、各ダウンミックス時間周波数タイルは前記複数のオーディオ信号の少なくとも2つの時間周波数タイルのダウンミックスであり、各非ダウンミックス時間周波数タイルは前記複数のオーディオ信号の1つのみの時間周波数タイルを表し、前記符号化時間周波数タイルのダウンミックス時間周波数タイル又は非ダウンミックス時間周波数タイルとしての割り当ては、時間周波数タイルの空間的特徴を反映し、前記符号化データ信号は前記複数のオーディオ信号の時間周波数タイルに関するダウンミックス指示情報を更に有し、該ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示す受信器と、
    前記符号化時間周波数タイルから一群の出力信号を発生する発生器であって、該出力信号の発生が、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対するアップミックス処理を有する発生器と、
    を有し、
    前記複数のオーディオ信号のうちの少なくとも1つのオーディオ信号が、前記複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである2つのダウンミックス時間周波数タイルにより表され、
    少なくとも1つのダウンミックス時間周波数タイルが、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクトと音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルとのダウンミックスである、デコーダ。
  2. 前記符号化データ信号がパラメータアップミックスデータを更に有し、前記発生器が該パラメータアップミックスデータに応じて前記アップミックス処理を適応化する、請求項1に記載のデコーダ。
  3. 前記発生器が、前記複数のオーディオ信号に関する時間周波数タイルを、空間音源構成に対応する出力信号にマッピングするレンダリングユニットを有する、請求項1に記載のデコーダ。
  4. 前記発生器は前記符号化時間周波数タイルに対してマトリクス演算を適用することにより前記一群の出力信号のための時間周波数タイルを発生し、該マトリクス演算の係数は、前記符号化時間周波数タイルが非ダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示す符号化時間周波数タイルに対してではなく、前記符号化時間周波数タイルがダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示す符号化時間周波数タイルに対してアップミックス成分を含む、請求項1に記載のデコーダ。
  5. 少なくとも1つのオーディオ信号が、復号された信号において、少なくとも1つの非ダウンミックス時間周波数タイル及び少なくとも1つのダウンミックス時間周波数タイルにより表される、請求項1に記載のデコーダ。
  6. 少なくとも1つのダウンミックス時間周波数タイルに関する前記ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルと符号化されたダウンミックス時間周波数タイルとの間のリンクを有する、請求項1に記載のデコーダ。
  7. 前記複数のオーディオ信号のうちの少なくとも1つのオーディオ信号が、非ダウンミックス時間周波数タイル又はダウンミックス時間周波数タイルでない少なくとも1つの符号化時間周波数タイルを含む符号化時間周波数タイルにより表される、請求項1に記載のデコーダ。
  8. 前記非ダウンミックス時間周波数タイルの少なくとも幾つかが波形符号化される、請求項1に記載のデコーダ。
  9. 前記ダウンミックス時間周波数タイルの少なくとも幾つかが波形符号化される、請求項1に記載のデコーダ。
  10. 前記発生器は前記ダウンミックス時間周波数タイルをアップミックスして、ダウンミックス時間周波数タイルの前記複数のオーディオ信号の少なくとも1つに関するアップミックスされた時間周波数タイルを発生し、前記発生器は前記一群の出力信号のための時間周波数タイルを、前記符号化時間周波数タイルがダウンミックス時間周波数タイルであることを前記ダウンミックス指示情報が示すタイルに関する前記アップミックスされた時間周波数タイルを用いて発生する、請求項1に記載のデコーダ。
  11. 複数のオーディオ信号を表す符号化データ信号を受信するステップであって、前記符号化データ信号は前記複数のオーディオ信号に関する符号化時間周波数タイルを有し、これら符号化時間周波数タイルは非ダウンミックス時間周波数タイル及びダウンミックス時間周波数タイルを有し、各ダウンミックス時間周波数タイルは前記複数のオーディオ信号の少なくとも2つの時間周波数タイルのダウンミックスであり、各非ダウンミックス時間周波数タイルは前記複数のオーディオ信号の1つのみの時間周波数タイルを表し、前記符号化時間周波数タイルのダウンミックス時間周波数タイル又は非ダウンミックス時間周波数タイルとしての割り当ては、時間周波数タイルの空間的特徴を反映し、前記符号化データ信号は前記複数のオーディオ信号の時間周波数タイルに関するダウンミックス指示情報を更に有し、該ダウンミックス指示情報が、前記複数のオーディオ信号の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すステップと、
    前記符号化時間周波数タイルから一群の出力信号を発生するステップであって、該出力信号の発生が、前記ダウンミックス指示情報によりダウンミックス時間周波数タイルであると示された符号化時間周波数タイルに対するアップミックス処理を有するステップと、
    を有し、前記複数のオーディオ信号のうちの少なくとも1つのオーディオ信号が、前記複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである2つのダウンミックス時間周波数タイルにより表され、少なくとも1つのダウンミックス時間周波数タイルが、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクトと音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルとのダウンミックスである、復号する方法。
  12. 各々が複数の時間周波数タイルを有する複数のオーディオ信号を入力する入力部と、
    前記複数の時間周波数タイルのうちのダウンミックスされるべき第1部分群を選択する選択器と、
    前記第1部分群の時間周波数タイルをダウンミックスして、ダウンミックス時間周波数タイルを発生するダウンミキサと、
    前記ダウンミックス時間周波数タイルを符号化することにより符号化ダウンミックス時間周波数タイルを発生する第1エンコーダと、
    前記オーディオ信号の時間周波数タイルの第2部分群を該第2部分群の時間周波数タイルをダウンミックスせずに符号化することにより符号化非ダウンミックス時間周波数タイルを発生する第2エンコーダと、
    前記第1部分群及び前記第2部分群の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すダウンミックス指示情報を発生するユニットと、
    前記複数のオーディオ信号を表す符号化オーディオ信号を発生する出力部であって、該符号化オーディオ信号が前記符号化非ダウンミックス時間周波数タイル、前記符号化ダウンミックス時間周波数タイル及び前記ダウンミックス指示情報を有する出力部と、
    を有し、
    前記選択器が、前記第1部分群の時間周波数タイルを該時間周波数タイルの空間的特徴に応じて選択し、前記複数のオーディオ信号のうちの少なくとも1つのオーディオ信号が、前記複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである2つのダウンミックス時間周波数タイルにより表され、少なくとも1つのダウンミックス時間周波数タイルが、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクトと音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルとのダウンミックスである、エンコーダ。
  13. 前記選択器が、前記第1部分群の時間周波数タイルを前記符号化オーディオ信号に対する目標データレートに応じて選択する、請求項12に記載のエンコーダ。
  14. 前記選択器が、前記第1部分群の時間周波数タイルを:
    前記時間周波数タイルのエネルギ;及び
    前記時間周波数タイルの対の間のコヒーレンス特性、
    のうちの少なくとも1つに応じて選択する、請求項12に記載のエンコーダ。
  15. 各々が複数の時間周波数タイルを有する複数のオーディオ信号を入力するステップと、
    前記複数の時間周波数タイルのうちのダウンミックスされるべき第1部分群を選択するステップと、
    前記第1部分群の時間周波数タイルをダウンミックスして、ダウンミックス時間周波数タイルを発生するステップと、
    前記ダウンミックス時間周波数タイルを符号化することにより符号化ダウンミックス時間周波数タイルを発生するステップと、
    前記オーディオ信号の時間周波数タイルの第2部分群を該第2部分群の時間周波数タイルをダウンミックスせずに符号化することにより符号化非ダウンミックス時間周波数タイルを発生するステップと、
    前記第1部分群及び前記第2部分群の時間周波数タイルがダウンミックス時間周波数タイルとして符号化されるか又は非ダウンミックス時間周波数タイルとして符号化されるかを示すダウンミックス指示情報を発生するステップと、
    前記複数のオーディオ信号を表す符号化オーディオ信号を発生するステップであって、該符号化オーディオ信号が前記符号化非ダウンミックス時間周波数タイル、前記符号化ダウンミックス時間周波数タイル及び前記ダウンミックス指示情報を有するステップと、
    を有し、
    前記選択するステップが、前記第1部分群の時間周波数タイルを該時間周波数タイルの空間的特徴に応じて選択するステップを含み、前記複数のオーディオ信号のうちの少なくとも1つのオーディオ信号が、前記複数のオーディオ信号のうちの異なる組のオーディオ信号のダウンミックスである2つのダウンミックス時間周波数タイルにより表され、少なくとも1つのダウンミックス時間周波数タイルが、音源レンダリング構成の公称音源位置に関連付けられていないオーディオオブジェクトと音源レンダリング構成の公称音源位置に関連付けられたオーディオチャンネルとのダウンミックスである、符号化する方法。
  16. 請求項12に記載のエンコーダ及び請求項に記載のデコーダを有する、符号化・復号システム。
  17. コンピュータ上で実行された場合に、請求項11又は請求項15に記載の方法における全てのステップを実行するコンピュータプログラムコード手段を有する、コンピュータプログラム。
JP2015521121A 2012-07-09 2013-07-09 オーディオ信号の符号化及び復号 Active JP6231093B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261669197P 2012-07-09 2012-07-09
US61/669,197 2012-07-09
PCT/IB2013/055628 WO2014009878A2 (en) 2012-07-09 2013-07-09 Encoding and decoding of audio signals

Publications (3)

Publication Number Publication Date
JP2015527609A JP2015527609A (ja) 2015-09-17
JP2015527609A5 JP2015527609A5 (ja) 2016-08-25
JP6231093B2 true JP6231093B2 (ja) 2017-11-15

Family

ID=49170767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015521121A Active JP6231093B2 (ja) 2012-07-09 2013-07-09 オーディオ信号の符号化及び復号

Country Status (9)

Country Link
US (1) US9478228B2 (ja)
EP (2) EP3748632A1 (ja)
JP (1) JP6231093B2 (ja)
CN (1) CN104428835B (ja)
BR (1) BR112015000247B1 (ja)
MX (1) MX342150B (ja)
RU (1) RU2643644C2 (ja)
WO (1) WO2014009878A2 (ja)
ZA (1) ZA201500888B (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9489954B2 (en) * 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
UA112833C2 (uk) 2013-05-24 2016-10-25 Долбі Інтернешнл Аб Аудіо кодер і декодер
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
AU2016269886B2 (en) 2015-06-02 2020-11-12 Sony Corporation Transmission device, transmission method, media processing device, media processing method, and reception device
US10693936B2 (en) 2015-08-25 2020-06-23 Qualcomm Incorporated Transporting coded audio data
US9961467B2 (en) * 2015-10-08 2018-05-01 Qualcomm Incorporated Conversion from channel-based audio to HOA
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
EP3579577A1 (en) * 2016-03-15 2019-12-11 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Apparatus, method or computer program for generating a sound field description
US10891962B2 (en) 2017-03-06 2021-01-12 Dolby International Ab Integrated reconstruction and rendering of audio signals
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding
US11930348B2 (en) * 2020-11-24 2024-03-12 Naver Corporation Computer system for realizing customized being-there in association with audio and method thereof
KR102500694B1 (ko) * 2020-11-24 2023-02-16 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법
JP2022083445A (ja) * 2020-11-24 2022-06-03 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
KR20230165855A (ko) * 2021-04-08 2023-12-05 노키아 테크놀로지스 오와이 공간 오디오 객체 분리
WO2023077284A1 (zh) * 2021-11-02 2023-05-11 北京小米移动软件有限公司 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
CN102122509B (zh) * 2004-04-05 2016-03-23 皇家飞利浦电子股份有限公司 多信道解码器和多信道解码方法
US7831434B2 (en) * 2006-01-20 2010-11-09 Microsoft Corporation Complex-transform channel coding with extended-band frequency coding
US9014377B2 (en) * 2006-05-17 2015-04-21 Creative Technology Ltd Multichannel surround format conversion and generalized upmix
US8345899B2 (en) * 2006-05-17 2013-01-01 Creative Technology Ltd Phase-amplitude matrixed surround decoder
CN103400583B (zh) * 2006-10-16 2016-01-20 杜比国际公司 多声道下混对象编码的增强编码和参数表示
JP5394931B2 (ja) * 2006-11-24 2014-01-22 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号の復号化方法及びその装置
CN101490744B (zh) * 2006-11-24 2013-07-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
JP2008252834A (ja) * 2007-03-30 2008-10-16 Toshiba Corp 音声再生装置
US8612237B2 (en) * 2007-04-04 2013-12-17 Apple Inc. Method and apparatus for determining audio spatial quality
JP5883561B2 (ja) * 2007-10-17 2016-03-15 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ アップミックスを使用した音声符号器
US8670576B2 (en) * 2008-01-01 2014-03-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
WO2010005050A1 (ja) * 2008-07-11 2010-01-14 日本電気株式会社 信号分析装置、信号制御装置及びその方法と、プログラム
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
MY154078A (en) * 2009-06-24 2015-04-30 Fraunhofer Ges Forschung Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
KR101615262B1 (ko) * 2009-08-12 2016-04-26 삼성전자주식회사 시멘틱 정보를 이용한 멀티 채널 오디오 인코딩 및 디코딩 방법 및 장치
KR101391110B1 (ko) * 2009-09-29 2014-04-30 돌비 인터네셔널 에이비 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
KR101666465B1 (ko) * 2010-07-22 2016-10-17 삼성전자주식회사 다채널 오디오 신호 부호화/복호화 장치 및 방법
US9530421B2 (en) * 2011-03-16 2016-12-27 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
KR20130093798A (ko) * 2012-01-02 2013-08-23 한국전자통신연구원 다채널 신호 부호화 및 복호화 장치 및 방법

Also Published As

Publication number Publication date
BR112015000247A2 (pt) 2017-06-27
CN104428835B (zh) 2017-10-31
EP2870603B1 (en) 2020-09-30
CN104428835A (zh) 2015-03-18
RU2643644C2 (ru) 2018-02-02
JP2015527609A (ja) 2015-09-17
BR112015000247B1 (pt) 2021-08-03
MX2015000113A (es) 2015-08-10
US9478228B2 (en) 2016-10-25
EP2870603A2 (en) 2015-05-13
WO2014009878A3 (en) 2014-03-13
EP3748632A1 (en) 2020-12-09
RU2015104074A (ru) 2016-08-27
US20150142453A1 (en) 2015-05-21
ZA201500888B (en) 2017-01-25
WO2014009878A2 (en) 2014-01-16
MX342150B (es) 2016-09-15

Similar Documents

Publication Publication Date Title
JP6231093B2 (ja) オーディオ信号の符号化及び復号
JP6096789B2 (ja) オーディオオブジェクトのエンコーディング及びデコーディング
JP5081838B2 (ja) オーディオ符号化及び復号
JP5097702B2 (ja) オーディオエンコード及びデコード
KR101858479B1 (ko) 제 1 및 제 2 입력 채널들을 적어도 하나의 출력 채널에 매핑하기 위한 장치 및 방법
JP5291227B2 (ja) オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
JP5455647B2 (ja) オーディオデコーダ
JP5284638B2 (ja) 方法、デバイス、エンコーダ装置、デコーダ装置、及びオーディオシステム
JP5171622B2 (ja) マルチチャンネルオーディオ信号の生成
JP6134867B2 (ja) レンダラ制御式空間アップミックス
JP6732739B2 (ja) オーディオ・エンコーダおよびデコーダ
CN110610712A (zh) 用于渲染声音信号的方法和设备以及计算机可读记录介质
JP6888172B2 (ja) 音場表現信号を符号化する方法及びデバイス
MX2008010631A (es) Codificacion y decodificacion de audio

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160706

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170828

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170919

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171018

R150 Certificate of patent or registration of utility model

Ref document number: 6231093

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250