JP2016540241A - オーディオ・エンコーダおよびデコーダ - Google Patents

オーディオ・エンコーダおよびデコーダ Download PDF

Info

Publication number
JP2016540241A
JP2016540241A JP2016525005A JP2016525005A JP2016540241A JP 2016540241 A JP2016540241 A JP 2016540241A JP 2016525005 A JP2016525005 A JP 2016525005A JP 2016525005 A JP2016525005 A JP 2016525005A JP 2016540241 A JP2016540241 A JP 2016540241A
Authority
JP
Japan
Prior art keywords
downmix
parameter
signal
audio object
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016525005A
Other languages
English (en)
Other versions
JP6396452B2 (ja
Inventor
プルンハーゲン,ヘイコ
クレイサ,ヤヌッシュ
ヴィレモーズ,ラルス
ヒルヴォーネン,トニ
Original Assignee
ドルビー・インターナショナル・アーベー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー・インターナショナル・アーベー filed Critical ドルビー・インターナショナル・アーベー
Publication of JP2016540241A publication Critical patent/JP2016540241A/ja
Application granted granted Critical
Publication of JP6396452B2 publication Critical patent/JP6396452B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本開示はオーディオ符号化の分野に、詳細にはオーディオ情報が複数の信号によって表現される空間的オーディオ符号化の分野に関する。ここで、それらの信号はオーディオ・チャネルまたは/およびオーディオ・オブジェクトを含みうる。詳細には、本開示はオーディオ・デコード・システムにおいてオーディオ・オブジェクトを再構成するための方法および装置を提供する。さらに、本開示は、そのようなオーディオ・オブジェクトをエンコードするための方法および装置を提供する。

Description

関連出願への相互参照
本願は2013年10月21日に出願された米国仮特許出願第61/893,770号および2014年4月1日に出願された第61/973,653号の優先権を主張するものである。同出願の内容はここに参照によってその全体において組み込まれる。
技術分野
本開示は、オーディオ符号化の分野に関し、詳細にはオーディオ情報が複数の信号によって表現される空間的オーディオ符号化の分野に関する。ここで、それらの信号はオーディオ・チャネルまたは/およびオーディオ・オブジェクトを含みうる。詳細には、本開示はオーディオ・デコード・システムにおいてオーディオ・オブジェクトを再構成するための方法および装置を提供する。さらに、本開示は、そのようなオーディオ・オブジェクトをエンコードするための方法および装置を提供する。
通常のオーディオ・システムでは、チャネル・ベースのアプローチが用いられる。各チャネルはたとえば、一つのスピーカーまたは一つのスピーカー・アレイのコンテンツを表わしうる。そのようなシステムのための可能な符号化方式は、離散的マルチチャネル符号化またはMPEGサラウンドのようなパラメトリック符号化を含む。
より最近では、新たな手法が開発されている。このアプローチは、オブジェクト・ベースであり、これはたとえば映画館用途において複雑なオーディオ・シーンを符号化するときに有利でありうる。オブジェクト・ベースのアプローチを用いるシステムでは、三次元オーディオ・シーンが、付随するメタデータ(たとえば位置メタデータ)をもつオーディオ・オブジェクトによって表現される。これらのオーディオ・オブジェクトはオーディオ信号の再生の間、三次元オーディオ・シーン内を動き回る。本システムはさらに、いわゆるベッド・チャネルを含んでいてもよい。ベッド・チャネルとは、たとえば上記のような通常のオーディオ・システムのためのある種の出力チャネルに直接マッピングされる信号として記述されてもよい。
オブジェクト・ベースのオーディオ・システムにおいて生じうる問題は、オブジェクト・オーディオ信号をいかにして効率的にエンコードおよびデコードし、符号化された信号の品質を保持するかである。可能な符号化方式は、エンコーダ側において、前記オーディオ・オブジェクトおよびベッド・チャネルから導出されたいくつかのチャネルを有するダウンミックス信号を生成する手段と、デコーダ側での前記オーディオ・オブジェクトおよびベッド・チャネルの再構成を容易にするサイド情報を生成する手段とを含む。
MPEG空間的オーディオ・オブジェクト符号化(MPEG SAOC: MPEG Spatial Audio Object Coding)は、オーディオ・オブジェクトのパラメトリック符号化のためのシステムを記述している。システムは、オブジェクトのレベル差および相互相関のようなパラメータによってオブジェクトの属性を記述する、サイド情報、すなわちアップミックス行列を送る。すると、これらのパラメータはデコーダ側でオーディオ・オブジェクトの再構成を制御するために使われる。このプロセスは、数学的に複雑であることがあり、しばしばパラメータによって明示的に記述されないオーディオ・オブジェクトの属性についての想定に依拠する必要がある。MPEG SAOCにおいて呈示される方法は、オブジェクト・ベースのオーディオ・システムについての要求されるビットレートを下げうる。だが、上記のように効率および品質をさらに高めるためにさらなる改善が必要とされることがありうる。
例示的実施形態についてここで付属の図面を参照して述べる。
例示的実施形態に従ってオーディオ・オブジェクトを再構成するためのデコーダの一般化されたブロック図である。 第一のデコード・モードに基づく、アップミックス行列のデコードを記述する。 第一のデコード・モードに基づく、アップミックス行列のデコードを記述する。 第二のデコード・モードに基づく、アップミックス行列のデコードを記述する。 複数の周波数帯域を含む時間フレームにおけるオーディオ・オブジェクトを再構成する方法を記述する。 複数の周波数帯域を含む時間フレームにおけるオーディオ・オブジェクトをエンコードするための、第一および第二のエンコード・モードをもつ方法を記述する。 例示的実施形態に従ってオーディオ・オブジェクトをエンコードするためのエンコーダの一般化されたブロック図である。 指標〔インジケーター〕のベクトルの例示的なエントロピー符号化を例として記述する。 すべての図面は概略的であり、一般に、本開示を明快にするために必要な部分を示すのみである。一方、他の部分は省略されたり示唆されるだけであったりすることがある。特に断わりのない限り、同様の参照符号は異なる図面における同様の部分を指す。
上記に鑑み、符号化効率と符号化されたオーディオ・オブジェクトの再構成品質との間のトレードオフを最適化することをねらいとするエンコーダおよびデコーダならびに関連する方法を提供することが目的である。
〈I.概観――デコーダ〉
第一の側面によれば、例示的実施形態は、デコード方法、デコーダおよびデコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、デコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもちうる。
例示的実施形態によれば、複数の周波数帯域を含む時間フレームにおけるオーディオ・オブジェクトを再構成する方法が提供される。本方法は:M>1個のダウンミックス信号を受領する段階であって、各ダウンミックス信号は当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせである、段階と、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域において前記M個のダウンミックス信号のどれが使われるべきかを示す諸第一指標を含む諸指標を受領する段階とを含む。第一のデコード・モードでは、前記第一指標のそれぞれは、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域のすべてのために使われるべきダウンミックス信号を示す。当該方法はさらに、それぞれある周波数帯域およびその周波数帯域についての前記諸第一指標によって示されるダウンミックス信号に関連付けられている諸第一パラメータを受領する段階と、その周波数帯域についての前記諸第一指標によって示される少なくとも前記諸ダウンミックス信号の重み付けされた和を形成することによって、前記複数の周波数帯域における当該オーディオ・オブジェクトを再構成する段階であって、各ダウンミックス信号はその関連付けられた第一パラメータに従って重み付けられる、段階とを含む。
この方法の利点は、少なくとも前記M個のダウンミックス信号から当該オーディオ・オブジェクトを再構成するためのパラメータを伝送するために必要とされるビットレートが低減されるということである。前記諸指標によって示される前記諸ダウンミックス信号についてのパラメータが本方法を実装するデコーダによって受領されるだけでいいからである。この方法のさらなる利点は、当該オーディオ・オブジェクトを再構成することの複雑さが低減されうるということである。任意の所与の時間フレームにおける再構成のためにどのパラメータが使われるかを指標が指示するからである。結果として、無用な0による乗算が回避されうる。当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域のすべてについてあるダウンミックス信号が使われるべきであることを示すために一つの指標だけを使うことの利点は、指標を伝送するための必要とされるビットレートが低減されうるということである。
実施形態によれば、本方法はさらに:K≧1個の脱相関された信号を形成する段階を含む。ここで、前記諸指標は、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域において前記K個の脱相関された信号のどれが使われるべきかを示す諸第二指標を含む。第一のデコード・モードでは、前記第二指標のそれぞれは、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域のすべてのために使われるべき脱相関された信号を示す。当該方法はさらに、それぞれある周波数帯域およびその周波数帯域についての前記諸第二指標によって示される脱相関された信号に関連付けられている諸第二パラメータを受領する段階を含む。前記複数の周波数帯域において当該オーディオ・オブジェクトを再構成する段階は、ある特定の周波数帯域についての前記諸ダウンミックス信号の前記重み付けされた和に、その特定の周波数帯域についての前記諸第二指標によって示される前記諸脱相関された信号の重み付けされた和を加える段階であって、各脱相関された信号はその関連付けられた第二パラメータに従って重み付けられる、段階とを含む。
当該オーディオ・オブジェクトを再構成するときに脱相関された信号を使うことによって、再構成されたオーディオ・オブジェクトの間のいかなる望まれない相関も低減されうる。
実施形態によれば、前記諸指標は、バイナリー・ベクトルの形で受領される。バイナリー・ベクトルの各要素は前記M個のダウンミックス信号または該当するならK個の脱相関された信号の一つに対応する。
指標をバイナリー・ベクトルの形で受領することの利点は、ビットストリームの形で受領されたデータからの単純な変換が提供されうるということである。
実施形態によれば、当該方法は、第二のデコード・モードを有する。第二のデコード・モードでは、各周波数帯域についての前記諸指標が、当該オーディオ・オブジェクトを再構成するときにその周波数帯域において使われるべき、前記M個のダウンミックス信号または該当するならK個の脱相関された信号のうちの一つを示す。このデコード・モードは、パラメータを伝送するための必要とされるビットレートの低減につながりうる。再構成されるべきオーディオ・オブジェクトの各周波数帯域について単一のパラメータが伝送されるだけでよいからである。
実施形態によれば、前記諸指標は、整数のベクトルの形で受領される。ここで、整数のベクトルの各要素は、ある周波数帯域と、その周波数帯域について使用されるべき単一のダウンミックス信号のインデックスとに対応する。これは、特定の周波数帯域についてどのダウンミックス信号が使用されるべきであるかを示す効率的な方法でありうる。整数のベクトルはさらに、前記デコーダによって受領されるビットストリームにおける前記諸指標の効率的な符号化をさらに容易にしうる。受領された整数ベクトルは、実施形態によれば、エントロピー符号化によって符号化されてもよい。
実施形態によれば、本方法はさらに、第一のデコード・モードおよび第二のデコード・モードのどちらが使用されるべきかを示すデコード・モード・パラメータを受領する段階を含む。これは、どのデコード・モードが使われるべきかの計算が必要とされないことがあるので、デコード複雑さを低減しうる。
実施形態によれば、前記諸指標は、前記パラメータとは別個に受領される。開示される方法を実装するデコーダは、まず、当該オーディオ・オブジェクトを再構成するときにどのダウンミックス信号および該当するなら脱相関された信号が使われるべきかを示す指標行列を再構成してもよい。指標行列は、デコーダによって受領されるビットストリームにおいて受領されるパラメータを示す。これは、どのデコード・モードが使われるかとは独立に、本方法の再構成段階の一般的な実装を許容しうる。パラメータより前に指標を別個に受領することによって、パラメータのバッファリングが必要ないことがありうる。
実施形態によれば、受領された諸第一パラメータおよび該当するなら諸第二パラメータの少なくともいくつかは、時間差分符号化および/または周波数差分符号化によって符号化される。第一および該当するなら第二パラメータは、エントロピー符号化によって符号化されてもよい。時間差分符号化および/または周波数差分符号化および/またはエントロピー符号化を使ってパラメータを符号化することの利点は、オーディオ・オブジェクトを再構成するためのパラメータを伝送するために必要とされるビットレートが低減されるということでありうる。
例示的実施形態によれば、処理機能をもつ装置で実行されたときに第一の側面のいずれかの方法を実行するよう適応されたコンピュータ・コード命令を含むコンピュータ可読媒体が提供される。
例示的実施形態によれば、複数の周波数帯域を含む時間フレームにおけるオーディオ・オブジェクトを再構成するデコーダが提供される。本デコーダは:それぞれ当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせであるM>1個のダウンミックス信号を受領し、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域において前記M個のダウンミックス信号のどれが使われるべきかを示す諸第一指標を含む諸指標を受領するよう構成された受領段を有しており、第一のデコード・モードでは、前記第一指標のそれぞれは、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域のすべてのために使われるべきダウンミックス信号を示す。前記受領段はさらに、それぞれある周波数帯域およびその周波数帯域についての前記諸指標によって示されるダウンミックス信号に関連付けられている諸第一パラメータを受領するよう構成されている。本デコーダはさらに、その周波数帯域についての前記諸第一指標によって示される前記諸ダウンミックス信号の重み付けされた和を形成することによって、前記複数の周波数帯域における当該オーディオ・オブジェクトを再構成するよう構成された再構成段を有しており、各ダウンミックス信号はその関連付けられた第一パラメータに従って重み付けられる。
〈II.概観――エンコーダ〉
第二の側面によれば、例示的実施形態は、エンコード方法、エンコーダおよびエンコードのためのコンピュータ・プログラム・プロダクトを提案する。提案される方法、エンコーダおよびコンピュータ・プログラム・プロダクトは一般に同じ特徴および利点をもちうる。一般に、第二の側面の特徴は第一の側面の対応する特徴と同じ利点をもちうる。
例示的実施形態によれば、ここではオーディオ・オブジェクトをエンコードする方法が提供される。該オブジェクトは、複数の周波数帯域を含む時間フレームによって表わされる。本方法は:M>1個のダウンミックス信号を決定する段階であって、各ダウンミックス信号は当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせである、段階を含む。第一のエンコード・モードでは、本方法は、オーディオ符号化システムにおけるデコーダにおいて当該オーディオ・オブジェクトを再構成するときに使われるべき前記M個のダウンミックス信号の部分集合を選択し、前記M個のダウンミックス信号の前記部分集合における各ダウンミックス信号を前記M個のダウンミックス信号のうちでそのダウンミックス信号を特定する指標によっておよび複数のパラメータによって表わす段階を含む。前記複数の周波数帯域のそれぞれについて一つのパラメータがあり、それぞれのパラメータは周波数帯域に関連付けられている。ここで、前記複数のパラメータの各パラメータは、関連付けられた周波数帯域について当該オーディオ・オブジェクトを再構成するときの前記ダウンミックス信号についての重みを表わす。
例示的実施形態によれば、本方法は、第一のエンコード・モードでは、オーディオ符号化システムにおけるデコーダにおいて当該オーディオ・オブジェクトを再構成するときに使われるべき前記K個の脱相関された信号の部分集合を選択し、前記K個の脱相関された信号の前記部分集合における各脱相関された信号を前記K個の脱相関された信号のうちでその脱相関された信号を特定する指標によっておよび複数のパラメータによって表わす段階を含む。前記複数の周波数帯域のそれぞれについて一つのパラメータがあり、それぞれのパラメータは周波数帯域に関連付けられている。ここで、前記複数のパラメータの各パラメータは、関連付けられた周波数帯域について当該オーディオ・オブジェクトを再構成するときの前記脱相関された信号についての重みを表わす。
例示的実施形態によれば、本方法は第二のエンコード・モードを含む。このモードでは、本方法はさらに、前記複数の周波数帯域のそれぞれについて、前記M個のダウンミックス信号または該当するならK個の脱相関された信号のうちの単一のものを選択し、選択された信号を、前記M個のダウンミックス信号および該当するならK個の脱相関された信号のうちでその選択された信号を特定する指標によって、およびその周波数帯域について当該オーディオ・オブジェクトを再構成するときのその選択された信号についての重みを表わすパラメータによって、表わす段階を含む。
複数の異なるエンコード・モードをもつことによって、再構成されるべきオーディオ・オブジェクトの内容に依存して、かつパラメータおよび指標を伝送するための利用可能なビットレートに依存して、現在最良の符号化モードがエンコーダによって選ばれうる。前記第一および第二のエンコード・モードの一方を使うとき、使用されるエンコード・モードは、デコーダに伝送されるデータ・ストリームに含められるデコード・モード・パラメータによって指示されてもよい。
例示的実施形態によれば、ダウンミックス信号または該当するなら脱相関された信号を特定する指標は、該ダウンミックス信号または該当するなら脱相関された信号についての重みを表わすパラメータとは別個に、デコーダへの伝送のためのデータ・ストリームに含められる。
オーディオ・オブジェクトをエンコードするときにエンコーダが異なるエンコード・モードの間で選択しうるとき、指標をパラメータとは別個にビットストリームに含めることは有利である。どのエンコード・モードが使用されようと一般的なデコーダがエンコードされたオーディオ・オブジェクトをデコードできることを容易にしうるからである。
例示的実施形態によれば、処理機能をもつ装置で実行されたときに第二の側面のいずれかの方法を実行するよう適応されたコンピュータ・コード命令を含むコンピュータ可読媒体が提供される。
例示的実施形態によれば、複数の周波数帯域を含む時間フレームにおいてオーディオ・オブジェクトをエンコードするエンコーダが提供される。本エンコーダは、それぞれ当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせであるM>1個のダウンミックス信号を決定するよう構成されたダウンミックス決定段と、第一のエンコード・モードでは、オーディオ符号化システムにおけるデコーダにおいて当該オーディオ・オブジェクトを再構成するときに使われるべき前記M個のダウンミックス信号の部分集合を選択し、前記M個のダウンミックス信号の前記部分集合における各ダウンミックス信号を前記M個のダウンミックス信号のうちでそのダウンミックス信号を特定する指標によっておよび複数のパラメータによって表わすよう構成された符号化段とを含む。前記複数の周波数帯域のそれぞれについて一つのパラメータがあり、それぞれのパラメータは周波数帯域に関連付けられている。ここで、前記複数のパラメータの各パラメータは、関連付けられた周波数帯域について当該オーディオ・オブジェクトを再構成するときの前記ダウンミックス信号についての重みを表わす。
〈III.例示的実施形態〉
ここで、オーディオ・オブジェクト(またはチャネル)の再構成の細部について述べる。
以下では、オブジェクトまたはチャネルのどちらであってもよいN個のもとのオーディオ信号x
xn(t) n=1,…,N
があると想定される。
これらはM個のダウンミックス信号y
ym(t) m=1,…,M
から再構成される。ここで、時間変数tは時間セグメントまたは時間‐周波数タイルに属する。信号を行ベクトルと考え、行列XおよびYにまとめることが便利である。サイズN×Mのダウンミックス信号についての再構成行列(またはアップミックス行列)CfおよびサイズN×K(Kは脱相関された信号の数)の脱相関された信号についての再構成行列(またはアップミックス行列)Pfが、
Figure 2016540241
に従って出力を生成するために使われる。ここで、zk(t) k=1,…,Kは脱相関プロセスからの出力であり、^付きのxn(t)はある時間セグメントについての再構成されたオーディオ・オブジェクトを表わす。行列記法では、単一の時間‐周波数タイルを取ると、次のようになる。
Figure 2016540241
行列CfおよびPfは典型的には時間‐周波数タイルについて推定され、ダウンミックス信号および脱相関された信号からオーディオ・オブジェクト(単数または複数)を再構成するときに使うべきそれぞれのデコードされたアップミックス行列を表わす。この場合、添え字fは周波数タイルに対応してもよい。CfおよびPfの再構成は後に具体的に述べる。典型的な更新時間間隔はたとえば23.4375Hz(すなわち48kHz/2048サンプル)であろう。周波数分解能はフル帯域にまたがる7から12個までの帯域でありうる。典型的には、周波数分割は非一様であり、知覚的基準に基づいて最適化される。所望される時間‐周波数分解能は、時間‐周波数変換によってまたはたとえばQMFを使うフィルタバンクによって得ることができる。
オーディオ・エンコード/デコード・システムは典型的には、たとえば入力オーディオ信号に好適なフィルタバンクを適用することによって、時間‐周波数空間を時間/周波数タイルに分割する。時間/周波数タイルとは、一般に、ある時間区間および周波数帯域に対応する時間‐周波数空間の部分を意味する。時間区間は典型的にはオーディオ・エンコード/デコード・システムにおいて使用される時間フレームの継続時間に対応する。周波数帯域は、周波数範囲全体のうち、エンコードまたはデコードされるオーディオ信号/オブジェクトの全周波数範囲の部分である。周波数帯域は典型的には、エンコード/デコード・システムにおいて使用されるフィルタバンクによって定義される一つまたはいくつかの近隣の周波数帯域に対応しうる。周波数帯域がフィルタバンクによって定義されるいくつかの近隣の周波数帯域に対応する場合、これはオーディオ信号のデコード・プロセスにおいて非一様な周波数帯域をもつことを許容する。たとえば、オーディオ信号のより高い周波数についてはより幅広い周波数帯域など。
脱相関された信号は、よってアップミックス行列Pは、場合によっては必要とされないことがあることを注意しておいてもよいだろう。ただし、一般的な場合には、時に低ビットレートで動作する間は、行列Pを使うことが有益である。
本開示は、関連するビットレート・コストを低減することによってデコーダへのC(およびP)内のデータの伝送を扱う。ビットレート・コストの低減は、行列CおよびP内のパラメータ・データが疎であることを課し、それを活用することによって達成される。パラメータ・データの疎な制限の活用は、効率的なビットストリーム・シンタックスの設計によって達成される。特に、シンタックス設計は、行列CおよびPが疎でありうることを考慮に入れ、よって有利なことにエンコーダは疎な符号化〔スパース符号化〕を用い、よってエンコーダにおける行列をスパース化し、スパース化戦略についての知識を利用してコンパクトなビットストリームを生成することができる。
図1は、ビットストリーム102からオーディオ・オブジェクトを再構成するためのオーディオ符号化システムにおけるデコーダ100の一般化されたブロック図を示している。デコーダ100は受領段104を有し、該受領段はビットストリーム102を受領し、デコードするよう構成された三つのサブ段116、118、120を有する。サブ段120はM>1個のダウンミックス信号110を受領し、デコードするよう構成されている。一般に、M個のダウンミックス信号110のそれぞれは再構成されるべき当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトから決定される。たとえば、M個のダウンミックス信号110のそれぞれは前記複数のオーディオ・オブジェクトの線形結合であってもよい。サブ段118は、オーディオ・オブジェクト114を再構成するときに前記複数の周波数帯域において前記M個のダウンミックス信号のどれが使われるべきかを示す諸第一指標を含む諸指標108を受領し、デコードするよう構成されている。サブ段116は、それぞれある周波数帯域およびその周波数帯域についての前記諸指標によって示されるダウンミックス信号に関連付けられている諸第一パラメータ106を受領し、デコードするよう構成されている。第一のデコード・モードでは、第一指標のそれぞれは、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域の全部について使用されるべきダウンミックスを指示する。ここで、図2との関連でデコード・モードについてさらに詳細に説明する。
図2では、ビットストリーム102の一部が描かれている。ビットストリームは、ビットストリームの表現の上に描かれている矢印によっても示されるように、ビットストリーム中の最も右の値が最初に受領され、最も左の値が最後に受領されるよう、エンコーダによって受領される。ビットストリーム102は、M個のダウンミックス信号(図2には示さず、この場合はM=4)のどれが、前記オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域において使用されるべきかを示す四つの指標を含む部分202を有する。M=4はこの時間フレームに特有であってもよく、他の時間フレームについてはMはより大きいまたはより小さいのでもよいことを注意しておいてもよいだろう。指標202はバイナリー・ベクトルの形で受領されてもよい。ビットストリーム102はさらに、それぞれ周波数帯域と、その周波数帯域についての前記諸指標によって示されるダウンミックス信号とに関連付けられているパラメータ204を含む。第一のデコード・モードの説明の簡単のため、図2では、オーディオ・オブジェクトについての完全なアップミックス行列206が再構成される。これは、そのオーディオ・オブジェクトについての再構成パラメータ(図2では、それぞれある周波数帯域およびその周波数帯域についての前記諸第一指標によって示されるダウンミックス信号に関連付けられている諸第一パラメータだけが使われる)の行列である。ここで、列は周波数帯域に対応し、行はダウンミックス信号に対応する。第一指標202における0に関連付けられている二つの行は0のみからなる、つまり関連付けられたダウンミックス信号はオブジェクトを再構成するときに使われないことを注意しておいてもよいだろう。エンコーダ100のいくつかの実施形態では、完全なアップミックス行列206が再構成され、他の実施形態ではデコーダの図1における再構成段112は、示されないダウンミックス信号はいずれもオーディオ・オブジェクトを再構成するときに使われないと単に想定してもよく、この実施形態によれば、完全なアップミックス行列はフルに再構成される必要はない。
デコーダは、ビットストリームから第一のデコード・モードが使用されるべきであるかどうかを判定する。デコーダはさらに、この特定の時間フレームがいくつの周波数帯域を含むかを判定する。周波数帯域の数はビットストリーム102において示されてもよく、あるいは他の任意の好適な仕方でオーディオ符号化システムにおけるエンコーダからデコーダ100に伝送されてもよい(たとえば、あらかじめ定義された値が使われてもよい)。この知識を用いて、アップミックス行列206はデコードされる。たとえば、指標202のうちの第一の値は、M個のダウンミックス信号のうちの第一のものがこの特定の時間フレームにおいてこの特定のオーディオ・オブジェクトについて使用されるべきでないことを示す。指標202のうちの第二の値は、M個のダウンミックス信号のうちの第二のものが使用されるべきであることを示す。第三の指標は、第三のダウンミックス信号も使用されるべきであることを示し、一方、第四の指標はデコーダに第四のダウンミックス信号が使用されるべきでないことを伝える。ひとたびデコーダにおいて指標が決定されたら、パラメータがデコードされることができる。デコーダは周波数帯域の数、たとえばこの場合は4、を知っているので、最初の四つのパラメータがそれぞれ続く諸周波数帯域および第二のダウンミックス信号に関連付けられていることを知る。同様に、次の四つのパラメータがそれぞれ続く諸周波数帯域および第三のダウンミックス信号に関連付けられていることを知る。結果として、アップミックス行列206が再構成される。このアップミックス行列(Cとも記される)は次いで、オーディオ・オブジェクトを再構成するために再構成段112によって使用される。再構成段は、その周波数帯域についての前記諸第一指標によって示される少なくとも前記諸ダウンミックス信号の重み付けされた和を形成することによって、前記複数の周波数帯域における当該オーディオ・オブジェクトを再構成するよう構成されている。各ダウンミックス信号はその関連付けられた第一パラメータに従って重み付けられる。換言すれば、再構成段は、前記諸第一指標によって示される各周波数帯域について、その周波数帯域についての前記諸第一指標によって示される少なくとも前記諸ダウンミックス信号の重み付けされた和を形成するよう構成され、各ダウンミックス信号はその関連付けられた第一パラメータに従って重み付けられ、それによりオーディオ・オブジェクトを再構成する。再構成の明細は式(1)および(2)との関連で上記されている。
デコーダ100の受領段104は、いくつかの実施形態によれば、K≧1個の脱相関された信号124を形成するよう構成されているサブ段122を有していてもよい。脱相関された信号は、前記M個のダウンミックス信号110の部分集合およびビットストリーム102から受領される脱相関パラメータに基づいていてもよい。脱相関された信号は、たとえばベッド信号またはチャネルのような受領段に利用可能な他の任意の信号に基づいて形成されてもよい。この実施形態によれば、受領され、デコードされた指標108はさらに、オーディオ・オブジェクト114を再構成するときに前記複数の周波数帯域において前記K個の脱相関された信号のどれが使われるべきかを示す諸第二指標を含む。受領され、デコードされたパラメータ106はさらに、それぞれある周波数帯域およびその周波数帯域についての前記諸第二指標によって示される脱相関された信号に関連付けられている諸第二パラメータを含んでいてもよい。第一のデコード・モードによれば、第二指標のそれぞれは、オーディオ・オブジェクト114を再構成するときに前記複数の周波数帯域のすべてについて使用されるべき脱相関された信号124を示す。これは図3との関連でさらに説明される。
図3は、第一のデコード・モードに基づくアップミックス行列のデコードを記述している。ここで、脱相関された信号がオーディオ・オブジェクトを再構成するために使われる。図3におけるアップミックス行列をデコードする方法は、図3ではビットストリーム102はPで表わされるアップミックス行列206の一部を生成するために使われる諸第二指標302および諸第二パラメータ304を含むというほかは、上記の図2との関連で使用され、述べたものと同じである。次いで、アップミックス行列のこの一部Pは、オーディオ・オブジェクトを再構成するために再構成段112によって使用される。再構成段は、この実施形態によれば、前記複数の周波数帯域における前記オーディオ・オブジェクトを再構成するときに、ある特定の周波数帯域についての前記諸ダウンミックス信号の重み付けされた和に、その特定の周波数帯域についての前記諸第二指標によって示される脱相関された信号の重み付けされた和を加えるよう構成されている。各脱相関された信号124はその関連付けられた第二パラメータに従って重み付けされる。再構成の明細は式(1)および(2)との関連で上記されている。
図4は、第二のデコード・モードに基づくアップミックス行列206のデコードを記述する。ここで、列は周波数帯域を表わし、四つの下の行はダウンミックス信号に対応し、二つの上の行は脱相関された信号に対応する。図4では、ビットストリーム102の一部が描かれている。ビットストリームは、ビットストリーム102の表現の上に描かれている矢印によっても示されるように、ビットストリーム中の最も右の値が最初に受領され、最も左の値が最後に受領されるよう、エンコーダによって受領される。第二のデコード・モードでは、各周波数帯域についての指標402、403は、前記オーディオ・オブジェクトを再構成するときにその周波数帯域において使用されるべき、M個のダウンミックス信号または該当するならK個の脱相関された信号のうちの単一のものを示す。図4では、オーディオ・オブジェクトを再構成するときに脱相関された信号は使われない。指標402、403は整数のベクトルの形で受領されてもよい。整数のベクトルの各要素は周波数帯域と、その周波数帯域について使われるべき前記単一のダウンミックス信号または脱相関された信号のインデックスとに対応してもよい。このように、パラメータ404、405は、それぞれ周波数帯域と、その周波数帯域について前記諸指標によって示される前記単一のダウンミックス信号または脱相関された信号に関連付けられている。
図4では、指標402、403のうちの第一のものは第一指標であり、(この例では四つのうちの)第一の周波数帯域について、M個(この例ではM=4)のダウンミックス信号のうちの第一のものが使用されるべきであることを示す。対応するパラメータは、再構成されたオーディオ・オブジェクトの第一の周波数帯域を第一のダウンミックス信号から再構成するときの重みが0.1であるべきであることを示す。同じように、第二指標は、第二の周波数帯域について、M個のダウンミックス信号のうちの第二のものが使用されるべきであることを示す。対応するパラメータは、再構成されたオーディオ・オブジェクトの第二の周波数帯域を第二のダウンミックス信号から再構成するときの重みが0.2であるべきであることを示す。同じ戦略は、第三の周波数帯域について使われる。第四の指標は第二指標403であり、第四の周波数帯域について、K個(この例ではK=2)の脱相関された信号のうちの第一のものが使われるべきであることを示す。対応するパラメータは、第二パラメータ405であり、再構成されたオーディオ・オブジェクトの第四の周波数帯域を第一の脱相関された信号から再構成するときの重みが0.4であるべきであることを示す。
いくつかの実施形態によれば、ビットストリーム102は、第一のデコード・モードおよび第二のデコード・モードのどちらが使用されるべきかを示す専用のデコード・モード・パラメータを有する。さらなるデコード・モードが使用されてもよい。専用のデコード・モード・パラメータはたとえば、フルの行列CおよびPがビットストリーム102に含められることを示してもよい。すなわち、それらの行列は全く疎にされない。この場合、(行列全体がビットストリームに含められるので、)指標データは、単一の指標パラメータによって符号化されることができる。デコード・モード・パラメータは、エンコーダ側でどのスパース化(sparsification)戦略が使われたかをデコーダに通知するという点で有利でありうる。さらに、ビットストリーム102にデコード・モードを含めることによって、スパース化戦略が時間フレームから時間フレームにかけて変化してもよく、そのためエンコーダはあらゆる時点において最も有利な戦略を選ぶことができる。
何らかの実施形態によれば、オーディオ・オブジェクトを再構成するための行列乗算(式2)は、指標によって「アクティブ」または「使用される」として指示される行列の要素について実行されるだけである。これは、0との乗算を避けうるので、式(2)の実装に関係した信号処理部分におけるデコーダの計算量を低減することを許容しうる。換言すれば、指標は、任意の所与の時間周波数‐時間スロットにおいてどのパラメータが実際に使われるかを追跡する助けとなりうる。これは、スパース化された次元(たとえば、信号および該当するなら脱相関された信号)についての計算をスキップすることを許容する。これは、1および0を含んでいてもよく、式(2)における行列乗算を実行するときにフィルタとして使用されてもよい指標行列を構築することによってなされてもよい。これは、式(2)に関係した初等数学演算を実行するためにエントリーのリストを進んでいくことが可能であるデコーダ実装を容易にしうる。
さらに、式(2)を実行するための上記の戦略を使うことによって、デコーダ100の再構成段112の一般的実装が容易にされうる。ビットストリーム102中の情報が指標行列の構築を許容する限り、再構成段は、エンコーダにおいてどの特定のスパース化戦略が使われたかを知る必要はない。つまり、デコード方式は、何であれデコーダにおいて使用されるスパース化戦略を使うことを許容する。つまり、符号化の複雑さはエンコーダに外注され、これは典型的には有利なことである。
図2〜図4において見て取れるように、指標202、302はビットストリーム102においてパラメータ204、304とは別個に受領される。図2〜図4では、指標はパラメータより前に受領されるが、逆も等しく可能である。換言すれば、指標はパラメータとインターリーブされない。これは、指標が、パラメータのために使われる符号化方法に依存しない符号化方法を使ってビットストリーム中で符号化されうるという点で有利である。たとえば、第一のデコード・モードでは、指標102はビット・ベクトルによって表現されてもよく、該ビット・ベクトル自身がエントロピー符号化を使って符号化されてもよい。これは図8に描かれている。ここで、最初の四つの指標は「10」によって符号化され、次の四つの指標は「00」によって符号化される。エントロピー符号化はたとえばハフマン符号化であってもよい。他の実施形態によれば、指標は多次元ハフマン符号を使って符号化されてもよい。この場合、ハフマン符号は、たとえば代表的素材の大きなデータベースについて指標を生成することによって、トレーニングされ、最適化されてもよい。指標は多次元ハフマン符号によって符号化されることもでき、ここで、バイナリー・シンボルがあらかじめ定義された長さのバイナリー・ベクトルにグループ化される。それぞれのそのようなベクトルは次いで単一のハフマン符号語によってエンコードされてもよい。指標をデコードするためには、これは各時間フレームについてデコーダにおいてフルの指標行列が再構成されることを要求することがある。いくつかの実施形態では、指標行列のエントリーは、上記に従って多次元シンボルにグループ化されることができる。次いで、それらのシンボルは何らかのブロック・ソート圧縮(block-sorting compression)に(たとえば、バローズ・ホイーラー変換(Burrows-Wheeler transform))よって符号化されることができる。そのような符号化の利点は、トレーニングが必要ないということである。デコーダに対していかなる追加情報を伝送する必要もない。
実施形態によれば、受領された第一パラメータおよび該当するなら第二パラメータの少なくともいくつかは、時間差分符号化および/または周波数差分符号化によって符号化される。この場合、符号化モードはビットストリームにおいて信号伝達されてもよい。以下では、パラメータのそのような符号化がさらに特定される。
パラメータの差分符号化は、一つまたは複数の次元における異なるパラメータの間の依存性を活用することによる、より効率的な符号化、すなわち周波数差分および/または時間差分符号化のために利用される。一階差分符号化はしばしば合理的な実際的代替である。パラメータの最初の値以外のすべてについて、パラメータの現在の値とその直前の生起の値との間の差を計算することが常に可能である。同様に、現在のパラメータに関係した量子化インデックスと、該インデックスの前回の実現との間の差を計算することが常にできる。周波数差分符号化の場合、符号化方式は周波数軸に沿って(諸周波数帯域を通じて)動作し、パラメータの前回の生起は、隣接する周波数帯域の一つ、たとえば現在の周波数帯域より低い周波数に関連付けられた帯域を意味する。時間差分符号化の場合、前回のパラメータは直前の「時間スロット」またはフレームに関連付けられる。たとえば、現在のパラメータと同じ周波数帯域に、ただし前の「時間スロット」またはフレームに対応してもよい。差分符号化は、上述したように最初のパラメータについては前の値が利用可能でないので、初期化される必要がある。この場合、最初のパラメータ以外の全部について差分符号化を使うことができる。あるいはまた、最初のパラメータからその平均値を引くことができる。同じアプローチは、差分符号化が量子化インデックスに対して作用するときにも使用されることができる。この場合、量子化インデックスの平均値を引くことができる。
いくつかの実施形態では、周波数差分および時間差分両方の符号化が使われ、各パラメータは二つの方法のいずれかによってエンコードされることができる。符号化方法の決定選択は、エンコーダによって、典型的には、ある符号化方法を選択することから帰結する、結果として得られる全符号語長(すなわち、送られる符号語、たとえばハフマン符号語である符号語の長さの和)を調べ、最も効率的な代替(たとえば最短の全符号語長)を選択することによってなされる。いわゆるIフレームは例外であり、常に周波数差分符号化を強制する。これは、前のフレームが利用可能であろうとなかろうと、Iフレームが常にデコード可能であることを保証する(ビデオ符号化において知られる「イントラ」フレームと同様)。典型的には、エンコーダは、規則的な間隔で、たとえば毎秒一回、Iフレームを強制する。
典型的なチャネル・ベースのパラメトリック符号化とは異なり、それぞれの再構成されたオブジェクトは(スパース化(sparsening)を使わないとき)すべての利用可能な源チャネル(ダウンミックス・チャネル、可能な脱相関器出力および可能な補助チャネルを含む)から推定される。これは、オブジェクト・コンテンツについてパラメータを送ることをより高価にする。これを軽減するために、二つの差分法は効率の点できわめて任意に変わりうるので、可能なときはいつでも、たとえ多くの信号伝達ビットを生じるとしても、両者の間で選択をすることが有益であることが注目された。実際的なデコーダ実装については、これは、オブジェクトがそこから再構成されるもとになる各源チャネル(すなわち、ダウンミックス信号または脱相関された信号)についてオブジェクト当たり一つの信号ビットを使うことを意味する。たとえば、みな7個の源チャネルから再構成される15個のオブジェクトについて、これは15×7=105個の信号伝達ビットを必要とすることになる。
換言すれば、ある実施形態によれば、オブジェクトおよびダウンミックス信号または脱相関された信号の特定の組み合わせについて差分符号化のモードを決定する信号伝達ビットの存在が、指標データにおけるそれぞれの指標を条件とする、ビットストリーム・シンタックス構築が提案される。ここで、該指標は、オブジェクトを再構成するために特定のチャネルまたは脱相関された信号が使われるかどうかを指示する。
スパース符号化が利用されるとき、前のパラメータと考えられるものの概念が影響されるという事実のため、差分符号化はより複雑になることがある。スパース符号化が前のフレームにおいて関連する次元を使わなかったために、前のパラメータが利用可能でない事例がある。スパースさ(sparsity)指標がフレームごとに、あるいはさらには帯域ごとに(これはスパース化のどのモードが使われるかに依存する)変化するときは常に、この状況が関連する。また、周波数差分および時間差分の間のエンコーダ選択は、スパース化された次元を扱う定義された戦略を必要とする。スパース化された符号化を容易にするシステムにおいては、スパースさを示す指標データを、差分符号化モードの信号伝達の条件とすることが有益である。たとえば、スパース化された次元は差分符号化のいかなる追加的信号伝達とも関連付けられる必要がない。これはサイド情報ビットレートを低減する。
スパース符号化のコンテキストにおいて差分符号化を適用する多くの可能なアプローチがある。次の例は、限定するものと解釈されるべきではなく、当業者が本発明を実施することを許容する例として与えられる。
ある実施形態によれば、指標データに基づくパラメータのフル行列が常に再構成されてもよく、差分符号化を用いるとき、0の値のパラメータ(または対応する量子化インデックス)が参照されてもよい。たとえば、時間差分符号化のコンテキストにおいて、再構成されるべきオブジェクトについて、パラメータの行列(またはこれらのパラメータに対応する量子化インデックスの行列)の関連する行が構築される。ここで、欠けている次元は指標行列から再構成される。前のフレームに対応するパラメータのフル次元のベクトルが次いで決定され、これが差分符号化のもとになる。たとえば、この場合、前のフレームにおいてスパース化された次元は0によって再構成される。時間差分符号化はこれらの次元をも参照しうる。
あるいはまた、いくつかの実施形態によれば、前のフレームについてのパラメータがスパース化された場合、それらの値は(符号化の目的についてのみ)0の代わりにそれぞれのパラメータの平均値を取ることによって再構成されてもよい(平均値は、オフライン・トレーニングの過程で決定されてもよく、次いでこの値がエンコーダおよびデコーダ実装において定数値として使われる)。この場合、指標データの、非アクティブ状態からアクティブ状態への変化は、前のフレームにおける当該パラメータが当該パラメータの平均値に等しいと想定されるべきであることを意味しうる。時間差分符号化が使われるいくつかの場合、現在フレームの符号化を容易にするために、0ではなく平均値を使うことによって、前のフレームからスパース化されたパラメータを再構成するために指標データを使うことが有益でありうる。特に、米国仮出願第61/827,264号または同出願の優先権を主張するその後の出願において、たとえば図の9および10においておよび式11〜13によって記述されるようにモジュロ差分符号化が使われる場合、この戦略は有益であることがあり、ビットレートにおけるいくらかの節約につながりうる。
諸実施形態によれば、デコーダは、米国仮出願第61/827,264号または同出願の優先権を主張するその後の出願において、たとえば図の13〜15においておよび第19頁において記述されるものに従ってアップミックス行列の符号化を扱ってもよい。これは、以下では、第三のデコード・モードと称される。この実施形態によれば、デコーダは、アップミックス行列におけるある行のM個の要素の部分集合を表わす少なくとも一つのエンコードされた要素を受領する。各エンコードされた要素は、値と、アップミックス行列中でのその行の位置とを有する。該位置は、エンコードされた要素が対応する、前記M個のダウンミックス信号のうちの一つを指示する。デコーダはこの場合、前記少なくとも一つのエンコードされた要素に対応するダウンミックス・チャネルの線形結合を形成することによって、そのダウンミックス信号から当該オーディオ・オブジェクトの時間/周波数タイルを再構成するよう構成されている。ここで、前記線形結合において、各ダウンミックス・チャネルは、その対応するエンコードされた要素の値を乗算される。つまり、諸実施形態に基づくデコーダは、四つのデコード・モードを扱ってもよい。デコード・モード1〜3と、フル・アップミックス行列がビットストリームに含められるモードである。フル・アップミックス行列はもちろん、任意の好適な仕方で符号化されうる。
図5は、複数の周波数帯域を含む時間フレームにおけるオーディオ・オブジェクトを再構成する方法を例として記述している。第一段階S502では、M>1個のダウンミックス信号が受領される。それぞれは、当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせである。本方法はさらに、当該オーディオ・オブジェクトを再構成するときに前記M個のダウンミックス信号のうちのどれが前記複数の周波数帯域において使用されるべきかを示す諸第一指標を含む諸指標を受領する段階S504を含む。本方法はさらに、ある周波数帯域およびその周波数帯域についての前記諸第一指標によって示されるダウンミックス信号にそれぞれ関連付けられている第一パラメータを受領する段階S508を含む。任意的に、本方法は、K≧1個の脱相関された信号(これは、上記で説明したように、前記M個のダウンミックス信号または他の任意の受領された信号に基づくものであってよい)を形成する段階S503を含む。ここで、前記諸指標はさらに、当該オーディオ・オブジェクトを再構成するときに前記K個の脱相関された信号のうちのどれが前記複数の周波数帯域において使用されるべきかを示す、段階S506で受領される諸第二指標を含む。この場合、本方法はさらに、それぞれある周波数帯域およびその周波数帯域について前記諸第二指標によって示される脱相関された信号に関連付けられている第二パラメータを受領する段階S510を含む。図5に描かれる方法の最終段階S512は前記複数の周波数帯域において当該オーディオ・オブジェクトを再構成する段階である。この再構成は、その周波数帯域について前記諸第一指標によって示される少なくとも前記諸ダウンミックス信号の重み付けされた和を形成することによってなされる。各ダウンミックス信号はその関連付けられた第一パラメータに従って重み付けされる。脱相関信号に関する任意的な段階S503、S506、S510が実行された場合は、当該オーディオ・オブジェクトを再構成する段階S512はさらに、特定の周波数帯域についての前記諸ダウンミックス信号の重み付けされた和に、その特定の周波数帯域についての前記諸第二指標によって示される脱相関された信号の重み付けされた和を加えてもよい。ここで、各脱相関された信号は、その関連付けられた第二パラメータに従って重み付けされる。
図7は、オーディオ・オブジェクト702をエンコードするためのオーディオ・エンコード・システム700の一般化されたブロック図を示している。本オーディオ・エンコード・システムは、オーディオ・オブジェクト104からダウンミックス信号706を生成するダウンミックス・コンポーネント704を有する。ダウンミックス信号706はたとえば、ドルビー・デジタル・プラスまたはAAC、USACまたはMP3のようなMPEG標準のような確立されたサウンド・デコード・システムと後方互換である5.1または7.1サラウンド信号であってもよい。さらなる実施形態では、ダウンミックス信号は後方互換でなくてもよい。
ダウンミックス信号706からオーディオ・オブジェクト702を再構成することができるために、アップミックス・パラメータ解析コンポーネント710において、ダウンミックス信号706およびオーディオ・オブジェクト702から、アップミックス・パラメータが決定される。たとえば、アップミックス・パラメータは、ダウンミックス信号706からのオーディオ・オブジェクト702の再構成を許容するアップミックス行列の要素に対応してもよい。アップミックス・パラメータ解析コンポーネント710は、個々の時間/周波数タイルに関してダウンミックス信号706およびオーディオ・オブジェクト702を処理する。こうして、各時間/周波数タイルについてアップミックス・パラメータが決定される。たとえば、各時間/周波数タイルについてアップミックス行列が決定されてもよい。たとえば、アップミックス・パラメータ解析コンポーネント710は、周波数選択的な処理を許容する、直交ミラー・フィルタ(QMF)領域のような周波数領域で動作してもよい。この理由により、ダウンミックス信号706およびオーディオ・オブジェクト702は、ダウンミックス信号706およびオーディオ・オブジェクト702をフィルタバンク708にかけることによって周波数領域に変換されてもよい。これはたとえば、QMF変換または他の任意の好適な変換を適用することによってなされてもよい。
アップミックス・パラメータ714はベクトル・フォーマットにおいて編成されてもよい。ベクトルは、特定の時間フレームにおける異なる諸周波数帯域においてオーディオ・オブジェクト702から特定のオーディオ・オブジェクトを再構成するためのアップミックス・パラメータを表わしてもよい。たとえば、ベクトルはアップミックス行列におけるある行列要素に対応してもよい。ここで、ベクトルは続く諸周波数帯域について前記ある行列要素の値を含む。さらなる実施形態では、ベクトルは、特定の周波数帯域における異なる諸時間フレームにおいてオーディオ・オブジェクト702からの特定のオーディオ・オブジェクトを再構成するためのアップミックス・パラメータを表わしてもよい。たとえば、ベクトルは、アップミックス行列におけるある行列要素に対応してもよく、ここで、ベクトルは、続く諸時間フレームについてだが同じ周波数帯域における前記ある行列要素の値を含む。
図7に記述されるエンコーダは、アップミックス・パラメータ解析コンポーネント710においてアップミックス行列を決定するときに脱相関信号を含めるためのコンポーネントを含まないことに気づかれるかもしれない。しかしながら、アップミックス行列を決定するとき脱相関された信号を生成および使用しようすることは、当技術分野におけるよく知られた事項であり、当業者には自明である。さらに、エンコーダは、上記のように、ベッド・チャネルをも送信してもよいことを注意しておくべきである。
次いで、アップミックス・パラメータ714はベクトル・フォーマットにおいてアップミックス行列エンコーダ712によって受領される。ここで、アップミックス行列エンコーダ機能について図6との関連で述べる。
図6は、複数の周波数帯域を含む時間フレームにおいてオーディオ・オブジェクトをエンコードする方法を記述している。本方法は、第一および第二のエンコード・モードを有する。本方法は、M>1個のダウンミックス信号を決定する(S602)ことによって始まる。各ダウンミックス信号は当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせである。その後、エンコード・モードまたはスパース化戦略が選択される(S604)。エンコード・モードは、ダウンミックス信号からオーディオ・オブジェクトを再構成するためのアップミックス行列がどのように表現され(たとえばスパース化され)、次いでしかるべくエンコードされるべきかを決定する。一般に、アップミックス行列をエンコードするためにエンコーダにおいて使用できるいくつかの可能なエンコード・モードがある。しかしながら、第一のエンコード・モードは、デコーダとの関連で下記および上記で説明されるように(第一のエンコード・モードはデコーダにおける第一のデコード・モードに対応する)、しばしば符号化された信号についてのレート‐歪みトレードオフに対処するという点で有利であることがあることが実験によって判別されている。第一のデコード・モードが選択される場合、本方法はさらに、オーディオ符号化システムにおけるデコーダにおいて当該オーディオ・オブジェクトを再構成するときに使われるべき前記M個のダウンミックス信号の部分集合を選択する(S606)段階を含む。本方法はさらに、前記M個のダウンミックス信号の前記部分集合における各ダウンミックス信号を前記M個のダウンミックス信号のうちでそのダウンミックス信号を特定する指標によって表わす(S610)ことを含む。図6に記載される方法の第一のエンコーダ・モード分枝の最終段階は、各ダウンミックス信号を複数のパラメータによって表わす(S614)ことである。前記複数の周波数帯域のそれぞれについて一つのパラメータがあり、それぞれのパラメータは周波数帯域に関連付けられている。ここで、前記複数のパラメータの各パラメータは、関連付けられた周波数帯域について当該オーディオ・オブジェクトを再構成するときの前記脱相関された信号についての重みを表わす。
このように、第一のエンコード・モードは、オーディオ・オブジェクトの時間フレームを再構成するときに使われるべきそれぞれの指示されるダウンミックス信号が、オーディオ・オブジェクトの時間フレームのすべての周波数帯域について使われることを意味する広帯域のスパース化として定義されうる。こうして、指示される各ダウンミックス信号についてすべての周波数帯域について一つの指標が伝送されるだけなので、伝送される必要のある指標の数が低減される。さらに、オーディオ・オブジェクトの時間フレームのすべての周波数帯域を再構成するために、多くの場合、特定のダウンミックス信号が有利に使用されることが認められた。それは再構成されたオーディオ・オブジェクトの低減された歪みにつながる。
以下では、オブジェクトまたはチャネルのどちらであってもよいN個のもとのオーディオ信号x
xn(t) n=1,…,N
があると想定される。
オーディオ・オブジェクトを再構成するために脱相関された信号が使われてもよいことも想定される。
もとの信号は行ベクトルと考えられ、行列Xに集められる。Xの再構成されたバージョン内のn番目のオブジェクトは
Figure 2016540241
〔^付きのxn〕によって表わされる。^付きのxnの表現の単一の時間‐周波数スロットは
Figure 2016540241
によって表わされる。デコーダはフル・ダウンミックス信号Y=[y1,…,yM]Tおよび脱相関された信号Z=[z1,…zK]Tへのアクセスをもつ。式(2)によって与えられるモデルのダウンミックス信号部分についての指標(indicator)情報がバイナリー・ベクトルIcによって与えられ、Ipは脱相関された部分についての指標情報であるとする。Icにおける0でない位置に対応する整数の集合が定義され、該集合をScによって表わす。同様に、Ipについて集合Spを定義する。
Figure 2016540241
の再構成は
Figure 2016540241
によって得られる。
式(3)において記述される合成は周波数帯域ごとに実行されるものの、集合ScおよびSpは上記で定義した広帯域の仕方で構築されることを注意しておく。さらに、行列C(ダウンミックス信号についてのアップミックス行列)およびP(脱相関された信号についてのアップミックス行列)はデコーダとの関連で記述されたように定義される。
広帯域のスパース符号化(すなわち第一のエンコード・モード)を利用することができる、エンコーダにおけるいくつかの実際的なアプローチがある。それらは本発明の範囲外である。にもかかわらず、本記述の明確のため、いくつかの実際的な例を開示しておく。たとえば、広帯域のスパース化戦略は、いわゆる二パス・アプローチを使って、デコーダにおいて実装されることができる。第一のパスでは、エンコーダは式(2)に従って、個々のサブバンドにおける解析を実行して、フルの非スパースなパラメータ行列を推定する。次の段階では、エンコードされたものは、個々のサブバンドからの観察を連結することによって、それらのパラメータを解析してもよい。たとえば、パラメータの絶対値の累積和が計算されてもよく、[オブジェクト数]×[ダウンミックス・チャネル数]のサイズの行列を与える。小さな値が0に設定されることができ、閾値より大きな値が1に設定されることができる閾値処理によって、その行列を広帯域の指標行列に変換することが可能である。指標行列は、エンコーダの第二のパスによって使用されることができる。ここで、式(2)によって指定されるモデル・パラメータは、解析におけるYの選択された次元のみを使うことによって広帯域の指標行列に従って更新される。
二パス・アプローチに加えて、特定のオブジェクトの予測のために保持されるダウンミックスまたは脱相関される次元の数(すなわち、ダウンミックス信号の数および脱相関された信号の数)に対する制約条件をもって動作するマッチング追跡(matching pursuit)アルゴリズムを使ってもよい。
指標情報を実際のビットストリームに変換するいくつかの方法がある。指標行列はすでにバイナリー・データを含んでいるので、それは規約に合意することによって、簡単にビットのシーケンスに変換されることができる。たとえば、二次元バイナリー行列は、主要列順〔列を大きい単位とする順序〕(major-column order)または主要行順〔行を大きい単位とする順序〕(major-row order)を使うことによって一次元ビットストリームに配列されることができる。ひとたびデコーダが規約を知れば、デコードを実行することができる。パラメータは、たとえばエントロピー符号化(たとえばハフマン符号)を使ってエンコードされてもよい。上記のデコーダとの関連で説明される任意の型の多次元符号化が、指標およびパラメータの両方について可能である。
諸実施形態によれば、エンコード・モードを選択する段階S604において、第二のデコード・モードが選択されてもよい。この場合、本方法はさらに、前記M個のダウンミックス信号(またはK個の脱相関された信号)のうちの単一のものを選択する(S608)段階を含む。選択された信号は、前記M個のダウンミックス信号(およびK個の脱相関された信号)のうちで選択された信号を特定する指標によって表現される(S612)。選択された信号はさらに、その周波数帯域について当該オーディオ・オブジェクトを再構成するときの選択された信号についての重みを表わすパラメータによってさらに表現される(S616)。第二のエンコード・モードは、たとえば、特定のオブジェクトの予測のために保持されるダウンミックスまたは脱相関される次元の数に対する制約条件をもって動作するマッチング追跡アルゴリズムによって実装されてもよい。第二のエンコード・モードの場合、前記数は1である。
第二のエンコード・モードでは、スパースさは帯域ごとに課される。この場合、オブジェクトの個々の帯域は、単一のダウンミックス信号または脱相関された信号のみを使って予測される。したがって、指標データは帯域当たり単一のインデックスを含み、それがオーディオ・オブジェクトのその周波数帯域を再構成するために使われるダウンミックス信号または脱相関された信号を示す。指標データは、整数としてまたはバイナリー・フラグとしてエンコードされることができる。パラメータは、たとえばエントロピー符号化(たとえばハフマン符号)を使ってエンコードされてもよい。この第二のエンコード・モードはビットレートの有意な低減につながる。たとえば各オブジェクトの各帯域について、伝送される必要があるの単一のパラメータしかないからである。
諸実施形態によれば、ダウンミックス信号または該当するなら脱相関された信号を特定する指標は、脱相関された信号または脱相関された信号についての重みを表わすパラメータとは別個にデコーダへの伝送のためのデータ・ストリーム中に含められる。これは、指標およびパラメータのために異なる符号化が使用されうるという点で有利でありうる。
諸実施形態によれば、使用されるエンコード・モードは、デコーダへの伝送のためのデータ・ストリームに含まれるデコード・モード・パラメータによって示される。
〈等価物、拡張、代替その他〉
上記の記述を吟味すれば、当業者には本開示のさらなる実施形態が明白になるであろう。本稿および図面は実施形態および例を開示しているが、本開示はこれらの個別的な例に制約されるものではない。付属の請求項によって定義される本開示の範囲から外れることなく数多くの修正および変形をなすことができる。請求項に現われる参照符号があったとしても、その範囲を限定するものと理解されるものではない。
さらに、図面、本開示および付属の請求項の吟味から、本開示を実施する当業者によって、開示される実施形態に対する変形が理解され、実施されることができる。請求項において、「有する/含む」の語は他の要素またはステップを排除するものではなく、単数形の表現は複数を排除するものではない。ある種の施策が互いに異なる従属請求項に記載されているというだけの事実がこれらの施策の組み合わせが有利に使用できないことを示すものではない。
上記で開示されたシステムおよび方法は、ソフトウェア、ファームウェア、ハードウェアまたはそれらの組み合わせとして実装されうる。ハードウェア実装では、上記の記述で言及された機能ユニットの間でのタスクの分割は必ずしも物理的なユニットへの分割に対応しない。逆に、一つの物理的コンポーネントが複数の機能を有していてもよく、一つのタスクが協働するいくつかの物理的コンポーネントによって実行されてもよい。ある種のコンポーネントまたはすべてのコンポーネントは、デジタル信号プロセッサまたはマイクロプロセッサによって実行されるソフトウェアとして実装されてもよく、あるいはハードウェアとしてまたは特定用途向け集積回路として実装されてもよい。そのようなソフトウェアは、コンピュータ記憶媒体(または非一時的な媒体)および通信媒体(または一時的な媒体)を含みうるコンピュータ可読媒体上で頒布されてもよい。当業者にはよく知られているように、コンピュータ記憶媒体という用語は、コンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータのような情報の記憶のための任意の方法または技術において実装される揮発性および不揮発性、リムーバブルおよび非リムーバブル媒体を含む。コンピュータ記憶媒体は、これに限られないが、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD-ROM、デジタル多用途ディスク(DVD)または他の光ディスク記憶、磁気カセット、磁気テープ、磁気ディスク記憶または他の磁気記憶デバイスまたは、所望される情報を記憶するために使用されることができ、コンピュータによってアクセスされることができる他の任意の媒体を含む。さらに、通信媒体が典型的にはコンピュータ可読命令、データ構造、プログラム・モジュールまたは他のデータを、搬送波または他の転送機構のような変調されたデータ信号において具現し、任意の情報送達媒体を含むことは当業者にはよく知られている。

Claims (20)

  1. 複数の周波数帯域を含む時間フレームにおけるオーディオ・オブジェクトを再構成する方法であって:
    M>1個のダウンミックス信号を受領する段階であって、各ダウンミックス信号は当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせである、段階と、
    当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域において前記M個のダウンミックス信号のどれが使われるべきかを示す第一指標を含む指標を受領する段階であって、
    第一のデコード・モードでは、前記第一指標のそれぞれは、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域のすべてのために使われるべきダウンミックス信号を示す、段階と、
    それぞれある周波数帯域およびその周波数帯域についての前記第一指標によって示されるダウンミックス信号に関連付けられている第一パラメータを受領する段階と、
    その周波数帯域についての前記第一指標によって示される少なくとも前記ダウンミックス信号の重み付けされた和を形成することによって、前記複数の周波数帯域における当該オーディオ・オブジェクトを再構成する段階であって、各ダウンミックス信号はその関連付けられた第一パラメータに従って重み付けられる、段階とを含む、
    方法。
  2. K≧1個の脱相関された信号を形成する段階であって、前記指標は、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域において前記K個の脱相関された信号のどれが使われるべきかを示す第二指標を含む、段階であって、
    第一のデコード・モードでは、前記第二指標のそれぞれは、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域のすべてのために使われるべき脱相関された信号を示す、段階と、
    それぞれある周波数帯域およびその周波数帯域についての前記第二指標によって示される脱相関された信号に関連付けられている第二パラメータを受領する段階とをさらに含み、
    前記複数の周波数帯域における当該オーディオ・オブジェクトを再構成する段階は、ある特定の周波数帯域についての前記ダウンミックス信号の前記重み付けされた和に、その特定の周波数帯域についての前記第二指標によって示される前記脱相関された信号の重み付けされた和を加える段階であって、各脱相関された信号はその関連付けられた第二パラメータに従って重み付けられる、段階を含む、
    請求項1記載の方法。
  3. 前記指標は、バイナリー・ベクトルの形で受領され、前記バイナリー・ベクトルの各要素は前記M個のダウンミックス信号または該当するならK個の脱相関された信号の一つに対応する、請求項1または2記載の方法。
  4. 受領されたバイナリー・ベクトルはエントロピー符号化によって符号化されている、請求項3記載の方法。
  5. 第二のデコード・モードでは、各周波数帯域についての前記指標が、当該オーディオ・オブジェクトを再構成するときにその周波数帯域において使われるべき、前記M個のダウンミックス信号または該当するならK個の脱相関された信号のうちの単一のものを示す、請求項1ないし4のうちいずれか一項記載の方法。
  6. 前記指標は、整数のベクトルの形で受領され、前記整数のベクトルの各要素は、ある周波数帯域と、その周波数帯域について使われるべき単一のダウンミックス信号のインデックスとに対応する、請求項5記載の方法。
  7. 受領された整数ベクトルはエントロピー符号化によって符号化されている、請求項6記載の方法。
  8. 第一のデコード・モードおよび第二のデコード・モードのどちらが使用されるべきかを示すデコード・モード・パラメータを受領する段階をさらに含む、
    請求項5ないし7のうちいずれか一項記載の方法。
  9. 前記指標が、前記パラメータとは別個に受領される、請求項1ないし8のうちいずれか一項記載の方法。
  10. 受領された前記第一パラメータおよび該当するなら第二パラメータの少なくともいくつかが時間差分符号化および/または周波数差分符号化によって符号化されている、請求項1ないし9のうちいずれか一項記載の方法。
  11. 前記第一パラメータおよび該当するなら第二パラメータがエントロピー符号化によって符号化されている、請求項1ないし10のうちいずれか一項記載の方法。
  12. 請求項1ないし11のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
  13. 複数の周波数帯域を含む時間フレームにおけるオーディオ・オブジェクトを再構成するデコーダであって:
    それぞれ当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせであるM>1個のダウンミックス信号を受領し、
    当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域において前記M個のダウンミックス信号のどれが使われるべきかを示す第一指標を含む指標を受領するよう構成された受領段を有しており、第一のデコード・モードでは、前記第一指標のそれぞれは、当該オーディオ・オブジェクトを再構成するときに前記複数の周波数帯域のすべてのために使われるべきダウンミックス信号を示し、前記受領段はさらに、
    それぞれある周波数帯域およびその周波数帯域についての前記指標によって示されるダウンミックス信号に関連付けられている第一パラメータを受領するよう構成されており、
    当該デコーダはさらに:
    その周波数帯域についての前記第一指標によって示される前記ダウンミックス信号の重み付けされた和を形成することによって、前記複数の周波数帯域における当該オーディオ・オブジェクトを再構成するよう構成された再構成段を有しており、各ダウンミックス信号はその関連付けられた第一パラメータに従って重み付けられる、
    デコーダ。
  14. 複数の周波数帯域を含む時間フレームにおけるオーディオ・オブジェクトをエンコードする方法であって:
    M>1個のダウンミックス信号を決定する段階であって、各ダウンミックス信号は当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせである、段階と、
    第一のエンコード・モードにおける、
    オーディオ符号化システムにおけるデコーダにおいて当該オーディオ・オブジェクトを再構成するときに使われるべき前記M個のダウンミックス信号の部分集合を選択する段階と、
    前記M個のダウンミックス信号の前記部分集合における各ダウンミックス信号を前記M個のダウンミックス信号のうちでそのダウンミックス信号を特定する指標によっておよび複数のパラメータによって表わす段階であって、前記複数の周波数帯域のそれぞれについて一つのパラメータがあり、それぞれのパラメータは周波数帯域に関連付けられており、前記複数のパラメータの各パラメータは、関連付けられた周波数帯域について当該オーディオ・オブジェクトを再構成するときの前記ダウンミックス信号についての重みを表わす、段階とを含む、
    方法。
  15. K≧1個の脱相関された信号を形成する段階と、
    第一のエンコード・モードにおける、
    オーディオ符号化システムにおけるデコーダにおいて当該オーディオ・オブジェクトを再構成するときに使われるべき前記K個の脱相関された信号の部分集合を選択する段階と、
    前記K個の脱相関された信号の前記部分集合における各脱相関された信号を前記K個の脱相関された信号のうちでその脱相関された信号を特定する指標によっておよび複数のパラメータによって表わす段階であって、前記複数の周波数帯域のそれぞれについて一つのパラメータがあり、それぞれのパラメータは周波数帯域に関連付けられており、前記複数のパラメータの各パラメータは、関連付けられた周波数帯域について当該オーディオ・オブジェクトを再構成するときの前記脱相関された信号についての重みを表わす、段階とをさらに含む、
    請求項14記載の方法。
  16. 第二のエンコード・モードでは、
    前記複数の周波数帯域のそれぞれについて、
    前記M個のダウンミックス信号または該当するならK個の脱相関された信号のうちの単一のものを選択し、選択された信号を、前記M個のダウンミックス信号および該当するならK個の脱相関された信号のうちでその選択された信号を特定する指標によって、およびその周波数帯域について当該オーディオ・オブジェクトを再構成するときのその選択された信号についての重みを表わすパラメータによって、表わす段階を含む。
    請求項14または15記載の方法。
  17. 前記第一および第二のエンコード・モードの一方が使われ、使われるエンコード・モードが、デコーダに伝送されるデータ・ストリームに含められるデコード・モード・パラメータによって示される、請求項16記載の方法。
  18. ダウンミックス信号または該当するなら脱相関された信号を特定する指標は、該ダウンミックス信号または該当するなら脱相関された信号についての重みを表わすパラメータとは別個に、デコーダへの伝送のためのデータ・ストリームに含められる、請求項15ないし17のうちいずれか一項記載の方法。
  19. 請求項14ないし18のうちいずれか一項記載の方法を実行するための命令をもつコンピュータ可読媒体を有するコンピュータ・プログラム・プロダクト。
  20. 複数の周波数帯域を含む時間フレームにおいてオーディオ・オブジェクトをエンコードするエンコーダであって:
    それぞれ当該オーディオ・オブジェクトを含む複数のオーディオ・オブジェクトの組み合わせであるM>1個のダウンミックス信号を決定するよう構成されたダウンミックス決定段と、
    符号化段であって、第一のエンコード・モードにおいて、
    オーディオ符号化システムにおけるデコーダにおいて当該オーディオ・オブジェクトを再構成するときに使われるべき前記M個のダウンミックス信号の部分集合を選択し、
    前記M個のダウンミックス信号の前記部分集合における各ダウンミックス信号を前記M個のダウンミックス信号のうちでそのダウンミックス信号を特定する指標によっておよび複数のパラメータによって表わすよう構成された符号化段とを含有しており、前記複数の周波数帯域のそれぞれについて一つのパラメータがあり、それぞれのパラメータは周波数帯域に関連付けられており、前記複数のパラメータの各パラメータは、関連付けられた周波数帯域について当該オーディオ・オブジェクトを再構成するときの前記ダウンミックス信号についての重みを表わす、
    エンコーダ。
JP2016525005A 2013-10-21 2014-10-21 オーディオ・エンコーダおよびデコーダ Active JP6396452B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361893770P 2013-10-21 2013-10-21
US61/893,770 2013-10-21
US201461973653P 2014-04-01 2014-04-01
US61/973,653 2014-04-01
PCT/EP2014/072571 WO2015059154A1 (en) 2013-10-21 2014-10-21 Audio encoder and decoder

Publications (2)

Publication Number Publication Date
JP2016540241A true JP2016540241A (ja) 2016-12-22
JP6396452B2 JP6396452B2 (ja) 2018-09-26

Family

ID=51830287

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016525005A Active JP6396452B2 (ja) 2013-10-21 2014-10-21 オーディオ・エンコーダおよびデコーダ

Country Status (5)

Country Link
US (1) US10049683B2 (ja)
EP (1) EP3074970B1 (ja)
JP (1) JP6396452B2 (ja)
CN (1) CN105659320B (ja)
WO (1) WO2015059154A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886960B (zh) * 2016-09-30 2020-12-01 华为技术有限公司 一种音频信号重建方法及装置
CN108206022B (zh) * 2016-12-16 2020-12-18 南京青衿信息科技有限公司 利用aes/ebu信道传输三维声信号的编解码器及其编解码方法
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
CN110660401B (zh) * 2019-09-02 2021-09-24 武汉大学 一种基于高低频域分辨率切换的音频对象编解码方法
US20230267938A1 (en) * 2020-07-08 2023-08-24 Dolby International Ab Packet loss concealment
EP4264603A1 (en) * 2020-12-15 2023-10-25 Nokia Technologies Oy Quantizing spatial audio parameters
CN113948085B (zh) * 2021-12-22 2022-03-25 中国科学院自动化研究所 语音识别方法、系统、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008536182A (ja) * 2005-04-13 2008-09-04 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 符号化効率向上のためのパラメータの適応グループ化
WO2011013381A1 (ja) * 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
JP2012516461A (ja) * 2009-01-28 2012-07-19 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックスオーディオ信号をアップミックスするための装置、方法およびコンピュータ・プログラム
WO2014007096A1 (ja) * 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム

Family Cites Families (36)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8582659B2 (en) 2003-09-07 2013-11-12 Microsoft Corporation Determining a decoding time stamp from buffer fullness
US7724827B2 (en) 2003-09-07 2010-05-25 Microsoft Corporation Multi-layer run level encoding and decoding
AU2006285538B2 (en) 2005-08-30 2011-03-24 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8775495B2 (en) * 2006-02-13 2014-07-08 Indiana University Research And Technology Compression system and method for accelerating sparse matrix computations
CA2646961C (en) 2006-03-28 2013-09-03 Sascha Disch Enhanced method for signal shaping in multi-channel audio reconstruction
ES2396072T3 (es) 2006-07-07 2013-02-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato para combinar múltiples fuentes de audio paramétricamente codificadas
RU2460155C2 (ru) * 2006-09-18 2012-08-27 Конинклейке Филипс Электроникс Н.В. Кодирование и декодирование звуковых объектов
ATE539434T1 (de) * 2006-10-16 2012-01-15 Fraunhofer Ges Forschung Vorrichtung und verfahren für mehrkanalparameterumwandlung
CA2874454C (en) * 2006-10-16 2017-05-02 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
EP2102858A4 (en) * 2006-12-07 2010-01-20 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
US7602183B2 (en) 2007-02-13 2009-10-13 The Board Of Trustees Of The Leland Stanford Junior University K-T sparse: high frame-rate dynamic magnetic resonance imaging exploiting spatio-temporal sparsity
CN101542597B (zh) * 2007-02-14 2013-02-27 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
US7783459B2 (en) 2007-02-21 2010-08-24 William Marsh Rice University Analog system for computing sparse codes
PL2137725T3 (pl) * 2007-04-26 2014-06-30 Dolby Int Ab Urządzenie i sposób do syntetyzowania sygnału wyjściowego
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
EP2229782A2 (en) 2008-01-14 2010-09-22 Thomson Licensing Methods and apparatus for de-artifact filtering using multi-lattice sparsity-based filtering
KR101024924B1 (ko) * 2008-01-23 2011-03-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
US20110123192A1 (en) 2008-01-28 2011-05-26 Technion Research And Development Foundation Ltd. Optical Under-Sampling And Reconstruction Of Sparse Multiband Signals
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
KR101137361B1 (ko) * 2009-01-28 2012-04-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
WO2011004378A1 (en) 2009-07-08 2011-01-13 Technion Research And Development Foundation Ltd. Method and system for super-resolution signal reconstruction
EP2483887B1 (en) 2009-09-29 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
CN102714038B (zh) 2009-11-20 2014-11-05 弗兰霍菲尔运输应用研究公司 用以基于下混信号表示型态而提供上混信号表示型态的装置、用以提供表示多声道音频信号的位流的装置、方法
EA024310B1 (ru) 2009-12-07 2016-09-30 Долби Лабораторис Лайсэнзин Корпорейшн Способ декодирования цифровых потоков кодированного многоканального аудиосигнала с использованием адаптивного гибридного преобразования
WO2011085368A1 (en) 2010-01-11 2011-07-14 Research In Motion Limited Sensor-based wireless communication systems using compressed sensing with sparse data
US9236063B2 (en) 2010-07-30 2016-01-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dynamic bit allocation
US8489403B1 (en) 2010-08-25 2013-07-16 Foundation For Research and Technology—Institute of Computer Science ‘FORTH-ICS’ Apparatuses, methods and systems for sparse sinusoidal audio processing and transmission
CN103026406B (zh) * 2010-09-28 2014-10-08 华为技术有限公司 用于对已解码多通道音频信号或已解码立体声信号进行后处理的装置和方法
US8762655B2 (en) 2010-12-06 2014-06-24 International Business Machines Corporation Optimizing output vector data generation using a formatted matrix data structure
US8391336B2 (en) 2011-03-07 2013-03-05 A.P.M. Automation Solutions Ltd Variable length ranging and direction-finding signals constructed from bandlimited kernels and sparse spreading sequences
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
CN103890841B (zh) * 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
ES2560402T3 (es) * 2012-04-05 2016-02-18 Huawei Technologies Co., Ltd Método para la codificación y la decodificación de audio espacial paramétrica, codificador de audio espacial paramétrico y decodificador de audio espacial paramétrico
AU2013301831B2 (en) 2012-08-10 2016-12-01 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Encoder, decoder, system and method employing a residual concept for parametric audio object coding
CN103280221B (zh) 2013-05-09 2015-07-29 北京大学 一种基于基追踪的音频无损压缩编码、解码方法及系统
WO2014187988A2 (en) 2013-05-24 2014-11-27 Dolby International Ab Audio encoder and decoder

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008536182A (ja) * 2005-04-13 2008-09-04 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 符号化効率向上のためのパラメータの適応グループ化
JP2012516461A (ja) * 2009-01-28 2012-07-19 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックスオーディオ信号をアップミックスするための装置、方法およびコンピュータ・プログラム
WO2011013381A1 (ja) * 2009-07-31 2011-02-03 パナソニック株式会社 符号化装置および復号装置
WO2014007096A1 (ja) * 2012-07-02 2014-01-09 ソニー株式会社 復号装置および方法、符号化装置および方法、並びにプログラム

Also Published As

Publication number Publication date
US20160240206A1 (en) 2016-08-18
CN105659320A (zh) 2016-06-08
CN105659320B (zh) 2019-07-12
WO2015059154A1 (en) 2015-04-30
JP6396452B2 (ja) 2018-09-26
EP3074970B1 (en) 2018-02-21
EP3074970A1 (en) 2016-10-05
US10049683B2 (en) 2018-08-14

Similar Documents

Publication Publication Date Title
JP6396452B2 (ja) オーディオ・エンコーダおよびデコーダ
JP6573640B2 (ja) オーディオ・エンコーダおよびデコーダ
CN106463125B (zh) 基于空间元数据的音频分割
RU2711055C2 (ru) Устройство и способ для кодирования или декодирования многоканального сигнала
KR101679083B1 (ko) 2개의 블록 변환으로의 중첩 변환의 분해
WO2016001356A1 (en) Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation
EP3164867A1 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation
EP2963948A1 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a HOA signal representation
US20170164132A1 (en) Method and apparatus for decoding a compressed hoa representation, and method and apparatus for encoding a compressed hoa representation
EP3164866A1 (en) Method and apparatus for encoding/decoding of directions of dominant directional signals within subbands of a hoa signal representation

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170724

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170808

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180515

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180731

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180829

R150 Certificate of patent or registration of utility model

Ref document number: 6396452

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250