JP5097702B2 - オーディオエンコード及びデコード - Google Patents

オーディオエンコード及びデコード Download PDF

Info

Publication number
JP5097702B2
JP5097702B2 JP2008521009A JP2008521009A JP5097702B2 JP 5097702 B2 JP5097702 B2 JP 5097702B2 JP 2008521009 A JP2008521009 A JP 2008521009A JP 2008521009 A JP2008521009 A JP 2008521009A JP 5097702 B2 JP5097702 B2 JP 5097702B2
Authority
JP
Japan
Prior art keywords
channel
data
decoder
audio
channels
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008521009A
Other languages
English (en)
Other versions
JP2009501354A5 (ja
JP2009501354A (ja
Inventor
エリック ジー ピー スハイゥイェルス
ヘラルト エイチ ホト
ハイコ プルンハーゲン
ヴォルフガンク エイ シルドバッハ
ホルゲル ホーリッヒ
ハンス エム ケイ キョーリング
カール ジェイ ローデーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby International AB
Original Assignee
Dolby International AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby International AB filed Critical Dolby International AB
Publication of JP2009501354A publication Critical patent/JP2009501354A/ja
Publication of JP2009501354A5 publication Critical patent/JP2009501354A5/ja
Application granted granted Critical
Publication of JP5097702B2 publication Critical patent/JP5097702B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Description

本発明は、階層型エンコード構造及び/又は階層型デコーダ構造を用いたオーディオエンコード及び/又はデコードに関する。
オーディオ処理の分野においては、幾つかのオーディオチャネルを、他のより多くのオーディオチャネルに変換することは良く知られている。斯かる変換は、種々の理由により実行され得る。例えば、オーディオ信号は、改善されたユーザの経験を提供するために、他のフォーマットへと変換され得る。例えば伝統的なステレオ記録は2個のチャネルのみを有していたが、近年の高度なオーディオシステムは一般に、普及している5.1サランウド音声システムにおけるように、5又は6個のチャネルを利用する。従って、該高度なオーディオシステムを十分に利用するため、2個のステレオチャネルは5又は6個のチャネルへと変換され得る。
チャネル変換の他の理由は、符号化効率である。例えばステレオオーディオ信号は、オーディオ信号の空間的特性を記述するパラメータビットストリームと結合された単一チャネルのオーディオ信号としてエンコードされ得ることが分かっている。デコーダは、非常に十分な精度でステレオオーディオ信号を再生することができる。このようにして、かなりのビットレートの削減が得られる。
オーディオ信号の空間的特性を記述するために利用され得る、幾つかのパラメータがある。斯かるパラメータの1つはチャネル間の相互相関であり、例えばステレオ信号においては左チャネルと右チャネルとの間の相互相関である。他のパラメータは、チャネルのパワー比である。所謂(パラメトリック)空間オーディオ符号化器(エンコーダ)においては、これら及びその他のパラメータは、例えば1つだけのチャネルのような、減少された数のチャネルと、それに加えて元のオーディオ信号の空間的特性を記述するパラメータのセットとを持つオーディオ信号を生成するため、元のオーディオ信号から抽出される。所謂(パラメトリック)空間オーディオデコーダにおいて、元のオーディオ信号が復元される。
空間オーディオ符号化(Spatial Audio Coding)は、多チャネルのオーディオマテリアルを効率的に符号化するための、近年導入された手法である。空間オーディオ符号化においては、Mチャネルのオーディオ信号が、Nチャネルオーディオ信号及び対応する空間パラメータのセットとして記述される。ここでNは一般にMより小さい。それ故空間オーディオエンコーダにおいては、Mチャネルの信号がNチャネルの信号へとダウンミックス(down-mix)され、空間パラメータが抽出される。デコーダにおいて、Nチャネル信号と空間パラメータとが、Mチャネル信号を(知覚的に)復元するために利用される。
斯かる空間オーディオ符号化は好ましくは、エンコーダ及びデコーダにおいて標準的なユニットを有する縦続接続された又は木ベースの階層構造を利用する。エンコーダにおいて、これらの標準的なユニットは、チャネルを組み合わせてより少ない数のチャネルとするダウンミクサ(例えば2つから1つへ(2−1)、3つから1つへ(3−1)、3つから2つへ(3−2)等のダウンミクサ)であっても良い。一方デコーダにおいては、対応する標準的なユニットは、チャネルをより多い数のチャネルへと分割するアップミクサ(例えば1つから2つへ(1−2)、2つから3つへ(2−3)のアップミクサ)であっても良い。
しかしながら、斯かる方法の問題点は、デコーダ構造がエンコーダの構造と合致する必要がある点である。このことは標準化されたエンコーダ及びデコーダの使用により実現され得るが、斯かる方法は柔軟性を欠き、最適ではない性能に帰着する傾向がある。
それ故、改善されたシステムが有利となり得、とりわけ増大された柔軟性、低減された複雑さ及び/又は改善された性能を可能とするシステムが有利となり得る。
従って、本発明の目的は、上述した不利点のうち1つ以上を、単独で又はいずれかの組み合わせで、好適に軽減、緩和又は除去することにある。
本発明の第1の態様によれば、幾つかの出力オーディオチャネルを生成するための装置であって、前記装置は、幾つかの入力オーディオチャネル及びパラメトリックオーディオデータを有するデータストリームを受信するための手段を有し、前記データストリームは更に、階層型デコーダ構造についてのデコーダ木構造データを有し、前記デコーダ木構造データは、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有し、前記装置は更に、前記デコーダ木構造データに応じて前記階層型デコーダ構造を生成するための手段と、前記階層型デコーダ構造を利用して前記データストリームから前記幾つかの出力オーディオチャネルを生成するための手段と、を有する装置が提供される。
本発明は、オーディオチャネルの柔軟な生成を可能とし、とりわけデコーダ機能がデータストリームを生成するために利用されるエンコーダ構造に適応することを可能し得る。本発明は例えば、エンコーダが多チャネル信号のための適切なエンコード手法を選択することを可能とし、また本装置がそれに自動的に適応することを可能とし得る。本発明は、データストリームが改善された品質−ビットレート比を持つことを可能とし得る。とりわけ本発明は、自動適応及び/又は高度な柔軟性を可能とし、一方で階層型エンコード/デコード構造により達成可能な改善されたオーディオ品質を提供し得る。本発明は更に、階層型デコーダ構造の情報の効率的な通信を可能とし得る。具体的には本発明は、デコーダ木構造データについての低いオーバヘッドを可能とし得る。本発明は、受信されたビットストリームに自動的に適応し、いずれかの適切な階層型エンコード構造を用いて利用され得る装置を提供し得る。
各オーディオチャネルは、個々のオーディオ信号をサポートし得る。データストリームは、単一のビットストリームであっても良いし、又は例えば種々の分散チャネルに分散させられた複数のサブビットストリームの組み合わせであっても良い。データストリームは、所与のサイズのデータファイルに対応する一定の継続時間のような、制限された継続時間を持ち得る。チャネル分割特性は、或る階層において所与のオーディオチャネルが幾つのチャネルに分割されるかを示す特性であり得る。例えば、チャネル分割特性は、所与のオーディオチャネルが分割されないか否か、又は2つのオーディオチャネルに分割されるか否かを反映し得る。
デコーダ木構造データは、複数のオーディオチャネルの階層型デコーダ構造のためのデータを有し得る。具体的には、デコーダ木構造データは、幾つかの入力オーディオチャネルのそれぞれについてのデータのセットを有し得る。例えば、デコーダ木構造データは、各入力信号について、デコーダ木構造のためのデータを有し得る。
本発明の任意の特徴によれば、前記デコーダ木構造データは複数のデータ値を有し、各前記データ値は、前記階層型デコーダ構造の1つの階層における1つのチャネルについてのチャネル分割特性を示す。
このことは、データの本装置がデータストリームのために利用されるエンコードに適応することを可能とする。デコーダ木構造データは特に、階層型デコーダ構造における各チャネル分割機能について1つのデータ値を有し得る。デコーダ木構造データはまた、所与の階層の信号について、更なるチャネル分割が発生しないことを示す1つのデータ値を、各出力チャネルについて有し得る。
本発明の任意の特徴によれば、所定の前記データ値が、前記階層において前記チャネルについてのチャネル分割がないことを示す。
このことは、データの効率的な通信を提供し、本装置がデータストリームのために利用されるエンコードに効果的且つ信頼性高く適応することを可能とする。
本発明の任意の特徴によれば、所定の前記データ値が、前記階層における前記チャネルについての1つから2つへのチャネル分割を示す。
このことは、データの効率的な通信を提供し、本装置がデータストリームのために利用されるエンコードに効果的且つ信頼性高く適応することを可能とする。とりわけ、このことは、低い複雑さを持つ標準的なチャネル分割機能を利用する多くの階層型システムに対して、非常に効率的な情報伝送を可能とし得る。
本発明の任意の特徴によれば、前記複数のデータ値はバイナリデータ値である。
このことは、データの効率的な通信を提供し、本装置がデータストリームのために利用されるエンコードに効果的且つ信頼性高く適応することを可能とする。とりわけ、このことは、1つからつ2への(1−2)チャネル分割機能のような特定のチャネル分割機能を主に利用するシステムに対して、非常に効率的な情報伝送を可能とし得る。
本発明の任意の特徴によれば、一方の所定の前記バイナリデータ値が1つから2つへのチャネル分割を示し、他方の所定のバイナリデータ値がチャネル分割がないことを示す。
このことは、データの効率的な通信を提供し、本装置がデータストリームのために利用されるエンコードに効果的且つ信頼性高く適応することを可能とする。とりわけ、このことは、低い複雑さを持つ1−2チャネル分割機能に基づくシステムに対して、非常に効率的な情報伝送を可能とし得る。低い複雑さを持つデータに応答して生成され得る低い複雑さを持つ階層型デコーダ構造により、効率的なデコードが達成され得る。該特徴は、デコーダ木構造データの通信についての低いオーバヘッドを可能とし得、単純なエンコード機能によりエンコードされるデータストリームに対して特に適したものであり得る。
本発明の任意の特徴によれば、前記データストリームは更に、入力チャネルの数のインジケータを有する。
このことは、デコード及びデコード構造の生成を容易化し得、及び/又はデコーダ木構造データにおける階層型デコーダ構造の情報のより効率的なエンコードを可能とし得る。とりわけ、階層型デコーダ構造を生成するための手段は、入力チャネルの数のインジケータに応じてこのことを為しても良い。例えば、多くの実際の状況においては入力チャネルの数はデータストリームから導出され得るが、幾つかの実際の場合において、オーディオデータとパラメータデータとが分離されている場合がある。斯かる場合においては、データストリームデータが操作されている(例えばステレオからモノラルへとダウンミックスされている)場合があるため、入力チャネルの数が既知であることが有利となり得る。
本発明の任意の特徴によれば、前記データストリームは更に、出力チャネルの数のインジケータを有する。
このことは、デコード及びデコード構造の生成を容易化し得、及び/又はデコーダ木構造データにおける階層型デコーダ構造の情報のより効率的なエンコードを可能とし得る。とりわけ、階層型デコーダ構造を生成するための手段は、出力チャネルの数のインジケータに応じてこのことを為しても良い。また該インジケータは、デコーダ木構造データの誤りチェックとして利用されても良い。
本発明の任意の特徴によれば、前記データストリームは更に、前記階層型デコーダ構造における幾つかの1つから2つへのチャネル分割機能のインジケータを有する。
このことは、デコード及びデコード構造の生成を容易化し得、及び/又はデコーダ木構造データにおける階層型デコーダ構造の情報のより効率的なエンコードを可能とし得る。とりわけ、階層型デコーダ構造を生成するための手段は、階層型デコーダ構造における1−2チャネル分割機能の数のインジケータに応じてこのことを為しても良い。
本発明の任意の特徴によれば、前記データストリームは更に、前記階層型デコーダ構造における幾つかの2つから3つへのチャネル分割機能のインジケータを有する。
このことは、デコード及びデコード構造の生成を容易化し得、及び/又はデコーダ木構造データにおける階層型デコーダ構造の情報のより効率的なエンコードを可能とし得る。とりわけ、階層型のデコーダ構造を生成するための手段は、階層型デコーダ構造における2−3チャネル分割機能の数のインジケータに応じてこのことを為しても良い。
本発明の任意の特徴によれば、前記デコーダ木構造データは、2つから3つへのチャネル分割機能の存在に応じて順序付けられた複数のデコーダ木構造についてのデータを有する。
このことは、デコード及びデコード構造の生成を容易化し得、及び/又はデコーダ木構造データにおける階層型デコーダ構造の情報のより効率的なエンコードを可能とし得る。とりわけ本特徴は、2−3チャネル分割がルートの層においてのみ発生し得るシステムにおいて有利な性能を可能とし得る。例えば、階層型デコーダ構造を生成するための手段は最初に、2つの入力チャネルに対する2−3チャネル分割機能を生成し、1−2チャネル分割機能のみを利用する残りの構造の生成が後続しても良い。該残りの構造は特に、バイナリのデコーダ木構造データに応じて生成されても良く、かくして必要とされるビットレートを低減しても良い。データストリームは更に、複数のデコーダ木構造の順序の情報を含んでも良い。
本発明の任意の特徴によれば、少なくとも1つの入力チャネルについての前記デコーダ木構造データは、2つから3つへのチャネル分割機能がルート層に存在することを示すインジケータを有し、該インジケータはバイナリデータに後続され、各前記バイナリデータの値は、分割機能がないことか又は2つから3つへの分割機能の従属する層についての1つから2つへのチャネル分割機能を示す。
このことは、デコード及びデコード構造の生成を容易化し得、及び/又はデコーダ木構造データにおける階層型デコーダ構造の情報のより効率的なエンコードを可能とし得る。とりわけ本特徴は、2−3チャネル分割がルートの層においてのみ発生し得るシステムにおいて有利な性能を可能とし得る。例えば、階層型デコーダ構造を生成するための手段は最初に、1つの入力チャネルに対する2−3チャネル分割機能を生成し、1−2チャネル分割機能のみを利用した残りの構造の生成が後続しても良い。該残りの構造は特に、バイナリのデコーダ木構造データに応じて生成されても良く、かくして必要とされるビットレートを低減しても良い。データストリームは更に、複数のデコーダ木構造の順序の情報を含んでも良い。
本発明の任意の特徴によれば、前記データストリームは更に、少なくとも1つの前記出力チャネルについてのラウドスピーカ位置のインジケータを有する。
このことは容易化されたデコードを可能とし得、また改善された性能及び/又は本装置の適応を提供し得、かくして増大させられた柔軟性を提供し得る。
本発明の任意の特徴によれば、前記階層型デコーダ構造を生成するための手段は、前記デコーダ木構造データに応じて、前記階層のチャネル分割機能についての乗算パラメータを決定するように構成された。
このことは、改善された性能及び/又は改善された適応/柔軟性を可能とし得る。とりわけ、本特徴は、階層型デコーダ構造のみならず、チャネル分割機能の動作もが、受信されたデータストリームに適応することを可能とし得る。乗算パラメータは、行列乗算パラメータであっても良い。
本発明の任意の特徴によれば、前記デコーダ木構造は、少なくとも1つの階層における少なくとも1つのチャネル分割機能を有し、前記少なくとも1つのチャネル分割機能は、前記データストリームのオーディオ入力チャネルから非相関信号を直接に生成するための非相関手段と、より高い階層からのオーディオチャネル及び前記非相関信号から、複数の階層出力チャネルを生成するための少なくとも1つのチャネル分割ユニットと、前記デコーダ木構造データに応じて、非相関フィルタ又は前記チャネル分割ユニットの少なくとも1つの特性を決定するための手段と、を有する。
このことは、改善された性能及び/又は改善された適応/柔軟性を可能とし得る。とりわけ、本特徴は、改善されたデコード性能を持ち、増大させられたオーディオ品質を持つ出力チャネルを生成し得る、階層型デコーダ構造を可能とし得る。とりわけ、縦続接続された非相関フィルタにより非相関信号が生成されない階層型デコーダ構造が達成され得、受信されたデータストリームに対して動的且つ自動的に適応され得る。
非相関フィルタは、変更のない、特にいずれの先行する信号のフィルタリング(他の非相関フィルタによるもののような)のない、データストリームのオーディオ入力チャネルを受信する。非相関フィルタの利得は特に、デコーダ木構造データに応じて決定されても良い。
本発明の任意の特徴によれば、前記非相関手段は、前記オーディオ入力チャネルに対してオーディオレベル補償を実行してレベル補償されたオーディオ信号を生成するためのレベル補償手段と、前記レベル補償されたオーディオ信号をフィルタリングして非相関信号を生成するための非相関フィルタと、を有する。
このことは、改善された品質及び/又は容易化された実装を可能とし得る。
本発明の任意の特徴によれば、前記レベル補償手段は、プリ行列による行列乗算を有する。このことは、効率的な実装を可能とし得る。
本発明の任意の特徴によれば、前記プリ行列の係数は、1−2チャネル分割機能のみを有する階層型デコーダ構造についての少なくとも1つの1の値を持つ。
このことは複雑さを低減し、効率的な実装を可能とし得る。階層型デコーダ構造は1−2チャネル分割機能の他の機能を有し得るが、本特徴により、他のチャネル分割機能は有さないこととなる。
本発明の任意の特徴によれば、本装置は更に、より高い階層におけるチャネル分割機能のパラメータに応じて、少なくとも1つの階層における少なくとも1つのチャネル分割機能についてのプリ行列を決定するための手段を有する。
このことは、効率的な実装及び/又は改善された性能を可能とし得る。より高い階層におけるチャネル分割機能は、例えばデコーダ木構造のルート層に位置する、2−3チャネル分割機能を含み得る。
本発明の任意の特徴によれば、本装置は更に、少なくとも1つの階層における少なくとも1つのチャネル分割機能のパラメータに応じて、前記少なくとも1つのチャネル分割機能についてのチャネル分割行列を決定するための手段を有する。
このことは、効率的な実装及び/又は改善された性能を可能とし得る。このことは、1−2チャネル分割機能のみを有する階層型デコーダ木構造に対して、特に有利であり得る。
本発明の任意の特徴によれば、本装置は更に、より高い階層の2つから3つへのチャネル分割機能のパラメータに応じて、少なくとも1つの階層における少なくとも1つのチャネル分割機能についてのプリ行列を決定するための手段を有する。
このことは、効率的な実装及び/又は改善された性能を可能とし得る。このことは、デコーダ木構造のルート層において2−3チャネル分割機能を有する階層型デコーダ木構造に対して、特に有利であり得る。
本発明の任意の特徴によれば、前記プリ行列を決定するための手段は、2つから3つへのアップミクサの第1の入力に対応する第1のサブプリ行列及び前記2つから3つへのアップミクサの第2の入力に対応する第2のサブプリ行列の決定に応じて、少なくとも1つのチャネル分割機能についてのプリ行列を決定するように構成される。
このことは、効率的な実装及び/又は改善された性能を可能とし得る。このことは、デコーダ木構造のルート層において2−3チャネル分割機能を有する階層型デコーダ木構造に対して、特に有利であり得る。
本発明の他の態様によれば、幾つかの出力オーディオチャネルを有するデータストリームを生成するための装置であって、幾つかの入力オーディオチャネルを受信するための手段と、前記幾つかの入力オーディオチャネルをパラメトリックにエンコードし、前記幾つかの出力オーディオチャネル及びパラメトリックオーディオデータを有するデータストリームを生成するための階層型エンコード手段と、前記階層型エンコード手段に対応する階層型デコーダ構造を決定するための手段と、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有するデコーダ木構造データを、前記データストリームに含めるための手段と、を有する装置が提供される。
本発明の他の態様によれば、幾つかのエンコードされたオーディオチャネルと、パラメトリックオーディオデータと、階層型デコーダ構造についてのデコーダ木構造データと、を有し、前記デコーダ木構造データは、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有する、データストリームが提供される。
本発明の他の態様によれば、上述したような信号が保存された記憶媒体が提供される。
本発明の他の態様によれば、幾つかの出力オーディオチャネルを生成する方法であって、前記方法は、幾つかの入力オーディオチャネル及びパラメトリックオーディオデータを有するデータストリームを受信するステップを有し、前記データストリームは更に、階層型デコーダ構造についてのデコーダ木構造データを有し、前記デコーダ木構造データは、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有し、前記方法は更に、前記デコーダ木構造データに応じて前記階層型デコーダ構造を生成するステップと、前記階層型デコーダ構造を利用して前記データストリームから前記幾つかの出力オーディオチャネルを生成するステップと、を有する方法が提供される。
本発明の他の態様によれば、幾つかの出力オーディオチャネルを有するデータストリームを生成する方法であって、幾つかの入力オーディオチャネルを受信するステップと、前記幾つかの入力オーディオチャネルをパラメトリックにエンコードし、前記幾つかの出力オーディオチャネル及びパラメトリックオーディオデータを有するデータストリームを生成するステップと、前記階層型エンコード手段に対応する階層型デコーダ構造を決定するステップと、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有するデコーダ木構造データを、前記データストリームに含めるステップと、を有する方法が提供される。
本発明の他の態様によれば、幾つかの出力オーディオチャネルを生成するための受信器であって、前記受信器は、幾つかの入力オーディオチャネル及びパラメトリックオーディオデータを有するデータストリームを受信するための手段を有し、前記データストリームは更に、階層型デコーダ構造についてのデコーダ木構造データを有し、前記デコーダ木構造データは、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有し、前記受信器は更に、前記デコーダ木構造データに応じて前記階層型デコーダ構造を生成するための手段と、前記階層型デコーダ構造を利用して前記データストリームから前記幾つかの出力オーディオチャネルを生成するための手段と、を有する受信器が提供される。
本発明の他の態様によれば、幾つかの出力オーディオチャネルを有するデータストリームを生成するための送信器であって、幾つかの入力オーディオチャネルを受信するための手段と、前記幾つかの入力オーディオチャネルをパラメトリックにエンコードし、前記幾つかの出力オーディオチャネル及びパラメトリックオーディオデータを有するデータストリームを生成するための階層型エンコード手段と、前記階層型エンコード手段に対応する階層型デコーダ構造を決定するための手段と、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有するデコーダ木構造データを、前記データストリームに含めるための手段と、を有する送信器が提供される。
本発明の他の態様によれば、データストリームを生成するための送信器と、幾つかの出力オーディオチャネルを生成するための受信器とを有する伝送システムであって、前記送信器は、幾つかの入力オーディオチャネルを受信するための手段と、前記幾つかの入力オーディオチャネルをパラメトリックにエンコードし、前記幾つかの出力オーディオチャネル及びパラメトリックオーディオデータを有するデータストリームを生成するための階層型エンコード手段と、前記階層型エンコード手段に対応する階層型デコーダ構造を決定するための手段と、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有するデコーダ木構造データを、前記データストリームに含めるための手段と、前記データストリームを前記受信器に送信するための手段と、を有し、前記受信器は、前記データストリームを受信するための手段と、前記デコーダ木構造データに応じて前記階層型デコーダ構造を生成するための手段と、前記階層型デコーダ構造を利用して前記データストリームから前記幾つかの出力オーディオチャネルを生成するための手段と、を有する伝送システムが提供される。
本発明の他の態様によれば、データストリームを受信する方法であって、前記方法は、幾つかの入力オーディオチャネル及びパラメトリックオーディオデータを有するデータストリームを受信するステップを有し、前記データストリームは更に、階層型デコーダ構造についてのデコーダ木構造データを有し、前記デコーダ木構造データは、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有し、前記方法は更に、前記デコーダ木構造データに応じて前記階層型デコーダ構造を生成するステップと、前記階層型デコーダ構造を利用して前記データストリームから前記幾つかの出力オーディオチャネルを生成するステップと、を有する方法が提供される。
本発明の他の態様によれば、幾つかの出力オーディオチャネルを有するデータストリームを送信する方法であって、幾つかの入力オーディオチャネルを受信するステップと、前記幾つかの入力オーディオチャネルをパラメトリックにエンコードし、前記幾つかの出力オーディオチャネル及びパラメトリックオーディオデータを有するデータストリームを生成するステップと、前記階層型エンコード手段に対応する階層型デコーダ構造を決定するステップと、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有するデコーダ木構造データを、前記データストリームに含めるステップと、前記データストリームを送信するステップと、を有する方法が提供される。
本発明の他の態様によれば、上述した方法のいずれかを実行するためのコンピュータプログラムが提供される。
本発明の他の態様によれば、上述した装置を有するオーディオ再生装置が提供される。
本発明の他の態様によれば、上述した装置を有するオーディオ記録装置が提供される。
本発明のこれらの及び他の態様、特徴及び利点は、以下に説明される実施例を参照しながら説明され明らかとなるであろう。
本発明の実施例は、添付図面を参照しながら、単に例として以下に説明される。
以下の説明は、幾つかの低い複雑さを持つチャネルダウンミクサ及びアップミクサを利用する、多チャネルオーディオ信号のエンコード及びデコードに適用可能な本発明の実施例に焦点を当てる。しかしながら、本発明は当該用途に限定されるものではない。ダウンミクサは、幾つかのオーディオチャネルを組み合わせて、より少ない数のオーディオチャネル及び付加的なパラメトリックデータとするように構成され、アップミクサは、より少ない数のオーディオチャネル及びパラメトリックデータから、幾つかのオーディオチャネルを生成するように構成されることは、当業者には理解されるであろう。かくして、アップミクサはチャネル分割機能を提供する。
図1は、本発明の幾つかの実施例によるオーディオ信号の通信のための伝送システム100を示す。伝送システム100は、とりわけインターネットであっても良いネットワーク105を通して受信器103に結合された、送信器101を有する。
本例においては、送信器101は信号記録装置であり、受信器は信号再生装置103であるが、他の実施例においては送信器及び受信器は他の用途で及び他の目的のために利用され得ることは理解されるであろう。例えば、送信器101及び/又は受信器1003はトランスコード機能の一部であっても良く、例えば他の信号源又は送信先へのインタフェースを提供しても良い。
信号記録機能がサポートされる本例においては、送信器101はアナログ信号を受信するディジタイザ107を有し、該アナログ信号は、サンプリング及びアナログ−ディジタル変換によりディジタルPCM信号に変換される。
送信器101は図1のエンコーダ109に結合され、エンコーダ109はエンコードアルゴリズムに従ってPCM信号をエンコードする。エンコーダ109はネットワーク送信器111に結合され、ネットワーク送信器111はエンコードされた信号を受信しインターネット105へとインタフェース接続する。該ネットワーク送信器は、インターネット105を通して、エンコードされた信号を受信器103へと送信し得る。
受信器103はネットワーク受信器113を有し、ネットワーク受信器113はインターネット105にインタフェース接続し、エンコードされた信号を送信器101から受信するように構成される。
ネットワーク受信器113は、デコーダ115に結合される。デコーダ115は、エンコードされた信号を受信し、該信号をデコードアルゴリズムに従ってデコードする。
信号再生機能がサポートされる本例においては、受信器103は更に信号再生器117を有する。信号再生器117は、デコーダ115からデコードされたオーディオ信号を受信し、該信号をユーザに提示する。具体的には、信号再生器117は、ディジタル−アナログ変換器、増幅器、及びデコードされたオーディオ信号を出力するためのスピーカを必要に応じて有する。
図1の例において、エンコーダ109及びデコーダ115は、小型の構造ブロックから成る縦続接続された又は木ベースの構造を利用する。エンコード109はかくして階層型エンコード構造を利用し、ここでオーディオチャネルは該階層構造における種々の層において漸進的に処理される。斯かる構造は、高いオーディオ品質を持ち、更にエンコーダ109の低い複雑さ及び実装の容易性を伴う、特に有利なエンコードに導き得る。
図2は、本発明の幾つかの実施例において利用され得る階層型エンコーダ構造の例を示す。
本例において、エンコーダ109は、左前(l)、左サラウンド(l)、右前(r)、右サラウンド(r)、中央(C)及びサブウーファ又は低周波強調(lfe)信号から成る、5.1チャネルサラウンド音声入力信号をエンコードする。該チャネルは最初に、セグメント化ブロック201においてセグメント化され、周波数ドメインへと変換される。その結果の周波数ドメイン信号は、対毎に2つから1つへの(TTO)ダウンミクサ203に供給され、該ダウンミクサ203は2つの入力信号を単一の出力チャネルへとダウンミックスし、対応するパラメータを抽出する。かくして、3つのTTOダウンミクサ203が、6つの入力チャネルを3つのオーディオチャネルとパラメータとにダウンミックスする。
図2に示されるように、TTOダウンミクサ203の出力は、他のダウンミクサ205及び207の入力として利用される。とりわけ、TTOダウンミクサ203のうち2つが第4のTTOダウンミクサ205に結合され、第4のTTOダウンミクサ205は対応するチャネルを単一のチャネルへと結合する。TTOダウンミクサ203のうち第3のものは、第4のTTOダウンミクサ205と共に第5のTTOダウンミクサ207に結合され、第5のTTOダウンミクサ207は、残りの2つのチャネルを単一のチャネル(M)へと結合する。該信号は最後に変換され時間ドメインへと戻され、エンコードされた多チャネルオーディオビットストリームmに帰着する。
TTOダウンミクサ203はエンコード構造の第1の層を有すると考えられ得る。このとき第2の層は第4のダウンミクサ205を有し、第3の層は第5のダウンミクサ207を有する。かくして、幾つかのオーディオチャネルの、より少ない数のオーディオチャネルへの結合は、階層型エンコーダ構造の各層において実行される。
エンコーダ109の階層型エンコード構造は、低い複雑さに対しては、非常に効率的且つ高品質のエンコードに帰着し得る。更に、階層型エンコード構造は、エンコードされる信号の性質に応じて変化させられても良い。例えば、単純なステレオ信号がエンコードされる場合、このことは単一のTTOダウンミクサ及び単一の層のみを有する階層型エンコード構造により達成され得る。
種々の階層型エンコード構造を用いてエンコードされた信号をデコーダ115が処理するために、該デコーダは当該信号のために利用された階層型エンコード構造に適応することが可能である必要がある。具体的には、デコーダ115は、エンコーダ109の階層型エンコード構造に合致する階層型デコーダ構造を持つように自身を構成するための機能を有する。しかしながら、このようにするためには、デコーダ115は、受信されたビットストリームのために利用された階層型エンコード構造の情報を供給される必要がある。
図3は、本発明の幾つかの実施例によるエンコーダ109の例を示す。
エンコーダ109は、幾つかの入力オーディオチャネルを受信する受信プロセッサ301を有する。図2の例については、エンコーダ109は、6つの入力チャネルを受信する。受信プロセッサ301は、階層型エンコード構造を持つエンコードプロセッサ303に結合される。例えば、エンコードプロセッサ303の階層型エンコード構造は、図2に示されたものと対応しても良い。
エンコードプロセッサ303は更に、エンコードプロセッサ303により利用される階層型エンコード構造を決定するように構成されたエンコード構造プロセッサ305に結合される。エンコードプロセッサ303は、構造データをエンコード構造プロセッサ305に明示的に供給しても良い。それに応答して、エンコード構造プロセッサ305は、エンコードプロセッサ303により生成されたエンコードされた信号をデコードするためにデコーダにより利用される必要がある階層型デコーダ構造を示す、デコーダ木構造データを生成する。
デコーダ木構造データは、階層型エンコード構造を記述するデータとして直接に決定されても良いし、又は利用される必要がある階層型デコーダ構造を直接に記述するデータであっても良い(例えばエンコードプロセッサ303の構造に対して相補的な構造を記述しても良い)ことは、理解されるであろう。
デコーダ木構造データは具体的には、階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有する。かくして、デコーダ木構造データは、デコーダにおいてオーディオチャネルがどこで分割される必要があるかを示す少なくとも1つのインジケータを有しても良い。斯かるインジケータは例えば、エンコード構造がダウンミクサを有する層を示すインジケータであっても良いし、アップミクサを有する必要があるデコーダ木構造の層を示すインジケータであっても同等に良い。
エンコードプロセッサ303及びエンコード構造プロセッサ305は、データストリーム生成器307に結合される。データストリーム生成器307は、エンコードプロセッサ303からのエンコードされたオーディオと、エンコード構造プロセッサ305からのデコーダ木構造データとを有するビットストリームを生成する。該データストリームは次いで、受信器103への通信のため、ネットワーク送信器111に供給される。
図4は、本発明の幾つかの実施例によるデコーダ115の例を示す。
デコーダ115は、ネットワーク受信器113から送信されたデータストリームを受信する受信器401を有する。デコーダは115更に、受信器401に結合された、デコードプロセッサ403とデコーダ構造プロセッサ405とを有する。
受信器401はデコーダ木構造データを抽出し、該データをデコーダ構造プロセッサ405に供給する。デコーダ構造プロセッサ405において、幾つかのオーディオチャネル及びパラメトリックオーディオデータを有するオーディオエンコードデータが、デコードプロセッサ403に供給される。
デコーダ構造プロセッサ405は、受信されたデコーダ木構造データに応じて、階層型デコーダ構造を決定するように構成される。具体的には、デコーダ構造プロセッサ405は、データ分割を規定するデータ値を抽出し、エンコードプロセッサ303の階層型エンコード構造と相補的な階層型デコーダ構造の情報を生成しても良い。該情報はデコードプロセッサ403に供給され、デコードプロセッサ403が規定された階層型デコーダ構造のために設定されるようにする。
続いて、デコーダ構造プロセッサ405は、該階層型デコーダ構造を用いて、エンコーダ109への元の入力に対応する出力チャネルを生成する。
かくして本システムは、特に多チャネルオーディオ信号のようなオーディオ信号の、効率的且つ高品質のエンコード、デコード及び配布を可能とし得る。デコーダがエンコーダに自動的に適応し、該デコーダがかくして多くの異なるエンコーダと共に利用され得るような、非常に柔軟なシステムが可能とされる。
デコーダ木構造データは、階層型デコーダ構造の種々の階層において、オーディオチャネルについてのチャネル分割特性を示すデータ値を利用して、効果的に通信される。かくして、デコーダ木構造データは、柔軟且つ高性能な階層型エンコード及びデコード構造のために最適化される。
例えば、5.1チャネル信号(即ち6チャネル信号)は、ステレオ信号及び空間パラメータのセットとしてエンコードされ得る。斯かるエンコードは、単純なTTO又は3つから2つへの(TTT)ダウンミクサを利用する多くの異なる階層型エンコード構造により実現され得、従って1つから2つへの(OTT)又は2つから3つへの(TTT)アップミクサを用いて多くの異なる階層型デコーダ構造が可能である。かくして、対応する空間ビットストリームをデコードするためには、デコーダはエンコーダにおいて利用された階層型エンコード構造の知識を持っているべきである。単純な一手法は、ルックアップテーブルへのインデクスを用いてビットストリーム中の木を信号表現することである。適切なルックアップテーブルの例は、以下のようになり得る:
Figure 0005097702
しかしながら、斯かるルックアップテーブルを用いることは、利用され得る全ての階層型エンコード構造が該ルックアップテーブルに明示的に規定されている必要があるという欠点を持つ。しかしながらこのことは、新たな階層型エンコード構造を本システムに導入するためには、全てのデコーダ/エンコーダが更新されたルックアップテーブルを受信する必要があることを要求する。このことは非常に望ましくなく、複雑な動作及び柔軟性に欠くシステムに帰着する。
それに対し、データ値が階層型デコーダ構造の種々の層におけるチャネル分割を示すデコーダ木構造データの利用は、いずれの階層型デコーダ構造をも記述し得るデコーダ木構造データの単純で汎用的な通信を可能とする。従って、新たなエンコード構造が、対応するデコーダの事前の通知を必要とすることなく、容易に利用され得る。
かくして、ルックアップテーブルベースの手法とは異なり、図1のシステムは、最大限の柔軟性を維持しつつ、任意の数の入力及び出力チャネルに対処することができる。このことは、ビットストリーム中のエンコーダ/デコーダ木の記述を規定することにより実現される。デコーダは該記述から、ビットストリーム中のエンコードされた後続パラメータをどこで及びどのように適用するべきかを導出することができる。
デコーダ木構造データは、具体的に複数のデータ値を有しても良く、各データ値が、階層型デコーダ構造の1つの階層における1つのチャネルについてのチャネル分割特性を示しても良い。具体的には、デコーダ木構造データは、階層型デコーダ構造に含まれるべき各アップミクサについて1つのデータ値を有しても良い。更に、1つのデータ値は、更に分割されない各チャネルについて含まれても良い。かくして、デコーダ木構造データのデータ値が1つの特定の所定データに対応する値をもつ場合、このことは対応するチャネルが更に分割されるべきはなく、実際にはデコーダ115の出力チャネルであることを示しても良い。
幾つかの実施例において、本システムはTTOダウンミクサのみを用いるエンコーダのみを組み込んでも良く、対応してOTTアップミクサのみを利用してデコーダが実装されても良い。斯かる実施例においては、データ値はデコーダの各チャネルに対して含まれても良い。更にデータ値は、チャネルが分割されないことを示す一方の値と、チャネルがOTTアップミクサにより2つのチャネルに分割されることを示す他方の値との2つのとり得る値のうち、一方の値をとっても良い。更に、デコーダ木構造データ中のデータ値の順序が、どのチャネルが分割されるか、及び従って階層型デコーダ構造におけるOTTアップミクサの位置を示しても良い。かくして、必要とされる階層型デコーダ構造を完全に記述する単純なバイナリ値を有するデコーダ木構造データが、実現され得る。
具体例として、図5のデコーダの階層型デコーダ構造のビット列記述の導出が説明される。
本例において、エンコーダはTTOダウンミクサのみを利用し、従ってデコーダ木はバイナリ列により記述されることが仮定される。図5の例においては、単一の入力オーディオチャネルが、OTTアップミクサを利用して、5個のチャネル出力信号へと拡張される。本例において、4層の深さが区別され、0と示される第1のものは入力信号の層にあり、3と示される最後のものは出力信号の層にある。本説明において、層は層境界を形成するアップミクサを伴うオーディオチャネルにより特徴付けられ、層はアップミクサを有する又はアップミクサにより形成されるとみなされ得ることは、理解されるであろう。
本例において、図5の階層型デコーダ構造は、以下のステップにより導出されるビット列「111001000」により記述され得る:
1:層0における入力信号tが分割される(OTTアップミクサA)。結果として層0における全ての信号が考慮されたこととなり、層1へと進む。
1:層1における第1の信号(OTTアップミクサAの上部から出力される)が分割される(OTTアップミクサB)。
1:層1における第2の信号(OTTアップミクサAの下部から出力される)が分割される(OTTアップミクサC)。層1の全ての信号が記述されたこととなり、層2へと進む。
0:層2における第1の信号(OTTアップミクサBの上部)は、これ以上分割されない。
0:層2における第2の信号(OTTアップミクサBの下部)は、これ以上分割されない。
1:層2における第3の信号(OTTアップミクサCの上部)は、更に分割される。
0:層2における第4の信号(OTTアップミクサCの下部)は、これ以上分割されない。層2の全ての信号が記述されたこととなり、層3へと進む。
0:層3における第1の信号(OTTアップミクサDの上部)は、これ以上分割されない。
0:層3における第2の信号(OTTアップミクサDの下部)は、これ以上分割されない。これで全ての信号が記述されたこととなる。
幾つかの実施例において、エンコードはTTO及びTTTダウンミクサのみを利用することに制限され、従ってデコードはOTT及びTTTアップミクサのみを利用することに制限され得る。TTTアップミクサは多くの種々の構成において利用され得るが、2つの入力信号から3つの出力信号を正確に推定するために(波形)予測が利用される方法において、TTTアップミクサを利用することが特に有利である。TTTアップミクサの当該予測特性のため、これらアップミクサのための論理位置は木のルートとなる。このことは、OTTアップミクサが元の波形を壊し、それにより予測を不適切なものとすることによる。かくして、幾つかの実施例においては、デコーダ構造において利用されるアップミクサは、ルート層におけるOTTアップミクサ又はTTTアップミクサのみである。
それ故、斯かるシステムについては、併せて全体の木記述を可能とする、3つの異なる状況が区別され得る:
1)ルートとしてTTTアップミクサを持つ木
2)OTTアップミクサのみから成る木
3)「空の木」即ち入力チャネルから出力チャネルへの直接のマッピング
図6はルートにTTTアップミクサを持つ階層型デコーダ構造の例を示し、図7は複数のデコーダ木構造を有する階層型デコーダ構造の例を示す。図7の階層型デコーダ構造は、上述した3つの例の全てによるデコーダ木構造を有する。
幾つかの実施例においては、デコーダ木構造データは、入力チャネルがTTTアップミクサを有するか否かを示す順序に並べられる。デコーダ木構造データは、より低い層のチャネルがOTTアップミクサにより分割されるか又はそれ以上分割されないかを示すバイナリデータに後続される、TTTアップミクサがルート層において存在することを示すインジケータを有しても良い。このことは、ビットレート及び低信号コストの面で、性能を改善し得る。
例えば、デコーダ木構造データは、階層型デコーダ構造にどれだけ多くのTTTアップミクサが含まれるかを示し得る。各木構造はルートレベルに位置する1つのTTTアップミクサのみを有するため、木の残りは上述したようなバイナリ列により記述され得る(即ち、木はより低い層についてのみOTTアップミクサ木であるため、OTTアップミクサのみの階層型デコーダ構造について上述したものと同様の手法が適用されることができる)。
また、残りの木構造は、OTTアップミクサのみの木か、又は同様にバイナリ列により記述されることができる空の木である。従って、全ての木がバイナリデータ値により記述されることができ、バイナリ列の解釈は木がどのカテゴリに属するかに依存し得る。該情報は、デコーダ木構造データにおける木の位置により提供され得る。例えば、TTTアップミクサを有する全ての木が最初にデコーダ木構造データにおいて位置特定され、OTTアップミクサのみの木により後続され、更に空の木により後続される。階層型デコーダ構造におけるTTTアップミクサ及びOTTアップミクサの数がデコーダ木構造データに含まれる場合、デコーダは更なるデータを必要とすることなく設定されることができる。かくして、必要とされるデコーダの情報の非常に効率的な通信が実現される。デコーダ木構造データを通信するオーバヘッドは非常に低く保たれ得、更に、多様な階層型デコーダ構造を記述し得る非常に柔軟なシステムが提供される。
具体例として、図7のデコーダの階層型デコーダ構造が、以下の処理によりデコーダ木構造データから導出されても良い:
−入力信号の数が(ことによるとエンコードされた)ダウンミックスから導出される。
−木全体のOTTアップミクサ及びTTTアップミクサの数がデコーダ木構造データ中に信号表現され、そこから抽出される。出力信号の数は、出力信号の数=入力信号の数+TTTアップミクサの数+OTTアップミクサの数、と導出される。
−再マッピングの後に、最初に状況1)による木が遭遇され、状況2)による木により後続され、次いで状況3)による木に後続されるように、デコーダ木構造データにおいて入力チャネルが再マッピングされる。図7の例については、このことは3、0、1、2、4の順に帰着し、即ち信号0が再マッピングの後の信号3、信号1が再マッピングの後の信号0、等となる。
−各TTTアップミクサについて、上述した方法を用いて、3つのOTTのみの木記述が与えられる(TTT出力チャネル毎に1つの、OTTのみの木)。
−残りの全ての入力信号について、OTTのみの記述が与えられる。
幾つかの実施例において、出力チャネルについてのラウドスピーカ位置のインジケータが、デコーダ木構造データに含まれる。例えば以下のような、所定のラウドスピーカ位置のルックアップテーブルが利用されても良い:
Figure 0005097702
代替として、ラウドスピーカ位置は階層的手法を用いて表現されても良い。例えば、数個の先頭のビットがx軸を規定し(例えばL、R、C)、次いで数個のビットがy軸を規定し(例えば前、横、サラウンド)、更なる数個のビットがz軸(高さ)を規定する。
具体例として、以下は上述した指針に従うビットストリーム構文の例を示す。本例において、入力及び出力信号の数は、ビットストリームに明示的に符号化される。斯かる情報は、ビットストリームの一部を有効にするために利用され得る。
Syntax
TreeDescription()
{
numInChan=bsNumInChan+1;
numOutChan=bsNumOutChan+2;
numTttUp_mixers=bsNumTttUp_mixers;
numOttUp_mixers=bsNumOttUp_mixers;
For(ch=0;ch<numInChan;ch++){
bsChannelRemapping[ch]
}
For(ch=0;ch<numOutChan;ch++){
bsOutputChannelPos[ch]
}
Idx=0
ottUp_MixerIdx=0;
For(i=0;i<numTttUp_mixers;i++){
TttConfig(i);
for(ch=0;ch<3;ch++,idx++){
OttTreeDescription(idx)
}
}
while(ottUp_mixerIdx<numOttUp_mixersidx<numInChan+numTttUp_mixers){
OttTreeDescription(idx);
idx++;
}
numOttUp_mixers=ottUp_mixerIdx+1;
}
本例においては、各OttTreeは、以下に示されるOttTreeDescription()において処理される。
Syntax
OttTreeDescription(idx)
{
CurrLayerSignals=1
NexLayerSignals=0
while(CurrLayerSignals>0){
bsOttUp_mixerPresent
if(bsOttUp_mixerPresent==1){
OttConfig(ottUp_mixerIdx);
ottDefaultCld[ottUp_mixerIdx]=bsOttDefaultCld[ottUp_mixerIdx];
ottModeLfe[ottUp_mixerIdx]=bsOttModeLfe[ottUp_mixerIdx];
NextLayerSignals+=2;
ottUp_mixerIdx++;
}
CurrLayerSignals--;
if((currLayerSignals==0)&&(NextLayerSignals>0)){
CurrLayerSignals=NextLayerSignals;
NextLayerSignals=0;
}
}
}
以上の構文において、下線はビットストリームから読み取られる要素を示すために用いられている。
階層の概念は斯かる記述において必要とされないことが、理解されるであろう。例えば、「開いた端がある限り、更に入力されるビットがある」という原則に基づく記述もが適用され得る。データをデコードするために、該概念が幾分か有用となり得る。
OTTアップミクサが存在するか否かを示すビットの他に、OTTアップミクサについて以下のデータが含まれる:
−デフォルトのチャネルレベル差
−OTTアップミクサがLFE(低周波拡張型)OTTアップミクサであるか否か、即ちパラメータが帯域制限されたもののみであり相関/一貫性データを含まないか否か
加えてデータは、例えば本例のTTTアップミクサにおいてはどのモードを利用するか(波形ベースの予測、エネルギーベースの予測等)といった、アップミクサの特定の特性を規定しても良い。
当業者には分かるように、OTTアップミクサは、単一のチャネルを2つのチャネルに分割するために、非相関信号を利用する。更に、該非相関信号は、単一の入力チャネル信号から導出される。図8は、本手法によるOTTアップミクサの例を示す。かくして、図5のデコーダの例は、非相関信号を生成する非相関ブロックが明示的に示された図9の図により表され得る。
しかしながら、理解され得るように、当該手法は非相関ブロックの縦続接続に導き、それにより低い層のOTTアップミクサについての非相関信号が、他の非相関信号から生成された入力信号から生成される。かくして、より低い層の非相関信号は、ルートレベルにおいて元の入力信号から生成されるのではなく、幾つかの非相関ブロックにより処理されたものとなる。各非相関ブロックは非相関フィルタを有するため、該手法は非相関信号の「汚れ」に導く(例えば過渡信号が著しく歪まされ得る)。このことは、出力信号に対するオーディオ品質劣化に帰着する。
かくして、オーディオ品質を改善するために、デコーダのアップミックスにおいて適用される非相関化器はそれ故、幾つかの実施例においては、非相関信号の縦続接続が回避されるように移動させられても良い。図10は、図9のものに対応するデコーダ構造の例を示すが、ここでは入力チャネルに直接結合された非相関化器を用いる。かくして、前のOTTアップミクサの出力を非相関化器への入力として用いる代わりに、非相関アップミクサは、利得アップミクサG、G及びGにより前処理された元の入力信号tを直接用いる。これらの利得は、非相関化器の入力部におけるパワーが、図9の構造における非相関化器の入力において実現されたであろうパワーと等しくなることを確実にする。このように得られる構造は、非相関化器の縦続接続を含まず、それにより改善されたオーディオ品質に帰着する。
以下、デコーダ木構造データに応答して階層のアップミクサについての行列乗算を決定する方法の例が説明される。本説明はとりわけ、アップミクサの非相関信号を生成するための非相関フィルタが、デコード構造のオーディオ入力チャネルに直接接続されている実施例に焦点を当てる。かくして本説明は、図10に示されたもののようなエンコーダの実施例に焦点を当てる。
図11は、本発明の幾つかの実施例によるデコードの方法のためのフロー図の例を示す。
ステップ1101において、量子化され符号化されたパラメータが、受信されたビットストリームからデコードされる。当業者には理解されるように、このことは以下のような従来のパラメトリックオーディオ符号化パラメータの幾つかのベクトルに帰着する:
CLD=[−10 15 10 12 … 10]
CLD=[5 1 2 15 10 … 2]
ICC=[1 0.6 0.9 0.3 … −1]
ICC=[0 1 0.6 0.9 … 0.3]等
各ベクトルは、周波数軸に沿ったパラメータを表す。
ステップ1101はステップ1103に後続され、ステップ1103において、デコードされたパラメトリックデータから個々のアップミクサについての行列が決定される。
(周波数非依存の)一般化されたOTT及びTTT行列は、それぞれ以下のように与えられる:
Figure 0005097702
Figure 0005097702
信号x、d及びyはそれぞれ、入力信号、信号xから導出された非相関信号、及び出力信号を表す。行列のエントリHij及びMijは、ステップ1103において導出されるパラメータの関数である。
本方法は次いで2つの並行する経路に分かれ、一方の経路は木プリ行列(pre-matrix)値の導出(ステップ1105)に向けたものであり、他方の経路は木ミックス行列(mix-matrix)値の導出(ステップ1107)に向けたものである。
プリ行列は、非相関化及び行列適用の前に入力信号に適用される行列乗算に対応する。具体的には、プリ行列は、非相関フィルタの前に入力信号に適用される利得アップミクサに対応する。
更に詳細には、単純なデコーダ実装は一般に、例えば図9において適用されたような、非相関フィルタの縦続接続に導く。上述したように、該縦続接続を回避することが好ましい。そのため、図10において示されるように、非相関フィルタは全て同一の階層レベルに移動させられる。非相関信号が適切な、即ち図9の単純な場合における非相関信号のレベルと等しいエネルギーレベルを持つことを確実とするため、プリ行列は非相関化の前に適用される。
例えば、図10における利得Gは以下のように導出される。最初に、1−2アップミクサが、入力信号パワーを該1−2アップミクサの上部及び下部の出力に分割することに留意することが重要である。この特性は、チャネル間強度差(Inter-channel Intensity Difference、IID)又はチャネル間レベル差(Inter-channel Level Difference、ICLD)パラメータに反映される。それ故利得Gは、1−2アップミクサの上部及び下部の出力の合計により除算された、上部の出力のエネルギー比として算出される。IID又はICLDパラメータは時間及び周波数により変化し得るため、該利得もまた時間及び周波数の両方により変化し得ることは、理解されるであろう。
ミックス行列は、付加的なチャネルを生成するために、アップミクサにより入力信号に適用される行列である。
最終的なプリ及びミックス行列式は、OTT及びUTTアップミクサの縦続接続の結果である。非相関化器の縦続接続を防ぐためデコーダ構造が修正されているため、このことは最終的な式を決定するときに考慮に入れられる必要がある。
所定の構成のみが利用される実施例においては、行列のエントリHij及びMijと最終的な行列式との間の関係は一定であり、標準的な変更が適用されても良い。
しかしながら、以上に説明した、より柔軟且つ動的な手法については、プリ及びミックス行列値の決定は、後述されるような、より複雑な手法によって決定されても良い。
ステップ1105はステップ1109に後続され、ステップ1109において、ステップ1005において導出されたプリ行列が、時間ドメイン信号を周波数ドメインに変換する(ステップ1113)ために適用される実際の周波数グリッドにマッピングされる。
ステップ1109はステップ1111に後続され、ステップ1111において、周波数行列パラメータの補間が内挿される。具体的には、パラメータの時間更新がステップ1113の時間−周波数変換の更新に対応するか否かに依存して、補間が適用されても良い。
ステップ1113において、該マッピングされ任意に補間されたプリ行列を適用するため、入力信号が周波数ドメインに変換される。
ステップ1115がステップ1111及びステップ1113に後続し、プリ行列を周波数ドメイン入力信号に適用するステップを有する。実際の行列適用は、行列乗算のセットである。
ステップ1115はステップ1117に後続され、ステップ1117において、ステップ1115の行列適用に起因する信号の一部が、非相関信号を生成するため非相関フィルタに供給される。
同様の手法が、ミックス行列式を導出するために適用される。
具体的には、ステップ1107がステップ1119により後続され、ステップ1119において、ステップ1107において決定された式が、ステップ1113の時間−周波数変換の周波数グリッドにマッピングされる。
ステップ1119はステップ1121に後続され、ステップ1121において、ここでもまたパラメータ及び変換の時間更新に依存して、ミックス行列値が任意に補間される。
ステップ1115、1117及び1121において生成された値はかくして、アップミックス行列乗算のために必要とされるパラメータを形成し、該乗算はステップ1123において実行される。
ステップ1123はステップ1125により後続され、ステップ1125において、結果の出力が変換され時間ドメインへと戻される。
図11におけるステップ1115、1117及び1123に対応するステップは、図12により更に説明される。図12は、本発明の幾つかの実施例による行列デコーダ構造の例を示す。
図12は、多チャネル出力を復元するために、入力ダウンミックスチャネルがどのように利用され得るかを示す。以上に概説されたように、本処理は、中間の非相関ユニットを伴う、2つの行列乗算により記述され得る。
それ故、出力チャネルを形成するための入力チャネルの処理は、以下のように記述されることができる:
n,k=M n、kn、k
n,k=M n、kn、k
n、kは、特定の数の入力チャネルを、非相関化器へと入力される特定の数のチャネルへとマッピングする2次元の行列であり、各時間スロットn及び各サブバンドkについて定義される。
n、kは、特定の数の前処理されたチャネルを、特定の数の出力チャネルへとマッピングする2次元の行列であり、各時間スロットn及び各ハイブリッドサブバンドkについて定義される。
以下、ステップ1105及び1107のプリ及びミックス行列式が、デコーダ木構造データからどのように生成され得るかの例が説明される。
最初に、OTTアップミクサのみを持つデコーダ木構造が、図13の木の例を参照しながら考慮される。
このタイプの木については、幾つかの支援変数を定義することが有益である。
Figure 0005097702
は、各OTTアップミクサについて遭遇されるOTTアップミクサのインデクスを記述する(即ち、本例においては、第4のOTTアップミクサに入力される信号は、Tree行列における第5列により与えられるように、第0及び第1のOTTアップミクサを通過している。同様に、第2のOTTアップミクサに入力される信号は、Tree行列における第3列により与えられるように、第0のOTTボックスを通過している等する)。
Figure 0005097702
は、各OTTアップミクサについて、上の経路が辿られるか下の経路が辿られるかを示す。正の符号は上の経路を示し、負の符号は下の経路を示す。
該行列はTree行列に対応し、それ故、Tree行列における特定の列及び行が特定のOTTアップミクサを指す場合、Tree sign行列における同じ列及び行が、当該特定の列の第1行に与えられるOTTアップミクサに到達するために当該特定のOTTアップミクサの下部が利用されるか上部が利用されるかを示す(即ち、本例においては、第4のOTTアップミクサに入力される信号は、(Tree sign行列における第3行第5列により示されるように)第0のOTTアップミクサの上の経路と、Tree sign行列における第2行第5列により示されるように)第1のOTTアップミクサの下の経路とを通過している)。
Tree depth=[1 2 2 3 3]
は、各OTTアップミクサについての木の深さを示し(即ち、本例においては、アップミクサ0が層1にあり、アップミクサ1及び2が層2にあり、アップミクサ3及び4が層3にある)、
Treeelements=[5]
は、木における要素の数を示す(即ち、本例においては、木は5個のアップミクサを有する)。
非相関信号のみについてのプリ行列を記述する一時行列Kが、以下のように定義される:
Figure 0005097702
ここで、
Figure 0005097702
は、OTTボックスの上の出力が利用されるか下の出力が利用されるかに依存する、Tree(i,p)により示されるOTTアップミクサについての利得値であり、
Figure 0005097702
である。
IID値は、ビットストリームから取得されるチャネル間強度差である。
最終的なプリ行列Mが次いで、以下のように構築される:
Figure 0005097702
プリ−ミックス行列の目的が、OTTボックスの前に、図13におけるOTTアップミクサに含まれる非相関化器を移動させることを可能とすることであることを考慮する。それ故、プリ−ミックス行列は、OTTアップミクサにおける全ての非相関化器について「ドライ(dry)な」入力信号を供給する必要があり、このとき入力信号は、非相関化器を木の前に移動させる前に非相関化器が配置されていた特定の位置において持っていたであろうレベルを持つ。
また、プリ行列は非相関化器に入力される信号に対してのみプリ利得を適用すること、及び非相関信号と「ドライな」ダウンミックス信号との混合はミックス行列Mにおいて行われること(以下に詳述される)を考慮すると、プリ−ミックス行列の最初の要素は、M行列に直接結合される出力を与える(線m/cがこのことを示している、図12を参照されたい)。
OTTアップミクサのみの木が現在対象とされているとすると、プリ−ミックスベクトルMの第2の要素が1であることが明らかである。なぜなら、OTTアップミクサ0における非相関化器に入力される信号が、正確にダウンミックス入力信号であるからである。また、該OTTアップミクサについて、木全体の前に非相関化器を移動させるための差分がないことも明らかである。なぜなら、既に木における最初のものであるからである。
更に、非相関化器への入力ベクトルがvn,k=M n,kn,kにより与えられると仮定し、図13及び図12並びにM n,k行列における要素が導出された方法を参照すると、Mの第1行が図12におけるm信号に対応すること、及び後続する行がOTTボックス0、…、4の非相関化器入力信号に対応することが明らかである。それ故、wn,kベクトルは、以下のようになる:
Figure 0005097702
ここでeは、図13におけるn番目のOTTボックスからの非相関化器出力を示す。
ここでミックス行列Mをみると、該行列の要素は同様に推論されることができる。しかしながら、該行列については、ドライな信号を利得調節すること及び該信号を関連する非相関化器出力と混合することが目的である。木における全てのOTTアップミクサは、以下のように記述され得ることを考慮する:
Figure 0005097702
ここで、YはOTTボックスの上の出力であり、Yは下の出力であり、Xはドライな入力信号であり、Qは非相関化器信号である。
出力チャネルは行列乗算yn,k=M n,kn,kにより形成され、wn,kベクトルは図12に示されるようにダウンミックス信号と非相関化器の出力との組み合わせとして形成されるため、M行列の全ての行が出力チャネルに対応し、特定の行における全ての要素が、特定の出力チャネルを形成するためにダウンミックス信号及び種々の非相関化器のうちどれだけが混合されるべきかを示す。
例えば、ミックス行列Mの第1行をみる。
Figure 0005097702
における第1行の第1の要素は「m」信号の寄与に対応し、OTTアップミクサ0、1及び3の上の出力により与えられる出力に対する寄与である。上述のH行列を仮定すると、このことはH11、H11及びH11に対応する。なぜなら、OTTボックスの上の出力についてのドライな信号の量は、OTTアップミクサのH11要素により与えられるからである。
第2の要素は、以上によればOTTアップミクサ0に配置されている非相関化器D1の寄与に対応する。それ故、この寄与はH11、H11及びH12である。このことは、H12要素がOTTアップミクサ0からの非相関化器出力を与え、当該信号が続いてドライな信号の一部としてOTTアップミクサ1及び3を通過させられ、かくしてH11及びH11要素に従って利得調節されるため、明らかである。
同様に、第3の要素は、以上によればOTTアップミクサ1に配置されている非相関化器D2の寄与に対応する。それ故、この寄与はH12及びH11である。
第5の要素は、以上によればOTTアップミクサ3に配置されている非相関化器D3の寄与に対応する。それ故、この寄与はH12である。
第1列の第4及び第6の要素は、ゼロである。なぜなら、非相関化器D4又はD6の寄与は、該行列の第1行に対応する出力チャネルの一部ではないからである。
以上の段階的な例は、行列要素がOTTアップミクサ行列要素Hの積として推論され得ることを明らかとする。
一般的な木についてミックス行列Mを導出するために、行列Mについてのものと同様の手順が導出され得る。最初に以下の支援変数が導出される:
行列Treeは、全ての出力チャネルについて列を持ち、各出力チャネルに到達するために信号が通過する必要があるOTTアップミクサのインデクスを記述する。
Figure 0005097702
行列Treesignは、現在の出力チャネルに到達するために、上の経路(1)が利用されるべきか下の経路(−1)が利用されるべきかを示すためのインジケータを、木における全てのアップミクサについて保持する。
Figure 0005097702
Treedepthベクトルは、特定の出力チャネルに到着するまでに通過される必要があるアップミクサの数を保持する。
Treedepth=[3 3 3 3 2 2]
Treeelementsベクトルは、木全体の全てのサブ木におけるアップミクサの数を保持する。
Treeelements=[5]
以上に定義された表記が信号表現され得る全ての木を記述するために十分であるとすると、M行列が定義され得る。1つの入力チャネルからN個の出力チャネルを生成する、サブ木kについての行列は、以下により定義される:
Figure 0005097702
ここで、
Figure 0005097702
である。ここでH要素は、インデクスTree(p,j)を持つOTTアップミクサに対応するパラメータにより定義される。
以下、例えば図14のデコーダ構造のような、ルートレベルにおいてTTTアップミクサを含む、より一般的な木が仮定される。2つの変数M1及びM2を含むアップミクサがOTT木を示し、かくして必ずしも単一のOTTアップミクサではない。更に、最初に、TTTアップミクサが非相関信号を利用しないこと、即ちTTT行列が3x2行列として記述され得ることが仮定される:
Figure 0005097702
これらの仮定の下では、第1のTTTアップミクサについて最終的なプリ及びミックス行列を導出するために、各OTT木についてプリ−ミックス行列の2つのセットが導出される。1つはTTTアップミクサの第1の入力信号についてのプリ行列化を記述し、他方はTTTアップミクサの第2の入力信号についてのプリ行列化を記述する。両方のプリ行列化ブロック及び非相関化の適用の後、信号が合計され得る。
出力信号はかくして、以下のように導出される。
Figure 0005097702
最後に、TTTアップミクサが非相関化を利用する場合においては、非相関信号の寄与が、後処理の形で加算され得る。TTTアップミクサ非相関信号が導出された後、各出力信号に対する寄与は単に、各後続するOTTアップミクサのIIDにより配布される[M13,M23,M33]ベクトルにより与えられる寄与である。
図15は、本発明の幾つかの実施例によるオーディオ信号を送信及び受信する方法を示す。
本方法は、送信器が幾つかの入力オーディオチャネルを受信するステップ1501において開始する。
ステップ1501はステップ1503に後続され、ステップ1503において、送信器が該幾つかの入力オーディオチャネルをパラメトリックにエンコードし、幾つかのオーディオチャネルとパラメトリックオーディオデータとを有するデータストリームを生成する。
ステップ1503はステップ1505に後続され、ステップ1505において、階層型エンコード手段に対応する階層型デコーダ構造が決定される。
ステップ1505はステップ1507に後続され、ステップ1507において、階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有するデコーダ木構造データを、送信器がデータストリーム中に含ませる。
ステップ1507はステップ1509に後続され、ステップ1509において、送信器が該データストリームを受信器に送信する。
ステップ1509はステップ1511に後続され、ステップ1511において、受信器がデータストリームを受信する。
ステップ1511はステップ1513に後続され、ステップ1513において、受信器によって利用されるべき階層型デコーダ構造が、デコーダ木構造データに応じて決定される。
ステップ1513はステップ1515に後続され、ステップ1515において、受信器が階層型デコーダ構造を利用して該データストリームから幾つかの出力オーディオチャネルを生成する。
以上の記載は、明確さのため、種々の機能ユニット及びプロセッサと関連して本発明の実施例を説明したものであることは理解されるであろう。しかしながら、種々の機能ユニット又はプロセッサ間の機能のいずれの適切な分散もが、本発明から逸脱することなく利用され得ることは、明らかであろう。例えば、別個のプロセッサ又はコントローラにより実行されるように説明された機能は、同一のプロセッサ又はコントローラにより実行されても良い。それ故、特定の機能ユニットへの参照は、厳密な論理的又は物理的な構造を示すものではなく、単に説明された機能を提供するための適切な手段への参照として考えられるべきである。
本発明は、ハードウェア、ソフトウェア、ファームウェア又はこれらのいずれかの組み合わせを含む、いずれの適切な形態で実装されても良い。本発明は任意に、少なくとも部分的に、1以上のデータプロセッサ及び/又はディジタル信号プロセッサ上で動作するコンピュータソフトウェアとして実装されても良い。本発明の実施例の要素は、物理的、機能的及び論理的に、いずれの適切な態様で実装されても良い。実際には、機能は単一のユニットで実装されても良いし、複数のユニットで実装されても良いし、又は他の機能ユニットの一部として実装されても良い。本発明自体、単一のユニットで実装されても良いし、種々のユニット及びプロセッサ間で物理的及び機能的に分散されても良い。
本発明は幾つかの実施例と関連して説明されたが、本発明はここで開示された特定の形態に限定されることを意図したものではない。本発明の範囲は、添付する請求項によってのみ限定される。加えて、特定の実施例に関連して特徴が説明されたが、説明された実施例の種々の特徴が、本発明に従って組み合わせられても良いことは、当業者は理解するであろう。請求項において、「有する(comprise)」なる語は、他の要素又はステップの存在を除外するものではない。
更に、複数の手段、要素又は方法ステップは、別個に列記されていても、例えば単一のユニット又はプロセッサにより実装されても良い。加えて、個々の特徴が異なる請求項に含められ得るが、これら特徴は有利に組み合わせられても良く、異なる請求項に含められていることは、これら特徴の組み合わせが利用可能ではない及び/又は有利ではないことを意味するものではない。或るカテゴリの請求項に特徴を含むことは、該カテゴリに対する限定を意味するものではなく、該特徴が他の請求項のカテゴリに適宜等しく適用可能であることを示す。更に、請求項における特徴の順序は、これら特徴が動作する必要のある順序を示すものではなく、またとりわけ、方法の請求項における個々のステップの順序は、これらステップが該順序で実行される必要があることを示すものではない。これらステップは、いずれの適切な順序で実行されても良い。加えて、単数形の参照は複数を除外するものではない。従って、「1つの(a、an)」、「第1の(first)」及び「第2の(second)」等への参照は、複数を除外するものではない。請求項における参照記号は単に明確化のための例であり、いずれの態様においても請求項の範囲を限定するものとして解釈されるべきではない。
本発明の幾つかの実施例によるオーディオ信号の通信のための伝送システムを示す。 本発明の幾つかの実施例において利用され得る階層型エンコーダ構造の例を示す。 本発明の幾つかの実施例によるエンコーダの例を示す。 本発明の幾つかの実施例によるデコーダの例を示す。 本発明の幾つかの実施例において利用され得る幾つかの階層型デコーダ構造の例を示す。 ルートにおいて2−3アップミクサを持つ階層型デコーダ構造の例を示す。 複数のデコーダ木構造を有する階層型デコーダ構造の例を示す。 1−2アップミクサの例を示す。 本発明の幾つかの実施例において利用され得る幾つかの階層型デコーダ構造の例を示す。 本発明の幾つかの実施例において利用され得る幾つかの階層型デコーダ構造の例を示す。 本発明の幾つかの実施例によるデコードの方法のためのフロー図の例を示す。 本発明の幾つかの実施例によるマトリクスデコーダ構造の例を示す。 本発明の幾つかの実施例において利用され得る階層型デコーダ構造の例を示す。 本発明の幾つかの実施例において利用され得る階層型デコーダ構造の例を示す。 本発明の幾つかの実施例によるオーディオ信号を送信及び受信する方法を示す。

Claims (33)

  1. 幾つかの出力オーディオチャネルを生成するための装置であって、前記装置は、
    1以上である幾つかの入力オーディオチャネル及び空間的特性を記述するパラメトリックオーディオデータを有するデータストリームを受信するための手段を有し、前記データストリームは更に、階層型デコーダ構造についてのデコーダ木構造データを有し、前記デコーダ木構造データは、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有し、前記装置は更に、
    前記デコーダ木構造データに応じて前記階層型デコーダ構造を生成するための手段と、
    前記階層型デコーダ構造を利用して前記データストリームから前記幾つかの出力オーディオチャネルを生成するための手段と、
    を有する装置。
  2. 前記デコーダ木構造データは複数のデータ値を有し、各前記データ値は、前記階層型デコーダ構造の1つの階層における1つのチャネルについてのチャネル分割特性を示す、請求項1に記載の装置。
  3. 所定の前記データ値が、前記階層において前記チャネルについてのチャネル分割がないことを示す、請求項2に記載の装置。
  4. 所定の前記データ値が、前記階層における前記チャネルについての1つから2つへのチャネル分割を示す、請求項2に記載の装置。
  5. 前記複数のデータ値はバイナリデータ値である、請求項2に記載の装置。
  6. 第1の所定の前記バイナリデータ値が1つから2つへのチャネル分割を示し、第2の所定のバイナリデータ値がチャネル分割がないことを示し、
    前記第2の所定のバイナリデータ値は前記第1の所定のバイナリデータ値と異なる、請求項5に記載の装置。
  7. 前記データストリームは更に、入力オーディオチャネルの数についての情報を有する、請求項1に記載の装置。
  8. 前記データストリームは更に、出力オーディオチャネルの数についての情報を有する、請求項1に記載の装置。
  9. 前記データストリームは更に、前記階層型デコーダ構造における幾つかの1つから2つへのチャネル分割機能についての情報を有し、1つから2つへのチャネル分割機能は、1つのチャネルと前記パラメトリックオーディオデータから2つのチャネルを生成する、請求項1に記載の装置。
  10. 前記データストリームは更に、前記階層型デコーダ構造における幾つかの2つから3つへのチャネル分割機能についての情報を有し、2つから3つへのチャネル分割機能は、2つのチャネルと前記パラメトリックオーディオデータから3つのチャネルを生成する、請求項1に記載の装置。
  11. 前記デコーダ木構造データは、2つから3つへのチャネル分割機能の存在に応じて順序付けられた複数のデコーダ木構造についてのデータを有し、1つから2つへのチャネル分割機能は、1つのチャネルと前記パラメトリックオーディオデータから2つのチャネルを生成する、請求項1に記載の装置。
  12. 少なくとも1つの入力チャネルについての前記デコーダ木構造データは、2つから3つへのチャネル分割機能がルート層におけるチャネルに対して存在することについての制御情報を有し、該制御情報はバイナリデータに後続され、各前記バイナリデータの値は、分割機能がないことか又は2つから3つへの分割機能の従属する層のチャネルについての1つから2つへのチャネル分割機能を示し、前記デコーダ木構造データの従属する層は、前記デコーダ木構造データの前記ルート層に続く層であり、1つから2つへのチャネル分割機能は、1つのチャネルと前記パラメトリックオーディオデータから2つのチャネルを生成し、2つから3つへのチャネル分割機能は、2つのチャネルと前記パラメトリックオーディオデータから3つのチャネルを生成する、請求項1に記載の装置。
  13. 前記データストリームは更に、少なくとも1つの前記出力チャネルについてのラウドスピーカ位置についての情報を有する、請求項1に記載の装置。
  14. 前記デコーダ木構造は、少なくとも1つの階層における少なくとも1つのチャネル分割機能を有し、前記少なくとも1つのチャネル分割機能は、
    前記データストリームのオーディオ入力チャネルから非相関信号を直接に生成するための非相関フィルタを有し、前記非相関信号は、前記オーディオ入力チャネルから非相関とされ、
    より高い階層からのオーディオチャネル及び前記非相関信号から、複数の階層出力チャネルを生成するための少なくとも1つのチャネル分割ユニットと、
    前記デコーダ木構造データに応じて、非相関フィルタ又は前記チャネル分割ユニットの少なくとも1つの特性を決定するための手段と、
    さらに有する、請求項1に記載の装置。
  15. 前記非相関手段は、前記オーディオ入力チャネルに対してオーディオレベル補償を実行してレベル補償されたオーディオ信号を生成するためのレベル補償手段と、前記レベル補償されたオーディオ信号をフィルタリングして非相関信号を生成するための非相関フィルタと、を有する、請求項1に記載の装置。
  16. 前記レベル補償手段は、前記レベル補償されたオーディオ信号が前記非相関フィルタに入力される前に、前記レベル補償されたオーディオ信号を得るために前記オーディオ入力チャネルに適用されるプリ行列による行列乗算を有する、請求項1に記載の装置。
  17. 前記プリ行列の係数は、1つから2つへのチャネル分割機能のみを有する階層型デコーダ構造についての少なくとも1つの1に等しい値を持つ、請求項1に記載の装置。
  18. 前記階層型デコーダ構造の少なくとも1つの階層に関するより高い階層におけるチャネル分割機能のパラメータに応じて、前記少なくとも1つの階層における少なくとも1つのチャネル分割機能についてのプリ行列を決定するための手段を更に有する、請求項1に記載の装置。
  19. 1つから2つへのチャネル分割機能、または2つから3つへのチャネル分割機能を備える、少なくとも1つの階層における少なくとも1つのチャネル分割機能のパラメータに応じて、前記少なくとも1つのチャネル分割機能についてのチャネル分割行列を決定するための手段を有し、前記1つから2つへのチャネル分割機能は、1つのチャネルと前記パラメトリックオーディオデータから2つのチャネルを生成し、前記2つから3つへのチャネル分割機能は、2つのチャネルと前記パラメトリックオーディオデータから3つのチャネルを生成する、請求項1に記載の装置。
  20. 前記階層型デコーダ構造の少なくとも1つの階層に関するより高い階層の2つから3つへのチャネル分割機能のパラメータに応じて、前記少なくとも1つの階層における少なくとも1つのチャネル分割機能についてのプリ行列を決定するための手段を更に有し、前記2つから3つへのチャネル分割機能は、2つのチャネルと前記パラメトリックオーディオデータから3つのチャネルを生成する、請求項1に記載の装置。
  21. 前記プリ行列を決定するための手段は、2つから3つへのアップミクサの第1の入力に対応する第1のサブプリ行列及び前記2つから3つへのアップミクサの第2の入力に対応する第2のサブプリ行列の決定に応じて、少なくとも1つのチャネル分割機能についてのプリ行列を決定するように構成された、請求項2に記載の装置。
  22. 幾つかの出力オーディオチャネルを有するデータストリームを生成するための装置であって、
    1以上である幾つかの入力オーディオチャネルを受信するための手段と、
    前記幾つかの入力オーディオチャネルをパラメトリックにエンコードし、前記幾つかの出力オーディオチャネル及び空間的特性を記述するパラメトリックオーディオデータを有するデータストリームを生成するための階層型エンコード手段と、
    前記階層型エンコード手段に対応する階層型デコーダ構造を決定するための手段と、
    前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有するデコーダ木構造データを、前記データストリームに含めるための手段と、
    を有する装置。
  23. 幾つかの出力オーディオチャネルを生成する方法であって、前記方法は、
    1以上である幾つかの入力オーディオチャネル及び空間的特性を記述するパラメトリックオーディオデータを有するデータストリームを受信するステップを有し、前記データストリームは更に、階層型デコーダ構造についてのデコーダ木構造データを有し、前記デコーダ木構造データは、前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有し、前記方法は更に、
    前記デコーダ木構造データに応じて前記階層型デコーダ構造を生成するステップと、
    前記階層型デコーダ構造を利用して前記データストリームから前記幾つかの出力オーディオチャネルを生成するステップと、
    を有する方法。
  24. 1以上である幾つかの出力オーディオチャネルを有するデータストリームを生成する方法であって、
    幾つかの入力オーディオチャネルを受信するステップと、
    前記幾つかの入力オーディオチャネルをパラメトリックにエンコードし、前記幾つかの出力オーディオチャネル及び空間的特性を記述するパラメトリックオーディオデータを有するデータストリームを生成するステップと、
    前記階層型エンコード手段に対応する階層型デコーダ構造を決定するステップと、
    前記階層型デコーダ構造の階層におけるオーディオチャネルについてのチャネル分割特性を示す少なくとも1つのデータ値を有するデコーダ木構造データを、前記データストリームに含めるステップと、
    を有する方法。
  25. 幾つかの出力オーディオチャネルを生成するための受信器であって、前記受信器は、
    請求項1の装置を有する受信器。
  26. 幾つかの出力オーディオチャネルを有するデータストリームを生成するための送信器であって、
    請求項22の装置を有する送信器。
  27. 請求項26の送信器と、請求項25の受信器とを有する伝送システム。
  28. データストリームを受信する方法であって、前記方法は、
    請求項23に記載の方法を有する方法。
  29. 幾つかの出力オーディオチャネルを有するデータストリームを送信する方法であって、
    請求項24に記載の方法を有する方法。
  30. データストリームを送信及び受信する方法であって、前記方法は、送信器において実行される、請求項29に記載の方法と、
    信器において実行される、請求項28に記載の方法と
    を有する方法。
  31. 請求項2、2、229及び3のいずれか一項に記載の方法を実行するためのコンピュータプログラム。
  32. 請求項1に記載の装置を有するオーディオ再生装置。
  33. 請求項2に記載の装置を有するオーディオ記録装置。
JP2008521009A 2005-07-14 2006-07-07 オーディオエンコード及びデコード Active JP5097702B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP05106466 2005-07-14
EP05106466.5 2005-07-14
PCT/IB2006/052309 WO2007007263A2 (en) 2005-07-14 2006-07-07 Audio encoding and decoding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2010254409A Division JP5269039B2 (ja) 2005-07-14 2010-11-15 オーディオエンコード及びデコード

Publications (3)

Publication Number Publication Date
JP2009501354A JP2009501354A (ja) 2009-01-15
JP2009501354A5 JP2009501354A5 (ja) 2009-08-20
JP5097702B2 true JP5097702B2 (ja) 2012-12-12

Family

ID=37467582

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2008521009A Active JP5097702B2 (ja) 2005-07-14 2006-07-07 オーディオエンコード及びデコード
JP2010254409A Active JP5269039B2 (ja) 2005-07-14 2010-11-15 オーディオエンコード及びデコード

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2010254409A Active JP5269039B2 (ja) 2005-07-14 2010-11-15 オーディオエンコード及びデコード

Country Status (14)

Country Link
US (1) US7966191B2 (ja)
EP (2) EP2088580B1 (ja)
JP (2) JP5097702B2 (ja)
KR (2) KR101492826B1 (ja)
CN (2) CN102013256B (ja)
AT (2) ATE433182T1 (ja)
BR (1) BRPI0613469A2 (ja)
DE (1) DE602006007139D1 (ja)
ES (2) ES2374309T3 (ja)
HK (1) HK1154984A1 (ja)
MX (1) MX2008000504A (ja)
PL (2) PL2088580T3 (ja)
RU (2) RU2418385C2 (ja)
WO (1) WO2007007263A2 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE433182T1 (de) * 2005-07-14 2009-06-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
JP5113052B2 (ja) 2005-07-29 2013-01-09 エルジー エレクトロニクス インコーポレイティド 符号化されたオーディオ信号の生成方法及びオーディオ信号の処理方法
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
KR20080086549A (ko) * 2006-04-03 2008-09-25 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
JP5455647B2 (ja) * 2007-01-10 2014-03-26 コーニンクレッカ フィリップス エヌ ヴェ オーディオデコーダ
EP2093757A4 (en) * 2007-02-20 2012-02-22 Panasonic Corp MULTIPLEX DECODING DEVICE, MULTIPLEX DECODING METHOD, PROGRAM, AND SEMICONDUCTOR INTEGRATED CIRCUIT
CN101636917B (zh) 2007-03-16 2013-07-24 Lg电子株式会社 用于处理音频信号的方法和装置
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
EP2624253A3 (en) * 2007-10-22 2013-11-06 Electronics and Telecommunications Research Institute Multi-object audio encoding and decoding method and apparatus thereof
CN102203854B (zh) * 2008-10-29 2013-01-02 杜比国际公司 使用预先存在的音频增益元数据的信号削波保护
KR20110022251A (ko) * 2009-08-27 2011-03-07 삼성전자주식회사 스테레오 오디오의 부호화, 복호화 방법 및 장치
BR112012009445B1 (pt) 2009-10-20 2023-02-14 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Codificador de áudio, decodificador de áudio, método para codificar uma informação de áudio, método para decodificar uma informação de áudio que utiliza uma detecção de um grupo de valores espectrais previamente decodificados
BR112012014856B1 (pt) 2009-12-16 2022-10-18 Dolby International Ab Método para fundir conjuntos de fonte de parâmetros de sbr a conjuntos-alvo de parâmetros de sbr, meio de armazenamento não transitório e unidade de fusão de parâmetros de sbr
CN102142924B (zh) * 2010-02-03 2014-04-09 中兴通讯股份有限公司 一种多用途语音频编码传输方法和装置
CA2826018C (en) 2011-03-28 2016-05-17 Dolby Laboratories Licensing Corporation Reduced complexity transform for a low-frequency-effects channel
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
KR101729930B1 (ko) * 2013-02-14 2017-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 업믹스된 오디오 신호들의 채널간 코히어런스를 제어하기 위한 방법
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
EP3005352B1 (en) 2013-05-24 2017-03-29 Dolby International AB Audio object encoding and decoding
TWI774136B (zh) * 2013-09-12 2022-08-11 瑞典商杜比國際公司 多聲道音訊系統中之解碼方法、解碼裝置、包含用於執行解碼方法的指令之非暫態電腦可讀取的媒體之電腦程式產品、包含解碼裝置的音訊系統
US9848272B2 (en) 2013-10-21 2017-12-19 Dolby International Ab Decorrelator structure for parametric reconstruction of audio signals
KR102486365B1 (ko) 2013-10-21 2023-01-09 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
EP2866475A1 (en) 2013-10-23 2015-04-29 Thomson Licensing Method for and apparatus for decoding an audio soundfield representation for audio playback using 2D setups
CN107004421B (zh) * 2014-10-31 2020-07-07 杜比国际公司 多通道音频信号的参数编码和解码
KR102488354B1 (ko) * 2015-06-24 2023-01-13 소니그룹주식회사 음성 처리 장치 및 방법, 그리고 기록 매체
US10416954B2 (en) 2017-04-28 2019-09-17 Microsoft Technology Licensing, Llc Streaming of augmented/virtual reality spatial audio/video

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3298478B2 (ja) * 1997-11-10 2002-07-02 日本電気株式会社 Mpeg復号装置
JPH11330980A (ja) * 1998-05-13 1999-11-30 Matsushita Electric Ind Co Ltd 復号装置及びその復号方法、並びにその復号の手順を記録した記録媒体
JP2001268697A (ja) * 2000-03-22 2001-09-28 Sony Corp データ伝送システム、データ伝送装置、データ伝送方法
WO2004019656A2 (en) 2001-02-07 2004-03-04 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
SE0202159D0 (sv) * 2001-07-10 2002-07-09 Coding Technologies Sweden Ab Efficientand scalable parametric stereo coding for low bitrate applications
ES2300567T3 (es) * 2002-04-22 2008-06-16 Koninklijke Philips Electronics N.V. Representacion parametrica de audio espacial.
CN100539742C (zh) 2002-07-12 2009-09-09 皇家飞利浦电子股份有限公司 多声道音频信号编解码方法和装置
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
JP4676140B2 (ja) * 2002-09-04 2011-04-27 マイクロソフト コーポレーション オーディオの量子化および逆量子化
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
KR100571824B1 (ko) * 2003-11-26 2006-04-17 삼성전자주식회사 부가정보 삽입된 mpeg-4 오디오 bsac부호화/복호화 방법 및 장치
US7613306B2 (en) * 2004-02-25 2009-11-03 Panasonic Corporation Audio encoder and audio decoder
KR101183862B1 (ko) * 2004-04-05 2012-09-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 스테레오 신호를 처리하기 위한 방법 및 디바이스, 인코더 장치, 디코더 장치 및 오디오 시스템
EP1736965B1 (en) * 2004-04-28 2008-07-30 Matsushita Electric Industrial Co., Ltd. Hierarchy encoding apparatus and hierarchy encoding method
ATE433182T1 (de) * 2005-07-14 2009-06-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
JP5321820B2 (ja) * 2009-04-23 2013-10-23 セイコーエプソン株式会社 用紙搬送装置

Also Published As

Publication number Publication date
RU2010137467A (ru) 2012-03-20
EP2088580B1 (en) 2011-09-07
CN101223575B (zh) 2011-09-21
EP2088580A3 (en) 2009-08-19
PL2088580T3 (pl) 2012-07-31
CN101223575A (zh) 2008-07-16
JP5269039B2 (ja) 2013-08-21
MX2008000504A (es) 2008-03-07
EP1902443B1 (en) 2009-06-03
ATE433182T1 (de) 2009-06-15
CN102013256A (zh) 2011-04-13
US20080255856A1 (en) 2008-10-16
DE602006007139D1 (de) 2009-07-16
JP2011059711A (ja) 2011-03-24
EP2088580A2 (en) 2009-08-12
RU2418385C2 (ru) 2011-05-10
KR20080037672A (ko) 2008-04-30
WO2007007263A3 (en) 2007-03-29
CN102013256B (zh) 2013-12-18
KR20100134084A (ko) 2010-12-22
ATE523877T1 (de) 2011-09-15
WO2007007263A2 (en) 2007-01-18
US7966191B2 (en) 2011-06-21
KR101496193B1 (ko) 2015-02-26
PL1902443T3 (pl) 2009-12-31
RU2008105556A (ru) 2009-08-20
HK1154984A1 (en) 2012-05-04
ES2327158T3 (es) 2009-10-26
JP2009501354A (ja) 2009-01-15
BRPI0613469A2 (pt) 2012-11-06
EP1902443A2 (en) 2008-03-26
ES2374309T3 (es) 2012-02-15
KR101492826B1 (ko) 2015-02-13
RU2461078C2 (ru) 2012-09-10

Similar Documents

Publication Publication Date Title
JP5097702B2 (ja) オーディオエンコード及びデコード
US9966080B2 (en) Audio object encoding and decoding
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
JP5081838B2 (ja) オーディオ符号化及び復号
JP5291227B2 (ja) オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
US7961890B2 (en) Multi-channel hierarchical audio coding with compact side information
JP6231093B2 (ja) オーディオ信号の符号化及び復号
KR101346120B1 (ko) 오디오 인코딩 및 디코딩
JP6117997B2 (ja) 符号化表現に基づいて少なくとも4つのオーディオチャネル信号を提供するためのオーディオデコーダ、オーディオエンコーダ、方法、帯域幅拡張を用いた少なくとも4つのオーディオチャネル信号に基づいて符号化表現を提供するための方法およびコンピュータプログラム
JP5154538B2 (ja) オーディオ復号
CN101542595B (zh) 用于编码和解码基于对象的音频信号的方法和装置
JP2011501544A (ja) ダウンミックスを用いたオーディオコーディング
JP2013033299A (ja) マルチチャンネル信号の復号化及び符号化方法、記録媒体及びシステム
CN102257562A (zh) 用空间线索参数对多通道音频信号应用混响的方法和装置
US8626503B2 (en) Audio encoding and decoding

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090706

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090706

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090813

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20091203

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20091207

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120124

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20120423

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20120501

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120723

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120911

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120924

R150 Certificate of patent or registration of utility model

Ref document number: 5097702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150928

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250