JP2008522244A - オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング - Google Patents

オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング Download PDF

Info

Publication number
JP2008522244A
JP2008522244A JP2007544408A JP2007544408A JP2008522244A JP 2008522244 A JP2008522244 A JP 2008522244A JP 2007544408 A JP2007544408 A JP 2007544408A JP 2007544408 A JP2007544408 A JP 2007544408A JP 2008522244 A JP2008522244 A JP 2008522244A
Authority
JP
Japan
Prior art keywords
channels
audio
audit
cue
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007544408A
Other languages
English (en)
Other versions
JP5106115B2 (ja
Inventor
フォラー,クリストフ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Agere Systems LLC
Original Assignee
Agere Systems LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Agere Systems LLC filed Critical Agere Systems LLC
Publication of JP2008522244A publication Critical patent/JP2008522244A/ja
Application granted granted Critical
Publication of JP5106115B2 publication Critical patent/JP5106115B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オブジェクト・ベースのキュー・コードが、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表し、その特性が、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、1つまたは複数のオブジェクト・ベースのキュー・コードを用いるバイノーラル・キュー・コーディング方式。オブジェクト・ベースのキュー・コードの例には、オーディトリ・イベントの角度、オーディトリ・イベントの幅、オーディトリ・シーンのエンベロップメントの度合、およびオーディトリ・シーンの指向性が含まれる。

Description

関連出願の相互参照
本願は、その教示が参照によって本明細書に組み込まれている、弁理士整理番号Faller 19として2004年11月30日に出願した米国仮出願第60/631798号の利益を主張するものである。
本願の主題は、次の米国特許出願の主題に関連し、これらの米国特許出願のすべての教示が、参照によって本明細書に組み込まれている。
○弁理士整理番号Faller 5として2001年5月4日に出願した米国特許出願第09/848877号、
○弁理士整理番号Baumgarte 1−6−8として2001年11月7日に出願した米国特許出願第10/045458号(これ自体は、2001年8月10日に出願した米国仮出願第60/311565号の利益を主張する)、
○弁理士整理番号Baumgarte 2−10として2002年5月24日に出願した米国特許出願第10/155437号、
○弁理士整理番号Baumgarte 3−11として2002年9月18日に出願した米国特許出願第10/246570号、
○弁理士整理番号Baumgarte 7−12として2004年4月1日に出願した米国特許出願第10/815591号、
○弁理士整理番号Baumgarte 8−7−15として2004年9月8日に出願した米国特許出願第10/936464号、
○2004年1月20日に出願した米国特許出願第10/762100号(Faller 13−1)、
○弁理士整理番号Allamanche 1−2−17−3として2004年12月7日に出願した米国特許出願第11/006492号、
○弁理士整理番号Allamanche 2−3−18−4として2004年12月7日に出願した米国特許出願第11/006482号、
○弁理士整理番号Faller 22−5として2005年1月10日に出願した米国特許出願第11/032689号、および、
○弁理士整理番号Faller 20として2005年2月15日に出願した米国特許出願第11/058747号(これ自体は、2004年11月30日に出願した米国仮出願第60/631917号の利益を主張する)。
本願の主題は、次の論文に記載の主題にも関連し、これらの論文のすべての教示が、参照によって本明細書に組み込まれている。
○F.Baumgarte and C.Faller、「Binaural Cue Coding−Part I:Psychoacoustic fundamentals and design principles」、IEEE Trans.on Speech and Audio Proc.,vol.11,no.6、2003年11月、
○C.Faller and F.Baumgarte、「Binaural Cue Coding−Part II:Schemes and applications」、IEEE Trans.on Speech and Audio Proc.,vol.11,no.6、2003年11月、および
○C.Faller、「Coding of spatial audio compatible with different playback formats」、Preprint 117th Conv.Aud.Eng.Soc.、2004年10月。
本発明は、オーディオ信号のエンコーディングと、エンコードされたオーディオ・データからのオーディトリ・シーン(auditory scene)の後続合成とに関する。
人が、特定のオーディトオ・ソースによって生成されたオーディオ信号(すなわち、サウンド)を聞く時に、そのオーディオ信号は、通常、その人の左右の耳に、2つの異なる時刻に2つの異なるオーディオ(たとえば、デシベル)レベルで到着し、ここで、この異なる時刻およびレベルは、それを介してオーディオ信号が移動してそれぞれ左右の耳に達する経路の差の関数である。その人の脳は、時刻およびレベルにおけるこれらの差を解釈して、その人に、受け取られたオーディオ信号がその人に対する相対的な特定の位置(たとえば、方向および距離)に置かれたオーディトオ・ソースによって生成されていることの知覚を与える。オーディトリ・シーンは、ある人に対して相対的な1つまたは複数の異なる位置に置かれた1つまたは複数の異なるオーディトオ・ソースによって生成されるオーディオ信号をその人が同時に聞くことの正味の影響である。
脳によるこの処理の存在を使用して、オーディトリ・シーンを合成することができ、ここで、1つまたは複数の異なるオーディトオ・ソースからのオーディオ信号は、異なるオーディトオ・ソースがリスナに対して相対的に異なる位置に置かれていることの知覚を与える左右のオーディオ信号を生成するために意図的に変更される。
図1に、従来のバイノーラル信号シンセサイザ100の高水準ブロック図を示すが、このバイノーラル信号シンセサイザ100は、単一のオーディトオ・ソース信号(たとえば、モノ信号)をバイノーラル信号の左右のオーディオ信号に変換し、ここで、バイノーラル信号は、リスナの鼓膜で受け取られる2つの信号と定義される。オーディトオ・ソース信号に加えて、シンセサイザ100は、リスナに対する相対的なオーディトオ・ソースの所望の位置に対応する空間的キュー(spatial cue)の組を受け取る。通常の実施態様では、空間的キューの組に、チャネル間レベル差(inter−channel level difference、ICLD)値(それぞれ左右の耳で受け取られた左右のオーディオ信号の間のオーディオ・レベルの差を識別する)と、チャネル間時間差(inter−channel time difference、ICTD)値(それぞれ左右の耳で受け取られた左右のオーディオ信号の間の到着の時刻の差を識別する)とが含まれる。それに加えてまたは代替物として、いくつかの合成技法は、頭部伝達関数(HRTF)とも称する、信号源から鼓膜までのサウンドに関する方向依存の伝達関数のモデリングを用いる。たとえば、その教示が参照によって本明細書に組み込まれている、J.Blauert、「The Psychophysics of Human Sound Localization」、MIT Press、1983年を参照されたい。
図1のバイノーラル信号シンセサイザ100を使用することによって、単一オーディトオ・ソースによって生成されたモノ・オーディオ信号を処理し、ヘッドホンを介して聞かれる時に、耳ごとのオーディオ信号を生成するために空間的キューの適当な組(たとえば、ICLD、ICTD、および/またはHRTF)を適用することによって、オーディトオ・ソースが空間的に置かれるようにすることができる。たとえば、D.R.Begault、「3−D Sound for Virtual Reality and Multimedia」、Academic Press、米国マイアミ州ケンブリッジ、1994年を参照されたい。
図1のバイノーラル信号シンセサイザ100は、最も単純なタイプのオーディトリ・シーンすなわち、リスナに対して相対的に置かれた単一の音源を有するオーディトリ・シーンを生成する。リスナに対して相対的に異なる位置に置かれた2つ以上の音源を含むより複雑なオーディトリ・シーンは、本質的にバイノーラル信号シンセサイザの2つ以上のインスタンスを使用して実施されるオーディトリ・シーン・シンセサイザを使用して生成することができ、ここで、各バイノーラル信号シンセサイザ・インスタンスは、異なるオーディオ・ソースに対応するバイノーラル信号を生成する。各異なるオーディオ・ソースは、リスナに対して相対的に異なる位置を有するので、空間的キューの異なる組が、異なるオーディオ・ソースごとにバイノーラル・オーディオ信号を生成するのに使用される。
米国仮出願第60/631798号 米国特許出願第09/848877号 米国特許出願第10/045458号 米国仮出願第60/311565号 米国特許出願第10/155437号 米国特許出願第10/246570号 米国特許出願第10/815591号 米国特許出願第10/936464号 米国特許出願第10/762100号 米国特許出願第11/006492号 米国特許出願第11/006482号 米国特許出願第11/032689号 米国特許出願第11/058747号 米国仮出願第60/631917号 F.Baumgarte and C.Faller、「Binaural Cue Coding−Part I:Psychoacoustic fundamentals and design principles」、IEEE Trans.on Speech and Audio Proc.,vol.11,no.6、2003年11月 C.Faller and F.Baumgarte、「Binaural Cue Coding−Part II:Schemes and applications」、IEEE Trans.on Speech and Audio Proc.,vol.11,no.6、2003年11月 C.Faller、「Coding of spatial audio compatible with different playback formats」、Preprint 117th Conv.Aud.Eng.Soc.、2004年10月 J.Blauert、「The Psychophysics of Human Sound Localization」、MIT Press、1983年 D.R.Begault、「3−D Sound for Virtual Reality and Multimedia」、Academic Press、米国マイアミ州ケンブリッジ、1994年 C.Faller、「Parametric multi−channel audio coding:Synthesis of coherence cues」、IEEE Trans.on Speech and Audio Proc.、2003年 E.Schuijers、W.Oomen、B.den Brinker、およびJ.Breebaart、「Advances in parametric coding for high−quality audio」、Preprint 114th Conv.Aud.Eng.Soc.、2003年3月 J.Engdegard、H.Purnhagen、J.Roden、およびL.Liljeryd、「Synthetic ambience in parametric stereo coding」、Preprint 117th Conv.Aud.Eng.Soc.、2004年5月
一実施形態によれば、本発明は、オーディオ・チャネルをエンコードする方法、装置、および機械可読媒体である。1つまたは複数のキュー・コードが、2つ以上のオーディオ・チャネルについて生成され、少なくとも1つのキュー・コードは、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、この特性は、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立であり、1つまたは複数のキュー・コードが、送出される。
もう1つの実施形態によれば、本発明は、E個の被送出オーディオ・チャネルを生成するためにC個の入力オーディオ・チャネルをエンコードする装置である。この装置には、コード・エスティメータとダウンミキサとが含まれる。コード・エスティメータは、2つ以上のオーディオ・チャネルの1つまたは複数のキュー・コードを生成し、少なくとも1つのキュー・コードは、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、この特性は、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である。ダウンミキサは、E個の被送出チャネルを生成するためにC個の入力チャネルをダウンミキシングし、C>E≧1であり、この装置は、デコーダがE個の被送出チャネルのデコーディング中に合成処理を実行することを可能にするためにキュー・コードに関する情報を送出する。
もう1つの実施形態によれば、本発明は、オーディオ・チャネルをエンコードすることによって生成されるビットストリームである。1つまたは複数のキュー・コードが、2つ以上のオーディオ・チャネルについて生成され、少なくとも1つのキュー・コードは、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、この特性は、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である。E≧1である、2つ以上のオーディオ・チャネルに対応する1つまたは複数のキュー・コードおよびE個の被送出チャネルは、エンコードされたオーディオ・ビットストリームにエンコードされる。
もう1つの実施形態によれば、本発明は、C個の再生オーディオ・チャネルを生成するためにE個の被送出オーディオ・チャネルをデコードする方法、装置、および機械可読媒体であり、C>E≧1である。E個の被送出チャネルに対応するキュー・コードが、受け取られ、少なくとも1つのキュー・コードは、オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、この特性は、オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である。E個の被送出チャネルのうちの1つまたは複数が、1つまたは複数のアップミキシングされたチャネルを生成するためにアップミキシングされる。C個の再生チャネルのうちの1つまたは複数が、1つまたは複数のアップミキシングされたチャネルにキュー・コードを適用することによって合成される。
本発明の他の態様、特徴、および利点は、次の詳細な説明、添付の特許請求の範囲、および添付図面からより十分に明白になり、添付図面では、類似する符号が類似する要素または同一の要素を識別する。
バイノーラル・キュー・コーディング(binaural cue coding、BCC)では、エンコーダは、C個の入力オーディオ・チャネルをエンコードしてE個の被送出オーディオ・チャネルを生成し、ここでC>E≧1である。具体的に言うと、C個の入力チャネルのうちの2つ以上が、周波数領域で供給され、1つまたは複数のキュー・コードが、周波数領域のその2つ以上の入力チャネル内の1つまたは複数の異なる周波数帯のそれぞれについて生成される。さらに、C個の入力チャネルが、E個の被送出チャネルを生成するためにダウンミキシングされる。いくつかのダウンミキシング実施態様では、E個の被送出チャネルのうちの少なくとも1つは、C個の入力チャネルのうちの2つ以上に基づき、E個の被送出チャネルのうちの少なくとも1つは、C個の入力チャネルのうちの単一の1つだけに基づく。
一実施形態で、BCCコーダは、2つ以上のフィルタ・バンク、コード・エスティメータ、およびダウンミキサを有する。2つ以上のフィルタ・バンクは、C個の入力チャネルのうちの2つ以上を時間領域から周波数領域に変換する。コード・エスティメータは、2つ以上の変換された入力チャネル内の1つまたは複数の異なる周波数帯のそれぞれについて1つまたは複数のキュー・コードを生成する。ダウンミキサは、C個の入力チャネルをダウンミキシングして、E個の被送出チャネルを生成し、ここで、C>E≧1である。
BCCデコーディングでは、E個の被送出オーディオ・チャネルが、C個の再生(すなわち、合成された)オーディオ・チャネルを生成するためにデコードされる。具体的に言うと、1つまたは複数の異なる周波数帯のそれぞれについて、E個の被送出チャネルのうちの1つまたは複数が、周波数領域でアップミキシングされて、周波数領域のC個の再生チャネルのうちの2つ以上を生成し、ここで、C>E≧1である。1つまたは複数のキュー・コードが、周波数領域の2つ以上の再生チャネル内の1つまたは複数の異なる周波数帯のそれぞれに適用されて、2つ以上の変更されたチャネルが生成され、これらの2つ以上の変更されたチャネルは、周波数領域から時間領域に変換される。いくつかのアップミキシング実施態様では、C個の再生チャネルのうちの少なくとも1つは、E個の被送出チャネルのうちの少なくとも1つおよび少なくとも1つのキュー・コードに基づき、C個の再生チャネルのうちの少なくとも1つは、E個の被送出チャネルのうちの単一の1つだけに基づき、どのキュー・コードからも独立である。
一実施形態で、BCCデコーダは、アップミキサ、シンセサイザ、および1つまたは複数の逆フィルタ・バンクを有する。1つまたは複数の異なる周波数帯のそれぞれについて、アップミキサは、周波数領域のE個の被送出チャネルのうちの1つまたは複数をアップミキシングして、周波数領域のC個の再生チャネルのうちの2つ以上を生成し、ここで、C>E≧1である。シンセサイザは、1つまたは複数のキュー・コードを周波数領域の2つ以上の再生チャネル内の1つまたは複数の異なる周波数帯のそれぞれに適用して、2つ以上の変更されたチャネルを生成する。1つまたは複数の逆フィルタ・バンクは、2つ以上の変更されたチャネルを周波数領域から時間領域に変換する。
特定の実施態様に応じて、所与の再生チャネルを、2つ以上の被送出チャネルの組合せではなく、単一の被送出チャネルに基づくものとすることができる。たとえば、1つの被送出チャネルだけがある場合に、C個の再生チャネルのそれぞれは、その1つの被送出チャネルに基づく。これらの情況では、アップミキシングは、対応する被送出チャネルをコピーすることに対応する。したがって、1つの被送出チャネルだけがある応用例では、アップミキサを、再生チャネルごとに被送出チャネルをコピーするリプリケータを使用して実施することができる。
BCCエンコーダおよび/またはBCCデコーダを、たとえば、ディジタル・ビデオ・レコーダ/プレイヤ、ディジタル・オーディオ・レコーダ/プレイヤ、コンピュータ、衛星送信器/受信器、ケーブル送信器/受信器、地上波放送送信器/受信器、ホーム・エンターテイメント・システム、およびムービー・シアター・システムを含む2つ以上のシステムまたは応用例に組み込むことができる。
包括的なBCC処理
図2は、エンコーダ202とデコーダ204とを含む包括的なバイノーラル・キュー・コーディング(BCC)オーディオ処理システム200のブロック図である。エンコーダ202には、ダウンミキサ206とBCCエスティメータ208とが含まれる。
ダウンミキサ206は、C個の入力オーディオ・チャネルx(n)をE個の被送出オーディオ・チャネルy(n)に変換し、ここで、C>E≧1である。本明細書では、変数nを使用して表される信号は、時間領域信号であり、変数kを使用して表される信号は、周波数領域信号である。特定の実施態様に応じて、ダウンミキシングを、時間領域または周波数領域のいずれかで実施することができる。BCCエスティメータ208は、C個の入力オーディオ・チャネルからBCCコードを生成し、これらのBCCコードを、E個の被送出オーディオ・チャネルに対する帯域内サイド情報または帯域外サイド情報のいずれかとして送出する。通常のBCCコードには、周波数および時間の関数として入力チャネルのある対の間で推定された、チャネル間時間差(ICTD)データ、チャネル間レベル差(ICLD)データ、およびチャネル間相関(inter−channel correlation、ICC)データのうちの1つまたは複数が含まれる。特定の実施態様は、入力チャネルのどの特定の対の間でBCCコードが推定されるかを規定する。
ICCデータは、バイノーラル信号のコヒーレンスに対応し、このコヒーレンスは、オーディオ・ソースの知覚される幅に関連する。オーディオ・ソースが幅広いほど、結果のバイノーラル信号の左チャネルと右チャネルとの間のコヒーレンスは小さい。たとえば、公会堂のステージ全体に広がったオーケストラに対応するバイノーラル信号のコヒーレンスは、通常、単独で演奏される単一のバイオリンに対応するバイノーラル信号のコヒーレンスより小さい。一般に、より小さいコヒーレンスを有するオーディオ信号は、通常、聴覚空間内でより広がっているものとして知覚される。したがって、ICCデータは、通常、見かけのソース幅とリスナ・エンベロップメント(listener envelopment)の度合とに関連する。たとえば、J.Blauert、「The Psychophysics of Human Sound Localization」、MIT Press、1983年を参照されたい。
特定の応用例に応じて、E個の被送出オーディオ・チャネルおよび対応するBCCコードを、デコーダ204に直接に送出するか、デコーダ204による後続アクセスのためにある適切なタイプのストレージ・デバイスに保管することができる。情況に応じて、用語「送出」は、デコーダへの直接送出またはデコーダへの後続供給のための保管のいずれかを指すことができる。どちらの場合でも、デコーダ204は、被送出オーディオ・チャネルとサイド情報とを受け取り、アップミキシングおよびBCCコードを使用するBCC合成を実行して、E個の被送出オーディオ・チャネルを、オーディオ再生用のE個を超える(必ずではないが通常はC個の)再生オーディオ・チャネル
Figure 2008522244
に変換する。特定の実施態様に応じて、アップミキシングを、時間領域または周波数領域のいずれかで実行することができる。
図2に示されたBCC処理に加えて、包括的なBCCオーディオ処理システムには、さらに、それぞれ、エンコーダでオーディオ信号を圧縮し、デコーダでオーディオ信号を圧縮解除するために、追加のエンコーディング・ステージおよびデコーディング・ステージを含めることができる。これらのオーディオ・コーデックは、パルス符号変調(PCM)、差分PCM(DPCM)、または適応DPCM(ADPCM)に基づくものなどの従来のオーディオ圧縮/圧縮解除技法に基づくものとすることができる。
ダウンミキサ206が単一の和信号を生成する(すなわち、E=1)場合に、BCCコーディングは、モノ・オーディオ信号を表すのに必要なものよりごくわずかに高いビットレートでマルチチャネル・オーディオ信号を表すことができる。これがそうであるのは、チャネル対の間の推定されたICTDデータ、ICLDデータ、およびICCデータが、オーディオ波形より約2桁少ない情報を含むからである。
BCCコーディングの低いビットレートだけではなく、その後方互換性態様も、重要である。単一の被送出和信号は、オリジナルのステレオ信号またはマルチチャネル信号のモノ・ダウンミックスに対応する。ステレオ・サウンド再現またはマルチチャネル・サウンド再現をサポートしないレシーバについて、被送出和信号に聞き入ることは、低プロファイル・モノ再現機器でオーディオ素材を提示する有効な方法である。したがって、BCCコーディングは、モノ・オーディオ素材の配信を伴う既存サービスをマルチチャネル・オーディオに向かって機能強化するのに使用することもできる。たとえば、BCCサイド情報を既存送出チャネルに埋め込むことができる場合に、既存のモノ・オーディオ・ラジオ放送システムを、ステレオ再生またはマルチチャネル再生のために機能強化することができる。マルチチャネル・オーディオをステレオ・オーディオに対応する2つの和信号にダウンミキシングする場合に、類似する機能が存在する。
BCCは、ある時間および周波数の分解能を用いてオーディオ信号を処理する。使用される周波数分解能は、主に、人間の聴覚系の周波数分解能によって誘導される。音響心理学は、空間的知覚が、音響入力信号の臨界帯域表現に基づく可能性が最も高いことを示唆する。この周波数分解能は、人間の聴覚系の臨界帯域幅と等しいかこれに比例する帯域幅を有するサブバンドを有する可逆フィルタ・バンク(たとえば、高速フーリエ変換(FFT)または直交ミラー・フィルタ(QMF)に基づく)を使用することによって考慮される。
包括的なダウンミキシング
好ましい実施態様では、1つまたは複数の被送出和信号に、入力オーディオ信号の信号成分のすべてが含まれる。目標は、各信号成分が十分に維持されることである。オーディオ入力チャネルの単純な合計は、しばしば、信号成分の増幅または減衰をもたらす。言い換えると、「単純な」和の信号成分の電力は、しばしば、各チャネルの対応する信号成分の電力の和より大きいまたはこれより小さい。和信号の信号成分の電力が、全入力チャネルの対応する電力とほぼ同一になるように和信号を等化するダウンミキシング技法を、使用することができる。
図3に、BCCシステム200のある種の実施態様による、図2のダウンミキサ206に使用できるダウンミキサ300のブロック図を示す。ダウンミキサ300は、入力チャネルx(n)ごとのフィルタ・バンク(FB)302、ダウンミキシング・ブロック304、任意選択のスケーリング/遅延ブロック306、およびエンコードされたチャネルy(n)ごとの逆FB(IFB)308を有する。
各フィルタ・バンク302は、時間領域の対応するディジタル入力チャネルx(n)の各フレーム(たとえば、20ミリ秒)を周波数領域の1組の入力係数
Figure 2008522244
に変換する。ダウンミキシング・ブロック304は、C個の対応する入力係数の各サブバンドを、E個のダウンミキシングされた周波数領域係数の対応するサブバンドにダウンミキシングする。式(1)は、入力係数のk番目のサブバンド
Figure 2008522244
の、次のようなダウンミキシングされた係数のk番目のサブバンド
Figure 2008522244
を生成するためのダウンミキシングを表す。
Figure 2008522244
ここで、DCEは、実数値を有するC×Eダウンミキシング行列である。
任意選択のスケーリング/遅延ブロック306には、乗算器310の組が含まれ、この乗算器310のそれぞれは、対応するダウンミキシングされた係数
Figure 2008522244
に倍率e(k)を乗じて、対応するスケーリングされた係数
Figure 2008522244
を生成する。このスケーリング演算の動機付けは、チャネルごとの任意の重み付け因数を用いるダウンミキシングについて一般化された等化と同等である。入力チャネルが独立である場合に、各サブバンド内のダウンミキシングされた信号の電力
Figure 2008522244
は、次の式(2)によって与えられる。
Figure 2008522244
ここで、
Figure 2008522244
は、C×Eダウンミキシング行列DCEの各行列要素を二乗することによって導出され、
Figure 2008522244
は、入力チャネルiのサブバンドkの電力である。
サブバンドが独立でない場合に、ダウンミキシングされた信号の電力値
Figure 2008522244
は、それぞれ信号成分が同相または位相外れである場合の信号増幅または信号打ち消しに起因して、式(2)を使用して計算される値より大きいまたはこれより小さい。これを防ぐために、式(1)のダウンミキシング動作が、サブバンドで適用され、これに、乗算器310によるスケーリング動作が続く。倍率e(k)(1≦i≦E)は、次の式(3)を使用して導出することができる。
Figure 2008522244
ここで、
Figure 2008522244
は、式(2)によって計算されるサブバンド電力であり、
Figure 2008522244
は、対応するダウンミキシングされたサブバンド信号
Figure 2008522244
の電力である。
任意選択のスケーリングを提供することに加えて、またはその代わりに、スケーリング/遅延ブロック306は、任意選択として信号に遅延を適用することができる。
各逆フィルタ・バンク308は、周波数領域の対応するスケーリングされた係数
Figure 2008522244
を、対応するディジタルの被送出チャネルy(n)のフレームに変換する。
図3には、C個すべての入力チャネルが後続ダウンミキシングのために周波数領域に変換されることが示されているが、代替実施態様では、C個の入力チャネルのうちの1つまたは複数(ただし、C−1個未満)が、図3に示された処理の一部またはすべてを迂回し、同等の個数の変更されないオーディオ・チャネルとして送出されることができる。特定の実施態様に応じて、これらの変更されないオーディオ・チャネルは、被送出BCCコードを生成する際に図2のBCCエスティメータ208によって使用されてもされなくてもよい。
単一の和信号y(n)を生成するダウンミキサ300の実施態様では、E=1であり、各入力チャネルcの各サブバンドの信号
Figure 2008522244
は、以下のように、次の式(4)に従って加算され、因数e(k)をかけられる。
Figure 2008522244
因数e(k)は、次の式(5)によって、次のように与えられる。
Figure 2008522244
ここで、
Figure 2008522244
は、時間インデックスkでの
Figure 2008522244
の電力の短時間推定値であり、
Figure 2008522244
は、
Figure 2008522244
の電力の短時間推定値である。等化されたサブバンドは、時間領域に戻って変換され、和信号y(n)をもたらし、この和信号y(n)がBCCデコーダに送出される。
包括的なBCC合成
図4に、BCCシステム200のある種の実施態様による、図2のデコーダ204に使用できるBCCシンセサイザ400のブロック図を示す。BCCシンセサイザ400は、被送出チャネルy(n)ごとのフィルタ・バンク402、アップミキシング・ブロック404、遅延406、乗算器408、デ・コリレーション(de−correlation)ブロック410、および再生チャネル
Figure 2008522244
ごとの逆フィルタ・バンク412を有する。
各フィルタ・バンク402は、時間領域の対応するディジタル被送出チャネルy(n)の各フレームを、周波数領域の入力係数
Figure 2008522244
の組に変換する。アップミキシング・ブロック404は、E個の対応する被送出チャネル係数の各サブバンドを、C個のアップミキシングされた周波数領域係数の対応するサブバンドにアップミキシングする。式(4)は、被送出チャネル係数のk番目のサブバンド
Figure 2008522244
の、アップミキシングされた係数のk番目のサブバンド
Figure 2008522244
を生成するための、次のようなアップミキシングを表す。
ここで、UECは、実数値を有するE×Cアップミキシング行列である。周波数領域でアップミキシングを実行することは、アップミキシングを各異なるサブバンドで個別に適用することを可能にする。
各遅延406は、ICTDデータの対応するBCCコードに基づく遅延値d(k)を適用して、所望のICTD値が再生チャネルのある対の間に現れることを保証する。各乗算器408は、ICLDデータの対応するBCCコードに基づく倍率a(k)を適用して、所望のICLD値が再生チャネルのある対の間に現れることを保証する。デ・コリレーション・ブロック410は、ICCデータの対応するBCCコードに基づくデ・コリレーション動作Aを実行して、所望のICC値が再生チャネルのある対の間に現れることを保証する。デ・コリレーション・ブロック410の動作のさらなる詳細は、Baumgarte 2−10として2002年5月24日に出願した米国特許出願第10/155437号に見出すことができる。
ICLD値の合成は、ICTD値およびICC値の合成より面倒でない可能性がある。というのは、ICLD合成が、単にサブバンド信号のスケーリングを用いるからである。ICLDキューは、最も一般的に使用されるディレクショナル・キュー(directional cue)なので、通常は、ICLD値がオリジナル・オーディオ信号のICLD値を近似することが、より重要である。したがって、ICLDデータを、すべてのチャネル対の間で推定することができる。各サブバンドの倍率a(k)(1≦i≦C)は、各再生チャネルのサブバンド電力がオリジナル入力オーディオ・チャネルの対応する電力を近似するようになるように選択されることが好ましい。
1つの目標は、ICTD値およびICC値の合成に関して相対的に少数の信号変更を適用することとすることができる。したがって、BCCデータに、すべてのチャネル対のICTD値およびICC値を含めないものとすることができる。その場合に、BCCシンセサイザ400は、あるチャネル対の間でのみICTD値およびICC値を合成するはずである。
各逆フィルタ・バンク412は、周波数領域の対応する合成された係数
Figure 2008522244
の組を、対応するディジタル再生チャネル
Figure 2008522244
のフレームに変換する。
図4には、E個のすべての被送出チャネルが後続のアップミキシングおよびBCC処理のために周波数領域に変換されることが示されているが、代替実施態様では、E個の被送出チャネルのうちの1つまたは複数(ただし、すべてではない)が、図4に示された処理の一部またはすべてを迂回することができる。たとえば、1つまたは複数の被送出チャネルを、アップミキシングを一切受けない変更されないチャネルとすることができる。C個の再生チャネルのうちの1つまたは複数であることに加えて、これらの変更されないチャネルを、他の再生チャネルのうちの1つまたは複数を合成するためにBCC処理が適用される基準チャネルとして使用することができるが、そうする必要はない。どちらの場合でも、そのような変更されないチャネルは、残りの再生チャネルを生成するのに使用されるアップミキシングおよび/またはBCC処理に伴う処理時間を補償するために、遅延を受ける場合がある。
図4には、C個の再生チャネルがE個の被送出チャネルから合成されることが示され、Cは、オリジナル入力チャネルの個数でもあったが、BCC合成が、再生チャネルのその個数に限定されないことに留意されたい。一般に、再生チャネルの個数は、Cより大きい個数またはCより小さい個数を含む、おそらくは再生チャネルの個数が被送出チャネルの個数以下である情況さえ含む、チャネルの任意の個数とすることができる。
オーディオ・チャネルの間の「知覚的に関連する差」
単一の和信号を仮定すると、BCCは、ICTD、ICLD、およびICCがオリジナル・オーディオ信号の対応するキューを近似するように、ステレオ・オーディオ信号またはマルチチャネル・オーディオ信号を合成する。次では、オーディトリ・スペイシャル・イメージ(auditory spatial image)属性に関するICTD、ICLD、およびICCの役割を述べる。
スペイシャル・ヒアリング(spatial hearing)に関する知識は、1つのオーディトリ・イベントについて、ICTDおよびICLDが、知覚される方向に関連することを暗示する。1つのソースのバイノーラル・ルーム・インパルス応答(binaural room impulse response、BRIR)を考慮する場合に、オーディトリ・イベントの幅とリスナ・エンベロップメントとBRIRの早期の部分および後期の部分について推定されたICCデータとの間に関係がある。しかし、ICCと一般的な信号のこれらのプロパティ(BRIRだけではなく)との間の関係は、単純ではない。
ステレオ・オーディオ信号およびマルチチャネル・オーディオ信号は、通常、囲まれた空間での録音から生じる反射信号成分によって重畳されるまたは空間的印象を人工的に作成するために録音エンジニアによって追加される同時にアクティブなソース信号の複雑な混合物を含む。異なるソース信号およびその反射は、時間−周波数平面内で異なる領域を占める。これは、ICTD、ICLD、およびICCによって反映され、この3つは、時間および周波数の関数として変化する。この場合に、瞬間的なICTD、ICLD、およびICCとオーディトリ・イベント方向と空間的印象との間の関係は、明白ではない。BCCのある種の実施形態の戦略は、これらのキューがオリジナル・オーディオ信号の対応するキューを近似するように、これらのキューを盲目的に合成することである。
等価長方形帯域幅(equivalent rectangular bandwidth、ERB)の2倍と等しい帯域幅のサブバンドを有するフィルタ・バンクが、使用される。インフォーマル・リスニング(informal listening)は、BCCのオーディオ品質が、より高い周波数分解能を選択した時に顕著には改善されないことを明らかにする。より低い周波数分解能が望ましい可能性がある。というのは、より低い周波数分解能が、デコーダに送出される必要があるより少ないICTD値、ICLD値、およびICC値をもたらし、したがってより低いビットレートをもたらすからである。
時間分解能に関して、ICTD、ICLD、およびICCは、通常、規則的な時間間隔で考慮される。ICTD、ICLD、およびICCが約4msから約16msおきに考慮される時に、高い性能が得られる。キューが非常に短い時間間隔で考慮されない限り、先行音効果が直接には考慮されないことに留意されたい。古典的なサウンド刺激のリード/ラグ対(lead−lag pair)を仮定すると、リードおよびラグが、1組のキューだけが合成される時間間隔に含まれる場合に、リードの局所化優位(localization dominance)は、考慮されない。これにもかかわらず、BCCは、平均して約87(すなわち、「優秀な」オーディオ品質)、およびある種のオーディオ信号についてほぼ100までの平均MUSHRAスコアに反映されるオーディオ品質を達成する。
基準信号と合成された信号との間のしばしば達成される知覚的に小さい差は、広範囲のオーディトリ・スペイシャル・イメージ属性に関連するキューが、規則的な時間間隔でICTD、ICLD、およびICCを合成することによって暗黙のうちに考慮されていることを暗示する。次では、ICTD、ICLD、およびICCが、ある範囲のオーディトリ・スペイシャル・イメージ属性にどのように関係し得るかに関するいくつかの議論を与える。
空間的キューの推定
次では、ICTD、ICLD、およびICCがどのように推定されるかを説明する。これらの(量子化され、コーディングされた)空間的キューの送出のビットレートは、2〜3kb/sに過ぎないものとすることができ、したがって、BCCを用いると、ステレオ・オーディオ信号およびマルチチャネル・オーディオ信号を、単一オーディオ・チャネルに必要なものに近いビットレートで送出することが可能である。
図5に、本発明の一実施形態による図2のBCCエスティメータ208のブロック図を示す。BCCエスティメータ208には、図3のフィルタ・バンク302と同一とすることができるフィルタ・バンク(FB)502と、フィルタ・バンク502によって生成された異なる周波数サブバンドごとにICTD空間的キュー、ICLD空間的キュー、およびICC空間的キューを生成する推定ブロック504とが含まれる。
ステレオ信号のICTD、ICLD、およびICCの推定
次の測定値が、2つの(たとえば、ステレオ)オーディオ・チャネルの対応するサブバンド信号
Figure 2008522244
および
Figure 2008522244
のICTD、ICLD、およびICCに使用される。
○ICTD[サンプル単位]:
Figure 2008522244
正規化された相互相関関数の短時間推定値は、次の式(8)によって与えられる。
Figure 2008522244
ここで、
=max{−d,0}
=max{d,0} (9)
であり、
Figure 2008522244
は、
Figure 2008522244
の平均値の短時間推定値である。
○ICLD[dB]:
Figure 2008522244
○ICC:
Figure 2008522244
正規化された相互相関の絶対値が考慮され、c12(k)が[0,1]の範囲を有することに留意されたい。
マルチチャネル・オーディオ信号のICTD、ICLD、およびICCの推定
3つ以上の入力チャネルがある場合には、通常、C=5チャネルの場合について図6に示されているように、基準チャネル(たとえば、チャネル番号1)と他のチャネルとの間でICTDおよびICLDを定義することが十分であり、ここで、τ1c(k)およびΔL1c(k)は、それぞれ基準チャネル1とチャネルcとの間のICTDおよびICLDを表す。
ICTDおよびICLDとは異なって、ICCは、通常、より多くの自由度を有する。定義されるICCは、すべての可能な入力チャネル対の間で異なる値を有することができる。C個のチャネルについて、C(C−1)/2個の可能なチャネル対があり、たとえば、5チャネルの場合には、図7(a)に示されているように10個のチャネル対がある。しかし、そのような方式は、各時間インデックスに、サブバンドごとに、C(C−1)/2個のICC値が推定され、送出されることを必要とし、高い計算的複雑さおよび高いビットレートをもたらす。
代替案では、サブバンドごとに、ICTDおよびICLDが、サブバンド内の対応する信号成分のオーディトリ・イベントがレンダリングされる方向を決定する。次に、サブバンドごとに1つの単一のICCパラメータを使用して、すべてのオーディオ・チャネルの間の全体的コヒーレンスを記述することができる。各時間インデックスに各サブバンド内で最大のエネルギを有する2つのチャネルの間でのみICCキューを推定し、送出することによって、よい結果を得ることができる。これが図7(b)に示されており、図7(b)では、時刻k−1およびkについて、それぞれチャネル対(3,4)および(1,2)が最も強い。ヒューリスティック・ルールを、他のチャネル対の間のICCを決定するのに使用することができる。
空間的キューの合成
図8に、単一の被送出和信号s(n)と空間的キューとを与えられてステレオ・オーディオ信号またはマルチチャネル・オーディオ信号を生成するのにBCCデコーダ内で使用できる、図4のBCCシンセサイザ400の実施態様のブロック図を示す。和信号s(n)は、サブバンドに分解され、ここで、
Figure 2008522244
は、1つのそのようなサブバンドを表す。出力チャネルのそれぞれの対応するサブバンドを生成するために、遅延d、倍率a、およびフィルタhが、和信号の対応するサブバンドに適用される(表記を単純にするために、時間インデックスkは、遅延、倍率、およびフィルタでは無視される)。ICTDは、遅延を課すことによって合成され、ICLDは、スケーリングを課すことによって合成され、ICCは、デ・コリレーション・フィルタを課すことによって合成される。図8に示された処理は、各サブバンドに独立に適用される。
ICTD合成
遅延dは、次の式(12)に従って、ICTD τ1c(k)から決定される。
Figure 2008522244
基準チャネルの遅延dは、遅延dの最大の大きさが最小化されるように計算される。サブバンド信号がより小さく変更されるほど、アーチファクトが発生する危険が少ない。サブバンド・サンプリング・レートが、ICTD合成について十分に高い時間分解能を提供しない場合には、適切な全通過フィルタを使用することによって、遅延をより正確に課すことができる。
ICLD合成
出力サブバンド信号が、チャネルcと基準チャネル1との間で所望のICLD ΔL12(k)を有するためには、利得係数aが、次の式(13)を満足しなければならない。
Figure 2008522244
さらに、出力サブバンドは、全出力チャネルの電力の和が入力和信号の電力と等しくなるように正規化されることが好ましい。各サブバンドの総オリジナル信号電力が、和信号で保存されるので、この正規化は、各出力チャネルの絶対サブバンド電力がオリジナル・エンコーダ入力オーディオ信号の対応する電力を近似することをもたらす。これらの制約を与えられて、倍率aは、次の式(14)によって与えられる。
Figure 2008522244
ICC合成
ある種の実施形態で、ICC合成の目的は、ICTDおよびICLDに影響せずに、遅延およびスケーリングが適用された後のサブバンド間の相関を減らすことである。これは、ICTDおよびICLDが、平均変動が各サブバンド内で0になる(聴覚臨界帯域)ように周波数の関数として効果的に変更されるように、図8のフィルタhを指定することによって達成することができる。
図9に、ICTDおよびICLDが周波数の関数としてサブバンド内でどのように変更されるかを示す。ICTDおよびICLDの変動の振幅は、デ・コリレーションの度合を決定し、ICCの関数として制御される。ICTDが、滑らかに変更される(図9(a)に示されているように)が、ICLDが、ランダムに変更される(図9(b)に示されているように)ことに留意されたい。ICLDをICTDのように滑らかに変更することができるが、これは、結果のオーディオ信号のより多くの相関をもたらすはずである。
ICCを合成する、特にマルチチャネルICC合成に適する、もう1つの方法が、その教示が参照によって本明細書に組み込まれているC.Faller、「Parametric multi−channel audio coding:Synthesis of coherence cues」、IEEE Trans.on Speech and Audio Proc.、2003年でより詳細に説明されている。時間および周波数の関数として、ある量の人工的な後期残響が、所望のICCを達成するために出力チャネルのそれぞれに追加される。さらに、結果の信号のスペクトル包絡がオリジナル・オーディオ信号のスペクトル包絡に近づくように、スペクトル変更を適用することができる。
ステレオ信号(またはオーディオ・チャネル対)に関する他の関連するおよび関連しないICC合成技法が、その両方の教示が参照によって本明細書に組み込まれている、E.Schuijers、W.Oomen、B.den Brinker、およびJ.Breebaart、「Advances in parametric coding for high−quality audio」、Preprint 114th Conv.Aud.Eng.Soc.、2003年3月と、J.Engdegard、H.Purnhagen、J.Roden、およびL.Liljeryd、「Synthetic ambience in parametric stereo coding」、Preprint 117th Conv.Aud.Eng.Soc.、2004年5月とに提示されている。
C−to−E BCC
前に説明したように、BCCは、2つ以上の送出チャネルを用いて実施することができる。C個のオーディオ・チャネルを1つの単一(被送出)チャネルではなくE個のチャネルとして表す、C−to−E BCCと表されるBCCの変形形態を説明した。C−to−E BCCには、次の(少なくとも)2つの動機付けがある。
○1つの送出チャネルを用いるBCCは、ステレオ・オーディオ再生またはマルチチャネル・オーディオ再生のために既存のモノ・システムをアップグレードする後方互換性経路を提供する。アップグレードされたシステムは、さらにBCCサイド情報を送出しながら、既存のモノ・インフラストラクチャを介してBCCダウンミキシングされた和信号を送出する。C−to−E BCCは、C個のチャネルのオーディオの、E個のチャネルの後方互換性コーディングに適用可能である。
○C−to−E BCCは、被送出チャネルの個数の削減の異なる度合に関するスケーラビリティを導入する。送出されるオーディオ・チャネルが多いほど、オーディオ品質がよりよくなることが期待される。
ICTDキュー、ICLDキュー、およびICCキューを定義する方法など、C−to−E BCCの信号処理の詳細は、2004年1月20日に出願した米国特許出願第10/762100号(Faller 13−1)に記載されている。
オブジェクト・ベースのBCCキュー
上で説明したように、従来のC−to−E BCC方式では、エンコーダは、C個のオリジナル・チャネルから統計的なチャネル間差パラメータ(たとえば、ICTDキュー、 ICLDキュー、および/またはICCキュー)を導出する。図6および7A〜Bに表されているように、これらの特定のBCCキューは、オーディトリ・スペイシャル・イメージの作成に使用されるラウドスピーカの個数および位置の関数である。これらのBCCキューは、オーディトリ・スペイシャル・イメージの知覚的属性を直接には表さないので、「非オブジェクト・ベースの」BCCキューと呼ばれる。
1つまたは複数のそのような非オブジェクト・ベースのBCCキューに加えてまたはその代わりに、BCC方式に、マルチチャネル・サラウンド・オーディオ信号に固有のオーディトリ・スペイシャル・イメージの属性を直接に表す1つまたは複数の「オブジェクト・ベースの」BCCキューを含めることができる。本明細書で使用される時に、オブジェクト・ベースのキューとは、オーディトリ・シーンの特性であって、そのシーンの作成に使用されるラウドスピーカの個数および位置に独立な特性を直接に表すキューである。オーディトリ・シーン自体は、それを作成するのに使用されるスピーカの個数および位置に依存するが、オブジェクト・ベースのBCCキュー自体は、これらに依存しない。
たとえば、(1)第1オーディオ・シーンが、スピーカの第1構成を使用して生成され、(2)第2オーディオ・シーンが、スピーカの第2構成(たとえば、第1構成と異なるスピーカの個数および/または位置を有する)を使用して生成されると仮定されたい。さらに、第1オーディオ・シーンが、第2オーディオ・シーンと同一である(少なくとも特定のリスナの展望から)と仮定されたい。その場合に、第1オーディオ・シーンの非オブジェクト・ベースのBCCキュー(たとえば、ICTD、ICLD、ICC)は、第2オーディオ・シーンの非オブジェクト・ベースのBCCキューと異なるが、両方のオーディオ・シーンのオブジェクト・ベースのBCCキューは、同一である。というのは、これらのキューが、オーディオ・シーンの特徴を直接に表すからである(すなわち、スピーカの個数および位置と独立)。
BCC方式は、しばしば、特定の信号フォーマット(たとえば、5チャネル・サラウンド)の文脈で適用され、ラウドスピーカの個数および位置は、信号フォーマットによって指定される。そのような応用例では、すべての非オブジェクト・ベースのBCCキューは、信号フォーマットに依存するが、すべてのオブジェクト・ベースのBCCキューは、その信号フォーマットに関連するラウドスピーカの個数および位置と独立であるという点で、信号フォーマットと独立であると言うことができる。
図10(a)に、ある角度で単一の比較的焦点を合わされたオーディトリ・イベント(影付きの円によって表される)を知覚するリスナを示す。そのようなオーディトリ・イベントは、オーディトリ・イベントを囲むラウドスピーカの対(すなわち、図10(a)ではラウドスピーカ1および3)に「振幅パニング」を適用することによって生成することができ、ここで、同一の信号が、おそらくは異なる強度を伴って、2つのラウドスピーカに送られる。レベル差(たとえば、ICLD)は、オーディトリ・イベントがラウドスピーカ対の間に現れる場所を決定する。この技法を用いると、オーディトリ・イベントを、ラウドスピーカ対およびICLD値の適当な選択によって任意の方向でレンダリングすることができる。
図10(b)に、単一のより拡散したオーディトリ・イベント(影付きの楕円によって表される)を知覚するリスナを示す。そのようなオーディトリ・イベントは、図10(a)について説明したものと同一の振幅パニング技法を使用して、任意の方向でレンダリングすることができる。さらに、信号対の間の類似性が減らされる(たとえば、ICCコヒーレンス・パラメータを使用して)。ICC=1の場合に、オーディトリ・イベントは、図10(a)のように焦点を合わされ、ICCが減る時に、オーディトリ・イベントの幅は、図10(b)のように増える。
図11(a)に、独立オーディオ信号が、リスナが音場に「包まれている」と感じるようにリスナを取り巻くラウドスピーカに印加される、しばしばリスナ・エンベロップメントと呼ばれるもう1つの種類の知覚を示す。この印象は、あるオーディオ信号の異なってデ・コリレートされた版を異なるラウドスピーカに印加することによって作成することができる。
図11(b)に、音場に包まれると同時に、ある角度である幅のオーディトリ・イベントを知覚するリスナを示す。このオーディトリ・シーンは、オーディトリ・イベントを囲むラウドスピーカ対(すなわち、図11(b)ではラウドスピーカ1および3)にある信号を印加すると同時に、同一の量の独立の(すなわち、デ・コリレートされた)信号をすべてのラウドスピーカに印加することによって作成することができる。
本発明の一実施形態によれば、オーディオ信号の空間的態様は、図11(b)に示されたものなどのシナリオについて、周波数(たとえば、サブバンド内の)および時間の関数としてパラメータ化される。ICTDキュー、ICLDキュー、およびICCキューなどの非オブジェクト・ベースのBCCキューを推定し、送出するのではなく、この特定の実施形態は、BCCキューとしてオーディトリ・シーンの空間的態様をより直接に表すオブジェクト・ベースのパラメータを使用する。具体的に言うと、各時刻kに各サブバンドb内で、オーディトリ・イベントの角度α(b,k)、オーディトリ・イベントの幅w(b,k)、およびオーディトリ・シーンのエンベロップメントの度合e(b,k)が、BCCキューとして推定され、送出される。
図12(a)〜(c)に、3つの異なるオーディトリ・シーンと、それらに関連するオブジェクト・ベースのBCCキューの値とを示す。図12(c)のオーディトリ・シーンには、局所化されたオーディトリ・イベントがない。したがって、幅w(b,k)は、0であり、角度α(b,k)は、任意である。
エンコーダ処理
図10〜12に、1つの可能な5チャネル・サラウンド構成を示すが、図11Aでは、左ラウドスピーカ(#1)が、中央ラウドスピーカ(#3)の30°左に置かれ、右ラウドスピーカ(#2)が、中央ラウドスピーカの30°右に置かれ、左後ラウドスピーカ(#4)が、中央ラウドスピーカの110°左に置かれ、右後ラウドスピーカ(#5)が、中央ラウドスピーカの110°右に置かれている。
図13は、図10〜12の5つのラウドスピーカの方位を単位ベクトルs=(cosφ,sinφとしてグラフ的に表し、ここで、X軸は、中央ラウドスピーカの方位を表し、Y軸は、中央ラウドスピーカの90°左の方位を表し、φは、X軸に対する相対的なラウドスピーカ角度である。
各時刻kに、各BCCサブバンドb内で、サラウンド・イメージのオーディトリ・イベントの方向を、次の式(15)に従って推定することができる。
Figure 2008522244
ここで、α(b,k)は、図13のX軸に関するオーディトリ・イベントの推定された角度であり、p(b,k)は、時間インデックスkでのサブバンドb内のサラウンド・チャネルiの電力または大きさである。大きさが使用される場合には、式(15)は、スイート・スポット内の音場の粒子速度ベクトルに対応する。電力も、特に高周波数(音の強さおよびヘッド・シャドウイング(head shadowing)が、より重要な役割を演じる)について、しばしば使用されてきた。
オーディトリ・イベントの幅w(b,k)は、次の式(16)に従って推定することができる。
w(b,k)=1−ICC(b,k) (16)
ここで、ICC(b,k)は、角度α(b,k)によって定義される方向を囲む2つのラウドスピーカの信号の間のコヒーレンス推定値である。
オーディトリ・シーンのエンベロップメントの度合e(b,k)は、すべてのラウドスピーカから出てくるデ・コリレートされたサウンドの総量を推定する。この尺度は、電力p(b,k)の関数としてのある考慮事項と組み合わされたさまざまなチャネル対の間のコヒーレンス推定値として計算することができる。たとえば、e(b,k)を、異なるオーディオ・チャネル対の間で得られたコヒーレンス推定値の加重平均とすることができ、ここで、重み付けは、異なるオーディオ・チャネル対の相対電力の関数である。
オーディトリ・イベントの方向を推定するもう1つの可能な形は、各時刻kに各サブバンドb内で、2つの最も強いチャネルを選択し、これらの2つのチャネルの間のレベル差を計算することである。次に、振幅パニング・ローを使用して、2つの選択されたラウドスピーカの間でのオーディトリ・イベントの相対角度を計算することができる。次に、この2つのラウドスピーカの間での相対角度を、絶対角度α(b,k)に変換することができる。
この代替技法では、オーディトリ・イベントの幅w(b,k)を、式(16)を使用して推定することができ、ここで、ICC(b,k)は、2つの最も強いチャネルの間のコヒーレンス推定値であり、オーディトリ・シーンのエンベロップメントの度合e(b,k)は、次の式(17)を使用して推定することができる。
Figure 2008522244
ここで、Cは、チャネルの個数であり、iおよびiは、2つの選択された最も強いチャネルのインデックスである。
BCC方式は、3つすべてのオブジェクト・ベースのパラメータ(すなわち、α(b,k)、w(b,k)、およびe(b,k))を送出することができるが、代替のBCC方式は、たとえば非常に低いビットレートが必要である時に、より少数のパラメータを送出することができる。たとえば、2つのパラメータすなわち、方向α(b,k)および「指向性」d(b,k)だけを使用することによって、かなりよい結果を得ることができ、ここで、指向性パラメータは、w(b,k)とe(b,k)との間の加重平均に基づいて、w(b,k)およびe(b,k)を1つのパラメータに組み合わせる。
w(b,k)およびe(b,k)の組合せは、オーディトリ・イベントの幅およびエンベロップメントの度合が、多少関連する知覚であるという事実によって誘導される。この両方が、横に独立のサウンドによって喚起される。したがって、w(b,k)およびe(b,k)の組合せは、オーディトリ・スペイシャル・イメージの諸属性の決定に関するごくわずかにより低い柔軟性をもたらす。1つの可能な実施態様では、w(b,k)およびe(b,k)の重み付けは、w(b,k)およびe(b,k)がそれを用いて計算された信号の総信号電力を反映する。たとえば、w(b,k)の重みは、w(b,k)を計算するために選択された2つのチャネルの電力に比例して選択することができ、w(b,k)の重みは、全チャネルの電力に比例するものとすることができる。代替案では、α(b,k)およびw(b,k)を送出することができ、e(b,k)は、デコーダでヒューリスティックに決定される。
デコーダ処理
デコーダ処理は、オブジェクト・ベースのBCCキューを、レベル差(ICLD)およびコヒーレンス値(ICC)などの非オブジェクト・ベースのBCCキューに変換し、したがってこれらの非オブジェクト・ベースのBCCキューを従来のBCCデコーダで使用することによって実施することができる。
たとえば、オーディトリ・イベントの角度α(b,k)を使用して、振幅パニング・ロー(または他の可能な周波数依存の関係)を適用することによって、オーディトリ・イベントを囲む2つのラウドスピーカ・チャネルの間のICLDを決定することができる。振幅パニングを適用する時に、倍率aおよびaを、次の式(18)によって与えられるステレオフォニック正弦法則から推定することができる。
Figure 2008522244
ここで、φは、2つのラウドスピーカの間の角度の半分の大きさであり、φは、時計回りの方向(角度が反時計回りの方向で増加するように定義されている場合に)で最も近いラウドスピーカの角度に対する相対的なオーディオ・イベントの対応する角度であり、倍率aおよびaは、次の式(19)に従ってレベル差キューICLDに関係付けられる。
ΔL12(k)=20log10(a/a) (19)
図14に、角度φおよびφと倍率aおよびaとを示すが、s(n)は、振幅パニングが倍率aおよびaに基づいて適用される時に角度φに現れるモノ信号を表す。図15は、φ=30°の標準的なステレオ構成に関する、式(18)のステレオフォニック正弦法則によるICLDとステレオ・イベント角度φとの間の関係をグラフ的に表す。
前に説明したように、倍率aおよびaは、オーディトリ・イベントの方向の関数として決定される。式(18)は、比a/aだけを決定するので、aおよびaの全体的スケーリングについて、1つの自由度がある。このスケーリングは、他のキュー、たとえばw(b,k)およびe(b,k)にも依存する。
オーディトリ・イベントを囲む2つのラウドスピーカ・チャネルの間のコヒーレンス・キューICCは、幅パラメータw(b,k)からICC(b,k)=1−w(b,k)として決定することができる。各残りのチャネルiの電力は、エンベロップメントの度合パラメータe(b,k)の関数として計算され、ここで、e(b,k)のより大きい値は、残りのチャネルに与えられるより大きい電力を暗示する。総電力は一定である(すなわち、総電力は、被送出チャネルの総電力と等しいかこれに比例する)ので、オーディトリ・イベント方向を囲む2つのチャネルに与えられる電力の和と、残りのすべてのチャネルの電力の和(e(b,k)によって決定される)とを加えたものは、一定である。したがって、エンベロップメントの度合e(b,k)が大きいほど、局所化されたサウンドにより少ない電力が与えられる、すなわち、より小さいaおよびaが選択される(比a/aは、オーディトリ・イベントの方向から決定される)。
1つの極端なケースが、エンベロップメントの最大の度合がある時である。この場合に、aおよびaは小さく、あるいは、a=a=0ですらある。他方の極端が、エンベロップメントの最小の度合である。この場合に、aおよびaは、すべての信号電力がこの2つのチャネルに進むと同時に、残りのチャネルの電力が0になるように選択される。残りのチャネルに与えられる信号は、リスナ・エンベロップメントの最大の効果を得るために、独立の(デ・コリレートされた)信号であることが好ましい。
α(b,k)、w(b,k)、およびe(b,k)などのオブジェクト・ベースのBCCキューの1つの特性は、これらが、ラウドスピーカの個数および位置と独立であることである。したがって、これらのオブジェクト・ベースのBCCキューは、任意の位置にある任意の個数のラウドスピーカのためのオーディトリ・シーンをレンダリングするのに効果的に使用することができる。
さらなる代替実施形態
本発明を、キュー・コードが1つまたは複数のオーディオ・チャネル(すなわち、E個の被送出チャネル)と共に送出されるBCCコーディング方式の文脈で説明してきたが、代替実施形態では、キュー・コードを、被送出チャネルを既に有し、おそらくは他のBCCコードを既に有する場所(たとえば、デコーダまたはストレージ・デバイス)に送出することができる。
本発明を、BCCコーディング方式の文脈で説明してきたが、本発明は、オーディオ信号がデ・コリレートされる他のオーディオ処理システムまたは信号をデ・コリレートする必要がある他のオーディオ処理の文脈で実施することもできる。
本発明を、エンコーダが、時間領域の入力オーディオ信号を受け取り、時間領域の被送出オーディオ信号を生成し、デコーダが、時間領域の被送出オーディオ信号を受け取り、時間領域の再生オーディオ信号を生成する実施態様の文脈で説明してきたが、本発明は、それに限定されない。たとえば、他の実施態様では、入力オーディオ信号、被送出オーディオ信号、および再生オーディオ信号のうちのいずれか1つまたは複数を、周波数領域で表すことができる。
BCCエンコーダおよび/またはBCCデコーダを、テレビジョン配信または電子音楽配信、ムービー・シアター、放送、ストリーミング、および/または受信のためのシステムを含むさまざまな異なる応用例またはシステムと共に使用するかこれに組み込むことができる。これには、たとえば、地上波、衛星、ケーブル、インターネット、イントラネット、または物理的媒体(たとえば、コンパクト・ディスク、ディジタル多用途ディスク、半導体チップ、ハード・ドライブ、メモリ・カード、および類似物)を介する送出をエンコードし/デコードするシステムが含まれる。BCCエンコーダおよび/またはBCCデコーダを、たとえば、2つ以上の機械、プラットフォーム、もしくは媒体について発行することができる、娯楽(アクション、ロール・プレイ、ストラテジ、アドベンチャ、シミュレーション、レース、スポーツ、アーケード、トランプ、およびボード・ゲーム)および/または教育のためにユーザと対話することを意図された対話型ソフトウェア製品を含む、ゲームおよびゲーム・システムで使用することもできる。さらに、BCCエンコーダおよび/またはBCCデコーダを、オーディオ・レコーダ/プレイヤまたはCD−ROM/DVDシステムに組み込むことができる。BCCエンコーダおよび/またはBCCデコーダを、ディジタル・デコーディングを組み込んだPCソフトウェア・アプリケーション(たとえば、プレイヤ、デコーダ)およびディジタル・エンコーディング機能を組み込んだソフトウェア・アプリケーション(たとえば、エンコーダ、リッパ、レコーダ、およびジュークボックス)に組み込むこともできる。
本発明を、単一の集積回路(ASICまたはFPGAなど)、2つ以上チップ・モジュール、単一のカード、または2つ以上カード回路パックとしての可能な実施態様を含む、回路に基づくプロセスとして実施することができる。当業者に明白であるとおり、回路要素のさまざまな機能を、ソフトウェア・プログラム内の処理ステップとして実施することもできる。そのようなソフトウェアは、たとえば、ディジタル信号プロセッサ、マイクロコントローラ、または汎用コンピュータ内で使用することができる。
本発明は、方法およびこれらの方法を実践する装置の形で実施することができる。本発明は、フロッピ・ディスケット、CD−ROM、ハード・ドライブ、または任意の他の機械可読記憶媒体などの有形の媒体内で実施されたプログラム・コードの形で実施することもでき、ここで、そのプログラム・コードがコンピュータなどの機械にロードされ、その機械によって実行される時に、その機械は、本発明を実践する装置になる。本発明を、たとえば、記憶媒体に保管される、機械にロードされかつ/または機械によって実行される、あるいは電気的ワイヤリングもしくはケーブリングを介して、光ファイバを介して、または電磁放射を介してなどのある送出媒体または担体を介して送出されるのいずれかのプログラム・コードの形で実施することもでき、ここで、そのプログラム・コードがコンピュータなどの機械にロードされ、その機械によって実行される時に、その機械は、本発明を実践する装置になる。汎用プロセッサで実施される時に、プログラム・コード・セグメントは、プロセッサと組み合わさって、特定の論理回路に似て動作する独自のデバイスを提供する。
本発明を、本発明の方法および/または装置を使用して生成される、媒体を介して電気的にまたは光学的に送出される信号値、磁気記録媒体内に保管された磁界変動などのビットストリームまたは他のシーケンスの形で実施することもできる。
さらに、本発明の性質を説明するために説明され、図示された詳細、材料、および部分の配置におけるさまざまな変更を、添付の特許請求の範囲で表される本発明の範囲から逸脱せずに当業者が作ることができることを理解されたい。
添付の特許請求の範囲の方法クレームの工程は、存在する場合に、対応するラベル付けを有する特定のシーケンスで列挙されるが、請求項の詳説がこれらの工程の一部またはすべてを実施する特定のシーケンスを他の形で暗示しない限り、これらの工程は、その特定のシーケンスで実施されることに限定されることを必ずしも意図されていない。
従来のバイノーラル信号シンセサイザを示す高水準ブロック図である。 包括的なバイノーラル・キュー・コーディング(BCC)オーディオ処理システムを示すブロック図である。 図2のダウンミキサに使用できるダウンミキサを示すブロック図である。 図2のデコーダに使用できるBCCシンセサイザを示すブロック図である。 本発明の一実施形態による図2のBCCエスティメータを示すブロック図である。 5チャネル・オーディオのICTDデータおよびICLDデータの生成を示す図である。 5チャネル・オーディオのICCデータの生成を示す図である。 単一の被送出和信号s(n)と空間的キューとを与えられてステレオ・オーディオ信号またはマルチチャネル・オーディオ信号を生成するのにBCCデコーダ内で使用できる、図4のBCCシンセサイザの実施態様を示すブロック図である。 ICTDおよびICLDが周波数の関数としてサブバンド内でどのように変更されるかを示す図である。 ある角度で単一の比較的焦点を合わされたオーディトリ・イベント(影付きの円によって表される)を知覚するリスナを示す図である。 単一のより拡散したオーディトリ・イベント(影付きの楕円によって表される)を知覚するリスナを示す図である。 独立オーディオ信号が、リスナが音場に「包まれている」と感じるようにリスナを取り巻くラウドスピーカに印加される、しばしばリスナ・エンベロップメントと呼ばれるもう1つの種類の知覚を示す図である。 音場に包まれると同時に、ある角度である幅のオーディトリ・イベントを知覚するリスナを示す図である。 (a)〜(c)は、3つの異なるオーディトリ・シーンと、それらに関連するオブジェクト・ベースのBCCキューの値とを示す図である。 図10〜12の5つのラウドスピーカの方位をグラフ的に表す図である。 振幅パニングの角度および倍率を示す図である。 ステレオフォニック正弦法則による、ICLDとステレオ・イベント角度との間の関係をグラフ的に表す図である。

Claims (33)

  1. オーディオ・チャネルをエンコードする方法であって、
    2つ以上のオーディオ・チャネルの1つまたは複数のキュー・コードを生成することであって、少なくとも1つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、生成することと、
    前記1つまたは複数のキュー・コードを送出することと
    を含む方法。
  2. 前記2つ以上のオーディオ・チャネルに対応するE個の被送出オーディオ・チャネルを送出することをさらに含み、E≧1である請求項1に記載の発明。
  3. 前記2つ以上のオーディオ・チャネルは、C個の入力オーディオ・チャネルを含み、C>Eであり、
    前記C個の入力チャネルは、前記E個の被送出チャネルを生成するためにダウンミキシングされる
    請求項2に記載の発明。
  4. 前記1つまたは複数のキュー・コードは、デコーダがE個の被送出チャネルのデコーディング中に前記少なくとも1つのオブジェクト・ベースのキュー・コードに基づいて合成処理を実行することを可能にするために送出され、前記E個の被送出オーディオ・チャネルは、前記2つ以上のオーディオ・チャネルに対応し、E≧1である請求項1に記載の発明。
  5. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、異なる時刻に異なるサブバンド内で推定される請求項1に記載の発明。
  6. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、(1)基準方向に対する相対的な前記オーディトリ・シーン内のオーディトリ・イベントの絶対角度、(2)前記オーディトリ・イベントの幅、(3)前記オーディトリ・シーンのエンベロップメントの度合、および(4)前記オーディトリ・シーンの指向性のうちの複数を含む請求項1に記載の発明。
  7. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、基準方向に対する相対的な前記オーディトリ・シーン内のオーディトリ・イベントの絶対角度を含む請求項1に記載の発明。
  8. 前記オーディトリ・イベントの前記絶対角度は、
    (i)前記オーディオ・チャネルの相対電力ベクトルのベクトル和を生成することと、
    (ii)前記基準方向に対する相対的な前記ベクトル和の角度に基づいて、前記オーディトリ・イベントの前記絶対角度を決定することと
    によって推定される請求項7に記載の発明。
  9. 前記オーディトリ・イベントの前記絶対角度は、
    (i)前記オーディオ・チャネル内の2つの最も強いチャネルを識別することと、
    (ii)前記2つの最も強いチャネルの間のレベル差を計算することと、
    (iii)前記2つの最も強いチャネルの間の相対角度を計算するために振幅パニング・ローを適用することと、
    (iv)前記相対角度を前記オーディトリ・イベントの前記絶対角度に変換することと
    によって推定される請求項7に記載の発明。
  10. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーン内のオーディトリ・イベントの幅を含む請求項1に記載の発明。
  11. 前記オーディトリ・イベントの前記幅は、
    (i)前記オーディトリ・イベントの絶対角度を推定することと、
    (ii)前記絶対角度を囲む2つのオーディオ・チャネルを識別することと、
    (iii)前記2つの識別されたチャネルの間のコヒーレンスを推定することと、
    (iv)前記推定されたコヒーレンスに基づいて前記オーディトリ・イベントの前記幅を計算することと
    によって推定される請求項10に記載の発明。
  12. 前記オーディトリ・イベントの前記幅は、
    (i)前記オーディオ・チャネル内の2つの最も強いチャネルを識別することと、
    (ii)前記2つの最も強いチャネルの間のコヒーレンスを推定することと、
    (iii)前記推定されたコヒーレンスに基づいて前記オーディトリ・イベントの前記幅を計算することと
    によって推定される請求項10に記載の発明。
  13. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーンのエンベロップメントの度合を含む請求項1に記載の発明。
  14. 前記エンベロップメントの度合は、
    (i)オーディオ・チャネルの異なる対の間のコヒーレンスを推定することと、
    (ii)前記推定されたコヒーレンスの加重和としてエンベロップメントの前記度合を計算することであって、各推定されたコヒーレンスは、前記対応するオーディオ・チャネル対の電力に基づいて重みを付けられる、計算することと
    によって推定される請求項13に記載の発明。
  15. 前記エンベロップメントの度合は、
    (i)前記オーディオ・チャネル内の2つの最も強いチャネルを識別することと、
    (ii)前記2つの最も強いチャネルを除くすべてのオーディオ・チャネルの電力に基づいて第1和を生成することと、
    (iii)前記2つの最も強いチャネルを含むすべてのオーディオ・チャネルの電力に基づいて第2和を生成することと、
    (iv)前記第1和と前記第2和との間の比に基づいてエンベロップメントの前記度合を計算することと
    によって推定される請求項13に記載の発明。
  16. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーンの指向性を含む請求項1に記載の発明。
  17. 前記指向性は、
    (i)前記オーディトリ・シーン内のオーディトリ・イベントの幅を推定することと、
    (ii)前記オーディトリ・シーンのエンベロップメントの度合を推定することと、
    (iii)前記幅およびエンベロップメントの前記度合の加重和として前記指向性を計算することと
    によって推定される請求項16に記載の発明。
  18. オーディオ・チャネルをエンコードする装置であって、
    2つ以上のオーディオ・チャネルの1つまたは複数のキュー・コードを生成する手段であって、少なくとも1つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、生成する手段と、
    前記1つまたは複数のキュー・コードを送出する手段と
    を含む装置。
  19. E個の被送出オーディオ・チャネルを生成するためにC個の入力オーディオ・チャネルをエンコードする装置であって、
    2つ以上のオーディオ・チャネルの1つまたは複数のキュー・コードを生成するように適合されたコード・エスティメータであって、少なくとも1つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、コード・エスティメータと、
    前記E個の被送出チャネルを生成するために前記C個の入力チャネルをダウンミキシングするように適合されたダウンミキサであって、C>E≧1であり、前記装置は、デコーダが前記E個の被送出チャネルのデコーディング中に合成処理を実行することを可能にするために前記キュー・コードに関する情報を送出するように適合される、ダウンミキサと
    を含む装置。
  20. 前記装置は、ディジタル・ビデオ・レコーダ、ディジタル・オーディオ・レコーダ、コンピュータ、衛星送信器、ケーブル送信器、地上波放送送信器、ホーム・エンターテイメント・システム、およびムービー・シアター・システムからなる群から選択されたシステムであり、
    前記システムは、前記コード・エスティメータと前記ダウンミキサとを含む
    請求項19に記載の装置。
  21. その上にプログラム・コードをエンコードされた機械可読媒体であって、前記プログラム・コードが機械によって実行される時に、前記機械は、オーディオ・チャネルをエンコードする方法を実施し、前記方法は、
    2つ以上のオーディオ・チャネルの1つまたは複数のキュー・コードを生成することであって、少なくとも1つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、生成することと、
    前記1つまたは複数のキュー・コードを送出することと
    を含む機械可読媒体。
  22. オーディオ・チャネルをエンコードすることによって生成されるエンコードされたオーディオ・ビットストリームであって、
    1つまたは複数のキュー・コードは、2つ以上のオーディオ・チャネルについて生成され、少なくとも1つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立であり、
    E≧1であり、前記2つ以上のオーディオ・チャネルに対応する前記1つまたは複数のキュー・コードおよびE個の被送出オーディオ・チャネルは、前記エンコードされたオーディオ・ビットストリーム内にエンコードされる
    エンコードされたオーディオ・ビットストリーム。
  23. C個の再生オーディオ・チャネルを生成するためにE個の被送出オーディオ・チャネルをデコードする方法であって、C>E≧1であり、
    前記E個の被送出オーディオ・チャネルに対応するキュー・コードを受け取ることであって、少なくとも1つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、受け取ることと、
    1つまたは複数のアップミキシングされたチャネルを生成するために、前記E個の被送出チャネルのうちの1つまたは複数をアップミキシングすることと、
    前記キュー・コードを前記1つまたは複数のアップミキシングされたチャネルに適用することによって、前記C個の再生チャネルのうちの1つまたは複数を合成することと
    を含む方法。
  24. 少なくとも2つの再生チャネルは、
    (i)前記再生オーディオ・チャネルをレンダリングするのに使用される2つ以上のラウドスピーカの位置に基づいて、前記少なくとも1つのオブジェクト・ベースのキュー・コードを少なくとも1つの非オブジェクト・ベースのキュー・コードに変換することと、
    (ii)前記少なくとも2つの再生チャネルを生成するために、前記少なくとも1つの非オブジェクト・ベースのキュー・コードを少なくとも1つのアップミキシングされたチャネルに適用することと
    によって合成される請求項23に記載の発明。
  25. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、(1)基準方向に対する相対的な前記オーディトリ・シーン内のオーディトリ・イベントの絶対角度、(2)前記オーディトリ・イベントの幅、(3)前記オーディトリ・シーンのエンベロップメントの度合、および(4)前記オーディトリ・シーンの指向性のうちの1つまたは複数を含み、
    前記少なくとも1つの非オブジェクト・ベースのキュー・コードは、(1)チャネル間相関(ICC)コード、チャネル間レベル差(ICLD)コード、およびチャネル間時間差(ICTD)コードのうちの1つまたは複数を含む
    請求項24に記載の発明。
  26. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、基準方向に対する相対的な前記オーディトリ・シーン内のオーディトリ・イベントの絶対角度を含む請求項23に記載の発明。
  27. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーン内のオーディトリ・イベントの幅を含む請求項23に記載の発明。
  28. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーンのエンベロップメントの度合を含む請求項23に記載の発明。
  29. 前記少なくとも1つのオブジェクト・ベースのキュー・コードは、前記オーディトリ・シーンの指向性を含む請求項23に記載の発明。
  30. C個の再生オーディオ・チャネルを生成するためにE個の被送出オーディオ・チャネルをデコードする装置であって、C>E≧1であり、
    前記E個の被送出オーディオ・チャネルに対応するキュー・コードを受け取る手段であって、少なくとも1つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、受け取る手段と、
    1つまたは複数のアップミキシングされたチャネルを生成するために、前記E個の被送出チャネルのうちの1つまたは複数をアップミキシングする手段と、
    前記キュー・コードを前記1つまたは複数のアップミキシングされたチャネルに適用することによって、前記C個の再生チャネルのうちの1つまたは複数を合成する手段と
    を含む装置。
  31. C個の再生オーディオ・チャネルを生成するためにE個の被送出オーディオ・チャネルをデコードする装置であって、C>E≧1であり、
    前記E個の被送出オーディオ・チャネルに対応するキュー・コードを受け取るように適合されたレシーバであって、少なくとも1つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、レシーバと、
    1つまたは複数のアップミキシングされたチャネルを生成するために、前記E個の被送出チャネルのうちの1つまたは複数をアップミキシングするように適合されたアップミキサと、
    前記キュー・コードを前記1つまたは複数のアップミキシングされたチャネルに適用することによって、前記C個の再生チャネルのうちの1つまたは複数を合成するように適合されたシンセサイザと
    を含む装置。
  32. 前記装置は、ディジタル・ビデオ・プレイヤ、ディジタル・オーディオ・プレイヤ、コンピュータ、衛星受信器、ケーブル受信器、地上波放送受信器、ホーム・エンターテイメント・システム、およびムービー・シアター・システムからなる群から選択されたシステムであり、
    前記システムは、前記レシーバ、前記アップミキサ、および前記シンセサイザを含む
    請求項31に記載の装置。
  33. その上にプログラム・コードをエンコードされた機械可読媒体であって、前記プログラム・コードが機械によって実行される時に、前記機械は、C>E≧1である、C個の再生オーディオ・チャネルを生成するためにE個の被送出オーディオ・チャネルをデコードする方法を実施し、前記方法は、
    前記E個の被送出オーディオ・チャネルに対応するキュー・コードを受け取ることであって、少なくとも1つのキュー・コードは、前記オーディオ・チャネルに対応するオーディトリ・シーンの特性を直接に表すオブジェクト・ベースのキュー・コードであり、前記特性は、前記オーディトリ・シーンの作成に使用されるラウドスピーカの個数および位置と独立である、受け取ることと、
    1つまたは複数のアップミキシングされたチャネルを生成するために、前記E個の被送出チャネルのうちの1つまたは複数をアップミキシングすることと、
    前記キュー・コードを前記1つまたは複数のアップミキシングされたチャネルに適用することによって、前記C個の再生チャネルのうちの1つまたは複数を合成することと
    を含む機械可読媒体。
JP2007544408A 2004-11-30 2005-11-22 オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング Active JP5106115B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US63179804P 2004-11-30 2004-11-30
US60/631,798 2004-11-30
PCT/US2005/042772 WO2006060279A1 (en) 2004-11-30 2005-11-22 Parametric coding of spatial audio with object-based side information

Publications (2)

Publication Number Publication Date
JP2008522244A true JP2008522244A (ja) 2008-06-26
JP5106115B2 JP5106115B2 (ja) 2012-12-26

Family

ID=36087701

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007544408A Active JP5106115B2 (ja) 2004-11-30 2005-11-22 オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング

Country Status (6)

Country Link
US (1) US8340306B2 (ja)
EP (1) EP1817767B1 (ja)
JP (1) JP5106115B2 (ja)
KR (1) KR101215868B1 (ja)
TW (1) TWI427621B (ja)
WO (1) WO2006060279A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010505328A (ja) * 2006-09-29 2010-02-18 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号をエンコーディング及びデコーディングする方法及び装置
JP2010521867A (ja) * 2007-03-16 2010-06-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
US8463605B2 (en) 2007-01-05 2013-06-11 Lg Electronics Inc. Method and an apparatus for decoding an audio signal

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7447317B2 (en) 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
KR100682915B1 (ko) * 2005-01-13 2007-02-15 삼성전자주식회사 다채널 신호 부호화/복호화 방법 및 장치
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
US8917874B2 (en) * 2005-05-26 2014-12-23 Lg Electronics Inc. Method and apparatus for decoding an audio signal
JP4814344B2 (ja) * 2006-01-19 2011-11-16 エルジー エレクトロニクス インコーポレイティド メディア信号の処理方法及び装置
CN103366747B (zh) * 2006-02-03 2017-05-17 韩国电子通信研究院 用于控制音频信号的渲染的设备和方法
WO2007091842A1 (en) 2006-02-07 2007-08-16 Lg Electronics Inc. Apparatus and method for encoding/decoding signal
US20070223740A1 (en) * 2006-02-14 2007-09-27 Reams Robert W Audio spatial environment engine using a single fine structure
US7876904B2 (en) 2006-07-08 2011-01-25 Nokia Corporation Dynamic decoding of binaural audio signals
EP2575129A1 (en) 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
WO2008046531A1 (en) * 2006-10-16 2008-04-24 Dolby Sweden Ab Enhanced coding and parameter representation of multichannel downmixed object coding
WO2008046530A2 (en) 2006-10-16 2008-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for multi -channel parameter transformation
US8130966B2 (en) * 2006-10-31 2012-03-06 Anthony Grimani Method for performance measurement and optimization of sound systems using a sliding band integration curve
WO2008060111A1 (en) * 2006-11-15 2008-05-22 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
CN101632117A (zh) 2006-12-07 2010-01-20 Lg电子株式会社 用于解码音频信号的方法和装置
KR101086347B1 (ko) * 2006-12-27 2011-11-23 한국전자통신연구원 부가정보 비트스트림 변환을 포함하는 다양한 채널로구성된 다객체 오디오 신호의 부호화 및 복호화 장치 및방법
WO2008100100A1 (en) 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
EP2215629A1 (en) * 2007-11-27 2010-08-11 Nokia Corporation Multichannel audio coding
JP5243554B2 (ja) * 2008-01-01 2013-07-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
WO2009084919A1 (en) 2008-01-01 2009-07-09 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP5122681B2 (ja) * 2008-05-23 2013-01-16 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ パラメトリックステレオアップミクス装置、パラメトリックステレオデコーダ、パラメトリックステレオダウンミクス装置、及びパラメトリックステレオエンコーダ
EP2154911A1 (en) 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
JP5679340B2 (ja) * 2008-12-22 2015-03-04 コーニンクレッカ フィリップス エヌ ヴェ 送信効果処理による出力信号の生成
US8139773B2 (en) * 2009-01-28 2012-03-20 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
US9888335B2 (en) * 2009-06-23 2018-02-06 Nokia Technologies Oy Method and apparatus for processing audio signals
WO2011021114A1 (en) 2009-08-20 2011-02-24 Nds Limited Electronic book security features
WO2011064438A1 (en) * 2009-11-30 2011-06-03 Nokia Corporation Audio zooming process within an audio scene
JP2015509212A (ja) * 2012-01-19 2015-03-26 コーニンクレッカ フィリップス エヌ ヴェ 空間オーディオ・レンダリング及び符号化
CA2880412C (en) * 2012-08-10 2019-12-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and methods for adapting audio information in spatial audio object coding
CN105247613B (zh) 2013-04-05 2019-01-18 杜比国际公司 音频处理系统
RU2628177C2 (ru) 2013-05-24 2017-08-15 Долби Интернешнл Аб Способы кодирования и декодирования звука, соответствующие машиночитаемые носители и соответствующие устройство кодирования и устройство декодирования звука
DE102013223201B3 (de) 2013-11-14 2015-05-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren und Vorrichtung zum Komprimieren und Dekomprimieren von Schallfelddaten eines Gebietes
US9552819B2 (en) * 2013-11-27 2017-01-24 Dts, Inc. Multiplet-based matrix mixing for high-channel count multichannel audio
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN105657633A (zh) 2014-09-04 2016-06-08 杜比实验室特许公司 生成针对音频对象的元数据
US11128978B2 (en) * 2015-11-20 2021-09-21 Dolby Laboratories Licensing Corporation Rendering of immersive audio content
US10362423B2 (en) 2016-10-13 2019-07-23 Qualcomm Incorporated Parametric audio decoding
EP3765954A4 (en) * 2018-08-30 2021-10-27 Hewlett-Packard Development Company, L.P. SPACE CHARACTERISTICS OF MULTI-CHANNEL AUDIO SOURCE
US11019449B2 (en) 2018-10-06 2021-05-25 Qualcomm Incorporated Six degrees of freedom and three degrees of freedom backward compatibility
DE102021200553B4 (de) * 2021-01-21 2022-11-17 Kaetel Systems Gmbh Vorrichtung und Verfahren zum Ansteuern eines Schallerzeugers mit synthetischer Erzeugung des Differenzsignals

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002029808A2 (en) * 2000-10-04 2002-04-11 University Of Miami Auxiliary channel masking in an audio signal
JP2002511683A (ja) * 1998-04-07 2002-04-16 ドルビー、レイ・ミルトン 低ビットレート空間符号化方法及び装置
WO2003090208A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO
WO2003090207A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
WO2004036548A1 (en) * 2002-10-14 2004-04-29 Thomson Licensing S.A. Method for coding and decoding the wideness of a sound source in an audio scene
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法
JP2004535145A (ja) * 2001-07-10 2004-11-18 コーディング テクノロジーズ アクチボラゲット 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化

Family Cites Families (90)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4236039A (en) * 1976-07-19 1980-11-25 National Research Development Corporation Signal matrixing for directional reproduction of sound
CA1268546A (en) * 1985-08-30 1990-05-01 Shigenobu Minami Stereophonic voice signal transmission system
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
DE3943879B4 (de) * 1989-04-17 2008-07-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
SG49883A1 (en) * 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
DE4209544A1 (de) * 1992-03-24 1993-09-30 Inst Rundfunktechnik Gmbh Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale
US5703999A (en) * 1992-05-25 1997-12-30 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Process for reducing data in the transmission and/or storage of digital signals from several interdependent channels
DE4236989C2 (de) * 1992-11-02 1994-11-17 Fraunhofer Ges Forschung Verfahren zur Übertragung und/oder Speicherung digitaler Signale mehrerer Kanäle
US5371799A (en) * 1993-06-01 1994-12-06 Qsound Labs, Inc. Stereo headphone sound source localization system
US5463424A (en) * 1993-08-03 1995-10-31 Dolby Laboratories Licensing Corporation Multi-channel transmitter/receiver system providing matrix-decoding compatible signals
JP3227942B2 (ja) 1993-10-26 2001-11-12 ソニー株式会社 高能率符号化装置
DE4409368A1 (de) * 1994-03-18 1995-09-21 Fraunhofer Ges Forschung Verfahren zum Codieren mehrerer Audiosignale
JP3277679B2 (ja) * 1994-04-15 2002-04-22 ソニー株式会社 高能率符号化方法と高能率符号化装置及び高能率復号化方法と高能率復号化装置
JPH0969783A (ja) 1995-08-31 1997-03-11 Nippon Steel Corp オーディオデータ符号化装置
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5771295A (en) * 1995-12-26 1998-06-23 Rocktron Corporation 5-2-5 matrix system
US7012630B2 (en) 1996-02-08 2006-03-14 Verizon Services Corp. Spatial sound conference system and apparatus
CN1137546C (zh) * 1996-02-08 2004-02-04 皇家菲利浦电子有限公司 对一组数字信息信号进行编码的装置和方法
US5825776A (en) * 1996-02-27 1998-10-20 Ericsson Inc. Circuitry and method for transmitting voice and data signals upon a wireless communication channel
US5889843A (en) * 1996-03-04 1999-03-30 Interval Research Corporation Methods and systems for creating a spatial auditory environment in an audio conference system
US5812971A (en) * 1996-03-22 1998-09-22 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
KR0175515B1 (ko) * 1996-04-15 1999-04-01 김광호 테이블 조사 방식의 스테레오 구현 장치와 방법
US6987856B1 (en) * 1996-06-19 2006-01-17 Board Of Trustees Of The University Of Illinois Binaural signal processing techniques
US6697491B1 (en) 1996-07-19 2004-02-24 Harman International Industries, Incorporated 5-2-5 matrix encoder and decoder system
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
SG54379A1 (en) * 1996-10-24 1998-11-16 Sgs Thomson Microelectronics A Audio decoder with an adaptive frequency domain downmixer
SG54383A1 (en) * 1996-10-31 1998-11-16 Sgs Thomson Microelectronics A Method and apparatus for decoding multi-channel audio data
US5912976A (en) * 1996-11-07 1999-06-15 Srs Labs, Inc. Multi-channel audio enhancement system for use in recording and playback and methods for providing same
US6131084A (en) 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
US6111958A (en) * 1997-03-21 2000-08-29 Euphonics, Incorporated Audio spatial enhancement apparatus and methods
US6236731B1 (en) 1997-04-16 2001-05-22 Dspfactory Ltd. Filterbank structure and method for filtering and separating an information signal into different bands, particularly for audio signal in hearing aids
US5860060A (en) * 1997-05-02 1999-01-12 Texas Instruments Incorporated Method for left/right channel self-alignment
US5946352A (en) * 1997-05-02 1999-08-31 Texas Instruments Incorporated Method and apparatus for downmixing decoded data streams in the frequency domain prior to conversion to the time domain
US6108584A (en) * 1997-07-09 2000-08-22 Sony Corporation Multichannel digital audio decoding method and apparatus
DE19730130C2 (de) * 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
US6021389A (en) * 1998-03-20 2000-02-01 Scientific Learning Corp. Method and apparatus that exaggerates differences between sounds to train listener to recognize and identify similar sounds
TW444511B (en) 1998-04-14 2001-07-01 Inst Information Industry Multi-channel sound effect simulation equipment and method
JP3657120B2 (ja) 1998-07-30 2005-06-08 株式会社アーニス・サウンド・テクノロジーズ 左,右両耳用のオーディオ信号を音像定位させるための処理方法
JP2000151413A (ja) 1998-11-10 2000-05-30 Matsushita Electric Ind Co Ltd オーディオ符号化における適応ダイナミック可変ビット割り当て方法
JP2000152399A (ja) * 1998-11-12 2000-05-30 Yamaha Corp 音場効果制御装置
US6408327B1 (en) 1998-12-22 2002-06-18 Nortel Networks Limited Synthetic stereo conferencing over LAN/WAN
US6282631B1 (en) * 1998-12-23 2001-08-28 National Semiconductor Corporation Programmable RISC-DSP architecture
ES2208297T3 (es) * 1999-04-07 2004-06-16 Dolby Laboratories Licensing Corporation Generacion de matrices para codificacion y descodificacion sin perdidas de señales de audio multicanal.
US6539357B1 (en) 1999-04-29 2003-03-25 Agere Systems Inc. Technique for parametric coding of a signal containing information
JP4438127B2 (ja) 1999-06-18 2010-03-24 ソニー株式会社 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
US6823018B1 (en) 1999-07-28 2004-11-23 At&T Corp. Multiple description coding communication system
US6434191B1 (en) * 1999-09-30 2002-08-13 Telcordia Technologies, Inc. Adaptive layered coding for voice over wireless IP applications
US6614936B1 (en) * 1999-12-03 2003-09-02 Microsoft Corporation System and method for robust video coding using progressive fine-granularity scalable (PFGS) coding
US6498852B2 (en) * 1999-12-07 2002-12-24 Anthony Grimani Automatic LFE audio signal derivation system
US6845163B1 (en) 1999-12-21 2005-01-18 At&T Corp Microphone array for preserving soundfield perceptual cues
DE60042335D1 (de) * 1999-12-24 2009-07-16 Koninkl Philips Electronics Nv Mehrkanal-audiosignalverarbeitungsgerät
US6782366B1 (en) * 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
TW507194B (en) * 2000-05-24 2002-10-21 Nat Science Council Variable-rate residual-transform vocoders using auditory perception approximation
JP2001339311A (ja) 2000-05-26 2001-12-07 Yamaha Corp オーディオ信号圧縮回路および伸長回路
US6850496B1 (en) 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US6973184B1 (en) 2000-07-11 2005-12-06 Cisco Technology, Inc. System and method for stereo conferencing over low-bandwidth links
US7236838B2 (en) * 2000-08-29 2007-06-26 Matsushita Electric Industrial Co., Ltd. Signal processing apparatus, signal processing method, program and recording medium
JP3426207B2 (ja) 2000-10-26 2003-07-14 三菱電機株式会社 音声符号化方法および装置
TW510144B (en) 2000-12-27 2002-11-11 C Media Electronics Inc Method and structure to output four-channel analog signal using two channel audio hardware
US6885992B2 (en) * 2001-01-26 2005-04-26 Cirrus Logic, Inc. Efficient PCM buffer
US20030007648A1 (en) * 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US7116787B2 (en) * 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
US6934676B2 (en) 2001-05-11 2005-08-23 Nokia Mobile Phones Ltd. Method and system for inter-channel signal redundancy removal in perceptual audio coding
US7668317B2 (en) * 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
TW544654B (en) * 2001-07-06 2003-08-01 Shyue-Yun Wan Method of eliminating noise on sound storage and regeneration system
JP2003044096A (ja) 2001-08-03 2003-02-14 Matsushita Electric Ind Co Ltd マルチチャンネルオーディオ信号符号化方法、マルチチャンネルオーディオ信号符号化装置、記録媒体および音楽配信システム
KR20040029113A (ko) * 2001-08-27 2004-04-03 더 리전트 오브 더 유니버시티 오브 캘리포니아 주파수-진폭-변조-인코딩(fame) 방법들을 사용하여음향 신호들을 개선하기 위한 장치/방법, 및 인공와우이식기
WO2003069954A2 (en) 2002-02-18 2003-08-21 Koninklijke Philips Electronics N.V. Parametric audio coding
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
WO2003094369A2 (en) 2002-05-03 2003-11-13 Harman International Industries, Incorporated Multi-channel downmixing device
US6940540B2 (en) * 2002-06-27 2005-09-06 Microsoft Corporation Speaker detection and tracking using audiovisual data
CN100539742C (zh) * 2002-07-12 2009-09-09 皇家飞利浦电子股份有限公司 多声道音频信号编解码方法和装置
BR0305555A (pt) 2002-07-16 2004-09-28 Koninkl Philips Electronics Nv Método e codificador para codificar um sinal de áudio, aparelho para fornecimento de um sinal de áudio, sinal de áudio codificado, meio de armazenamento, e, método e decodificador para decodificar um sinal de áudio codificado
JP4649208B2 (ja) * 2002-07-16 2011-03-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオコーディング
US7644001B2 (en) 2002-11-28 2010-01-05 Koninklijke Philips Electronics N.V. Differentially coding an audio signal
EP1595247B1 (en) * 2003-02-11 2006-09-13 Koninklijke Philips Electronics N.V. Audio coding
FI118247B (fi) 2003-02-26 2007-08-31 Fraunhofer Ges Forschung Menetelmä luonnollisen tai modifioidun tilavaikutelman aikaansaamiseksi monikanavakuuntelussa
EP1600984B1 (en) * 2003-03-03 2012-08-08 Mitsubishi Heavy Industries, Ltd. Cask, composition for neutron shielding body, and method of manufacturing the neutron shielding body
US20060171542A1 (en) 2003-03-24 2006-08-03 Den Brinker Albertus C Coding of main and side signal representing a multichannel signal
US7343291B2 (en) * 2003-07-18 2008-03-11 Microsoft Corporation Multi-pass variable bitrate media encoding
US20050069143A1 (en) * 2003-09-30 2005-03-31 Budnikov Dmitry N. Filtering for spatial audio rendering
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
US7761289B2 (en) * 2005-10-24 2010-07-20 Lg Electronics Inc. Removing time delays in signal paths

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002511683A (ja) * 1998-04-07 2002-04-16 ドルビー、レイ・ミルトン 低ビットレート空間符号化方法及び装置
WO2002029808A2 (en) * 2000-10-04 2002-04-11 University Of Miami Auxiliary channel masking in an audio signal
JP2004535145A (ja) * 2001-07-10 2004-11-18 コーディング テクノロジーズ アクチボラゲット 低ビットレートオーディオ符号化用の効率的かつスケーラブルなパラメトリックステレオ符号化
WO2003090208A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. pARAMETRIC REPRESENTATION OF SPATIAL AUDIO
WO2003090207A1 (en) * 2002-04-22 2003-10-30 Koninklijke Philips Electronics N.V. Parametric multi-channel audio representation
WO2004036548A1 (en) * 2002-10-14 2004-04-29 Thomson Licensing S.A. Method for coding and decoding the wideness of a sound source in an audio scene
JP2004193877A (ja) * 2002-12-10 2004-07-08 Sony Corp 音像定位信号処理装置および音像定位信号処理方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8504376B2 (en) 2006-09-29 2013-08-06 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP2010505328A (ja) * 2006-09-29 2010-02-18 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号をエンコーディング及びデコーディングする方法及び装置
US7979282B2 (en) 2006-09-29 2011-07-12 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US7987096B2 (en) 2006-09-29 2011-07-26 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
JP4787362B2 (ja) * 2006-09-29 2011-10-05 エルジー エレクトロニクス インコーポレイティド オブジェクトベースオーディオ信号をエンコーディング及びデコーディングする方法及び装置
US9792918B2 (en) 2006-09-29 2017-10-17 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US9384742B2 (en) 2006-09-29 2016-07-05 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8625808B2 (en) 2006-09-29 2014-01-07 Lg Elecronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8762157B2 (en) 2006-09-29 2014-06-24 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
US8463605B2 (en) 2007-01-05 2013-06-11 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
US8725279B2 (en) 2007-03-16 2014-05-13 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8712060B2 (en) 2007-03-16 2014-04-29 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US9373333B2 (en) 2007-03-16 2016-06-21 Lg Electronics Inc. Method and apparatus for processing an audio signal
JP2010521867A (ja) * 2007-03-16 2010-06-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置

Also Published As

Publication number Publication date
TWI427621B (zh) 2014-02-21
TW200636677A (en) 2006-10-16
WO2006060279A1 (en) 2006-06-08
EP1817767A1 (en) 2007-08-15
KR101215868B1 (ko) 2012-12-31
KR20070086851A (ko) 2007-08-27
JP5106115B2 (ja) 2012-12-26
US20080130904A1 (en) 2008-06-05
EP1817767B1 (en) 2015-11-11
US8340306B2 (en) 2012-12-25

Similar Documents

Publication Publication Date Title
JP5106115B2 (ja) オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
JP4856653B2 (ja) 被送出チャネルに基づくキューを用いる空間オーディオのパラメトリック・コーディング
JP5017121B2 (ja) 外部的に供給されるダウンミックスとの空間オーディオのパラメトリック・コーディングの同期化
CA2593290C (en) Compact side information for parametric coding of spatial audio
CA2582485C (en) Individual channel shaping for bcc schemes and the like

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111205

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120904

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121002

R150 Certificate of patent or registration of utility model

Ref document number: 5106115

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151012

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R360 Written notification for declining of transfer of rights

Free format text: JAPANESE INTERMEDIATE CODE: R360

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250