JP5895050B2 - 符号化された多チャンネルオーディオ信号を処理するオーディオ信号プロセッサ及びその方法 - Google Patents

符号化された多チャンネルオーディオ信号を処理するオーディオ信号プロセッサ及びその方法 Download PDF

Info

Publication number
JP5895050B2
JP5895050B2 JP2014516462A JP2014516462A JP5895050B2 JP 5895050 B2 JP5895050 B2 JP 5895050B2 JP 2014516462 A JP2014516462 A JP 2014516462A JP 2014516462 A JP2014516462 A JP 2014516462A JP 5895050 B2 JP5895050 B2 JP 5895050B2
Authority
JP
Japan
Prior art keywords
channel
encoded
audio signal
audio
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014516462A
Other languages
English (en)
Other versions
JP2014520473A (ja
JP2014520473A5 (ja
Inventor
アキ サカリ ハルマ
アキ サカリ ハルマ
アーノルドゥス ウェルナー ヨハネス オーメン
アーノルドゥス ウェルナー ヨハネス オーメン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV filed Critical Koninklijke Philips NV
Publication of JP2014520473A publication Critical patent/JP2014520473A/ja
Publication of JP2014520473A5 publication Critical patent/JP2014520473A5/ja
Application granted granted Critical
Publication of JP5895050B2 publication Critical patent/JP5895050B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)

Description

本発明は、オーディオ信号プロセッサ及びその処理方法に関連し、具体的には、次に限らないが、多チャンネル信号の同時レンダリングに関する。
過去数十年間において、オーディオ信号の提供の多様性及び柔軟性は急激に向上している。実際に、空間オーディオ、デジタルオーディオ符号化及び復号化、オーディオデバイスの小型化等の導入により、多くの様々な方法でオーディオ信号は消費されている。更に、付加的な機会及び機能性により、新しいユーザ経験及び使用シナリオが開発されている。
例えば複数のオーディオ源信号が同時にレンダリングされるが、空間的に分化されるオーディオデバイスが開発されている。このようなオーディオデバイスは、複数のオーディオ源信号を復号化して復号化された信号を提供し、復号化された信号は、次に、聴取者にはそれらの信号が様々な方向から発生しているように思われるように空間処理される。このようなオーディオプレイヤの例は、ハーマ(Harma)、A.及びS.バン・デ・パー(van de Par)による論文「ヘッドホンリスニング用のトランジション効果の空間追跡(Spatial Track Transition Effects for Headphone Listening)」(第10回デジタルオーディオ効果国際会議(DAFx10)、2007年、フランス、ボルドー)に記載される。
しかし、当該処理は、魅力的なユーザ経験を提供するが、付随する不利点もある。具体的には、当該処理の複雑度及び計算要件はかなり高い傾向があり、これにより、比較的パワフルな処理プラットフォームが必要となる。これは、費用及び電力消費量を増加し、消費者セグメントの小型ポータブルオーディオプレイヤには特に望ましくない。或いは、複雑度及び処理要件は、処理の質を妥協することにより又は処理可能なオーディオ源信号の数を制限することにより低減される。しかし、これではユーザ経験が悪化する。
したがって、改良されたアプローチが有利である。具体的には、柔軟性を高め、複雑度を低減し、計算要件を低減し、動作を容易にし、電力消費量を抑え、オーディオ品質を向上させ、ユーザ経験を高め、及び/又は、パフォーマンスを向上させるアプローチが有利である。
したがって、本発明は、好適には、上述した不利点のうちの1つ以上を、単独で又は任意の組み合わせで、軽減、緩和又は解消することを試みる。
本発明の一態様では、複数の符号化された多チャンネルオーディオ信号を受け取る受信器と、第1の符号化された多チャンネル信号を復号化して第1の復号化された多チャンネル信号を生成する多チャンネルデコーダと、複数の符号化された多チャンネルオーディオ信号のうちの少なくとも第2の符号化された多チャンネルオーディオ信号からオーディオ符号化データを、第2の符号化された多チャンネルオーディオ信号からのオーディオ符号化データを含む符号化された更なるオーディオ信号のチャンネル数が、第2の符号化された多チャンネル信号におけるチャンネル数より少ないように選択することによって、符号化された更なるオーディオ信号を生成する発生器と、符号化された更なるオーディオ信号を復号化することによって復号化された更なるオーディオ信号を生成する更なるデコーダと、少なくとも第1の復号化された多チャンネル信号と復号化された更なるオーディオ信号とを合成して多チャンネル出力信号を生成する合成器とを含む、オーディオ信号プロセッサが提供される。
本発明は、複数の符号化された多チャンネルオーディオ信号の処理を向上させる。具体的には、多くのシナリオにおいて、複雑度及び/又は計算リソースを低減される。複数の多チャンネルオーディオ信号からのオーディオを含む出力信号が、各多チャンネル信号のフル多チャンネル復号化を必要とすることなく生成される。計算リソース使用量が大幅に減少され、これにより、多数の多チャンネル信号が多チャンネル出力信号に含まれる。多くのシナリオにおいて、ユーザ経験が向上され、費用が削減され、及び/又は実施が容易にされる。
幾つかの実施形態では、オーディオ信号プロセッサは更に、例えばヘッドホンを使用する、多チャンネル出力信号をレンダリングする手段を含む。
符号化された多チャンネルオーディオ信号は、符号化されたステレオ信号である。幾つかの実施形態では、複数の符号化された多チャンネルオーディオ信号の多チャンネル信号は、同数のチャンネル、具体的には、符号化されたステレオ信号を有する。
符号化された更なるオーディオ信号は、第2の符号化された多チャンネルオーディオ信号より少ない数のチャンネルを有する多チャンネル信号である。他の実施形態では、符号化された更なるオーディオ信号は、第2の符号化された多チャンネルオーディオ信号と同数の又はより多くのチャンネルを有するが、第2の符号化された多チャンネルオーディオ信号からの符号化データは、これらのチャンネルのサブセットにのみ含まれ、当該サブセットは、第2の符号化された多チャンネルオーディオ信号より少ない数のチャンネルを含む。
発生器は、第2の符号化された多チャンネルオーディオ信号のオーディオ源を表す符号化されたオーディオデータのチャンネル数を削減する。具体的には、発生器は、第2の符号化された多チャンネルオーディオ信号のチャンネルのうちの1つ以上のチャンネルを切り捨てる。
第2の符号化された多チャンネル信号は、通常、第1の符号化された多チャンネル信号とは異なる。
本発明の任意選択的なフィーチャによれば、発生器は、第2の符号化された多チャンネル信号の単一のチャンネルからオーディオ符号化データを選択することによって、符号化された更なるオーディオ信号の第1のチャンネルを生成する。
これは、実施を容易にし、複雑さを低減し、及び/又は、計算リソースを削減する。具体的には、これにより、オーディオデータの複雑度の低い抽出/選択が可能となり、また、符号化データの任意の処理を不要にする。発生器は、符号化された更なるオーディオ信号を生成する際、単一のチャンネルのみからの符号化データを選択し、第2の符号化された多チャンネルオーディオ信号の他のチャンネルはすべて無視するか切り捨てる。
第1のチャンネルは、第2の符号化された多チャンネルオーディオ信号の単一のチャンネルのみからの符号化データを含む。
本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号は、多チャンネル信号であり、発生器は、第3の符号化された多チャンネル信号の単一のチャンネルからオーディオ符号化データを選択することによって、符号化された更なるオーディオ信号の第2のチャンネルを生成する。
符号化された更なるオーディオ信号は、複数の符号化された多チャンネル信号からの符号化データを含む。具体的には、符号化された更なるオーディオ信号は、第1の符号化された多チャンネル信号と同数のチャンネルを有するが、チャンネルのサブセットは、異なる符号化された多チャンネル信号から選択される多チャンネル信号である。
更なるデコーダは、多チャンネルデコーダであり、様々な符号化された多チャンネル信号からのチャンネルを含む符号化された更なるオーディオ信号の単一の多チャンネル復号化を行う。したがって、単一の多チャンネル復号化は、複数の受け取られた符号化された多チャンネル信号からのオーディオを同時に復号化する。更なるデコーダは、第1の符号化された多チャンネル信号を復号化するために使用される多チャンネルデコーダと同じでもよい。
本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号の単一のチャンネルの符号化されたオーディオデータは、第2の符号化された多チャンネル信号の単一のチャンネルの符号化されたオーディオデータと同一である。
これにより、特に効率的で、かつ、通常は、低複雑度で、及び/又は、低計算リソースの実施が可能となる。幾つかの実施形態では、符号化された更なるオーディオ信号の単一のチャンネルは、単に、第2の符号化された多チャンネル信号の単一のチャンネルからすべてのオーディオ符号化データをコピーすることによって生成される。
本発明の任意選択的なフィーチャによれば、第2の符号化された多チャンネル信号の単一のチャンネルは、中央−側方ステレオ信号用の中央チャンネル、左右ステレオ信号用の左チャンネル、及び左右ステレオ信号用の右チャンネルのうちの少なくとも1つである。
これは、特に有利な動作、性能及び/又は実施を提供する。具体的には、これにより、低複雑度及びリソース要件の低い実施が可能にされる一方で、非常に有利なユーザ経験が提供される。
本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号は、モノ信号である。
これは、特に有利な動作、性能及び/又は実施を提供する。具体的には、これにより、低複雑度及びリソース要件の低い実施が可能にされる一方で、非常に有利なユーザ経験が提供される。
本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号は、複数の符号化された多チャンネルオーディオ信号のうちの様々な符号化された多チャンネルオーディオ信号からのオーディオ符号化データを含む様々なチャンネルを有する多チャンネル信号である。
これは、特に有利な動作、性能及び/又は実施を提供する。具体的には、これにより、低複雑度及びリソース要件の低い実施が可能にされる一方で、非常に有利なユーザ経験が提供される。このアプローチは、多くのシナリオにおいて、複数の様々な音源に対応するオーディオを同時に復号化する多チャンネルデコーダを使用することによって特に効率的な動作を可能にする。
本発明の任意選択的なフィーチャによれば、符号化された更なるオーディオ信号の各チャンネルは、様々な符号化された多チャンネルオーディオ信号のうちの1つの信号の1つのチャンネルに対応する。
これにより、特に効率的な実施が可能となる。
本発明の任意選択的なフィーチャによれば、発生器は、複数の符号化された多チャンネルオーディオ信号から符号化された更なるオーディオ信号の1つのチャンネル用のオーディオ符号化データを選択する。
これにより、効率的な実施が可能となり、また、具体的には、多くのシナリオにおいて、必要とされる復号化計算要件を実質的に低減される。符号化された更なるオーディオ信号の単一のチャンネルが、様々な符号化された多チャンネルオーディオ信号からの2つ(以上)のチャンネルから符号化データを選択することによって生成される。符号化データの当該選択は、例えば連続する符号化セグメントにおいて2つの符号化された多チャンネルオーディオ信号間で交互に行われてもよい。幾つかのシナリオでは、複数の符号化された多チャンネルオーディオ信号のチャンネルのうちの少なくとも1つのチャンネルのオーディオ符号化データの特徴に依存する選択といったより複雑な選択が適用される。例えば最も強い信号に対応する符号化データが選択される。
本発明の任意選択的なフィーチャによれば、発生器は、符号化された更なるオーディオ信号の符号化されたオーディオデータに対応するように第2の符号化された多チャンネルオーディオ信号の符号化制御データを変更することによって、符号化された更なるオーディオ信号用の符号化制御データを生成する。
これは、動作を容易にし、また、標準的なデコーダ機能といった標準的な機器が符号化された更なるオーディオ信号を処理できるようにする。例えばデータ転送速度を示すヘッダ情報が、オリジナルの符号化された多チャンネルオーディオ信号のデータから、符号化された更なるオーディオ信号を生成する際のオーディオ符号化データの選択を反映する値に変更される。例えばオリジナルの符号化された多チャンネルオーディオ信号は、中央−側方信号であり、符号化された更なるオーディオ信号はステレオ信号として生成され、各信号は、2つの異なる符号化された多チャンネルオーディオ信号の中央チャンネルの符号化データを含む。この場合、符号化された更なるオーディオ信号のデータ転送速度は、2つの中央−側方の符号化された多チャンネルオーディオ信号よりも高く、ヘッダデータは、これを反映するように変更される。
本発明の任意選択的なフィーチャによれば、オーディオ信号プロセッサは、ユーザ入力を受け取るユーザインターフェースと、仮想ユーザ位置と、複数の符号化された多チャンネルオーディオ信号に関連付けられた仮想空間音源位置とを表す空間モデルとを更に含み、発生器は、空間モデルに呼応して、第1の符号化された多チャンネル信号と、第2の符号化された多チャンネルオーディオ信号とを選択する。
これにより、複雑度は低い状態で非常に魅力的なユーザ経験が提供される。具体的には、復号化に必要とされる複雑度は低いため、より多くの仮想音源位置がモデルにレンダリングされ、これにより、ユーザ経験が向上される。
幾つかの実施形態では、ユーザインターフェースは、空間モデルの表現を提示するディスプレイを含む。
本発明の任意選択的なフィーチャによれば、合成器は、空間モデルに呼応して、少なくとも復号化された更なるオーディオ信号に空間処理を適用する。
これは、モデルの空間表現が聴覚的に提供されることで非常に有利なユーザ経験を提供する。
具体的には、ユーザインターフェースが、空間モデルの表現を提示するディスプレイを含む場合、音声と視覚とが組み合わされた空間ユーザ経験が提供される。更に、これは、同時に空間レンダリングされるべきすべての音源のフル復号化を必要とすることなく達成される。したがって、符号化された更なるオーディオ信号の生成は、復号化の複雑度及びリソース使用量を低減するだけでなく、空間レンダリングを容易にし、かつその複雑度及びリソース使用量も低減する。
本発明の任意選択的なフィーチャによれば、復号化された更なるオーディオ信号は、多チャンネル信号であり、空間処理は、空間モデルの様々な仮想空間音源位置に対応するように復号化された更なるオーディオ信号の様々なチャンネルを空間処理することを含む。
これは、モデルの空間表現が聴覚的に提供されることで非常に有利なユーザ経験を提供する。
本発明の任意選択的なフィーチャによれば、発生合成器は、仮想ユーザ位置と、第2の符号化された多チャンネルオーディオ信号に関連付けられた仮想空間音源位置との距離に呼応して、第2の符号化された多チャンネルオーディオ信号を選択する。
これは、モデルの空間表現が聴覚的に提供されることで非常に有利なユーザ経験を提供する。
本発明の一態様によれば、オーディオ信号を処理する方法であって、複数の符号化された多チャンネルオーディオ信号を受け取るステップと、第1の復号化された多チャンネル信号を生成するように、第1の符号化された多チャンネル信号を復号化するステップと、複数の符号化された多チャンネルオーディオ信号のうちの少なくとも第2の符号化された多チャンネルオーディオ信号からオーディオ符号化データを、第2の符号化された多チャンネルオーディオ信号からのオーディオ符号化データを含む符号化された更なるオーディオ信号のチャンネル数が、第2の符号化された多チャンネル信号におけるチャンネル数より少ないように選択することによって、符号化された更なるオーディオ信号を生成するステップと、符号化された更なるオーディオ信号を復号化することによって復号化された更なるオーディオ信号を生成するステップと、多チャンネル出力信号を生成するように、少なくとも第1の復号化された多チャンネル信号と復号化された更なるオーディオ信号とを合成するステップと、を含む方法が提供される。
本発明のこれらの及び他の態様、フィーチャ及び利点は、以下に説明される実施形態を参照して明らかとなろう。
本発明の実施形態をほんの一例として図面を参照して以下に説明する。
図1は、本発明の幾つかの実施形態によるオーディオ信号プロセッサの構成要素の一例を示す。 図2は、本発明の幾つかの実施形態によるオーディオ信号プロセッサ用の信号合成器の構成要素の一例を示す。 図3は、本発明の幾つかの実施形態によるオーディオ信号プロセッサの構成要素の一例を示す。 図4は、オーディオアイテムのコレクションの空間モデルの視覚的表現の一例を示す。
以下の説明では、ポータブルオーディオプレイヤといったオーディオプレイヤによるステレオオーディオアイテムのレンダリングに適用可能な本発明の実施形態に重点を置く。しかし、当然ながら、本発明はこの用途に限られず、多くの他のオーディオ信号及びシステムにも適用される。
図1は、本発明の幾つかの実施形態によるオーディオ信号プロセッサの一例を示す。
図1のオーディオ信号プロセッサは、特に、複数の音源に対応する複数の符号化された多チャンネル信号を処理する。具体的には、複数の符号化された入力多チャンネル信号からのオーディオ成分を含む出力信号が生成される。符号化された多チャンネルオーディオ信号のそれぞれは、1つの符号化されたオーディオファイル(例えばMP3符号化された曲)といった1つのオーディオアイテム又はエンティティである。
具体例では、様々な音源/オーディオアイテムが、結果として得られる信号におけるそれらの空間特性に基づいて分化されるように、空間処理が更に導入される。例えば様々な曲が、それらが様々な方向から発生していると知覚されるようにレンダリングされる。
したがって、図1のシステムでは、聴取者が複数の同時音源を有するリスニング環境を知覚するように、複数の入力信号から、複合出力信号が生成される。例えば多数の例えばMP3符号化された曲が同時に提示される。したがって、聴取者には複数の同時オーディオアイテムが提供される。
従来では、同時多チャンネル信号のレンダリングは、すべての多チャンネル信号を、後続の、復号化された多チャンネル信号のチャンネル毎のミキシングで復号化することにより達成される。例えば受信した2つの符号化されたステレオ信号を同時レンダリングする場合、通常、復号化されたステレオ信号を生成するために、2つのステレオデコーダが使用される。次に、左出力チャンネルを生成するために、2つの復号化された左チャンネルがミキシングされる。同様に、右出力チャンネルを生成するために、2つの復号化された右チャンネルがミキシングされる。しかし、このようなアプローチは、計算要件が高く、また、比較的複雑である。実際に、多くの用途において、恐らく3又は4つの同時にレンダリングされる音源/オーディオアイテムを有することが望ましいため、3又は4つの同時多チャンネルデコーダが必要となる。しかし、付随する計算要件は、通常、例えばポータブル媒体又はオーディオプレイヤといった例えばポータブル用途で通常利用可能な計算要件よりも実質的に高い。実際に、このようなデバイスでは、通常、同時に動作可能なデコーダの数に制限(例えば3)がある。
発明者は、複数の多チャンネル音源が聴取者に同時に提示される多くの用途において、主音源をフル多チャンネルレンダリングで提供する一方で、他の音源は、チャンネル数を少なくしてレンダリングされること、具体的には、多くのシナリオにおいて、モノ信号としてレンダリングされることが許容される又は有利であることに気が付いた。図1のシステムは、この事実を、当該出力信号を生成する特定のアプローチと併せて利用し、複雑度及び計算リソースを実質的に低減する。具体的には、図1のシステムは、入力された多チャンネル信号の1つ(以上)をフル多チャンネル信号としてレンダリングされるように選択し、これには、フル多チャンネル復号化及び適切な処理の適用が含まれる。しかし、その他の多チャンネル信号については、復号化の前に、当該多チャンネル信号のオーディオ符号化データを直接操作することによって、チャンネル数の削減が行われる。結果として得られる符号化されたチャンネルのみが次に復号化される。通常、復号化に関連付けられる複雑度及びリソース要件が全体の複雑度及びリソース使用量に最も大きな影響を及ぼす要因の1つであるため、上記は、全体の複雑度及び計算リソース使用量にかなり大幅な低減をもたらす。
図1のオーディオ信号プロセッサは、複数の符号化された多チャンネルオーディオ信号を受け取る受信器101を含む。したがって、多数の入力信号が受け取られ、各入力信号は、1つの音源を表す多チャンネル信号である。本実施例では、各入力信号は、個別のオーディオアイテム、具体的には、曲といったオーディオファイルである。本実施例では、入力信号は、別個の、且つ、非関連の音源を表す。したがって、各入力信号は、その他の入力信号の音ステージ又は環境とは無関係の音ステージ又は環境を表す。したがって、入力信号間には、空間的、オーディオ的及び/又は知覚的相関関係はないが、これらの入力信号は、どの他の入力信号も考慮することなく、個別にレンダリングされる。
更に、各入力信号は、適切な符号化標準又はアルゴリズムに従って符号化される。例えばデータは、MP3、AAC等の符号化に従って符号化される。具体的には、符号化は多チャンネルオーディオ信号の損失が伴う知覚符号化である。
入力された多チャンネル信号は、ステレオ信号であるか、又は、例えば5若しくは7チャンネルサラウンド信号の場合は、より多くのチャンネルを含む。以下の説明では、入力信号がステレオ信号である例に重点を置くが、当然ながら、説明される原理及びアプローチは、より多くのチャンネルを有する入力信号にも同等に適用される。
本実施例では、入力信号は、具体的には、MP3又はAAC符号化された曲といった多数の符号化されたオーディオファイルを記憶した内部の記憶媒体から受け取られる。本実施例における受信器101は、記憶媒体からオーディオファイルを抽出する機能を有する。当該記憶媒体は、例えばハードディスク又は半永久メモリである。記憶媒体からのファイルの抽出は、適切なユーザインターフェースを介して受け取られるユーザ選択によって制御される。
別の例として、入力信号は、例えばインターネット上のソースからストリーミングされるか、又は、デジタルラジオ放送を介して受け取られるリアルタイム信号である。入力信号は更に、同じソースから受け取られても、例えば別個の独立したソースから受け取られてもよい。
受信器101は選択器103に結合され、選択器103には、受け取られた(当該具体例では抽出された)符号化された多チャンネル信号が供給される。図1のシステムは、入力された符号化された多チャンネル信号のうちの1つがフル多チャンネル信号として含まれる一方で、その他の符号化された多チャンネル信号がチャンネル削減信号として含まれる多チャンネル出力信号を生成する。したがって、N個のチャンネルを有する1つの入力符号化された多チャンネル信号(以下、一次信号と呼ぶ)について、出力信号は、N個すべてのチャンネルを含む。しかし、残りの符号化された多チャンネル信号については、出力信号には、M個のチャンネル表現のみが含まれる。ここで、M<Nである。具体例では、符号化された多チャンネル信号は、符号化されたステレオ信号であり、オーディオ信号プロセッサは、入力信号のうちの1つがステレオ信号として提供される一方で、その他の信号はモノ信号としてのみ含まれる出力ステレオ信号を生成する。
具体的には、選択器103は1つの一次信号を選択する。残りの符号化された多チャンネル信号は、以下、二次信号と呼ぶ。
選択器103は、多チャンネルデコーダ105に結合され、多チャンネルデコーダ105には符号化された一次信号が供給される。多チャンネルデコーダ105は、一次符号化済み多チャンネル信号を復号化して、一次復号化済み多チャンネル信号を生成する。具体例では、符号化された一次信号はステレオ信号であり、多チャンネルデコーダ105は、復号化されたステレオ信号を生成するステレオデコーダである。
多チャンネルデコーダ105は、出力プロセッサ107に結合され、出力プロセッサ107は、一次復号化済み多チャンネル信号を含む多チャンネル出力信号を生成する。
選択器103は更に、発生器109に結合され、発生器109には二次符号化済み多チャンネル信号が供給される。発生器109は、二次符号化済み多チャンネル信号のうちの1つ以上の信号からオーディオ符号化データを選択することによって、少なくとも1つのチャンネルが削減された符号化されたオーディオ信号を生成する。チャンネルが削減された符号化されたオーディオ信号は、二次符号化済み多チャンネル信号のうちの1つ以上の信号のオーディオ符号化データから生成される。しかし、チャンネルが削減された符号化されたオーディオ信号におけるチャンネル数は、チャンネルが削減された符号化された多チャンネル信号を生成するために使用される二次符号化済み多チャンネル信号のチャンネルの合計よりも少ない。したがって、チャンネルが削減された符号化された多チャンネル信号に含まれる二次符号化済み多チャンネル信号のうち少なくとも1つの信号につき、チャンネル数は削減される。
したがって、発生器109は、二次符号化済み多チャンネル信号からのオーディオ信号を表すために使用されるチャンネル数を減らす。更に、この削減は、二次符号化済み多チャンネル信号の符号化データからのオーディオ符号化データの選択によって達成される。したがって、チャンネルが削減された符号化されたオーディオ信号を生成するために単純なデータ移動、選択、及び組み合わせ演算が使用され、基礎となるオーディオ信号の復号化又は他の処理は必要としない。したがって、複雑でなく、多くのリソース要件を必要とすることなく、チャンネルを削減できる。
発生器は、第2のデコーダ111に結合され、第2のデコーダ111にはチャンネルが削減された符号化されたオーディオ信号が供給される。第2のデコーダは、以下、二次復号化済み信号と呼ぶチャンネルが削減された復号化された多チャンネル信号を生成するように、チャンネルが削減された符号化されたオーディオ信号を復号化し始める。
第2のデコーダ111は、出力プロセッサ107に結合され、出力プロセッサ107には二次復号化済み信号が供給される。出力プロセッサ107は、当該二次復号化済み信号を、多チャンネル出力信号に含める。したがって、多チャンネル出力信号は、復号化された一次信号と復号化された二次信号との組み合わせとして生成される。
複雑度の低い例として、出力プロセッサ107は、復号化された一次信号と、復号化された二次信号とのオーディオミキシングを単に行ってもよい。例えば復号化された一次信号の1つのチャンネルが、復号化された二次信号の1つのチャンネルとミキシングされる。二次信号が多チャンネル信号である場合、復号化されたオーディオ信号の各チャンネルが復号化された一次信号の1つのチャンネルとミキシングされるように、すべてのチャンネルについて、ミキシングは繰り返される。
したがって、出力プロセッサ107は、フル多チャンネル信号として表現される一次オーディオ源と、チャンネル削減信号として表現される1つ以上の二次オーディオ源とを含む多チャンネル出力信号を生成する。具体例として、1つの一次ステレオ入力源が、フルステレオ表現として表現される一方で、2つの二次ステレオ入力源が、2つのモノ表現として同時に表現される。本実施例では、2つの二次源は、左右の耳には、それぞれ、局在するように知覚される一方で、一次信号は、音ステージ全体を占める。
幾つかの実施形態では、出力回路107は、多チャンネル信号のオーディオ信号をレンダリングする適切な手段を駆動可能な多チャンネル信号を直接生成する。例えば出力回路107は、一対のヘッドホンを駆動するステレオ信号を直接生成しても、例えば5チャンネルサラウンドサウンドシステムの様々なスピーカ用の5つの空間チャンネルを生成してもよい。その他のシナリオでは、出力回路107は、他の機能、デバイス又は機器による処理及びレンダリングのための信号を単に生成する。実際に、幾つかの実施形態では、出力回路107は、出力多チャンネル信号を符号化し、これにより、出力多チャンネル信号が容易に通信、分配又は記憶されるようにする機能を含む。
本発明の発明者は、特に、複数のオーディオ源を同時にレンダリングする一方で、複雑度及びリソース要件を低減することによって、魅力的なユーザ経験が達成可能であることに気が付いた。具体的には、発明者は、1つの音源(又は音源のサブセット)をフル多チャンネル表現に維持する一方で、他の音源の多チャンネル性を低減することによって、魅力的なユーザ経験が達成可能であることに気が付いた。このことは、例えば一次音源を二次音源に対して強調する魅力的なユーザ経験を提供するだけでなく、複雑度を低減するためにも利用できる。実際に、発明者は、オーディオ符号化データの選択に基づく二次信号の符号化領域(予備復号化)チャンネル削減を、特定のレンダリングアプローチに活かすことによって、複雑度/計算負荷を大幅に低減することができることに気が付いた。具体的には、システムは、信号の復号化に必要なリソースを低減する。復号化演算の計算要件は、大抵の場合、オーディオ処理ユニット(特に、ポータブルオーディオプレイヤといった低リソースデバイス)には支配的なリソース負荷であるため、多くの場合、システムの全負荷が、全体として、実質的に低減される。
多くのシナリオにおける発生器109のチャンネル削減は、二次符号化済み多チャンネル信号のうちの1つの信号のチャンネルのうちの1つのチャンネルのオーディオデータを含むように、チャンネルが削減された符号化されたオーディオ信号のチャンネルを生成することを含む。したがって、幾つかの実施形態では、発生器109は、単に、1つの二次符号化済み多チャンネル信号の単一のチャンネルのすべてのオーディオ符号化データを選択し、それを、チャンネルが削減された符号化されたオーディオ信号の単一のチャンネルに含める。したがって、簡単なビット選択を使用して、チャンネルが削減された符号化されたオーディオ信号を生成できる。
単一のチャンネルは、コンテンツにおけるオリジナルのオーディオチャンネルのうちの1つ、又は、オーディオコーダのタイプに依存して、これらの幾つかの線形結合(linear combination)を表す。例えば一般的なステレオオーディオコーダは、オリジナルの左右の信号の代わりに、左右の入力オーディオチャンネルの和及び差信号を符号化する。この場合、発生器109は、例えば和信号のみを選択する。
したがって、幾つかの実施形態では、チャンネルが削減された符号化されたオーディオ信号の1つのチャンネルは、二次符号化済み多チャンネル信号のうちの1つの信号の単一のチャンネルと同一の符号化されたオーディオデータを含む。チャンネルが削減された符号化されたオーディオ信号は、1つ以上の二次符号化済み多チャンネル信号からの単純なチャンネル選択によって生成される。このチャンネル選択は、利用可能なチャンネルのサブセットを選択し、幾つかのチャンネルを切り捨て、これにより、チャンネルの全体的な削減がもたらされる。
当然ながら、チャンネルが削減された符号化されたオーディオ信号の符号化されたオーディオデータが、二次符号化済み多チャンネル信号の1つ以上のチャンネルからオーディオ符号化データを取ることにより単に選択される実施形態では、オーバーヘッドデータ、コントロールデータ、フォーマットデータ等といった他のデータは、変更される(又は、転送されない。即ち、新しいデータが生成される)。したがって、幾つかの実施形態では、基礎となるオーディオ信号を記述する符号化されたオーディオデータのみが抽出される一方で、オーバーヘッドデータは、チャンネルが削減された符号化されたオーディオ信号には転送されないか、又は、その過程で変更される。
具体例として、発生器109は、単一の二次符号化済み多チャンネル信号を受け取り、当該二次符号化済み多チャンネル信号のチャンネルのうちの1つのチャンネルを単に選択することによって、モノ信号を生成し始める。具体的には、二次符号化済み多チャンネル信号は、ステレオ信号であり、発生器は、当該ステレオ信号を、その信号の1つのチャンネルを選択することによって、モノ信号に下げる。
具体的には、二次符号化済み多チャンネル信号は、中央−側方(mid-side)信号として符号化されるステレオ信号であり、発生器109は、中央チャンネル(mid-channel)を選択することによって、モノ符号化されたオーディオ信号を生成する。これにより、非空間オーディオ情報のほとんどを含み、したがって、許容できない情報損失なくモノ信号としてレンダリングするのに特に適しているモノ信号がもたらされる。
二次符号化済み多チャンネル信号が、左右信号として符号化されたステレオ信号であるシナリオにおいて、発生器109は、左チャンネル及び右チャンネルのどちらかを選択することによってモノ符号化されたオーディオ信号を生成する。これは、ランダムに、又は、信号の特性に基づいて行われる。例えば最大平均振幅を有する信号が選択される。
したがって、幾つかの実施形態では、発生器109は、二次符号化済み多チャンネル信号のうちの1つの信号のチャンネルを単に選択し、符号化されたモノ信号が生成される。当該信号は次にモノデコーダによって復号化され、復号化されたモノ信号が生成される。当該復号化されたモノ信号は、一次復号化済み多チャンネル信号と合成される。したがって、デコーダ111は、単純なモノデコーダであってよい。モノデコーダの複雑度及びリソース使用量は、ステレオデコーダを含む多チャンネルエンコーダよりも実質的に低いので、複雑度及びパワーが極めて大幅に低減される。
このアプローチは更に、単一の二次符号化済み多チャンネル信号に限られない。むしろ、複数の二次符号化済み多チャンネル信号が、個別に、符号化されたモノ信号に変換される。符号化されたモノ信号のぞれぞれは、個別に復号化され、復号化されたモノ信号が生成される。複数の復号化されたモノ信号は、次に、一次復号化済み多チャンネル信号とミキシングされる。
具体例として、3つの符号化されたステレオ信号が同時にレンダリングされる。1つのステレオ信号が、ステレオ信号として復号化され、ステレオ信号としてレンダリングされる。2つの他のステレオ信号については、当該信号を符号化されたモノ信号に下げるために、符号化された領域チャンネル削減が行われる。モノエンコーダは、これらの信号を復号化し、結果として得られる復号化された信号は、それぞれ、左右の出力チャンネルに追加される。したがって、ユーザの各耳には、1つのフルメインステレオ信号と1つのモノ信号が合わされた同時レンダリングが提示される。
幾つかの実施形態では、チャンネルが削減された符号化されたオーディオ信号は、複数の符号化された多チャンネル信号からの貢献を含むように生成される。具体的には、チャンネルが削減された符号化されたオーディオ信号自体は、複数の二次符号化済み多チャンネル信号から生成された多チャンネル信号である。具体的には、チャンネルが削減された符号化されたオーディオ信号の各チャンネルは、1つの二次符号化済み多チャンネル信号からの1つのチャンネルを選択することによって生成される。例えば発生器109は、上述したように2つのモノ信号を生成するのではなく、1つの二次符号化済み多チャンネル信号から1つのチャンネルを、異なる符号化された多チャンネル信号から1つのチャンネルを選択することによって、符号化されたステレオ信号を生成する。結果としてられるステレオ信号は、次に、ステレオデコーダ(即ち、第2のデコーダ111はステレオデコーダである)によって復号化される。具体的には、多チャンネルデコーダ105及び第2のデコーダ111は、一次多チャンネル信号とチャンネルが削減された符号化されたオーディオ信号とを連続して復号化する同じデコーダとして実施される。結果として得られる復号化された二次ステレオ信号は、次に、一次復号化済みステレオ信号と、例えば単に2つのステレオ信号を合計することによって、ミキシングされる。
幾つかの実施形態では、チャンネルが削減された符号化されたオーディオ信号は、したがって、発生器109が、二次符号化済み多チャンネル信号のうちの1つの信号の1つのチャンネルからオーディオ符号化データを選択することによって第1のチャンネルを、二次符号化済み多チャンネル信号のうちの別の信号の1つのチャンネルからオーディオ符号化データを選択することによって第2のチャンネルを生成することによって作成された多チャンネル信号である。
より具体的には、2つの中央−側方符号化された信号の中央信号(mid signals)(即ち、オリジナルのステレオアイテムにおける左右のチャンネルの合計)の符号化された表現は、単一のステレオ信号の2つのチャンネルに含まれる。このオーディオ符号化データは、例えばブランデンブルク(Brandenburg)、K.による「{ISO−MPEG−1}オーディオ:高品質デジタルオーディオの符号化のための共通標準(A Generic Standard for Coding of High-Quality Digital Audio)」(ジャーナル・オブ・ザ・オーディオエンジニアリング・ソサイティ(Journal of the Audio Engineering Society)、1994年、42号:780〜792頁、MPEG−IレイヤIII符号化(MP3)データの場合)にMP3について説明されるような適切なデータヘッダ及び/又は及び符号化されたビットストリームの各定義によって示されるように、信号のステレオビットストリームの一部として記憶される。
次に、2つの入力オーディオ信号からの中央チャンネルデータストリームのオーディオ符号化データは、チャンネルが削減された符号化されたオーディオ信号を表す新しいビットストリームコンテナの左右のデータフィールドに付加される。入力信号が中央−側方符号化されておらず、左右符号化されている場合、発生器109は、代わりに、各入力ビットストリームから左又は右チャンネルのどちらかからのオーディオ符号化データを単に選択する。
幾つかの実施形態では、発生器109は更に、符号化された更なるオーディオ信号の符号化されたオーディオデータに対応するように二次符号化済み多チャンネルオーディオ信号の符号化制御データを変更する。符号化制御データは、基礎となるオーディオ信号を表すのではなくチャンネルが削減された符号化されたオーディオ信号自体の特徴を定義するオーバーヘッドデータである。符号化制御データは、例えば(例えばビットストリーム中の様々なデータの位置を定義するデータといった)メタデータ、データ転送速度、使用されるオプション等である。
具体例として、2つの中央−側方ステレオ信号のうちの2つの中央信号の符号化データ転送速度は、通常、2つの中央−側方ステレオ信号のそれぞれのデータ転送速度より相当に高い。これは、中央チャンネルのデータ転送速度は、通常、側方チャンネルよりも相当に高いからである。したがって、発生器は、現在のデータ転送速度を示すチャンネルが削減された符号化されたビットストリームのデータを、チャンネルが削減された符号化されたオーディオ信号の結果として得られるデータ転送速度に対応するように変更(設定)する。
したがって、チャンネルが削減された符号化されたオーディオ信号は、オーディオ符号化標準に従って符号化されたオーディオ信号に対応するように生成される。当該オーディオ符号化標準は、具体的には、入力された符号化された多チャンネル信号と同じ符号化標準である。これにより、チャンネルが削減された符号化されたオーディオ信号は任意の他の符号化されたオーディオ信号のように取り扱われ、また、特に、標準デコーダが第2のデコーダ111として使用される。
幾つかの実施形態では、発生器109は、複数の符号化された多チャンネルオーディオ信号からの符号化された更なるオーディオ信号の1つのチャンネルに対し、符号化データを選択する。したがって、幾つかの実施形態では、チャンネルが削減された符号化されたオーディオ信号の単一のチャンネルは、2つ以上の二次符号化済み多チャンネル信号からのオーディオ符号化データを合成することによって生成される。含めるべきオーディオ符号化データの選択は、時間及び/又は周波数セグメントにおいて行われ、当該選択は、各セグメントにおけるオーディオ符号化データの特徴に基づく。
具体的には、2つ以上の二次オーディオ信号のそれぞれのチャンネルは、発生器109によって、チャンネルが削減されたオーディオストリームの単一のチャンネルへとそれらの符号化表現において合成される。これは、個々のビットストリームのオーディオ符号化データを、共通のビットストリームへコピーする演算として行われる。1つの可能な実施形態では、合成は、各符号化されたサブバンド(符号化されたビットストリームにおけるスケールファクタバンド係数の値によって表される)における信号のエネルギーが、どの入力オーディオ信号が新しいビットストリームに入れるのかを決定するために使用されるように行われる。
幾つかの実施形態では、オーディオ信号プロセッサは、復号化されたオーディオ信号のうちの少なくとも1つの信号に空間処理を適用する機能を含む。空間処理は、通常、復号化されたオーディオ信号が互いにミキシングされる前に、当該復号化されたオーディオ信号に適用される。空間処理は、ユーザによって知覚された場合に、様々なチャンネルを様々な位置に知覚的に位置付けるように適用される。
図2は、二次音源用に空間処理を行う図1の合成器107の一例を示す。本実施例では、復号化された一次オーディオ信号(y、y)は、空間処理されていないが、ミキサ201に直接供給される。ミキサ201は、加重和(又は単に加重)の形式でミキシングを行う。復号化された一次オーディオ信号(y、y)は、ステレオ出力信号(o、o)に直接含められ、したがって、ユーザには、オリジナルの符号化されたステレオ信号の空間的ステレオ経験が提供される。
しかし、本実施例では、二次復号化済みオーディオ信号(x、x)の各チャンネルは、これらのチャンネルがオーディオシーンにおいて所与の位置から発生するものと知覚されるように空間処理される。空間処理は変更されてもよく、これにより、合成器107は、知覚される単一点のモノ音源を所望の位置に動かすことができる。
本実施例では、出力信号は、ヘッドホンを使用してレンダリングされ、また、2つの二次オーディオ源のみがレンダリングされる。合成器107は、復号化された二次オーディオ信号の1つのチャンネルを受け取る第1の空間プロセッサ203と、復号化された二次オーディオ信号の別のチャンネルを受け取る第2の空間プロセッサ205とを含む。空間プロセッサ203及び205は、具体的には、頭部伝達関数(HRTF)を様々なチャンネルに適用し、結果として、所与の位置から発生するものと知覚される出力信号がもたらされる。したがって、各空間プロセッサ203、205は、オーディオ源の所望の位置に対応するステレオ出力信号を生成する。これらのステレオ出力信号は、ミキサ201に供給される。ミキサ201は、これらのステレオ出力信号を、一次復号化済みステレオ信号とミキシングする。したがって、ミキサ201の出力は、オリジナルのステレオ信号として維持された一次ステレオ信号を含み、したがって、より広いステレオ音ステージを有する空間オーディオ信号である。更に、2つの単一点オーディオ源が、任意の所望の位置から来たものと思われるように空間的に移動可能な位置において生成される。
したがって、当該システムは、複数のオーディオ源の同時レンダリングを提供する(例えば当該システムは、複数のオーディオアイテムを同時再生できる)システムであり、オーディオアイテムのうちの1つ(又はそのサブセット)のみがフルステレオ再生でレンダリングされる。レンダリングされる他のオーディオアイテムはすべて、空間的に位置付けられ、モノ音響音源としてレンダリングされる。発明者は、このようなアプローチが多くのシナリオにおいて非常に有利なユーザ経験を提供するだけでなく、更に非常に効率的な処理も達成されることに気が付いた。実際に、当該システムは、当該見識を利用して、予備復号化チャンネル削減が行われ、これにより復号化処理の複雑度又は当該処理に使用されるリソースが低減されるシステムを更に作り出す。これは、計算及びメモリ要件、更には既存ソフトウェアブロックの効率的な再利用によるプログラムメモリ空間の相当な削減につながる。
複数の符号化された多チャンネル信号の同時レンダリングの説明したようなアプローチは、空間モデルに基づいたユーザインターフェースと共に用いられる場合に、特に有利なユーザ経験を提供する。図3は、音源の空間処理及び空間位置付けが空間モデルとそれに関連するユーザインターフェースとに依存するオーディオ処理ユニットの一例を示す。
当該オーディオ処理ユニットは、図1に記載されるものと対応するが、当該オーディオ処理ユニットは更に、仮想ユーザ位置と、符号化された多チャンネルオーディオ信号用の仮想空間音源位置とを表す空間モデル301を含む。更に、空間モデル301は、モデル(の一部)のグラフィック表現を表示するディスプレイ303に結合される。
本実施例では、空間モデル301は、適切な処理プラットフォーム上で実施され、例えばレンダリングされる可能性のあるすべてのオーディオアイテムの仮想3次元位置を含む。例えば空間モデル301は、符号化された曲のそれぞれの位置を適切な記憶媒体に記憶している。当該位置は、例えば曲のスタイル、ジャンル、アーティスト、曲名、長さ等の曲の特徴に基づいて決定される。
空間モデル301は更に、ユーザ入力に呼応して変化する仮想ユーザ位置を記録する。したがって、ユーザには、仮想空間モデル301においてオーディオアイテム間でユーザがあちこち移動できるユーザインターフェースが提供される。したがって、空間モデル301は、外部ユーザ入力を受け取るユーザ入力部305に接続される。ユーザ入力部305は、例えばディスプレイ303のタッチ入力部である。ディスプレイ303は、空間モデル内でユーザ位置が移動する際のユーザ位置の局在性のグラフィック表現を連続的に提示する。当該表現は、ユーザ位置が例えばアイコンによって表され、オーディオアイテムが別のアイコンとして表される2次元表現であってよい。
図4は、そのような表現の一例を示す。本実施例では、ユーザは、曲のコレクションをざっと見る。コレクションのうち、複数の曲は、同時に聴くことができるが、空間モデルとディスプレイ上の表現とに対応して様々な場所にレンダリングされる。本実施例では、ユーザの仮想位置は、ヘッドホンによって示され、アルバムのアイコンは、モデルに応じて、仮想ユーザ位置から「可視」であるオーディオアイテムを表す。
当該システムでは、一次符号化済み多チャンネル信号と、二次符号化済み多チャンネル信号とが、空間モデルに基づいて選択される。具体的には、一次符号化済み多チャンネル信号は、モデル内のユーザに最も近いオーディオアイテムとして選択され、二次符号化済み多チャンネル信号は、例えば2つの次に最も近いオーディオアイテムとして選択される。したがって、本実施例では、ユーザが、オーディオアイテムのうちの1つの近くに移動すると、対応するオーディオストリームが、フルステレオ再生にシームレスに変換される。同時に、その他のオーディオアイテムは、モノ信号として提示され、モデル内の相対位置に対応する位置からレンダリングされるように空間処理される。したがって、その他の付近のオーディオアイテムは、例えば背景におけるミュート信号としてレンダリングされる。これは、非常に魅力的なユーザ経験を提供し、例えば特に有利なブラウジング経験を提供する。
具体的には、空間レンダリングは、二次復号化済みオーディオ信号の様々なチャンネルに、様々な空間処理を適用する。特に、二次復号化済みオーディオ信号が、様々な入力オーディオ源に対応する様々なチャンネルを有するステレオ信号である本実施例では、1つのチャンネルの空間処理は、対応するオーディオアイテムの相対仮想位置に対応する一方で、その他のチャンネルの空間処理は、その他のオーディオアイテムの相対仮想位置に対応する。
当然ながら、明確とするための上記説明は、様々な機能回路、ユニット、及びプロセッサを参照して本発明の実施形態を説明している。しかし、本発明から逸脱することなく、様々な機能回路、ユニット又はプロセッサ間での機能の任意の適切な分散を使用できることは明らかであろう。例えば別個のプロセッサ又はコントローラによって行われるものとして説明される機能は、同じプロセッサ又はコントローラによって行われてもよい。したがって、特定の機能ユニット又は回路への参照は、厳密な論理的又は物理的構造体又は組織を示すものではなく、説明された機能を提供する適切な手段への参照としてのみ見なされる。
本発明は、ハードウェア、ソフトウェア、ファームウェア、又はこれらの任意の組み合わせを含む任意の適切な形式で実施される。本発明は、任意選択的に、1つ以上のデータプロセッサ及び/又はデジタル信号プロセッサ上で実行されるコンピュータソフトウェアとして少なくとも部分的に実施されてもよい。本発明の一実施形態の要素及び構成要素は、任意の適切な方法で、物理的に、機能的に、及び論理的に実施される。実際に、機能は、単一のユニットにおいて、複数のユニットにおいて、又は、他の機能ユニットの一部として実施される。したがって、本発明は、単一のユニットにおいて実施されても、様々なユニット、回路及びプロセッサ間で物理的かつ機能的に分散配置されてもよい。
本発明は、幾つかの実施形態に関連して説明してきたが、本明細書に記載される特定の形式に限定することは意図していない。むしろ、本発明の範囲は、添付の特許請求の範囲によってのみ限定される。更に、ある特徴が、特定の実施形態に関連して説明されているかのように見えるが、当業者であれば、説明された実施形態の様々な特徴が、本発明に従って組み合わせることができることは認識できるであろう。特許請求の範囲において、「含む」との用語は、他の要素又はステップの存在を排除するものではない。
更に、複数の手段、要素、回路又は方法ステップが、個別に列挙されているが、これらは、例えば単一の回路、ユニット又はプロセッサによって実施される。また、個別の特徴が様々な請求項に含まれているが、これらの特徴は有利に組み合わされてもよく、また、様々な請求項における包含が、特徴の組み合わせが実現可能でない及び/又は有利ではないことを示唆するものではない。更に、1つの請求項のカテゴリにおける特徴の包含が、当該カテゴリへの限定を示唆するものではなく、むしろ、当該特徴が、他の請求項のカテゴリにも、適宜、同等に適用可能であることを示す。更に、請求項における特徴の順序も、特徴が実施されなければならない特定の順序を示唆するものではなく、また、特に、方法の請求項における個々のステップの順序は、当該ステップが当該順序で行わなければならないことを示唆するものではない。むしろ、当該ステップは、任意の適切な順序で行われてよい。なお、単数形での参照は、複数形を排除するものではない。したがって、「a」、「an」、「第1の」、「第2の」等への参照は、複数形を除外するものではない。請求項における参照符号は、明瞭にするための例として提供しているに過ぎず、当該請求項の範囲を限定するものとして解釈されるべきではない。

Claims (15)

  1. 複数の符号化された多チャンネルオーディオ信号を受け取る受信器と、
    前記複数の符号化された多チャンネルオーディオ信号のうちの第1の符号化された多チャンネルオーディオ信号を復号化して第1の復号化された多チャンネルオーディオ信号を生成する多チャンネルデコーダと、
    前記複数の符号化された多チャンネルオーディオ信号のうちの少なくとも第2の符号化された多チャンネルオーディオ信号から符号化されたオーディオデータを、前記第2の符号化された多チャンネルオーディオ信号からの前記符号化されたオーディオデータを含む符号化された更なるオーディオ信号のチャンネル数が、前記第2の符号化された多チャンネルオーディオ信号におけるチャンネル数より少ないように、選択することによって、前記符号化された更なるオーディオ信号を抽出する発生器と、
    前記符号化された更なるオーディオ信号を復号化することによって復号化された更なるオーディオ信号を生成する更なるデコーダと、
    少なくとも前記第1の復号化された多チャンネルオーディオ信号と前記復号化された更なるオーディオ信号とを合成して多チャンネル出力信号を生成する合成器と、
    を含む、オーディオ信号プロセッサ。
  2. 前記発生器は、前記第2の符号化された多チャンネルオーディオ信号の単一のチャンネルから符号化されたオーディオデータを選択することによって、前記符号化された更なるオーディオ信号の第1のチャンネルを抽出する、請求項1に記載のオーディオ信号プロセッサ。
  3. 前記符号化された更なるオーディオ信号は、多チャンネル信号であり、前記発生器は、第3の符号化された多チャンネルオーディオ信号の単一のチャンネルから符号化されたオーディオデータを選択することによって、前記符号化された更なるオーディオ信号の第2のチャンネルを生成する、請求項2に記載のオーディオ信号プロセッサ。
  4. 前記符号化された更なるオーディオ信号の単一のチャンネルの符号化されたオーディオデータは、前記第2の符号化された多チャンネルオーディオ信号の前記単一のチャンネルの符号化されたオーディオデータと同一である、請求項2に記載のオーディオ信号プロセッサ。
  5. 前記第2の符号化された多チャンネルオーディオ信号の前記単一のチャンネルは、
    中央−側方ステレオ信号用の中央チャンネル、
    左右ステレオ信号用の左チャンネル、及び
    左右ステレオ信号用の右チャンネル
    のうちの少なくとも1つである、請求項2に記載のオーディオ信号プロセッサ。
  6. 前記符号化された更なるオーディオ信号は、モノ信号である、請求項1に記載のオーディオ信号プロセッサ。
  7. 前記符号化された更なるオーディオ信号は、前記複数の符号化された多チャンネルオーディオ信号のうちの様々な符号化された多チャンネルオーディオ信号からの符号化されたオーディオデータを含む様々なチャンネルを有する多チャンネル信号である、請求項1に記載のオーディオ信号プロセッサ。
  8. 前記符号化された更なるオーディオ信号の各チャンネルは、前記様々な符号化された多チャンネルオーディオ信号のうちの1つの信号の1つのチャンネルに対応する、請求項7に記載のオーディオ信号プロセッサ。
  9. 前記発生器は、前記複数の符号化された多チャンネルオーディオ信号から前記符号化された更なるオーディオ信号の1つのチャンネル用の符号化されたオーディオデータを選択する、請求項1に記載のオーディオ信号プロセッサ。
  10. 前記発生器は、前記符号化された更なるオーディオ信号の前記符号化されたオーディオデータに対応するように前記第2の符号化された多チャンネルオーディオ信号の符号化制御データを変更することによって、前記符号化された更なるオーディオ信号用の符号化制御データを抽出する、請求項1に記載のオーディオ信号プロセッサ。
  11. ユーザ入力を受け取るユーザインターフェースと、
    仮想ユーザ位置と、前記複数の符号化された多チャンネルオーディオ信号に関連付けられた仮想空間音源位置とを表す空間モデルと、
    を更に含み、
    前記発生器は、前記空間モデルに呼応して、前記複数の符号化された多チャンネルオーディオ信号のうちの前記第1の符号化された多チャンネルオーディオ信号と、前記第2の符号化された多チャンネルオーディオ信号とを選択する、請求項1に記載のオーディオ信号プロセッサ。
  12. 前記合成器は、前記空間モデルに呼応して、少なくとも前記復号化された更なるオーディオ信号に空間処理を適用する、請求項11に記載のオーディオ信号プロセッサ。
  13. 前記復号化された更なるオーディオ信号は、多チャンネル信号であり、前記空間処理は、前記空間モデルの様々な仮想空間音源位置に対応するように前記復号化された更なるオーディオ信号の様々なチャンネルを空間処理することを含む、請求項12に記載のオーディオ信号プロセッサ。
  14. 前記発生器は、前記仮想ユーザ位置と、前記第2の符号化された多チャンネルオーディオ信号に関連付けられる前記仮想空間音源位置との距離に呼応して、前記第2の符号化された多チャンネルオーディオ信号を選択する、請求項11に記載のオーディオ信号プロセッサ。
  15. オーディオ信号を処理する方法であって、
    複数の符号化された多チャンネルオーディオ信号を受け取るステップと、
    第1の復号化された多チャンネルオーディオ信号を生成するように、前記複数の符号化された多チャンネルオーディオ信号のうちの第1の符号化された多チャンネルオーディオ信号を復号化するステップと、
    前記複数の符号化された多チャンネルオーディオ信号のうちの少なくとも第2の符号化された多チャンネルオーディオ信号から符号化されたオーディオデータを、前記第2の符号化された多チャンネルオーディオ信号からの前記符号化されたオーディオデータを含む符号化された更なるオーディオ信号のチャンネル数が、前記第2の符号化された多チャンネルオーディオ信号におけるチャンネル数より少ないように、選択することによって、前記符号化された更なるオーディオ信号を抽出するステップと、
    前記符号化された更なるオーディオ信号を復号化することによって復号化された更なるオーディオ信号を生成するステップと、
    多チャンネル出力信号を生成するように、少なくとも前記第1の復号化された多チャンネルオーディオ信号と前記復号化された更なるオーディオ信号とを合成するステップと、
    を含む方法。
JP2014516462A 2011-06-24 2012-06-04 符号化された多チャンネルオーディオ信号を処理するオーディオ信号プロセッサ及びその方法 Expired - Fee Related JP5895050B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP11171280 2011-06-24
EP11171280.8 2011-06-24
PCT/IB2012/052795 WO2012176084A1 (en) 2011-06-24 2012-06-04 Audio signal processor for processing encoded multi - channel audio signals and method therefor

Publications (3)

Publication Number Publication Date
JP2014520473A JP2014520473A (ja) 2014-08-21
JP2014520473A5 JP2014520473A5 (ja) 2015-07-23
JP5895050B2 true JP5895050B2 (ja) 2016-03-30

Family

ID=46321192

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014516462A Expired - Fee Related JP5895050B2 (ja) 2011-06-24 2012-06-04 符号化された多チャンネルオーディオ信号を処理するオーディオ信号プロセッサ及びその方法

Country Status (7)

Country Link
US (1) US9626975B2 (ja)
EP (1) EP2724555B1 (ja)
JP (1) JP5895050B2 (ja)
CN (1) CN103620673B (ja)
BR (1) BR112013032727A2 (ja)
RU (1) RU2595910C2 (ja)
WO (1) WO2012176084A1 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10203839B2 (en) * 2012-12-27 2019-02-12 Avaya Inc. Three-dimensional generalized space
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
US9980078B2 (en) 2016-10-14 2018-05-22 Nokia Technologies Oy Audio object modification in free-viewpoint rendering
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US10043523B1 (en) 2017-06-16 2018-08-07 Cypress Semiconductor Corporation Advanced packet-based sample audio concealment
US10475457B2 (en) * 2017-07-03 2019-11-12 Qualcomm Incorporated Time-domain inter-channel prediction
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
US10771913B2 (en) 2018-05-11 2020-09-08 Dts, Inc. Determining sound locations in multi-channel audio
CN112218020B (zh) * 2019-07-09 2023-03-21 海信视像科技股份有限公司 一种多声道平台音频数据传输方法及其装置
WO2023157650A1 (ja) * 2022-02-16 2023-08-24 ソニーグループ株式会社 信号処理装置および信号処理方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3059191B2 (ja) 1990-05-24 2000-07-04 ローランド株式会社 音像定位装置
JP3439485B2 (ja) 1992-04-18 2003-08-25 ヤマハ株式会社 映像連動音像定位装置
US5864820A (en) 1996-12-20 1999-01-26 U S West, Inc. Method, system and product for mixing of encoded audio signals
GB2321577B (en) 1997-01-27 2001-08-01 British Broadcasting Corp Audio compression
US6983251B1 (en) 1999-02-15 2006-01-03 Sharp Kabushiki Kaisha Information selection apparatus selecting desired information from plurality of audio information by mainly using audio
US7043312B1 (en) 2000-02-17 2006-05-09 Sonic Solutions CD playback augmentation for higher resolution and multi-channel sound
JP2001298680A (ja) * 2000-04-17 2001-10-26 Matsushita Electric Ind Co Ltd ディジタル放送用信号の仕様およびその受信装置
US20030035553A1 (en) * 2001-08-10 2003-02-20 Frank Baumgarte Backwards-compatible perceptual coding of spatial cues
JP2003122374A (ja) * 2001-10-17 2003-04-25 Nippon Hoso Kyokai <Nhk> サラウンド音響生成方法、その装置およびそのプログラム
US8078475B2 (en) * 2004-05-19 2011-12-13 Panasonic Corporation Audio signal encoder and audio signal decoder
KR100773539B1 (ko) 2004-07-14 2007-11-05 삼성전자주식회사 멀티채널 오디오 데이터 부호화/복호화 방법 및 장치
SE0402650D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Improved parametric stereo compatible coding of spatial audio
JP4844093B2 (ja) * 2005-11-11 2011-12-21 ソニー株式会社 情報処理装置および方法、記録媒体、並びにプログラム
TWI420918B (zh) 2005-12-02 2013-12-21 Dolby Lab Licensing Corp 低複雜度音訊矩陣解碼器
WO2007088490A1 (en) 2006-01-31 2007-08-09 Koninklijke Philips Electronics N.V. Device for and method of processing audio data
JP5222279B2 (ja) * 2006-03-28 2013-06-26 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチチャネルオーディオ再構成における信号整形のための改善された方法
JP4894386B2 (ja) 2006-07-21 2012-03-14 ソニー株式会社 音声信号処理装置、音声信号処理方法および音声信号処理プログラム
RU2394283C1 (ru) * 2007-02-14 2010-07-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
CN101681663B (zh) 2007-05-22 2013-10-16 皇家飞利浦电子股份有限公司 处理音频数据的设备和方法
WO2009084165A1 (ja) * 2007-12-28 2009-07-09 Panasonic Corporation 音声混合再生装置
ES2391801T3 (es) * 2008-01-01 2012-11-30 Lg Electronics Inc. Procedimiento y aparato para procesar una señal de audio
CN101971132A (zh) 2008-03-13 2011-02-09 皇家飞利浦电子股份有限公司 用于使得能够从多个项目中选择项目的方法和设备
US8380333B2 (en) * 2009-12-21 2013-02-19 Nokia Corporation Methods, apparatuses and computer program products for facilitating efficient browsing and selection of media content and lowering computational load for processing audio data

Also Published As

Publication number Publication date
EP2724555A1 (en) 2014-04-30
RU2595910C2 (ru) 2016-08-27
US20140133661A1 (en) 2014-05-15
US9626975B2 (en) 2017-04-18
RU2014102198A (ru) 2015-07-27
JP2014520473A (ja) 2014-08-21
CN103620673A (zh) 2014-03-05
EP2724555B1 (en) 2015-04-22
BR112013032727A2 (pt) 2017-01-31
CN103620673B (zh) 2016-04-27
WO2012176084A1 (en) 2012-12-27

Similar Documents

Publication Publication Date Title
JP5895050B2 (ja) 符号化された多チャンネルオーディオ信号を処理するオーディオ信号プロセッサ及びその方法
KR102178231B1 (ko) 인코딩된 오디오 메타데이터-기반 등화
CN102779514B (zh) 对多声道音频信号进行编码/解码的系统、介质和方法
EP2205007B1 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
KR102294767B1 (ko) 고채널 카운트 멀티채널 오디오에 대한 멀티플렛 기반 매트릭스 믹싱
AU2007312597B2 (en) Apparatus and method for multi -channel parameter transformation
EP3025329B1 (en) Concept for audio encoding and decoding for audio channels and audio objects
CN101151658B (zh) 多声道音频编码和解码方法、编码器和解码器
RU2643644C2 (ru) Кодирование и декодирование аудиосигналов
EP1376538B1 (en) Hybrid multi-channel/cue coding/decoding of audio signals
KR102374897B1 (ko) 3차원 오디오 사운드트랙의 인코딩 및 재현
CN103890841A (zh) 音频对象编码和解码
CN114554386A (zh) 用于自适应音频的混合型基于优先度的渲染系统和方法
JP2005533426A (ja) オーディオ符合化方法
JP2012234192A (ja) オーディオソースのパラメトリックジョイント符号化
WO2005122639A1 (ja) 音響信号符号化装置および音響信号復号装置
WO2020104726A1 (en) Ambience audio representation and associated rendering
CN106716525A (zh) 下混音频信号中的声音对象插入
WO2020080099A1 (ja) 信号処理装置および方法、並びにプログラム
WO2008084436A1 (en) An object-oriented audio decoder
JP2018518875A (ja) オーディオ信号処理装置および方法

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150602

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150602

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151030

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151116

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160229

R150 Certificate of patent or registration of utility model

Ref document number: 5895050

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees