JP6133422B2 - マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 - Google Patents

マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 Download PDF

Info

Publication number
JP6133422B2
JP6133422B2 JP2015524812A JP2015524812A JP6133422B2 JP 6133422 B2 JP6133422 B2 JP 6133422B2 JP 2015524812 A JP2015524812 A JP 2015524812A JP 2015524812 A JP2015524812 A JP 2015524812A JP 6133422 B2 JP6133422 B2 JP 6133422B2
Authority
JP
Japan
Prior art keywords
downmix
channels
decoder
signal
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015524812A
Other languages
English (en)
Other versions
JP2015528926A (ja
Inventor
カシュトナー,トルシュテン
ヘッレ,ユェルゲン
テレンティフ,レオン
ヘルムート,オリファー
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2015528926A publication Critical patent/JP2015528926A/ja
Application granted granted Critical
Publication of JP6133422B2 publication Critical patent/JP6133422B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のための装置および方法に関する。
現在のデジタルオーディオシステムでは、送信コンテンツについて、受信機側でオーディオオブジェクト関連の変更を行うことを許容することが主流となっている。これらの変更には、オーディオ信号の選択部位についてのゲイン変更、および/または空間的に分散したスピーカを通じてマルチチャネル再生を行う場合の専用オーディオオブジェクトの空間的再配置が含まれる。これは、それぞれのスピーカに対して、オーディオコンテンツの各部位を個別に伝達することによって達成される。
つまり、オーディオ処理、オーディオ送信およびオーディオ蓄積の分野においては、オブジェクト指向のオーディオコンテンツ再生について、ユーザの相互反応を許容したいという要望が高まっているとともに、聴覚的印象を改善するために、オーディオコンテンツまたはその一部について、個別にマルチチャネル再生を行うという拡張的可能性を利用したいというニーズがある。これによって、マルチチャネル・オーディオコンテンツの利用は、ユーザに対して、大きな改善をもたらす。例えば、三次元の聴覚的印象を得ることができ、これによって、エンタテインメント利用した場合には、さらなるユーザ満足がもたらされる。しかしながら、マルチチャネル・オーディオコンテンツは、商業環境においてもまた有用であり、例えば、電話会議に利用した場合、マルチチャネル・オーディオ再生を利用することによって、話者を容易に認識することができる。その他の潜在的用途としては、楽曲の聴き手に対して、再生レベルを個別に調整すること、および/またはヴォーカルパートや異なる楽器等の異なるパーツ(以下「オーディオオブジェクト」ともいう。)またはトラックの空間的位置を個別に調整することが考えられる。ユーザは、個人的嗜好のために、楽曲の1以上の部位の簡単な複写、教育、カラオケやリハーサル等の目的のために、そのような調整を行うことができる。
全てのデジタルマルチチャネルまたはマルチオブジェクト・オーディオコンテンツを、そのまま、例えば、パルス符号変調(PCM)データ形式や、さらには圧縮オーディオ形式などで、個別に送信すると、非常に高いビットレートを要する。しかしながら、ビットレート効率よく、オーディオデータを送信し蓄積することが望ましい。したがって、マルチチャネル/マルチオブジェクト・アプリケーションにより生じる過度なリソース負担を回避するため、オーディオ品質とビットレート要件との間で、合理的なバランスを図ることが望ましい。
近年、オーディオ符号化の分野においては、ビットレート効率のよいマルチチャネル/マルチオブジェクトオーディオ信号の送信/記憶に関するパラメータ技術が、例えばムービング・ピクチャー・エクスパーツ・グループ(MPEG)やその他によって導入されている。一例としては、チャネル志向のアプローチとして、MPEGサラウンド(MPS)(非特許文献1、非特許文献2)が、オブジェクト指向のアプローチとして、MPEG空間音響オブジェクト符号化(SAOC)(非特許文献3、非特許文献6、非特許文献4、非特許文献5)が挙げられる。他のオブジェクト志向アプローチは、「インフォームド情報源分離」と称される(非特許文献7、非特許文献8、非特許文献9、非特許文献10、非特許文献11、非特許文献12)。これらの技術は、対象となる出力オーディオシーン、または対象となるオーディオソースオブジェクトを、チャネル/オブジェクトのダウンミックス、および送信または蓄積されたオーディオシーンおよび/または当該オーディオシーンにおけるオーディオソースオブジェクトを記載する追加的サイド情報に基づき、再構成することを目的とする。
そのようなシステムでのチャネル/オブジェクト関連副情報の推定および適用は、時間−周波数選択的態様で行われる。したがって、そのようなシステムは、離散フーリエ変換(DFT)、短時間フーリエ変換(STFT)またはフィルタバンク的な直交ミラーフィルタ(QMF)バンクなどの時間−周波数変換を使用する。このシステムの基本的原理を、MPEG SAOCの例を用いて図2に示す。
STFTの場合には、時間の次元が時間ブロック数によって表され、スペクトルの次元がスペクトル係数(「ビン」)によって捕捉される。QMFの場合には、時間の次元がタイムスロット数によって表され、スペクトルの次元がサブバンド数によって捕捉される。QMFのスペクトル解像度が後続の第2のフィルタ段の適用によって向上された場合、フィルタバンク全体はハイブリッドQMFと称され、高解像度のサブバンドはハイブリッドサブバンドと称される。
上述のように、SAOCでは、一般的な処理が、時間−周波数選択的態様で実行され、図2に示すように、各周波数帯域内で以下のように説明される:
− N個の入力オーディオ信号s・・・sを、エンコーダ処理の一部として、要素d1,1・・・dN,Pからなるダウンミックス行列を用いてP個のチャネルx・・・xへとミックスダウンする。さらに、エンコーダは、入力オーディオオブジェクトの特性を記述する副情報を抽出する(副情報推定器(SIE)モジュール)。MPEG SAOCにとって、オブジェクトのパワーの相互の関係が、そのような副情報の最も基本的なものである。
− ダウンミックス信号および副情報を送信/蓄積する。この目的のため、例えば、MPEG−1/2 Layer2または3(mp3)、MPEG−2/4 Advanced Audio Coding(AAC)など周知の知覚オーディオコーダを用いて、ダウンミックスオーディオ信号を圧縮することができる。
− 受信端において、デコーダは、概念的には、送信された副情報を用いて(復号された)ダウンミックス信号から元のオブジェクト信号を復元しようとする(「オブジェクト分離」)。そして、これらの近似オブジェクト信号
は、図2における係数r1,1・・・rN,Mによって記述されたレンダリング行列を用いて、M個のオーディオチャネル
によって表される目標シーンにミキシングされる。所望の目標シーンは、極端な場合では、ミキシングの中の1つだけの音源信号のレンダリングであってもよいし(音源分離シナリオ)、送信されるオブジェクトからなる他の任意の音響シーンであってもよい。例えば、出力は、単一チャネル、2チャネルステレオまたは5.1マルチチャネルの目標シーンとすることができる。
オーディオ符号化の分野における利用可能な帯域/蓄積容量の増加および進行中の改善によって、ユーザは、徐々に増加している選択肢からマルチチャネル・オーディオ製品を選択することができる。マルチチャネル5.1オーディオフォーマットは、既にDVDおよびブルーレイ製品において標準となっている。より多くのオーディオ移送チャネルを持つMPEG−H 3D Audioのような新たなオーディオフォーマットが出現し、これは高度な没入型のオーディオ体験をエンドユーザに提供することになる。
ISO/IEC 23003−1:2007,MPEG−D(MPEG audio technologies),Part 1:MPEG Surround,2007 C.Faller and F.Baumgarte,"Binaural Cue Coding−Part II:Schemes and applications,"IEEE Trans. on Speech and Audio Proc.,vol.11,no.6,Nov.2003 C.Faller,"Parametric Joint−Coding of Audio Sources",120th AES Convention,Paris,2006 J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"From SAC To SAOC−Recent Developments in Parametric Coding of Spatial Audio",22nd Regional UK AES Conference,Cambridge,UK,April 2007 J.Engdegaerd,B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.Hoelzer,L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:"Spatial Audio Object Coding(SAOC)The Upcoming MPEG Standard on Parametric Object Based Audio Coding",124th AES Convention,Amsterdam 2008 ISO/IEC,"MPEG audio technologiesPart 2:Spatial Audio Object Coding(SAOC)",ISO/IEC JTC1/SC29/WG11(MPEG) International Standard 230032 M.Parvaix and L.Girin:"Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding",IEEE ICASSP,2010 M.Parvaix,L.Girin,J.M.Brossier:"A watermarkingbased method for informed source separation of audio signals with a single sensor",IEEE Transactions on Audio,Speech and Language Processing,2010 A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard:"Informed source separation through spectrogram coding and data embedding",Signal Processing Journal,2011 A.Ozerov,A.Liutkus,R.Badeau,G.Richard:"Informed source separation:source coding meets source separation",IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2011 Shuhua Zhang and Laurent Girin:"An Informed Source Separation System for Speech Signals",INTERSPEECH,2011 L.Girin and J.Pinel:"Informed Audio Source Separation from Compressed Linear Stereo Mixtures",AES 42nd International Conference:Semantic Audio,2011
パラメトリックなオーディオオブジェクト符号化手法は、現在、最大2個のダウンミックスチャネルに制限されている。この手法は、マルチチャネルのミキシング、例えば、2個だけのダウンミックスチャネルに対して、ある程度しか適用され得ない。したがって、この符号化手法によって、オーディオシーンをユーザ自身の好みに調整できるようにユーザに与えられる柔軟性は非常に制限され、例えば、スポーツ放送においてスポーツ解説者と周辺とのオーディオレベルを変化させることなどに限定される。
さらに、現在のオーディオオブジェクト符号化手法は、エンコーダ側でのミキシング処理において、制限された多様性しか与えない。ミキシング処理は、オーディオオブジェクトの時間変数ミキシングに制限され、周波数変数ミキシングは可能でない。
したがって、オーディオオブジェクト符号化について、改善された概念が提供されることが非常に望ましい。
本発明の課題は、オーディオオブジェクト符号化に関する改善された概念を提供することである。本発明の課題は、特許請求の範囲の各独立請求項にそれぞれ記載のデコーダ、方法、およびコンピュータプログラムによって解決される。
1以上のダウンミックスチャネルを有するダウンミックス信号から、1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダが提供される。ダウンミックス信号は、以上のオーディオオブジェクト信号が符号化されている。デコーダは、以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーおよび/もしくはノイズエネルギーに応じて、ならびに/または1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーおよび/もしくはノイズエネルギーに応じて、閾値を決定する閾値決定器を備える。さらに、デコーダは、1以上のダウンミックスチャネルに応じた1以上の判定値を決定し、この1以上の判定値を閾値と比較して、1以上のオーディオ出力チャネルを生成する処理部を備える。
一実施形態によると、ダウンミックス信号は2以上のダウンミックスチャネルを有し、閾値決定器は、2以上のダウンミックスチャネルの各々のノイズエネルギーに応じて閾値を決定するように構成される。
一実施形態によると、閾値決定器は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成される。
一実施形態によると、ダウンミックス信号には2以上のオーディオオブジェクト信号が符号化され、閾値決定器は、2以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有するオーディオオブジェクト信号の信号エネルギーに応じて閾値を決定するように構成される。
一実施形態では、ダウンミックス信号は2以上のダウンミックスチャネルを有し、閾値決定器は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成される。
一実施形態によると、ダウンミックス信号には、複数の時間−周波数タイルのうち各時間−周波数タイルについて1以上のオーディオオブジェクト信号が符号化される。閾値決定器は、1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、複数の時間−周波数タイルのうち各時間−周波数タイルについて閾値を決定するように構成され、複数の時間−周波数タイルのうち第1の時間−周波数タイルの第1の閾値が、複数の時間−周波数タイルのうち第2の時間−周波数タイルとは異なるようにする。処理部は、複数の時間−周波数タイルのうち各時間−周波数タイルについて、上記の時間−周波数タイルの場合の閾値に応じて1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成される。
一実施形態において、デコーダは、デシベル表記の閾値T[dB]を、数式
T[dB]=Enoise[dB]−Eref[dB]−Z
により、または数式
T[dB]=Enoise[dB]−Eref[dB]
により決定するように構成される。ここで、T[dB]は、デシベル表記の閾値を示し、Enoise[dB]は、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をデシベルで示し、Eref[dB]は、オーディオオブジェクト信号のうちの1つの信号エネルギーをデシベルで示し、Zは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Enoise[dB]は、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値をデシベルで示す。
一実施形態によると、デコーダは、閾値Tを、数式
T=Enoise/(Eref・Z)
により、または数式
T=Enoise/Eref
により決定するように構成される。ここで、Tは、閾値を示し、Enoiseは、2以上のダウンミックスチャネルの全ノイズエネルギーの合計を示し、Erefは、オーディオオブジェクト信号のうちの1つの信号エネルギーを示し、Zは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Enoiseは、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値を示す。
一実施形態によると、処理部は、1以上のオーディオオブジェクト信号のオブジェクト共分散行列(E)に応じて、2以上のオーディオオブジェクト信号をダウンミックスして2以上のダウンミックスチャネルを得るためのダウンミックス行列(D)に応じて、さらに閾値に応じて、1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。
一実施形態では、処理部は、ダウンミックスチャネル相互相関行列Qを逆行列化する関数に閾値を適用することによって、1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成され、ここで、QはQ=DEDとして定義され、Dは2以上のオーディオオブジェクト信号をダウンミックスして2以上のダウンミックスチャネルを得るためのダウンミックス行列であり、Eは1以上のオーディオオブジェクト信号のオブジェクト共分散行列である。
例えば、処理部は、ダウンミックスチャネル相互相関行列Qの固有値を計算することによって、またはダウンミックスチャネル相互相関行列Qの単一の値を計算することによって1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。
例えば、処理部は、ダウンミックスチャネル相互相関行列Qの最大の固有値に閾値を乗じて相対閾値を得ることによって1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。
例えば、処理部は、修正行列を生成することによって1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。処理部は、ダウンミックスチャネル相互相関行列Qの固有ベクトルのみに応じて修正行列を生成するように構成され、それらの固有ベクトルはダウンミックスチャネル相互相関行列Qの固有値のうちの1つの固有値を有し、その1つの固有値は修正閾値以上である。さらに、処理部は、修正行列の逆行列化を実行して行列を得るように構成される。またさらに、処理部は、行列を1以上のダウンミックスチャネルに適用して1以上のオーディオ出力チャネルを生成するように構成される。
さらに、1以上のダウンミックスチャネルを有するダウンミックス信号から1以上のオーディオ出力チャネルを備えるオーディオ出力信号を生成する方法が提供される。ダウンミックス信号には、以上のオーディオオブジェクト信号が符号化される。デコーダは:
− 1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて閾値を決定し、
− 前記1以上のダウンミックスチャネルに応じて1以上の判定値を決定し、
この1以上の判定値を前記閾値と比較することにより、前記1以上のオーディオ出力チャネルを生成する。
さらに、コンピュータまたは信号プロセッサで実行されるときに上記方法を実施するためのコンピュータプログラムが提供される。
以下に、図面を参照して本発明の実施形態をより詳細に説明する。
1以上のオーディオ出力チャネルをる有するオーディオ出力信号を生成するための実施形態によるデコーダを示す。 SAOC方式の概略図であり、MPEG SAOCの例を用いてそのような方式の原理を図示する。 G−SAOCパラメトリックアップミックスの概念の概略を示す。 一般的なダウンミックス/アップミックスの概念を示す。
本発明の実施形態を説明する前に、現行技術のSAOC方式についての背景をさらに説明する。
図2は、SAOCエンコーダ10およびSAOCデコーダ12の一般的構成を示す。SAOCエンコーダ10は、N個の入力オブジェクト、すなわち、オーディオ信号s1〜を受信する。具体的には、エンコーダ10は、オーディオ信号s1〜を受信し、それをダウンミックス信号18にダウンミックスするダウンミキサ16を備える。あるいは、ダウンミックスが外部から与えられ(「アーティスティックなダウンミックス」)、システムが、追加の副情報を推定して、与えられたダウンミックスを、計算されたダウンミックスに一致させるようにしてもよい。図2において、ダウンミックス信号は、Pチャネル信号として示される。ここでは、モノラル(P=1)、ステレオ(P=2)またはマルチチャネル(P>2)のいずれのダウンミックス信号構成でもよい。
ステレオダウンミックスの場合、ダウンミックス信号18のチャネルはL0およびR0と表記され、モノラルダウンミックスの場合、単にL0と表記される。SAOCデコーダ12が個々のオブジェクトs1〜を受信することができるようにするため、副情報推定器17は、SAOCパラメータを含む副情報をSAOCデコーダ12に与える。例えば、ステレオダウンミックスの場合、SAOCパラメータは、オブジェクトレベルの差(OLD)、オブジェクト間相関(IOC)(オブジェクト間相互相関パラメータ)、ダウンミックスゲイン値(DMG)およびダウンミックスチャネルレベルの差(DCLD)を含む。SAOCパラメータを含む副情報20は、ダウンミックス信号18とともに、SAOCデコーダ12によって受信されたSAOC出力データストリームを形成する。
SAOCデコーダ12はアップミキサを備え、このアップミキサは、副情報20とともにダウンミックス信号18を受信して、SAOCデコーダ12に入力されたレンダリング情報26により規定されているレンダリングで、オーディオ信号
を、任意のユーザ選択によるチャネルセット
上に復元およびレンダリングする。
オーディオ信号sからsは、時間領域またはスペクトル領域のような何らかの符号化領域で、エンコーダ10に入力される。オーディオ信号sからsがPCM符号化されるなどして時間領域でエンコーダ10に供給される場合、エンコーダ10は、信号をスペクトル領域、すなわちオーディオ信号が異なるスペクトル部分に関連付けられた複数のサブバンドに特定のフィルタバンク解像度で表される領域、に変換するために、ハイブリッドQMFバンクのようなフィルタバンクを用いることができる。オーディオ信号sからsが、既にエンコーダ10によって想定されているような表現となっている場合には、スペクトル分解を行う必要はない。
ミキシング処理における一層の柔軟性によって、信号オブジェクト特性の最適な利用が可能となる。感受品質に関するデコーダ側でのパラメトリック分離について、最適化されたダウンミックスを生成することができる。
実施形態は、SAOC手法のパラメトリック部分を、任意数のダウンミックス/アップミックスチャネルに拡張する。以降の図は、一般化空間オーディオオブジェクト符号化(G−SAOC)パラメトリックアップミックスの概念の概略を示す。
図3は、G−SAOCパラメトリックアップミックスの概念の概略を示す。パラメトリックに再構築されたオーディオオブジェクトの完全に柔軟なポストミックス(レンダリング)が実現される。
具体的には、図3は、オーディオデコーダ310、オブジェクトセパレータ320、およびレンダラー330を示す。
以下の表記を共通して使用することにする:
x −入力オーディオオブジェクト信号(サイズNobj
y −ダウンミックスオーディオ信号(サイズNdmx
z −レンダリングされた出力シーン信号(サイズNupmix
D −ダウンミックス行列(サイズNobj×Ndmx
R −レンダリング行列(サイズNobj×Nupmix
G −パラメトリックアップミックス行列(サイズNdmx×Nupmix
E −オブジェクト共分散行列(サイズNobj×Nobj
導入される全ての行列は(一般に)時間および周波数の変数である。
以下に、パラメトリックアップミックスについての構成的な関係を説明する。
まず、一般的なダウンミックス/アップミックスの概念を図4を参照して説明する。具体的には、図4は、一般的なダウンミックス/アップミックスの概念を示し、モデル化された方式(左)およびパラメトリックアップミックス方式(右)を示す。
より具体的には、図4は、レンダリング部410、ダウンミックス部421、およびパラメトリックアップミックス部422を示す。
理想(モデル化)レンダリングされた出力シーン信号zが、図(左)に示されるように、
Rx=z …(1)
として規定される。
ダウンミックスオーディオ信号yが、図4(右)に示されるように、
Dx=y …(2)
として決定される。
パラメトリック出力シーン信号の再構築のための(ダウンミックスオーディオ信号に適用される)構成的関係を、図4(右)に示されるように、
Gy=z …(3)
として表すことができる。
パラメトリックアップミックス行列は、数式(1)および(2)から、ダウンミックス行列およびレンダリング行列の以下の関数G=G(D,R)として規定される:
G=RED(DED−1 …(4)
以降において、実施形態によるパラメトリック音源推定の安定性の改善を検討する。
MPEG SAOC内のパラメトリック分離手法は、ミキシングにおける音源の最小二乗法(LMS)推定に基づく。LMS推定は、パラメトリック的に記述されたダウンミックスチャネル共分散行列Q=DED逆行列化を伴う。逆行列化のためのアルゴリズムは、一般に、悪条件行列の影響を受けやすい。そのような行列の逆行列化は、レンダリングされた出力シーンの意味において、アーチファクトといわれる不自然な音をもたらす可能性がある。MPEG SAOCにおいて、ヒューリスティックに決定された固定の閾値Tが、現在のところ、これを回避する。この方法によってアーチファクトが回避されるが、これによって、デコーダ側における十分可能な分離性能が達成されなくなる。
図1は、実施形態による、1以上のダウンミックスチャネルを有するダウンミックス信号から1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダを示す。ダウンミックス信号には、1以上のオーディオオブジェクト信号が符号化される。
デコーダは、1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーおよび/またはノイズエネルギーに応じて、もしくは1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーおよび/またはノイズエネルギーに応じて閾値を決定する閾値決定器110を備える。
さらに、デコーダは、閾値に応じて、1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するための処理部120を備える。
現行技術とは対照的に、閾値決定器110によって決定された閾値は、1以上のダウンミックスチャネルまたは符号化された1以上のオーディオオブジェクト信号の信号エネルギーやノイズエネルギーに依存する。実施形態では、1以上のダウンミックスチャネルおよび/または1以上のオーディオオブジェクト信号値の信号エネルギーおよびノイズエネルギーが変動すると、閾値も、例えば、時間インスタンスから時間インスタンスへ、または時間−周波数タイルから時間−周波数タイルへと変動する。
実施形態において、デコーダ側におけるオーディオオブジェクトの改善されたパラメトリック分離を実現する逆行列化のための適応的閾値の方法が提供される。分離性能は、平均として良好であり、Q行列を逆行列化するためのアルゴリズムにおいてMPEG SAOCで現在使用される固定閾値手法より悪くはならない。
閾値Tは、各々処理された時間−周波数タイルに対するデータの精度に対して動的に適応される。したがって、分離性能は改善され、不良条件行列の逆行列化によってもたらされるレンダリングされた出力シーンにおけるアーチファクトが回避される。
一実施形態によると、ダウンミックス信号は2以上のダウンミックスチャネルを有し、閾値決定器110は、2以上のダウンミックスチャネルの各々のノイズエネルギーに応じて、閾値を決定するように構成される。
一実施形態では、閾値決定器110は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて、閾値を決定するように構成される。
一実施形態によると、ダウンミックス信号には2以上のオーディオオブジェクト信号が符号化され、閾値決定器110は、2以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有するオーディオオブジェクト信号の信号エネルギーに応じて、閾値を決定するように構成される。
一実施形態によると、ダウンミックス信号は、2以上のダウンミックスチャネルを有し、閾値決定器110は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて、閾値を決定するように構成される。
一実施形態によると、ダウンミックス信号には、複数の時間−周波数タイルのうちの各時間−周波数タイルについて1以上のオーディオオブジェクト信号が符号化されている。閾値決定器110は、1以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、複数の時間−周波数タイルのうちの各時間−周波数タイルについて、閾値を決定するように構成され、複数の時間−周波数タイルのうちの第1の時間−周波数タイルの第1の閾値が、複数の時間−周波数タイルのうちの第2の時間−周波数タイルとは異なる。処理部120は、複数の時間−周波数タイルのうちの各時間−周波数タイルについて、上記の時間−周波数タイルの場合の閾値に応じて1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成される。
実施形態において、デコーダは、閾値Tを、数式
T=Enoise/(Eref・Z)
により、または数式
T=Enoise/Eref
により決定するように構成される。ここで、Tは、閾値を示し、Enoiseは、2以上のダウンミックスチャネルの全ノイズエネルギーの合計を示し、Erefは、オーディオオブジェクト信号のうちの1つの信号エネルギーを示し、Zは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Enoiseは、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値を示す。
一実施形態において、デコーダは、デシベル表記の閾値T[dB]を、数式
T[dB]=Enoise[dB]−Eref[dB]−Z
により、または数式
T[dB]=Enoise[dB]−Eref[dB]
により決定するように構成される。ここで、ここで、T[dB]は、デシベル表記の閾値を示し、Enoise[dB]は、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をデシベルで示し、Eref[dB]は、オーディオオブジェクト信号のうちの1つの信号エネルギーをデシベルで示し、Zは、追加パラメータを示し、この追加パラメータは数値である。代替の実施形態では、Enoise[dB]は、2以上のダウンミックスチャネルの全ノイズエネルギーの合計をダウンミックスチャネル数で除算した値をデシベルで示す。
具体的に、閾値は、各時間−周波数タイルについて、
T[dB]=Enoise[dB]−Eref[dB]−Z …(5)
によって概算できる。
noiseは、ノイズフロアレベルを示し、例えば、ダウンミックスチャネルにおける全ノイズエネルギーの合計である。ノイズフロアレベルは、オーディオデータの解像度によって定義され、例えば、チャネルのPCM符号化によってもたらされる。ダウンミックスが圧縮される場合には、符号化ノイズとして別の可能性を考慮することになる。そのような場合、符号化アルゴリズムによってもたらされたノイズフロアが加算される。代替の実施形態では、Enoise[dB]は、2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計をダウンミックスチャネル数によって除算した値をデシベルで示す。
ref は、基準信号エネルギーを示す。最も簡単な形態では、これは、最も強いオーディオオブジェクトのエネルギーとなる。
ref=max(E) …(6)
Zは、分離解像度に影響する追加パラメータを示し、例えば、ダウンミックスチャネル数と音源オブジェクト数の差に対処するためのペナルティファクタである。分離性能は、オーディオオブジェクト数の増加とともに減少する。さらに、分離におけるパラメトリック副情報の量子化の影響も含まれる。
一実施形態では、処理部120は、1以上のオーディオオブジェクト信号のオブジェクト共分散行列Eに応じて、2以上のダウンミックスチャネルを得るために2以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列Dに応じて、さらに閾値に応じて、1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成されている。
一実施形態によると、閾値に応じて1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するために、処理部120が、以下のように処理を進めるように構成される:
(「分離解像度閾値」といわれる)閾値が、デコーダ側で、パラメトリックに推定されたダウンミックスチャネル相互相関行列Qを逆行列化する関数に適用される。
Qの単一値またはQの固有値が計算される。
最大の固有値が採られ、閾値Tに乗算される。
最大の固有値以外の全てがこの相対閾値と比較され、それらが小さい場合には省かれる。
そして、逆行列化が修正行列上で実行される。ここで、修正行列を、例えば少ないベクトルの組によって規定された行列としてもよい。なお、最も高い固有値以外の全てが省かれる場合には最も高い固有値が、その固有値が低ければノイズフロアレベルに設定されるべきである。
例えば、処理部120は、修正行列を生成することによって1以上のダウンミックスチャネルから1以上のオーディオ出力チャネルを生成するように構成される。修正行列は、ダウンミックスチャネル相互相関行列Qのそれらの固有値のみに応じて生成され、それらの固有ベクトルは、ダウンミックスチャネル相互相関行列Qの固有値のうちの1つの固有値を有し、その1つの固有値は修正閾値以上である。処理部120は、修正行列の逆行列化を実行して、行列を得るように構成される。そして、処理部120は、行列をダウンミックスチャネルの1以上に適用して、1以上のオーディオ出力チャネルを生成するように構成される。例えば、行列は、行列DED 列がダウンミックスチャネルに適用されるような態様の1つにおいて、ダウンミックスチャネルの1以上に適用される(例えば、非特許文献6参照、具体的には、章「SAOC Processing」参照、より具体的には、節「Transcoding modes」および節「Decoding modes」参照)。
閾値Tを推定するために使用され得るパラメータは、エンコーダで決定してパラメトリック副情報に埋め込んでもよいし、デコーダ側で直接推定してもよい。
簡素化した閾値推定器をエンコーダ側で用いて、デコーダ側での音源推定における潜在的な不安定さを示すこともできる。その最も簡単な形態では、全てのノイズ項を無視し、デコーダ側における音源信号をパラメトリック的に推定するための利用可能なダウンミックスチャネルの全の可能性については利用できないことを示すダウンミックスチャネルのノルムが計算される。そのようなインジケータをミキシング処理中に用いて、音源信号の推定に重大な影響を及ぼす行列が混合するのを回避することができる。
オブジェクト共分散行列のパラメータ化に関して、構成的な関係式(4)に基づく上記パラメトリックアップミックス方法が、オブジェクト共分散行列Eの非対角構成要素の符号に対して不変であると解される。これによって、オブジェクト間の相関を表す値の(SAOCとの比較において)より効率的なパラメータ化(量子化および符号化)ができる可能性がもたらされる。
ダウンミックス行列を表す情報の変換に関して、一般に、共分散行列Eと共にオーディオ入力およびダウンミックス信号x、yは、エンコーダ側で決定される。ダウンミックスオーディオ信号yの符号化された表示および共分散行列Eを記述する情報が、デコーダ側に(ビットストリームのペイロードを介して)送信される。レンダリング行列Rが設定され、デコーダ側で利用可能となる。
(エンコーダ側で適用されてデコーダ側で使用される)ダウンミックス行列Dを表す情報は、以下の基本的方法を用いて、(エンコーダで)決定され、(デコーダで)得られる。
ダウンミックス行列Dは:
− (エンコーダで)設定および適用され、その量子化および符号化された表示が、ビットストリームのペイロードを介して、(デコーダに)明示的に送信される。
− 格納された参照テーブル(すなわち、所定のダウンミックス行列の組)を用いて、(エンコーダで)割当ておよび適用され、(デコーダで)復元される。
− 特定のアルゴリズムまたは方法(例えば、利用可能なダウンミックスチャネルに対するオーディオオブジェクトの空間的に重み付けおよび順序付けされた等距離配置)に従って、(エンコーダで)割当ておよび適用され、(デコーダで)復元される。
− 入力オーディオオブジェクトの「柔軟なミキシング」を可能とする特定の最適化基準(すなわち、デコーダ側でのオーディオオブジェクトのパラメトリック推定に最適化されたダウンミックス行列の生成)を用いて、(エンコーダで)推定および適用され、(デコーダで)復元される。例えば、エンコーダが、共分散、信号間の相関のような空間信号特性の再構築の観点で、パラメトリックなアップミックスをより効率的にし、または、パラメトリックアップミックスアルゴリズムの数値的安定性を改善または確保する態様で、ダウンミックス行列を生成する。
与えられた実施形態は、任意のダウンミックス/アップミックスチャネル数に適用できる。それは、任意の現在または将来のオーディオフォーマットに組み合わせることができる。
発明の方法の柔軟性によって、変更されないチャネルをバイパスして計算の複雑さを軽減し、ビットストリームのペイロードを低減させ/データ量を減少させることが可能となる。
符号化のためのオーディオエンコーダ、方法またはコンピュータプログラムが提供される。さらに、復号化のためのオーディオデコーダ、方法またはコンピュータプログラムが提供される。またさらに、符号化された信号が提供される。
いくつかの形態を装置との関連で説明したが、それらの形態が対応の方法の説明も兼ねることは明らかであり、ブロックまたはデバイスは方法のステップまたは方法のステップの特徴に対応する。同様に、方法ステップに関連して説明した形態はまた、対応する装置の対応のブロック、内容または特徴の記載も兼ねる。
本発明の分解された信号は、デジタル記憶媒体に記憶され、またはインターネットのような無線伝送媒体もしくは有線伝送媒体といった伝送媒体上で伝送されることができる。
特定の実施要件に応じて、発明の実施形態は、ハードウェアまたはソフトウェアで実施されることができる。その実施は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することができる)電子的に読み取り可能な制御信号が記憶されたデジタル記憶媒体、例えば、フレキシブルディスク、DVD、CD、ROM、PROM、EPROM、EEPROM(登録商標)もしくはフラッシュメモリを用いて実行することができる。
本発明によるいくつかの実施形態は、ここに記載された方法の1つが実行されるようなプログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを備える。
一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施でき、プログラムコードは、コンピュータプログラム製品がコンピュータ上で稼働したときに方法の1つを実行するように動作するものである。プログラムコードは、例えば、機械読み取り可能なキャリア上に記憶されることができる。
他の実施形態は、ここに記載された方法の1つを実行するための、機械読み取り可能なキャリアに記憶されたコンピュータプログラムを有する。
言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で稼働するときに、ここに記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法のさらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムを、記録して備えるデータキャリア(すなわち、デジタル記憶媒体またはコンピュータ可読媒体)である。
したがって、本発明の方法のさらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、例えばデータ通信接続、例えばインターネットを介して転送されるために構成されてもよい。
さらなる実施形態は、ここに記載された方法の1つを実行するように構成または適合された、例えば、コンピュータまたはプログラマブルロジックデバイスなどの処理手段を含む。
さらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
実施形態によっては、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ、FPGA)が、ここに記載された方法の機能の一部または全部を実行するのに使用されてもよい。実施形態によっては、ここに記載された方法の1つを実行するために、フィールドプログラマブルゲートアレイはマイクロプロセッサと協働してもよい。一般に、それらの方法は、あらゆるハードウェア装置によって実行される。
上述した実施形態は、本発明の原理を例示的に示しただけである。ここに記載された構成および詳細の変形例や修正例は、当業者には明白であろう。したがって、実施形態の記述および説明によってここに提示された具体的詳細によってではなく、直後に記載する特許請求の範囲によってのみ限定されることを意図するものである。

Claims (14)

  1. 1以上のダウンミックスチャネルを有し2以上のオーディオオブジェクト信号が符号化されたダウンミックス信号から、1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成するデコーダにおいて、
    前記2以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、閾値を決定する閾値決定器(110)と、
    前記1以上のダウンミックスチャネルに応じた1以上の判定値を決定し、この1以上の判定値を前記閾値と比較して、前記1以上のオーディオ出力チャネルを生成する処理部(120)と、
    を備えたデコーダ。
  2. 請求項1に記載のデコーダにおいて、
    前記ダウンミックス信号は2以上のダウンミックスチャネルを有し、
    前記閾値決定器(110)は、前記2以上のダウンミックスチャネルの各々のノイズエネルギーに応じて閾値を決定するように構成された、デコーダ。
  3. 請求項2に記載のデコーダにおいて、前記閾値決定器(110)は、前記2以上のダウンミックスチャネルにおける全ノイズエネルギーの合計に応じて閾値を決定するように構成された、デコーダ。
  4. 請求項1から3のいずれか1項に記載のデコーダにおいて、前記閾値決定器(110)は、前記2以上のオーディオオブジェクト信号のうちの最大の信号エネルギーを有する前記オーディオオブジェクト信号の信号エネルギーに応じて閾値を決定するように構成された、デコーダ。
  5. 請求項1からのいずれか1項に記載のデコーダにおいて、
    前記ダウンミックス信号には、複数の時間−周波数タイルのうち各時間−周波数タイルについて前記以上のオーディオオブジェクト信号が符号化され、
    前記閾値決定器(110)は、前記以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、前記複数の時間−周波数タイルのうち各時間−周波数タイルについて閾値を決定するように構成され、前記複数の時間−周波数タイルのうち第1の時間−周波数タイルの第1の閾値が複数の時間−周波数タイルのうち第2の時間−周波数タイルとは異なり、
    前記処理部(120)は、前記複数の時間−周波数タイルのうち各時間−周波数タイルについて、その時間−周波数タイルの閾値に応じて、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルの各々のチャネル値を生成するように構成された、デコーダ。
  6. 請求項1からのいずれか1項に記載のデコーダにおいて、
    前記ダウンミックス信号は2以上のダウンミックスチャネルを有し、
    デシベル表記の閾値T[dB]を、数式
    T[dB]=Enoise[dB]−Eref[dB]−Z
    により、または数式
    T[dB]=Enoise[dB]−Eref[dB]
    により決定するように構成され、ここで、T[dB]は、閾値をデシベルで示し、Enoise[dB]は、前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計、または前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計を前記2以上のダウンミックスチャネルの数で除算した値、をデシベルで示し、Eref[dB]は、オーディオオブジェクト信号のうちの1つの信号エネルギーをデシベルで示し、Zは、追加パラメータを示し、この追加パラメータは数値である、デコーダ。
  7. 請求項1からのいずれか1項に記載のデコーダにおいて、
    閾値Tを、数式
    T=Enoise/(Eref・Z)
    により、または数式
    T=Enoise/Eref
    により決定するように構成され、ここで、Tは、閾値を示し、Enoiseは、前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計、または前記2以上のダウンミックスチャネルの全ノイズエネルギーの合計を前記2以上のダウンミックスチャネルの数で除算した値、を示し、Ere 、オーディオオブジェクト信号のうちの1つの信号エネルギーを示し、Zは、追加パラメータを示し、この追加パラメータは数値である、デコーダ。
  8. 請求項1からのいずれか1項に記載のデコーダにおいて、前記処理部(120)は、前記1以上のオーディオオブジェクト信号のオブジェクト共分散行列(E)に応じて、前記以上のダウンミックスチャネルを得るために前記2以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列(D)に応じて、さらに前記閾値に応じて、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成された、デコーダ
  9. 請求項8に記載のデコーダにおいて、
    前記処理部(120)は、ダウンミックスチャネル相互相関行列Qを逆行列化する関数に前記閾値を適用することによって、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成され、
    Qが、Q=DEDとして定義され、
    Dは、前記2以上のダウンミックスチャネルを得るために前記2以上のオーディオオブジェクト信号をダウンミックスするダウンミックス行列であり、
    Eは、前記1以上のオーディオオブジェクト信号のオブジェクト共分散行列である、
    デコーダ。
  10. 請求項9に記載のデコーダにおいて、前記処理部(120)は、前記ダウンミックスチャネル相互相関行列Qの固有値を計算することによって、または前記ダウンミックスチャネル相互相関行列Qの単一の値を計算することによって、前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成された、デコーダ。
  11. 請求項または10に記載のデコーダにおいて、前記処理部(120)は、前記ダウンミックスチャネル相互相関行列Qの固有値のうちの最大の固有値に前記閾値を乗じて相対閾値を得ることによって前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成された、デコーダ
  12. 請求項11に記載のデコーダにおいて、
    前記処理部(120)は、修正行列を生成することによって前記1以上のダウンミックスチャネルから前記1以上のオーディオ出力チャネルを生成するように構成され、
    前記処理部(120)は、前記ダウンミックスチャネル相互相関行列Qの固有値であって、前記ダウンミックスチャネル相互相関行列Qの前記固有値のうちの前記相対閾値以上の1つの固有値、を有する固有ベクトルのみに応じて、前記修正行列を生成するように構成され、
    前記処理部(120)は、行列を得るために前記修正行列の逆行列化を実行するように構成され、
    前記処理部(120)は、前記1以上のオーディオ出力チャネルを生成するために前記行列を1以上のダウンミックスチャネルに適用するように構成された、
    デコーダ。
  13. 1以上のダウンミックスチャネルを有し2以上のオーディオオブジェクト信号が符号化されたダウンミックス信号から、1以上のオーディオ出力チャネルを有するオーディオ出力信号を生成する方法において、
    前記2以上のオーディオオブジェクト信号のうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、または前記1以上のダウンミックスチャネルのうちの少なくとも1つの信号エネルギーもしくはノイズエネルギーに応じて、閾値を決定し、
    前記1以上のダウンミックスチャネルに応じて1以上の判定値を決定し、
    この1以上の判定値を前記閾値と比較することにより、前記1以上のオーディオ出力チャネルを生成する
    方法。
  14. コンピュータまたは信号プロセッサで実行されるときに請求項13に記載の方法を実施するためのコンピュータプログラム。
JP2015524812A 2012-08-03 2013-08-05 マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法 Active JP6133422B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261679404P 2012-08-03 2012-08-03
US61/679,404 2012-08-03
PCT/EP2013/066405 WO2014020182A2 (en) 2012-08-03 2013-08-05 Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases

Publications (2)

Publication Number Publication Date
JP2015528926A JP2015528926A (ja) 2015-10-01
JP6133422B2 true JP6133422B2 (ja) 2017-05-24

Family

ID=49150906

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015524812A Active JP6133422B2 (ja) 2012-08-03 2013-08-05 マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法

Country Status (18)

Country Link
US (1) US10096325B2 (ja)
EP (1) EP2880654B1 (ja)
JP (1) JP6133422B2 (ja)
KR (1) KR101657916B1 (ja)
CN (2) CN104885150B (ja)
AU (2) AU2013298463A1 (ja)
BR (1) BR112015002228B1 (ja)
CA (1) CA2880028C (ja)
ES (1) ES2649739T3 (ja)
HK (1) HK1210863A1 (ja)
MX (1) MX350690B (ja)
MY (1) MY176410A (ja)
PL (1) PL2880654T3 (ja)
PT (1) PT2880654T (ja)
RU (1) RU2628195C2 (ja)
SG (1) SG11201500783SA (ja)
WO (1) WO2014020182A2 (ja)
ZA (1) ZA201501383B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2980801A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
JP6437136B2 (ja) 2015-04-30 2018-12-12 華為技術有限公司Huawei Technologies Co.,Ltd. オーディオ信号処理装置および方法
WO2016173659A1 (en) * 2015-04-30 2016-11-03 Huawei Technologies Co., Ltd. Audio signal processing apparatuses and methods
JP6921832B2 (ja) * 2016-02-03 2021-08-18 ドルビー・インターナショナル・アーベー オーディオ符号化における効率的なフォーマット変換
GB2548614A (en) * 2016-03-24 2017-09-27 Nokia Technologies Oy Methods, apparatus and computer programs for noise reduction
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US11765536B2 (en) 2018-11-13 2023-09-19 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
GB2580057A (en) * 2018-12-20 2020-07-15 Nokia Technologies Oy Apparatus, methods and computer programs for controlling noise reduction
CN109814406B (zh) * 2019-01-24 2021-12-24 成都戴瑞斯智控科技有限公司 一种轨道模型电控仿真系统的数据处理方法及解码器架构
CN114391262B (zh) 2019-07-30 2023-10-03 杜比实验室特许公司 跨具有不同回放能力的设备的动态处理
US11968268B2 (en) 2019-07-30 2024-04-23 Dolby Laboratories Licensing Corporation Coordination of audio devices

Family Cites Families (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4669120A (en) * 1983-07-08 1987-05-26 Nec Corporation Low bit-rate speech coding with decision of a location of each exciting pulse of a train concurrently with optimum amplitudes of pulses
JP3707116B2 (ja) * 1995-10-26 2005-10-19 ソニー株式会社 音声復号化方法及び装置
US6400310B1 (en) * 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
WO2003092260A2 (en) * 2002-04-23 2003-11-06 Realnetworks, Inc. Method and apparatus for preserving matrix surround information in encoded audio/video
EP1521240A1 (en) * 2003-10-01 2005-04-06 Siemens Aktiengesellschaft Speech coding method applying echo cancellation by modifying the codebook gain
CN1930914B (zh) * 2004-03-04 2012-06-27 艾格瑞系统有限公司 对多声道音频信号进行编码和合成的方法和装置
ES2373728T3 (es) * 2004-07-14 2012-02-08 Koninklijke Philips Electronics N.V. Método, dispositivo, aparato codificador, aparato decodificador y sistema de audio.
US7720230B2 (en) * 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
RU2473062C2 (ru) * 2005-08-30 2013-01-20 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способ кодирования и декодирования аудиосигнала и устройство для его осуществления
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
JP5220840B2 (ja) * 2007-03-30 2013-06-26 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
JP5133401B2 (ja) * 2007-04-26 2013-01-30 ドルビー・インターナショナル・アクチボラゲット 出力信号の合成装置及び合成方法
DE102008009024A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum synchronisieren von Mehrkanalerweiterungsdaten mit einem Audiosignal und zum Verarbeiten des Audiosignals
DE102008009025A1 (de) * 2008-02-14 2009-08-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen eines Fingerabdrucks eines Audiosignals, Vorrichtung und Verfahren zum Synchronisieren und Vorrichtung und Verfahren zum Charakterisieren eines Testaudiosignals
WO2009116280A1 (ja) 2008-03-19 2009-09-24 パナソニック株式会社 ステレオ信号符号化装置、ステレオ信号復号装置およびこれらの方法
WO2009125046A1 (en) * 2008-04-11 2009-10-15 Nokia Corporation Processing of signals
KR101629862B1 (ko) 2008-05-23 2016-06-24 코닌클리케 필립스 엔.브이. 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더
DE102008026886B4 (de) * 2008-06-05 2016-04-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Verfahren zur Strukturierung einer Nutzschicht eines Substrats
JP5366104B2 (ja) * 2008-06-26 2013-12-11 オランジュ マルチチャネル・オーディオ信号の空間合成
PT2146344T (pt) * 2008-07-17 2016-10-13 Fraunhofer Ges Forschung Esquema de codificação/descodificação de áudio com uma derivação comutável
EP2154911A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. An apparatus for determining a spatial output multi-channel audio signal
EP2175670A1 (en) * 2008-10-07 2010-04-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Binaural rendering of a multi-channel audio signal
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2218447B1 (en) * 2008-11-04 2017-04-19 PharmaSol GmbH Compositions containing lipid micro- or nanoparticles for the enhancement of the dermal action of solid particles
WO2010070225A1 (fr) * 2008-12-15 2010-06-24 France Telecom Codage perfectionne de signaux audionumeriques multicanaux
US8817991B2 (en) * 2008-12-15 2014-08-26 Orange Advanced encoding of multi-channel digital audio signals
KR101485462B1 (ko) * 2009-01-16 2015-01-22 삼성전자주식회사 후방향 오디오 채널의 적응적 리마스터링 장치 및 방법
EP2214162A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Upmixer, method and computer program for upmixing a downmix audio signal
CN101533641B (zh) * 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
BR112012009490B1 (pt) * 2009-10-20 2020-12-01 Fraunhofer-Gesellschaft zur Föerderung der Angewandten Forschung E.V. ddecodificador de áudio multimodo e método de decodificação de áudio multimodo para fornecer uma representação decodificada do conteúdo de áudio com base em um fluxo de bits codificados e codificador de áudio multimodo para codificação de um conteúdo de áudio em um fluxo de bits codificados
TWI443646B (zh) * 2010-02-18 2014-07-01 Dolby Lab Licensing Corp 音訊解碼器及使用有效降混之解碼方法
CN102243876B (zh) * 2010-05-12 2013-08-07 华为技术有限公司 预测残差信号的量化编码方法及装置

Also Published As

Publication number Publication date
MX350690B (es) 2017-09-13
CA2880028C (en) 2019-04-30
KR20150032734A (ko) 2015-03-27
CN110223701B (zh) 2024-04-09
EP2880654A2 (en) 2015-06-10
HK1210863A1 (en) 2016-05-06
KR101657916B1 (ko) 2016-09-19
AU2013298463A1 (en) 2015-02-19
AU2016234987A1 (en) 2016-10-20
AU2016234987B2 (en) 2018-07-05
RU2628195C2 (ru) 2017-08-15
ES2649739T3 (es) 2018-01-15
US10096325B2 (en) 2018-10-09
CA2880028A1 (en) 2014-02-06
WO2014020182A2 (en) 2014-02-06
WO2014020182A3 (en) 2014-05-30
ZA201501383B (en) 2016-08-31
PT2880654T (pt) 2017-12-07
CN104885150B (zh) 2019-06-28
EP2880654B1 (en) 2017-09-13
MX2015001396A (es) 2015-05-11
BR112015002228A2 (pt) 2019-10-15
CN104885150A (zh) 2015-09-02
US20150142427A1 (en) 2015-05-21
SG11201500783SA (en) 2015-02-27
MY176410A (en) 2020-08-06
CN110223701A (zh) 2019-09-10
PL2880654T3 (pl) 2018-03-30
RU2015107202A (ru) 2016-09-27
BR112015002228B1 (pt) 2021-12-14
JP2015528926A (ja) 2015-10-01

Similar Documents

Publication Publication Date Title
JP6133422B2 (ja) マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
KR101823279B1 (ko) 인코딩된 표현에 기초하여 적어도 4개의 오디오 채널 신호들을 제공하기 위한 오디오 디코더, 오디오 인코더, 방법, 적어도 4개의 오디오 채널 신호들에 기초하여 인코딩된 표현을 제공하기 위한 방법, 및 대역폭 확장을 이용하는 컴퓨터 프로그램
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
JP2016525716A (ja) 適応位相アライメントを用いたマルチチャネルダウンミックスにおけるコムフィルタアーチファクトの抑制
RU2696952C2 (ru) Аудиокодировщик и декодер
JP6141978B2 (ja) マルチチャネル・ダウンミックス/アップミックス構成のためのパラメトリックコンセプトを採用したマルチインスタンス方式の空間音響オブジェクト符号化用のデコーダおよびその方法
JP6141980B2 (ja) 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160525

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160531

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160819

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161130

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170321

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170419

R150 Certificate of patent or registration of utility model

Ref document number: 6133422

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250