JP6141980B2 - 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 - Google Patents

空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 Download PDF

Info

Publication number
JP6141980B2
JP6141980B2 JP2015525793A JP2015525793A JP6141980B2 JP 6141980 B2 JP6141980 B2 JP 6141980B2 JP 2015525793 A JP2015525793 A JP 2015525793A JP 2015525793 A JP2015525793 A JP 2015525793A JP 6141980 B2 JP6141980 B2 JP 6141980B2
Authority
JP
Japan
Prior art keywords
information
audio
adaptive
input
dmx
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015525793A
Other languages
English (en)
Other versions
JP2015525905A (ja
Inventor
カシュトナー,トルシュテン
ヘッレ,ユェルゲン
テレンティフ,レオン
ヘルムート,オリファー
パウルス,ヨウニ
リッデルブッシュ,ファルコ
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2015525905A publication Critical patent/JP2015525905A/ja
Application granted granted Critical
Publication of JP6141980B2 publication Critical patent/JP6141980B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、オーディオ信号復号化およびオーディオ信号処理に関し、特に、空間オーディオオブジェクト符号化(SAOC)においてオーディオ情報を適応させるデコーダおよび方法に関する。
近年のデジタルオーディオシステムでは、受信側においてオーディオオブジェクトに関連した送信コンテンツの変更修正をできるようにすることが主流となっている。これらの変更修正は、オーディオ信号の選択された部分のゲイン修正、および/または空間的に分散されるスピーカを介したマルチチャンネル再生の際の専用オーディオオブジェクトの空間的再位置決めを含む。これは、オーディオコンテンツの異なる部分を異なるスピーカに個々に配信することによって実現される。
言い換えると、オーディオの処理、オーディオの伝送、およびオーディオの蓄積の技術において、オブジェクト指向のオーディオコンテンツ再生におけるユーザ対話を可能にすることへの要望、および聴覚的印象を向上するためにマルチチャンネル再生の拡張された可能性を利用してオーディオコンテンツまたはその一部を個々に表現することへの要求が高まっている。これによって、マルチチャンネルオーディオコンテンツの使用がユーザに大きな改善をもたらす。例えば、娯楽用途において、ユーザ満足度の向上をもたらすような、三次元の聴覚的印象が得られる。一方、マルチチャンネルオーディオコンテンツは、マルチチャンネルオーディオ再生を用いることによって話し手の明瞭度が改善されるので、例えば、電話会議用途などの仕事環境においても有用である。他に考えられる用途としては、楽曲の聴取者に、ボーカル部分または異なる楽器といった異なる部分(「オーディオオブジェクト」ともいう)やトラックの再生レベルおよび/または空間位置を個々に調整してもらうものがある。ユーザは、個人的な好み、教育的目的、カラオケ、リハーサルなどの理由により、楽曲から1以上の部分をより簡単に再生するために、そのような調整を行うことができる。
全てのデジタルマルチチャンネルまたはマルチオブジェクト・オーディオコンテンツを、そのまま、例えば、パルス符号変調(PCM)データ形式や、さらには圧縮オーディオ形式などで、個別に送信すると、非常に高いビットレートを要する。しかしながら、ビットレート効率よく、オーディオデータを送信し蓄積することが望ましい。したがって、マルチチャンネル/マルチオブジェクト・アプリケーションにより生じる過度なリソース負担を回避するため、オーディオ品質とビットレート要件との間で、合理的なトレードオフが許容されている。
最近では、オーディオ符号化の分野において、マルチチャンネル/マルチオブジェクトオーディオ信号のビットレート効率が良い送信/蓄積のためのパラメトリック技術が、例えば、MPEGその他によって導入されている。一例として、チャンネル指向アプローチとしてMPEGサラウンド(MPS)(非特許文献1、2)が、またオブジェクト指向アプローチとしてMPEG空間オーディオオブジェクト符号化(SAOC)(非特許文献3から5)が挙げられる。他のオブジェクト指向アプローチは、「情報化音源分離」といわれる(非特許文献7から12)。これらの技術は、所望の出力オーディオシーンまたは所望のオーディオ源オブジェクトを、チャンネル/オブジェクトならびに送信/蓄積されたオーディオシーンおよび/またはオーディオシーンにおけるオーディオ源オブジェクトを記述する付加的な副情報のダウンミックスに基づいて再構築することを目的とする。
そのようなシステムでのチャンネル/オブジェクト関連副情報の推定および適用は、時間−周波数選択的態様で行われる。したがって、そのようなシステムは、離散フーリエ変換(DFT)、短時間フーリエ変換(STFT)またはフィルタバンク的な直交ミラーフィルタ(QMF)バンクなどの時間−周波数変換を使用する。このシステムの基本的原理を、MPEG SAOCの例を用いて、図3に示す。
STFTの場合には、時間の次元が時間ブロック数によって表され、スペクトルの次元がスペクトル係数(「ビン」)によって捕捉される。QMFの場合には、時間の次元がタイムスロット数によって表され、スペクトルの次元がサブバンド数によって捕捉される。QMFのスペクトル解像度が後続の第2のフィルタ段の適用によって向上された場合、フィルタバンク全体はハイブリッドQMFと称され、高解像度のサブバンドはハイブリッドサブバンドと称される。
上述のように、SAOCでは、一般的な処理が、時間−周波数選択的態様で実行され、図3に示すように、各周波数帯域内で以下のように説明される:
− N個の入力オーディオ信号s・・・sを、エンコーダ処理の一部として、要素d1,1・・・dN,Pからなるダウンミックス行列を用いてP個のチャンネルx・・・xへとミックスダウンする。さらに、エンコーダは、入力オーディオオブジェクトの特性を記述する副情報を抽出する(副情報推定器(SIE)モジュール)。MPEG SAOCにとって、オブジェクトのパワーの相互の関係が、そのような副情報の最も基本的なものである。
− ダウンミックス信号および副情報を送信/蓄積する。この目的のため、例えば、MPEG−1/2 Layer2または3(mp3)、MPEG−2/4 Advanced Audio Coding(AAC)など周知の知覚オーディオコーダを用いて、ダウンミックスオーディオ信号を圧縮することができる。
− 受信端において、デコーダは、概念的には、送信された副情報を用いて(復号された)ダウンミックス信号から元のオブジェクト信号を復元しようとする(「オブジェクト分離」)。そして、これらの近似オブジェクト信号s ・・・s は、図3における係数r1,1・・・rN,Mによって記述されたレンダリング行列を用いて、M個のオーディオチャンネルy^1・・・y^によって表される目標シーンにミキシングされる。所望の目標シーンは、極端な場合では、ミキシングの中の1つだけの音源信号のレンダリングであってもよいし(音源分離シナリオ)、送信されるオブジェクトからなる他の任意の音響シーンであってもよい。例えば、出力は、単一チャンネル、2チャンネルステレオまたは5.1マルチチャンネルの目標シーンとすることができる。
図6に、オーディオ符号化/復号化手法の原理を模式的に示す。具体的には、図6は、オーディオ符号化/復号化チェーンの原理説明である。
符号化側において、オーディオ信号がオーディオ符号化手法によって(通常は知覚効果を利用して)圧縮され、パラメトリック副情報(PSI)が計算される(エンコーダ601参照)。符号化されたオーディオ信号およびPSIからなる、結果として得られるビットストリームは、デコーダ側に蓄積(または送信)され、それらは図6において「A」、「B」などが付された種々のデコーダインスタンス620、621および622によって復号されることができる。これらのデコーダインスタンスは、相互に異なる(例えば、標準規格、用途や実施上の制約において複雑さが異なる)(非特許文献4から6)。
オーディオ符号化の分野における利用可能な帯域/蓄積容量の増加および進行中の改善によって、ユーザは、徐々に増加している選択肢からマルチチャンネルオーディオ製品を選択することができる。マルチチャンネル5.1オーディオフォーマットは、既にDVDおよびブルーレイ製品において標準となっている。より多くのオーディオ移送チャンネルを持つMPEG−H 3D Audioのような新たなオーディオフォーマットが出現し、これは高度な没入型のオーディオ体験をエンドユーザに提供することになる。
ISO/IEC 23003−1:2007,MPEG−D(MPEG audio technologies),Part 1:MPEG Surround,2007 C.Faller and F.Baumgarte,"Binaural Cue Coding−Part II:Schemes and applications,"IEEE Trans. on Speech and Audio Proc.,vol.11,no.6,Nov.2003 C.Faller,"Parametric Joint−Coding of Audio Sources",120th AES Convention,Paris,2006 J.Herre,S.Disch,J.Hilpert,O.Hellmuth:"From SAC To SAOC−Recent Developments in Parametric Coding of Spatial Audio",22nd Regional UK AES Conference,Cambridge,UK,April 2007 J.Engdegaerd,B.Resch,C.Falch,O.Hellmuth,J.Hilpert,A.Hoelzer,L.Terentiev,J.Breebaart,J.Koppens,E.Schuijers and W.Oomen:"Spatial Audio Object Coding(SAOC)−The Upcoming MPEG Standard on Parametric Object Based Audio Coding",124th AES Convention,Amsterdam 2008 ISO/IEC,"MPEG audio technologies−Part 2:Spatial Audio Object Coding(SAOC)",ISO/IEC JTC1/SC29/WG11(MPEG) International Standard 23003−2 M.Parvaix and L.Girin:"Informed Source Separation of underdetermined instantaneous Stereo Mixtures using Source Index Embedding",IEEE ICASSP,2010 M.Parvaix,L.Girin,J.−M.Brossier:"A watermarking−based method for informed source separation of audio signals with a single sensor",IEEE Transactions on Audio,Speech and Language Processing,2010 A.Liutkus and J.Pinel and R.Badeau and L.Girin and G.Richard:"Informed source separation through spectrogram coding and data embedding",Signal Processing Journal,2011 A.Ozerov,A.Liutkus,R.Badeau,G.Richard:"Informed source separation:source coding meets source separation",IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2011 Shuhua Zhang and Laurent Girin:"An Informed Source Separation System for Speech Signals",INTERSPEECH,2011 L.Girin and J.Pinel:"Informed Audio Source Separation from Compressed Linear Stereo Mixtures",AES 42nd International Conference:Semantic Audio,2011
現行の符号化手法は、PSIを特定の目標アプリケーションシナリオまたはプラットフォームに効率的な態様で適応させることができない。このことによって、(必要以上に)高い計算の複雑さがデコーダ側にもたらされたり、互換性の問題が引き起こされたりする。
本発明の目的は、オーディオオブジェクト符号化に関する改善された概念を提供することである。本発明の課題は、請求項1に記載のデコーダ、請求項14に記載の方法、および請求項15に記載のコンピュータプログラムによって解決される。
1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置が提供される。入力オーディオ情報は、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む。適応オーディオ情報は、1以上の適応オーディオダウンミックスチャンネルを含み、適応メトリック副情報をさらに含む。
この装置は、適応情報に基づき2以上の入力オーディオダウンミックスチャンネルを適応させて、1以上の適応オーディオダウンミックスチャンネルを得るダウンミックス信号修正器を備える。
さらに、この装置は、適応情報に基づき入力パラメトリック副情報を適応させて、適応パラメトリック副情報を得るパラメトリック副情報適応器を備える。
一実施形態によると、ダウンミックス信号修正器は、1以上の適応オーディオダウンミックスチャンネルの数が2以上の入力オーディオダウンミックスチャンネルの数よりも小さくなるように、適応情報に基づき2以上の入力オーディオダウンミックスチャンネルを適応させるように構成されていてもよい。
一実施形態において、適応情報はデコーダインスタンスに依存していてもよい。ダウンミックス信号修正器は、デコーダインスタンスに応じて2以上の入力オーディオダウンミックスチャンネルを適応させるように構成されていてもよい。ここで、また以降においても、用語「デコーダ」および「デコーダインスタンス」は同じ意味である。
一実施形態によると、デコーダインスタンスは、最大でダウンミックスチャンネルの最大数を復号することができる。適応情報は、ダウンミックスチャンネルの最大数に依存していてもよい。ダウンミックス信号修正器は、1以上の適応オーディオダウンミックスチャンネルの数が2以上のダウンミックスチャンネルの上記最大数に等しくなるように、適応情報に応じて2以上の入力オーディオダウンミックスチャンネルを適応させて1以上の適応オーディオダウンミックスチャンネルを得るように構成されていてもよい。
一実施形態によると、適応情報は、適応行列Ddmx DSMを含むことができる。
一実施形態において、ダウンミックス信号修正器は、適応行列Ddmx DSMに基づき2以上のオーディオダウンミックスチャンネルXdmx ENCを適応させて、1以上の適応オーディオダウンミックスチャンネルXdmx DSMを得るように構成されていてもよい。
一実施形態によると、ダウンミックス信号修正器は、
Figure 0006141980
を適用することによって、適応行列Ddmx DSMに基づき2以上のオーディオダウンミックスチャンネルXdmx ENCを適応させて、1以上の適応オーディオダウンミックスチャンネルXdmx DSMを得るように構成されていてもよい。
一実施形態において、パラメトリック副情報適応器は、構成されていてもよい。
適応行列Ddmx DSMに基づき入力パラメトリック副情報Ddmx ENCを適応させて、適応パラメトリック副情報Ddmx PSIを得るように
一実施形態によると、パラメトリック副情報適応器は、
Figure 0006141980
を適用することによって、適応行列Ddmx DSMに基づき入力パラメトリック副情報Ddmx ENCを適応させて、適応パラメトリック副情報Ddmx PSIを得るように構成されてもよい。
一実施形態において、入力パラメトリック副情報Ddmx ENCは、1以上のオーディオオブジェクトSに適用することによって2以上の入力オーディオダウンミックスチャンネルXdmx encが得られる初期ダウンミックス行列Ddmx encを示してもよい。パラメトリック副情報適応器は、適応ダウンミックス行列Ddmx PSIを1以上のオーディオオブジェクトSに適用することによって、2以上の入力オーディオダウンミックスチャンネルXdmx DSMが得られるように、適応ダウンミックス行列Ddmx PSIを適応パラメトリック副情報として決定するように構成されてもよい。
さらに、一実施形態によると、1以上のオーディオオブジェクトが符号化された入力オーディオ情報から1以上のオーディオチャンネルを生成する装置が提供される。
1以上のオーディオチャンネルを生成する装置は、入力オーディオ情報を適応させて適応オーディオ情報を得る上述の実施形態のうちの1つによる装置を備え、入力オーディオ情報は、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含み、適応オーディオ情報は、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む。
さらに、1以上のオーディオチャンネルを生成する装置は、適応パラメトリック副情報に基づき1以上の適応オーディオダウンミックスチャンネルを復号して1以上のオーディオチャンネルを得るデコーダインスタンスを備える。
一実施形態によると、入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されていてもよい。入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力パラメトリック副情報を適応させて適応パラメトリック副情報を取得し、適応パラメトリック副情報をデコーダインスタンスに供給するように構成されていてもよい。デコーダインスタンスは、適応パラメトリック副情報に基づき1以上の適応オーディオダウンミックスチャンネルを復号するように構成されていてもよい。
他の実施形態では、入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されていてもよい。入力オーディオ情報を適応させるパラメトリック副情報適応器は、入力ビットストリーム内の入力パラメトリック副情報を適応パラメトリック副情報によって置換して、修正ビットストリームを得るように構成されていてもよい。入力オーディオ情報を適応させるパラメトリック副情報適応器は、修正ビットストリームをデコーダインスタンスに供給するように構成されていてもよい。さらに、デコーダインスタンスは、修正ビットストリームに応じて1以上の適応オーディオダウンミックスチャンネルを復号するように構成されていてもよい。
また、1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る方法が提供される。入力オーディオ情報は、2以上の入力オーディオダウンミックスチャネルを含み、入力パラメトリック副情報をさらに含む。適応オーディオ情報は、1以上の適応オーディオダウンミックスチャネルを含み、さらに適応パラメトリック副情報を含む。この方法は、
− 適応情報に基づき2以上の入力オーディオダウンミックスチャネルを適応させて1以上の適応オーディオダウンミックスチャネルを取得し、
− 適応情報に応じて入力パラメトリック副情報を適応さてせ適応パラメトリック副情報を得る
ことを含む。
さらに、コンピュータまたは信号プロセッサで実行されるときに上述の方法を実施するためのコンピュータプログラムが提供される。
好ましい実施形態が、従属請求項において提供される。
以下に、図面を参照して本発明の実施形態をより詳細に説明する。
以下、本発明の実施形態を、図面を参照してより詳しく説明する。
一実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。 他の実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。 SAOC方式の概念的全体像の概略ブロック図である。 単一チャネルオーディオ信号の時間−空間的表示の概略模式図である。 SAOCエンコーダ内の副情報の時間−周波数選択的な計算の概略ブロック図である。 オーディオ符号化/復号化手法の原理を概略的に示す。 一実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報から1以上のオーディオチャネルを生成する装置を示す。 一実施形態による、符号化/復号化手法内での結合型PSIAアプリケーションを示す。 一実施形態による、符号化/復号化手法内での分離型PSIAアプリケーションを示す。
本発明の実施形態を説明する前に、現行技術のSAOC方式についての背景をさらに説明する。
図3は、SAOCエンコーダ10およびSAOCデコーダ12の一般的構成を示す。SAOCエンコーダ10は、N個の入力オブジェクト、すなわち、オーディオ信号s〜s信号18にダウンミックスするダウンミキサ16を備える。あるいは、ダウンミックスが外部から与えられ(「アーティスティックなダウンミックス」)、システムが、追加の副情報を推定して、与えられたダウンミックスを、計算されたダウンミックスに一致させるようにしてもよい。図2において、ダウンミックス信号は、Pチャンネル信号として示される。ここでは、モノラル(P=1)、ステレオ(P=2)またはマルチチャンネル(P>2)のいずれのダウンミックス信号構成でもよい。
ダウンミックス信号18のチャンネルは、ステレオダウンミックスの場合にはL0およびR0と表記され、モノラルダウンミックスの場合には単にL0と表記される。SAOCデコーダ12が個々のオブジェクトs〜sを受信することができるようにするため、副情報推定器17は、SAOCパラメータを含む副情報をSAOCデコーダ12に与える。例えば、ステレオダウンミックスの場合、SAOCパラメータは、オブジェクトレベルの差(OLD)、オブジェクト間相関(IOC)(オブジェクト間相互相関パラメータ)、ダウンミックスゲイン値(DMG)およびダウンミックスチャンネルレベルの差(DCLD)を含む。SAOCパラメータを含む副情報20は、ダウンミックス信号18とともに、SAOCデコーダ12によって受信されたSAOC出力データストリームを形成する。
SAOCデコーダ12はアップミキサを備え、このアップミキサは、副情報20とともにダウンミックス信号18を受信して、SAOCデコーダ12に入力されたレンダリング情報26により規定されているレンダリングで、オーディオ信号s ・・・s を、任意のユーザ選択によるチャンネルセットy ・・・y 上に復元およびレンダリングする。
オーディオ信号sからsは、時間領域またはスペクトル領域のような何らかの符号化領域で、エンコーダ10に入力される。オーディオ信号sからsがPCM符号化されるなどして時間領域でエンコーダ10に供給される場合、エンコーダ10は、信号をスペクトル領域、すなわちオーディオ信号が異なるスペクトル部分に関連付けられた複数のサブバンドに特定のフィルタバンク解像度で表される領域、に変換するために、ハイブリッドQMFバンクのようなフィルタバンクを用いることができる。オーディオ信号sからsが、既にエンコーダ10によって想定されているよう表現となっている場合には、スペクトル分解を行う必要はない。
図4は、今説明したスペクトル領域でのオーディオ信号を示す。図から分かるように、オーディオ信号は、複数のサブバンド信号として表される。各サブバンド信号301から30Kは、小さい格子32によって示されるサブバンド値の時間シーケンスからなる。図から分かるように、各サブバンド信号301から30Kのサブバンド値32は、連続するフィルタバンクタイムスロット34の各々について、各サブバンド301から30Kが1つだけのサブバンド値32を含むように、時間において相互に同期される。周波数軸36によって示すように、サブバンド信号301から30Kは異なる周波数領域に関連付けられ、時間軸38によって示すように、フィルタバンクタイムスロット34は時間的に連続して配置される。
これまで概略したように、図3の副情報抽出器17は、入力オーディオ信号s1からsNからSAOCパラメータを計算する。現在実施されているSAOC規格によると、エンコーダ10は、フィルタバンクタイムスロット34およびサブバンド分解によって決定されるような元の時間/周波数解像度に対して、所定量だけ低減される時間/周波数解像度における計算を実行し、この所定量が副情報20内でデコーダ側に信号送信される。連続するフィルタバンクタイムスロット34のグループは、SAOCフレーム41を形成することができる。また、SAOCフレーム41内のパラメータ帯域数も、副情報20内で搬送される。したがって、時間/周波数領域は、図4において破線42で例示される時間/周波数タイルに分割される。図4において、パラメータ帯域は、時間/周波数タイルが規則的配置になるように、種々の図示されたSAOCフレーム41において同じように分散される。しかし、一般に、パラメータ帯域は、それぞれのSAOCフレーム41におけるスペクトル解像度に対する異なる要求に応じて、1つのSAOCフレーム41から後続のものまで変動し得る。またさらに、SAOCフレーム41の長さも同様に変動し得る。結果として、時間/周波数タイルの構成は不規則となる。それでも、特定のSAOCフレーム41内の時間/周波数タイルは、通常は同じ継続時間を有し、時間方向において配列される。つまり、上記SAOCフレーム41の全ての時間/周波数タイルが所与のSAOCフレーム41の開始時に開始し、上記SAOCフレーム41の終了時に終了する。
図3に示す副情報抽出器17は、次の式に従って、SAOCパラメータを計算する。具体的には、副情報抽出器17は、各オブジェクトiについてのオブジェクトレベル差を、
Figure 0006141980
として計算する。なお、合計およびインデックスnおよびkは、それぞれ、全てのタイムインデックス34、およびSAOCフレーム(または処理しているタイムスロット)についてのインデックスlおよびパラメータ帯域についてのインデックスmによって表される、所定の時間/周波数タイル42に属する全てのインデックス30となる。これにより、オーディオ信号またはオブジェクトiの全てのサブバンド値xiのエネルギーが合計され、全てのオブジェクトまたはオーディオ信号のうちのそのタイルの最も高いエネルギー値に正規化される。x n,k*は、x n,kの複素共役を示す。
また、SAOC副情報抽出器17は、異なる入力オブジェクトs1からsNの対の対応する時間/周波数タイルの類似度を計算することができる。SAOC副情報抽出器17は、入力オブジェクトs1からsNの全ての対の間の類似度を計算してもよいが、類似度の信号送信を抑制し、または共通ステレオチャネルの左もしくは右のチャネルを形成するオーディオオブジェクトs1からsNに類似度の計算を制限するようにしてもよい。いずれの場合にも、類似度は、オブジェクト間相互相関パラメータIOCi,j l,mと呼ばれる。計算は次の通りである。
Figure 0006141980
ここで、インデックスnおよびkは、所定の時間/周波数タイル42に属する全てのサブバンド値を網羅し、iおよびjは、オーディオオブジェクトs1からsNの所定の対を示し、Re{ }は、複素数の引数の虚部を切り捨てる演算を示す。
図3のダウンミキサ16は、オブジェクトs1からsNを、各オブジェクトs1からsNに適用されるゲインファクタの使用によってダウンミックスする。すなわち、モノラルダウンミックス信号を得るために、ゲインファクタdiがオブジェクトiに適用され、全ての重み付けされたオブジェクトs1からsNが合計される。これは、P=1の場合が図3に例示されている。他の例として、2チャネルダウンミックス信号の場合では、P=2の場合が図3に示されているように、左のダウンミックスチャネルL0を得るために、ゲインファクタd1,iがオブジェクトiに適用され、そのようにゲイン増幅された全てのオブジェクトが合計され、右のダウンミックスチャネルR0を得るために、ゲインファクタd2,iがオブジェクトiに適用され、そのようにゲイン増幅されたオブジェクトが合計される。これと同様の処理が、マルチチャネルダウンミックスの場合(P>2)に適用される。
このダウンミックスの規定が、ダウンミックスゲインDMG、およびステレオダウンミックス信号の場合にはダウンミックスチャネルレベル差DCLDによって、デコーダ側に信号送信される。
ダウンミックスゲインは、
Figure 0006141980
により計算される。なお、εは、10−9のような小さい数である。
DCLDに対して、次式を適用する。
Figure 0006141980
通常モードにおいて、ダウンミキサ16は、モノラルダウンミックスについては、
Figure 0006141980
に従って、ステレオダウンミックスについては、
Figure 0006141980
に従って、それぞれダウンミックス信号を生成する。
したがって、上述した式において、パラメータOLDおよびIOCはオーディオ信号の関数であり、パラメータDMGおよびDCLDはdの関数である。なお、dは、時間および周波数において変動している場合がある。
したがって、通常モードでは、ダウンミキサ16は、全てのオブジェクトs1からsNを、選好なく全てのオブジェクトs1からsNを均等に扱って、混合する。
デコーダ側において、アップミキサは、一計算ステップにおいて、すなわち、2チャネルダウンミックス
Figure 0006141980
の場合において、ダウンミックス処理の逆、および行列R(文献によってはAともいわれる)によって表される「レンダリング情報」26の実施を実行する。なお、行列EはパラメータOLDおよびIOCの関数であり、行列Dは、
Figure 0006141980
のように、ダウンミックス係数を含む。
行列Eは、オーディオオブジェクトs1からsNの推定共分散行列である。現在のSAOCの実施において、推定共分散行列Eの計算は、通常はSAOCパラメータのスペクトル/時間解像度で、すなわち、各(l,m)に対して実行されるので、推定共分散行列はEl,mとして記載することができる。推定共分散行列El,mの大きさはN×Nであり、その係数は、
Figure 0006141980
として定義される。
したがって、i=jについて、OLD l,m=OLD l,m およびIOCi,j l,m=1であるので、
Figure 0006141980
となる行列El,mは、その対角に沿って、i=jについてのオブジェクトレベル差、すなわち、IOCi,j l,m=OLD l,mを有する。その対角の外部において、推定共分散行列Eは、オブジェクト間相互相関度IOCi,j l,mで重みづけされた、オブジェクトiおよびjのオブジェクトレベル差の幾何平均を表す行列係数をそれぞれ有する。
図5は、SAOCエンコーダ10の一部としての副情報抽出器(SIE)の例における実施の1つの可能な原理を示す。SAOCエンコーダ10は、ミキサ16および副情報抽出器(SIE)17を備える。SIEは、概念的に2つのモジュールを備える。一方のモジュール45は、各信号の短時間ベースの時間/周波数表示(例えば、STFTまたはQMF)を計算するためのものである。計算された短時間時間/周波数表示は、第2のモジュール46、時間/周波数選択副情報推定モジュール(時間/周波数SIE)に供給される。時間/周波数モジュール46は、各時間/周波数タイルについて副情報を計算する。現在のSAOCの実施では、時間/周波数変換は固定され、全てのオーディオオブジェクトs1からsNについて同一である。またさらに、SAOCパラメータは、全てのオーディオオブジェクトについて同じであって全てのオーディオオブジェクトs1からsNについて同じ時間/周波数解像度を有するSAOCフレーム上で決定される。したがって、細かい時間解像度や細かいスペクトル解像度について、オブジェクト特有の要求を無視する場合がある。
以下で、本発明の実施形態を説明する。
図1は、一実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。
入力オーディオ情報は2以上の入力オーディオダウンミックスチャネルを含み、入力パラメトリック副情報をさらに含む。適応オーディオ情報は、1以上の適応オーディオダウンミックスチャネルを含み、適応パラメトリック副情報をさらに含む。
この装置は、適応情報に応じて2以上の入力オーディオダウンミックスチャネルを適応させて1以上の適応オーディオダウンミックスチャネルを得るダウンミックス信号修正器(DSM)110を備える。
図2は、他の実施形態による、適応オーディオ情報を得るために、1以上のオーディオオブジェクトを符号化する入力オーディオ情報を適応させて適応オーディオ情報を得る装置を示す。
一実施形態では、適応情報はデコーダインスタンスに依存し、ダウンミックス信号修正器110は、デコーダインスタンスに応じて2以上の入力オーディオダウンミックスチャネルを適応させるように構成されてもよい。
例えば、図2のダウンミックス信号修正器110は、ダウンミックスを特定のデコーダインスタンスの能力に適応させる。
一実施形態によると、ダウンミックス信号修正器110は、1以上の適応オーディオダウンミックスチャネル数が2以上の入力オーディオダウンミックスチャネル数よりも小さくなるように、適応情報に応じて2以上の入力オーディオダウンミックスチャネルを適応させるように構成されていてもよい。
例えば、図2の実施形態では、ダウンミックス信号修正器110が、トランスポート/ダウンミックスチャネル数を減少させる。
例えば、22.2個の入力オーディオダウンミックスチャネル(=24個の入力オーディオダウンミックスチャネル)が、7.1個の適応オーディオダウンミックスチャネル(=8個の適応オーディオダウンミックスチャネル)に低減される。
あるいは、例えば、5.1個の入力オーディオダウンミックスチャネル(=6個の入力オーディオダウンミックスチャネル)が、2.0個の適応オーディオダウンミックスチャネル(=2個の適応オーディオダウンミックスチャネル)に低減される。
あるいは、例えば、2個の入力オーディオダウンミックスチャネルが、1個の適応オーディオダウンミックスチャネルに低減される。
入力オーディオダウンミックスチャネルと適応オーディオダウンミックスチャネルの種々の他の組合せが可能である。
一実施形態によると、デコーダインスタンスは、最大でダウンミックスチャネルの最大数を復号する能力があればよい。適応情報は、ダウンミックスチャネルの最大数に依存することになる。さらに、ダウンミックス信号修正器110は、1以上の適応ダウンミックスチャネル数がダウンミックスチャネルの最大数に等しくなるように、適応情報に応じて2以上の入力オーディオダウンミックスチャネルを適応させて1以上の適応オーディオダウンミックスチャネルを得るように構成されることができる。
例えば、図2のダウンミックス信号修正器110は、ダウンミックスを、特定のデコーダインスタンスの最大サポート出力チャネル構成に対応するオーディオ信号に変換する。
一実施形態によると、適応情報は、例えば、適応行列Ddmx DSMを含むことができる。
パラメトリック副情報適応器120は、例えば、PSIを、デコーダについての計算の複雑さを減少させるために修正ダウンミックスに対応させ、デコーダ出力オーディオ品質上に悪影響を及ぼすことなく対応のデータビットストリームのサイズ/ビットレートを減少させるように適応させる。
例えば、PSIA120は、最初のダウンミックス行列を表す情報を(DSM修正を考慮する)結果としてのダウンミックスを記述する更新情報によって置換する対応のPSIビットストリームを修正して、デコーダの特定の仕様に対応させる。
例えば、SAOCエンコーダは、エンコーダダウンミックス行列Ddmx ENCの適用によって得られるステレオダウンミックス信号Xdmx ENCを、入力オーディオオブジェクト信号Sに与える。
Figure 0006141980
一実施形態によると、ダウンミックス信号修正器110は、適応行列Ddmx DSMに基づき、2以上の入力オーディオダウンミックスチャネルXdmx ENCを適応させて、1以上の適応オーディオダウンミックスチャネルXdmxDSMを得るように構成されてもよい。一実施形態では、これは、例えば、式
Figure 0006141980
を適用することによって実現される。
例えば、一実施形態では、特定のSAOCデコーダインスタンスがモノダウンミックス(例えば、SAOC Low Delayプロファイル/Level 1)のみをサポートするものとする。この場合、DSM110は、あらかじめ規定されたダウンミックス行列Ddmx DSMを用いて、ステレオダウンミックスXdmx ENCを、モノラル信号Xdmx DSMに変換する。この場合も、数14の式が適用される。
一実施形態によると、パラメトリック副情報適応器120は、適応行列Ddmx DSMに基づき入力パラメトリック副情報Ddmx ENCを適応させて、適応パラメトリック副情報Ddmx PSIを得るように構成されてもよい。一実施形態では、これは、例えば、式
Figure 0006141980
を適用することによって実現される。
例えば、一実施形態によると、PSIA120は、対応するPSIビットストリームを解析し、ダウンミックス行列Ddmx ENCを記述する情報を抽出し、これらのデータを新たなダウンミックス行列Ddmx PSIを記述する更新情報によって置換する(数15)。
したがって、一実施形態によると、入力パラメトリック副情報Ddmx ENCは、1以上のオーディオオブジェクトSに適用することによって2以上の入力オーディオダウンミックスチャンネルXdmx encが得られる初期ダウンミックス行列Ddmx encを示してもよい。パラメトリック副情報適応器は、適応ダウンミックス行列Ddmx PSIを1以上のオーディオオブジェクトSに適用することによって、2以上の入力オーディオダウンミックスチャンネルXdmx DSMが得られるように、適応ダウンミックス行列Ddmx PSIを適応パラメトリック副情報として決定するように構成されてもよい。
一実施形態では、PSIAが、新たな修正ビットストリームをフォーマットし、またはこれらのパラメータをデコーダに直接渡す。
PSIAによって実行されるこの符号化および復号化処理は、異なるダウンミックス行列表示フォーマット(例えば、極座標系からデカルト座標系など)の変換を含むこともできる。
この記述されたPSIAの関数は、潜在的な互換性の問題を解決し、対応するビットストリームのサイズを減少させることができる。
図7は、一実施形態による、1以上のオーディオオブジェクトが符号化された入力オーディオ情報から1以上のオーディオチャネルを生成するオーディオチャネル生成装置700を示す。
このオーディオチャネル生成装置700は、入力オーディオ情報を適応させて適応オーディオ情報を得る上述の実施形態の1つによる装置710(以下、「入力オーディオ情報適応装置」という)を備える。入力オーディオ情報は、2以上の入力オーディオダウンミックスチャネルを含み、さらに、入力パラメトリック副情報を含む。適応オーディオ情報は、1以上の適応オーディオダウンミックスチャネルを含み、さらに、適応パラメトリック副情報を含む。
入力オーディオ情報適応装置710は、ダウンミックス信号修正器110およびパラメトリック副情報適応器120を備える。
さらに、オーディオチャネル生成装置700は、適応パラメトリック副情報に応じて1以上の適応オーディオダウンミックスチャネルを復号して1以上のオーディオダウンミックスチャネルを得るデコーダインスタンス720を備える。
一実施形態によると、入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されてもよい。入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、入力パラメトリック副情報を適応させて適応パラメトリック副情報を得て、適応パラメトリック副情報をデコーダインスタンス720に供給するように構成されてもよい。デコーダインスタンス720は、適応パラメトリック副情報に応じて、1以上の適応オーディオダウンミックスチャネルを復号するように構成されてもよい。
他の実施形態では、入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、入力パラメトリック副情報を含む入力ビットストリームを受信するように構成されてもよい。入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、入力ビットストリーム内の入力パラメトリック副情報を適応パラメトリック副情報で置換して修正ビットストリームを得るように構成されてもよい。入力オーディオ情報適応装置710のパラメトリック副情報適応器120は、修正ビットストリームをデコーダインスタンス720に供給するように構成されてもよい。さらに、デコーダインスタンス720は、修正ビットストリームに応じて、1以上の適応オーディオダウンミックスチャネルを復号するように構成されてもよい。
図8および9に、入力オーディオ情報を復号処理チェーンに適応させるための装置を内蔵する2つの可能性を図示する。
具体的には、図8は、一実施形態による符号化/復号化手法における結合型PSIAアプリケーションを示す。
図8は、1以上のオーディオオブジェクトを符号化する入力オーディオ情報から1以上のオーディオチャネルを生成するための複数のオーディオチャネル生成装置800、801および802を示す。このオーディオチャネル生成装置800は、入力オーディオ情報適応装置810、およびデコーダインスタンス820を備え、オーディオチャネル生成装置801は、入力オーディオ情報適応装置811、およびデコーダインスタンス821を備え、オーディオチャネル生成装置802は、入力オーディオ情報適応装置812、およびデコーダインスタンス822を備える。なお、例えば、入力オーディオ情報適応装置810およびデコーダインスタンス820を備えるオーディオチャネル生成装置800は、単一のハードウェアユニットとして実現されてもよく、有線で接続され、または無線で接続される個別の2つのユニット810および820で実現されてもよい。
復号化のための計算の複雑さを軽減するために、入力オーディオ情報適応装置の結合型の(一体化された)実装を実現することができる(図8参照)。さらに、これによって、入力オーディオ情報適応装置とデコーダとの間の非量子化(非符号化)インターフェイスを実装することが可能となる。これは、特に、電力消費を低減するための移動体アプリケーションデバイスに対して適切なものとなり得る。
図9は、一実施形態による符号化/復号化手法における非結合型PSIAアプリケーションを示す。
特に、図9は、1以上のオーディオオブジェクトを符号化する入力オーディオ情報から1以上のオーディオチャネルを生成するための複数のオーディオチャネル生成装置900、901および902を示し、ここで、オーディオチャネル生成装置900は、入力オーディオ情報適応装置910、およびデコーダインスタンス920を備え、オーディオチャネル生成装置901は、入力オーディオ情報適応装置911、およびデコーダインスタンス921を備え、オーディオチャネル生成装置902は、入力オーディオ情報適応装置912、およびデコーダインスタンス922を備える。なお、例えば、入力オーディオ情報適応装置910およびデコーダインスタンス920を備えるオーディオチャネル生成装置900は、単一のハードウェアユニットとして実現されていなくてもよく、有線で接続され、または無線で接続される個別の2つのユニット910および920で実現されてもよい。
図9に示されるように、対応するデータビットストリームのサイズ/ビットレートを低減するために、入力オーディオ情報適応装置の非結合型の(分離された)実装を実現することができる。これは、特に、限られた蓄積および送信容量の移動体アプリケーションデバイスおよび狭いデータ遷移チャネルの多地点接続装置(MCU)システムに対して適切なものとなり得る。
いくつかの形態を装置との関連で説明したが、それらの形態が対応の方法の説明も兼ねることは明らかであり、ブロックまたはデバイスは方法のステップまたは方法のステップの特徴に対応する。同様に、方法ステップに関連して説明した形態はまた、対応する装置の対応のブロック、内容または特徴の記載も兼ねる。
本発明の分解信号はデジタル記憶媒体に格納され、またはインターネットのような無線伝送媒体もしくは有線伝送媒体といった伝送媒体上で伝送されることができる。
特定の実施要件に応じて、発明の実施形態はハードウェアまたはソフトウェアで実施されることができる。その実施は、それぞれの方法が実行されるようにプログラマブルコンピュータシステムと協働する(または協働することができる)電子的に可読な制御信号が格納されたデジタル記憶媒体、例えば、フレキシブルディスク、DVD、CD、ROM、PROM、EPROM、EEPROM(登録商標)もしくはフラッシュメモリを用いて実行することができる。
本発明によるいくつかの実施形態は、ここに記載された方法の1つが実行されるようなプログラマブルコンピュータシステムと協働することができる電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを備える。
全体として、本発明の実施形態は、プログラムコードを持つコンピュータプログラム製品として実施でき、プログラムコードは、コンピュータプログラム製品がコンピュータ上で稼働したときに方法の1つを実行するように動作するものである。プログラムコードは、例えば、機械読取り可能なキャリア上に記憶されることができる。
他の実施形態では、ここに記載された方法の1つを実行するための、機械読取り可能なキャリアに記憶されたコンピュータプログラムを備える。
言い換えると、本発明の方法の実施形態は、コンピュータプログラムがコンピュータ上で稼働するときに、ここに記載された方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
したがって、本発明の方法の更なる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムを、記録して備えるデータキャリア(すなわち、デジタル記憶媒体またはコンピュータ可読媒体)である。
さらなる実施形態は、ここに記載された方法の1つを実行するように構成または適応された、例えば、コンピュータまたはプログラマブルロジックデバイスなどの処理手段を含む。
さらなる実施形態は、ここに記載された方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
実施形態によっては、プログラマブルロジックデバイス(例えば、フィールドプログラマブルゲートアレイ、FPGA)が、ここに記載された方法の機能の一部または全部を実行するのに使用されてもよい。実施形態によっては、ここに記載された方法の1つを実行するために、フィールドプログラマブルゲートアレイはマイクロプロセッサと協働してもよい。それらの方法は、一般に、どのようなハードウェア装置によっても好適に実行される。
上述した実施形態は、本発明の原理を例示的に示しただけである。ここに記載された構成および詳細の変形例や修正例は、当業者には明白であろう。したがって、実施形態の記述および説明によってここに提示された具体的詳細によってではなく、直後に記載する特許請求の範囲によってのみ限定されることを意図するものである。

Claims (13)

  1. 1以上のオーディオオブジェクトが符号化された入力オーディオ情報であって、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む入力オーディオ情報を、適応させて、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る装置であって、
    適応情報に基づき前記2以上の入力オーディオダウンミックスチャンネルを適応させて、前記1以上の適応オーディオダウンミックスチャンネルを得るダウンミックス信号修正器(110)と、
    前記適応情報に基づき前記入力パラメトリック副情報を適応させて、記適応パラメトリック副情報を得るパラメトリック副情報適応器(120)と、
    を備え、
    前記適応情報は、適応行列Ddmx DSMを含み、
    前記ダウンミックス信号修正器(110)が、前記適応行列Ddmx DSMに基づき前記2以上の入力オーディオダウンミックスチャンネルXdmx ENCを適応させて、前記1以上の適応オーディオダウンミックスチャンネルXdmx DSMを得るように構成され、
    前記パラメトリック副情報適応器(120)は、前記適応行列Ddmx DSMに基づき前記入力パラメトリック副情報Ddmx ENCを適応させて、前記適応パラメトリック副情報Ddmx PSIを得るように構成された、
    装置。
  2. 請求項11に記載の方法において、
    前記入力パラメトリック副情報Ddmx ENCは、前記1以上のオーディオオブジェクトSに適用することによって前記2以上の入力オーディオダウンミックスチャンネル dmx ENC が得られる初期ダウンミックス行列 dmx ENC を示し、
    前記パラメトリック副情報を適応するステップでは、適応ダウンミックス行列Ddmx PSIを前記1以上のオーディオオブジェクトSに適用することによって、前記2以上の入力オーディオダウンミックスチャンネルXdmx DSMが得られるように、前記適応ダウンミックス行列Ddmx PSIを前記適応パラメトリック副情報として決定する
    方法。
  3. 請求項1または2に記載の装置において、前記ダウンミックス信号修正器(110)は、前記1以上の適応オーディオダウンミックスチャンネルの数が前記2以上の入力オーディオダウンミックスチャンネルの数よりも小さくなるように、前記適応情報に基づき、前記2以上の入力オーディオダウンミックスチャンネルを適応させるように構成された、装置。
  4. 請求項1から3のいずれか1項に記載の装置において、前記適応情報はデコーダインスタンスに依存し、前記ダウンミックス信号修正器(110)は、前記デコーダインスタンスに応じて前記2以上の入力オーディオダウンミックスチャンネルを適応させるように構成された、装置。
  5. 請求項に記載の装置において、
    前記デコーダインスタンスは、最大でダウンミックスチャンネルの最大数を復号することができ、
    前記適応情報は、前記ダウンミックスチャンネルの最大数に依存し、
    前記ダウンミックス信号修正器(110)が、前記1以上の適応オーディオダウンミックスチャンネルの数が前記ダウンミックスチャンネルの最大数に等しくなるように、前記適応情報に応じて前記2以上の入力オーディオダウンミックスチャンネルを適応させて、前記1以上の適応オーディオダウンミックスチャンネルを得るように構成された、装置。
  6. 請求項1から5のいずれか1項に記載の装置において、前記ダウンミックス信号修正器(110)は、
    Figure 0006141980
    を適用することによって、前記適応行列Ddmx DSMに基づき前記2以上のオーディオダウンミックスチャンネルXdmx ENCを適応させて、1以上の適応オーディオダウンミックスチャンネルXdmx DSMを得るように構成された、装置。
  7. 請求項1から6のいずれか1項に記載の装置において、前記パラメトリック副情報適応器(120)は、
    Figure 0006141980
    を適用することによって、前記適応行列Ddmx DSMに基づき前記入力パラメトリック副情報Ddmx ENCを適応させて、適応パラメトリック副情報Ddmx PSIを得るように構成された、装置。
  8. 1以上のオーディオオブジェクトが符号化された入力オーディオ情報から1以上のオーディオチャネルを生成する装置(700、800、801、802、900、901、902)であって、
    前記入力オーディオ情報は、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含み、この入力オーディオ情報を適応させて、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る請求項1からのいずれか1項に記載の装置(710、810、811、812、910、911、912)と、
    前記適応パラメトリック副情報に基づき前記1以上の適応オーディオダウンミックスチャンネルを復号して前記1以上のオーディオチャンネルを得るデコーダインスタンス(720、820、821、822、920、921、922)と、
    を備える装置。
  9. 請求項8に記載の装置(700;800、801、802)において、
    請求項1から7のいずれか1項に記載の装置(710、810、811、812)の前記パラメトリック副情報適応器(120)は、前記入力パラメトリック副情報を含む入力ビットストリームを受信するように構成され、
    請求項1から7のいずれか1項に記載の装置(710、810、811、812)の前記パラメトリック副情報適応器(120)は、前記入力パラメトリック副情報を適応させて前記適応パラメトリック副情報を取得し、その適応パラメトリック副情報を前記デコーダインスタンス(720、820、821、822)に供給するように構成され、
    前記デコーダインスタンス(720、820、821、822)は、前記適応パラメトリック副情報に基づき前記1以上の適応オーディオダウンミックスチャンネルを復号するように構成された、
    装置。
  10. 請求項に記載の装置(700;900、901、902)において、
    請求項1からのいずれか1項に記載の装置(710、910、911、912)の前記パラメトリック副情報適応器(120)は、前記入力パラメトリック副情報を含む入力ビットストリームを受信するように構成され、
    請求項1からのいずれか1項に記載の装置(710、910、911、912)の前記パラメトリック副情報適応器(120)は、前記入力ビットストリーム内の前記入力パラメトリック副情報を前記適応パラメトリック副情報によって置換して、修正ビットストリームを得るように構成され、
    請求項1からのいずれか1項に記載の装置(710、910、911、912)の前記パラメトリック副情報適応器(120)は、前記修正ビットストリームを前記デコーダインスタンス(720、920、921、922)に供給するように構成され、
    前記デコーダインスタンス(720、920、921、922)が、前記修正ビットストリームに応じて前記1以上の適応オーディオダウンミックスチャンネルを復号するように構成された、
    装置。
  11. 1以上のオーディオオブジェクトが符号化された入力オーディオ情報であって、2以上の入力オーディオダウンミックスチャンネルを含み、入力パラメトリック副情報をさらに含む入力オーディオ情報を、適応させて、1以上の適応オーディオダウンミックスチャンネルを含み、適応パラメトリック副情報をさらに含む適応オーディオ情報を得る方法であって、
    適応情報に基づき前記2以上の入力オーディオダウンミックスチャンネルを適応させて、前記1以上の適応オーディオダウンミックスチャンネルを取得し、
    前記適応情報に基づき前記入力パラメトリック副情報を適応させて、記適応パラメトリック副情報を取得し、
    前記適応情報は、適応行列Ddmx DSMを含み、
    前記2以上の入力オーディオダウンミックスチャンネルを適応させるステップでは、前記適応行列Ddmx DSMに基づき前記2以上の入力オーディオダウンミックスチャンネルXdmx ENCを適応させて、前記1以上の適応オーディオダウンミックスチャンネルXdmx DSMを取得し、
    前記入力パラメトリック副情報を適応させるステップでは、前記適応行列Ddmx DSMに基づき前記入力パラメトリック副情報Ddmx ENCを適応させて、前記適応パラメトリック副情報Ddmx PSIを取得する
    方法。
  12. 請求項11に記載の方法において、
    前記入力パラメトリック副情報Ddmx ENCは、前記1以上のオーディオオブジェクトSに適用することによって前記2以上の入力オーディオダウンミックスチャンネル dmx ENC が得られる初期ダウンミックス行列 dmx ENC を示し、
    前記入力パラメトリック副情報を適応させるステップでは、適応ダウンミックス行列Ddmx PSIを前記1以上のオーディオオブジェクトSに適用することによって、前記2以上の入力オーディオダウンミックスチャンネルXdmx DSMが得られるように、前記適応ダウンミックス行列Ddmx PSIを前記適応パラメトリック副情報として決定する
    方法。
  13. コンピュータまたは信号プロセッサによって実行されるときに請求項11または12に記載の方法を実施するためのコンピュータプログラム。
JP2015525793A 2012-08-10 2013-06-28 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法 Active JP6141980B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261681732P 2012-08-10 2012-08-10
US61/681,732 2012-08-10
PCT/EP2013/063703 WO2014023477A1 (en) 2012-08-10 2013-06-28 Apparatus and methods for adapting audio information in spatial audio object coding

Publications (2)

Publication Number Publication Date
JP2015525905A JP2015525905A (ja) 2015-09-07
JP6141980B2 true JP6141980B2 (ja) 2017-06-07

Family

ID=48700607

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015525793A Active JP6141980B2 (ja) 2012-08-10 2013-06-28 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法

Country Status (12)

Country Link
US (1) US10497375B2 (ja)
EP (1) EP2883226B1 (ja)
JP (1) JP6141980B2 (ja)
KR (2) KR102033985B1 (ja)
CN (1) CN104704557B (ja)
AU (1) AU2013301864B2 (ja)
BR (1) BR112015002794B1 (ja)
CA (1) CA2880412C (ja)
ES (1) ES2595220T3 (ja)
MX (1) MX350687B (ja)
RU (1) RU2609097C2 (ja)
WO (1) WO2014023477A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
JP6313641B2 (ja) * 2014-03-25 2018-04-18 日本放送協会 チャンネル数変換装置
US9378384B2 (en) * 2014-04-16 2016-06-28 Bank Of America Corporation Secure endpoint file export in a business environment
CN106294331B (zh) 2015-05-11 2020-01-21 阿里巴巴集团控股有限公司 音频信息检索方法及装置
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
GB2559200A (en) * 2017-01-31 2018-08-01 Nokia Technologies Oy Stereo audio signal encoder
GB2594265A (en) * 2020-04-20 2021-10-27 Nokia Technologies Oy Apparatus, methods and computer programs for enabling rendering of spatial audio signals

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1817767B1 (en) * 2004-11-30 2015-11-11 Agere Systems Inc. Parametric coding of spatial audio with object-based side information
RU2406164C2 (ru) * 2006-02-07 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Устройство и способ для кодирования/декодирования сигнала
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
US8139775B2 (en) * 2006-07-07 2012-03-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Concept for combining multiple parametrically coded audio sources
KR100987457B1 (ko) * 2006-09-29 2010-10-13 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
CN101484935B (zh) * 2006-09-29 2013-07-17 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
EP2372701B1 (en) * 2006-10-16 2013-12-11 Dolby International AB Enhanced coding and parameter representation of multichannel downmixed object coding
JP5337941B2 (ja) * 2006-10-16 2013-11-06 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・パラメータ変換のための装置および方法
WO2008100099A1 (en) * 2007-02-14 2008-08-21 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
CN101542597B (zh) * 2007-02-14 2013-02-27 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
CN102016982B (zh) * 2009-02-04 2014-08-27 松下电器产业株式会社 结合装置、远程通信系统以及结合方法
CN102460573B (zh) * 2009-06-24 2014-08-20 弗兰霍菲尔运输应用研究公司 音频信号译码器、对音频信号译码的方法
JP5758902B2 (ja) * 2009-10-16 2015-08-05 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ ダウンミックス信号表現と、ダウンミックス信号表現に関係するパラメトリックサイド情報に基づくアップミックス信号表現の提供に対して、平均値を用いて、1つ以上の調整されたパラメータを提供する装置、方法およびコンピュータプログラム

Also Published As

Publication number Publication date
AU2013301864A1 (en) 2015-02-19
WO2014023477A1 (en) 2014-02-13
US10497375B2 (en) 2019-12-03
EP2883226B1 (en) 2016-08-03
RU2015104055A (ru) 2016-09-27
JP2015525905A (ja) 2015-09-07
MX350687B (es) 2017-09-13
CN104704557A (zh) 2015-06-10
KR20150043404A (ko) 2015-04-22
CN104704557B (zh) 2017-08-29
EP2883226A1 (en) 2015-06-17
US20150154968A1 (en) 2015-06-04
KR101837686B1 (ko) 2018-03-12
BR112015002794A2 (pt) 2020-04-22
KR102033985B1 (ko) 2019-10-18
ES2595220T3 (es) 2016-12-28
CA2880412C (en) 2019-12-31
BR112015002794B1 (pt) 2021-07-13
KR20170016997A (ko) 2017-02-14
AU2013301864B2 (en) 2016-04-14
MX2015001748A (es) 2015-06-05
RU2609097C2 (ru) 2017-01-30
CA2880412A1 (en) 2014-02-13

Similar Documents

Publication Publication Date Title
TWI539444B (zh) 編碼器、解碼器、用於編碼兩個或兩個以上輸入音訊物件信號之方法、用於解碼以產生音訊輸出信號之方法、用於藉由產生音訊輸出信號以解碼之方法、以及相關電腦程式
JP6141980B2 (ja) 空間オーディオオブジェクト符号化においてオーディオ情報を適応させる装置および方法
JP6346278B2 (ja) ジョイント符号化残留信号を用いたオーディオエンコーダ、オーディオデコーダ、方法、およびコンピュータプログラム
JP6289613B2 (ja) オブジェクト特有時間/周波数分解能を使用する混合信号からのオーディオオブジェクト分離
JP6133422B2 (ja) マルチチャネルをダウンミックス/アップミックスする場合のため一般化された空間オーディオオブジェクト符号化パラメトリック概念のデコーダおよび方法
JP6285939B2 (ja) 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法
JP6141978B2 (ja) マルチチャネル・ダウンミックス/アップミックス構成のためのパラメトリックコンセプトを採用したマルチインスタンス方式の空間音響オブジェクト符号化用のデコーダおよびその方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160512

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160517

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170508

R150 Certificate of patent or registration of utility model

Ref document number: 6141980

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250