JP2016525714A - 低遅延オブジェクト・メタデータ符号化の装置と方法 - Google Patents

低遅延オブジェクト・メタデータ符号化の装置と方法 Download PDF

Info

Publication number
JP2016525714A
JP2016525714A JP2016528434A JP2016528434A JP2016525714A JP 2016525714 A JP2016525714 A JP 2016525714A JP 2016528434 A JP2016528434 A JP 2016528434A JP 2016528434 A JP2016528434 A JP 2016528434A JP 2016525714 A JP2016525714 A JP 2016525714A
Authority
JP
Japan
Prior art keywords
metadata
signals
audio
processed
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016528434A
Other languages
English (en)
Other versions
JP6239109B2 (ja
Inventor
ボルス,クリスチャン
エルテル,クリスチャン
ヒルペルト,ヨハネス
Original Assignee
フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from EP20130177378 external-priority patent/EP2830045A1/en
Application filed by フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン filed Critical フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン
Publication of JP2016525714A publication Critical patent/JP2016525714A/ja
Application granted granted Critical
Publication of JP6239109B2 publication Critical patent/JP6239109B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/02Systems employing more than two channels, e.g. quadraphonic of the matrix type, i.e. in which input signals are combined algebraically, e.g. after having been phase shifted with respect to each other
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Algebra (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

1つ以上のオーディオチャネルを生成する装置(100)が提供される。この装置は、制御信号(b)に依存して1つ以上の処理済みメタデータ信号から1つ以上の再生メタデータ信号を生成するメタデータ復号器(110)であって、1つ以上の再生メタデータ信号の各々は1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、1つ以上の再生メタデータ信号の各々について複数の再生メタデータサンプルを決定することにより1つ以上の再生メタデータ信号を生成する、メタデータ復号器(110)を備える。さらにこの装置は、1つ以上のオーディオオブジェクト信号と1つ以上の再生メタデータ信号とに依存して、1つ以上のオーディオチャネルを生成するオーディオチャネル生成部(120)を備える。メタデータ復号器(110)は、1つ以上の処理済みメタデータ信号の各々の複数の処理済みメタデータサンプルと、制御信号(b)とを受信する。さらに、メタデータ復号器(110)は、1つ以上の再生メタデータ信号の各再生メタデータ信号の複数の再生メタデータサンプルの各再生メタデータサンプルを、制御信号(b)が第1状態(b(n)=0)を示すときには、再生メタデータサンプルが1つ以上の処理済みメタデータ信号の1つにおける処理済みメタデータサンプルの1つと再生メタデータ信号の他の1つの既に生成された再生メタデータサンプルとの合計であり、制御信号が第1状態とは異なる第2状態(b(n)=1)を示すときには、再生メタデータサンプルが1つ以上の処理済みメタデータ信号の1つにおける処理済みメタデータサンプルの1つであるように、決定する。【選択図】 図1

Description

本発明はオーディオ符号化/復号化に関し、特に空間オーディオ符号化及び空間オーディオオブジェクト符号化に関し、更に詳しくは効率的なオブジェクト・メタデータ符号化の装置と方法に関する。
空間オーディオ符号化ツールは当該技術において公知であり、例えばMPEGサラウンド標準で標準化されている。空間オーディオ符号化は、5個又は7個のチャネルなどのオリジナル入力チャネルから開始し、それらチャネルは再生設定におけるそれらの配置によって識別される。即ち、左チャネル、中央チャネル、右チャネル、左サラウンドチャネル、右サラウンドチャネル、及び低周波数強化チャネルである。空間オーディオ符号器は、典型的にはオリジナルチャネルから1つ以上のダウンミクスチャネルを導出し、加えて空間的キューに関連するパラメトリックデータを導出しており、その空間的キューにはチャネルコヒーレンス値におけるチャネル間レベル差(interchannel level differences)、チャネル間位相差(interchannel phase differences)、チャネル間時間差(interchannel time differences)などがある。1つ以上のダウンミクスチャネルは、空間的キューを示すパラメトリックサイド情報と一緒に空間オーディオ復号器へと伝送され、その復号器は、ダウンミクスチャネルとその関連するパラメトリックデータとを復号化して、オリジナル入力チャネルの近似されたバージョンである出力チャネルを最終的に取得する。出力設定におけるチャネルの配置は典型的には固定されており、例えば5.1フォーマット、7.1フォーマットなどである。
そのようなチャネルベースのオーディオフォーマットは、多チャネルオーディオコンテンツを記憶又は伝送するために広く使用されており、その場合、各チャネルは所与の位置にある特異なラウドスピーカに関連している。このような種類のフォーマットを忠実に再生するためには、オーディオ信号の生成時に使用されたスピーカ一位置と同じ位置にスピーカが配置されているような、ラウドスピーカ設定が要求される。ラウドスピーカの個数を増加させると、真に音に浸りこむような改善された3Dオーディオシーンの再生が可能になる一方で、特にリビングルームのような家庭的な環境では、そのような要求を満たすことはますます困難になる。
特異なラウドスピーカ設定を有することの必要性は、ラウドスピーカ信号が再生設定のために特異的にレンダリングされるオブジェクト・ベースの手法によって克服され得る。
例えば空間オーディオオブジェクト符号化ツールは、当該技術において公知であり、MPEG SAOC標準(SAOC=空間オーディオオブジェクト符号化)において標準化されている。オリジナルチャネルから開始する空間オーディオ符号化とは対照的に、空間オーディオオブジェクト符号化はオーディオオブジェクトから開始し、それらオブジェクトはあるレンダリング再生設定に対して自動的に専用となる訳ではない。代わりに、再生シーン内におけるオーディオオブジェクトの配置には柔軟性があり、あるレンダリング情報を空間オーディオオブジェクト符号化・復号器へと入力することによりユーザーが決定することもできる。代替的又は追加的に、レンダリング情報、即ち再生設定におけるどの位置に、あるオーディオオブジェクトが典型的には時間にわたって配置されるべきかという情報は、追加的サイド情報又はメタデータとして伝送され得る。あるデータ圧縮を得るために幾つかのオーディオオブジェクトがSAOC符号器によって符号化され、その符号器は、あるダウンミクス情報に従ってオブジェクトをダウンミクスすることで入力オブジェクトから1つ以上の転送チャネルを計算する。更に、SAOC符号器は、オブジェクトレベル差(OLD)、オブジェクトコヒーレンス値などのオブジェクト間キューを表現しているパラメトリックサイド情報を計算する。SAC(SAC=空間オーディオ符号化)においては、オブジェクト間のパラメトリックデータが個別の時間/周波数タイルについて計算される。即ち、例えば1024個又は2048個のサンプルを有するオーディオ信号のあるフレームについて、最終的に各フレーム及び各周波数帯域に対してパラメトリックデータが存在するように、24個,32個又は64個などの周波数帯域が考慮される。一例として、あるオーディオピースが20フレームを有し、各フレームが32個の周波数帯域へと分割される場合、時間/周波数タイルの数は640個となる。
オブジェクト・ベースの手法において、音場は離散的なオーディオオブジェクトによって記述される。そのため、とりわけ3D空間における各音源の時間変化する位置を記述するオブジェクト・メタデータが必要になる。
先行技術における第1のメタデータ符号化概念は、空間サウンド記述インターチェンジフォーマット(SpatDIF)であり、これは未だ開発中のオーディオシーン記述フォーマットである(非特許文献1)。そのフォーマットは、オブジェクト・ベースのサウンドシーンのためのインターチェンジフォーマットとして設計され、オブジェクト軌跡についての圧縮方法を何も提供してはいない。SpatDIFは、オブジェクト・メタデータを構築するために、テキスト・ベースのオープンサウンド制御(OSC)フォーマットを使用する(非特許文献2)。しかしながら、単純なテキスト・ベースの表現はオブジェクト軌跡の圧縮された伝送のための選択肢にはならない。
先行技術における他のメタデータ概念はオーディオシーン記述フォーマット(ASDF)(非特許文献3)であり、同様の欠点を持つテキスト・ベースの解決策である。そのデータは、拡張可能なマーク付け言語(Extensible Markup Language:XML)(非特許文献4、非特許文献5)の部分集合である、同期されたマルチメディア統合言語(Synchronized Multimedia Integration Language:SMIL)の拡張によって構築される。
先行技術における更なるメタデータ概念は、シーンのためのオーディオバイナリフォーマット(AudioBIFS)であり、MPEG−4仕様(非特許文献6、非特許文献7)の一部であるバイナリフォーマットである。そのフォーマットは、視聴覚の3Dシーンや双方向仮想現実アプリケーション(非特許文献8)のために開発されたXMLベースの仮想現実モデリング言語(Virtual Reality Modeling Language:VRML)に深く関連している。複雑なAudioBIFS仕様は、オブジェクトの動きの経路を特定するためにシーングラフを使用する。AudioBIFSの主たる欠点は、制限されたシステム遅延及びデータストリームへのランダムアクセスが要件となるようなリアルタイム操作のために設計されていないという点である。更に、オブジェクト位置の符号化は人間のリスナーの制限された定位性能を活用していない。視聴覚シーン内の固定的なリスナー位置に対しては、オブジェクトデータは遥かに少数のビットで量子化され得る(非特許文献9)。よって、AudioBIFSの中で適用されるオブジェクト・メタデータの符号化は、データ圧縮に関して効率的でない。
そこで、改善された効率的なオブジェクト・メタデータ符号化の概念が提供されれば、高く評価されるであろう。
[10] Cutler, C. C. (1950), "Differential Quantization of Communication Signals", US Patent US2605361, Jul. 1952.
[1] Peters, N., Lossius, T. and Schacher J. C., "SpatDIF: Principles, Specification, and Examples", 9th Sound and Music Computing Conference, Copenhagen, Denmark, Jul. 2012. [2] Wright, M., Freed, A., "Open Sound Control: A New Protocol for Communicating with Sound Synthesizers", International Computer Music Conference, Thessaloniki, Greece, 1997. [3] Matthias Geier, Jens Ahrens, and Sascha Spors. (2010), "Object-based audio reproduction and the audio scene description format", Org. Sound, Vol. 15, No. 3, pp. 219-227, December 2010. [4] W3C, "Synchronized Multimedia Integration Language (SMIL 3.0)", Dec. 2008. [5] W3C, "Extensible Markup Language (XML) 1.0 (Fifth Edition)", Nov. 2008. [6] MPEG, "ISO/IEC International Standard 14496-3- Coding of audio-visual objects, Part 3 Audio", 2009. [7] Schmidt, J.; Schroeder, E. F. (2004), "New and Advanced Features for Audio Presentation in the MPEG-4 Standard", 116th AES Convention, Berlin, Germany, May 2004 [8] Web3D, "International Standard ISO/IEC 14772-1:1997-The Virtual Reality Modeling Language (VRML), Part 1: Functional specification and UTF-8 encoding", 1997. [9] Sporer, T. (2012), "Codierung raeumlicher Audiosignale mit leichtgewichtigen Audio-Objekten", Proc. Annual Meeting of the German Audiological Society (DGA), Erlangen, Germany, Mar. 2012. [11] Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning"; J. Audio Eng. Soc., Volume 45, Issue 6, pp. 456-466, June 1997.
本発明の目的は、オブジェクト・メタデータ符号化のための改善された概念を提供することである。本発明の目的は、請求項1に記載の装置と、請求項6に記載の装置と、請求項12に記載のシステムと、請求項13に記載の方法と、請求項14に記載の方法と、請求項15に記載のコンピュータプログラムとによって達成される。
1つ以上のオーディオチャネルを生成する装置が提供される。この装置は、制御信号(b)に依存して、1つ以上の処理済みメタデータ信号(z1,…,zN)から1つ以上の再生メタデータ信号(x1',…,xN')を生成するメタデータ復号器を含み、それら1つ以上の再生メタデータ信号(x1',…,xN')の各々は1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、メタデータ復号器は、1つ以上の再生メタデータ信号(x1',…,xN')の各々に対して複数の再生メタデータサンプル(x1'(n),…,xN'(n))を決定することにより、1つ以上の再生メタデータ信号(x1',…,xN')を生成するよう構成されている。更に、この装置は、1つ以上のオーディオオブジェクト信号に依存しかつ1つ以上の再生メタデータ信号(x1',…,xN')に依存して、1つ以上のオーディオチャネルを生成するオーディオチャネル生成部を含む。メタデータ復号器は、1つ以上の処理済みメタデータ信号(z1,…,zN)の各々の複数の処理済みメタデータサンプル(z1(n),…,zN(n))を受信するよう構成されている。更に、メタデータ復号器は制御信号(b)を受信するよう構成されている。更に、メタデータ復号器は、1つ以上の再生メタデータ信号(x1',…,xN')の各再生メタデータ信号(xi')の複数の再生メタデータサンプル(xi'(1),…,xi'(n-1),xi'(n))の各再生メタデータサンプル(xi'(n))を以下のように決定する。即ち、制御信号(b)が第1状態(b(n)=0)を示すときには、再生メタデータサンプル(xi'(n))が、1つ以上の処理済みメタデータ信号のうちの1つ(zi)の処理済みメタデータサンプルの1つ(zi(n))と再生メタデータ信号(xi')の他の1つの既に生成された再生メタデータサンプル(xi'(n-1))との合計であり、制御信号が第1状態とは異なる第2状態(b(n)=1)を示すときには、再生メタデータサンプル(xi'(n))が、1つ以上の処理済みメタデータ信号(z1,…,zN)の1つ(zi)の処理済みメタデータサンプル(zi(1),…,zi(n))の1つ(zi(n))であるように、決定する。
更に、1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する装置が提供される。この装置は、1つ以上のオリジナル・メタデータ信号を受信して1つ以上の処理済みメタデータ信号を決定する、メタデータ符号器を含む。1つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、1つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す。
更にこの装置は、1つ以上のオーディオオブジェクト信号を符号化して1つ以上の符号化済みオーディオ信号を取得するオーディオ符号器を含む。
メタデータ符号器は、1つ以上の処理済みメタデータ信号(z1,…,zN)の各処理済みメタデータ信号(zi)の複数の処理済みメタデータサンプル(zi(1),…,zi(n-1), zi(n))の各処理済みメタデータサンプル(zi(n))を、以下のように決定する。即ち、制御信号(b)が第1状態(b(n)=0)を示すときには、再生メタデータサンプル(zi(n))が、1つ以上のオリジナル・メタデータ信号の1つ(xi)の複数のオリジナル・メタデータサンプルの1つ(xi(n))と、処理済みメタデータ信号(zi)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第1状態とは異なる第2状態(b(n)=1)を示すときには、処理済みメタデータサンプル(zi(n))が、1つ以上の処理済みメタデータ信号の1つ(xi)のオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))、又はオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))の量子化済み表現(qi(n))となるように、決定する。
一実施形態によれば、制限されたデータレートでチャネルを伝送するための効率的な圧縮メカニズムを達成する、オブジェクト・メタデータのためのデータ圧縮概念が提供される。符号器及び復号器によってそれぞれ導入される追加的な遅延は全くない。更に、純粋な方位角変化、例えばカメラ回転に対する良好な圧縮レートが達成される。更にこの提案の概念は、例えば位置的ジャンプのような不連続的な軌跡をサポートする。更に、複雑性の低い復号化を実現できる。更に、制限された再初期化時間でランダムアクセスを達成できる。
1つ以上のオーディオチャネルを生成する方法が提供される。その方法は、
−制御信号(b)に依存して、1つ以上の処理済みメタデータ信号(z1,…,zN)から1つ以上の再生メタデータ信号(x1',…,xN')を生成するステップであって、それら1つ以上の再生メタデータ信号(x1',…,xN')の各々は1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、1つ以上の再生メタデータ信号(x1',…,xN')を生成するステップは、1つ以上の再生メタデータ信号(x1',…,xN')の各々に対し複数の再生メタデータサンプル(x1'(n),…,xN'(n))を決定することにより実行される、ステップと、
−1つ以上のオーディオオブジェクト信号に依存しかつ1つ以上の再生メタデータ信号(x1',…,xN')に依存して、1つ以上のオーディオチャネルを生成するステップと、
を備える。
1つ以上の再生メタデータ信号(x1',…,xN')を生成するステップは、1つ以上の処理済みメタデータ信号(z1,…,zN)の各々の複数の処理済みメタデータサンプル(z1(n),…,zN(n))を受信すること、制御信号(b)を受信すること、及び1つ以上の再生メタデータ信号(x1',…,xN')の各再生メタデータ信号(xi')の複数の再生メタデータサンプル(xi'(1),…,xi'(n-1),xi'(n))の各再生メタデータサンプル(xi'(n))を以下のように決定すること、により実行される。即ち、制御信号(b)が第1状態(b(n)=0)を示すときには、再生メタデータサンプル(xi'(n))が、1つ以上の処理済みメタデータ信号のうちの1つ(zi)の処理済みメタデータサンプルの1つ(zi(n))と前記再生メタデータ信号(xi')の他の1つの既に生成された再生メタデータサンプル(xi'(n-1))との合計となり、制御信号が第1状態とは異なる第2状態(b(n)=1)を示すときには、再生メタデータサンプル(xi'(n))が1つ以上の処理済みメタデータ信号(z1,…,zN)の前記1つ(zi)の処理済みメタデータサンプル(zi(1),…,zi(n))の前記1つ(zi(n))となるように、決定する。
更に、1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する方法が提供される。その方法は、
−1つ以上のオリジナル・メタデータ信号を受信するステップと、
−1つ以上の処理済みメタデータ信号を決定するステップと、
−1つ以上のオーディオオブジェクト信号を符号化して1つ以上の符号化済みオーディオ信号を取得するステップと、
を備える。
1つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、1つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示している。1つ以上の処理済みメタデータ信号を決定するステップは、1つ以上の処理済みメタデータ信号(z1,…,zN)の各処理済みメタデータ信号(zi)の複数の処理済みメタデータサンプル(zi(1),…,zi(n-1),zi(n))の各処理済みメタデータサンプル(zi(n))を、以下のように決定することを含む。即ち、制御信号(b)が第1状態(b(n)=0)を示すときには、再生メタデータサンプル(zi(n))が、1つ以上のオリジナル・メタデータ信号の1つ(xi)の複数のオリジナル・メタデータサンプルの1つ(xi(n))と処理済みメタデータ信号(zi)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第1状態とは異なる第2状態(b(n)=1)を示すときには、処理済みメタデータサンプル(zi(n))が、1つ以上の処理済みメタデータ信号の前記1つ(xi)のオリジナル・メタデータサンプル(xi(n),…,xi(n))の1つ(xi(n))、又はオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))の量子化済み表現(qi(n))となるように、決定する。
更に、コンピュータ又は信号プロセッサ上で作動されたときに、上述した方法を実行するコンピュータプログラムが提供される。
以下に、本発明の実施形態を図面を参照しながらより詳細に説明する。
1つ以上のオーディオチャネルを生成する、一実施形態に係る装置を示す。 符号化済みオーディオ情報を生成する、一実施形態に係る装置を示す。 一実施形態に係るシステムを示す。 方位角、仰角及び半径により表現された、原点からの3次元空間におけるオーディオオブジェクトの位置を示す。 オーディオチャネル生成部により想定されたオーディオオブジェクトの位置とラウドスピーカ設定とを示す。 差分パルス符号変調符号器を示す。 差分パルス符号変調復号器を示す。 一実施形態に係るメタデータ符号器を示す。 他の実施形態に係るメタデータ符号器を示す。 一実施形態に係るメタデータ復号器を示す。 一実施形態に係るメタデータ復号器サブユニットを示す。 3Dオーディオ符号器の第1実施形態を示す。 3Dオーディオ復号器の第1実施形態を示す。 3Dオーディオ符号器の第2実施形態を示す。 3Dオーディオ復号器の第2実施形態を示す。 3Dオーディオ符号器の第3実施形態を示す。 3Dオーディオ復号器の第3実施形態を示す。
図2は、1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成するための一実施形態に係る装置250を示す。
装置250は、1つ以上のオリジナル・メタデータ信号を受信し、1つ以上の処理済みメタデータ信号を決定する、メタデータ符号器210を含む。1つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、1つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは、1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す。
更に、装置250は、1つ以上のオーディオオブジェクト信号を符号化して1つ以上の符号化済みオーディオ信号を取得する、オーディオ符号器220を含む。
メタデータ符号器210は、1つ以上の処理済みメタデータ信号(z1,…,zN)の各処理済みメタデータ信号(zi)の複数の処理済みメタデータサンプル(zi(1),…,zi(n-1), zi(n))の各処理済みメタデータサンプル(zi(n))を、以下のように決定するよう構成されている。即ち、制御信号(b)が第1状態(b(n)=0)を示すときには、再生メタデータサンプル(zi(n))が、前記1つ以上のオリジナル・メタデータ信号の1つ(xi)の複数のオリジナル・メタデータサンプルの1つ(xi(n))と処理済みメタデータ信号(zi)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第1状態とは異なる第2状態(b(n)=1)を示すときには、処理済みメタデータサンプル(zi(n))が、1つ以上の処理済みメタデータ信号の1つ(xi)のオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))、又はオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))の量子化済み表現(qi(n))となるように、決定する。
図1は、1つ以上のオーディオチャネルを生成する一実施形態に係る装置100を示す。
装置100は、制御信号(b)に依存して、1つ以上の処理済みメタデータ信号(z1,…,zN)から1つ以上の再生メタデータ信号(x1',…,xN')を生成するメタデータ復号器110を含み、それら1つ以上の再生メタデータ信号(x1',…,xN')の各々は、1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、メタデータ復号器110は、1つ以上の再生メタデータ信号(x1',…,xN')の各々に対し複数の再生メタデータサンプル(x1'(n),…,xN'(n))を決定することにより、1つ以上の再生メタデータ信号(x1',…,xN')を生成するよう構成されている。
更に装置100は、1つ以上のオーディオオブジェクト信号に依存しかつ1つ以上の再生メタデータ信号(x1',…,xN')に依存して、1つ以上のオーディオチャネルを生成するオーディオチャネル生成部120を含む。
メタデータ復号器110は、1つ以上の処理済みメタデータ信号(z1,…,zN)の各々の複数の処理済みメタデータサンプル(z1(n),…,zN(n))を受信するよう構成されている。更にメタデータ復号器110は、制御信号(b)を受信するよう構成されている。
更に、メタデータ復号器110は、1つ以上の再生メタデータ信号(x1',…,xN')の各再生メタデータ信号(xi')の複数の再生メタデータサンプル(xi'(n),…,xi'(n-1),xi'(n))の各再生メタデータサンプル(xi'(n))を、以下のように決定するよう構成されている。即ち、制御信号(b)が第1状態(b(n)=0)を示すとき、再生メタデータサンプル(xi'(n))が、1つ以上の処理済みメタデータ信号の1つ(zi)の処理済みメタデータサンプルの1つ(zi(n))と再生メタデータ信号(xi')の他の1つの既に生成された再生メタデータサンプル(xi'(n-1))との合計であり、制御信号が第1状態とは異なる第2状態(b(n)=1)を示すとき、再生メタデータサンプル(xi'(n))が、1つ以上の処理済みメタデータ信号(z1,…,zN)の前記1つ(zi)の処理済みメタデータサンプル(zi(1),…,zi(n))の前記1つ(zi(n))であるように、決定する。
メタデータサンプルについて言及する場合には、1つのメタデータサンプルは、そのメタデータサンプル値によって特徴付けられるだけでなく、そのメタデータサンプルが関連する時点によっても特徴付けられるという点にも留意すべきである。例えば、そのような時点とは、オーディオシーケンスの開始点又はそれと同様な点に対して相対的であってもよい。例えば、インデックスn又はkはメタデータ信号内のメタデータサンプルの位置を識別していてもよく、これにより、(開始時点に関連する)(相対的)時点が示されてもよい。注意すべきは、2つのメタデータサンプルが異なる時点に関連する場合、(時々起こり得ることであるが)たとえそれらのメタデータサンプル値が同一であったとしても、それら2つのメタデータサンプルは異なるメタデータサンプルであるということである。
上述の実施形態は、オーディオオブジェクト信号と関連する(メタデータ信号に含まれる)メタデータ情報がゆっくりと変化する場合が多い、という知見に基づいている。
例えば、メタデータ信号は、オーディオオブジェクトについての位置情報(例えばオーディオオブジェクトの位置を定義する方位角、仰角又は半径)を示してもよい。殆どの時点でオーディオオブジェクトの位置は変化しないか又はゆっくりとだけ変化する、と想定されてもよい。
あるいは、メタデータ信号は、例えばオーディオオブジェクトの音量(例えばゲイン)を示してもよく、殆どの時点でオーディオオブジェクトの音量はゆっくりと変化すると想定されてもよい。
このような理由により、全ての時点における(完全な)メタデータ情報を伝送する必要はない。
その代わり、幾つかの実施形態によれば、(完全な)メタデータ情報が例えばある時点においてだけ伝送されてもよく、例えばN番目の時点毎に周期的に、例えば時点0,N,2N,3N等において伝送されてもよい。
例えば、実施形態においては、3個のメタデータ信号が3D空間におけるオーディオオブジェクトの位置を特定する。メタデータ信号の1番目は、例えばオーディオオブジェクトの位置の方位角を特定してもよい。メタデータ信号の2番目は、例えばオーディオオブジェクトの位置の仰角を特定してもよい。メタデータ信号の3番目は、例えばオーディオオブジェクトの距離に関係する半径を特定してもよい。
方位角と仰角と半径とは、3D空間におけるオーディオオブジェクトの原点からの位置を明確に定義する。これについては図4を参照しながら説明する。
図4は、三次元(3D)空間におけるオーディオオブジェクトの原点400からの位置410を、方位角と仰角と半径とで示す。
仰角は、例えば、原点からオブジェクト位置までの直線と、この直線のxy平面(x軸とy軸とによって定義される平面)への垂直投影線との角度を特定する。方位角は、例えばx軸と前記垂直投影線との角度を定義する。方位角と仰角とを特定することで、原点400とオーディオオブジェクトの位置410とを通過する直線415が定義され得る。更に半径を特定することで、オーディオオブジェクトの正確な位置410が定義され得る。
一実施形態において、方位角は−180°<方位角≦180°の範囲で定義され、仰角は−90°≦仰角≦90°の範囲で定義され、半径は例えばメートル[m](0m以上である)で定義され得る。
例えばxyz座標系におけるオーディオオブジェクト位置の全てのx値がゼロ以上であると想定され得るような他の実施形態においては、方位角は−90°≦方位角≦90°の範囲で定義され、仰角は−90°≦仰角≦90°の範囲で定義され、半径は例えばメートル[m]で定義され得る。
更なる実施形態において、方位角が−128°<方位角≦128°の範囲で定義され、仰角が−32°≦仰角≦32°の範囲で定義され、半径が例えば対数スケールで定義され得るように、メタデータ信号はスケールされてもよい。幾つかの実施形態において、オリジナル・メタデータ信号、処理済みメタデータ信号、及び再生メタデータ信号は、それぞれ、1つ以上のオーディオオブジェクト信号の1つの位置情報のスケールされた表現及び/又は音量のスケールされた表現を含んでもよい。
オーディオチャネル生成部120は、例えば、1つ以上のオーディオオブジェクト信号に依存しかつ再生メタデータ信号に依存して、1つ以上のオーディオチャネルを生成するよう構成されてもよく、その再生メタデータ信号は、例えばオーディオオブジェクトの位置を示してもよい。
図5は、オーディオオブジェクトの位置と、オーディオチャネル生成部により想定されるラウドスピーカ設定とを示す。xyz座標系の原点500が示されている。更に、第1オーディオオブジェクトの位置510と、第2オーディオオブジェクトの位置520とが示されている。更に、図5は、オーディオチャネル生成部120が4個のラウドスピーカのための4個のオーディオチャネルを生成するシナリオを示す。オーディオチャネル生成部120は、4個のラウドスピーカ511,512,513,514が図5に示す位置に配置されていると想定している。
図5において、第1オーディオオブジェクトは、ラウドスピーカ511と512の想定位置に近い位置510に配置されており、ラウドスピーカ513と514からは遠い位置に配置されている。従って、オーディオチャネル生成部120は、第1オーディオオブジェクト510がラウドスピーカ511及び512により再生され、ラウドスピーカ513及び514では再生されないように、4個のオーディオチャネルを生成してもよい。
他の実施形態において、オーディオチャネル生成部120は、第1オーディオオブジェクト510がラウドスピーカ511及び512により高い音量で再生され、ラウドスピーカ513及び514により低い音量で再生されるように、4個のオーディオチャネルを生成してもよい。
更に、第2オーディオオブジェクトは、ラウドスピーカ513と514の想定位置に近い位置520に配置されており、ラウドスピーカ511と512からは遠い位置に配置されている。従って、オーディオチャネル生成部120は、第2オーディオオブジェクト520がラウドスピーカ513及び514により再生され、ラウドスピーカ511及び512では再生されないように、4個のオーディオチャネルを生成してもよい。
他の実施形態において、オーディオチャネル生成部120は、第2オーディオオブジェクト520がラウドスピーカ513及び514により高い音量で再生され、ラウドスピーカ511及び512により低い音量で再生されるように、4個のオーディオチャネルを生成してもよい。
代替的な実施形態において、オーディオオブジェクトの位置を特定するために、2個のメタデータ信号だけが使用されてもよい。例えば、全てのオーディオオブジェクトが単一平面に配置されていると想定される場合には、例えば方位角と半径だけが特定されてもよい。
更に他の実施形態においては、各オーディオオブジェクトのために、単一のメタデータ信号だけが位置情報として符号化されかつ伝送される。例えば、あるオーディオオブジェクトについて、方位角だけが位置情報として特定されてもよい(例えば全てのオーディオオブジェクトが同一平面上に配置され、中心点から同一距離を持ち、従って同一半径を有すると想定される場合など)。方位角情報は、例えば、オーディオオブジェクトが左のラウドスピーカに近く、右のラウドスピーカからは遠いと判定することで十分であってもよい。そのような状況において、オーディオチャネル生成部120は、例えばオーディオオブジェクトが左のラウドスピーカによって再生されるが、右のラウドスピーカでは再生されないように、1つ以上のオーディオチャネルを生成してもよい。
例えば、ラウドスピーカのオーディオチャネルの各々の中におけるオーディオオブジェクト信号の重みを決定するために、ベクトルベース振幅パニング(Vector Base Amplitude Panning(VBAP))が使用されてもよい(例えば非特許文献10を参照)。例えば、VBAPに関しては、オーディオオブジェクトが仮想音源に関連すると想定されている。
実施形態において、各オーディオオブジェクトについて、更なるメタデータ信号が音量、例えばゲイン(例えばデシベル[dB]で表現された)を特定してもよい。
例えば図5において、第1ゲイン値は、位置510に配置された第1オーディオオブジェクトのための更なるメタデータ信号により特定されてもよく、その値は、位置520に配置された第2オーディオオブジェクトのための別の更なるメタデータ信号によって特定される第2ゲイン値よりも高い。そのような状況において、ラウドスピーカ511及び512は第1オーディオオブジェクトを、ラウドスピーカ513及び514が第2オーディオオブジェクトを再生する音量よりも高い音量で再生してもよい。
実施形態はまた、オーディオオブジェクトのそのようなゲイン値がゆっくりと変化する場合が多いと想定している。従って、そのようなメタデータ情報を全ての時点において伝送する必要はない。代わりに、メタデータ情報は、ある時点において伝送されるだけである。中間の時点においては、メタデータ情報は、例えば伝送された先行するメタデータサンプルと後続のメタデータサンプルとを使用して近似されてもよい。例えば、中間値の近似のために線形補間が使用されてもよい。例えば、オーディオオブジェクトの各々のゲイン、方位角、仰角及び/又は半径が、そのようなメタデータが伝送されなかった時点のために近似されてもよい。
そのような手法により、メタデータの伝送レートにおける相当な節約を達成し得る。
図3は、一実施形態に従うシステムを示す。
このシステムは、1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する、上述のような装置250を備える。
更に、そのシステムは、1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを受信し、その1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とに依存して、上述のように1つ以上のオーディオチャネルを生成する装置100を備える。
例えば、1つ以上のオーディオオブジェクトを符号化するための符号化装置250がSAOC符号器を使用した場合には、1つ以上の符号化済みオーディオ信号が、現状技術に係るSAOC復号器を使用して1つ以上のオーディオチャネルを生成する装置100によって復号化されて、1つ以上のオーディオオブジェクト信号が取得されてもよい。
実施形態は、差分パルス符号変調の概念が拡張可能であり、そのような拡張された概念はオーディオオブジェクトのためのメタデータ信号を符号化するのに適している、という知見に基づいている。
差分パルス符号変調(DPCM)の方法は、量子化を介して不適切さ(irrelevance)を低減し、差分伝送を介して冗長性を低減するような、低速変化する時間信号のための確立された方法である(特許文献1)。あるDPCM符号器を図6で示す。
図6のDPCM符号器において、入力信号xの実際の入力サンプルx(n)が減算ユニット610へと入力される。減算ユニットの他の入力では、別の値が減算ユニットへと入力される。この別の値は、以前に受信されたサンプルx(n-1)であると想定されてもよい。しかし、量子化誤差又は他の誤差により、他の入力における値が以前のサンプルx(n-1)と正確に同一ではないという結果をもたらしている可能性もある。そのようなx(n-1)からの可能性のあるずれに起因して、減算部の他の入力はx*(n-1)と称されてもよい。減算ユニットは、x(n)からx*(n-1)を減算して差分値d(n)を取得する。
次に、d(n)は量子化部620内で量子化されて、出力信号yの別の出力サンプルy(n)が取得される。一般的に、y(n)はd(n)と等しいか又はd(n)に近い値である。
更に、y(n)は加算部630へと入力される。更に、x*(n-1)も加算部630へと入力される。d(n)が減算d(n)=x(n)-x*(n-1)からもたらされ、y(n)がd(n)と等しい値又は少なくとも近い値であるため、加算部630の出力x*(n)は、x(n)と等しいか又は少なくともx(n)に近い。
x*(n)はサンプリング期間中、ユニット640において保持され、次に、処理は次のサンプルx(n+1)で継続される。
図7は、対応するDPCM復号器を示す。
図7において、DPCM符号器からの出力信号yのサンプルy(n)は加算部710へと入力される。y(n)は、再生されるべき信号x(n)の差分値を表す。加算部710の他の入力においては、以前に再生されたサンプルx'(n-1)が入力される。加算部の出力x'(n)は加算x'(n)=x'(n-1)+y(n)からもたらされる。x'(n-1)は、一般的にx(n-1)と等しいか又は少なくとも近く、また、y(n)は、x(n)-x(n-1) と等しいか又は近いので、加算部710の出力x'(n)は、一般的にx(n)と等しいか又は近い。
x'(n)はサンプリング期間中、ユニット740において保持され、次に、処理は次のサンプルy(n+1) で継続される。
DPCM圧縮方法は前述した要求される特徴の殆どを満足するが、その圧縮方法はランダムアクセスを許可しない。
図8aは、一実施形態に従うメタデータ符号器801を示す。
図8aのメタデータ符号器801により使用される符号化方法は、従来のDPCM符号化方法の拡張である。
図8aのメタデータ符号器801は、1つ以上のDPCM符号器811,...,81Nを含む。例えば、メタデータ符号器801がN個のオリジナル・メタデータ信号を受信するよう構成されている場合、メタデータ符号器801は、例えば、正にN個のDPCM符号器を含んでもよい。一実施形態において、N個のDPCM符号器の各々は図6に関して説明したように構成されている。
一実施形態において、N個のDPCM符号器の各々は、N個のオリジナル・メタデータ信号x1,…,xNの1つのメタデータサンプルxi(n)を受信し、かつ、前記DPCM符号器に入力された前記オリジナル・メタデータ信号xiのメタデータサンプルxi(n)の各々のために、メタデータ差分信号yiの差分サンプルyi(n)としての差分値を生成するよう構成されている。一実施形態において、差分サンプルyi(n)を生成するステップは、例えば図6を参照しながら説明したように実行されてもよい。
図8aのメタデータ符号器801は、制御信号b(n)を受信するよう構成された選択部830("A")を更に含む。
選択部830は、更に、N個のメタデータ差分信号y1,…,yNを受信するよう構成されている。
更に図8aの実施形態において、メタデータ符号器801は、N個のオリジナル・メタデータ信号x1,…,xNを量子化してN個の量子化済みメタデータ信号q1,…,qNを取得する、量子化部820を含む。そのような実施形態において、量子化部は、N個の量子化済みメタデータ信号を選択部830へと供給するよう構成されてもよい。
選択部830は、制御信号b(n)に依存して、量子化済みメタデータ信号qiとDPCM符号化された差分メタデータ信号yiとから、処理済みメタデータ信号ziを生成するよう構成されてもよい。
例えば、制御信号bが第1状態(例えばb(n)=0)にあるとき、選択部830は、処理済みメタデータ信号ziのメタデータサンプルzi(n)として、メタデータ差分信号yiの差分サンプルyi(n)を出力するよう構成されてもよい。
制御信号bが第1状態とは異なる第2状態(例えばb(n)=1)にあるとき、選択部830は、処理済みメタデータ信号ziのメタデータサンプルzi(n)として、量子化済みメタデータ信号qiのメタデータサンプルqi(n)を出力するよう構成されてもよい。
図8bは、他の実施形態に係るメタデータ符号器802を示す。
図8bの実施形態において、メタデータ符号器802は量子化部820を含んでおらず、N個の量子化済みメタデータ信号q1,…,qNの代わりに、N個のオリジナル・メタデータ信号x1,…,xNが選択部830に対して直接的に供給される。
そのような実施形態において、例えば制御信号bが第1状態(例えばb(n)=0)にあるとき、選択部830は、処理済みメタデータ信号ziのメタデータサンプルzi(n)として、メタデータ差分信号yiの差分サンプルyi(n)を出力するよう構成されてもよい。
制御信号bが第1状態とは異なる第2状態(例えばb(n)=1)にあるとき、選択部830は、処理済みメタデータ信号ziのメタデータサンプルzi(n)として、オリジナル・メタデータ信号xiのメタデータサンプルxi(n)を出力するよう構成されてもよい。
図9aは、一実施形態に係るメタデータ復号器901を示す。図9aに係るメタデータ符号器は、図8a及び図8bのメタデータ符号器と対応している。
図9aのメタデータ復号器901は、1つ以上のメタデータ復号器サブユニット911,…,91Nを含む。メタデータ復号器901は、1つ以上の処理済みメタデータ信号z1,…,zNを受信するよう構成されている。更に、メタデータ復号器901は、制御信号bを受信するよう構成されている。メタデータ復号器は、制御信号bに依存して、1つ以上の処理済みメタデータ信号z1,…,zNから1つ以上の再生メタデータ信号x1',…,xN'を生成するよう構成されている。
一実施形態において、N個の処理済みメタデータ信号z1,…,zNの各々が、メタデータ復号器サブユニット911,…,91Nの異なる1つへと供給される。更に、一実施形態によれば、制御信号bがメタデータ復号器サブユニット911,…,91Nの各々に供給される。一実施形態によれば、メタデータ復号器サブユニット911,…,91Nの個数は、メタデータ復号器901によって受信される処理済みメタデータ信号z1,…,zNの個数と等しい。
図9bは、一実施形態に係る、図9aのメタデータ復号器サブユニット911,…,91Nの1つのメタデータ復号器サブユニット(91i)を示す。メタデータ復号器サブユニット91iは、単一の処理済みメタデータ信号ziのために復号化を実行するよう構成されている。メタデータ復号器サブユニット91iは、選択部930("B")と加算部910とを含む。
メタデータ復号器サブユニット91iは、制御信号b(n)に依存して、受信された処理済みメタデータ信号ziから再生メタデータ信号xi'を生成するよう構成されている。
この操作は、例えば以下のようにして実現され得る。
再生メタデータ信号xi'の最後の再生メタデータサンプルxi'(n-1)が加算部910へと入力される。更に、処理済みメタデータ信号ziの実際のメタデータサンプルzi(n)もまた加算部910へと入力される。加算部は、最後の再生メタデータサンプルxi'(n-1)と実際のメタデータサンプルzi(n)とを加算して合計値si(n)を取得するよう構成されており、その合計値は選択部930へと入力される。
更に、実際のメタデータサンプルzi(n)もまた、加算部930へと入力される。
選択部930は、制御信号bに依存して、加算部910からの合計値si(n)、又は実際のメタデータサンプルzi(n)のいずれかを、再生メタデータ信号xi'(n)の実際のメタデータサンプルxi'(n)として選択するよう構成されている。
例えば制御信号bが第1状態(例えばb(n)=0)にあるとき、制御信号bは実際のメタデータサンプルzi(n)が差分値であることを示しており、よって、合計値si(n)が再生メタデータ信号xi'の正確な実際のメタデータサンプルxi'(n)である。選択部830は、制御信号が第1状態にあるとき(b(n)=0のとき)、合計値si(n)を、再生メタデータ信号xi'の実際のメタデータサンプルxi'(n)として選択するよう構成されている。
制御信号bが第1状態とは異なる第2状態(例えばb(n)=1)にあるとき、制御信号bは実際のメタデータサンプルzi(n)が差分値でないことを示しており、よって、実際のメタデータサンプルzi(n)が再生メタデータ信号xi'の正確な実際のメタデータサンプルxi'(n)である。選択部830は、制御信号が第2状態にあるとき(b(n)=1のとき)、実際のメタデータサンプルzi(n)を、再生メタデータ信号xi'の実際のメタデータサンプルxi'(n)として選択するよう構成されている。
実施形態によれば、メタデータ復号器サブユニット91i'は、さらにユニット920を含む。ユニット920は、再生メタデータ信号の実際のメタデータサンプルxi'(n)を、サンプリング期間の持続時間中、保持するよう構成されている。一実施形態において、これにより、xi'(n)が生成されつつあるとき、生成されたx'(n)のフィードバックが早くなり過ぎないことが確保され、zi(n)が差分値である場合に、xi'(n)が現実にxi'(n-1)に基づいて生成されるようになる。
図9bの実施形態において、選択部930は、制御信号b(n)に依存して、受信された信号成分zi(n)及び、遅延された出力成分(再生メタデータ信号の既に生成されたメタデータサンプル)と受信された信号成分zi(n)との線形結合から、メタデータサンプルxi'(n)を生成してもよい。
以下において、DPCM符号化済み信号はyi(n)で表され、Bの第2入力信号(合計信号)はsi(n)で表される。対応する入力成分だけに依存する出力成分について、符号器及び復号器の出力は以下のように表される。
zi(n) = A(xi(n), vi(n), b(n))
xi'(n) = B(zi(n), si(n), b(n))
上述した一般的な手法に係る一実施形態に従う解決策は、b(n)を用いて、DPCM符号化済み信号と量子化済み入力信号との間を切り替えることである。簡素化を目的として、時間インデックスnを省略すると、機能ブロックAとBとは以下のように表すことができる。
メタデータ符号器801,802において、選択部830(A)は次のように選択する。
A:zi(xi, yi, b) = yi, b=0のとき (ziは差分値を示す)
A:zi(xi, yi, b) = xi, b=1のとき (ziは差分値を示さない)
メタデータ復号器サブユニット91i,91i’において、選択部930(B)は次のように選択する。
B:xi'(zi, si, b) = si, b=0のとき (ziは差分値を示す)
B:xi'(zi, si, b) = zi, b=1のとき (ziは差分値を示さない)
これにより、b(n)が1と等しいときは常に量子化済み入力信号を伝送し、b(n)が0のときは常にDPCM信号を伝送することが可能になる。後者の場合、復号器はDPCM復号器となる。
オブジェクト・メタデータの伝送に適用される場合、このメカニズムは、復号器によってランダムアクセスのために使用され得る、未圧縮のオブジェクト位置を規則正しく伝送するために使用される。
好ましい実施形態において、メタデータサンプルを符号化するために使用されるビットの数よりも少数のビットが差分値を符号化するために使用される。これらの実施形態は、(例えばN個の)連続するメタデータサンプルは、多くの場合、僅かしか変化しないという知見に基づいている。例えば、一種類のメタデータサンプルが例えば8ビットで符号化される場合、これらメタデータサンプルは256個の異なる値の中から1つをとり得る。一般的に、(例えばN個の)連続するメタデータ値のその僅かな変化に起因して、例えば5ビットだけで差分値を符号化することは十分と考えられ得る。従って、差分値が伝送される場合でも、伝送されるビット数は低減され得る。
一実施形態において、メタデータ符号器210は、1つ以上の処理済みメタデータ信号(z1,…,zN)の1つ(zi)の処理済みメタデータサンプル(zi(1),…,zi(n))の各々を、制御信号が第1状態(b(n)=0)を示すときには第1のビット数を用いて符号化し、制御信号が第2状態(b(n)=1)を示すときには第2のビット数を用いて符号化するよう構成されており、第1のビット数は第2のビット数よりも少ない。
好ましい実施形態においては、1つ以上の差分値が伝送され、1つ以上の差分値の各々はメタデータサンプルの各々よりも少ないビットを用いて符号化され、差分値の各々は整数値である。
一実施形態によれば、メタデータ符号器110は、1つ以上の処理済みメタデータ信号の内の1つの1つ以上のメタデータサンプルを第1のビット数を用いて符号化するよう構成されており、ここで、1つ以上の処理済みメタデータ信号の1つの1つ以上のメタデータサンプルの各々は整数を示す。更に、メタデータ符号器(110)は、1つ以上の差分値を第2のビット数を用いて符号化するよう構成されており、ここで1つ以上の差分値の各々は整数を示し、第2のビット数は第1のビット数よりも少ない。
例えば一実施形態において、メタデータサンプルが8ビットで符号化された方位角を表現できると考慮されたい。例えば、その方位角は−90≦方位角≦90の整数であってもよい。従って、その方位角は181個の異なる値をとり得る。しかし、(例えばN個の)後続の方位角サンプルは、例えば±15以下しか変化しないと想定することができ、その場合、差分値を符号化するために5ビット(25=32)で十分となり得る。差分値が整数として表現される場合、その差分値を決定することは、伝送されるべき追加的な値を適切な値領域へと自動的に変換することになる。
例えば、第1オーディオオブジェクトの第1方位角値が60°であり、その後続の値が45°から75°まで変化する場合を考慮されたい。さらに、第2オーディオオブジェクトの第2方位角値が−30°であり、その後続の値が−45°から−15°まで変化する場合を考慮されたい。第1オーディオオブジェクトの両方の後続の値についての差分値、及び第2オーディオオブジェクトの両方の後続の値についての差分値を決定すると、第1方位角値及び第2方位角値の差分値は両方とも−15°から+15°までの値領域内にある。よって、差分値の各々を符号化するために5ビットで十分となり、差分値を符号化するビットシーケンスは、第1方位角の差分値と第2方位角の差分値とに対して同じ意味を持つ。
次に、実施形態に係るオブジェクト・メタデータ・フレームと、実施形態に係るシンボル表現とについて説明する。
符号化済みオブジェクト・メタデータは、フレーム内で伝送される。これらのオブジェクト・メタデータ・フレームは、イントラ符号化されたオブジェクトデータ、又はダイナミック・オブジェクトデータの何れかを含むことができ、後者の場合は、伝送された最後のフレームからの変化を含んでいる。
例えば、オブジェクト・メタデータ・フレームについて、以下のシンタックスの一部又は全部が使用されてもよい。
Figure 2016525714
以下に、一実施形態に係るイントラ符号化されたオブジェクトデータについて説明する。
符号化済みオブジェクト・メタデータのランダムアクセスが、イントラ符号化されたオブジェクトデータを介して実現され(「Iフレーム」)、イントラ符号化されたオブジェクトデータは規則的な格子上で(例えば長さ1024の32フレーム毎に)サンプリングされた量子化済み値を含む。これらIフレームは、例えば次のようなシンタックスを有し、その中で、position_azimuth, position_elevation, position_radius及び gain_factorは現時点の量子化済み値を特定する。
Figure 2016525714
Figure 2016525714
以下に、一実施形態に係るダイナミック・オブジェクトデータについて説明する。
DPCMデータは、例えば以下のシンタックスを有するダイナミック・オブジェクト・フレーム内で伝送される。
Figure 2016525714
Figure 2016525714
特に、一実施形態において、上述のマクロは例えば以下のような意味を有してもよい。
一実施形態に係るobject_data() payloadsの定義:
has_intracoded_object_metadata:そのフレームがイントラ符号化されたか又は差分符号化されたかを示す
一実施形態に係るintracoded_object_metadata() payloads の定義:
fixed_azimuth:全てのオブジェクトについて方位角値が固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_azimuth 固定又は共通の方位角の値を定義する
common_azimuth:全てのオブジェクトについて共通の方位角が使用されるか否かを示す
position_azimuth:共通の方位角値がない場合、各オブジェクトのための値が伝送される
fixed_elevation:全てのオブジェクトについて仰角値が固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_elevation:固定又は共通の仰角の値を定義する
common_elevation:全てのオブジェクトについて共通の仰角が使用されるか否かを示す
position_elevation:共通の仰角値がない場合、各オブジェクトのための値が伝送される
fixed_radius:全てのオブジェクトについて半径が固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_radius:共通の半径の値を定義する
common_radius:全てのオブジェクトについて共通の半径値が使用されるか否かを示す
position_radius:共通の半径値がない場合、各オブジェクトのための値が伝送される
fixed_gain:全てのオブジェクトについてゲインファクタが固定か否かを示すフラグであり、dynamic_object_metadata()の場合には伝送されない
default_gain:固定又は共通のゲインファクタの値を定義する
common_gain:全てのオブジェクトについて共通のゲイン値が使用されるか否かを示す
gain_factor:共通のゲイン値がない場合、各オブジェクトのための値が伝送される
position_azimuth:単一のオブジェクトだけがある場合、その方位角である
position_elevation:単一のオブジェクトだけがある場合、その仰角である
position_radius:単一のオブジェクトだけがある場合、その半径である
gain_factor:単一のオブジェクトだけがある場合、そのゲインファクタである
一実施形態に係るdynamic_object_metadata() payloadsの定義:
flag_absolute:構成要素の値が差分的に伝送されるか又は絶対値で伝送されるかを示す
has_object_metadata:ビットストリーム内にオブジェクトデータが存在するか否かを示す
一実施形態に係るsingle_dynamic_object_metadata() payloadsの定義:
position_azimuth:値が固定でない場合の方位角の絶対値
position_elevation:値が固定でない場合の仰角の絶対値
position_radius:値が固定でない場合の半径の絶対値
gain_factor:値が固定でない場合のゲインファクタの絶対値
nbits:差分値を表現するために必要なビットの数
flag_azimuth:方位角値が変化するか否かを示すオブジェクト毎のフラグ
position_azimuth_difference:以前の値と活性値との間の差
flag_elevation:仰角値が変化するか否かを示すオブジェクト毎のフラグ
position_elevation_difference:以前の値と活性値との間の差の値
flag_radius:半径が変化するか否かを示すオブジェクト毎のフラグ
position_radius_difference:以前の値と活性値との間の差
flag_gain:ゲインが変化するか否かを示すオブジェクト毎のフラグ
gain_factor_difference:以前の値と活性値との間の差
先行技術においては、低ビットレートで許容可能なオーディオ品質が得られるように、チャネル符号化と一方としオブジェクト符号化を他方として結合するような、柔軟性のある技術は存在しない。
この制約は3Dオーディオコーデックシステムにより克服できる。以下に、3Dオーディオコーデックシステムについて説明する。
図10は、本発明の一実施形態に係る3Dオーディオ符号器を示す。この3Dオーディオ符号器は、オーディオ入力データ101を符号化してオーディオ出力データ501を取得するよう構成されている。3Dオーディオ符号器は、CHで示された複数のオーディオチャネルとOBJで示された複数のオーディオオブジェクトとを受信する入力インターフェイスを備える。更に、図10に示すように、入力インターフェイス1100は、複数のオーディオオブジェクトOBJの1つ以上に関連するメタデータを追加的に受信する。更に、3Dオーディオ符号器は、複数のオブジェクトと複数のチャネルとをミキシングして複数のプレミクス済みチャネルを取得するミキサー200を備え、各プレミクス済みチャネルは1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む。
更に、3Dオーディオ符号器は、コア符号器入力データをコア符号化するコア符号器300と、複数のオーディオオブジェクトの1つ以上に関連するメタデータを圧縮するメタデータ圧縮部400とを備える。
更に、3Dオーディオ符号器は、ミキサーとコア符号器及び/又は出力インターフェイス500を複数の動作モードの1つで制御する、モード制御部600を備え、第1モードでは、コア符号器は、入力インターフェイス1100により受信された複数のオーディオチャネル及び複数のオーディオオブジェクトを、ミキサーによる相互作用なしに、即ちミキサー200によるミキシングなしに、符号化するよう構成されている。しかし、ミキサー200が活性化していた第2モードでは、コア符号器は、複数のミクス済みチャネル、即ちブロック200により生成された出力を符号化する。後者の場合、それ以上のオブジェクトデータを符号化しないことが好ましい。代わりに、オーディオオブジェクトの位置を示すメタデータは、メタデータによって示された通りにオブジェクトをチャネル上へとレンダリングするために、ミキサー200によって既に使用されている。換言すれば、ミキサー200は複数のオーディオオブジェクトに関連するメタデータを、オーディオオブジェクトをプレレンダリングするために使用し、次に、プレレンダリングされたオーディオオブジェクトはチャネルとミキシングされて、ミキサーの出力においてミクス済みチャネルが得られる。この実施形態では、如何なるオブジェクトも必ずしも伝送される必要がなく、このことは、ブロック400により出力される圧縮済みメタデータにも当てはまる。しかし、インターフェイス1100に入力された全てのオブジェクトがミキシングされる訳でなく、所定量のオブジェクトだけがミキシングされる場合には、ミキシングされていない残りのオブジェクト及び関連するメタデータだけが、コア符号化300又はメタデータ圧縮部400へとそれぞれ伝送される。
図10において、メタデータデータ圧縮部400は、上述した実施形態の1つに従う、符号化済みオーディオ情報を生成する装置250のメタデータ符号器210である。更に、図10において、ミキサー200及びコア符号器300は一緒に、上述した実施形態の1つに従う符号化済みオーディオ情報を生成する装置250のオーディオ符号器220を形成する。
図12は、SAOC符号器800を追加的に含む、3Dオーディオ符号器の更なる実施形態を示す。SAOC符号器800は、空間オーディオオブジェクト符号器入力データから、1つ以上の転送チャネル及びパラメトリックデータを生成するよう構成されている。図12に示すように、空間オーディオオブジェクト符号器入力データは、プレレンダラー/ミキサーによって処理されなかったオブジェクトである。代替的に、個別のチャネル/オブジェクト符号化が活性化しているモード1におけるように、プレレンダラー/ミキサーが迂回されていたと仮定すると、入力インターフェイス1100に入力された全てのオブジェクトはSAOC符号器800により符号化される。
更に、図12に示すように、コア符号器300は好ましくは、USAC符号器、即ちMPEG−USAC標準(USAC=統合されたスピーチ及びオーディオ符号化)の中で定義されかつ標準化されているような符号器として構成される。図12に示す全体的な3Dオーディオ符号器の出力は、個別のデータタイプについてコンテナ状構造を有しているMPEG4データストリームである。更に、メタデータは「OAM」データとして示され、図10におけるメタデータ圧縮部400は、圧縮済みOAMデータを取得するOAM符号器400に対応し、その圧縮済みOAMデータはUSAC符号器300へ入力され、USAC符号器300は、図12に示すように、MP4出力データストリームを取得するための出力インターフェイスを追加的に含み、そのMP4出力データストリームは符号化済みチャネル/オブジェクトデータだけでなく圧縮済みOAMデータをも有する。
図12において、OAM符号器400は、上述した実施形態の1つに従う、符号化済みオーディオ情報を生成する装置250のメタデータ符号器210である。更に、図12では、SAOC符号器800とUSAC符号器300とは一緒に、上述した実施形態の1つに従う、符号化済みオーディオ情報を生成する装置250のオーディオ符号器220を形成する。
図14は、3Dオーディオ符号器の更なる実施形態を示し、ここでは、図12とは対照的に、SAOC符号器はSAOC符号化アルゴリズムを用いて、このモードにおいて活性化していないプレレンダラー/ミキサー200により提供されたチャネルを符号化するか、又は代替的に、プレレンダリング済みチャネル+オブジェクトをSAOC符号化するか、の何れかを実行するよう構成されている。従って、図14においては、SAOC符号器800は3種類の異なる入力データ、即ち、プレレンダリング済みオブジェクトを持たないチャネル、チャネル及びプレレンダリング済みオブジェクト、又はオブジェクトのみ、に対して作動できる。更に、追加的なOAM復号器420を図14に設け、SAOC符号器800がその処理のために復号器側と同じデータを使用できるように、即ち、オリジナルOAMデータよりも寧ろ損失の多い圧縮により得られたデータを使用できるようにすることが好ましい。
図14の3Dオーディオ符号器は、複数の個別モードにおいて作動できる。
図10の文脈の中で説明した第1モード及び第2モードに加え、図14の3Dオーディオ符号器は追加的に第3モードでも作動でき、そのモードでは、プレレンダラー/ミキサー200が活性化していなかった場合、コア符号器が個別のオブジェクトから1つ以上の転送チャネルを生成する。代替的又は追加的に、この第3モードにおいて、図10のミキサー200に対応するプレレンダラー/ミキサー200が活性化していなかった場合、SAOC符号器800はオリジナルチャネルから1つ以上の代替的又は追加的な転送チャネルを生成することができる。
最後に、3Dオーディオ符号器が第4モードで構成されている場合、SAOC符号器800は、プレレンダラー/ミキサーによって生成されたチャネル+プレレンダリング済みオブジェクトを符号化することができる。そのため、第4モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。なぜなら、チャネルとオブジェクトとが、個別のSAOC転送チャネル及び図3と図5の中で「SAOC−SI」として示すような関連するサイド情報へと完全に変換されており、加えて、この第4モードでは如何なる圧縮済みメタデータも伝送される必要がないからである。
図14において、OAM符号器400は、上述した実施形態の1つに従う符号化済みオーディオ情報を生成する装置250のメタデータ符号器210である。更に、図14において、SAOC符号器800とUSAC符号器300とは一緒に、上述した実施形態の1つに従う符号化済みオーディオ情報を生成する装置250のオーディオ符号器220を形成する。
一実施形態によれば、オーディオ入力データ101を符号化してオーディオ出力データ501を取得する装置が提供される。そのオーディオ入力データ101を符号化する装置は、
−複数のオーディオチャネルと複数のオーディオオブジェクトと複数のオーディオオブジェクトの1つ以上に関連するメタデータとを受信する、入力インターフェイス1100と、
−複数のオブジェクトと複数のチャネルとをミキシングして、複数のプレミクス済みチャネルを取得するミキサー200であって、各プレミクス済みチャネルが1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む、ミキサー200と、
−上述したようなメタデータ符号器とオーディオ符号器とを含む、符号化済みオーディオ情報を生成する装置250と、
を備える。
符号化済みオーディオ情報を生成する装置250のオーディオ符号器220は、コア符号器入力データを符号化するコア符号器(300)である。
符号化済みオーディオ情報を生成する装置250のメタデータ符号器210は、複数のオーディオオブジェクトの1つ以上に関連するメタデータを圧縮するメタデータ圧縮部400である。
図11は本発明の一実施形態に係る3Dオーディオ復号器を示す。その3Dオーディオ復号器は、入力として符号化済みオーディオデータ、即ち図10のデータ501を受信する。
3Dオーディオ復号器は、メタデータ解凍部1400と、コア復号器1300と、オブジェクト処理部1200と、モード制御部1600と、後処理部1700とを備える。
具体的には、その3Dオーディオ復号器は符号化済みオーディオデータを復号化するよう構成されており、入力インターフェイスは符号化済みオーディオデータを受信するよう構成されており、符号化済みオーディオデータは、複数の符号化済みチャネルと、複数の符号化済みオブジェクトと、あるモードにおいて複数のオブジェクトに関連する圧縮済みメタデータとを含む。
更に、コア復号器1300は複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化するよう構成されており、追加的に、メタデータ解凍部は圧縮済みメタデータを解凍するよう構成されている。
更に、オブジェクト処理部1200は、コア復号器1300により生成された複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクトデータと復号化済みチャネルとを含む所定数の出力チャネルを得るよう構成されている。符号1205で示されたこれら出力チャネルは、次に後処理部1700へと入力される。後処理部1700は、出力チャネル1205の数を、バイノーラル出力フォーマット又は5.1や7.1などの出力フォーマットのようなラウドスピーカ出力フォーマットであり得る、ある出力フォーマットへと変換するよう構成されている。
好ましくは、3Dオーディオ復号器は、符号化済みデータを分析してモード指示を検出するよう構成された、モード制御部1600を備える。従って、そのモード制御部1600が図11の入力インターフェイス1100に接続されている。しかし、代替的に、モード制御部が必ずしも存在する必要はない。代わりに、柔軟性のあるオーディオ復号器は、ユーザー入力や任意の他の制御のような、他の如何なる種類の制御データによってもプリセットされ得る。好ましくはモード制御部1600により制御される図11の3Dオーディオ復号器は、その一方では、オブジェクト処理部を迂回して複数の復号化済みチャネルを後処理部1700へと供給するよう構成される。これは、図10の3Dオーディオ符号器においてモード2が適用されていた場合のモード2における作動であり、即ちプレレンダリング済みチャネルだけが受信される場合である。代替的に、3Dオーディオ符号器においてモード1が適用されていた場合、即ち3Dオーディオ符号器が個別のチャネル/オブジェクト符号化を実行していた場合、オブジェクト処理部1200は迂回されず、複数の復号化済みチャネルと複数の復号化済みオブジェクトとが、メタデータ解凍部1400によって生成された解凍済みメタデータと一緒にオブジェクト処理部1200へと供給される。
好ましくは、モード1又はモード2が適用されるべきかどうかの指示は符号化済みオーディオデータの中に含まれており、よって、モード制御部1600がモード指示を検出するために符号化済みデータを分析する。符号化済みオーディオデータは符号化済みチャネルと符号化済みオブジェクトとを含むとモード指示が示す場合には、モード1が使用され、他方、符号化済みオーディオデータはオーディオオブジェクトを何も含まない、即ち、図10の3Dオーディオ符号器のモード2によって得られたプレレンダリング済みチャネルだけを含むとモード指示が示す場合には、モード2が適用される。
図11において、メタデータ解凍部1400は、上述の実施形態の1つに従い1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110である。更に図11において、コア復号器1300とオブジェクト処理部1200と後処理部1700とは一緒に、上述の実施形態の1つに従い1つ以上のオーディオチャネルを生成する装置100のオーディオ復号器120を形成する。
図13は、図11の3Dオーディオ復号器と比較した好適な実施形態を示し、図13の実施形態は図12のオーディオ符号器に対応する。図11の3Dオーディオ復号器の構成に加えて、図13の3Dオーディオ復号器はSAOC復号器1800を含む。更に、図11のオブジェクト処理部1200は、別個のオブジェクトレンダラー1210とミキサー1220として構成されているが、モードに依存して、オブジェクトレンダラー1210の機能はSAOC復号器1800によっても実行され得る。
更に、後処理部1700は、バイノーラルレンダラー1710又はフォーマット変換部1720として構成され得る。代替的に、図11のデータ1205の直接的な出力もまた、1730で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は22.2や32などの最大数のチャネルに対して実行することが好ましい。しかしながら、5.1フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、図11又は図6におけるショートカット1727で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、SAOC復号器及び/又はUSAC復号器に対するある制御を適用し得ることが望ましい。
本発明の好適な実施形態において、オブジェクト処理部1200はSAOC復号器1800を含み、そのSAOC復号器は、コア復号器により出力される1つ以上の転送チャネル及び関連するパラメトリックデータを復号化し、かつ解凍済みメタデータを使用して、複数のレンダリング済みオーディオオブジェクトを取得するよう構成されている。この目的で、OAM出力がボックス1800に接続されている。
更に、オブジェクト処理部1200は、コア復号器により出力された復号化済みオブジェクトをレンダリングするよう構成されており、そのオブジェクトはSAOC転送チャネルの中で符号化されたものではなく、オブジェクトレンダラー1210により示されるように、典型的には単一チャネル化された構成要素の中で個別に符号化されたものである。更に、復号器は、ミキサーの出力をラウドスピーカへと出力するための、出力1730に対応する出力インターフェイスを備える。
更なる実施形態において、オブジェクト処理部1200は、符号化済みオーディオ信号又は符号化済みオーディオチャネルを表現している1つ以上の転送チャネル及び関連するパラメトリックサイド情報を復号化する、空間オーディオオブジェクト符号化・復号器1800を含む。その空間オーディオオブジェクト符号化・復号器は、関連するパラメトリック情報及び解凍済みメタデータを、出力フォーマットを直接的にレンダリングするために使用可能な、例えばSAOCの初期バージョンで定義されているような、符号変換済みパラメトリックサイド情報へと符号変換するよう構成されている。後処理部1700は、復号化済み転送チャネルと符号変換済みパラメトリックサイド情報とを使用して、出力フォーマットのオーディオチャネルを計算するよう構成されている。後処理部により実行される処理は、MPEGサラウンド処理と類似していてもよく、又はBCC処理などのような他の如何なる処理であってもよい。
更なる一実施形態において、オブジェクト処理部1200は、(コア復号器による)復号化済み転送チャネルとパラメトリックサイド情報とを使用して、出力フォーマットのためのチャネル信号を直接的にアップミクス及びレンダリングするよう構成された、空間オーディオオブジェクト符号化・復号器1800を含む。
更にかつ重要なことに、図11のオブジェクト処理部1200は、チャネルとミキシングされたプレレンダリング済みオブジェクトが存在する場合、即ち図10のミキサー200が活性化していた場合、入力としてUSAC復号器1300により出力されたデータを直接的に受信する、ミキサー1220をさらに備える。加えて、ミキサー1220は、SAOC復号化を用いずにオブジェクトレンダリングを実行しているオブジェクトレンダラーからのデータを受信する。更にミキサーは、SAOC復号器出力データ、即ちSAOCレンダリング済みオブジェクトを受信する。
ミキサー1220は、出力インターフェイス1730とバイノーラルレンダラー1710とフォーマット変換部1720とに接続されている。バイノーラルレンダラー1710は、頭部関連伝達関数又はバイノーラル室内インパルス応答(BRIR)を使用して、出力チャネルを2つのバイノーラルチャネルへとレンダリングするよう構成されている。フォーマット変換部1720は、出力チャネルを、ミキサーの出力チャネル1205よりも少数のチャネルを有する出力フォーマットへと変換するよう構成されており、そのフォーマット変換部1720は、5.1スピーカなどのような再生レイアウトについての情報を要求する。
図13において、OAM復号器1400は、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110である。更に、図13において、オブジェクトレンダラー1210とUSAC復号器1300とミキサー1220とは一緒に、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のオーディオ復号器120を形成する。
図15の3Dオーディオ復号器は、図13の3Dオーディオ復号器とは以下の点で異なる。即ち、SAOC復号器は、レンダリング済みオブジェクトだけでなくレンダリング済みチャネルをも生成しており、このことは、図14の3Dオーディオ符号器が使用され、チャネル/プレレンダリング済みオブジェクトとSAOC符号器800の入力インターフェイスとの間の接続900が活性化している場合であるという点である。
更に、ベクトル方式振幅パニング(VBAP)ステージ1810は、SAOC復号器から再生レイアウトについての情報を受信し、かつSAOC復号器に対してレンダリング行列を出力するよう構成され、その結果、SAOC復号器が、ミキサーの更なる動作を必要とせずに、レンダリング済みチャネルを高いチャネルフォーマット1205で、即ち32個のラウドスピーカに提供できるようになる。
VBAPブロックは、好適には復号化済みOAMデータを受信してレンダリング行列を導出する。より一般的には、VBAPブロックは、再生レイアウトの幾何学的情報だけでなく、その再生レイアウト上で入力信号がレンダリングされるべき位置の幾何学的情報をも要求することが好ましい。この幾何学的入力データは、オブジェクトについてのOAMデータであってもよく、又は、SAOCを用いて伝送されたチャネルについてのチャネル位置情報であってもよい。
しかしながら、ある特異な出力インターフェイスだけが要求される場合、VBAPステージ1810は、例えば5.1出力について要求されたレンダリング行列を既に供給することができる。その場合、SAOC復号器1800は、SAOC転送チャネルと関連するパラメトリックデータと解凍済みメタデータとから、直接的レンダリング、即ちミキサー1220の相互作用を何も受けずに、要求された出力フォーマットへの直接的なレンダリングを実行する。しかしながら、モード間のあるミキシングが適用される場合、即ち、複数のチャネルがSAOC符号化されているが、全てのチャネルがSAOC符号化されてはいない場合、複数のオブジェクトがSAOC符号化されているが、全てのオブジェクトがSAOC符号化されてはいない場合、又は、プレレンダリング済みオブジェクトとチャネルとのある量だけがSAOC復号化され、残りのチャネルがSAOC処理されない場合には、ミキサーは、個別の入力部分からのデータ、即ちコア復号器1300とオブジェクトレンダラー1210とSAOC復号器1800とからの直接的なデータを、結合するであろう。
図15において、OAM復号器1400は、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110である。更に図15において、オブジェクトレンダラー1210とUSAC復号器1300とミキサー1220とは一緒に、上述した実施形態の1つに従って1つ以上のオーディオチャネルを生成する装置100のオーディオ復号器120を形成する。
符号化済みオーディオデータを復号化する装置が提供される。その符号化済みオーディオデータを復号化する装置は、
−符号化済みオーディオデータを受信する入力インターフェイス1100であって、符号化済みオーディオデータは、複数の符号化済みチャネル、複数の符号化済みオブジェクト、又は複数のオブジェクトに関連する圧縮済みメタデータを含む、インターフェイス1100と、
−メタデータ復号器110と、上述したように1つ以上のオーディオチャネルを生成するオーディオチャネル生成部120とを含む、装置100と、
を備える。
1つ以上のオーディオチャネルを生成する装置100のメタデータ復号器110は、圧縮済みメタデータを解凍するメタデータ解凍部400である。
1つ以上のオーディオチャネルを生成する装置100のオーディオチャネル生成部120は、複数の符号化済みチャネルと複数の符号化済みオブジェクトとを復号化する、コア復号器1300を備える。
更に、オーディオチャネル生成部120は、複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、オブジェクト及び復号化済みチャネルからオーディオデータを含む幾つかの出力チャネル1205を取得する、オブジェクト処理部1200を更に備える。
更に、オーディオチャネル生成部120は、幾つかの出力チャネル1205を出力フォーマットへと変換する後処理部1700を更に備える。
これまで装置の文脈で幾つかの態様を示してきたが、これらの態様は対応する方法の説明をも表しており、1つのブロック又は装置が1つの方法ステップ又は方法ステップの特徴に対応することは明らかである。同様に、方法ステップを説明する文脈で示した態様もまた、対応する装置の対応するブロックもしくは項目又は特徴を表している。
本発明の分解された信号は、デジタル記憶媒体に記憶されることができ、又は、インターネットのような無線伝送媒体もしくは有線伝送媒体などの伝送媒体を介して伝送されることもできる。
所定の構成要件にもよるが、本発明の実施形態は、ハードウエア又はソフトウエアにおいて構成可能である。この構成は、その中に格納される電子的に読み取り可能な制御信号を有し、本発明の各方法が実行されるようにプログラム可能なコンピュータシステムと協働する(又は協働可能な)、デジタル記憶媒体、例えばフレキシブルディスク,DVD,CD,ROM,PROM,EPROM,EEPROM,フラッシュメモリなどのデジタル記憶媒体を使用して実行することができる。
本発明に従う幾つかの実施形態は、上述した方法の1つを実行するようプログラム可能なコンピュータシステムと協働可能で、電子的に読み取り可能な制御信号を有する非一時的なデータキャリアを含む。
一般的に、本発明の実施例は、プログラムコードを有するコンピュータプログラム製品として構成することができ、そのプログラムコードは当該コンピュータプログラム製品がコンピュータ上で作動するときに、本発明の方法の一つを実行するよう作動可能である。そのプログラムコードは例えば機械読み取り可能なキャリアに記憶されていても良い。
本発明の他の実施形態は、上述した方法の1つを実行するための、機械読み取り可能なキャリアに格納されたコンピュータプログラムを含む。
換言すれば、本発明の方法のある実施形態は、そのコンピュータプログラムがコンピュータ上で作動するときに、上述した方法の1つを実行するためのプログラムコードを有するコンピュータプログラムである。
本発明の他の実施形態は、上述した方法の1つを実行するために記録されたコンピュータプログラムを含む、データキャリア(又はデジタル記憶媒体、又はコンピュータ読み取り可能な媒体)である。
本発明の他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムを表現するデータストリーム又は信号列である。そのデータストリーム又は信号列は、例えばインターネットのようなデータ通信接続を介して伝送されるよう構成されても良い。
他の実施形態は、上述した方法の1つを実行するように構成又は適応された、例えばコンピュータ又はプログラム可能な論理デバイスのような処理手段を含む。
他の実施形態は、上述した方法の1つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
幾つかの実施形態においては、(例えば書換え可能ゲートアレイのような)プログラム可能な論理デバイスが、上述した方法の幾つか又は全ての機能を実行するために使用されても良い。幾つかの実施形態では、書換え可能ゲートアレイは、上述した方法の1つを実行するためにマイクロプロセッサと協働しても良い。一般的に、そのような方法は、好適には任意のハードウエア装置によって実行される。
上述した実施形態は、本発明の原理を単に例示的に示したに過ぎない。本明細書に記載した構成及び詳細について修正及び変更が可能であることは、当業者にとって明らかである。従って、本発明は、本明細書に実施形態の説明及び解説の目的で提示した具体的詳細によって限定されるものではなく、添付した特許請求の範囲によってのみ限定されるべきである。
メタデータ符号器は、1つ以上の処理済みメタデータ信号(z1,…,zN)の各処理済みメタデータ信号(zi)の複数の処理済みメタデータサンプル(zi(1),…,zi(n-1), zi(n))の各処理済みメタデータサンプル(zi(n))を、以下のように決定する。即ち、制御信号(b)が第1状態(b(n)=0)を示すときには、処理済みメタデータサンプル(zi(n))が、1つ以上のオリジナル・メタデータ信号の1つ(xi)の複数のオリジナル・メタデータサンプルの1つ(xi(n))と、処理済みメタデータ信号(zi)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第1状態とは異なる第2状態(b(n)=1)を示すときには、処理済みメタデータサンプル(zi(n))が、1つ以上のオリジナル・メタデータ信号の1つ(xi)のオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))、又はオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))の量子化済み表現(qi(n))となるように、決定する。
1つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、1つ以上のオリジナル・メタデータ信号の各々のオリジナル・メタデータサンプルは1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示している。1つ以上の処理済みメタデータ信号を決定するステップは、1つ以上の処理済みメタデータ信号(z1,…,zN)の各処理済みメタデータ信号(zi)の複数の処理済みメタデータサンプル(zi(1),…,zi(n-1),zi(n))の各処理済みメタデータサンプル(zi(n))を、以下のように決定することを含む。即ち、制御信号(b)が第1状態(b(n)=0)を示すときには、処理済みメタデータサンプル(zi(n))が、1つ以上のオリジナル・メタデータ信号の1つ(xi)の複数のオリジナル・メタデータサンプルの1つ(xi(n))と処理済みメタデータ信号(zi)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第1状態とは異なる第2状態(b(n)=1)を示すときには、処理済みメタデータサンプル(zi(n))が、1つ以上のオリジナル・メタデータ信号の前記1つ(xi)のオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))、又はオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))の量子化済み表現(qi(n))となるように、決定する。
メタデータ符号器210は、1つ以上の処理済みメタデータ信号(z1,…,zN)の各処理済みメタデータ信号(zi)の複数の処理済みメタデータサンプル(zi(1),…,zi(n-1), zi(n))の各処理済みメタデータサンプル(zi(n))を、以下のように決定するよう構成されている。即ち、制御信号(b)が第1状態(b(n)=0)を示すときには、処理済みメタデータサンプル(zi(n))が、前記1つ以上のオリジナル・メタデータ信号の1つ(xi)の複数のオリジナル・メタデータサンプルの1つ(xi(n))と処理済みメタデータ信号(zi)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、制御信号(b)が第1状態とは異なる第2状態(b(n)=1)を示すときには、処理済みメタデータサンプル(zi(n))が、1つ以上のオリジナル・メタデータ信号の1つ(xi)のオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))、又はオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))の量子化済み表現(qi(n))となるように、決定する。
図9aは、一実施形態に係るメタデータ復号器901を示す。図9aに係るメタデータ復号器は、図8a及び図8bのメタデータ符号器と対応している。
更に、実際のメタデータサンプルzi(n)もまた、選択部930へと入力される。
例えば制御信号bが第1状態(例えばb(n)=0)にあるとき、制御信号bは実際のメタデータサンプルzi(n)が差分値であることを示しており、よって、合計値si(n)が再生メタデータ信号xi'の正確な実際のメタデータサンプルxi'(n)である。選択部930は、制御信号が第1状態にあるとき(b(n)=0のとき)、合計値si(n)を、再生メタデータ信号xi'の実際のメタデータサンプルxi'(n)として選択するよう構成されている。
制御信号bが第1状態とは異なる第2状態(例えばb(n)=1)にあるとき、制御信号bは実際のメタデータサンプルzi(n)が差分値でないことを示しており、よって、実際のメタデータサンプルzi(n)が再生メタデータ信号xi'の正確な実際のメタデータサンプルxi'(n)である。選択部930は、制御信号が第2状態にあるとき(b(n)=1のとき)、実際のメタデータサンプルzi(n)を、再生メタデータ信号xi'の実際のメタデータサンプルxi'(n)として選択するよう構成されている。
以下において、DPCM符号化済み信号はyi(n)で表され、Bの第2入力信号(合計信号)はsi(n)で表される。対応する入力成分だけに依存する出力成分について、符号器及び復号器の出力は以下のように表される。
zi(n) = A(xi(n),y i (n), b(n))
xi'(n) = B(zi(n), si(n), b(n))
最後に、3Dオーディオ符号器が第4モードで構成されている場合、SAOC符号器800は、プレレンダラー/ミキサーによって生成されたチャネル+プレレンダリング済みオブジェクトを符号化することができる。そのため、第4モードにおいては、最低ビットレートのアプリケーションが次のような事実により良好な品質を提供できる。なぜなら、チャネルとオブジェクトとが、個別のSAOC転送チャネル及び図12と図14の中で「SAOC−SI」として示すような関連するサイド情報へと完全に変換されており、加えて、この第4モードでは如何なる圧縮済みメタデータも伝送される必要がないからである。
更に、後処理部1700は、バイノーラルレンダラー1710又はフォーマット変換部1720として構成され得る。代替的に、図11のデータ1205の直接的な出力もまた、1730で示されるように構成され得る。従って、より小さなフォーマットが要求される場合には、柔軟性を持ち、かつ次に後処理するために、復号器内の処理は22.2や32などの最大数のチャネルに対して実行することが好ましい。しかしながら、5.1フォーマットのような小さなフォーマットだけが要求されることが正に最初から明白になる場合には、図15におけるショートカット1727で示すように、不要なアップミクス操作及び後続のダウンミクス操作を防止するための、SAOC復号器及び/又はUSAC復号器に対するある制御を適用し得ることが望ましい。

Claims (15)

  1. 1つ以上のオーディオチャネルを生成する装置(100)であって、
    制御信号(b)に依存して、1つ以上の処理済みメタデータ信号(z1,…,zN)から1つ以上の再生メタデータ信号(x1',…,xN')を生成するメタデータ復号器(110;901)であって、前記1つ以上の再生メタデータ信号(x1',…,xN')の各々は1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、前記1つ以上の再生メタデータ信号(x1',…,xN')の各々について複数の再生メタデータサンプル(x1'(n),…,xN'(n))を決定することにより、前記1つ以上の再生メタデータ信号(x1',…,xN')を生成するよう構成されている、メタデータ復号器(110;901)と、
    前記1つ以上のオーディオオブジェクト信号と前記1つ以上の再生メタデータ信号(x1',…,xN')とに依存して、前記1つ以上のオーディオチャネルを生成するオーディオチャネル生成部(120)と、を含み、
    前記メタデータ復号器(110;901)は、前記1つ以上の処理済みメタデータ信号(z1,…,zN)の各々の複数の処理済みメタデータサンプル(z1(n),…,zN(n))を受信するよう構成され、
    前記メタデータ復号器(110;901)は、前記制御信号(b)を受信するよう構成され、
    前記メタデータ復号器(110;901)は、前記1つ以上の再生メタデータ信号(x1',…,xN')の各再生メタデータ信号(xi')の複数の再生メタデータサンプル(xi'(1),…,xi'(n-1),xi'(n))の各再生メタデータサンプル(xi'(n))を、前記制御信号(b)が第1状態(b(n)=0)を示すときには、前記再生メタデータサンプル(xi'(n))が前記1つ以上の処理済みメタデータ信号の1つ(zi)における処理済みメタデータサンプルの1つ(zi(n))と前記再生メタデータ信号(xi')の他の1つの既に生成された再生メタデータサンプル(xi'(n-1))との合計であり、前記制御信号が前記第1状態とは異なる第2状態(b(n)=1)を示すときには、前記再生メタデータサンプル(xi'(n))が前記1つ以上の処理済みメタデータ信号(z1,…,zN)の前記1つ(zi)における前記処理済みメタデータサンプル(zi(1),…,zi(n))の前記1つ(zi(n))であるように、決定するよう構成されている、装置。
  2. 請求項1に記載の装置(100)であって、
    前記メタデータ復号器(110;901)は、2つ以上の前記処理済みメタデータ信号(z1,…,zN)を受信して、2つ以上の前記再生メタデータ信号(x1',…,xN')を生成するよう構成され
    前記メタデータ復号器(110;901)は、2つ以上のメタデータ復号器サブユニット(911,…,91N)を含み、
    前記2つ以上のメタデータ復号器サブユニット(911,…,91N)の各々(91i,…,91i')は、加算部(910)及び選択部(930)を含むよう構成され、
    前記2つ以上のメタデータ復号器サブユニット(911,…,91N)の各々(91i,…,91i')は、前記2つ以上の前記処理済みメタデータ信号(z1,…,zN)の1つ(zi)における前記複数の処理済みメタデータサンプル(zi(1),…,zi(n-1), zi(n))を受信し、前記2つ以上の前記再生メタデータ信号(z1,…,zN)の1つ(zi)を生成するよう構成され、
    前記メタデータ復号器サブユニット(911,…,91N)の加算部(910)は、前記2つ以上の処理済みメタデータ信号(z1,…,zN)の前記1つ(zi)における前記処理済みメタデータサンプル(zi(1),…,zi(n))の1つ(zi(n))と、前記2つ以上の再生メタデータ信号(z1,…,zN)の1つ(zi)における他の1つの既に生成された再生メタデータサンプル(xi'(n-1))とを加算して、合計値(si(n))を得るよう構成され、
    前記メタデータ復号器サブユニット(911,…,91N)の選択部(930)は、前記処理済みメタデータサンプルの前記1つ(zi(n))と前記合計値(si(n))と前記制御信号とを受信するよう構成され、前記選択部(930)は、前記制御信号(b)が前記第1状態(b(n)=0)を示すときには、前記再生メタデータサンプル(xi'(n))が前記合計値(si(n))であり、前記制御信号が前記第2状態(b(n)=1)を示すときには、前記再生メタデータサンプル(xi'(n))が前記処理済みメタデータサンプル(zi(1),…,zi(n))の前記1つ(zi(n))であるように、前記再生メタデータ信号(xi')の前記複数の再生メタデータサンプル(xi'(1),…,xi'(n-1),xi'(n))の1つを決定するよう構成されている、装置。
  3. 請求項1又は2に記載の装置(100)であって、
    前記1つ以上の再生メタデータ信号(x1',…,xN')の少なくとも1つは、前記1つ以上のオーディオオブジェクト信号の1つにおける位置情報を示し、
    前記オーディオチャネル生成部(120)は、前記1つ以上のオーディオオブジェクト信号の前記1つと前記位置情報とに依存して、前記1つ以上のオーディオチャネルの少なくとも1つを生成するよう構成されている、装置。
  4. 請求項1乃至3のいずれか1項に記載の装置(100)であって、
    前記1つ以上の再生メタデータ信号(x1',…,xN')の少なくとも1つは、前記1つ以上のオーディオオブジェクト信号の1つにおける音量を示し、
    前記オーディオチャネル生成部(120)は、前記1つ以上のオーディオオブジェクト信号の前記1つと前記音量とに依存して、前記1つ以上のオーディオチャネルの少なくとも1つを生成するよう構成されている、装置。
  5. 符号化済みオーディオデータを復号化する装置であって、
    符号化済みオーディオデータを受信する入力インターフェイス(1100)であって、前記符号化済みオーディオデータが、複数の符号化済みチャネル、複数の符号化済みオブジェクト、又は前記複数のオブジェクトに関連する圧縮済みメタデータを含む、入力インターフェイスと、
    請求項1乃至4のいずれか1項に記載の装置(100)と、を備え、
    請求項1乃至4のいずれか1項に記載の前記装置(100)の前記メタデータ復号器(110;901)は、前記圧縮済みメタデータを解凍するメタデータ解凍部(400)であり、
    請求項1乃至4のいずれか1項に記載の前記装置(100)の前記オーディオチャネル生成部(120)は、前記複数の符号化済みチャネルと前記複数の符号化済みオブジェクトとを復号化するコア復号器(1300)を備え、
    前記オーディオチャネル生成部(120)は、複数の復号化済みオブジェクトを解凍済みメタデータを使用して処理し、前記オブジェクト及び復号化済みチャネルからオーディオデータを含む幾つかの出力チャネル(1205)を取得する、オブジェクト処理部(1200)を更に備え、
    前記オーディオチャネル生成部(120)は、前記幾つかの出力チャネル(1205)を出力フォーマットへ変換する後処理部(1700)を更に備える、装置。
  6. 1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する装置(250)であって、
    1つ以上のオリジナル・メタデータ信号を受信し、前記1つ以上の処理済みメタデータ信号を決定するメタデータ符号器(210;801;802)であって、前記1つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、前記1つ以上のオリジナル・メタデータ信号の各々の前記オリジナル・メタデータサンプルは1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示す、メタデータ符号器(210;801;802)と、
    前記1つ以上のオーディオオブジェクト信号を符号化して前記1つ以上の符号化済みオーディオ信号を取得するオーディオ符号器(220)と、を備え、
    前記メタデータ符号器(210;801;802)は、前記1つ以上の処理済みメタデータ信号(z1,…,zN)の各処理済みメタデータ信号(zi)の複数の処理済みメタデータサンプル(zi(1),…,zi(n-1), zi(n))の各処理済みメタデータサンプル(zi(n))を、制御信号(b)が第1状態(b(n)=0)を示すときには、前記再生メタデータサンプル(zi(n))が前記1つ以上のオリジナル・メタデータ信号の1つ(xi)における複数のオリジナル・メタデータサンプルの1つ(xi(n))と前記処理済みメタデータ信号(zi)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、前記制御信号(b)が第1状態とは異なる第2状態(b(n)=1)を示すときには、前記処理済みメタデータサンプル(zi(n))が前記1つ以上の処理済みメタデータ信号の前記1つ(xi)におけるオリジナル・メタデータサンプル(xi(1),…,xi(n))の前記1つ(xi(n))か又は前記オリジナル・メタデータサンプル(xi(1),…,xi(n))の前記1つ(xi(n))における量子化済み表現(qi(n))であるように、決定するよう構成されている、装置。
  7. 請求項6に記載の装置(250)であって、
    前記メタデータ符号器(210;801;802)は、前記オリジナル・メタデータ信号(x1,…,xN)の2つ以上を受信し、前記処理済みメタデータ信号(z1,…,zN)の2つ以上を生成するよう構成され、
    前記メタデータ符号器(210;801;802)は2つ以上のDCPM符号器(811,…,81N)を含み、
    前記2つ以上のDCPM符号器(811,…,81N)の各々は、前記2つ以上のオリジナル・メタデータ信号(x1,…,xN)の1つ(xi)におけるオリジナル・メタデータサンプル(xi(1),…,xi(n))の1つ(xi(n))と、前記2つ以上の再生メタデータ信号(z1,…,zN)の1つ(zi)における他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を決定して、差分サンプル(yi(n))を取得するよう構成され、
    前記メタデータ符号器(210;801;802)は、前記処理済みメタデータ信号(zi)の複数の処理済みメタデータサンプル(zi(1),…,zi(n-1), zi(n))の1つを、前記制御信号(b)が前記第1状態(b(n)=0)を示すときには、前記処理済みメタデータサンプル(yi(n))が前記差分サンプル(yi(n))であり、前記制御信号(b)が前記第2状態(b(n)=1)を示すときには、前記処理済みメタデータサンプル(zi(n))が前記オリジナル・メタデータサンプル(xi(1),…,zi(n))の前記1つ(xi(n))か、又は前記オリジナル・メタデータサンプル(xi(1),…,zi(n))の前記1つ(xi(n))における量子化済み表現(qi(n))であるように決定するよう構成された選択部(830)をさらに含む、装置。
  8. 請求項6又は7に記載の装置(250)であって、
    前記1つ以上のオリジナル・メタデータ信号の少なくとも1つは、前記1つ以上のオーディオオブジェクト信号の1つにおける位置情報を示し、
    前記メタデータ符号器(210;801;802)は、前記位置情報を示す前記1つ以上のオリジナル・メタデータ信号の前記少なくとも1つに依存して、前記1つ以上の処理済みメタデータ信号の少なくとも1つを生成するよう構成されている、装置。
  9. 請求項6乃至8のいずれか1項に記載の装置(250)であって、
    前記1つ以上のオリジナル・メタデータ信号の少なくとも1つは、前記1つ以上のオーディオオブジェクト信号の1つにおける音量を示し、
    前記メタデータ符号器(210;801;802)は、前記位置情報を示す前記1つ以上のオリジナル・メタデータ信号の前記少なくとも1つに依存して、前記1つ以上の処理済みメタデータ信号の少なくとも1つを生成するよう構成されている、装置。
  10. 請求項6乃至9のいずれか1項に記載の装置(250)であって、
    前記メタデータ符号器(210;801;802)は、前記1つ以上の処理済みメタデータ信号(z1,…,zN)の1つ(zi)における前記処理済みメタデータサンプル(zi(1),…,zi(n))の各々を、前記制御信号が前記第1状態(b(n)=0)を示すときには第1のビット数で符号化するよう構成され、前記制御信号が前記第2状態(b(n)=1)を示すときには第2のビット数で符号化するよう構成され、前記第1のビット数は前記第2のビット数より小さい、装置。
  11. オーディオ入力データ(101)を符号化してオーディオ出力データ(501)を取得する装置であって、
    複数のオーディオチャネルと複数のオーディオオブジェクトと前記複数のオーディオオブジェクトの1つ又は複数に関連するメタデータとを受信する、入力インターフェイス(1100)と、
    前記複数のオブジェクトと前記複数のチャネルとをミキシングして、複数のプレミクス済みチャネルを取得するミキサー(200)であって、各プレミクス済みチャネルは1つのチャネルのオーディオデータと少なくとも1つのオブジェクトのオーディオデータとを含む、ミキサー(200)と、
    請求項6乃至9のいずれか1項に記載の装置(250)と、を備え、
    請求項6乃至9のいずれか1項に記載の装置(250)の前記オーディオ符号器(220)は、コア符号器入力データをコア符号化するコア符号器(300)であり、
    請求項6乃至9のいずれか1項に記載の装置(250)の前記メタデータ符号器(210;801;802)は、前記複数のオーディオオブジェクトの1つ以上に関連する前記メタデータを圧縮するメタデータ圧縮部(400)である、装置。
  12. 1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成するための請求項6乃至10のいずれか1項に記載の装置(250)と、
    前記1つ以上の符号化済みオーディオ信号と前記1つ以上の処理済みメタデータ信号とを受信し、前記1つ以上の符号化済みオーディオ信号と前記1つ以上の処理済みメタデータ信号とに依存して1つ以上のオーディオチャネルを生成するための、請求項1乃至4のいずれか1項に記載の装置(100)と、
    を備える装置。
  13. 1つ以上のオーディオチャネルを生成する方法であって、
    制御信号(b)に依存して、1つ以上の処理済みメタデータ信号(z1,…,zN)から1つ以上の再生メタデータ信号(x1',…,xN')を生成するステップであって、前記1つ以上の再生メタデータ信号(x1',…,xN')の各々は1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示し、前記1つ以上の再生メタデータ信号(x1',…,xN')を生成するステップは、前記1つ以上の再生メタデータ信号(x1',…,xN')の各々について、複数の再生メタデータサンプル(x1'(n),…,xN'(n))を決定することにより実行される、ステップと、
    前記1つ以上のオーディオオブジェクト信号と前記1つ以上の再生メタデータ信号(x1',…,xN')とに依存して、前記1つ以上のオーディオチャネルを生成するステップと、を備え、
    前記1つ以上の再生メタデータ信号(x1',…,xN')を生成するステップは、前記1つ以上の処理済みメタデータ信号(z1,…,zN)の各々の複数の処理済みメタデータサンプル(z1(n),…,zN(n))を受信し、かつ前記制御信号(b)を受信して、前記1つ以上の再生メタデータ信号(x1',…,xN')の各再生メタデータ信号(xi')の複数の再生メタデータサンプル(xi'(1),…,xi'(n-1),xi'(n))の各再生メタデータサンプル(xi'(n))を、前記制御信号(b)が第1状態(b(n)=0)を示すときには、前記再生メタデータサンプル(xi'(n))が1つ以上の処理済みメタデータ信号の1つ(zi)における処理済みメタデータサンプルの1つ(zi(n))と前記再生メタデータ信号(xi')の他の1つの既に生成された再生メタデータサンプル(xi'(n-1))との合計であり、前記制御信号が前記第1状態とは異なる第2状態(b(n)=1)を示すときには、前記再生メタデータサンプル(xi'(n))が前記1つ以上の処理済みメタデータ信号(z1,…,zN)の前記1つ(zi)における前記処理済みメタデータサンプル(zi(1),…,zi(n))の前記1つ(zi(n))であるように、決定することにより実行される、方法。
  14. 1つ以上の符号化済みオーディオ信号と1つ以上の処理済みメタデータ信号とを含む符号化済みオーディオ情報を生成する方法であって、
    1つ以上のオリジナル・メタデータ信号を受信するステップと、
    前記1つ以上の処理済みメタデータ信号を決定するステップと、
    前記1つ以上のオーディオオブジェクト信号を符号化して前記1つ以上の符号化済みオーディオ信号を取得するステップと、を備え、
    前記1つ以上のオリジナル・メタデータ信号の各々は複数のオリジナル・メタデータサンプルを含み、前記1つ以上のオリジナル・メタデータ信号の各々の前記オリジナル・メタデータサンプルは1つ以上のオーディオオブジェクト信号の1つのオーディオオブジェクト信号に関連する情報を示しており、
    前記1つ以上の処理済みメタデータ信号を決定するステップは、前記1つ以上の処理済みメタデータ信号(z1,…,zN)の各処理済みメタデータ信号(zi)の複数の処理済みメタデータサンプル(zi(1),…,zi(n-1), zi(n))の各処理済みメタデータサンプル(zi(n))を、制御信号(b)が第1状態(b(n)=0)を示すときには、前記再生メタデータサンプル(zi(n))が前記1つ以上のオリジナル・メタデータ信号の1つ(xi)における複数のオリジナル・メタデータサンプルの1つ(xi(n))と前記処理済みメタデータ信号(zi)の他の1つの既に生成された処理済みメタデータサンプルとの差又は量子化された差を示し、前記制御信号(b)が前記第1状態とは異なる第2状態(b(n)=1)を示すときには、前記処理済みメタデータサンプル(zi(n))が前記1つ以上の処理済みメタデータ信号の前記1つ(xi)における前記オリジナル・メタデータサンプル(xi(1),…,xi(n))の前記1つ(xi(n))又はオリジナル・メタデータサンプル(xi(1),…,xi(n))の前記1つ(xi(n))における量子化済み表現(qi(n))であるように、決定することを含む、方法。
  15. コンピュータ又は信号プロセッサ上で作動されたとき、請求項13又は14に記載の方法を実行するためのコンピュータプログラム。
JP2016528434A 2013-07-22 2014-07-16 低遅延オブジェクト・メタデータ符号化の装置と方法 Active JP6239109B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
EP13177367 2013-07-22
EPEP13177365 2013-07-22
EPEP13177378 2013-07-22
EP13177365 2013-07-22
EPEP13177367 2013-07-22
EP20130177378 EP2830045A1 (en) 2013-07-22 2013-07-22 Concept for audio encoding and decoding for audio channels and audio objects
EPEP13189279 2013-10-18
EP13189279.6A EP2830047A1 (en) 2013-07-22 2013-10-18 Apparatus and method for low delay object metadata coding
PCT/EP2014/065283 WO2015010996A1 (en) 2013-07-22 2014-07-16 Apparatus and method for low delay object metadata coding

Publications (2)

Publication Number Publication Date
JP2016525714A true JP2016525714A (ja) 2016-08-25
JP6239109B2 JP6239109B2 (ja) 2017-11-29

Family

ID=49385151

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2016528437A Active JP6239110B2 (ja) 2013-07-22 2014-07-16 効率的なオブジェクト・メタデータ符号化の装置と方法
JP2016528434A Active JP6239109B2 (ja) 2013-07-22 2014-07-16 低遅延オブジェクト・メタデータ符号化の装置と方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2016528437A Active JP6239110B2 (ja) 2013-07-22 2014-07-16 効率的なオブジェクト・メタデータ符号化の装置と方法

Country Status (16)

Country Link
US (8) US9788136B2 (ja)
EP (4) EP2830049A1 (ja)
JP (2) JP6239110B2 (ja)
KR (5) KR20230054741A (ja)
CN (3) CN111883148A (ja)
AU (2) AU2014295271B2 (ja)
BR (2) BR112016001140B1 (ja)
CA (2) CA2918860C (ja)
ES (1) ES2881076T3 (ja)
MX (2) MX357576B (ja)
MY (1) MY176994A (ja)
RU (2) RU2666282C2 (ja)
SG (2) SG11201600471YA (ja)
TW (1) TWI560703B (ja)
WO (2) WO2015011000A1 (ja)
ZA (2) ZA201601044B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016204125A1 (ja) * 2015-06-17 2017-06-29 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP7434610B2 (ja) 2020-05-26 2024-02-20 ドルビー・インターナショナル・アーベー 効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
KR102343578B1 (ko) 2013-11-05 2021-12-28 소니그룹주식회사 정보 처리 장치, 정보 처리 방법 및 프로그램
AU2015326856B2 (en) 2014-10-02 2021-04-08 Dolby International Ab Decoding method and decoder for dialog enhancement
TWI631835B (zh) * 2014-11-12 2018-08-01 弗勞恩霍夫爾協會 用以解碼媒體信號之解碼器、及用以編碼包含用於主要媒體資料之元資料或控制資料的次要媒體資料之編碼器
TW202242853A (zh) 2015-03-13 2022-11-01 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
JP6461029B2 (ja) * 2016-03-10 2019-01-30 株式会社東芝 時系列データ圧縮装置
KR102358283B1 (ko) * 2016-05-06 2022-02-04 디티에스, 인코포레이티드 몰입형 오디오 재생 시스템
EP3293987B1 (en) * 2016-09-13 2020-10-21 Nokia Technologies Oy Audio processing
US10891962B2 (en) 2017-03-06 2021-01-12 Dolby International Ab Integrated reconstruction and rendering of audio signals
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
JP7358986B2 (ja) * 2017-10-05 2023-10-11 ソニーグループ株式会社 復号装置および方法、並びにプログラム
TWI703557B (zh) * 2017-10-18 2020-09-01 宏達國際電子股份有限公司 聲音播放裝置、方法及非暫態儲存媒體
US11323757B2 (en) * 2018-03-29 2022-05-03 Sony Group Corporation Information processing apparatus, information processing method, and program
US11540075B2 (en) * 2018-04-10 2022-12-27 Gaudio Lab, Inc. Method and device for processing audio signal, using metadata
CN111955020B (zh) * 2018-04-11 2022-08-23 杜比国际公司 用于音频渲染的预渲染信号的方法、设备和系统
US10999693B2 (en) * 2018-06-25 2021-05-04 Qualcomm Incorporated Rendering different portions of audio data using different renderers
KR20210076145A (ko) 2018-11-02 2021-06-23 돌비 인터네셔널 에이비 오디오 인코더 및 오디오 디코더
US11379420B2 (en) * 2019-03-08 2022-07-05 Nvidia Corporation Decompression techniques for processing compressed data suitable for artificial neural networks
GB2582749A (en) * 2019-03-28 2020-10-07 Nokia Technologies Oy Determination of the significance of spatial audio parameters and associated encoding
JP2022539608A (ja) * 2019-07-08 2022-09-12 ヴォイスエイジ・コーポレーション オーディオストリーム内のメタデータのコーディングのためおよびオーディオストリームのコーディングへの効率的なビットレートの割り当てのための方法およびシステム
GB2586214A (en) * 2019-07-31 2021-02-17 Nokia Technologies Oy Quantization of spatial audio direction parameters
GB2586586A (en) 2019-08-16 2021-03-03 Nokia Technologies Oy Quantization of spatial audio direction parameters
US20220366918A1 (en) 2019-09-17 2022-11-17 Nokia Technologies Oy Spatial audio parameter encoding and associated decoding
WO2022074283A1 (en) * 2020-10-05 2022-04-14 Nokia Technologies Oy Quantisation of audio parameters

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5129888B2 (ja) * 2008-09-30 2013-01-30 ドルビー・インターナショナル・アーベー トランスコード方法、トランスコーディングシステム及びセットトップボックス
JP2014520491A (ja) * 2011-07-01 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 向上した3dオーディオ作成および表現のためのシステムおよびツール
JP2014522155A (ja) * 2011-07-01 2014-08-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオ信号生成、コーディング、及びレンダリングのためのシステムと方法

Family Cites Families (88)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2605361A (en) 1950-06-29 1952-07-29 Bell Telephone Labor Inc Differential quantization of communication signals
JP3576936B2 (ja) 2000-07-21 2004-10-13 株式会社ケンウッド 周波数補間装置、周波数補間方法及び記録媒体
GB2417866B (en) 2004-09-03 2007-09-19 Sony Uk Ltd Data transmission
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
SE0402649D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods of creating orthogonal signals
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7840411B2 (en) 2005-03-30 2010-11-23 Koninklijke Philips Electronics N.V. Audio encoding and decoding
BRPI0608945C8 (pt) 2005-03-30 2020-12-22 Coding Tech Ab codificador de áudio de multi-canal, decodificador de áudio de multi-canal, método de codificar n sinais de áudio em m sinais de áudio e dados paramétricos associados, método de decodificar k sinais de áudio e dados paramétricos associados, método de transmitir e receber um sinal de áudio de multi-canal codificado, mídia de armazenamento legível por computador, e, sistema de transmissão
US7548853B2 (en) 2005-06-17 2009-06-16 Shmunk Dmitry V Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding
CN101288115A (zh) 2005-10-13 2008-10-15 Lg电子株式会社 用于处理信号的方法和装置
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN102693727B (zh) 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
ATE456261T1 (de) 2006-02-21 2010-02-15 Koninkl Philips Electronics Nv Audiokodierung und audiodekodierung
ATE543343T1 (de) 2006-04-03 2012-02-15 Srs Labs Inc Tonsignalverarbeitung
US8027479B2 (en) 2006-06-02 2011-09-27 Coding Technologies Ab Binaural multi-channel decoder in the context of non-energy conserving upmix rules
TWI371694B (en) 2006-06-29 2012-09-01 Lg Electronics Inc Method and apparatus for an audio signal processing
KR101201167B1 (ko) * 2006-07-04 2012-11-13 돌비 인터네셔널 에이비 압축된 서브밴드 필터 임펄스 응답들을 형성하는 필터 압축기 및 방법
JP5451394B2 (ja) 2006-09-29 2014-03-26 韓國電子通信研究院 多様なチャネルから構成されたマルチオブジェクトオーディオ信号の符号化および復号化装置、並びにその方法
KR20090013178A (ko) 2006-09-29 2009-02-04 엘지전자 주식회사 오브젝트 기반 오디오 신호를 인코딩 및 디코딩하는 방법 및 장치
UA94117C2 (ru) 2006-10-16 2011-04-11 Долби Свиден Ав Усовершенстованное кодирование и отображение параметров многоканального кодирования микшированных объектов
WO2008063035A1 (en) 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
WO2008069596A1 (en) 2006-12-07 2008-06-12 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN103137132B (zh) * 2006-12-27 2016-09-07 韩国电子通信研究院 用于编码多对象音频信号的设备
CN101542596B (zh) 2007-02-14 2016-05-18 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
AU2008215232B2 (en) 2007-02-14 2010-02-25 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
RU2406165C2 (ru) * 2007-02-14 2010-12-10 ЭлДжи ЭЛЕКТРОНИКС ИНК. Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов
KR20080082916A (ko) 2007-03-09 2008-09-12 엘지전자 주식회사 오디오 신호 처리 방법 및 이의 장치
CN101675472B (zh) 2007-03-09 2012-06-20 Lg电子株式会社 用于处理音频信号的方法和装置
US20100106271A1 (en) 2007-03-16 2010-04-29 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US7991622B2 (en) 2007-03-20 2011-08-02 Microsoft Corporation Audio compression and decompression using integer-reversible modulated lapped transforms
EP3712888B1 (en) 2007-03-30 2024-05-08 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
BRPI0809760B1 (pt) 2007-04-26 2020-12-01 Dolby International Ab aparelho e método para sintetizar um sinal de saída
PL2165328T3 (pl) * 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
WO2009045178A1 (en) * 2007-10-05 2009-04-09 Agency For Science, Technology And Research A method of transcoding a data stream and a data transcoder
WO2009049896A1 (en) 2007-10-17 2009-04-23 Fraunhofer-Fesellschaft Zur Förderung Der Angewandten Forschung E.V. Audio coding using upmix
BRPI0820488A2 (pt) 2007-11-21 2017-05-23 Lg Electronics Inc método e equipamento para processar um sinal
KR100998913B1 (ko) 2008-01-23 2010-12-08 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
KR101596504B1 (ko) * 2008-04-23 2016-02-23 한국전자통신연구원 객체기반 오디오 컨텐츠의 생성/재생 방법 및 객체기반 오디오 서비스를 위한 파일 포맷 구조를 가진 데이터를 기록한 컴퓨터 판독 가능 기록 매체
KR101061129B1 (ko) 2008-04-24 2011-08-31 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
WO2010003539A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal synthesizer and audio signal encoder
EP2144231A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101171314B1 (ko) * 2008-07-15 2012-08-10 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
PL2146344T3 (pl) * 2008-07-17 2017-01-31 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Sposób kodowania/dekodowania sygnału audio obejmujący przełączalne obejście
KR101108061B1 (ko) * 2008-09-25 2012-01-25 엘지전자 주식회사 신호 처리 방법 및 이의 장치
MX2011011399A (es) 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
US8351612B2 (en) 2008-12-02 2013-01-08 Electronics And Telecommunications Research Institute Apparatus for generating and playing object based audio contents
KR20100065121A (ko) 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
EP2205007B1 (en) 2008-12-30 2019-01-09 Dolby International AB Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
WO2010085083A2 (en) 2009-01-20 2010-07-29 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
WO2010087627A2 (en) 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
WO2010090019A1 (ja) 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
CA2754671C (en) 2009-03-17 2017-01-10 Dolby International Ab Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding
WO2010105695A1 (en) 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
JP5486597B2 (ja) * 2009-06-03 2014-05-07 日本電信電話株式会社 符号化方法、符号化装置、符号化プログラム及びこの記録媒体
TWI404050B (zh) 2009-06-08 2013-08-01 Mstar Semiconductor Inc 多聲道音頻信號解碼方法與裝置
KR101283783B1 (ko) 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
SG177277A1 (en) * 2009-06-24 2012-02-28 Fraunhofer Ges Forschung Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages
CN102171754B (zh) 2009-07-31 2013-06-26 松下电器产业株式会社 编码装置以及解码装置
EP2465114B1 (en) 2009-08-14 2020-04-08 Dts Llc System for adaptively streaming audio objects
KR101391110B1 (ko) * 2009-09-29 2014-04-30 돌비 인터네셔널 에이비 오디오 신호 디코더, 오디오 신호 인코더, 업믹스 신호 표현을 제공하는 방법, 다운믹스 신호 표현을 제공하는 방법, 공통 객체 간의 상관 파라미터 값을 이용한 컴퓨터 프로그램 및 비트스트림
PL2491551T3 (pl) 2009-10-20 2015-06-30 Fraunhofer Ges Forschung Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US20110153857A1 (en) * 2009-12-23 2011-06-23 Research In Motion Limited Method for partial loading and viewing a document attachment on a portable electronic device
TWI557723B (zh) 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
WO2011119401A2 (en) * 2010-03-23 2011-09-29 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
US8675748B2 (en) * 2010-05-25 2014-03-18 CSR Technology, Inc. Systems and methods for intra communication system information transfer
US8755432B2 (en) * 2010-06-30 2014-06-17 Warner Bros. Entertainment Inc. Method and apparatus for generating 3D audio positioning using dynamically optimized audio 3D space perception cues
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
EP2647005B1 (en) 2010-12-03 2017-08-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for geometry-based spatial audio coding
TWI759223B (zh) 2010-12-03 2022-03-21 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
WO2012122397A1 (en) 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
TWI573131B (zh) 2011-03-16 2017-03-01 Dts股份有限公司 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
US9119011B2 (en) 2011-07-01 2015-08-25 Dolby Laboratories Licensing Corporation Upmixing object based audio
CN102931969B (zh) * 2011-08-12 2015-03-04 智原科技股份有限公司 数据提取的方法与装置
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
CN103890841B (zh) 2011-11-01 2017-10-17 皇家飞利浦有限公司 音频对象编码和解码
WO2013075753A1 (en) 2011-11-25 2013-05-30 Huawei Technologies Co., Ltd. An apparatus and a method for encoding an input signal
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5129888B2 (ja) * 2008-09-30 2013-01-30 ドルビー・インターナショナル・アーベー トランスコード方法、トランスコーディングシステム及びセットトップボックス
JP2014520491A (ja) * 2011-07-01 2014-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 向上した3dオーディオ作成および表現のためのシステムおよびツール
JP2014522155A (ja) * 2011-07-01 2014-08-28 ドルビー ラボラトリーズ ライセンシング コーポレイション 適応的オーディオ信号生成、コーディング、及びレンダリングのためのシステムと方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2016204125A1 (ja) * 2015-06-17 2017-06-29 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
JP7434610B2 (ja) 2020-05-26 2024-02-20 ドルビー・インターナショナル・アーベー 効率的なダッキング利得適用による改善されたメイン‐関連オーディオ体験

Also Published As

Publication number Publication date
EP3025332A1 (en) 2016-06-01
US10277998B2 (en) 2019-04-30
US10715943B2 (en) 2020-07-14
CN105474310A (zh) 2016-04-06
RU2672175C2 (ru) 2018-11-12
US20170311106A1 (en) 2017-10-26
KR101865213B1 (ko) 2018-06-07
EP2830047A1 (en) 2015-01-28
BR112016001140A2 (ja) 2017-07-25
MX357577B (es) 2018-07-16
JP2016528541A (ja) 2016-09-15
KR20160033775A (ko) 2016-03-28
ZA201601044B (en) 2017-08-30
US11337019B2 (en) 2022-05-17
BR112016001139A2 (ja) 2017-07-25
BR112016001140B1 (pt) 2022-10-25
MX2016000907A (es) 2016-05-05
TW201523591A (zh) 2015-06-16
CA2918166A1 (en) 2015-01-29
KR20210048599A (ko) 2021-05-03
US11463831B2 (en) 2022-10-04
AU2014295271B2 (en) 2017-10-12
US20200275228A1 (en) 2020-08-27
JP6239110B2 (ja) 2017-11-29
CN111883148A (zh) 2020-11-03
RU2016105691A (ru) 2017-08-28
CN105474310B (zh) 2020-05-12
EP2830049A1 (en) 2015-01-28
MX2016000908A (es) 2016-05-05
CA2918860C (en) 2018-04-10
US20200275229A1 (en) 2020-08-27
CA2918166C (en) 2019-01-08
US20170366911A1 (en) 2017-12-21
US10659900B2 (en) 2020-05-19
AU2014295267A1 (en) 2016-02-11
EP3025330B1 (en) 2021-05-05
CN105474309A (zh) 2016-04-06
JP6239109B2 (ja) 2017-11-29
RU2666282C2 (ru) 2018-09-06
CA2918860A1 (en) 2015-01-29
AU2014295267B2 (en) 2017-10-05
US9743210B2 (en) 2017-08-22
SG11201600469TA (en) 2016-02-26
US9788136B2 (en) 2017-10-10
WO2015010996A1 (en) 2015-01-29
ZA201601045B (en) 2017-11-29
US11910176B2 (en) 2024-02-20
US20220329958A1 (en) 2022-10-13
MX357576B (es) 2018-07-16
AU2014295271A1 (en) 2016-03-10
KR20230054741A (ko) 2023-04-25
US20160133263A1 (en) 2016-05-12
ES2881076T3 (es) 2021-11-26
KR20180069095A (ko) 2018-06-22
KR20160036585A (ko) 2016-04-04
MY176994A (en) 2020-08-31
RU2016105682A (ru) 2017-08-28
SG11201600471YA (en) 2016-02-26
TWI560703B (en) 2016-12-01
WO2015011000A1 (en) 2015-01-29
CN105474309B (zh) 2019-08-23
US20160142850A1 (en) 2016-05-19
BR112016001139B1 (pt) 2022-03-03
EP3025330A1 (en) 2016-06-01
US20190222949A1 (en) 2019-07-18

Similar Documents

Publication Publication Date Title
JP6239109B2 (ja) 低遅延オブジェクト・メタデータ符号化の装置と方法
JP2018185526A (ja) 1つのオーディオトランスポート信号から1つ以上のオーディオ出力チャネルを生成するための装置及び方法
TW201528251A (zh) 有效率物件元數據編碼的裝置及其方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170328

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170622

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170922

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171003

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171031

R150 Certificate of patent or registration of utility model

Ref document number: 6239109

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250