JP5220840B2 - マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法 - Google Patents

マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法 Download PDF

Info

Publication number
JP5220840B2
JP5220840B2 JP2010502011A JP2010502011A JP5220840B2 JP 5220840 B2 JP5220840 B2 JP 5220840B2 JP 2010502011 A JP2010502011 A JP 2010502011A JP 2010502011 A JP2010502011 A JP 2010502011A JP 5220840 B2 JP5220840 B2 JP 5220840B2
Authority
JP
Japan
Prior art keywords
information
audio
spatial
audio signal
rendering information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010502011A
Other languages
English (en)
Other versions
JP2010525378A (ja
Inventor
バク、スン‐クウォン
ソ、ジョン‐イル
リー、テ‐ジン
ジャン、テ‐ヤン
カン、キョン‐オク
ホン、ジン‐ウー
キム、ジン‐ウン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electronics and Telecommunications Research Institute ETRI
Original Assignee
Electronics and Telecommunications Research Institute ETRI
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electronics and Telecommunications Research Institute ETRI filed Critical Electronics and Telecommunications Research Institute ETRI
Publication of JP2010525378A publication Critical patent/JP2010525378A/ja
Application granted granted Critical
Publication of JP5220840B2 publication Critical patent/JP5220840B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明はマルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコードデコードに関し、より詳細にマルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコードおよびデコード装置、ならびに方法に関するものである。
ここで、マルチチャネルで構成されたマルチオブジェクトオーディオ信号とは、マルチオブジェクトオーディオ信号であって、それぞれのオーディオオブジェクト信号が多様なチャネル(例えば、モノチャネル、ステレオチャネル、5.1チャネル)で構成された信号を意味する。
従来のオーディオエンコードおよびデコード技術によれば、多様なチャネルで構成されたマルチマルチオーディオオブジェクトがユーザの必要により多様に組合わすことができず、したがって1つのオーディオコンテンツが多様な形態で消費することができない。結局、ユーザはオーディオコンテンツを受動的にのみ消費可能である。
従来技術であるSAC(Spatial Audio Coding)技術によれば、マルチチャネルオーディオ信号はダウンミックスされたモノチャネルまたはステレオチャネル信号と空間キュー(spatial cue)情報でエンコーディングされ、低いビット率でも高品質のマルチャンネル信号が伝送される。SAC技術によれば、オーディオ信号はサブバンド別に分析され、各サブバンドに対応する空間キュー情報に基づいて、前記ダウンミックスされたモノチャネルまたはステレオチャネル信号から本来のマルチチャネルオーディオ信号が復元される。前記空間キュー情報は、デコードの過程で原信号の復元のための情報を含み、SACデコード装置で再生するオーディオ信号の音質を決定する。MPEGは、MPEG Surround(MPS)という名称でSAC技術に対する標準化を進めておりCLD(Channel Level Difference)を空間キューとして活用する。
SACによれば、マルチチャネルオーディオ信号であって、1個 オーディオオブジェクトに対してのみエンコードおよびデコードが可能であるため、マルチチャネルで構成されたマルチオブジェクトオーディオ信号、例えば、モノチャネル、ステレオチャネルおよび5.1チャネルで構成された多様なオブジェクトのオーディオ信号をエンコードおよびデコードすることができない。
また他の従来技術であるバイノーラルキューコーディング(Binaural Cue Coding、BCC)技術によれば、モノチャネルでのみ構成されたマルチオブジェクトオーディオ信号がエンコードおよびデコードが可能であるため、モノチャネル以外のマルチチャネルで構成されたマルチオブジェクトオーディオ信号をエンコードおよびデコードすることができない。
整理すれば、従来技術によれば、モノチャネルで構成されたマルチオブジェクトオーディオ信号またはマルチチャネルで構成された単一オブジェクトオーディオ信号に対してのみエンコードおよびデコードが可能で、マルチチャネルで構成されたマルチオブジェクトオーディオ信号をエンコードおよびデコードすることができない。したがって従来技術によれば、多様なチャネルで構成されたマルチオーディオオブジェクトがユーザの必要により多様に組合せることができず、したがって1つのオーディオコンテンツを多様な形態で消費することができない。結局、ユーザはオーディオコンテンツを受動的にのみ消費可能である。
したがって、1つのオーディオコンテンツを構成するマルチチャネルで構成されたマルチオブジェクトオーディオ信号がユーザの必要に応じて制御されることによって、1つのオーディオコンテンツが多様な形態で消費し得る、マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコードおよびデコード装置、並びに方法が要求される。
本発明は、前記要求に応じるために提案されたもので、マルチチャネルで構成されたマルチオブジェクトオーディオ信号をエンコードおよびデコードする装置、並びに方法を提供するのを目的でする。
前記目的を達成するための本発明は、オーディオエンコード装置において、マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第1レンダリング情報を生成するマルチチャネルエンコード手段と、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第2レンダリング情報を生成するマルチオブジェクトエンコード手段を備えるものの、前記マルチオブジェクトエンコード手段は、前記マルチチャネルエンコード手段が制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード装置を提供する。
また、前記目的を達成するための本発明は、オーディオエンコード装置において、マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第1レンダリング情報を生成するマルチチャネルエンコード手段と、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第2レンダリング情報を生成する第1マルチオブジェクトエンコード手段と、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記第1マルチオブジェクトエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第3レンダリング情報を生成する第2マルチオブジェクトエンコード手段を備えるものの、前記第2マルチオブジェクトエンコード手段は、前記マルチチャネルエンコード手段および第1マルチオブジェクトエンコード手段が制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード装置を提供する。
また、前記目的を達成するための本発明は、前記オーディオエンコード装置によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックス手段と、前記第1レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックス手段と、前記第2レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、前記第1マトリックス手段によって生成されたレンダリング情報、前記第2マトリックス手段によって生成されたレンダリング情報、および前記サブバンド変換手段によって変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるトランスコーディング装置を提供する。
また、前記目的を達成するための本発明は、前記オーディオエンコード装置によって、エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、前記第4レンダリング情報から所定のプリセットASI情報を抽出するプリセットASI抽出手段と、前記プリセットASI抽出手段によって抽出された所定のプリセットASI情報であって、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックス手段と、
前記第1レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックス手段と、前記第2レンダリング情報を、前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、前記プリセットASI抽出手段によって抽出された所定のプリセットASI情報および前記第1マトリックス手段によって生成されたレンダリング情報のうち何れかの1つと、前記第2マトリックス手段によって生成されたレンダリング情報と、前記サブバンド変換手段によって変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるトランスコーディング装置を提供する。
また、前記目的を達成するための本発明は、前記オーディオエンコード装置によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックス手段と、前記第1レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックス手段と、前記第3レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、前記第1マトリックス手段によって生成されたレンダリング情報、前記第2マトリックス手段によって生成されたレンダリング情報、前記サブバンド変換手段によって変換されたレンダリング情報および前記第2レンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるトランスコーディング装置を提供する。
また、前記目的を達成するための本発明は、前記オーディオエンコード装置によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、前記第5レンダリング情報から所定のプリセットASI情報を抽出するプリセットASI抽出手段と、前記プリセットASI抽出手段によって抽出された所定のプリセットASI情報であって、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックス手段と、前記第1レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックス手段と、前記第3レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、前記プリセットASI抽出手段によって抽出された所定のプリセットASI情報および前記第1マトリックス手段によって生成されたレンダリング情報のうち何れかの1つと、前記第2マトリックス手段によって生成されたレンダリング情報と、前記サブバンド変換手段によって変換されたレンダリング情報と、前記第2レンダリング情報に基づいて、前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるトランスコーディング装置を提供する。
また、前記目的を達成するための本発明は、オーディオデコード装置において、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報からマルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシング手段と、前記マルチオブジェクト信号のレンダリング情報に基づいて前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうちでマルチチャネルで構成されたオーディオ信号に対するオーディオオブジェクト信号をハイサープレッション(high suppression)して修正されたダウンミックス信号を出力する信号処理手段と、前記シーン情報に基づいて前記修正されたダウンミックス信号をミキシングしてオーディオ信号を復元するミキシング手段を備えるオーディオデコード装置を提供する。
また、前記目的を達成するための本発明は、オーディオデコード装置において、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報からマルチチャネルで構成されたオーディオ信号に対する空間キューを備えるマルチチャネル信号のレンダリング情報と、マルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシング手段と、前記マルチオブジェクト信号のレンダリング情報に基づいて、前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうちで少なくとも何れか1つのオーディオオブジェクト信号をハイサープレッション(high suppression)して修正されたダウンミックス信号、および前記ハイサープレッション(high suppression)されたオーディオオブジェクト信号を生成する信号処理手段と、前記修正されたダウンミックス信号をミキシングしてマルチチャネルオーディオ信号を復元するチャネルデコード手段と、前記シーン情報に基づいて、前記修正されたダウンミックス信号と信号処理手段によって生成されたオーディオオブジェクト信号をミキシングするミキシング手段を備えるオーディオデコード装置を提供する。
また、前記目的を達成するための本発明は、オーディオエンコード方法において、マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第1レンダリング情報を生成するマルチオブジェクトエンコードステップと、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチオブジェクトエンコードステップによってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第2レンダリング情報を生成するマルチオブジェクトエンコードステップを備えるものの、前記マルチオブジェクトエンコードステップは、前記マルチオブジェクトエンコードステップが制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード方法を提供する。
また、前記目的を達成するための本発明は、オーディオエンコード方法において、マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第1レンダリング情報を生成するマルチオブジェクトエンコードステップと、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチオブジェクトエンコードステップによってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第2レンダリング情報を生成する第1マルチオブジェクトエンコードステップと、マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記第1マルチオブジェクトエンコードステップによってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第3レンダリング情報を生成する第2マルチオブジェクトエンコードステップを備えるものの、前記第2マルチオブジェクトエンコードステップは前記マルチオブジェクトエンコードステップおよび第1マルチオブジェクトエンコードステップが制限を受けるコーデックスキームには制限を受けず前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード方法を提供する。
また、前記目的を達成するための本発明は、前記オーディオエンコード方法によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング方法において、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて前記エンコーディングされたオーディオ信号がオーディオデコード方法の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックスステップと、前記第1レンダリング情報に基づいて前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックスステップと、前記第2レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記第1マトリックスステップによって生成されたレンダリング情報、前記第2マトリックスステップによって生成されたレンダリング情報、および前記サブバンド変換ステップによって、変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップを備えるトランスコーディング方法を提供する。
また、前記目的を達成するための本発明は、前記オーディオエンコード方法によって、エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング方法において、前記第4レンダリング情報から所定のプリセットASI情報を抽出するプリセットASI抽出ステップと、前記プリセットASI抽出ステップによって抽出された所定のプリセットASI情報であって、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックスステップと、前記第1レンダリング情報に基づいて前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックスステップと、前記第2レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記プリセットASI抽出ステップによって抽出された所定のプリセットASI情報および前記第1マトリックスステップによって生成されたレンダリング情報のうち何れかの1つと、前記第2マトリックスステップによって生成されたレンダリング情報と、前記サブバンド変換ステップによって変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップを備えるトランスコーディング方法を提供する。
また、前記目的を達成するための本発明は、前記オーディオエンコード方法によって、エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング方法において、前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックスステップと、前記第1レンダリング情報に基づいて前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックスステップと、前記第3レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記第1マトリックスステップによって生成されたレンダリング情報、前記第2マトリックスステップによって生成されたレンダリング情報、前記サブバンド変換ステップによって変換されたレンダリング情報および前記第2レンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップを備えるトランスコーディング方法を提供する。
また、前記目的を達成するための本発明は、前記オーディオエンコード方法によってエンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング方法において、前記第5レンダリング情報から所定のプリセットASI情報を抽出するプリセットASI抽出ステップと、前記プリセットASI抽出ステップによって抽出された所定のプリセットASI情報であって、前記エンコーディングされたオーディオ信号の位置およびレベル情報および出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックスステップと、前記第1レンダリング情報に基づいて前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックスステップと、前記第3レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記プリセットASI抽出ステップによって抽出された所定のプリセットASI情報および前記第1マトリックスステップによって生成されたレンダリング情報のうち何れかの1つと、前記第2マトリックスステップによって生成されたレンダリング情報と、前記サブバンド変換ステップによって変換されたレンダリング情報と、前記第2レンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップを備えるトランスコーディング方法を提供する。
また、前記目的を達成するための本発明は、オーディオデコード方法において、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報からマルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシングステップと、前記マルチオブジェクト信号のレンダリング情報に基づいて前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうちでマルチチャネルで構成されたオーディオ信号に対するオーディオオブジェクト信号をハイサープレッション(high suppression)して修正されたダウンミックス信号を出力する信号処理ステップと、前記シーン情報に基づいて前記修正されたダウンミックス信号をミキシングしてオーディオ信号を復元するミキシングステップを備えるオーディオデコード方法を提供する。
また、前記目的を達成するための本発明は、オーディオデコード方法において、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報からマルチチャネルで構成されたオーディオ信号に対する空間キューを備えるマルチチャネル信号のレンダリング情報と、マルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシングステップと、前記マルチオブジェクト信号のレンダリング情報に基づいて、前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうちで少なくとも何れか1つのオーディオオブジェクト信号をハイサープレッション(high suppression)して修正されたダウンミックス信号、および前記ハイサープレッション(high suppression)されたオーディオオブジェクト信号を生成する信号処理ステップと、前記修正されたダウンミックス信号をミキシングしてマルチチャネルオーディオ信号を復元するチャネルデコードステップと、前記シーン情報に基づいて前記修正されたダウンミックス信号と信号処理ステップによって生成されたオーディオオブジェクト信号をミキシングするミキシングステップを備えるオーディオデコード方法を提供する。
また、前記目的を達成するための本発明は、マルチチャネルオーディオ信号およびマルチオブジェクトオーディオ信号の入力を受けることができる入力部と、前記入力されたオーディオ信号をダウンミックス信号およびレンダリング情報で符号化する符号化部を備え、前記レンダリング情報は、マルチチャネル符号化付加情報およびマルチオブジェクト符号化付加情報を含むオーディオ符号化装置を提供する。
また、前記目的を達成するための本発明は、ダウンミックス信号および付加情報信号を備えるオーディオ符号化信号の入力を受けるステップと、前記付加情報信号からマルチオブジェクト付加情報およびマルチチャネル付加情報を抽出するステップと、前記マルチオブジェクト付加情報に基づいて、前記ダウンミックス信号をマルチチャネルダウンミックス信号に変換するステップと、前記マルチチャネルダウンミックス信号および前記マルチチャネル付加情報を利用して、マルチチャネルオーディオ信号を復号化するステップと、前記復号化されたオーディオ信号を合成するステップを備えるオーディオ復号化方法を提供する。
本発明によれば、マルチチャネルで構成されたマルチオブジェクトオーディオ信号がユーザ必要に応じて多様にエンコードおよびデコードされることによって、ユーザの必要に応じて能動的にオーディオコンテンツを消費することができる。
本発明によるオーディオエンコード装置およびデコード装置を示す一実施形態構造図である。 ビットストリームフォーマッタ105から生成される代表ビットストリームを示す一実施形態構造図である。 図2のトランスコーダを示す一実施形態詳細構造図である。 サブバンド変換部の前記追加サブバンドに対応する空間キューパラメータをSACスキームが制限するサブバンドに対応するように変換させる過程を説明する図である。 本発明の他の日実施形態によるSAOCエンコーダおよびビットストリームフォーマッタを示す構造図である。 本発明の他の実施形態によるトランスコーダを示す詳細構成図として、図5のSAOCエンコーダおよびビットストリームフォーマッタに適合するトランスコーダを示す詳細構造図である。 本発明の他の実施形態によるオーディオデコード装置の構成図である。 図7のミキサーを示す一実施形態詳細構造図である。 本発明の一実施形態としてCPPを適用して、オーディオ信号を望む位置にマッピングさせる方法を説明するための図である。 ビットストリームフォーマッタ105から出力される代表ビットストリームを示すまた他の一実施形態構成図であって、前記代表ビットストリームがプリセットASI情報を含む一実施形態構造図である。 本発明の他の実施形態によるトランスコーダを示す詳細構成図であって、第1マトリックス部で直接入力されるオブジェクト制御情報および再生システム情報の代わりにプリセットASI情報が活用される一実施形態構造図である。 図3のトランスコーダを示す図であって、SACスキームに制限されないサブバンド情報または追加的な情報が含まれた代表ビットストリームがトランスコーダで処理される過程を示す概念図である。
発明の実施のための具体的な内容
以下の内容は単に本発明の原理を例示する。したがって当業者はたとえ本明細書に明確に説明されたり図示されなくとも本発明の原理を具現して本発明の概念と範囲に含まれた多様な装置を発明できるものである。また、本明細書に列挙されたすべての条件付き用語および実施形態は原則的に、本発明の概念が理解されるようにするための目的にのみ明確に意図され、このように特別に列挙された実施形態および状態に制限的でないものと理解されなければならない。また、本発明の原理、観点および実施形態だけでなく、特定実施形態を列挙するすべての詳細な説明は、このような事項の構造的および機能的均等物を備えるように意図されるものと理解されなければならない。またこのような均等物は現在公知された均等物だけでなく将来に開発される均等物すなわち構造と関係がなく同一の機能を遂行するように発明されたすべての素子を備えるものと理解されなければならない。したがって、例えば、本明細書のブロック図は本発明の原理を具体化する例示的な回路の概念的な観点を表すものと理解されなければならない。これと類似に、すべてのフローチャート、状態変換図、擬似コードなどはコンピュータが判読可能な媒体に実質的に表すことができ、コンピュータまたはプロセッサが明確に図示されたのか可否を問わずコンピュータまたはプロセッサによって、遂行される多様なプロセスを表すものと理解されなければならない。プロセッサまたはこれと類似の概念と表示された機能ブロックを備える図に示された多様な素子の機能は専用ハードウェアだけでなく適切なソフトウェアと関連し、ソフトウェアを実行する能力を有するハードウェアの使用に提供され得る。プロセッサによって提供される時、前記機能は単一専用プロセッサ、単一共有プロセッサまたは複数の個別的プロセッサによって提供されることができ、これらのうち1部は共有可能である。またプロセッサ、制御がまたはこれと類似の概念で提示される用語の明確な使用はソフトウェアを実行する能力を有したハードウェアを排他的に引用し、解釈されてはならず、制限なくデジタル信号プロセッサ(DSP)ハードウェア、ソフトウェアを保存するためのロム(ROM)、ラム(RAM)および非揮発性メモリを暗示的に備えるものと理解されなければならない。周知慣用の他のハードウェアも含まれ得る。類似して図に示されたスイッチは概念的にのみ提示されることもある。このようなスイッチの作用はプログラム ロジックまたは専用ロジックによって、プログラム制御および専用ロジックの相互作用を介したり手動で行われ得るものと理解されなければならない。特定の技術は本明細書のより詳細な理解として設計者によって選択されることができる。
本明細書の請求範囲で、詳細な説明に記載された機能を行うための手段と表現された構成要素は例えば前記機能を行う回路素子の組合せまたはファームウェア/マイクロ コードなどを備えるすべての形式のソフトウェアを備える機能を行うすべての方法を備えるものと意図され、前記機能を行うように前記ソフトウェアを実行するための適切な回路と結合される。このような請求範囲によって定義される本発明は多様に列挙された手段によって提供される機能が結合され請求項が要求する方式と結合されるため、前記機能を提供することができるいかなる手段も本明細書から把握されるものと、均等なものと理解されなければならない。
上述した目的、特徴および長所は添付された図と関連した後の詳細な説明によって明確になるだろう。本発明を説明することにおいて、関連した公知技術に対する具体的な説明が本発明の要旨を不必要に曖昧にすると判断される場合、その詳細な説明を省略する。
以下、添付された図を参照して、本発明による好ましい実施例を詳細に説明する。
図1は、本発明によるオーディオエンコード装置およびデコード装置を示す一実施形態構造図である。
図1に図示したように、本発明の一実施形態によるオーディオエンコード装置はSAOC(Spatial Audio Object Coding)エンコーダ101、SACエンコーダ103、ビットストリームフォーマッタ105およびプリセットASI(プリセットAudio Scene Information、プリセットオーディオシーン情報)部113を備える。
SAOCエンコーダ101は、SAC技術を基盤とする空間キュー基盤のエンコーダであって、モノチャネルまたはステレオチャネルで構成されたマルチオーディオオブジェクトをモノチャネルまたはステレオチャネルで構成された1つの信号にダウンミックスする。エンコーディングされたマルチオーディオオブジェクトはデコード装置で各々独立的に復元されるのではなく、前記オーディオオブジェクトに対するレンダリング情報によって所望のオーディオシーンで復元される。したがって、オーディオデコード装置は、所望のオーディオシーンのために、オーディオオブジェクトをレンダリングすることができる構成が要求される。ここで、レンダリングは、オーディオ信号が出力される位置およびレベルなどを決定し、出力オーディオ信号を生成することを意味する。
SAOC技術は、パラメータ基盤のマルチオブジェクトコーディング技術であって、M(<N)個チャネルを構成するオーディオ信号にN個オーディオオブジェクトを伝送するように設計されたものである。このようなダウンミックス信号とともに、原オブジェクト信号の再生性(re−creation)および操作(manipulation)のためのオブジェクトパラメータが伝送される。前記オブジェクトパラメータは、オブジェクト間のレベル差情報、オブジェクトの絶対エネルギー情報、オブジェクト間の相関性情報であり得る。SAOC技術によれば、伝送されたM(<N)個チャネル信号と、空間キュー情報および付加情報が含まれたSAOCビットストリームに基づいて、N個オーディオオブジェクトが再生成(re−creating)、修正(modifying)およびレンダリング可能である。前記M個チャネル信号は、モノチャネルまたはステレオチャネル信号であり得る。前記N個オーディオオブジェクトもモノチャネルまたはステレオチャネル信号であることもあり、MPSマルチチャネルオブジェクトであることもある。SAOCエンコーダは入力されたオブジェクト信号をダウンミックスする一方、前記オブジェクトパラメータを抽出する。SAOCデコーダは、所定個数の再生チャネルに合うようにダウンミックス信号からオブジェクト信号を再構成およびレンダリングする。各オブジェクトの再構成レベルおよびパーシング位置を備えるレンダリング情報はユーザから入力され得る。出力されるサウンドシーンはステレオチャネルから5.1チャネルなどのマルチチャネルまで多様で、入力オブジェクト信号の個数およびダウンミックスチャネルの個数から独立的である。
SAOCエンコーダ101は、直接入力されたり後述されるSACエンコーダ103から出力されるオーディオオブジェクトをダウンミックスし、代表ダウンミックス信号を出力する。一方、SAOCエンコーダ101は、入力されたオーディオオブジェクトに対する空間キュー情報および付加情報が含まれたSAOCビットストリームを出力する。ここで、前記SAOCエンコーダ101は「異質なレイアウトSAOC」または「Faller」技法を利用して入力されるオーディオオブジェクト信号を分析することができる。
本明細書で言及される空間キュー情報は、一般的に周波数領域のサブバンド単位で分析されて抽出される。本発明の一実施形態として活用可能な空間キューに対する定義は次の通りである。
CLD [Channel(Audio Signal) Level Difference]:入力オーディオ信号間レベル差
ICC [Inter Channel Correlation]:入力オーディオ信号間相関性
CTD [Channel(Audio Signal) Time Difference]:入力オーディオ信号間時間差
CPC [Channel Prediction Coefficient]:入力オーディオ信号のダウンミックス比率
すなわち、CLDは、オーディオ信号のパワーゲイン情報、ICCはオーディオ信号間の相関性情報、CTDはオーディオ信号間の時間差情報、CPCはオーディオ信号がダウンミックスされる時、ダウンミックスゲイン情報を示す。
空間キューの主要な役割は、空間画像(spatial image)、すなわちサウンドシーン(sound scene)を維持するものである。したがって、空間キューによってサウンドシーンが構成され得る。オーディオ信号の再生環境を考慮する時、前記空間キューのうちで最も多い情報を占めている空間キューはCLDであって、CLDだけでも基本的な出力信号を生成することができる。したがって以下では本発明の一実施形態としてCLDを中心にして説明されるものである。しかし、本発明がCLDにのみ限定されず、多様な空間キューと関連した実施形態が存在し得ることは本発明が属す技術分野で通常の知識を有する者に明白である。したがって本発明はCLDに限定されないものと理解されなければならない。
前記付加情報は、SAOCエンコーダ101に入力されるオーディオオブジェクトの復元および制御のための空間情報を含む。また前記付加情報は、各入力オーディオオブジェクトに対する識別情報を定義する。また前記付加情報は、例えばモノチャネル、ステレオチャネル、またはマルチチャネルなど各入力オーディオオブジェクトのチャネル情報を定義する。前記付加情報は、一実施形態としてヘッダ情報、オーディオオブジェクト情報、プリセット(preset)情報および後述されるオブジェクト除去のために必要な制御情報を含むことができる。
一方、SAOCエンコーダ101は、後述されるように、SACスキーム(scheme)が制限するサブバンドの個数よりさらに多数のサブバンドすなわち追加サブバンドに基づいて、空間キューパラメータを生成することができる。SAOCエンコーダ101は、下記[数式13]に応じて最も有力な(dominant)パワーを有するサブバンドのインデックスPw_indx(b)を算出する。この点に対しては後述される。前記サブバンドのインデックスPw_indx(b)は、前記SAOCビットストリームに含まれ得る。
本明細書で言及されるSACスキームまたはSACエンコードおよびデコードスキームまたはSACコーデックスキームは、SACエンコーダ103が入力されたマルチチャネルオーディオ信号に対する空間キュー情報の生成のために従わなければならない条件である。SACスキームの代表的な例として、空間キュー生成のためのサブバンド個数である。
SACエンコーダ103は、マルチチャネルオーディオ信号をモノチャネルまたはステレオチャネルでダウンミックスして、1つのオーディオオブジェクトを生成する。一方、SOCエンコーダ103は、入力されたマルチチャネルオーディオ信号に対する空間キュー情報および付加情報が含まれたSACビットストリームを出力する。
SACエンコーダ103は、一実施形態としてBCC(Binaural Cue Coding)エンコーダ、MPEG Surround(MPS)エンコーダであり得る。
SACエンコーダ103から出力されるオーディオオブジェクト信号は、SAOCエンコーダ101に入力される。ここで、SAOCエンコーダ101に直接入力されるオーディオオブジェクトとは異なり、SACエンコーダ103からSAOCエンコーダ101に入力されるオーディオオブジェクトはバックグランドシーンオブジェクト(Background Scene Object)でありうる。バックグランドシーンオブジェクト信号すなわちマルチチャネルで構成されたオーディオ信号であって、SACエンコーダ103によって、1つのオーディオオブジェクトでダウンミックスされた信号はすでに所定のオーディオシーンあるいはコンテンツ製作意図に応じて多数のオーディオオブジェクトが反映されたMR(Music Recorded)バージョンの信号であり得る。
プリセットASI部113は、外部から入力される制御信号、すなわちオブジェクト制御情報をプリセットASI情報で構成して、前記プリセットASI情報を含むプリセットASIビットストリームを生成する。前記プリセットASI情報に対しては図10および図11で詳細に説明される。
ビットストリームフォーマッタ105は、SAOCエンコーダ101から出力されるSAOCビットストリームと、SACエンコーダ103から出力されるSACビットストリームと、プリセットASI部113から出力されるプリセットASIビットストリームを結合して、代表ビットストリームを生成する。
図2はビットストリームフォーマッタ105から生成される代表ビットストリームを示す一実施形態構造図である。
図2に図示したように、ビットストリームフォーマッタ105は、SAOCエンコーダ101によって生成されたSAOCビットストリームおよびSACエンコーダ103によって生成されたSACビットストリームに基づいて、代表ビットストリームを生成する。
本発明によれば、代表ビットストリームの構造は例えば以下で説明される3つ形態であり得る。前記代表ビットストリームの1番目に最初可能な構造(201)は、SAOCビットストリームとSACビットストリームが直列的に接続される構造である。前記代表ビットストリームの2番目に可能な構造(203)として、SAOCビットストリームの補助データ(ancillary data)領域にSACビットストリームが含まれる構造である。前記代表ビットストリームの3番目に可能な構造(205)として、SAOCビットストリームおよびSACビットストリーム各々に含まれた類似データ領域がグループ化される構造である。例えば、前記3番目可能な構造の代表ビットストリームはヘッダ領域にSAOCビットストリームヘッダおよびSACビットストリームヘッダを含み、特定CLDと関連してグループ化されたSAOCビットストリームの情報とSACビットストリームの情報を含む。
一方、SAOCビットストリームヘッダには次の表1で定義される制御可能なオーディオオブジェクト識別情報、サブバンド情報および追加空間キュー識別情報が含まれる。ここで、制御可能なオーディオオブジェクトは、SACスキームに制限されないサブバンド情報または追加的な情報によって分析されたオーディオオブジェクトを意味する。
Figure 0005220840
たとえ本明細書では、代表ビットストリームの可能な構造として3個の実施形態が開示されたが、本発明が前記3個の実施形態にのみに限定されるものではなく、多様な形態でSAOCビットストリームおよびSACビットストリームが結合され得るということは、本発明が属す技術分野で通常の知識を有する者に自明である。したがって本発明は、前記3個の実施形態に限定されないものと理解されなければならない。
一方、前記代表ビットストリームは、前記プリセットASI部113によって生成されたプリセットASIビットストリームを備えることができる。
図10はビットストリームフォーマッタ105から出力される代表ビットストリームを示すまた他の一実施形態構成図であって、前記代表ビットストリームがプリセットASI情報を含む一実施形態構造図である。
図10に示したように、代表ビットストリームはプリセットASI領域を備える。前記プリセットASI領域は、基本(default) プリセットASI情報が含まれた複数のプリセットASI情報を含み、前記プリセットASI情報は各オーディオオブジェクトの位置およびレベル情報および出力レイアウト情報を含むオブジェクト制御情報を含む。すなわち、プリセットASI情報は、出力スピーカのレイアウト情報およびスピーカのレイアウト情報に適合するオーディオシーンを構成するための各オーディオオブジェクトの位置およびレベル情報を示す。前記基本(default) プリセットASI情報は、基本出力のためのシーン情報である。
トランスコーダ107は、前記オブジェクト制御情報を利用してオーディオオブジェクトをレンダリングする。一方、前記オブジェクト制御情報は、所定の基本値、例えば前記基本(default) プリセットASI情報として設定され得る。
前記オブジェクト制御情報は、代表ビットストリームの付加情報またはヘッダ情報に含まれる。前記オブジェクト制御情報は2種の形態で表現可能である。最初に各オーディオオブジェクトの位置、レベル情報および出力レイアウト情報が直接的に表現されたり、二番目に、各オーディオオブジェクトの位置、レベル情報および出力レイアウト情報が後述される第1マトリックス(Matrix I)形態として表現され、後述される第1マトリックス部1113の第1マトリックスの代わりに利用され得る。
プリセットASI情報に含まれたオブジェクト制御情報が直接的に表現される場合、プリセットASI情報は、モノチャネルまたはステレオチャネルまたはマルチチャネルなど再生システムのレイアウト情報、オーディオオブジェクトID、オーディオオブジェクト レイアウト情報であって、モノチャネルまたはステレオチャネル情報、オーディオオブジェクト位置、例えば0degree〜360degreeと表現される方位(Azimuth)、例えば−50degree〜90degreeと表現されるステレオ再生時高低(Elevation)、例えば−50dB〜50dBと表現されるオーディオオブジェクト レベル情報を含むことができる。
プリセットASI情報に含まれたオブジェクト制御情報が第1マトリックス(Matrix I)形態と表現される場合、前記プリセットASI情報が反映された下記[数式6]のPマトリックスがレンダリング部1103に伝送される。前記第1マトリックス(Matrix I)は各オーディオオブジェクトが出力されるチャネルにマッピングされるためのパワーゲイン情報または位相情報を要素ベクターに備える。
前記プリセットASI情報は、オーディオオブジェクトに対して所望の再生シナリオに対応される多様なオーディオシーンを定義することができる。例えば、ステレオまたは5.1チャネルまたは7.1チャネルなどマルチチャネル再生システムが要求するプリセットASI情報がコンテンツ製作者の意図および再生サービスの目的に合うように定義され得る。
改めて図1を参照すれば、SACエンコーダ103から出力されるSACビットストリームは、マルチチャネルオーディオ信号に対する空間キュー情報を含んでおり、SACエンコードおよびデコードスキームに従属的である。例えば、後述されるSACデコーダ111がMPEG Surround(MPS)デコーダとして28個のサブバンドを有するならば、SACエンコーダ103も28個のサブバンド単位で空間キューを生成しなければならない。例えばSACエンコーダ103は、入力オーディオ信号の第1チャネル信号(Channel1)と第2チャネル信号(Channel2)をフレーム単位で周波数領域に変換して前記変換された周波数領域信号を固定されたサブバンド単位で分析して空間キューを生成する。空間キューの一例であるCLDは、次の[数式1]によって生成される。
Figure 0005220840
ここで、Sは、サブバンド個数、bはサブバンドインデックス、kは周波数係数、A(b)はb番目サブバンドの周波数領域の境界である。前記[数式1]の分子項と分母項は相互変えて定義され得る。一般的にMPEG Surround(MPS)スキームによれば、1つのオーディオ信号フレームは、固定された個数のサブバンドすなわち20個または28個のサブバンド単位で分析され、空間キューが生成される。
しかしSAOCエンコーダ101は、SACスキームから自由でありえ、SAOCエンコーダ101によってSACスキームに制限されず分析されたオーディオオブジェクトの空間キューは、SACスキームに応じて分析されたオーディオオブジェクトの空間キューより多い情報、例えば、より多いサブバンド情報またはSACスキームに制約されない追加的な情報を含むことができる。
前記SACスキームに制限されないサブバンド情報または追加的な情報は後述される信号処理部109において効果的に利用される。信号処理部109がSAOCエンコーダ101から出力される代表ダウンミックス信号において、SACエンコーダ105から出力されるオーディオオブジェクト信号のオブジェクトNだけを除外してすべて除去したり、前記オブジェクトNだけを除去する過程すなわち、信号処理部109が代表ダウンミックス信号から所定オーディオオブジェクト成分を除去する過程で前記SACスキームに制限されないサブバンド情報または追加的な情報によって、オーディオオブジェクトの分解能力がSACスキームによる分解能力以上に向上する。
結局、前記SACスキームに制限されないサブバンド情報または追加的な情報によって所定のオーディオオブジェクトの除去能力をより向上させることができる。
オーディオオブジェクトの除去能力が向上すればハイサープレッション(high suppression)すなわち代表ダウンミックス信号からのオーディオオブジェクトのより精巧で清潔な除去が可能である。
すなわち、SAOCエンコーダ101は、オーディオオブジェクトの分解能力向上によるオーディオオブジェクトのより精巧で清潔な除去のためにSACエンコーダ103およびSACデコーダ111が制限を受けるSACスキームに制限を受けず、さらに多いサブバンドに対する空間キュー、すなわちさらに高い解像度のサブバンドに対する空間キュー、および追加空間キューを生成することができる。SAOCエンコーダ101は、SACエンコーダ103が制限を受ける固定されたサブバンド個数に制限を受ける必要がない。したがって、SAOCエンコーダ101によってSACスキームに制限を受けず生成された空間キューに対するオーディオオブジェクトはより多い付加情報を含むため、ハイサープレッション(high suppression)が可能である。
後述されるように、信号処理部109は、次の[数式2]によって、SAOCエンコーダ101から出力される代表ダウンミックス信号において、SACエンコーダ105から出力されるオーディオオブジェクト信号のオブジェクトNだけを除外してすべて除去したり、次の[数式3]によって、SAOCエンコーダ101から出力される代表ダウンミックス信号において、SACエンコーダ105から出力されるオーディオオブジェクト信号のオブジェクトNだけを除去して、修正された代表ダウンミックス信号を出力する。
上述されたように、SAOCエンコーダ101は、信号処理部109のハイサープレッション(high suppression)のために、SACスキームに制限されないサブバンド情報または追加的な情報を生成する。例えばSAOCエンコーダ101は、SACスキームが制限する28個より多くの数のサブバンド単位でオーディオ信号を分析して空間キューを生成することができる。この場合、SAOCエンコーダ101によって生成され前記代表ビットストリームに含まれる空間キューのサブバンドパラメータはSACスキームに応じて例えば28個のサブバンドパラメータだけを有するSACデコーダ111によって処理されるように変換され、このような変換は後述されるトランスコーダ107によって行われる。
すなわち、本発明によればハイサープレッション(high suppression)のためSAOCエンコーダ101とチャネル信号復元のためSACエンコーダ103は、各自の目的のためにマルチチャネルで構成されたマルチオブジェクトオーディオ信号を分析して空間キュー情報を生成する。
一方、本発明の一実施形態によるオーディオデコード装置は、トランスコーダ107、信号処理部109およびSACデコーダ111を備える。本明細書全般にわたって、トランスコーダと信号処理部がデコーダとともにオーディオデコード装置を構成するものと記載されているが、トランスコーダと信号処理部が必ず物理的にデコーダとともに1つの装置で構成される必要はないという点は当業者に自明である。
SACデコーダ111は、空間キュー基盤のマルチチャネルオーディオデコーダであって、トランスコーダ107から出力される修正された代表ビットストリームに基づいて、信号処理部109から出力される修正された代表ダウンミックス信号をオブジェクト別オーディオ信号に復元し、マルチチャネルで構成されたマルチオブジェクトオーディオ信号に復元する。
SACデコーダ111は一例としてMPEG Surround(MPS)デコーダ、BCCデコーダであり得る。
信号処理部109は、SAOCエンコーダ101から出力される代表ダウンミックス信号および後述するパーシング部301、601、707、1101から出力されるSAOCビットストリーム情報に基づいて、代表ダウンミックス信号に含まれたオーディオオブジェクトのうち一部を除去し、修正された代表ダウンミックス信号を出力する。
例えば、信号処理部109は、次の[数2]にしたがって、SAOCエンコーダ101から出力される代表ダウンミックス信号でSACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNのみを除いてすべて除去し、修正された代表ダウンミックス信号を出力する。
Figure 0005220840
ここで、U(F)は、SAOCエンコーダ101から出力される代表ダウンミックス信号が周波数領域に変換された信号であって、モノチャネル信号、Umodified(f)は、前記修正された代表ダウンミックス信号であって、前記周波数領域の代表ダウンミックス信号でSACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNのみを除いた残りのオブジェクトが除去された信号、A(b)は、b番目のサブバンドの周波数領域での境界、δは、レベル大きさを調整するための任意の定数値であって、信号処理部109の外部から入力される制御信号に含まれる値、P Object#iは、SAOCエンコーダ101から出力される代表ダウンミックス信号に含まれたi番目のオブジェクトのb番目のサブバンドのパワーである。SAOCエンコーダ101から出力される代表ダウンミックス信号に含まれたN番目のオブジェクトは、SACエンコーダ103から出力されるオーディオオブジェクトに対応する。
U(F)がステレオチャネル信号である場合には、代表ダウンミックス信号が左右チャネルに分離されて処理される。
前記[数2]にしたがって、信号処理部109から出力される修正された代表ダウンミックス信号Umodified(f)は、SACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNに対応する。すなわち、前記[数2]にしたがって、信号処理部109から出力される修正された代表ダウンミックス信号は、SACエンコーダ105から出力されるダウンミックス信号として取り扱われ得る。したがって、SACデコーダ111は、修正された代表ダウンミックス信号でM個のマルチチャネル信号を復元する。
この場合、後述するトランスコーダ107は、ビットストリームフォーマッタ105から出力される代表ビットストリームでSAOCエンコーダ101から出力されるSAOCビットストリームを除いた残りのオーディオオブジェクト情報、すなわち、SACエンコーダ105から出力されるSACビットストリームのみを処理し、修正された代表ビットストリームを生成する。したがって、SAOCエンコーダ101に直接入力されたオーディオオブジェクト信号に該当するパワーゲイン情報、相関性情報などは、修正された代表ビットストリームに含まれない。
ここで、全体信号のレベルは、後述するトランスコーダ107のレンダリング部303によって調整されるか、または前記[数2]の定数δによって調整される。
一方、信号処理部109は、次の[数3]にしたがって、SAOCエンコーダ101から出力される代表ダウンミックス信号でSACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNのみを除去し、修正された代表ダウンミックス信号を出力する。
Figure 0005220840
前記[数3]にしたがって、信号処理部109から出力される修正された代表ダウンミックス信号 Umodified(f)は、SAOCエンコーダ101から出力される代表ダウンミックス信号U(F)でSACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNのみが除外された信号である。
この場合、後述するトランスコーダ107は、ビットストリームフォーマッタ105から出力される代表ビットストリームでSACエンコーダ105から出力されるSACビットストリームを除いた残りのオーディオオブジェクト情報のみを処理し、修正された代表ビットストリームを生成する。したがって、SACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNに該当するパワーゲイン情報、相関性情報などは、修正された代表ビットストリームに含まれない。
ここで、全体信号のレベルは、後述するトランスコーダ107のレンダリング部303によって調整されるか、または前記[数3]の定数δによって調整される。
信号処理部109は、前述した周波数領域信号のみならず、時間領域信号も処理することができることは自明である。信号処理部109は、前記代表ダウンミックス信号をサブバンドで分割するために、DFT(Discrete Fourier Transform)またはQMF(Quadrature Mirror Filterbank)を用いることができる。
トランスコーダ107は、SAOCエンコーダ101からSACデコーダ111に伝達されるオーディオオブジェクトに対するレンダリングを行い、外部から入力される制御信号であるオブジェクト制御情報および再生システム情報に基づいて、ビットストリームフォーマッタ105から生成される代表ビットストリームを変換する。
トランスコーダ107は、SACデコーダ111に伝達されるオーディオオブジェクトをマルチチャネルで構成されたマルチオブジェクトオーディオ信号に復元するために、ビットストリームフォーマッタ105から出力される代表ビットストリームに基づいて、レンダリング情報を生成する。トランスコーダ107は、代表ビットストリームに含まれたオーディオオブジェクト情報に基づいて、SACデコーダ111に伝達されるオーディオオブジェクトが所望のオーディオシーンに対応するようにレンダリングする。前記レンダリングの過程において、トランスコーダ107は所望のオーディオシーンに対応する空間情報を予測し、前記予測された空間情報を変換して、修正された代表ビットストリームの付加情報として生成する。
また、トランスコーダ107は、ビットストリームフォーマッタ105から出力される代表ビットストリームをSACデコーダ111が取り扱えるビットストリームに変換する。
そして、トランスコーダ107は、信号処理部109によって除去されるオブジェクトに対応する情報をビットストリームフォーマッタ105から出力される代表ビットストリームから除外させる。
図3は、図2のトランスコーダ107を示した一実施形態の詳細構成図である。
同図に示すように、トランスコーダ107は、パーシング部301、レンダリング部303、サブバンド変換部305、第2マトリックス部311、および第1マトリックス部313を備える。
パーシング部301は、ビットストリームフォーマッタ105から出力される代表ビットストリームをパーシングし、前記代表ビットストリームから、SAOCエンコーダ101によって生成されたSAOCビットストリームおよびSACエンコーダ103によって生成されたSACビットストリームを分離する。また、パーシング部301は、前記分離されたSAOCビットストリームからSAOCエンコーダ101に入力されたオーディオオブジェクトの個数に関する情報を抽出する。
第2マトリックス部311は、パーシング部301によって分離されたSACビットストリームに基づいて、第2マトリックス(Matrix II)を生成する。前記第2マトリックス(Matrix II)は、SACエンコーダ103の入力信号、すなわち、マルチチャネルオーディオ信号に対するマトリックス式である。第2マトリックス(Matrix II)は、SACエンコーダ103の入力信号であるマルチチャネルオーディオ信号のパワーゲイン値に関するものであって、下記の[数4]のとおりである。
Figure 0005220840
Figure 0005220840
SACエンコーダ103から出力されるダウンミックス信号、すなわち、SACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNとのマトリックス演算を介してSACデコーダ111から出力されるマルチチャネルオーディオ信号
Figure 0005220840
が生成され得るように、[数4]の第2マトリックス(Matrix II)は各チャネル別のパワーゲイン値を表現し、前記ダウンミックス信号、すなわち、SACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNの逆の次元を有しなければならない。
第2マトリックス部311によって生成された前記[数4]の第2マトリックス(Matrix II)は、レンダリング部303によって第1マトリックス部313の出力と結合される。
第1マトリックス部313は、外部から入力される制御信号(例えば、オブジェクト制御情報、再生システム情報)に基づいて、SACデコーダ111に伝達されるオーディオオブジェクトを所望の出力、すなわち、マルチチャネルで構成されたマルチオブジェクトオーディオ信号にマッピングさせるための第1マトリックス(Matrix I)を生成する。下記の[数6]の第1マトリックス(Matrix I)を構成する要素ベクター
Figure 0005220840
は、j番目のオーディオオブジェクト(1≦j≦N−1)がSACデコーダ111のi番目の出力チャネル(1≦i≦M)にマッピングされるためのパワーゲイン情報または位相情報を示し、外部から入力されたり初期値で設定された制御情報(例えば、オブジェクト制御情報、再生システム情報)から獲得可能である。
第1マトリックス部313によって生成された[数6]の第1マトリックス(Matrix I)は、レンダリング部303によって下記の[数6]にしたがって演算される。SAOCエンコーダ101のN個の入力オーディオオブジェクトでN番目のオーディオオブジェクトは、SACエンコーダ103から出力されるダウンミックス信号であり、残りは、SAOCエンコーダ101に直接入力される。この場合、SACエンコーダ103から出力されるダウンミックス信号、すなわち、SACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNを除いた各オーディオオブジェクトは、第1マトリックス(Matrix I)によってSACデコーダ111のM個の出力チャネルにマッピングされ得る。レンダリング部303は、下記の[数6]にしたがって、SACデコーダ111の出力チャネルのパワーゲインベクター
Figure 0005220840
で構成されたマトリックスを算出する。
Figure 0005220840
Figure 0005220840
Figure 0005220840
Figure 0005220840
ここで、Pは、SACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNのパワーとSAOCエンコーダ101に直接入力されるN−1個のオーディオオブジェクトのパワー合計の比であって、下記の[数10]で定義される。
Figure 0005220840
例えば、SACデコーダ111に伝達されるオーディオ信号がステレオチャネル信号であれば、第1チャネル信号Ch1と第2チャネル信号Ch2との間のCLDパラメータは、下記の[数11]にしたがって生成される。
Figure 0005220840
一方、SACデコーダ111に伝達されるオーディオ信号がモノチャネル信号であれば、CLDパラメータは、下記の[数12]にしたがって算出される。
Figure 0005220840
レンダリング部303によって生成された、修正された代表ビットストリームに含まれる空間キューは、デコーダの特性に応じて分析および抽出される方法が変わる。例えば、BCCデコーダの場合、1つのチャネルを基準として、前記[数11]を利用してN−1個のCLDパラメータを抽出することができる。
また、MPEG Surroundデコーダの場合、MPEG Surroundのチャネル別の比較順序にしたがってCLDパラメータを抽出することができる。
まとめると、パーシング部301は、ビットストリームフォーマッタ105から出力される代表ビットストリームから、SAOCエンコーダ101によって生成されたSAOCビットストリームおよびSACエンコーダ103によって生成されたSACビットストリームを分離する。第2マトリックス部311は、前記分離されたSACビットストリームに基づいて、前記[数4]にしたがって第2マトリックス(Matrix II)を生成する。第1マトリックス部313は、制御信号に相応する第1マトリックス(Matrix I)を生成する。レンダリング部303は、前記分離されたSAOCビットストリームであって、後述するサブバンド変換部305によって変換されたSAOCビットストリーム、すなわち、SACスキームによるSAOCビットストリームおよび第1マトリックス(Matrix I)に基づいて、前記[数6]にしたがってSACデコーダ111の出力チャネルのパワーゲインベクター
Figure 0005220840
で構成されたマトリックスを算出する。また、レンダリング部303は、前記[数6]にしたがって算出したマトリックスと、前記[数4]にしたがって算出された第2マトリックス(Matrix II)とに基づいて、前記[数9]にしたがって所望の空間キュー情報
Figure 0005220840
を算出する。そして、レンダリング部303は、
Figure 0005220840
から抽出された空間キューパラメータ、例えば、前記[数11]および[数12]のCLDパラメータに基づいて修正された代表ビットストリームを生成する。前記修正された代表ビットストリームは、デコーダの特性に応じて適切に変換されたビットストリームであって、マルチチャネルで構成されたマルチオブジェクト信号に復元されることができる。
前述したように、SAOCエンコーダ101は、SACエンコーダ103およびSACデコーダ111を制限するSACスキームの制限を受けずに、さらに多いサブバンドに対する空間キュー、すなわち、さらに高い解像度のサブバンドに対する空間キューおよび追加空間キューを生成することができる。例えば、SAOCエンコーダ101は、MPEG SurroundスキームによってSACエンコーダ103およびSACデコーダ111を制限するサブバンド個数である28個より多い数のサブバンド単位に分析して空間キューを生成することができる。
SAOCエンコーダ101が、SACスキームが制限するサブバンド個数よりさらに多い数のサブバンド単位、すなわち、追加サブバンド単位で空間キューパラメータを生成した場合、SACスキームによるSACデコーダ111のデコードのために、トランスコーダ107は、前記追加サブバンドに対応する空間キューパラメータをSACスキームが制限するサブバンドに対応するように変換させる。このような変換がサブバンド変換部305によって行われる。
図4は、サブバンド変換部305の前記追加サブバンドに対応する空間キューパラメータを、SACスキームが制限するサブバンドに対応するように変換させる過程を説明する概念図である。
SACスキームの制限によるサブバンドのうちb番目のサブバンドと、SAOCエンコーダ101による前記追加サブバンドとしてL個の追加サブバンドとが互いに対応する関係である場合、サブバンド変換部305は、前記L個の追加サブバンドに対する空間キューパラメータを1個の空間キューパラメータに変換して、前記b番目のサブバンドに対応させる。前記L個の追加サブバンドに対する空間キューパラメータを1個の空間キューパラメータに変換する一実施形態として、SAOCエンコーダ101によるSAOCビットストリームから抽出された、前記L個の追加サブバンドに対するCLDパラメータを1個のCLDパラメータに変換する場合、前記L個の追加サブバンドのうち最も有力な(dominant)パワーを有するサブバンドに対するCLDパラメータを選択し、前記選択されたCLDパラメータをSACスキームの制限による前記b番目のサブバンドに対応させる。SAOCエンコーダ101は、下記の[数13]にしたがって最も有力な(dominant)パワーを有するサブバンドのインデックスPw_indx(b)を算出して、前記SAOCビットストリームに含ませる。
Figure 0005220840
Figure 0005220840
Figure 0005220840
Figure 0005220840
Figure 0005220840
Figure 0005220840
Figure 0005220840
Figure 0005220840
Figure 0005220840
以上で説明したように、サブバンド変換部305は、パーシング部301から出力されたSAOCビットストリーム、すなわち、SAOCエンコーダ101によってSACスキームが制限するサブバンド個数よりさらに多い数のサブバンド単位、すなわち、追加サブバンド単位で生成された空間キューパラメータが含まれたSAOCビットストリームを、SACスキームによるSAOCビットストリームに変換し、レンダリング部303は、サブバンド変換部305によって変換されたSAOCビットストリーム、すなわち、SACスキームによるSAOCビットストリームおよび第1マトリックス(Matrix I)に基づいて、前記[数6]にしたがってSACデコーダ111の出力チャネルのパワーゲインベクター
Figure 0005220840
で構成されたマトリックスを算出する。
以上では、SAOCエンコーダ101によってSACスキームが制限するサブバンド個数よりさらに多い数のサブバンド単位、すなわち、追加サブバンド単位で生成された空間キューパラメータがSAOCビットストリームに含まれる実施形態が説明されたが、このような本発明の思想は、SACスキームにすれば利用されない空間キュー情報が、追加的にSAOCビットストリームに含まれる場合にも適用され得る。
例えば、SAOCエンコーダ101は、信号処理部109のハイサープレッション(high suppression)のために、IPD(Internaural Phase Difference)、OPD(Overall Phase Difference)を、空間キュー情報を位相情報として生成してSAOCビットストリームに含ませることができ、このような追加情報は、オーディオオブジェクトの分解能力を向上させる。したがって、信号処理部109は、代表ダウンミックス信号からのオーディオオブジェクトのより精巧かつきれいな除去が可能である。ここで、IPDは、2つの入力オーディオ信号間のサブバンドにおける位相差、OPDは、代表ダウンミックス信号と入力オーディオ信号との間のサブバンド位相差を示す。
一方、前記追加情報は、SACスキームによるSAOCビットストリーム生成のために、サブバンド変換部305によって除去される。
図12は、図3のトランスコーダを示す図であって、SACスキームに制限されないサブバンド情報または追加的な情報が含まれた代表ビットストリームがトランスコーダ107で処理される過程を示す概念図である。説明の便宜のために、第1マトリックス部313および第2マトリックス部311は図示しなかった。
図12に示すように、パーシング部301に入力される代表ビットストリームは、SAOCエンコーダ101によって生成されたSAOCビットストリームを備え、SAOCエンコーダ101によって生成されたSAOCビットストリームは、追加的な空間キュー情報であって、以上で説明されたサブバンドインデックスPw_indx(b)、ITDなど、SACスキームの制限を受けない空間キュー情報を含む。パーシング部301は、前記代表ビットストリームからSACエンコーダ103によって生成されたSACビットストリームを第2マトリックス部311に出力する一方、SAOCエンコーダ101によって生成されたSAOCビットストリームをサブバンド変換部305に出力する。サブバンド変換部305は、SAOCエンコーダ101によって生成されたSAOCビットストリーム、すなわち、追加的な空間キュー情報であって、前記サブバンドインデックスPw_indx(b)、ITDなど、SACスキームの制限を受けない空間キュー情報が含まれたSAOCビットストリームを、SACスキームによるSAOCビットストリームに変換して、レンダリング部303に出力するようになる。したがって、レンダリング部303から出力される修正された代表ビットストリームは、SACスキームによるビットストリームであるため、SACデコーダ111で処理され得る。
図5は、本発明の他の一実施形態に係るSAOCエンコーダおよびビットストリームフォーマッタを示した構成図である。
図1のSAOCエンコーダ101およびビットストリームフォーマッタ105は、各々図5のSAOCエンコーダ501およびビットストリームフォーマッタ505に代替され得る。この場合、SAOCエンコーダ501は、2個のSAOCビットストリームを生成する。1個は、SACスキームに制限されないSAOCビットストリームであり、残りの1個は、SACスキームによるSAOCビットストリームである。前記SACスキームの制限を受けないSAOCビットストリームは、図1のSAOCエンコーダ101から出力されるSAOCビットストリームと同様に、追加的な空間キュー情報であって、以上で説明されたサブバンドインデックスPw_indx(b)、ITDなど、SACスキームの制限を受けない空間キュー情報を含む。
SAOCエンコーダ501は、第1エンコード部507および第2エンコード部509を備える。第1エンコード部507は、SAOCエンコーダ501に入力されるN個のオーディオオブジェクトのうち[N−C]個のオーディオオブジェクトをダウンミックスする一方、前記[N−C]個のオーディオオブジェクトに対する空間キュー情報および付加情報が含まれたSAOCビットストリーム情報であって、前記SACスキームによるSAOCビットストリームを生成する。第2エンコード部は、SAOCエンコーダ501に入力されるN個のオーディオオブジェクトのうち残りのC個のオーディオオブジェクトおよび第1エンコード部507から出力されるダウンミックス信号をダウンミックスして、前記代表ダウンミックス信号を出力する一方、前記残りのC個のオーディオオブジェクトおよび第1エンコード部507から出力されるダウンミックス信号に対する空間キュー情報および付加情報が含まれたSAOCビットストリームであって、前記SACスキームの制限を受けないSAOCビットストリームを生成する。
ビットストリームフォーマッタ505は、SAOCエンコーダ101から出力される2個のSAOCビットストリームと、SACエンコーダ103から出力されるSACビットストリームと、プリセットASI部113から出力されるプリセットASIビットストリームを結合して代表ビットストリームを生成する。ビットストリームフォーマッタ505から出力される代表ビットストリームは、例えば、図2および図10に示された実施形態でありうる。
図6は、本発明の他の実施形態に係るトランスコーダを示した詳細構成図であって、図5のSAOCエンコーダ501およびビットストリームフォーマッタ505に適したトランスコーダを示す。
同図のトランスコーダは、基本的に図3のトランスコーダと同じ動作を行う。
ただし、パーシング部601がビットストリームフォーマッタ105から出力される代表ビットストリームでSAOCエンコーダ501によって生成された2個のSAOCビットストリームを分離する。1個は、SACスキームに制限されないSAOCビットストリームであり、残りの1個は、SACスキームによるSAOCビットストリームである。前記SACスキームによるSAOCビットストリームは、レンダリング部603によって直接用いられる。一方、前記SACスキームの制限を受けないSAOCビットストリームは、信号処理部109で用いられる一方、サブバンド変換部605によってSACスキームによるSAOCビットストリームに変換される。
前述したように、前記SACスキームの制限を受けないSAOCビットストリームは、SAOCエンコーダ501によって生成される情報であって、SACスキームに制限されないサブバンド情報または追加的な情報を含む。このような追加情報は、オーディオオブジェクトの分解能力を向上させる。したがって、信号処理部109は、代表ダウンミックス信号からのオーディオオブジェクトのさらに精巧かつきれいな除去が可能である。すなわち、SACスキームに制限されないサブバンド情報または追加的な情報に対するオーディオオブジェクトは、より多くの付加情報を含むため、信号処理部109によるハイサープレッションが可能である。
一方、前述したように、SACスキームの制限を受けないSAOCビットストリームは、SACスキームによって、例えば28個のサブバンドパラメータのみを有するSACデコーダ111によって処理され得るように、サブバンド変換部605によって変換される。例えば、前記追加情報は、SACスキームによるSAOCビットストリーム生成のために、サブバンド変換部605によって除去される。
図11は、本発明の他の実施形態に係るトランスコーダを示した詳細構成図であって、第1マトリックス部に直接入力されるオブジェクト制御情報および再生システム情報の代わりに、プリセットASI情報が活用される一実施形態の構成図である。
同図のトランスコーダに含まれたレンダリング部1103、サブバンド変換部1105、第2マトリックス部1111、および第1マトリックス部1113は、基本的に図3または図6のトランスコーダに含まれたレンダリング部303、603、サブバンド変換部305、605、第2マトリックス部311、611、および第1マトリックス部313、613と同じ動作を行う。
ただし、パーシング部1101に入力される代表ビットストリームは、図10において説明されたプリセットASIビットストリームがさらに含まれる。パーシング部1101は、ビットストリームフォーマッタ105、505から出力される代表ビットストリームをパーシングして、前記代表ビットストリームから、SAOCエンコーダ101、501によって生成されたSAOCビットストリームおよびSACエンコーダ103によって生成されたSACビットストリームを分離する。また、パーシング部1101は、前記代表ビットストリームからプリセットASIビットストリームをパーシングしてプリセットASI抽出部1117に伝送する。
プリセットASI抽出部1117は、パーシング部1101から抽出されたプリセットASIビットストリームから基本(default)プリセットASI情報、すなわち、基本出力のためのシーン情報を抽出する。一方、プリセットASI抽出部1117は、外部から入力されるプリセットASI選択(selection)要求に応じて、パーシング部1101から抽出されたプリセットASIビットストリームから選択要求されたプリセットASI情報を抽出することができる。
マトリックス判断部1119は、プリセットASI抽出部1117によって抽出されたプリセットASI情報がプリセットASI選択(selection)要求に応じて選択されたプリセットASI情報である場合、前記選択されたプリセットASI情報が第1マトリックス(Matrix I)の形態であるかを判断する。前記選択されたプリセットASI情報が第1マトリックス(Matrix I)の形態ではなく、各オーディオオブジェクトの位置およびレベル情報並びに出力レイアウト情報を直接的に表現する場合、マトリックス判断部1119は、前記選択されたプリセットASI情報を第1マトリックス部1113に伝送し、第1マトリックス部1113は、マトリックス判断部1119から伝送されたプリセットASI情報を利用して第1マトリックス(Matrix I)を生成する。前記選択されたプリセットASI情報が第1マトリックス(Matrix I)の形態である場合、マトリックス判断部1119は、第1マトリックス部1113をバイパスして、前記選択されたプリセットASI情報をレンダリング部1103に伝送し、レンダリング部1103は、マトリックス判断部1119から伝送されたプリセットASI情報を利用する。前述したように、レンダリング部1103は、前記[数6]にしたがって算出したマトリックスと前記[数4]にしたがって算出された第2マトリックス(Matrix II)とに基づいて、前記[数9]にしたがって所望の空間キュー情報
Figure 0005220840
を算出する。そして、レンダリング部303は、
Figure 0005220840
から抽出された空間キューパラメータ、例えば、前記[数11]および[数12]のCLDパラメータに基づいて、修正された代表ビットストリームを生成する。
図7は、本発明の他の実施形態に係るオーディオデコード装置の構成図である。
同図に示すように、本発明の他の実施形態に係るオーディオデコード装置は、パーシング部707、信号処理部709、SACデコーダ711、およびミキサー701を備える。同図のオーディオデコード装置によれば、信号処理部109がSAOCエンコーダ101、501から出力される代表ダウンミックス信号からオーディオオブジェクトを除去する場合に、ミキサー701によってオーディオオブジェクトの音像定位が行われる。
同図のオーディオデコード装置は、図3のオーディオデコード装置とは異なり、トランスコーダ107がパーシング部707に代替され、ミキサー701がさらに備えられる。
パーシング部707は、ビットストリームフォーマッタ105、505から出力される代表ビットストリームをパーシングして、前記代表ビットストリームから、SAOCエンコーダ101、501によって生成されたSAOCビットストリームおよびSACエンコーダ103によって生成されたSACビットストリームを分離する。SACエンコーダ103がMPSエンコーダである場合に、前記SACビットストリームは、MPSビットストリームである。また、パーシング部707は、SAOCエンコーダ101、501に入力されたオーディオオブジェクトであって、後述するように、信号処理部709からミキサー701に伝達される制御可能なオブジェクトの位置情報、すなわち、シーン情報を前記分離されたSAOCビットストリームから抽出してミキサー701に伝達する。
信号処理部709は、SAOCエンコーダ101から出力される代表ダウンミックス信号およびパーシング部301から出力されるSAOCビットストリーム情報に基づいて、代表ダウンミックス信号に含まれたオーディオオブジェクトのうち一部を除去し、修正された代表ダウンミックス信号を出力する。例えば、信号処理部109は、前記[数2]にしたがって、SAOCエンコーダ101、501から出力される代表ダウンミックス信号でSACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNのみを除いてすべて除去し、修正された代表ダウンミックス信号を出力したり、前記[数3]にしたがって、SAOCエンコーダ101、501から出力される代表ダウンミックス信号でSACエンコーダ105から出力されるオーディオオブジェクト信号であるオブジェクトNのみを除去し、修正された代表ダウンミックス信号を出力するという点が先に説明された。図7では、オーディオ信号オブジェクトのうち制御可能なオブジェクト信号であるオブジェクト1のみを除いてすべて除去し、修正された代表ダウンミックス信号を出力したり、オブジェクト1のみを除去し、修正された代表ダウンミックス信号を出力する実施形態が示される。オブジェクト1のみを除いてすべて除去し、修正された代表ダウンミックス信号を出力する場合には、オブジェクト1の成分が別途に抽出される必要がない。オブジェクト1のみを除去し、修正された代表ダウンミックス信号を出力する場合、信号処理部709は、下記の[数21]にしたがって代表ダウンミックス信号からオブジェクト1の成分を抽出する。
Figure 0005220840
ここで、Object#1(n)は、代表ダウンミックス信号に含まれたオブジェクト1の成分、Downmixsignals(n)は、代表ダウンミックス信号、ModifiedDownmixsignals(n)は、修正された代表ダウンミックス信号、nは、時間領域におけるサンプルインデックス(time−domain sample index)である。
また、信号処理部709は、パラメータを直接制御して、代表ダウンミックス信号からオブジェクト1の成分を抽出することができる。例えば、信号処理部709は、下記の[数22]にしたがって算出されたゲイン(gain)パラメータに基づいて、代表ダウンミックス信号からオブジェクト1の成分を抽出することができる。
Figure 0005220840
ここで、GObject#1は、代表ダウンミックス信号に含まれたオブジェクト1のゲイン(gain)、GModifiedDownmixsignalsは、修正された代表ダウンミックス信号のゲイン(gain)である。
SACデコーダ711は、図1のSACデコーダ111と同じ機能を行う。SACデコーダ711は、一実施形態であって、MPSデコーダである。SACデコーダ711は、パーシング部301から出力されるSACビットストリームを用いて、信号処理部709から出力される修正された代表ダウンミックス信号をマルチチャネルの信号に復元する。
ミキサー701は、信号処理部109から出力される制御可能なオブジェクト信号、すなわち、図7の実施形態では、オブジェクト1およびSACデコーダ711から出力されるマルチチャネルの信号をミキシングして出力する。ここで、ミキサー701は、パーシング部707から出力される信号であって、前記制御可能なオブジェクト信号の位置情報、すなわち、シーン情報に基づいて、前記制御可能なオブジェクトの出力チャネルを決定する。
図8は、図7のミキサーを示す一実施形態の詳細構成図である。
同図に示すように、ミキサー701は、SACデコーダ711から出力されるM個のチャネル信号に対応するゲイン(gain) g1ないしgMを制御可能なオブジェクト信号であるオブジェクト1に乗算した後、前記M個チャネル信号に合算することにより、制御可能なオブジェクト信号をマルチチャネル信号にミキシングする。例えば、前記オブジェクト1をチャネル1信号に位置させようとすれば、g1=1とし、残りの係数はすべて0とする。また、他の例として、前記オブジェクト1をチャネル1信号とチャネル2信号との間に位置させようとすれば、
Figure 0005220840
とし、残りの係数はすべて0とする。制御可能なオブジェクト信号をチャネル信号のうち特定信号間に位置させようとすれば、一般的なパニング法(panning law)にしたがって、各ゲイン値を調整する。
信号処理部709がオブジェクト1のみを除いてすべて除去し、修正された代表ダウンミックス信号を出力する場合には、SACデコーダ711は、修正された代表ダウンミックスに対する処理を行わないこともある。その代わりに、ミキサー701は、信号処理部709から出力される制御可能なオブジェクト信号であるオブジェクト1に前記g1ないしgMを乗算してミキシングする。例えば、前記オブジェクト1をチャネル1信号に位置させようとすれば、g1=1とし、残りの係数はすべて0とする。さらに他の例として、前記オブジェクト1をチャネル1信号とチャネル2信号との間に位置させようとすれば、
Figure 0005220840
とし、残りの係数はすべて0とする。制御可能なオブジェクト信号をチャネル信号のうち特定信号間に位置させようとすれば、一般的なパニング法にしたがって、各ゲイン値を調整する。もし、前記オブジェクト1がステレオチャネルオブジェクト信号である場合には、g1=g2=1とし、残りの係数をすべて0とすることにより、前記オブジェクト1がステレオチャネル信号で出力され得る。
パニングは、出力チャネル信号間に、例えば、前記制御可能なオブジェクト信号を位置させる過程を意味する。
入力オーディオ信号を出力オーディオ信号の間にマッピングさせる方法の一般化された一実施形態は、パニング法が適用されたマッピング方法である。パニング法には、サインパニング法(Sine Panning law)、タンジェントパニング法(Tangent Panning law)、およびコンスタントパワーパニング法(Constant Power Panning law、CPP law)があり、いずれの方法でもパニング法を介して達成する目的は同一である。
以下では、本発明の一実施形態としてCPPを適用し、オーディオ信号を所望の位置にマッピングさせる方法について説明するが、本発明がCPPに限定されるものではなく、様々なパニング法と関連した実施形態が存在し得ることは、本発明の属する技術分野における通常の知識を有した者にとって明白である。したがって、本発明は、CPPに限定されないものと理解されなければならない。
本発明の一実施形態によれば、すべてのマルチオブジェクトまたはマルチチャネルオーディオ信号は、与えられたパニング角度に対してCPPによってパニングされる。
Figure 0005220840
Figure 0005220840
ここで、α=cos(θ)、β=sin(θ)である。
これをさらに具体的に表現すれば、次の[数24]のとおりである。
Figure 0005220840
α、β値は、適用するパニング法によって変わることができる。α、β値は、任意のアパーチャーに符合するように、入力オーディオ信号のパワーゲインを出力オーディオ信号の仮想位置にマッピングさせることにより算出される。
以上で説明された本発明に係るエンコード、トランスコーディング、およびデコード過程は、装置の観点で説明されたが、前記装置に含まれた各装置的構成要素は、プロセス的構成要素に代替され得るし、この場合、本発明に係るエンコード、トランスコーディング、およびデコード過程は、方法の観点で理解され得るということは自明である。
例えば、図1または図5のSAOCエンコーダ101、501、SACエンコーダ103、ビットストリームフォーマッタ105、505、およびプリセットASI部113で構成されたオーディオエンコード装置は、複数のチャネルで構成されたオーディオ信号をダウンミックスし、前記複数のチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第1レンダリング情報を生成するマルチチャネルエンコードステップと、複数のオブジェクトで構成されたオーディオ信号(前記複数のオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコードステップによってダウンミックスされた信号を含む)をダウンミックスし、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、
前記生成された空間キューを備える第2レンダリング情報を生成するマルチオブジェクトエンコードステップとを含み、前記マルチオブジェクトエンコード ステップは、前記マルチチャネルエンコードステップを制限するコーデックスキームの制限を受けずに、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード方法を行うことができる。
そして、前記オーディオエンコード装置は、複数のチャネルで構成されたオーディオ信号をダウンミックスし、前記複数のチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第1レンダリング情報を生成するマルチチャネルエンコードステップと、複数のオブジェクトで構成されたオーディオ信号(前記複数のオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコードステップによってダウンミックスされた信号を含む)をダウンミックスし、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第2レンダリング情報を生成する第1マルチオブジェクトエンコードステップと、複数のオブジェクトで構成されたオーディオ信号(前記複数のオブジェクトで構成されたオーディオ信号は、前記第1マルチオブジェクトエンコードステップによってダウンミックスされた信号を含む)をダウンミックスし、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第3レンダリング情報を生成する第2マルチオブジェクトエンコードステップとを含み、前記第2マルチオブジェクトエンコードステップは、前記マルチチャネルエンコードステップおよび第1マルチオブジェクトエンコードステップを制限するコーデックスキームの制限を受けずに、前記複数のオブジェクトで構成されたオーディオ信号に対する空間キューを生成するオーディオエンコード方法を行うことができる。
また、図3、図6、および図11のパーシング部301、601、1101、レンダリング部303、603、1103、サブバンド変換部305、605、1105、第2マトリックス部311、611、1111、および第1マトリックス部313、613、1113、プリセットASI抽出部1117、およびマトリックス判断部1119で構成されたトランスコーダは、前記エンコードされたオーディオ信号の位置およびレベル情報並びに出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコードされたオーディオ信号がオーディオデコード方法の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックスステップと、前記第1レンダリング情報に基づいて、前記複数のチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックスステップと、前記第2レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記第1マトリックスステップによって生成されたレンダリング情報、前記第2マトリックスステップによって生成されたレンダリング情報、および前記サブバンド変換ステップによって変換されたレンダリング情報とに基づいて、前記エンコードされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップとを含むトランスコーディング方法を行うことができる。
また、前記トランスコーダは、前記第4レンダリング情報から所定のプリセットASI情報を抽出するプリセットASI抽出ステップと、前記プリセットASI抽出ステップによって抽出された所定のプリセットASI情報であって、前記エンコードされたオーディオ信号の位置およびレベル情報並びに出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて、前記エンコードされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックスステップと、前記第1レンダリング情報に基づいて、前記複数のチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックスステップと、前記第2レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記プリセットASI抽出ステップによって抽出された所定のプリセットASI情報および前記第1マトリックスステップによって生成されたレンダリング情報のいずれか1つと、前記第2マトリックスステップによって生成されたレンダリング情報と、前記サブバンド変換ステップによって変換されたレンダリング情報に基づいて、前記エンコードされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップとを含むトランスコーディング方法を行うことができる。
また、前記トランスコーダは、前記エンコードされたオーディオ信号の位置およびレベル情報並びに出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコードされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックスステップと、前記第1レンダリング情報に基づいて、前記複数のチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックスステップと、前記第3レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記第1マトリックスステップによって生成されたレンダリング情報、前記第2マトリックスステップによって生成されたレンダリング情報、前記サブバンド変換ステップによって変換されたレンダリング情報、および前記第2レンダリング情報に基づいて、前記エンコードされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップとを含むトランスコーディング方法を行うことができる。
なお、前記トランスコーダは、前記第5レンダリング情報から所定のプリセットASI情報を抽出するプリセットASI抽出ステップと、前記プリセットASI抽出ステップによって抽出された所定のプリセットASI情報であって、前記エンコードされたオーディオ信号の位置およびレベル情報並びに出力レイアウト情報を直接的に表現するオブジェクト制御情報に基づいて、前記エンコードされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックスステップと、前記第1レンダリング情報に基づいて、前記複数のチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックスステップと、前記第3レンダリング情報を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換ステップと、前記プリセットASI抽出ステップによって抽出された所定のプリセットASI情報および前記第1マトリックスステップによって生成されたレンダリング情報のいずれか1つと、前記第2マトリックスステップによって生成されたレンダリング情報と、前記サブバンド変換ステップによって変換されたレンダリング情報と、前記第2レンダリング情報とに基づいて、前記エンコードされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリングステップとを含むトランスコーディング方法を行うことができる。
また、図1または図7のパーシング部707、信号処理部709、SACデコーダ711、およびミキサー701で構成されたデコード装置は、複数のチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報から、複数のオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記複数のオブジェクトで構成されたオーディオ信号のシーン情報とを分離するパーシングステップと、前記マルチオブジェクト信号のレンダリング情報に基づいて、前記複数のチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうち複数のチャネルで構成されたオーディオ信号に対するオーディオオブジェクト信号をハイサープレッションして、修正されたダウンミックス信号を出力する信号処理ステップと、前記シーン情報に基づいて、前記修正されたダウンミックス信号をミキシングしてオーディオ信号を復元するミキシングステップとを含むオーディオデコード方法を行うことができる。
さらに、前記デコード装置は、複数のチャネルで構成されたマルチオブジェクトオーディオ信号に対するレンダリング情報から複数のチャネルで構成されたオーディオ信号に対する空間キューを備えるマルチチャネル信号のレンダリング情報と、マルチオブジェクトで構成されたオーディオ信号に対する空間キューを備えるマルチオブジェクト信号のレンダリング情報と、前記マルチオブジェクトで構成されたオーディオ信号のシーン情報を分離するパーシングステップと、前記マルチオブジェクト信号のレンダリング情報に基づいて、前記マルチチャネルで構成されたマルチオブジェクトオーディオ信号に対するダウンミックス信号のうち少なくともいずれか1つのオーディオオブジェクト信号をハイサープレッションして修正されたダウンミックス信号および前記ハイサープレッションされたオーディオオブジェクト信号を生成する信号処理ステップと、前記修正されたダウンミックス信号をミキシングしてマルチチャネルオーディオ信号を復元するチャネルデコードステップと、前記シーン情報に基づいて、前記修正されたダウンミックス信号および信号処理ステップによって生成されたオーディオオブジェクト信号をミキシングするミキシングステップとを含むオーディオデコード方法を行うことができる。
さらに、前記デコード装置は、ダウンミックス信号および付加情報信号を含むオーディオ符号化信号を受信するステップと、前記付加情報信号からマルチオブジェクト付加情報およびマルチチャネル付加情報を抽出するステップと、前記マルチオブジェクト付加情報に基づいて、前記ダウンミックス信号をマルチチャネルダウンミックス信号に変換するステップと、前記マルチチャネルダウンミックス信号および前記マルチチャネル付加情報を利用してマルチチャネルオーディオ信号を復号化するステップと、前記復号化されたオーディオ信号を合成するステップとを含むオーディオ復号化方法を行うことができる。
上述したような本発明の方法は、プログラムで実現されてコンピュータ読み取り可能な記録媒体(CD−ROM、RAM、ROM、フロッピーディスク、ハードディスク、光磁気ディスクなど)に格納されることができる。
以上で説明した本発明は、前述の実施形態及び添付された図面によって限定されるものではなく、本発明の技術的思想を逸脱しない範囲内で様々な置換、変形及び変更が可能であるということが、本発明の属する技術分野における通常の知識を有した者にとって明白であるだろう。

Claims (22)

  1. オーディオエンコード装置において、
    マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第1レンダリング情報を生成するマルチチャネルエンコード手段と、
    マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第2レンダリング情報を生成するマルチオブジェクトエンコード手段を備えるものの、
    前記マルチオブジェクトエンコード手段は
    前記マルチチャネルエンコード手段が制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成する
    オーディオエンコード装置。
  2. 前記マルチオブジェクトエンコード手段は、
    前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューであって、前記マルチチャネルエンコード手段が、前記コーデックスキームによって制限を受けるサブバンド、および前記コーデックスキームによって制限を受けるサブバンドのうち、少なくとも何れか1つのサブバンドに対応する追加的な下位サブバンドに対する空間キューを生成することを特徴とする請求項1に記載のオーディオエンコード装置。
  3. 前記マルチオブジェクトエンコード手段は、
    前記追加的な下位サブバンドのうちで前記コーデックスキームによって制限を受ける何れか1つのサブバンドに対する空間キューと最も類似した空間キューに対応する下位サブバンドのインデックス情報を前記第2レンダリング情報に含めることを特徴とする請求項2に記載のオーディオエンコード装置。
  4. 前記マルチオブジェクトエンコード手段は、
    前記マルチチャネルエンコード手段が前記コーデックスキームによって制限を受ける空間キュー以外の空間キューであって、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成することを特徴とする請求項1に記載のオーディオエンコード装置。
  5. オーディオエンコード装置において、
    マルチチャネルで構成されたオーディオ信号をダウンミックスし、前記マルチチャネルで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第1レンダリング情報を生成するマルチチャネルエンコード手段と、
    マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記マルチチャネルエンコード手段によってダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第2レンダリング情報を生成する第1マルチオブジェクトエンコード手段と、
    マルチオブジェクトで構成されたオーディオ信号−前記マルチオブジェクトで構成されたオーディオ信号は、前記第1マルチオブジェクトエンコード手段によって、ダウンミックスされた信号を備える−をダウンミックスし、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成し、前記生成された空間キューを備える第3レンダリング情報を生成する第2マルチオブジェクトエンコード手段を備えるものの、
    前記第2マルチオブジェクトエンコード手段は、
    前記マルチチャネルエンコード手段および第1マルチオブジェクトエンコード手段が制限を受けるコーデックスキームには制限を受けずに前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成することを特徴とするオーディオエンコード装置。
  6. 前記第2マルチオブジェクトエンコード手段は、
    前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューであって、前記マルチチャネルエンコード手段および第1マルチオブジェクトエンコード手段が、前記コーデックスキームによって制限を受けるサブバンドおよび前記コーデックスキームによって制限を受けるサブバンドのうちで少なくとも何れか1つのサブバンドに対応する追加的な下位サブバンドに対する空間キューを生成することを特徴とする請求項5に記載のオーディオエンコード装置。
  7. 前記第2マルチオブジェクトエンコード手段は、
    前記追加的な下位サブバンドのうちで前記コーデックスキームによって制限を受ける何れか1つのサブバンドに対する空間キューと最も類似の空間キューに対応する下位サブバンドのインデックス情報を前記第3レンダリング情報に含めることを特徴とする請求項6に記載のオーディオエンコード装置。
  8. 前記第2マルチオブジェクトエンコード手段は、
    前記マルチチャネルエンコード手段および第1マルチオブジェクトエンコード手段が、前記コーデックスキームによって制限を受ける空間キュー以外の空間キューであって、前記マルチオブジェクトで構成されたオーディオ信号に対する空間キューを生成することを特徴とする 請求項5に記載のオーディオエンコード装置。
  9. エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、
    前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックス手段と、
    前記エンコーディングされたオーディオ信号に含まれたマルチチャネルで構成されたオーディオ信号に対する空間キューが含まれた第1レンダリング情報に基づいて、前記マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックス手段と、
    前記エンコーディングされたオーディオ信号に含まれたマルチオブジェクトで構成されたオーディオ信号に対する空間キューが含まれた第2レンダリング情報−前記第2レンダリング情報は前記第1レンダリング情報が制限を受けるコーデックスキームに制限を受けずに生成された空間キューを備える−を前記コーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、
    前記第1マトリックス手段によって生成されたレンダリング情報、前記第2マトリックス手段によって生成されたレンダリング情報、および前記サブバンド変換手段によって変換されたレンダリング情報に基づいて前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えることを特徴とするトランスコーディング装置。
  10. 前記第2レンダリング情報は、
    オーディオオブジェクト信号に対する空間キューであって、前記コーデックスキームによって制限を受けるサブバンド、および前記コーデックスキームによって制限を受けるサブバンドのうちで少なくとも何れか1つのサブバンドに対応する追加的な下位サブバンドに対する空間キューを備えることを特徴とする請求項9に記載のトランスコーディング装置。
  11. 前記第2レンダリング情報は、
    前記追加的な下位サブバンドのうちで前記コーデックスキームによって制限を受ける何れか1つのサブバンドに対する空間キューと最も類似の空間キューに対応する下位サブバンドのインデックス情報をさらに含み、
    前記サブバンド変換手段は
    前記インデックス情報に基づいて、前記コーデックスキームによって制限を受ける何れか1つのサブバンドに対する空間キューをインデックスに対応する下位サブバンドに対する空間キューに変えることを特徴とする請求項10に記載のトランスコーディング装置。
  12. 前記サブバンド変換手段は、
    前記コーデックスキームによって制限を受ける何れか1つのサブバンドに対する空間キューを前記追加的な下位サブバンドのうちで一番小さい絶対値の空間キューに変える ことを特徴とする請求項10に記載のトランスコーディング装置。
  13. 前記第2レンダリング情報は、
    前記コーデックスキームによって制限を受ける空間キュー以外の空間キューであって、前記オーディオオブジェクト信号に対する空間キューを備えることを特徴とする請求項9に記載のトランスコーディング装置。
  14. 前記サブバンド変換手段は
    前記コーデックスキームによって制限を受ける空間キュー以外の空間キューを除去することを特徴とする請求項13に記載のトランスコーディング装置。
  15. 前記トランスコーディング装置は、
    前記第2レンダリング情報に基づいて、前記エンコーディングされたオーディオ信号に含まれたマルチオーディオオブジェクト信号のうち少なくとも何れかの1つをハイサープレッション(high suppression)し、修正されたダウンミックス信号を出力する信号処理手段をさらに備えることを特徴とする請求項9に記載のトランスコーディング装置。
  16. エンコーディングされたオーディオ信号のデコードのためにレンダリング情報を生成するトランスコーディング装置において、
    前記エンコーディングされたオーディオ信号の位置、レベル情報および出力レイアウト情報を含むオブジェクト制御情報に基づいて、前記エンコーディングされたオーディオ信号がオーディオデコード装置の出力チャネルにマッピングされるための情報を含むレンダリング情報を生成する第1マトリックス手段と、
    第1レンダリング情報に基づいて、マルチチャネルで構成されたオーディオ信号に対するチャネル復元情報を生成する第2マトリックス手段と、
    第3レンダリング情報をコーデックスキームによるレンダリング情報に変換するサブバンド変換手段と、
    前記第1マトリックス手段によって生成されたレンダリング情報、前記第2マトリックス手段によって生成されたレンダリング情報、前記サブバンド変換手段によって変換されたレンダリング情報および第2レンダリング情報に基づいて、前記エンコーディングされたオーディオ信号に対する修正されたレンダリング情報を生成するレンダリング手段を備えるものの、
    前記第1レンダリング情報は、前記エンコーディングされたオーディオ信号に含まれたマルチチャネルで構成されたオーディオ信号に対する空間キューを含み、
    前記第2レンダリング情報は、前記第1レンダリング情報に対応するオーディオ信号を備えるマルチオブジェクトで構成されたオーディオ信号に対する空間キューを含み、
    前記第3レンダリング情報は、前記第2レンダリング情報に対応するオーディオ信号を備えるマルチオブジェクトで構成されたオーディオ信号に対する空間キューであって、前記第1レンダリング情報および前記第2レンダリング情報が制限を受けるコーデックスキームには制限を受けずに生成された空間キューを備えることを特徴とするトランスコーディング装置。
  17. 前記第3レンダリング情報は、
    オーディオオブジェクト信号に対する空間キューであって、前記コーデックスキームによって制限を受けるサブバンド、および前記コーデックスキームによって制限を受けるサブバンド中で少なくとも何れか1つのサブバンドに対応する追加的な下位サブバンドに対する空間キューを備えることを特徴とする請求項16に記載のトランスコーディング装置。
  18. 前記第3レンダリング情報は、
    前記追加的な下位サブバンドのうちで前記コーデックスキームによって制限を受ける何れか1つのサブバンドに対する空間キューと最も類似の空間キューに対応する下位サブバンドのインデックス情報をさらに含み、
    前記サブバンド変換手段は
    前記インデックス情報に基づいて、前記コーデックスキームによって制限を受ける何れか1つのサブバンドに対する空間キューをインデックスに対応する下位サブバンドに対する空間キューに変えることを特徴とする請求項17に記載のトランスコーディング装置。
  19. 前記サブバンド変換手段は、
    前記コーデックスキームによって制限を受ける何れか1つのサブバンドに対する空間キューを前記追加的な下位サブバンドのうちで一番小さい絶対値の空間キューに変えることを特徴とする請求項17に記載のトランスコーディング装置。
  20. 前記第3レンダリング情報は、
    前記コーデックスキームによって制限を受ける空間キュー以外の空間キューであって、オーディオオブジェクト信号に対する空間キューを備えることを特徴とする請求項16に記載のトランスコーディング装置。
  21. 前記サブバンド変換手段は、
    前記コーデックスキームによって制限を受ける空間キュー以外の空間キューを除去することを特徴とする請求項20に記載のトランスコーディング装置。
  22. 前記トランスコーディング装置は、
    前記第3レンダリング情報に基づいて、第2マルチオブジェクトエンコード手段から出力されるダウンミックス信号に含まれたマルチオーディオオブジェクト信号のうち少なくとも何れかの1つをハイサープレッション(high suppression)し、修正されたダウンミックス信号を出力する信号処理手段をさらに備えることを特徴とする請求項16に記載のトランスコーディング装置。
JP2010502011A 2007-03-30 2008-03-31 マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法 Active JP5220840B2 (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
KR10-2007-0031820 2007-03-30
KR20070031820 2007-03-30
KR20070038027 2007-04-18
KR10-2007-0038027 2007-04-18
KR10-2007-0110319 2007-10-31
KR20070110319 2007-10-31
PCT/KR2008/001788 WO2008120933A1 (en) 2007-03-30 2008-03-31 Apparatus and method for coding and decoding multi object audio signal with multi channel

Publications (2)

Publication Number Publication Date
JP2010525378A JP2010525378A (ja) 2010-07-22
JP5220840B2 true JP5220840B2 (ja) 2013-06-26

Family

ID=39808459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010502011A Active JP5220840B2 (ja) 2007-03-30 2008-03-31 マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法

Country Status (6)

Country Link
US (2) US8639498B2 (ja)
EP (2) EP2143101B1 (ja)
JP (1) JP5220840B2 (ja)
KR (1) KR101422745B1 (ja)
CN (1) CN101689368B (ja)
WO (1) WO2008120933A1 (ja)

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7294503B2 (en) 2000-09-15 2007-11-13 California Institute Of Technology Microfabricated crossflow devices and methods
EP1989704B1 (en) * 2006-02-03 2013-10-16 Electronics and Telecommunications Research Institute Method and apparatus for control of randering multiobject or multichannel audio signal using spatial cue
US8639368B2 (en) * 2008-07-15 2014-01-28 Lg Electronics Inc. Method and an apparatus for processing an audio signal
KR101171314B1 (ko) * 2008-07-15 2012-08-10 엘지전자 주식회사 오디오 신호의 처리 방법 및 이의 장치
WO2010041877A2 (en) * 2008-10-08 2010-04-15 Lg Electronics Inc. A method and an apparatus for processing a signal
US8670575B2 (en) 2008-12-05 2014-03-11 Lg Electronics Inc. Method and an apparatus for processing an audio signal
US8620008B2 (en) 2009-01-20 2013-12-31 Lg Electronics Inc. Method and an apparatus for processing an audio signal
WO2010087631A2 (en) * 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
US8666752B2 (en) 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
WO2010105695A1 (en) * 2009-03-20 2010-09-23 Nokia Corporation Multi channel audio coding
CN102065265B (zh) 2009-11-13 2012-10-17 华为终端有限公司 实现混音的方法、装置和系统
CN105047206B (zh) * 2010-01-06 2018-04-27 Lg电子株式会社 处理音频信号的设备及其方法
CN103262159B (zh) * 2010-10-05 2016-06-08 华为技术有限公司 用于对多声道音频信号进行编码/解码的方法和装置
KR101227932B1 (ko) * 2011-01-14 2013-01-30 전자부품연구원 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법
KR101783962B1 (ko) 2011-06-09 2017-10-10 삼성전자주식회사 3차원 오디오 신호를 부호화 및 복호화하는 방법 및 장치
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
CA3157717A1 (en) 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering
CN103050124B (zh) 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
US9190065B2 (en) * 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2863657B1 (en) 2012-07-31 2019-09-18 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
WO2014020182A2 (en) * 2012-08-03 2014-02-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
WO2014112793A1 (ko) 2013-01-15 2014-07-24 한국전자통신연구원 채널 신호를 처리하는 부호화/복호화 장치 및 방법
CN105009207B (zh) * 2013-01-15 2018-09-25 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
CA2908037C (en) * 2013-03-29 2019-05-07 Samsung Electronics Co., Ltd. Audio apparatus and audio providing method thereof
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
ES2931952T3 (es) * 2013-05-16 2023-01-05 Koninklijke Philips Nv Un aparato de procesamiento de audio y el procedimiento para el mismo
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830048A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
CN105556837B (zh) 2013-09-12 2019-04-19 杜比实验室特许公司 用于各种回放环境的动态范围控制
EP3059732B1 (en) * 2013-10-17 2018-10-10 Socionext Inc. Audio decoding device
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
CN106463124B (zh) * 2014-03-24 2021-03-30 三星电子株式会社 用于渲染声信号的方法和设备,以及计算机可读记录介质
WO2015147433A1 (ko) * 2014-03-25 2015-10-01 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법
CA2944355C (en) * 2014-03-28 2019-06-25 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal, and computer-readable recording medium
EP3131313B1 (en) 2014-04-11 2024-05-29 Samsung Electronics Co., Ltd. Method and apparatus for rendering sound signal, and computer-readable recording medium
CN105336335B (zh) 2014-07-25 2020-12-08 杜比实验室特许公司 利用子带对象概率估计的音频对象提取
US9774974B2 (en) * 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN114554386A (zh) 2015-02-06 2022-05-27 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
KR102465286B1 (ko) * 2015-06-17 2022-11-10 소니그룹주식회사 송신 장치, 송신 방법, 수신 장치 및 수신 방법
CN107787584B (zh) * 2015-06-17 2020-07-24 三星电子株式会社 处理低复杂度格式转换的内部声道的方法和装置
WO2017192972A1 (en) 2016-05-06 2017-11-09 Dts, Inc. Immersive audio reproduction systems
CN116709161A (zh) 2016-06-01 2023-09-05 杜比国际公司 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
US10979844B2 (en) 2017-03-08 2021-04-13 Dts, Inc. Distributed audio virtualization systems
CN108694955B (zh) 2017-04-12 2020-11-17 华为技术有限公司 多声道信号的编解码方法和编解码器
FR3067511A1 (fr) * 2017-06-09 2018-12-14 Orange Traitement de donnees sonores pour une separation de sources sonores dans un signal multicanal
AU2019216363B2 (en) * 2018-02-01 2021-02-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
EP3857919B1 (en) * 2019-12-02 2022-05-18 Dolby Laboratories Licensing Corporation Methods and apparatus for conversion from channel-based audio to object-based audio
KR20210072388A (ko) 2019-12-09 2021-06-17 삼성전자주식회사 오디오 출력 장치 및 오디오 출력 장치의 제어 방법

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7644003B2 (en) * 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
US20030187663A1 (en) * 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
DE10328777A1 (de) * 2003-06-25 2005-01-27 Coding Technologies Ab Vorrichtung und Verfahren zum Codieren eines Audiosignals und Vorrichtung und Verfahren zum Decodieren eines codierten Audiosignals
KR100663729B1 (ko) * 2004-07-09 2007-01-02 한국전자통신연구원 가상 음원 위치 정보를 이용한 멀티채널 오디오 신호부호화 및 복호화 방법 및 장치
SE0402651D0 (sv) * 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
KR100740807B1 (ko) * 2004-12-31 2007-07-19 한국전자통신연구원 공간정보기반 오디오 부호화에서의 공간정보 추출 방법
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
WO2006103584A1 (en) 2005-03-30 2006-10-05 Koninklijke Philips Electronics N.V. Multi-channel audio coding
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US7539612B2 (en) * 2005-07-15 2009-05-26 Microsoft Corporation Coding and decoding scale factor information
KR100755471B1 (ko) * 2005-07-19 2007-09-05 한국전자통신연구원 가상음원위치정보에 기반한 채널간 크기 차이 양자화 및역양자화 방법
BRPI0615114A2 (pt) * 2005-08-30 2011-05-03 Lg Electronics Inc aparelho e método para codificar e decodificar sinal de áudio
US8179977B2 (en) * 2005-10-13 2012-05-15 Lg Electronics Inc. Method of apparatus for processing a signal
EP1974344A4 (en) 2006-01-19 2011-06-08 Lg Electronics Inc METHOD AND APPARATUS FOR DECODING A SIGNAL
US7987096B2 (en) * 2006-09-29 2011-07-26 Lg Electronics Inc. Methods and apparatuses for encoding and decoding object-based audio signals
BRPI0715312B1 (pt) * 2006-10-16 2021-05-04 Koninklijke Philips Electrnics N. V. Aparelhagem e método para transformação de parâmetros multicanais
CN103400583B (zh) * 2006-10-16 2016-01-20 杜比国际公司 多声道下混对象编码的增强编码和参数表示
EP2595148A3 (en) 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for coding multi-object audio signals
JP5232795B2 (ja) 2007-02-14 2013-07-10 エルジー エレクトロニクス インコーポレイティド オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置
US8155971B2 (en) * 2007-10-17 2012-04-10 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio decoding of multi-audio-object signal using upmixing

Also Published As

Publication number Publication date
EP3712888A2 (en) 2020-09-23
WO2008120933A1 (en) 2008-10-09
CN101689368B (zh) 2012-08-22
EP3712888B1 (en) 2024-05-08
CN101689368A (zh) 2010-03-31
US20100121647A1 (en) 2010-05-13
US20140100856A1 (en) 2014-04-10
KR101422745B1 (ko) 2014-07-24
EP2143101B1 (en) 2020-03-11
EP2143101A1 (en) 2010-01-13
KR20080089308A (ko) 2008-10-06
EP3712888A3 (en) 2020-10-28
US8639498B2 (en) 2014-01-28
JP2010525378A (ja) 2010-07-22
EP2143101A4 (en) 2016-03-23
US9257128B2 (en) 2016-02-09

Similar Documents

Publication Publication Date Title
JP5220840B2 (ja) マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
JP6446407B2 (ja) トランスコーディング方法
RU2551797C2 (ru) Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
TWI395204B (zh) 一種使用下混合的音頻編碼的音頻解碼器、音頻物件編碼器、多音頻物件編碼方法、用於對多音頻物件信號進行解碼的方法,以及執行這些方法的具有程式碼的程式
TWI550598B (zh) 使用聯合編碼殘餘信號之音訊編碼器、音訊解碼器、方法及電腦程式
JP2010515099A5 (ja)
US9478228B2 (en) Encoding and decoding of audio signals
JP2008535015A (ja) オーディオ符号化および復号化
JP2008536184A (ja) 適応残差オーディオ符号化

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110331

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120824

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20121204

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20121211

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130205

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130306

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160315

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5220840

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250