JP2012530952A - カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム - Google Patents

カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム Download PDF

Info

Publication number
JP2012530952A
JP2012530952A JP2012516716A JP2012516716A JP2012530952A JP 2012530952 A JP2012530952 A JP 2012530952A JP 2012516716 A JP2012516716 A JP 2012516716A JP 2012516716 A JP2012516716 A JP 2012516716A JP 2012530952 A JP2012530952 A JP 2012530952A
Authority
JP
Japan
Prior art keywords
audio
information
signal
downmix
saoc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012516716A
Other languages
English (en)
Other versions
JP5678048B2 (ja
Inventor
オリバー ヘルムート
コルネリア ファルヒ
ユールゲン ヘレ
ジョーハン ヒルペアト
レオニード テレンチエフ
ファルコ リッダーブッシュ
Original Assignee
フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ filed Critical フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
Publication of JP2012530952A publication Critical patent/JP2012530952A/ja
Application granted granted Critical
Publication of JP5678048B2 publication Critical patent/JP5678048B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/36Accompaniment arrangements
    • G10H1/361Recording/reproducing of accompaniment for use with an external source, e.g. karaoke systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/155Musical effects
    • G10H2210/265Acoustic effect simulation, i.e. volume, spatial, resonance or reverberation effects added to a musical sound, usually by appropriate filtering or delays
    • G10H2210/295Spatial effects, musical uses of multiple audio channels, e.g. stereo
    • G10H2210/301Soundscape or sound field simulation, reproduction or control for musical purposes, e.g. surround or 3D sound; Granular synthesis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供するオーディオ信号デコーダは、ダウンミックス信号表現を分解し、ダウンミックス信号表現に基づき、オブジェクト関連パラメータ情報の少なくとも一部を用いて、第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第1のセットを記述する第1のオーディオ情報と第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第2のセットを記述する第2のオーディオ情報を提供するように構成されたオブジェクトセパレータを備える。オーディオ信号デコーダは、第2のオーディオ情報を受信し、オブジェクト関連パラメータ情報に基づいて第2のオーディオ情報を処理し、第2のオーディオ情報の処理されたバージョンを取得するように構成されたオーディオ信号プロセッサを備える。オーディオ信号デコーダは、第1のオーディオ情報を第2のオーディオ情報の処理されたバージョンと結合し、アップミックス信号表現を取得するように構成されたオーディオ信号コンバイナを備える。
【選択図】図1

Description

本発明に係る実施形態は、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供するオーディオ信号デコーダに関する。
本発明に係る更なる実施形態は、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法に関する。
本発明に係る更なる実施形態は、コンピュータプログラムに関する。
本発明に係るいくつかの実施形態は、拡張されたカラオケ/ソロ‐SAOCシステムに関する。
現代のオーディオシステムにおいて、効率的なビットレートでオーディオ情報を転送し、記憶することが要求される。加えて、部屋において空間的に配置された2つまたはそれ以上の複数個のスピーカを用いてオーディオコンテンツを再生することがしばしば要求される。そのような場合、ユーザが異なるオーディオコンテンツまたは単一のオーディオコンテンツの異なるアイテムを空間的に識別することを可能とするようなマルチスピーカ構成の機能を利用することが要求される。これは、異なるオーディオコンテンツを異なるスピーカに個別に分配することによって成し遂げることができる。
言い換えれば、オーディオ処理と、オーディオ伝送と、オーディオ記憶の技術において、聴覚インプレッションを改善するためにマルチチャンネルコンテンツを取り扱うという要望が増大している。マルチチャンネルオーディオコンテンツの使用は、ユーザに対して有意の改善をもたらす。例えば、娯楽アプリケーションにおいて改善されたユーザ満足度をもたらす三次元の聴覚インプレッションを得ることができる。しかしながら、話し手の了解度はマルチチャンネルオーディオ再生を用いることで改善することができるので、マルチチャンネルオーディオコンテンツは、専門的な環境、例えば電話会議アプリケーションにおいても有用である。
しかしながら、マルチチャンネルアプリケーションによって生じる過剰なリソースの負荷を回避するため、オーディオ品質とビットレート要求条件の間の良好なトレードオフを有することが望ましい。
近年、多数のオーディオオブジェクトを含んでいるオーディオシーンの効率的なビットレートの伝送および/または記憶に対するパラメータ技術、例えば、バイノーラルキュー符号化(タイプI)(例えば、参考資料[BCC]を参照)、ジョイントソース符号化(例えば、参考資料[JSC]を参照)、およびMPEG空間オーディオオブジェクト符号化(SAOC)(例えば、参考資料[SAOC1]、[SAOC2]を参照)が提唱されている。
これらの技術は、波形マッチングによるよりも、むしろ所望の出力オーディオシーンを知覚的に再構築することを目標とする。
図8は、このようなシステム(ここではMPEG−SAOC)の概要を示す。図8に示されるMPEG‐SAOCシステム800は、SAOCエンコーダ810とSAOCデコーダ820を備える。SAOCエンコーダ810は、例えば、時間領域信号または時間−周波数領域信号(例えば、フーリエタイプの変換の変換係数のセットの形の、またはQMFサブバンド信号の形の)として表すことができる複数のオブジェクト信号x1〜xNを受信する。SAOCエンコーダ810は、通常は、オブジェクト信号x1〜xNに関するダウンミックス係数d1〜dNも受信する。ダウンミックス係数の分離したセットは、ダウンミックス信号の各チャンネルに対して利用することができる。SAOCエンコーダ810は、通常は、オブジェクト信号x1〜xNを関連するダウンミックス係数d1〜dNに従って結合することによって、ダウンミックス信号のチャンネルを取得するように構成される。通常は、オブジェクト信号x1〜xNよりも少ないダウンミックスチャンネルが存在する。SAOCエンコーダ810は、SAOCデコーダ820側において、オブジェクト信号の分離(または分離処理)を可能に(少なくとも近似的に)するため、1つ以上のダウンミックス信号(ダウンミックスチャンネルとして指定された)812とサイド情報814の両方を提供する。サイド情報814は、デコーダ側のオブジェクト特有の処理を可能とするために、オブジェクト信号x1〜xNの特性を記述する。
SAOCデコーダ820は、1つ以上のダウンミックス信号812とサイド情報814の両方を受信するように構成される。また、SAOCデコーダ820は、通常は、所望のレンダリングセットアップを記述するユーザ対話情報および/またはユーザ制御情報822を受信するように構成される。例えば、ユーザ対話情報/ユーザ制御情報822は、オブジェクト信号x1〜xNによって提供されるオブジェクトのスピーカセットアップと所望の空間配置を記述することができる。
Figure 2012530952
Figure 2012530952
次に図9a、9b、9cを参照して、ダウンミックス信号表現とオブジェクト関連サイド情報に基づいてアップミックス信号表現を取得する異なる装置が記載される。図9aは、SAOCデコーダ920を備えるMPEG‐SAOCシステム900の概略ブロック図を示す。SAOCデコーダ920は、分離した機能ブロックとして、オブジェクトデコーダ922とミキサー/レンダラー926を備える。オブジェクトデコーダ922は、ダウンミックス信号表現(例えば、時間ドメインまたは時間−周波数ドメインにおいて表された1つ以上のダウンミックス信号の形の)と、オブジェクト関連サイド情報(例えば、オブジェクトメタデータの形の)に基づいて、複数の復元されたオブジェクト信号924を提供する。ミキサー/レンダラー926は、複数のN個のオブジェクトに関する復元されたオブジェクト信号924を受信し、それに基づいて1つ以上のアップミックスチャンネル信号928を提供する。SAOCデコーダ920において、オブジェクト信号924の抽出は、オブジェクト復号化機能の混合/レンダリング機能からの分離を可能にする混合/レンダリングにより個別に実行されるが、比較的高い演算量をもたらす。
次に図9bを参照して、SAOCデコーダ950を備える他のMPEG‐SAOCシステム930が簡単に述べられる。SAOCデコーダ950は、ダウンミックス信号表現(例えば、1つ以上のダウンミックス信号の形の)と、オブジェクト関連サイド情報(例えば、オブジェクトメタデータの形の)に基づいて、複数のアップミックスチャンネル信号958を提供する。SAOCデコーダ950は、ジョイント混合プロセスにおいてオブジェクト復号化と混合/レンダリングの分離なしにアップミックスチャンネル信号958を取得するように構成され、前記ジョイントアップミックスプロセスに対するパラメータがオブジェクト関連サイド情報とレンダリング情報の両方に依存する、複合化されたオブジェクトデコーダとミキサー/レンダラーを備える。ジョイントアップミックスプロセスは、オブジェクト関連サイド情報の一部であると考えられるダウンミックス情報にも依存する。
上記を要約すると、アップミックスチャンネル信号928、958の提供は、1ステップのプロセスまたは2ステップのプロセスにおいて実行することができる。
次に図9cを参照して、MPEG‐SAOCシステム960が記載される。SAOCシステム960は、SAOCデコーダでなく、SOACからMPEGサラウンドへのトランスコーダ980を備える。
SOACからMPEGサラウンドへのトランスコーダは、オブジェクト関連サイド情報(例えば、オブジェクトメタデータの形の)と、オプションとして1つ以上のダウンミックス信号とレンダリング情報に関する情報を受信するように構成されたサイド情報トランスコーダ982を備える。サイド情報トランスコーダは、受信データに基づいて、MPEGサラウンドサイド情報984(例えば、MPEGサラウンドビットストリームの形の)を提供するようにも構成される。したがって、サイド情報トランスコーダ982は、オブジェクトエンコーダから受信されるオブジェクト関連(パラメータ)サイド情報を、レンダリング情報とオプションとして1つ以上のダウンミックス信号のコンテンツに関する情報を考慮に入れて、チャンネル関連(パラメータ)サイド情報984に変換するように構成される。
オプションとして、SOACからMPEGサラウンドへのトランスコーダ980は、例えば、ダウンミックス信号表現によって記述された1つ以上のダウンミックス信号を操作し、操作されたダウンミックス信号表現988を取得するように構成することができる。しかしながら、ダウンミックス信号マニピュレータ986は、SOACからMPEGサラウンドへのトランスコーダ980の出力ダウンミックス信号表現988がSOACからMPEGサラウンドへのトランスコーダの入力ダウンミックス信号表現と同一であるように、省略することができる。ダウンミックス信号マニピュレータ986は、例えば、いくつかのレンダリング配列においてあてはまる可能性がある、チャンネル関連MPEGサラウンドサイド情報984がSOACからMPEGサラウンドへのトランスコーダ980の入力ダウンミックス信号表現に基づいて所望の聴覚インプレッションを提供することができない場合に、用いることができる。
したがって、SOACからMPEGサラウンドへのトランスコーダ980は、SOACからMPEGサラウンドへのトランスコーダ980のレンダリング情報入力に従ってオーディオオブジェクトを表す複数のアップミックスチャンネル信号を、MPEGサラウンドビットストリーム984とダウンミックス信号表現988を受信するMPEGサラウンドデコーダを用いて生成することができるように、ダウンミックス信号表現988とMPEGサラウンドビットストリーム984を提供する。
上記を要約すると、SAOC符号化されたオーディオ信号を復号化する異なるコンセプトを用いることができる。場合によっては、ダウンミックス信号表現とオブジェクト関連パラメータサイド情報に基づいてアップミックスチャンネル信号(例えば、アップミックスチャンネル信号928、958)を提供するSAOCデコーダが用いられる。このコンセプトの実施例は、図9aと9bに見ることができる。あるいは、SAOC符号化されたオーディオ情報は、所望のアップミックスチャンネル信号を提供するMPEGサラウンドデコーダによって用いることができる、ダウンミックス信号表現(例えば、ダウンミックス信号表現988)とチャンネル関連サイド情報(例えば、チャンネル関連MPEGサラウンドビットストリーム984)を取得するために変換符号化することができる。
図8にシステム概要が示されるMPEG‐SAOCシステム800において、一般的な処理が、周波数選択的方法で遂行され、各周波数バンドの中で以下のように記述することができる。
・N個の入力オーディオオブジェクト信号x1〜xNは、SAOCエンコーダ処理の一部としてダウンミックスされる。モノラルダウンミックスに対しては、ダウンミックス係数は、d1〜dNで示される。加えて、SAOCエンコーダ810は、入力オーディオオブジェクトの特性を記述するサイド情報814を抽出する。MPEG‐SAOCに対しては、お互いに関するオブジェクトパワーの関係は、このようなサイド情報の最も基本的な形である。
・ダウンミックス信号812とサイド情報814は、送信および/または記憶される。
このために、ダウンミックスオーディオ信号は、MPEG‐1レイヤーIIまたはIII(「.mp3」としても知られる)のような周知の知覚的オーディオコーダ、MPEGアドバーンストオーディオ符号化(AAC)、または他のいかなるオーディオコーダを用いても圧縮することができる。
Figure 2012530952
・実際上、オブジェクト信号の分離は、分離ステップ(オブジェクトセパレータ820aによって示される)と混合ステップ(ミキサー820cによって示される)の両方は、単一の変換符号化ステップに複合化されるので、めったに実行されず(または決して実行されず)、結果としてしばしば計算量の莫大な減少になる。
このようなスキームは、伝送ビットレート(それは、N個のディスクリートのオブジェクトオーディオ信号またはディスクリートシステムの代わりに、少数のダウンミックスチャンネルに加えていくつかのサイド情報を送信する必要があるだけである)と、計算量(処理の複雑度は、オーディオオブジェクトの数よりもむしろ出力チャンネル数に主に関係する)の両方に関して、極めて効率的であることが分かっている。受信端のユーザに対する更なる利益は、ユーザの選択(モノラル、ステレオ、サラウンド、仮想化されたヘッドホン再生、その他)のレンダリングセットアップを選ぶ自由度とユーザの対話性の特徴を含む。レンダリングマトリックスと、従って出力シーンは、ユーザによって、意志、個人的好みまたは他の基準に従って対話的にセットし、変更することができる。例えば、共に1つの空間エリアにいる1つのグループから話し手を位置決めし、他の残りの話し手からの弁別を最大にすることができる。この対話性は、デコーダのユーザインターフェースを提供することによって達成される。
各送信されたサウンドオブジェクトに対して、その相対的レベルと(非モノラルレンダリングに対する)レンダリングの空間位置は、調整することができる。これは、ユーザが関連するグラフィカルユーザインターフェース(GUI)のスライダの位置を変えるにつれてリアルタイムに生ずる可能性がある(例えば:オブジェクトレベル=+5dB、オブジェクト位置=−30度)。
しかしながら、このようなシステムにおいて、異なるオーディオオブジェクトタイプのオーディオオブジェクトを取り扱うことは難しいことが分かっている。特に、処理されるオーディオオブジェクトの合計数が予め定められていない場合、異なるオーディオオブジェクトタイプのオーディオオブジェクト、例えば異なるサイド情報が関連づけられたオーディオオブジェクトを処理することは難しいことが分かっている。
この状況を鑑みて、本発明の目的は、ダウンミックス信号表現と、2つ以上の異なるオーディオオブジェクトタイプのオーディオオブジェクトを記述するオブジェクト関連パラメータ情報を備えるオーディオ信号の、計算上効率的でフレキシブルな復号化を可能にするコンセプトを構築することである。
ISO/IEC JTC1/SC29/WG11(MPEG)、文書N8853、空間オーディオオブジェクトコーディングに関する提案の召集、第79回MPEGミーティング、マラケシュ、2007年1月 ISO/IEC JTC1/SC29/WG11(MPEG)、文書N9099、最終的な空間オーディオオブジェクト符号化評価手順と評価基準、第80回MPEGミーティング、サンノゼ、2007年4月 ISO/IEC JTC1/SC29/WG11(MPEG)、文書N9250、空間オーディオオブジェクト符号化RM0セクションの報告、第81回MPEGミーティング、ローザンヌ、2007年7月 ISO/IEC JTC1/SC29/WG11(MPEG)、文書M15123、MPEG SAOC RM0のパフォーマンスを改善するカラオケ/ソロ システムに関するCEの情報と検証結果」、第83回MPEGミーティング、アンタルヤ、トルコ、2008年1月 ISO/IEC JTC1/SC29/WG11(MPEG)、文書N10659、ISO/IEC 23003−2:200X 空間オーディオオブジェクト符号化(SAOC)に関する研究、第88回MPEGミーティング、マウイ、アメリカ合衆国、2009年4月 ISO/IEC JTC1/SC29/WG11(MPEG)、文書M10660、SAOCコア実験に関する状況と作業計画、第88回MPEGミーティング、マウイ、アメリカ合衆国、2009年4月 EBU技術勧告、中間オーディオ品質の主観的リスニングテストのためのMUSHRA-EBU法」、文書B/AIM022、1999年10月 ISO/IEC 23003−1:2007、情報技術−MPEGオーディオ技術 − パート1 :MPEGサラウンド
上記目的は、独立クレームに定義されたような、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供するオーディオ信号デコーダ、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法、およびコンピュータプログラムによって達成される。
本発明に係る実施形態は、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供するオーディオ信号デコーダを構築する。オーディオ信号デコーダは、ダウンミックス信号表現を分解し、ダウンミックス信号表現に基づき、オブジェクト関連パラメータ情報の少なくとも一部を用いて、第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第1のセットを記述する第1のオーディオ情報と、第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第2のセットを記述する第2のオーディオ情報を提供するように構成された、オブジェクトセパレータを備える。オーディオ信号デコーダは、また、第2のオーディオ情報を受信し、オブジェクト関連パラメータ情報に基づいて第2のオーディオ情報を処理し、第2のオーディオ情報の処理されたバージョンを取得するように構成された、オーディオ信号プロセッサを備える。オーディオ信号デコーダは、また、第1のオーディオ情報を第2のオーディオ情報の処理されたバージョンと結合し、アップミックス信号表現を取得するように構成された、オーディオ信号コンバイナを備える。
オブジェクトセパレータによって実行される第1の処理ステップにおいて、オブジェクト関連パラメータ情報の少なくとも一部を用いて異なるタイプのオーディオオブジェクトの分離を可能とし、オーディオ信号プロセッサによるオブジェクト関連パラメータ情報の少なくとも一部に基づいて実行される第2の処理ステップにおいて、付加的な空間処理を可能とするカスケード構造において、異なるタイプのオーディオオブジェクトの効率的処理を得ることができることが、本発明の基本的思想である。より大きい数の第2のオーディオオブジェクトタイプのオーディオオブジェクトが存在する場合であっても、ダウンミックス信号表現から、第2のオーディオオブジェクトタイプのオーディオオブジェクトを備える第2のオーディオ情報を抽出することを、適度な複雑度で実行できることが分かっている。加えて、一旦第2のオーディオ情報が第1のオーディオオブジェクトタイプのオーディオオブジェクトを記述する第1のオーディオ情報から分離されれば、第2のオーディオタイプのオーディオオブジェクトの空間処理を効率的に実行できることが分かっている。
加えて、第1のオーディオ情報と第2のオーディオ情報を分離するオブジェクトセパレータによって実行される処理アルゴリズムは、第2のオーディオオブジェクトタイプのオーディオオブジェクトのオブジェクト個々の処理が、オーディオ信号プロセッサの下位に置かれ、第1のオーディオ情報と第2のオーディオ情報の分離のように同時に実行されない場合に、比較的小さい複雑度で実行できることが分かっている。
好ましい実施形態において、オーディオ信号デコーダは、ダウンミックス信号表現と、オブジェクト関連パラメータ情報と、ダウンミックス信号表現によって表されたオーディオオブジェクトのサブセットに関する残余情報に基づいてアップミックス信号表現を提供するように構成される。この場合、オブジェクトセパレータは、ダウンミックス信号表現を分解し、ダウンミックス信号表現に基づき、オブジェクト関連パラメータ情報と残余情報の少なくとも一部を用いて、残余情報が関連する第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクト(例えばフォアグラウンドオブジェクトFGO)の第1のセットを記述する第1のオーディオ情報と、残余情報が関連しない第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクト(例えばバックグラウンドオブジェクトBGO)の第2のセットを記述する第2のオーディオ情報を提供するように構成される。
この実施形態は、第1のオーディオオブジェクトタイプのオーディオオブジェクトの第1のセットを記述する第1のオーディオ情報と、第2のオーディオオブジェクトタイプのオーディオオブジェクトの第2のセットを記述する第2のオーディオ情報のとりわけ正確な分離が、オブジェクト関連パラメータ情報に加えて残余情報を用いることによって得ることができるという発見に基づいている。オブジェクト関連パラメータ情報の単なる使用が多くの場合において歪に結果としてなり、それは残余情報の使用によって、有意に減少させることができる、または完全に除去することさえできることが分っている。残余情報は、例えば、第1のオーディオオブジェクトタイプのオーディオオブジェクトが単にオブジェクト関連パラメータ情報を用いて分離された場合に残ると予想される残余の歪を記述する。残余情報は、通常はオーディオ信号エンコーダによって推定される。残余情報を適用することによって、第1のオーディオオブジェクトタイプのオーディオオブジェクトと、第2のオーディオオブジェクトタイプのオーディオオブジェクトの分離は、改善することができる。
これは、第1のオーディオオブジェクトタイプのオーディオオブジェクトと第2のオーディオオブジェクトタイプのオーディオオブジェクトのとりわけ良好な分離によって第1のオーディオ情報と第2のオーディオ情報を取得することを可能にし、これにより次に、オーディオ信号プロセッサにおいて第2のオーディオ情報を処理するときに、第2のオーディオオブジェクトタイプのオーディオオブジェクトの高品質な空間処理を得ることを可能にする。
好ましい実施形態において、オブジェクトセパレータは、それ故、第1のオーディオ情報において、第1のオーディオオブジェクトタイプのオーディオオブジェクトが第2のオーディオオブジェクトタイプのオーディオオブジェクトを超えて強調されるように、第1のオーディオ情報を提供するように構成される。オブジェクトセパレータは、また、第2のオーディオ情報において、第2のオーディオオブジェクトタイプのオーディオオブジェクトが第1のオーディオオブジェクトタイプのオーディオオブジェクトを超えて強調されるように、第2のオーディオ情報を提供するように構成される。
好ましい実施形態において、オーディオ信号デコーダは、オーディオ信号プロセッサにおける第2のオーディオ情報の処理が、第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第1のセットを記述する第1のオーディオ情報と第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第2のセットを記述する第2のオーディオ情報の分離の後に実行されるように、2ステップ処理を実行するように構成される。
好ましい実施形態において、オーディオ信号プロセッサは、第2のオーディオ情報を、第2のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト関連パラメータ情報に基づき、第1のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト関連パラメータ情報から独立して処理するように構成される。したがって、第1のオーディオオブジェクトタイプのオーディオオブジェクトと第2のオーディオオブジェクトタイプのオーディオオブジェクトの分離した処理を得ることができる。
好ましい実施形態において、オブジェクトセパレータは、1つ以上のダウンミックスチャンネルと1つ以上の残余チャンネルの線形結合を用いて第1のオーディオ情報と第2のオーディオ情報を取得するように構成される。この場合、オブジェクトセパレータは、第1のオーディオオブジェクトタイプのオーディオオブジェクトに関するダウンミックスパラメータに基づいて、そして第1のオーディオオブジェクトタイプのオーディオオブジェクトのチャンネル予測係数に基づいて、線形結合を実行する結合パラメータを取得するように構成される。第1のオーディオオブジェクトタイプのオーディオオブジェクトのチャンネル予測係数の演算は、例えば、単一の共通オーディオオブジェクトとして第2のオーディオオブジェクトタイプのオーディオオブジェクトを考慮することができる。したがって、分離プロセスは、十分に小さい計算量によって実行することができ、例えば、第2のオーディオオブジェクトタイプのオーディオオブジェクトの数からほぼ独立したものとすることができる。
好ましい実施形態において、オブジェクトセパレータは、第1のオーディオ情報にレンダリングマトリックスを適用し、第1のオーディオ情報のオブジェクト信号をアップミックスオーディオ信号表現のオーディオチャンネルにマッピングするように構成される。これは、オブジェクトセパレータが第1のオーディオオブジェクトタイプのオーディオオブジェクトを個々に表す分離したオーディオ信号を抽出する能力があるので、実行することができる。したがって、第1のオーディオ情報のオブジェクト信号をアップミックスオーディオ信号表現のオーディオチャンネルに直接マッピングすることが可能である。
好ましい実施形態において、オーディオプロセッサは、レンダリング情報と、オブジェクト関連共分散情報と、ダウンミックス情報に基づいて第2のオーディオ情報のステレオ処理を実行し、アップミックスオーディオ信号表現のオーディオチャンネルを取得するように構成される。
したがって、第2のオーディオオブジェクトタイプのオーディオオブジェクトのステレオ処理は、第1のオーディオオブジェクトタイプのオーディオオブジェクトと第2のオーディオオブジェクトタイプのオーディオオブジェクトの分離から分離される。このように、第1のオーディオオブジェクトタイプのオーディオオブジェクトと第2のオーディオオブジェクトタイプのオーディオオブジェクトの効率的な分離は、通常、オブジェクトセパレータにおいて、例えば残余情報を用いて得ることができる高度のオブジェクト分離の提供なしにオーディオオブジェクトの複数のオーディオチャンネルへの分配に導くステレオ処理によって影響されない(すなわち劣化しない)。
他の好ましい実施形態において、オーディオプロセッサは、レンダリング情報と、オブジェクト関連共分散情報と、ダウンミックス情報に基づいて第2のオーディオ情報の後処理を実行するように構成される。この形式の後処理は、第2のオーディオオブジェクトタイプのオーディオオブジェクトのオーディオシーン内の空間配置を可能にする。しかも、カスケードコンセプトによって、オーディオプロセッサは第1のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト関連パラメータ情報を考慮する必要がないので、オーディオプロセッサの計算量は十分に小さく保つことができる。
加えて、例えば、モノラルからバイノーラルへの処理、モノラルからステレオへの処理、ステレオからバイノーラルへの処理、またはステレオからステレオへの処理のような異なるタイプの処理を、オーディオプロセッサによって実行することができる。
好ましい実施形態において、オブジェクトセパレータは、残余情報が関連しない第2のオーディオオブジェクトタイプのオーディオオブジェクトを、単一のオーディオオブジェクトとして取り扱うように構成される。加えて、オーディオ信号プロセッサは、オブジェクト特有のレンダリングパラメータを考慮し、第2のオーディオオブジェクトタイプのオブジェクトの貢献度をアップミックス信号表現に合わせるように構成される。このように、第2のオーディオオブジェクトタイプのオーディオオブジェクトは、オブジェクトセパレータによって単一のオーディオオブジェクトとみなされ、オブジェクトセパレータの複雑度を有意に低減し、更に、第2のオーディオオブジェクトタイプのオーディオオブジェクトに関するレンダリングパラメータから独立しているユニークな残余情報を持つことを可能にする。
好ましい実施形態において、オブジェクトセパレータは、第2のオーディオオブジェクトタイプの複数のオーディオオブジェクトに対する共通のオブジェクトレベル差値を取得するように構成される。オブジェクトセパレータは、チャンネル予測係数の演算に対して共通のオブジェクトレベル差値を用いるように構成される。加えて、オブジェクトセパレータは、チャンネル予測係数を用い、第2のオーディオ情報を表す1つまたは2つのオーディオチャンネルを取得するように構成される。共通のオブジェクトレベル差値の取得に対して、第2のオーディオオブジェクトタイプのオーディオオブジェクトは、オブジェクトセパレータによって単一のオーディオオブジェクトとして効率的に取り扱うことができる。
好ましい実施形態において、オブジェクトセパレータは、第2のオーディオオブジェクトタイプの複数のオーディオオブジェクトに対して共通のオブジェクトレベル差値を取得するように構成され、オブジェクトセパレータは、エネルギーモードマッピングマトリックスのエントリーの演算に対して共通のオブジェクトレベル差値を用いるように構成される。オブジェクトセパレータは、エネルギーモードマッピングマトリックスを用い、第2のオーディオ情報を表す1つ以上のオーディオチャンネルを取得するように構成される。また、共通のオブジェクトレベル差値は、オブジェクトセパレータによる第2のオーディオオブジェクトタイプのオーディオオブジェクトの計算上効率的な共通の取り扱いを可能にする。
好ましい実施形態において、オブジェクトセパレータは、第2のオーディオオブジェクトタイプのオーディオオブジェクトが2つあることが分った場合に、オブジェクト関連パラメータ情報に基づいて第2のオーディオオブジェクトタイプのオーディオオブジェクトに関する共通のオブジェクト間相関値を選択的に取得し、第2のオーディオオブジェクトタイプのオーディオオブジェクトが2つを超えるまたは2つ未満であることが分った場合に、第2のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト間相関値をゼロにセットするように構成される。オブジェクトセパレータは、第2のオーディオオブジェクトタイプのオーディオオブジェクトに関する共通のオブジェクト間相関値を用い、第2のオーディオ情報を表す1つ以上のオーディオチャンネルを取得するように構成される。このアプローチを用いて、オブジェクト間相関値は、高い計算効率で得ることができる場合、すなわち、第2のオーディオオブジェクトタイプのオーディオオブジェクトが2つある場合に、利用される。さもないと、オブジェクト間相関値を取得するために計算上大変な労力を要する。したがって、第2のオブジェクトタイプのオーディオオブジェクトが2つを超えるまたは2つ未満である場合は、第2のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクト間相関値をゼロにセットすることが聴覚インプレッションと計算量の観点から良好な妥協であると分った。
好ましい実施形態において、オーディオ信号プロセッサは、オブジェクト関連パラメータ情報(少なくともその一部)に基づいて第2のオーディオ情報をレンダリングし、第2のオーディオ情報の処理されたバージョンとして、第2のオーディオオブジェクトタイプのオーディオオブジェクトのレンダリングされた表現を取得するように構成される。この場合、レンダリングは、第1のオーディオオブジェクトタイプのオーディオオブジェクトから独立しているようになすことができる。
好ましい実施形態において、オブジェクトセパレータは、第2のオーディオ情報が第2のオーディオオブジェクトタイプの2つを超えるオーディオオブジェクトを記述するように、第2のオーディオ情報を提供するように構成される。本発明に係る実施形態は、第2のオーディオオブジェクトタイプのオーディオオブジェクトの数のフレキシブルな調整を可能とし、それは処理のカスケード化構造によって有意に促進される。
好ましい実施形態において、オブジェクトセパレータは、第2のオーディオ情報として、第2のオーディオオブジェクトタイプの2つを超えるオーディオオブジェクトを表す1チャンネルのオーディオ信号表現または2チャンネルのオーディオ信号表現を取得するように構成される。1つまたは2つのオーディオ信号チャンネルを抽出することは、オブジェクトセパレータによって低い計算量で実行することができる。特に、オブジェクトセパレータの複雑度は、オブジェクトセパレータが第2のオーディオオブジェクトタイプの2つを超えるオーディオオブジェクトを取扱うことを必要とするケースと比較したとき、有意に小さく保つことができる。しかも、1つまたは2つのチャンネルのオーディオ信号を用いることは、第2のオーディオオブジェクトタイプのオーディオオブジェクトの計算上効率的な表現であることが分かっている。
好ましい実施形態において、オーディオ信号プロセッサは、第2のオーディオ情報を受信し、第2のオーディオオブジェクトタイプの2つを超えるオーディオオブジェクトに関するオブジェクト関連パラメータ情報を考慮して、オブジェクト関連パラメータ情報(少なくともその一部)に基づいて第2のオーディオ情報を処理するように構成される。したがって、オブジェクト個々の処理は、オーディオプロセッサによって実行される一方、そのようなオブジェクト個々の処理は第2のオーディオオブジェクトタイプのオーディオオブジェクトに対して実行されない。
好ましい実施形態において、オーディオデコーダは、オブジェクト関連パラメータ情報に関する構成情報から、トータルのオブジェクト数の情報とフォアグラウンドのオブジェクト数の情報を抽出するように構成される。オーディオデコーダは、また、トータルのオブジェクト数の情報とフォアグラウンドのオブジェクト数の情報の差を形成することによって、第2のオーディオオブジェクトタイプのオーディオオブジェクトの数を決定するように構成される。したがって、第2のオーディオオブジェクトタイプのオーディオオブジェクトの数の効率的なシグナリングが達成される。加えて、このコンセプトは、第2のオーディオオブジェクトタイプのオーディオオブジェクトの数に関して高度なフレキシビリティを提供する。
好ましい実施形態において、オブジェクトセパレータは、第1のオーディオオブジェクトタイプのNeao個のオーディオオブジェクトに関するオブジェクト関連パラメータ情報を用い、第1のオーディオ情報として、第1のオーディオオブジェクトタイプのNeao個のオーディオオブジェクトを表す(好ましくは、個々に)Neao個のオーディオ信号を取得し、第2のオーディオオブジェクトタイプのN−Neao個のオーディオオブジェクトを単一の1チャンネルまたは2チャンネルのオーディオオブジェクトとして取り扱い、第2のオーディオ情報として、第2のオーディオオブジェクトタイプのN−Neao個のオーディオオブジェクトを表す1つまたは2つのオーディオ信号を取得するように構成される。オーディオ信号プロセッサは、第2のオーディオオブジェクトタイプのN−Neao個のオーディオオブジェクトに関するオブジェクト関連パラメータ情報を用いて、第2のオーディオ情報の1つまたは2つのオーディオ信号によって表されたN−Neao個のオーディオオブジェクトを個々にレンダリングするように構成される。したがって、第1のオーディオオブジェクトタイプのオーディオオブジェクトと第2のオーディオオブジェクトタイプのオーディオオブジェクトの間のオーディオオブジェクトの分離は、第2のオーディオオブジェクトタイプのオーディオオブジェクトのその後の処理から分離される。
本発明に係る実施形態は、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法を構築する。
本発明に係る他の実施形態は、前記方法を実行するコンピュータプログラムを構築する。
本発明に係る実施形態は、以下の図面を参照して、引き続いて記載される。
本発明の一実施形態に係るオーディオ信号デコーダの概略ブロック図を示す。 本発明の一実施形態に係る他のオーディオ信号デコーダの概略ブロック図を示す。 本発明の一実施形態においてオブジェクトセパレータとして用いることができる残余プロセッサの概略ブロック図を示す。 本発明の一実施形態においてオブジェクトセパレータとして用いることができる残余プロセッサの概略ブロック図を示す。 本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。 本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。 本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。 本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。 本発明の一実施形態に係るオーディオ信号デコーダにおいて用いることができるオーディオ信号プロセッサの概略ブロック図を示す。 SAOCトランスコーダ処理モードのブロック図である。 SAOCデコーダ処理モードのブロック図である。 本発明の一実施形態に係るオーディオ信号デコーダの概略ブロック図を示す。 本発明の一実施形態に係る他のオーディオ信号デコーダの概略ブロック図を示す。 リスニングテスト計画説明書を表す表である。 テスト中のシステムを表す表である。 リスニングテスト項目とレンダリングマトリックスを表す表である。 カラオケ/ソロタイプのレンダリングのリスニングテストに対する平均MUSHRAスコアのグラフィック表現である。 クラシックのレンダリングのリスニングテストに対する平均MUSHRAスコアのグラフィック表現である。 本発明の一実施形態に係るアップミックス信号表現を提供する方法のフローチャートである。 引用例のMPEG‐SAOCシステムの概略ブロック図である。 分離したデコーダとミキサーを用いた引用例のSAOCシステムの概略ブロック図である。 統合化されたデコーダとミキサーを用いた引用例のSAOCシステムの概略ブロック図を示す。 SOACからMPEGへのトランスコーダを用いた引用例のSAOCシステムの概略ブロック図である。 カスケード化されたエンコーダの概略ブロック図である。
1.図1に係るオーディオ信号デコーダ
図1は、本発明の一実施形態に係るオーディオ信号デコーダ100の概略ブロック図を示す。
オーディオ信号デコーダ100は、オブジェクト関連パラメータ情報110とダウンミックス信号表現112を受信するように構成される。オーディオ信号デコーダ100は、ダウンミックス信号表現とオブジェクト関連パラメータ情報110に基づいてアップミックス信号表現120を提供するように構成される。オーディオ信号デコーダ100は、ダウンミックス信号表現112を分解し、ダウンミックス信号表現112に基づき、オブジェクト関連パラメータ情報110の少なくとも一部を用いて、第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第1のセットを記述する第1のオーディオ情報132と、第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第2のセットを記述する第2のオーディオ情報134を提供するように構成された、オブジェクトセパレータ130備える。オーディオ信号デコーダ100は、また、第2のオーディオ情報134を受信し、第2のオーディオ情報を、オブジェクト関連パラメータ情報112の少なくとも一部に基づいて処理し、第2のオーディオ情報134の処理されたバージョン142を取得するように構成された、オーディオ信号プロセッサ140を備える。オーディオ信号デコーダ100は、また、第1のオーディオ情報132を第2のオーディオ情報134の処理されたバージョン142と結合し、アップミックス信号表現120を取得するように構成された、オーディオ信号コンバイナ150を備える。
オーディオ信号デコーダ100は、第1のオーディオオブジェクトタイプのオーディオオブジェクトと第2のオーディオオブジェクトタイプのオーディオオブジェクトを結合された方法で表すダウンミックス信号表現のカスケード化された処理を実行する。
オブジェクトセパレータ130によって実行される第1の処理ステップにおいて、第2のオーディオオブジェクトタイプのオーディオオブジェクトの第2のセットを記述する第2のオーディオ情報は、オブジェクト関連パラメータ情報110を用いて、第1のオーディオオブジェクトタイプのオーディオオブジェクトの第1のセットを記述する第1のオーディオ情報132から分離される。しかしながら、第2のオーディオ情報134は、通常は、第2のオーディオオブジェクトタイプのオーディオオブジェクトを結合された方法で記述するオーディオ情報(例えば、1チャンネルのオーディオ信号または2チャンネルのオーディオ信号)である。
第2の処理ステップにおいて、オーディオ信号プロセッサ140は、オブジェクト関連パラメータ情報に基づいて第2のオーディオ情報134を処理する。したがって、オーディオ信号プロセッサ140は、第2のオーディオ情報134によって記述され、オブジェクトセパレータ130によって通常は実行されないオブジェクト個々の処理、または第2のオーディオオブジェクトタイプのオーディオオブジェクトのレンダリングを実行することができる。
このように、第2のオーディオオブジェクトタイプのオーディオオブジェクトは、好ましくはオブジェクトセパレータ130によってオブジェクト個々の方法では処理されないが、第2のオーディオオブジェクトタイプのオーディオオブジェクトは、実際、オーディオ信号プロセッサ140によって実行される第2の処理ステップにおいて、オブジェクト個々の方法で処理される(例えば、オブジェクト個々の方法でレンダリングされる)。このように、オブジェクトセパレータ130によって実行される第1のオーディオオブジェクトタイプのオーディオオブジェクトと第2のオーディオオブジェクトタイプのオーディオオブジェクトの分離は、第2のオーディオオブジェクトタイプのオーディオオブジェクトのオブジェクト個々の処理から分離され、オーディオ信号プロセッサ140によってその後実行される。したがって、オブジェクトセパレータ130によって実行される処理は、第2のオーディオオブジェクトタイプのオーディオオブジェクトの数から実質的に独立している。加えて、第2のオーディオ情報134のフォーマット(例えば、1チャンネルのオーディオ信号または2チャンネルのオーディオ信号)は、第2のオーディオオブジェクトタイプのオーディオオブジェクトの数から通常は独立している。このように、第2のオーディオオブジェクトタイプのオーディオオブジェクトの数は、オブジェクトセパレータ130の構造を修正する必要なしに変化させることができる。言い換えれば、第2のオーディオオブジェクトタイプのオーディオオブジェクトは、オブジェクトセパレータ140によって共通のオブジェクト関連パラメータ情報(例えば、1つまたは2つのオーディオチャンネルに関する共通のオブジェクトレベル差値)が取得される単一の(例えば、1チャンネルまたは2チャンネルの)オーディオオブジェクトとして取り扱われる。
したがって、図1に係るオーディオ信号デコーダ100は、オブジェクトセパレータ130の構造の修正なしに、第2のオーディオオブジェクトタイプのオーディオオブジェクトのいろいろな数を取扱うことができる。加えて、オブジェクトセパレータ130とオーディオ信号プロセッサ140によって、異なるオーディオオブジェクト処理アルゴリズムを適用することができる。したがって、例えば、オブジェクトセパレータ130によって残余情報を用いてオーディオオブジェクトの分離を実行することが可能であり、それは、オブジェクトの分離品質の改善に対するサイド情報を構成する残余情報を利用して、異なるオーディオオブジェクトの特に良好な分離を可能にする。対照的に、オーディオ信号プロセッサ140は、残余情報を用いることなしにオブジェクト個々の処理を実行することができる。例えば、オーディオ信号プロセッサ140は、従来の空間オーディオオブジェクト符号化(SAOC)タイプのオーディオ信号処理を実行し、異なるオーディオオブジェクトをレンダリングするように構成することができる。
2.図2に係るオーディオ信号デコーダ
以下に、本発明の一実施形態に係るオーディオ信号デコーダ200が記載される。このオーディオ信号デコーダ200の概略ブロック図が図2に示される。
オーディオデコーダ200は、ダウンミックス信号210と、いわゆるSAOCビットストリーム212と、レンダリングマトリックス情報214と、オプションとして頭部に関する伝達関数(HRTF)パラメータ216を受信するように構成される。オーディオ信号デコーダ200は、また、出力/MPSダウンミックス信号220と、(オプションとして)MPSビットストリーム222を提供するように構成される。
2.1 オーディオ信号デコーダ200の入力信号と出力信号
以下に、オーディオデコーダ200の入力信号と出力信号に関するさまざまな詳細が記載される。
ダウンミックス信号200は、例えば、1チャンネルのオーディオ信号または2チャンネルのオーディオ信号とすることができる。ダウンミックス信号210は、例えば、ダウンミックス信号の符号化された表現から導き出すことができる。
空間オーディオオブジェクト符号化ビットストリーム(SAOCビットストリーム)212は、例えば、オブジェクト関連パラメータ情報を備えることができる。例えば、SAOCビットストリーム212は、オブジェクトレベル差情報を例えばオブジェクトレベル差パラメータOLD(オブジェクト間相関情報)の形で、オブジェクト間相関情報を例えばオブジェクト間相関パラメータIOCの形で、備えることができる。
加えて、SAOCビットストリーム212は、ダウンミックス信号がダウンミックスプロセスを用いて複数のオーディオオブジェクト信号に基づいてどのように提供されたかを記述するダウンミックス情報を備えることができる。例えば、SAOCビットストリームは、ダウンミックスゲインパラメータDMGと、(オプションとして)ダウンミックスチャンネルレベル差パラメータDCLDを備えることができる。
レンダリングマトリックス情報214は、例えば、異なるオーディオオブジェクトがオーディオデコーダによってどのようにレンダリングされるかについて記述することができる。例えば、レンダリングマトリックス情報214は、オーディオオブジェクトの出力/MPSダウンミックス信号220の1つ以上のチャンネルへの割当てを記述することができる。
オプションの頭部に関する伝達関数(HRTF)パラメータ情報216は、更に、バイノーラルヘッドホン信号を導き出す伝達関数を記述することができる。
出力/MPEGサラウンドダウンミックス信号(簡単に「出力/MPSダウンミックス信号」でも示される)220は、1つ以上のオーディオチャンネルを例えば時間領域オーディオ信号表現または周波数領域オーディオ信号表現の形で表す。単独で、または出力/MPSダウンミックス信号220の複数のオーディオチャンネル上へのマッピングを記述するMPEGサラウンドパラメータを備えるオプションのMPEGサラウンドビットストリーム(MPSビットストリーム)222とともに、アップミックス信号表現が形成される。
2.2 オーディオ信号デコーダ200の構成と機能
以下に、SAOCトランスコーダの機能またはSAOCデコーダの機能を果たすことができるオーディオ信号デコーダ200の構成が更に詳細に記載される。
オーディオ信号デコーダ200は、ダウンミックス信号210を受信し、それに基づいて出力/MPSダウンミックス信号220を提供するように構成された、ダウンミックスプロセッサ230を備える。ダウンミックスプロセッサ230は、また、SAOCビットストリーム情報212の少なくとも一部と、レンダリングマトリックス情報214の少なくとも一部を受信するように構成される。加えて、ダウンミックスプロセッサ230は、また、パラメータプロセッサ250から処理されたSAOCパラメータ情報240を受信することができる。
パラメータプロセッサ250は、SAOCビットストリーム情報212と、レンダリングマトリックス情報214と、オプションとして頭部に関する伝達関数パラメータ情報260を受信し、それに基づいて、MPEGサラウンドパラメータを担持しているMPEGサラウンドビットストリーム222を(MPEGサラウンドパラメータが必要とされ、それが、例えば変換符号化動作モードにおいて真である場合に)提供するように構成される。加えて、パラメータプロセッサ250は、処理されたSAOC情報240を(この処理されたSAOC情報が必要とされる場合に)提供する。
以下に、ダウンミックスプロセッサ230の構造と機能が更に詳細に記載される。
ダウンミックスプロセッサ230は、ダウンミックス信号210を受信し、それに基づいて、第1のオーディオオブジェクトタイプのオーディオオブジェクトとみなすことができるいわゆる拡張オーディオオブジェクト(EAO)を記述する第1のオーディオオブジェクト信号262を提供するように構成された、残余プロセッサ260を備える。第1のオーディオオブジェクト信号は、1つ以上のオーディオチャンネルを備えることができ、第1のオーディオ情報とみなすことができる。残余プロセッサ260は、また、第2のオーディオオブジェクトタイプのオーディオオブジェクトを記述し、第2のオーディオ情報とみなすことができる第2のオーディオオブジェクト信号264を提供するように構成される。第2のオーディオオブジェクト信号264は、1つ以上のチャンネルを備えることができ、通常は複数のオーディオオブジェクトを記述する1つまたは2つのオーディオチャンネルを備えることができる。通常は、第2のオーディオオブジェクト信号は、第2のオーディオオブジェクトタイプの2つを超えるオーディオオブジェクトでさえ記述することができる。
ダウンミックスプロセッサ230は、また、第2のオーディオオブジェクト信号264を受信し、それに基づいて、第2のオーディオ情報の処理されたバージョンとみなすことができる第2のオーディオオブジェクト信号264の処理されたバージョン272を提供するように構成された、SAOCダウンミックスプリプロセッサ270を備える。
ダウンミックスプロセッサ230は、また、第1のオーディオオブジェクト信号262と、第2のオーディオオブジェクト信号264の処理されたバージョン272を受信し、それに基づいて、単独で、または(オプションの)対応するMPEGサラウンドビットストリーム222とともに、アップミックス信号表現とみなすことができる出力/MPSダウンミックス信号220を提供するように構成された、オーディオ信号コンバイナ280を備える。
以下に、ダウンミックスプロセッサ230の個々のユニットの機能が更に詳細に述べられる。
残余プロセッサ260は、第1のオーディオオブジェクト信号262と第2のオーディオオブジェクト信号264を分離して提供するように構成される。このため、残余プロセッサ260は、SAOCビットストリーム情報212の少なくとも一部を適用するように構成することができる。例えば、残余プロセッサ260は、第1のオーディオオブジェクトタイプのオーディオオブジェクト、すなわち、いわゆる「拡張オーディオオブジェクト」EAOに関するオブジェクト関連パラメータ情報を評価するように構成することができる。加えて、残余プロセッサ260は、共通に第2のオーディオオブジェクトタイプのオーディオオブジェクト、例えば、いわゆる「非拡張オーディオオブジェクト」を共通に記述する総括情報を取得するように構成することができる。残余プロセッサ260は、また、SAOCビットストリーム情報212において、拡張オーディオオブジェクト(第1のオーディオオブジェクトタイプのオーディオオブジェクト)と非拡張オーディオオブジェクト(第2のオーディオオブジェクトタイプのオーディオオブジェクト)の分離のために提供される残余情報を評価するように構成することができる。残余情報は、例えば、拡張オーディオオブジェクトと非拡張オーディオオブジェクトの特にきれいな分離を得るために適用される時間領域残余信号を符号化することができる。加えて、残余プロセッサ260は、オプションとして、例えば、拡張オーディオオブジェクトの第1のオーディオオブジェクト信号262のオーディオチャンネルへの分配を決定するために、レンダリングマトリックス情報214の少なくとも一部を評価することができる。
SAOCダウンミックスプリプロセッサ270は、第2のオーディオオブジェクト信号264の1つ以上のオーディオチャンネルを受信し、それに基づいて、処理された第2のオーディオオブジェクト信号272の1つ以上(通常は2つ)のオーディオチャンネルを提供するように構成された、チャンネル再分配器274を備える。加えて、SAOCダウンミックスプリプロセッサ270は、第2のオーディオオブジェクト信号264の1つ以上のオーディオチャンネルを受信し、それに基づいて、第2のオーディオオブジェクト信号264の処理されたバージョン272を取得するためにチャンネル再分配器274によって提供された信号に加えられる1つ以上の非相関化信号278a、278bを提供する、非相関化信号プロバイダ276を備える。
SAOCダウンミックスプロセッサに関する更なる詳細が、以下で述べられる。
オーディオ信号コンバイナ280は、第1のオーディオオブジェクト信号262を第2のオーディオオブジェクト信号の処理されたバージョン272と結合する。このため、チャンネルワイズの結合を実行することができる。それゆえに、出力/MPSダウンミックス信号220が取得される。
パラメータプロセッサ250は、(オプションとして)SAOCビットストリームに基づいて、レンダリングマトリックス情報214とオプションとしてHRTFパラメータ情報216を考慮して、アップミックス信号表現のMPEGサラウンドビットストリーム222を形成するMPEGサラウンドパラメータを取得するように構成される。言い換えれば、SAOCパラメータプロセッサ252は、SAOCビットストリーム情報212によって記述されるオブジェクト関連パラメータ情報を、MPEGサラウンドビットストリーム222によって記述されるチャンネル関連パラメータ情報に変換するように構成される。
以下に、図2に示されるSAOCトランスコーダ/デコーダのアーキテクチャの簡単な概要が与えられる。空間オーディオオブジェクト符号化(SAOC)は、パラメトリック多重オブジェクト符号化技法である。それは、Mチャンネルを備えるオーディオ信号(例えば、ダウンミックスオーディオ信号210)におけるオーディオオブジェクトの数を送信するように設計される。この下位互換性を持つダウンミックス信号とともに、オリジナルのオブジェクト信号の再現と操作を可能にするオブジェクトパラメータが(例えば、SAOCビットストリーム情報212を用いて)送信される。SAOCエンコーダ(ここでは示されていない)は、その入力においてオブジェクト信号のダウンミックスを産出し、これらのオブジェクトパラメータを抽出する。取扱うことができるオブジェクトの数は、原則として制限されない。オブジェクトパラメータは、量子化され、SAOCビットストリーム212に能率的に符号化される。ダウンミックス信号210は、存在するコーダとインフラを更新する必要なしに圧縮し、送信することができる。オブジェクトパラメータ、あるいはSAOCサイド情報は、低ビットレートのサイドチャンネル、例えば、ダウンミックスビットストリームの補助的データ部分において送信される。
デコーダ側において、入力オブジェクトは、復元され、再生チャンネルの一定数にレンダリングされる。各オブジェクトに対する再生レベルとパニング位置を含むレンダリング情報は、ユーザから供給されるかまたはSAOCビットストリームから(例えば、プリセット情報として)抽出することができる。レンダリング情報は、時間変化することができる。出力シナリオは、モノラルからマルチチャンネル(例えば、5.1)にわたることができ、入力オブジェクトの数とダウンミックスチャンネルの数の両方から独立している。オブジェクトのバイノーラルレンダリングは、仮想オブジェクト位置の方位角と仰角を含むことが可能である。オプションのイフェクトインターフェイスは、レベルとパニングの修正の他に、オブジェクト信号の高度な操作を可能にする。
オブジェクトは、それ自身モノラル信号、ステレオ信号、並びにマルチチャンネル信号(例えば5.1チャンネル)とすることができる。通常のダウンミックスの構成は、モノラルとステレオである。
以下に、図2に示されるSAOCトランスコーダ/デコーダの基本構成が説明される。ここで記載されたSAOCトランスコーダ/デコーダモジュールは、意図された出力チャンネルの配置に依存して、スタンドアロンのデコーダまたはSAOCからMPEGサラウンドビットストリームへのトランスコーダのいずれとしても機能することができる。第1の動作モードにおいて、出力信号の構成はモノラル、ステレオまたはバイノーラルであり、2つの出力チャンネルが用いられる。この第1のケースにおいて、SAOCモジュールは、デコーダモードで動作することができ、SAOCモジュールの出力はパルス符号化変調された出力(PCM出力)である。第1のケースにおいて、MPEGサラウンドデコーダは必要でない。むしろ、アップミックス信号表現は、出力信号220を備えるだけでよく、MPEGサラウンドビットストリーム222の供給は省略することができる。第2のケースにおいて、出力信号の構成は、2つを超える出力チャンネルを有するマルチチャンネル構成である。SAOCモジュールは、変換符号化モードで動作することができる。図2に示すように、SAOCモジュール出力は、この場合、ダウンミックス信号220とMPEGサラウンドビットストリーム222の両方を備えることができる。したがって、MPEGサラウンドデコーダは、スピーカによる出力に対して最終的なオーディオ信号表現を取得するために、必要とされる。
図2は、SAOCトランスコーダ/デコーダのアーキテクチャの基本構成を示す。残余プロセッサ216は、SAOCビットストリーム212に含まれる残余情報を用いて、入来するダウンミックス信号210から拡張オーディオオブジェクトを抽出する。ダウンミックスプリプロセッサ270は、定型のオーディオオブジェクト(それは、例えば、非拡張オーディオオブジェクト、すなわちSAOCビットストリーム212において残余情報が送信されないオーディオオブジェクト)を処理する。拡張オーディオオブジェクト(第1のオーディオオブジェクト信号262によって表された)と、処理された定型のオーディオオブジェクト(例えば、第2のオーディオオブジェクト信号264の処理されたバージョン272によって表された)は、SAOC復号化モードに対する出力信号220またはSAOC変換符号化モードに対するMPEGサラウンドダウンミックス信号220に結合される。処理ブロックの詳細な説明は以下に与えられる。
3.残余プロセッサとエネルギーモードプロセッサの構成と機能
以下に、例えば、オーディオ信号デコーダ100のオブジェクトセパレータ130のまたはオーディオ信号デコーダ200の残余プロセッサ260の機能を引き継ぐことができる残余プロセッサに関する詳細が記載される。このため、図3a、3bは、オブジェクトセパレータ130または残余プロセッサ260の代わりをすることができるそのような残余プロセッサ300の概略ブロック図を示す。図3aは、図3bより簡略化したものを示す。しかしながら、以下の記述は、図3aに係る残余プロセッサ300と、また図3bに係る残余プロセッサ380に適用される。
残余プロセッサ300は、図1のダウンミックス信号表現112または図2のダウンミックス信号表現210に相当することができるSAOCダウンミックス信号310を受信するように構成される。残余プロセッサ300は、それに基づいて、例えば、第1のオーディオ情報132または第1のオーディオオブジェクト信号262に相当することができる1つ以上の拡張オーディオオブジェクトを記述する第1のオーディオ情報320を提供するように構成される。また、残余プロセッサ300は、第2のオーディオ情報322は第2のオーディオ情報134または第2のオーディオオブジェクト信号264に相当することができる1つ以上の他のオーディオオブジェクト(例えば、残余情報を利用できない非拡張オーディオオブジェクト)を記述する第2のオーディオ情報322を提供することができる。
残余プロセッサ300は、SAOCダウンミックス信号310を受信し、かつSAOCデータと残余332を受信する1‐N/2‐Nユニット(OTN/TTNユニット)330を備える。1‐N/2‐Nユニット330は、また、SAOCダウンミックス信号310に含まれる拡張オーディオオブジェクト(EAO)を記述する拡張オーディオオブジェクト信号334を提供する。また、1‐N/2‐Nユニット330は、第2のオーディオ情報322を提供する。残余プロセッサ300は、また、拡張オーディオオブジェクト信号334とレンダリングマトリックス情報342を受信し、それに基づいて第1のオーディオ情報320を提供するレンダリングユニット340を備える。
以下に、残余プロセッサ300によって実行される拡張オーディオオブジェクト処理(EAO処理)が更に詳細に記載される。
3.1 残余プロセッサ300の動作の序論
残余プロセッサ300の機能に関して、SAOC技術は、オーディオオブジェクトの数の個々の操作を、それらのレベルの増幅/減衰に関して、結果として生じる音質の有意の減少なしに、非常に限られた方法においてのみ可能にすることに留意すべきである。特別な「カラオケタイプ」のアプリケーションシナリオは、背景音響シーンの知覚品質を損なわずに、特定のオブジェクト、通常はリードボーカルの全部(またはほぼ全部)を抑制することを必要とする。
通常のアプリケーションのケースは、例えば、2つの独立したステレオオブジェクト(例えば、デコーダ側で取り除かれる準備ができている2つの独立したステレオオブジェクト)を表すことができる最大4つの拡張オーディオオブジェクト(EAO)信号を含む。
(1つ以上の)品質拡張オーディオオブジェクト(あるいは、より正確に言うと、拡張オーディオオブジェクトに関するオーディオ信号貢献度)がSAOCダウンミックス信号310に含まれることに留意すべきである。通常は、(1つ以上の)拡張オーディオオブジェクトに関するオーディオ信号貢献度は、オーディオ信号エンコーダによって実行されるダウンミックス処理によって、拡張オーディオオブジェクトでない他のオーディオオブジェクトのオーディオ信号貢献度と混合される。また、複数の拡張オーディオオブジェクトのオーディオ信号貢献度が、オーディオ信号エンコーダによって実行されるダウンミックス処理によって、通常はオーバーラップされるかまたは混合されることに留意すべきである。
3.2 拡張オーディオオブジェクトをサポートするSOACアーキテクチャ
以下に、残余プロセッサ300に関する詳細が記載される。拡張オーディオオブジェクト処理は、SAOCダウンミックスモードに従って、1‐Nまたは2‐Nユニットを組み込む。1‐N処理ユニットは、モノラルのダウンミックス信号の専用であり、2‐N処理ユニットはステレオダウンミックス信号310の専用である。これらの両方のユニットは、ISO/IEC 23003‐1:2007で公知の2−2ボックス(TTTボックス)の一般的かつ拡張された修正を表す。エンコーダにおいて、定型のおよびEAO信号は、ダウンミックスに結合される。OTN−1/TTN−1処理ユニット(逆1‐N処理ユニットまたは逆2‐N処理ユニット)は、対応する残余信号を産出し、符号化するために使用される。
EAOおよび定型の信号は、OTN/TTNユニット330によって、SAOCサイド情報と組み込まれた残余信号を用いてダウンミックス310から復元される。復元されたEAO(それは、拡張オーディオオブジェクト信号334によって記述される)は、対応するレンダリングマトリックスの生成物(レンダリングマトリックス情報342によって記述される)とOTN/TTNユニットの結果として生じる出力を表す(あるいは提供する)レンダリングユニット340に供給される。定型のオーディオオブジェクト(それは、第2のオーディオ情報322によって記述される)は、更なる処理のために、SAOCダウンミックスプリプロセッサ、例えば、SAOCダウンミックスプリプロセッサ270に引き渡される。図3a、3bは、残余プロセッサの一般的な構造、すなわち、残余プロセッサのアーキテクチャを表す。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
いくつかの実施形態では、1つ以上のマルチチャンネルバックグラウンドオブジェクト(MBO)は、残余プロセッサ300によって同じように取り扱うことができる。
マルチチャンネルバックグラウンドオブジェクト(MBO)は、SAOCダウンミックスの一部であるMPSモノラルまたはステレオのダウンミックスである。マルチチャンネル信号の各チャンネルに対して個々のSAOCオブジェクトを用いることと対照的に、MBOは、SOACがマルチチャンネルオブジェクトをより効率的に取り扱うことを可能にするように用いることができる。MBOのケースにおいて、MBOのSAOCパラメータは、全てのアップミックスチャンネルよりもむしろダウンミックスチャンネルにのみ関係するので、SOACのオーバーヘッドはより低くなる。
3.3 更なる定義
3.3.1 信号とパラメータの次元数
以下に、異なる計算がどのくらいしばしば実行されるかについての理解を提供するために、信号とパラメータの次元数が簡潔に述べられる。
オーディオ信号は、すべてのタイムスロットnとすべてのハイブリッドサブバンド(それは、周波数サブバンドとすることができる)kに対して定められる。対応するSAOCパラメータは、各パラメータタイムスロットlと処理バンドmに対して定められる。ハイブリッドとパラメータ領域間のその後のマッピングは、表A.31 ISO/IEC 23003−1:2007で特定される。それ故、全ての計算は、特定の時間/バンドのインデックスに関して実行され、対応する次元数は、各導入された変数を意味する。
しかしながら、以下で、時間と周波数バンドのインデックスは、表記法を簡明に保つために、時々省略される。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
3.4 残余モードにおけるOTN/TTN要素の計算
以下に、通常は1つまたは2つのオーディオチャンネルを備えるSAOCダウンミックス信号310が、通常は1つ以上の拡張オーディオオブジェクトチャンネルと通常は1つまたは2つの定型のオーディオオブジェクトチャンネルを備える第2のオーディオ情報322を備える拡張オーディオオブジェクト信号334にどのようにマッピングされるかが議論される。
Figure 2012530952
Figure 2012530952
エネルギーベースの符合化/復号化手順は、ダウンミックス信号の非波形保持符号化に対して設計される。このように、対応するエネルギーモードに対するOTN/TTNアップミックスマトリックスは、特定の波形に依存せず、後で詳しく述べるように、入力オーディオオブジェクトの相対的なエネルギー分布を記述するだけである。
3.4.1 予測モード
Figure 2012530952
Figure 2012530952
3.4.1.1 ステレオダウンミックスモード(TTN)
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
3.4.1.2 モノラルダウンミックスモード(OTN)
以下に、拡張オーディオオブジェクト信号320(あるいは、代りに拡張オーディオオブジェクト信号334)と定型のオーディオオブジェクト信号322の導出が、SAOCダウンミックス信号310が信号チャンネルのみを備えるケースに対して記載される。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
3.4.1.3 逆拡張ダウンミックスマトリックスの計算
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
ここで、非量子化ダウンミックスパラメータDMGj、DCLDjは、例えば、パラメータサイド情報110またはSAOCビットストリーム212から取得される。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
マトリックスのエントリーcj,1(また、それに基づいてマトリックスのエントリーcj,1が計算される中間量)は、通常はダウンミックス信号がステレオダウンミックス信号である場合にのみ必要とされることに留意すべきである。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
ここで、非量子化オブジェクトパラメータOLDi、IOCi,jは、例えば、パラメータサイド情報110またはSAOCビットストリーム212から取得される。
Figure 2012530952
Figure 2012530952
これからわかるように、2つの共通のオブジェクトレベル差値OLDL、OLDRは、ステレオダウンミックス信号(それは、好ましくは2チャンネルの定型のオーディオオブジェクト信号を意味する)の場合に、定型のオーディオオブジェクトに対して演算される。対照的に、1つの共通のオブジェクトレベル差値OLDLのみは、1チャンネルの(モノラル)ダウンミックス信号(それは、好ましくは1チャンネルの定型のオーディオオブジェクト信号を意味する)の場合に、定型のオーディオオブジェクトに対して演算される。
これからわかるように、第1の(2チャンネルのダウンミックス信号の場合)または単独の(1チャンネルのダウンミックス信号の場合)共通のオブジェクトレベル差値OLDLは、オーディオオブジェクトインデックスiを有する定型のオーディオオブジェクトの貢献度を、SAOCダウンミックス信号310の左チャンネル(または単独のチャンネル)に合計することによって取得される。
第2の共通のオブジェクトレベル差値OLDR(それは、2チャンネルのダウンミックス信号の場合に用いられる)は、オーディオオブジェクトインデックスiを有する定型のオーディオオブジェクトの貢献度を、SAOCダウンミックス信号310の右チャンネルに合計することによって取得される。
定型のオーディオオブジェクト(オーディオオブジェクトインデックスi=0〜i=N−NEAO-1を有する)のSAOCダウンミックス信号710の左チャンネル信号(または単独のチャンネル信号)への貢献度OLDLは、例えば、SAOCダウンミックス信号310の左チャンネル信号を取得するときにオーディオオブジェクトインデックスiを有する定型のオーディオオブジェクトに適用されるダウンミックスゲインを記述するダウンミックスゲインdo,iと、値OLDiによって表されたオーディオオブジェクトiを有する定型のオーディオオブジェクトのオブジェクトレベルをも考慮に入れて演算される。
同様に、共通のオブジェクトレベル差値OLDRは、SAOCダウンミックス信号310の右チャンネル信号を形成するときにオーディオオブジェクトインデックスiを有する定型のオーディオオブジェクトに適用されるダウンミックスゲインを記述するダウンミックス係数d1,iと、オーディオオブジェクトインデックスiを有する定型のオーディオオブジェクトに関するレベル情報OLDiを用いて取得される。
これからわかるように、量PLo、PRo、PLoRo、PLoCo,j、PRoCo,jの計算式は、個々の定型のオーディオオブジェクトを区別せず、単に共通のオブジェクトレベル差値OLDL、OLDRを用いるだけであり、それにより、定型のオーディオオブジェクト(オーディオオブジェクトインデックスiを有する)を単一のオーディオオブジェクトとみなす。
また、定型のオーディオオブジェクトに関するオブジェクト間相関値IOCL,Rは、2つの定型のオーディオオブジェクトがある場合を除き、0にセットされる。
共分散マトリックスei,j(そして、eL,R)は、次のように定められる。
Figure 2012530952
Figure 2012530952
Figure 2012530952
3.4.2 エネルギーモード
以下において、拡張オーディオオブジェクト信号320と定型のオーディオオブジェクト(非拡張オーディオオブジェクト)信号322を分離するために用いることができ、SAOCダウンミックスチャンネル310の非波形保持オーディオ符号化と結合して用いることができる他のコンセプトが記載される。
言い換えれば、エネルギーベースの符合化/復号化手順は、ダウンミックス信号の非波形保存符号化に対して設計される。このように、対応するエネルギーモードに対するOTN/TTNアップミックスマトリックスは、特定の波形に依存せず、入力オーディオオブジェクトの相対的なエネルギー分布を記述するだけである。
また、「エネルギーモード」コンセプトとして示されるここで述べるコンセプトは、残余の信号情報の送信なしに用いることができる。
また、定型のオーディオオブジェクト(非拡張オーディオオブジェクト)は、1つまたは2つの共通のオブジェクトレベル差値OLDL、OLDRを有する単一の1チャンネルまたは2チャンネルのオーディオオブジェクトとして取り扱われる。
Figure 2012530952
3.4.2.1 ステレオダウンミックスモードに対するエネルギーモード
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
3.4.2.2 モノラルダウンミックスモード(OTN)に対するエネルギーモード
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
4.SAOCダウンミックスプリプロセッサのアーキテクチャと動作
以下に、SAOCダウンミックスプリプロセッサ270の動作が、いくつかの復号化モードといくつかの変換符号化モードに対して記載される。
4.1 復号化モードの動作
4.1.1 序論
以下に、各オーディオオブジェクトに関するSAOCパラメータとパニング情報(あるいはレンダリング情報)を用いて出力信号を取得する方法が記載される。SAOCデコーダ495は、図4gに示され、SAOCパラメータプロセッサ496とダウンミックスプロセッサ497から構成される。
SAOCデコーダ494は、定型のオーディオオブジェクトを処理するために用いることができ、それ故、ダウンミックス信号497aとして、第2のオーディオオブジェクト信号264または定型のオーディオオブジェクト信号322または第2のオーディオ情報134を受信することができることに留意すべきである。したがって、ダウンミックスプロセッサ497は、その出力信号497bとして、第2のオーディオオブジェクト信号264の処理されたバージョン272または第2のオーディオ情報134の処理されたバージョン142を提供することができる。したがって、ダウンミックスプロセッサ497は、SAOCダウンミックスプリプロセッサ270の役割またはオーディオ信号プロセッサ140の役割をすることができる。
SAOCパラメータプロセッサ496は、SAOCパラメータプロセッサ252の役割をすることができ、結果的にダウンミックス情報496aを提供する。
4.1.2 ダウンミックスプロセッサ
以下に、オーディオ信号プロセッサ140の一部であり、図2の実施形態において「SAOCダウンミックス・プレプロセッサ」270として示され、SAOCデコーダ495において497で示される、ダウンミックスプロセッサがより詳細に記載される。
SAOCシステムのデコーダモードに対して、ダウンミックスプロセッサ(ハイブリッドQMF領域において表された)の出力信号142、272、497bは、ISO/IEC 23003−1:2007に記載されたように、最終出力のPCM信号を与える対応する合成フィルタバンク(図1と2に示されない)に供給される。しかも、ダウンミックスプロセッサの出力信号142、272、497bは、通常は拡張オーディオオブジェクトを表す1つ以上のオーディオ信号132、262と結合される。この結合は、対応する合成フィルタバンク(ダウンミックスプロセッサの出力と拡張オーディオオブジェクトを表す1つ以上の信号を結合する結合信号が合成フィルタバンクへの入力であるように)の前に実行することができる。あるいは、ダウンミックスプロセッサの出力信号は、拡張オーディオオブジェクトを表す1つ以上のオーディオ信号と、合成フィルタバンク処理の後で結合することができる。したがって、アップミックス信号表現120、220は、QMF領域表現またはPCM領域表現(または他のいかなる適合する表現)のいずれかとすることができる。ダウンミックス処理は、例えば、モノラル処理、ステレオ処理、必要であればその後のバイノーラル処理を組み入れる。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
4.1.2.1 概要
以下に、ダウンミックス処理の概要が、図4a、4bを参照して与えられる。それはダウンミックス処理のブロック表現を示し、オーディオ信号プロセッサ140によって、またはSAOCパラメータプロセッサ252とSAOCダウンミックスプリプロセッサ270の組み合わせによって、あるいはSAOCパラメータプロセッサ496とウンミックスプロセッサ497の組合せによって実行することができる。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
4.1.2.2 モノラルからバイノーラル「x‐1‐b」の処理モード
以下に、定型のオーディオオブジェクトが単一のチャンネルダウンミックス信号134、264、322、497aによって表され、バイノーラルレンダリングが要求される処理モードが記載される。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
4.1.2.3 モノラルからステレオ「x‐1‐2」の処理モード
以下に、定型のオーディオオブジェクトが単一のチャンネル信号134、264、222によって表され、ステレオレンダリングが要求される処理モードが記載される。
Figure 2012530952
4.1.2.4 モノラルからモノラル「x‐1‐1」の処理モード
以下に、定型のオーディオオブジェクトが信号チャンネル134、264、322、497aよって表され、定型のオーディオオブジェクトの2チャンネルのレンダリングが要求される処理モードが記載される。
Figure 2012530952
4.1.2.5 ステレオからバイノーラル「x‐2‐b」の処理モード
以下に、定型のオーディオオブジェクトが2チャンネル信号134、264、322、497aによって表され、定型のオーディオオブジェクトのバイノーラルレンダリングが要求される処理モードが記載される。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
4.1.2.6 ステレオからステレオ「x‐2‐2」の処理モード
以下に、定型のオーディオオブジェクトが2チャンネル(ステレオの)の信号134、264、322、497aによって記述され、2チャンネル(ステレオの)レンダリングが要求される処理モードが記載される。
ステレオ出力のケースでは、4.2.2.3章で後述されるステレオ前処理が直接適用される。
4.1.2.7 ステレオからモノラル「x−2−1」の処理モード
以下に、定型のオーディオオブジェクトが2チャンネル(ステレオ)の信号134、264、322、497aによって表され、1チャンネルの(モノラル)レンダリングが要求される処理モードが記載される。
モノラル出力のケースでは、ステレオ前処理は、4.2.2.3章で後述されるように、単一の作動中のレンダリングマトリックスエントリーによって適用される。
4.1.2.8 結論
再び図4a、4bを参照して、拡張オーディオオブジェクトと定型のオーディオオブジェクトの分離の後の定型のオーディオオブジェクトを表す1チャンネルまたは2チャンネル信号134、264、322、497aに適用することができる処理が記載される。図4aと4bは、処理を図解説明するものであって、図4aと4bの処理は、オプションのパラメータ調整が異なる処理ステージで導入されるという点で異なる。
4.2 変換符号化モードの動作
4.2.1 序論
以下に、標準の対応するMPEGサラウンドビットストリーム(MPSビットストリーム)における各オーディオオブジェクト(あるいは、好ましくは、各定型のオーディオオブジェクト)に関するSAOCパラメータとパニング情報(あるいはレンダリング情報)の結合の方法が説明される。
SAOCトランスコーダ490は、図4fに示され、SAOCパラメータプロセッサ491とステレオダウンミックスに適用されるダウンミックスプロセッサ492から構成される。
SAOCトランスコーダ490は、例えば、オーディオ信号プロセッサ140の機能を引き継ぐことができる。あるいは、SAOCトランスコーダ490は、SAOCパラメータプロセッサ252と結合されるときに、SAOCダウンミックスプリプロセッサ270の機能を引き継ぐことができる。
例えば、SAOCパラメータプロセッサ491は、オブジェクト関連パラメータ情報110またはSAOCビットストリーム212に相当するSAOCビットストリーム491aを受信することができる。また、SAOCパラメータプロセッサ491は、オブジェクト関連パラメータ情報110に含めることができる、あるいはレンダリングマトリックス情報214に相当することができるレンダリングマトリックス情報491bを受信することができる。SAOCパラメータプロセッサ491は、また、情報240に相当することができるダウンミックス処理情報491cをダウンミックスプロセッサ492に提供することができる。さらに、SAOCパラメータプロセッサ491は、MPEGサラウンド標準と互換性があるパラメータサラウンド情報を備える、MPEGサラウンドビットストリーム(あるいはMPEGサラウンドパラメータビットストリーム)491dを提供することができる。MPEGサラウンドビットストリーム491dは、例えば、第2のオーディオ情報の処理されたバージョン142の一部とすることができる、あるいは、例えば、MPSビットストリーム222の一部または代わりをすることができる。
ダウンミックスプロセッサ492は、好ましくは1チャンネルのダウンミックス信号または2チャンネルのダウンミックス信号であり、好ましくは第2のオーディオ情報134または第2のオーディオオブジェクト信号264、322に相当する、ダウンミックス信号492aを受信するように構成される。ダウンミックスプロセッサ492は、また、第2のオーディオ情報134の処理されたバージョンに相当する、あるいは142に等しいか、第2のオーディオオブジェクト信号264の処理されたバージョン272(またはその一部)に相当する、MPEGサラウンドダウンミックス信号492bを提供することができる。
しかしながら、MPEGサラウンドダウンミックス信号492bを拡張オーディオオブジェクト信号132、262と結合する異なる方法がある。結合は、MPEGサラウンド領域において実行することができる。
代替として、しかしながら、定型のオーディオオブジェクトの、MPEGサラウンドパラメータビットストリーム491dとMPEGサラウンドダウンミックス信号492bを備えるMPEGサラウンド表現は、MPEGサラウンドデコーダによって、マルチチャンネル時間領域表現またはマルチチャンネル周波数領域表現(個々に異なるオーディオチャンネルを表す)に逆変換することができ、その後拡張オーディオオブジェクト信号と結合することができる。
変換符号化モードは、1つ以上のモノラルダウンミックス処理モードと1つ以上のステレオダウンミックス処理モードの両方を備えることに留意すべきである。しかしながら、定型のオーディオオブジェクト信号の処理は、ステレオダウンミックス処理モードにおいてより精巧であるので、以下で、ステレオダウンミックス処理モードのみが記載される。
4.2.2 ステレオダウンミックス(「x‐2‐5」)の処理モードにおけるダウンミックス処理
4.2.2.1 序論
以下のセクションにおいて、ステレオダウンミックスケースに対するSAOC変換符号化モードの記述が与えられる。
SAOCビットストリームからのオブジェクトパラメータ(オブジェクトレベル差OLDと、オブジェクト間相関IOCと、ダウンミックスゲインDMGと、ダウンミックスチャンネルレベル差DCMD)は、レンダリング情報に従って、MPEGサラウンドビットストリームに対する空間(好ましくはチャンネル関連)パラメータ(チャンネルレベル差CLD、チャンネル間相関ICC、チャンネル予測係数CPC)に変換符号化される。ダウンミックスは、オブジェクトパラメータとレンダリングマトリックスに従って修正される。
ここで図4c、4d、4eを参照して、特にダウンミックス修正における処理の概要が与えられる。
Figure 2012530952
以下に、MPEGサラウンドパラメータを取得するために実行されるオブジェクトエネルギーのレンダリングが述べられる。また、定型のオーディオオブジェクトを表す第2のオーディオ情報134、264、492aの処理されたバージョン142、272、492bを取得するために実行されるステレオ処理が記載される。
4.2.2.2 オブジェクトエネルギーのレンダリング
Figure 2012530952
変換符号化プロセスは、概念的に2つの部分に分けることができる。1つの部分において、3チャンネルのレンダリングが、左側と、右側と、中心チャンネルに対して実行される。このステージにおいて、MPSデコーダに対するダウンミックス修正のためのパラメータ並びにTTTボックスのための予測パラメータが取得される。他の部分において、正面とサラウンドチャンネルの間(OTTパラメータ、左側正面−左側サラウンド、右側正面−右側サラウンド)のレンダリングに対するCLDとICCパラメータが決定される。
4.2.2.2.1 左側、右側、中心のチャンネルへのレンダリング
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
4.2.2.2.2 正面とサラウンドチャンネル間のレンダリング
Figure 2012530952
Figure 2012530952
4.2.2.3 ステレオ処理
以下に、定型のオーディオオブジェクト信号134から64、322のステレオ処理が記載される。ステレオ処理は、定型のオーディオオブジェクトの2チャンネル表現に基づいて、一般的な表現142、272に対するプロセスを導き出すために用いられる。
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
4.2.2.4 デュアルモード
Figure 2012530952
Figure 2012530952
Figure 2012530952
Figure 2012530952
5.複合EKS‐SAOC復号化/変換符号化モード、図10に係るエンコーダ、および図5a、5bに係るシステム
以下に、複合EKS‐SAOC処理スキームの簡単な説明が与えられる。EKS処理が、カスケード化されたスキームによって、定型のSAOC復号化/変換符号化チェーンに統合された、好ましい「複合EKS‐SAOC」処理スキームが提案される。
5.1 図5に係るオーディオ信号エンコーダ
第1ステップにおいて、EKS処理(拡張カラオケ/ソロ処理)にささげられたオブジェクトは、フォアグラウンドオブジェクト(FGO)として識別され、それらの数NFGO(NEAOとしても表される)は、ビットストリーム変数「bsNumGroupsFGO」によって決定される。前記ビットストリーム変数は、上述のように、例えば、SAOCビットストリームに含めることができる。
ビットストリームの生成(オーディオ信号エンコーダにおける)に対して、全ての入力オブジェクトのパラメータNobjは、フォアグラウンドオブジェクトFGOが、いずれの場合においても、最後のNFGO(あるいは代替として、NEAO)個のパラメータ、例えば、[Nobj−NFGO≦i≦Nobj−1]に対するOLDiを備えるように、リオーダーされる。
例えば、バックグラウンドオブジェクトBGOまたは非拡張オーディオオブジェクトである残留オブジェクトから、同時にバックグラウンドオブジェクトBGOとして供される「定型のSAOCスタイル」のダウンミックス信号が生成される。次に、バックグラウンドオブジェクトとフォアグラウンドオブジェクトは「EKS処理スタイル」においてダウンミックスされ、残余情報は各フォアグラウンドオブジェクトから抽出される。このように、余分の処理ステップが導入される必要はない。従って、ビットストリーム構文の変更は、要求されない。
言い換えれば、非拡張オーディオオブジェクトは、エンコーダ側で拡張オーディオオブジェクトから区別される。定型のオーディオオブジェクト(非拡張オーディオオブジェクト)を表す1チャンネルまたは2チャンネルの定型のオーディオオブジェクトダウンミックス信号が提供され、1つ、2つまたはそれ以上の定型のオーディオオブジェクト(非拡張オーディオオブジェクト)が存在することができる。1チャンネルまたは2チャンネルの定型のオーディオオブジェクトダウンミックス信号は、次に、1つ以上の拡張オーディオオブジェクト信号(例えば、1チャンネルの信号または2チャンネルの信号とすることができる)と結合され、拡張オーディオオブジェクトのオーディオ信号と定型のオーディオオブジェクトダウンミックス信号を結合して共通のダウンミックス信号(例えば、1チャンネルのダウンミックス信号または2チャンネルのダウンミックス信号とすることができる)を取得する。
以下に、このようなカスケード化されたエンコーダの基本構成が、本発明の一実施形態に係るSAOCエンコーダ1000の概略ブロック図を示す図10を参照して簡潔に述べられる。SAOCエンコーダ1000は、通常は残余情報を提供しない第1のSAOCダウンミキサー1010を備える。SAOCダウンミキサー1010は、定型の(非拡張の)オーディオオブジェクトから複数のNBGO個のオーディオオブジェクト信号1012を受信するように構成される。また、SAOCダウンミキサー1010は、定型のオーディオオブジェクト1012に基づいて、定型のオーディオオブジェクトダウンミックス信号1014がダウンミックスパラメータに従って定型のオーディオオブジェクト信号1012を結合するように、定型のオーディオオブジェクトダウンミックス信号1014を提供するように構成される。SAOCダウンミキサー1010は、また、定型のオーディオオブジェクト信号とダウンミックスを記述する定型のオーディオオブジェクトSAOC情報1016を提供する。例えば、定型のオーディオオブジェクトSAOC情報1016は、SAOCダウンミキサー1010によって実行されるダウンミックスを記述する、ダウンミックスゲイン情報DMGとダウンミックスチャンネルレベル差情報DCLDを備えることができる。加えて、定型のオーディオオブジェクトSAOC情報1016は、定型のオーディオオブジェクト信号1012によって記述された定型のオーディオオブジェクト間の関係を記述する、オブジェクトレベル差情報とオブジェクト間相関情報を備えることができる。
エンコーダ1000は、また、通常は残余情報を提供するように構成される第2のSAOCダウンミキサー1020を備える。第2のSAOCダウンミキサー1020は、好ましくは、1つ以上の拡張オーディオオブジェクト信号1022を受信し、また定型のオーディオオブジェクトダウンミックス信号1014を受信するように構成される。
第2のSAOCダウンミキサー1020は、また、拡張オーディオオブジェクト信号1022と定型のオーディオオブジェクトダウンミックス信号1014に基づいて共通のSAOCダウンミックス信号1024を提供0するように構成される。共通のSAOCダウンミックス信号を提供するときに、第2のSAOCダウンミキサー1020は、通常は、定型のオーディオオブジェクトダウンミックス信号1014を単一の1チャンネルまたは2チャンネルのオブジェクト信号として取り扱う。
第2のSAOCダウンミキサー1020は、また、例えば、拡張オーディオオブジェクトに関するダウンミックスチャンネルレベル差値DCLDと、拡張オーディオオブジェクトに関するオブジェクトレベル差値OLDと、拡張オーディオオブジェクトに関するオブジェクト間相関値IOCを記述する拡張オーディオオブジェクトSAOC情報を提供するように構成される。加えて、第2のSAOC1020は、好ましくは、拡張オーディオオブジェクトに関する残余情報が、オリジナルの個々の拡張オーディオオブジェクト信号と、ダウンミックス情報DMG、DCLDおよびオブジェクト情報OLD、IOCを用いてダウンミックス信号から抽出することができる予測される個々の拡張オーディオオブジェクト信号との差を記述するように、拡張オーディオオブジェクトの各々に関する残余情報を提供するように構成される。
オーディオエンコーダ1000は、本願明細書に記載されたオーディオデコーダとの協調に対して適切である。
5.2 図5aに係るオーディオ信号デコーダ
以下に、図5aに概略ブロック図が示される複合EKS‐SAOCデコーダ500の基本構成が記載される。
図5aに係るオーディオデコーダ500は、ダウンミックス信号510と、SAOCビットストリーム情報512と、レンダリングマトリックス情報514を受信するように構成される。オーディオデコーダ500は、レンダリングされたフォアグラウンドオブジェクトを記述する第1のオーディオオブジェクト信号562と、バックグラウンドオブジェクトを記述する第2のオーディオオブジェクト信号564を提供するように構成された、拡張カラオケ/ソロ処理とフォアグラウンドオブジェクトレンダリング520を備える。フォアグラウンドオブジェクトは、例えば、いわゆる「拡張オーディオオブジェクト」とすることができ、バックグラウンドオブジェクトは、例えば、いわゆる「定型のオーディオオブジェクト」または「非拡張オーディオオブジェクト」とすることができる。オーディオデコーダ500は、また、第2のオーディオオブジェクト信号562を受信し、それに基づいて第2のオーディオオブジェクト信号564の処理されたバージョン572を提供するように構成された、定型のSAOC復号化570を備える。オーディオデコーダ500は、また、第1のオーディオオブジェクト信号562と第2のオーディオオブジェクト信号564の処理されたバージョン572を結合し、出力信号520を取得するように構成された、コンバイナ580を備える。
以下に、オーディオデコーダ500の機能がより詳細に述べられる。SAOC復号化/変換符号化サイドで、アップミックスプロセスは、ダウンミックス信号をバックグラウンドオブジェクト(BGO)とフォアグラウンドオブジェクト(FGO)を分解する、拡張カラオケ‐ソロ処理(EKS処理)を最初に備えるカスケード化されたスキームに結果としてなる。バックグラウンドオブジェクトに対する必要なオブジェクトレベル差(OLD)とオブジェクト間相関(IOC)は、次のようにオブジェクトとダウンミックス情報(それは、両方ともオブジェクト関連パラメータ情報であり、両方とも通常はSAOCビットストリームに含まれる)から導き出される。
Figure 2012530952
加えて、このステップ(通常はEKS処理とフォアグラウンドオブジェクトレンダリング520によって実行される)は、フォアグラウンドオブジェクトを最終出力にマッピングする(例えば、第1のオーディオオブジェクト信号562が、フォアグラウンドオブジェクトが1つ以上のチャンネルのそれぞれにマッピングされるマルチチャンネル信号であるように)ことを含む。バックグラウンドオブジェクト(通常は、複数のいわゆる「定型のオーディオオブジェクト」を備える)は、定型のSAOC復号化プロセスによって(あるいは、代替として、いくつかのケースにおいて、SAOC変換符号化プロセスによって)対応する出力チャンネルにレンダリングされる。このプロセスは、例えば、定型のSAOC復号化570によって実行することができる。最終の混合するステージ(例えばコンバイナ580)は、レンダリングされたフォアグラウンドオブジェクトとバックグラウンドオブジェクト信号の出力での所望の結合を提供する。
この複合EKS‐SAOCシステムは、定型のSAOCシステムとそのEKSモードの全ての有益な属性の組み合わせを表す。このアプローチは、クラシック(適度なレンダリング)とカラオケ/ソロ同様(極度のレンダリング)の再生シナリオに対して、同じビットストリームによって、提案システムを用いて対応するパフォーマンスを成し遂げることを可能にする。
5.3 図5bに係る一般化構成
以下に、複合EKS‐SAOCシステム590の一般化された構成が、このような一般化された複合EKS‐SAOCシステムの概略ブロック図を示す図5bを参照して記載される。図5bの複合EKS‐SAOCシステム590は、オーディオデコーダとみなすこともできる。
複合EKS‐SAOCシステム590は、ダウンミックス信号510aと、SAOCビットストリーム情報512aと、レンダリングマトリックス情報514aを受信するように構成される。また、複合EKS‐SAOCシステム590は、それらに基づいて、出力信号520aを提供するように構成される。
複合EKS‐SAOCシステム590は、ダウンミックス信号510aと、SAOCビットストリーム情報512a(または少なくともその一部)と、レンダリングマトリックス情報514a(または少なくともその一部)を受信するSAOCタイプの処理ステージI 520aを備える。特に、SAOCタイプの処理ステージI 520aは、第1ステージのオブジェクトレベル差値(OLD)を受信する。SAOCタイプの処理ステージI 520aは、オブジェクトの第1のセット(例えば、第1のオーディオオブジェクトタイプのオーディオオブジェクト)を記述する1つ以上の信号562aを提供する。
SAOCタイプの処理ステージI 520aは、また、オブジェクトの第2のセットを記述する1つ以上の信号564aを提供する。
複合EKS‐SAOCシステムは、また、オブジェクトの第2のセットを記述する1つ以上の信号564aを受信し、それに基づいて、SAOCビットストリーム情報512aに含まれる第2ステージのオブジェクトレベル差と、更にはレンダリングマトリックス情報514の少なくとも一部を用いて、オブジェクトの第3のセットを記述する1つ以上の信号572aを提供するように構成された、SAOCタイプの処理ステージII 570aを備える。複合EKS‐SAOCシステムは、また、例えば、加算器であって、オブジェクトの第1のセットを記述する1つ以上の信号562aとオブジェクトの第3のセット(オブジェクトの第2のセットの処理されたバージョンとすることができる)を記述する1つ以上の信号570aの信号を結合することによって出力信号520aを提供する、コンバイナ580aを備える。
上記を要約すると、図5bは、上記図5aを参照して記載された基本構成の、本発明の更なる実施形態における一般化された形を示す。
6.複合EKS‐SAOC処理スキームの知覚的評価
6.1 試験の手順、計画、項目
この主観的なリスニング試験は、高品質のリスニングを可能とするように設計された音響的に隔離されたリスニングルームにおいて行われた。再生は、ヘッドホン(Lake-people1のD/AコンバータとSTAXのSRMモニタを有するSTAXのSRM Lambda Pro)を用いてなされた。試験方法は、中間品質のオーディオの主観的評価のための「隠されたレファレンスとアンカーによる多数の刺激」(MUSHRA)法(引用文献7を参照)に基づいて、空間オーディオ検証試験において用いられる標準手順に従った。
合計8人のリスナーが、実施された試験に参加した。
全ての被検者は、経験豊かなリスナーと考えられることができる。MUSHRA法に従って、リスナーは、レファレンスに対する全ての試験条件を比較するように指示された。試験条件は、各試験項目に対して、かつ各リスナーに対して、自動的にランダム化された。
主観的な反応は、コンピュータベースのMUSHRAプログラムによって0から100の範囲のスケールで記録された。試験中の項目間の瞬間的なスイッチングは可能にされた。MUSHRA試験は、考慮されるSAOCモードの知覚的パフォーマンスと、リスニング試験計画書を提供する図6aの表に記載された提案システムを評価するために行われた。
対応するダウンミックス信号は、128kbpsのビットレートを有するAACコアコーダーを用いて符号化された。提案された複合EKS−SAOCシステムの知覚的品質を評価するために、それは定型のSAOC‐RMシステム(SAOC参照モデルシステム)、および試験中のシステムを記述する図6bの表に記載された2つの異なるレンダリング試験シナリオに対する現在のEKSモード(拡張カラオケソロモード)と比較される。
20kbpsのビットレートを有する残余の符号化が、現在のEKSモードと提案された複合EKS‐SAOCシステムに対して適用された。現在のEKSモードに対して、このモードは入力オブジェクトの数とタイプに関する制限を有するので、実際の符号化/復号化手順の前にステレオバックグラウンドオブジェクト(BGO)を生成する必要があることに留意すべきである。
実施された試験において用いられたリスニング試験の素材と、対応するダウンミックスと、レンダリングパラメータは、引用文献2に記載されたコールフォープロポーザル(CfP)のセットから選択された。「カラオケ」と「クラシック」のレンダリングアプリケーションシナリオに対する対応データは、リスニング試験項目とレンダリングマトリックスを記載する図6cの表に見ることができる。
6.2 リスニング試験結果
取得されたリスニング試験結果を示す図に関する簡単な概要は、図6dと6eに見ることができ、図6dは、カラオケ/ソロタイプのレンダリングリスニング試験に対する平均MUSHRAスコアを示し、図6eは、クラシックのレンダリングリスニング試験に対する平均MUSHRAスコアを示す。プロットは、全てのリスナーにわたる項目毎の平均MUSHRAの評定と、全ての評価された項目にわたる統計的平均値を関連する95%の信頼区間とともに示す。
以下の結論は、行われたリスニング試験の結果に基づいて出すことができる。
・図6dは、現在のEKSモードに対する、カラオケ-タイプのアプリケーションのための複合EKS−SAOCシステムとの比較を表す。全ての試験された項目に対して、これらの2つのシステム間のパフォーマンスにおける有意の差(統計的センスにおいて)はない。この観測から、複合EKS−SAOCシステムは、が能率的に、EKSモードのパフォーマンスに達する残余情報を効率的に利用することが可能であると結論づけることができる。定型のSAOCシステム(残余なし)のパフォーマンスは、他のシステムの両方より下回ることにも注目することができる。
・図6eは、現在の定型のSAOCの、クラシックのレンダリングシナリオに対する複合EKS‐SAOCシステムとの比較を表す。全ての試験された項目に対して、これらの2つのシステムのパフォーマンスは統計学的に同じである。これは、クラシックのレンダリングシナリオに対する複合EKS‐SAOCシステムの固有の機能を示す。
それ故、EKSモードを定型のSAOCと結合する提案された統合システムがレンダリングの対応するタイプに対する主観的オーディオ品質における効果を保持すると結論づけることができる。
提案された複合EKS‐SAOCシステムが、もはやBGOオブジェクトの制限を有さず、定型のSAOCモードの完全にフレキシブルなレンダリングの可能性を有し、全てのタイプのレンダリングに対して同じビットストリームを用いることができるという事実を考慮して、それをMPEG‐SAOC標準に組み込むことは有益であるように見える。
7.図7に係る方法
以下に、ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法が、このような方法のフローチャートを示す図7を参照して記載される。
方法700は、ダウンミックス信号表現を分解し、ダウンミックス信号表現とオブジェクト関連パラメータ情報の少なくとも一部に基づいて、第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第1のセットを記述する第1のオーディオ情報と、第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第2のセットを記述する第2のオーディオ情報を提供する、ステップ710を備える。方法700は、また、オブジェクト関連パラメータ情報に基づいて第2のオーディオ情報を処理し、第2のオーディオ情報の処理されたバージョンを取得する、ステップ720を備える。
方法700は、また、第1のオーディオ情報を第2のオーディオの処理されたバージョンと結合し、アップミックス信号表現を取得する、ステップ730を備える。
図7に係る方法700は、本願明細書において発明の装置に関して述べられた機能と関数のいずれかによって補充することができる。また、方法700は、発明の装置に関して述べられた効果をもたらす。
8.実施態様の変形例
装置の局面においていくつかの側面が記載されたが、これらの側面は対応する方法の記述をも表すことは明らかであり、ブロックまたはデバイスは方法ステップまたは方法ステップの特徴に対応する。同様に、方法ステップの局面において記載された側面は、対応する装置の対応するブロックまたは項目または特徴の記述をも表す。いくつかのまたは全ての方法ステップは、例えば、マイクロプロセッサ、プログラム可能なコンピュータまたは電子回路のようなハードウェア装置によって(あるいは用いて)実行することができる。いくつかの実施形態において、いくつかの1つ以上の最も重要な方法ステップは、このような装置によって実行することができる。
発明の符号化されたオーディオ信号は、デジタル記憶媒体に記憶することができ、または無線伝送媒体のような伝送媒体またはインターネットのような有線伝送媒体上を伝送することができる。
特定の実施要求に依存して、本発明の実施形態は、ハードウェアにおいてまたはソフトウェアにおいて実施することができる。実施は、その上に記憶される電子的に読取可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピューターシステムと協働する(または協働することができる、デジタル記憶媒体、例えばフロッピー(登録商標)、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROMまたはフラッシュメモリを用いて実行することができる。それ故、デジタル記憶媒体は、計算機読取可能とすることができる。
本発明に係るいくつかの実施形態は、本願明細書に記載された方法の1つが実行されるように、プログラム可能なコンピューターシステムと協働することができる、電子的に読取可能な制御信号を有するデータキャリアを備える。
一般に、本発明の実施形態は、コンピュータプログラム製品がコンピュータ上で動作するとき、本方法の1つを実行するために働くプログラムコードを有するコンピュータプログラム製品として実施することができる。プログラムコードは、例えば機械読取可能なキャリアに記憶することもできる。
他の実施形態は、機械読取可能なキャリアに記憶された、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備える。
言い換えれば、発明の方法の実施形態は、それ故、コンピュータプログラムがコンピュータ上で動作するとき、本願明細書に記載された方法の1つを実行するプログラムコードを有するコンピュータプログラムである。
発明の方法の更なる実施形態は、それ故、その上に記録された、本願明細書に記載された方法の1つを実行するコンピュータプログラムを備えるデータキャリア(またはデジタル記憶媒体、あるいはコンピュータ読取可能媒体)である。データキャリア、デジタル記憶媒体または記録された媒体は、通常は有形でありおよび/または伝送されない。
発明の方法の更なる実施形態は、それ故、本願明細書に記載された方法の1つを実行するコンピュータプログラムを表すデータストリームまたは信号のシーケンスである。データストリームまたは信号のシーケンスは、データ通信接続を介して、例えばインターネットを介して転送されるように構成することができる。
更なる実施形態は、本願明細書に記載された方法の1つを実行するように構成されたまたは適合された処理手段、例えばコンピュータ、あるいはプログラマブルロジックデバイスを備える。
更なる実施形態は、本願明細書に記載された方法の1つを実行するコンピュータプログラムがその上にインストールされたコンピュータを備える。
いくつかの実施形態では、本願明細書に記載された方法の機能のいくつかまたは全てを実行するために、プログラマブルロジックデバイス(例えばフィールドプログラマブルゲートアレイ)を用いることができる。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本願明細書に記載された方法の1つを実行するために、マイクロプロセッサと協働することができる。一般に、方法は、好ましくはいかなるハードウェア装置によっても実行される。
上述した実施形態は、単に本発明の原理に対して例証を示すものである。本願明細書に記載された構成と詳細の修正と変更は、他の当業者にとって明らかであると理解される。それ故、本発明は、特許クレームのスコープのみによって制限され、本願明細書の実施形態の記述と説明の方法によって表された特定の詳細によって制限されないことを意図する。
9.結論
以下に、本発明に係る複合EKS−SAOCシステムのいくつかの側面と効果が簡単に要約される。カラオケとソロの再生シナリオに対して、SAOC−EKS処理モードは、バックグラウンドオブジェクト/フォアグラウンドオブジェクトの排他的な再生とこれらのオブジェクトグループの任意の混合(レンダリングマトリックスによって定められる)の両方をサポートする。
また、最初のモードは、EKS処理の主たる目的であると考えられ、後者は、付加的なフレキシビリティを提供する。
EKS機能の一般化は、ために、EKSを定型のSAOC処理モードと結合し、1つの一体化システムを取得する労力を含むことが分かっている。このような一体化システムのポテンシャルは、次の通りである。
・1つの単一のクリアなSAOC復号化/変換符号化構造である
・EKSと定型のSAOCモードの両方に対する1つのビットストリームである
・SOAC符号化ステージの前にバックグラウンドオブジェクトを生成する必要がないように、バックグラウンドオブジェクト(BGO)を備える入力オブジェクトの数への制限がない
・カラオケ/ソロ再生状況の要求において拡張された知覚的品質を与えるフォアグラウンドオブジェクトに対する残余符号化をサポートする
これらの効果は、本願明細書に記載された一体化システムによって得ることができる。

Claims (34)

  1. ダウンミックス信号表現(112;210;510;510a)とオブジェクト関連パラメータ情報(110;212;512;512a))に基づいてアップミックス信号表現を提供するオーディオ信号デコーダ(100;200;500;590)であって、
    前記ダウンミックス信号表現を分解し、前記ダウンミックス信号表現に基づいて、第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第1のセットを記述する第1のオーディオ情報(132;262;562;562a)と、第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第2のセットを記述する第2のオーディオ情報(134;264;564;564a)を提供するように構成された、オブジェクトセパレータ(130;260;520;520a)と、
    前記第2のオーディオ情報(134;264;564;564a)を受信し、前記オブジェクト関連パラメータ情報に基づいて前記第2のオーディオ情報を処理し、前記第2のオーディオ情報の処理されたバージョン(142;272;572;572a)を取得するように構成された、オーディオ信号プロセッサと、
    前記第1のオーディオ情報を前記第2のオーディオ情報の処理されたバージョンと結合し、前記アップミックス信号表現を取得するように構成された、オーディオ信号コンバイナ(150;280;580;580a)とを備えた、
    オーディオ信号デコーダ。
  2. 前記ダウンミックス信号表現によって表されたオーディオオブジェクトのサブセットに関する残余情報に基づいて前記アップミックス信号表現を提供するように構成され、
    前記オブジェクトセパレータは、前記ダウンミックス信号表現を分解し、前記ダウンミックス信号表現に基づき、前記残余情報を用いて、残余情報が関連する第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第1のセットを記述する前記第1のオーディオ情報と、残余情報が関連しない第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第2のセットを記述する前記第2のオーディオ情報を提供するように構成された、
    請求項1に記載のオーディオ信号デコーダ。
  3. 前記オブジェクトセパレータは、前記第1のオーディオ情報において、前記第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトが、前記第2のオーディオオブジェクトタイプのオーディオオブジェクトを超えて強調されるように、前記第1のオーディオ情報を提供するように構成され、
    前記オブジェクトセパレータは、前記第2のオーディオ情報において、前記第2のオーディオオブジェクトタイプのオーディオオブジェクトが、前記第1のオーディオオブジェクトタイプのオーディオオブジェクトを超えて強調されるように、前記第2のオーディオ情報を提供するように構成された、
    請求項1または2に記載のオーディオ信号デコーダ。
  4. 前記オーディオ信号プロセッサ(140;270;570;570a)における前記第2のオーディオ情報の処理が、前記第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第1のセットを記述する前記第1のオーディオ情報と前記第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第2のセットを記述する前記第2のオーディオ情報の分離の後に実行されるように、2ステップ処理を実行するように構成された、請求項1〜3のいずれかに記載のオーディオ信号デコーダ。
  5. 前記オーディオ信号プロセッサは、前記第2のオーディオオブジェクトタイプのオーディオオブジェクトに関する前記オブジェクト関連パラメータ情報(110;212;512;512a)に基づき、前記第1のオーディオオブジェクトタイプのオーディオオブジェクトに関する前記オブジェクト関連パラメータ情報(110;212;512;512a)から独立して、前記第2のオーディオ情報(134;264;564;564a)を処理するように構成された、請求項1〜4のいずれかに記載のオーディオ信号デコーダ。
  6. Figure 2012530952
  7. Figure 2012530952
    Figure 2012530952
  8. Figure 2012530952
    Figure 2012530952
  9. Figure 2012530952
    Figure 2012530952
    Figure 2012530952
    Figure 2012530952
  10. Figure 2012530952
    Figure 2012530952
    請求項1〜6に記載のオーディオ信号デコーダ。
  11. Figure 2012530952
  12. Figure 2012530952
    Figure 2012530952
    Figure 2012530952
  13. Figure 2012530952
    Figure 2012530952
    Figure 2012530952
  14. 前記オブジェクトセパレータは、前記第1のオーディオ情報(132;262;562;562a)にレンダリングマトリックスを適用し、前記第1のオーディオ情報のオブジェクト信号を前記アップミックスオーディオ信号表現(120;220、222;562;562a)のオーディオチャンネルにマッピングするように構成された、請求項1〜13のいずれかに記載のオーディオ信号デコーダ。
  15. Figure 2012530952
  16. 前記オーディオ信号プロセッサ(140;270;570;570a)は、前記ステレオ処理を実行し、レンダリング情報と共分散情報に基づいて、前記第2のオーディオ情報(134;264;564;564a)の推定されたオーディオオブジェクト貢献度(ED*JX)を、前記アップミックスオーディオ信号表現の複数のチャンネルにマッピングするように構成された、請求項15に記載のオーディオ信号デコーダ。
  17. Figure 2012530952
  18. Figure 2012530952
  19. 前記オーディオ信号プロセッサは、前記第2のオーディオ情報のモノラルからバイノーラルへの処理を実行し、頭部に関する伝達関数を考慮に入れて、前記第2のオーディオ情報の単一のチャンネルを前記アップミックス信号表現の2つのチャンネルにマッピングするように構成された、請求項18に記載のオーディオ信号デコーダ。
  20. 前記オーディオ信号プロセッサは、前記第2のオーディオ情報のモノラルからステレオへの処理を実行し、前記第2のオーディオ情報の単一のチャンネルを前記アップミックス信号表現の2つのチャンネルにマッピングするように構成された、請求項18に記載のオーディオ信号デコーダ。
  21. 前記オーディオ信号プロセッサは、前記第2のオーディオ情報のステレオからバイノーラルへの処理を実行し、頭部に関する伝達関数を考慮に入れて、前記第2のオーディオ情報の2つのチャンネルを前記アップミックス信号表現の2つのチャンネルにマッピングするように構成された、請求項18に記載のオーディオ信号デコーダ。
  22. 前記オーディオ信号プロセッサは、前記第2のオーディオ情報のステレオからステレオへの処理を実行し、前記第2のオーディオ情報の2つのチャンネルを前記アップミックス信号表現の2つのチャンネルにマッピングするように構成された、請求項18に記載のオーディオ信号デコーダ。
  23. 前記オブジェクトセパレータは、残余情報が関連しない前記第2のオーディオオブジェクトタイプのオーディオオブジェクトを、単一のオーディオオブジェクトとして取り扱うように構成され、
    前記オーディオ信号プロセッサは、前記第2のオーディオオブジェクトタイプのオーディオオブジェクトに関するオブジェクトに特有のレンダリングパラメータを考慮し、前記第2のオーディオオブジェクトタイプのオーディオオブジェクトの貢献度を前記アップミックス信号表現に合わせるように構成された、請求項1〜22のいずれかに記載のオーディオ信号デコーダ。
  24. 前記オブジェクトセパレータは、前記第2のオーディオオブジェクトタイプの複数のオーディオオブジェクトに対して、1つまたは2つの共通のオブジェクトレベル差値(OLDL、OLDR)を取得するように構成され、
    前記オブジェクトセパレータは、チャンネル予測係数(CPC)の演算に対して、前記共通のオブジェクトレベル差値を用いるように構成され、
    前記オブジェクトセパレータは、前記チャンネル予測係数を用い、前記第2のオーディオ情報を表す1つまたは2つのオーディオチャンネルを取得するように構成された、請求項1〜23のいずれかに記載のオーディオ信号デコーダ。
  25. Figure 2012530952
  26. Figure 2012530952
  27. 前記オーディオ信号プロセッサは、前記オブジェクト関連パラメータ情報に基づいて前記第2のオーディオ情報をレンダリングし、前記第2のオーディオ情報の処理されたバージョンとして、前記第2のオーディオオブジェクトタイプのオーディオオブジェクトのレンダリングされた表現を取得するように構成された、請求項1〜26のいずれかに記載のオーディオ信号デコーダ。
  28. 前記オブジェクトセパレータは、前記第2のオーディオ情報が第2のオーディオオブジェクトタイプの2つを超えるオーディオオブジェクトを記述するように、前記第2のオーディオ情報を提供するように構成された、請求項1〜27のいずれかに記載のオーディオ信号デコーダ。
  29. 前記オブジェクトセパレータは、前記第2のオーディオ情報として、前記第2のオーディオオブジェクトタイプの2つを超えるオーディオオブジェクトを表す1チャンネルのオーディオ信号表現または2チャンネルのオーディオ信号表現を取得するように構成された、請求項28に記載のオーディオ信号デコーダ。
  30. 前記オーディオ信号プロセッサは、前記第2のオーディオ情報を受信し、前記第2のオーディオオブジェクトタイプの2つを超えるオーディオオブジェクトに関するオブジェクト関連パラメータ情報を考慮に入れて、前記オブジェクト関連パラメータ情報に基づいて前記第2のオーディオ情報を処理するように構成された、請求項1〜29のいずれかに記載のオーディオ信号デコーダ。
  31. 前記オブジェクト関連パラメータ情報の構成情報(SAOCSpecificConfig)から、トータルのオブジェクト数情報(bsNumObjects)とフォアグラウンドのオブジェクト数情報(bsNumGroupsFGO)を抽出し、前記トータルのオブジェクト数情報と前記フォアグラウンドのオブジェクト数情報の差を形成することによって、前記第2のオーディオオブジェクトタイプのオーディオオブジェクトの数を決定するように構成された、請求項1〜30のいずれかに記載のオーディオ信号デコーダ。
  32. Figure 2012530952
  33. ダウンミックス信号表現とオブジェクト関連パラメータ情報に基づいてアップミックス信号表現を提供する方法であって、
    前記ダウンミックス信号表現を分解し、前記ダウンミックス信号表現に基づき、前記オブジェクト関連パラメータ情報の少なくとも一部を用いて、第1のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第1のセットを記述する第1のオーディ情報と、第2のオーディオオブジェクトタイプの1つ以上のオーディオオブジェクトの第2のセットを記述する第2のオーディオ情報を取得するステップと、
    前記オブジェクト関連パラメータ情報に基づいて前記第2のオーディオ情報を処理し、前記第2のオーディオ情報の処理されたバージョンを取得するステップと、
    前記第1のオーディオ情報を前記第2のオーディオ情報の処理されたバージョンと結合するステップとを備えた、
    アップミックス信号表現を提供する方法。
  34. コンピュータプログラムがコンピュータ上で動作するときに、請求項33に記載された方法を実行する、コンピュータプログラム。
JP2012516716A 2009-06-24 2010-06-23 カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム Active JP5678048B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US22004209P 2009-06-24 2009-06-24
US61/220,042 2009-06-24
PCT/EP2010/058906 WO2010149700A1 (en) 2009-06-24 2010-06-23 Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages

Publications (2)

Publication Number Publication Date
JP2012530952A true JP2012530952A (ja) 2012-12-06
JP5678048B2 JP5678048B2 (ja) 2015-02-25

Family

ID=42665723

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012516716A Active JP5678048B2 (ja) 2009-06-24 2010-06-23 カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム

Country Status (20)

Country Link
US (1) US8958566B2 (ja)
EP (2) EP2446435B1 (ja)
JP (1) JP5678048B2 (ja)
KR (1) KR101388901B1 (ja)
CN (3) CN103474077B (ja)
AR (1) AR077226A1 (ja)
AU (1) AU2010264736B2 (ja)
BR (1) BRPI1009648B1 (ja)
CA (2) CA2766727C (ja)
CO (1) CO6480949A2 (ja)
ES (2) ES2524428T3 (ja)
HK (2) HK1180100A1 (ja)
MX (1) MX2011013829A (ja)
MY (1) MY154078A (ja)
PL (2) PL2446435T3 (ja)
RU (1) RU2558612C2 (ja)
SG (1) SG177277A1 (ja)
TW (1) TWI441164B (ja)
WO (1) WO2010149700A1 (ja)
ZA (1) ZA201109112B (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522445A (ja) * 2013-05-24 2016-07-28 ドルビー・インターナショナル・アーベー オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
JP2016527806A (ja) * 2013-07-22 2016-09-08 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 入力チャネル設定の複数の入力チャネルを出力チャネル設定の出力チャネルにマッピングするための方法及び信号処理装置
JP2016534667A (ja) * 2013-09-11 2016-11-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数の拡声器信号を非相関にする装置及び方法
JP2019032541A (ja) * 2013-07-22 2019-02-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現
US11115770B2 (en) 2013-07-22 2021-09-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel decorrelator, multi-channel audio decoder, multi channel audio encoder, methods and computer program using a premix of decorrelator input signals

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2576476C2 (ru) 2009-09-29 2016-03-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф., Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции
KR20120071072A (ko) * 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
TWI450266B (zh) * 2011-04-19 2014-08-21 Hon Hai Prec Ind Co Ltd 電子裝置及音頻資料的解碼方法
WO2013186344A2 (en) 2012-06-14 2013-12-19 Dolby International Ab Smooth configuration switching for multichannel audio rendering based on a variable number of received channels
MX342150B (es) * 2012-07-09 2016-09-15 Koninklijke Philips Nv Codificacion y decodificacion de señales de audio.
EP2690621A1 (en) * 2012-07-26 2014-01-29 Thomson Licensing Method and Apparatus for downmixing MPEG SAOC-like encoded audio signals at receiver side in a manner different from the manner of downmixing at encoder side
AR090703A1 (es) * 2012-08-10 2014-12-03 Fraunhofer Ges Forschung Codificador, decodificador, sistema y metodo que emplean un concepto residual para codificar objetos de audio parametricos
ES2595220T3 (es) * 2012-08-10 2016-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y métodos para adaptar información de audio a codificación de objeto de audio espacial
EP2717262A1 (en) 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-dependent zoom-transform in spatial audio object coding
EP2717261A1 (en) * 2012-10-05 2014-04-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for backward compatible multi-resolution spatial-audio-object-coding
CN108806706B (zh) * 2013-01-15 2022-11-15 韩国电子通信研究院 处理信道信号的编码/解码装置及方法
EP2757559A1 (en) * 2013-01-22 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for spatial audio object coding employing hidden objects for signal mixture manipulation
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
EP2956935B1 (en) 2013-02-14 2017-01-04 Dolby Laboratories Licensing Corporation Controlling the inter-channel coherence of upmixed audio signals
US9685163B2 (en) * 2013-03-01 2017-06-20 Qualcomm Incorporated Transforming spherical harmonic coefficients
WO2014171706A1 (ko) * 2013-04-15 2014-10-23 인텔렉추얼디스커버리 주식회사 가상 객체 생성을 이용한 오디오 신호 처리 방법
EP2804176A1 (en) * 2013-05-13 2014-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio object separation from mixture signal using object-specific time/frequency resolutions
CA3211308A1 (en) 2013-05-24 2014-11-27 Dolby International Ab Coding of audio scenes
EP3270375B1 (en) 2013-05-24 2020-01-15 Dolby International AB Reconstruction of audio scenes from a downmix
KR102033304B1 (ko) * 2013-05-24 2019-10-17 돌비 인터네셔널 에이비 오디오 오브젝트들을 포함한 오디오 장면들의 효율적 코딩
US10499176B2 (en) * 2013-05-29 2019-12-03 Qualcomm Incorporated Identifying codebooks to use when coding spatial components of a sound field
CN104240711B (zh) * 2013-06-18 2019-10-11 杜比实验室特许公司 用于生成自适应音频内容的方法、系统和装置
EP3014901B1 (en) * 2013-06-28 2017-08-23 Dolby Laboratories Licensing Corporation Improved rendering of audio objects using discontinuous rendering-matrix updates
EP2830049A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2840811A1 (en) 2013-07-22 2015-02-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for processing an audio signal; signal processing unit, binaural renderer, audio encoder and audio decoder
EP2830051A3 (en) 2013-07-22 2015-03-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, audio decoder, methods and computer program using jointly encoded residual signals
EP2830053A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a residual-signal-based adjustment of a contribution of a decorrelated signal
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
TWI634547B (zh) 2013-09-12 2018-09-01 瑞典商杜比國際公司 在包含至少四音訊聲道的多聲道音訊系統中之解碼方法、解碼裝置、編碼方法以及編碼裝置以及包含電腦可讀取的媒體之電腦程式產品
KR102244379B1 (ko) * 2013-10-21 2021-04-26 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
CN105637581B (zh) * 2013-10-21 2019-09-20 杜比国际公司 用于音频信号的参数重建的去相关器结构
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN106471575B (zh) * 2014-07-01 2019-12-10 韩国电子通信研究院 多信道音频信号处理方法及装置
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
MX370034B (es) 2015-02-02 2019-11-28 Fraunhofer Ges Forschung Aparato y método para procesar una señal de audio codificada.
CN111556426B (zh) 2015-02-06 2022-03-25 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
EP3324407A1 (en) 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
EP3324406A1 (en) * 2016-11-17 2018-05-23 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for decomposing an audio signal using a variable threshold
US10659906B2 (en) 2017-01-13 2020-05-19 Qualcomm Incorporated Audio parallax for virtual reality, augmented reality, and mixed reality
US10304468B2 (en) 2017-03-20 2019-05-28 Qualcomm Incorporated Target sample generation
US10469968B2 (en) 2017-10-12 2019-11-05 Qualcomm Incorporated Rendering for computer-mediated reality systems
FR3075443A1 (fr) * 2017-12-19 2019-06-21 Orange Traitement d'un signal monophonique dans un decodeur audio 3d restituant un contenu binaural
CN111630593B (zh) * 2018-01-18 2021-12-28 杜比实验室特许公司 用于译码声场表示信号的方法和装置
CN110890930B (zh) * 2018-09-10 2021-06-01 华为技术有限公司 一种信道预测方法、相关设备及存储介质
EP3874491B1 (en) 2018-11-02 2024-05-01 Dolby International AB Audio encoder and audio decoder
ES2969138T3 (es) 2018-12-07 2024-05-16 Fraunhofer Ges Forschung Aparato, método y programa informático para codificación, decodificación, procesamiento de escenas y otros procedimientos relacionados con codificación de audio espacial basada en dirac que utiliza compensación directa de componentes
CN114631142A (zh) * 2019-11-05 2022-06-14 索尼集团公司 电子设备、方法和计算机程序
US11368456B2 (en) 2020-09-11 2022-06-21 Bank Of America Corporation User security profile for multi-media identity verification
US11356266B2 (en) 2020-09-11 2022-06-07 Bank Of America Corporation User authentication using diverse media inputs and hash-based ledgers

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100261253B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 부호화/복호화 방법및 장치
WO1999048214A2 (en) * 1998-03-19 1999-09-23 Koninklijke Philips Electronics N.V. Transmitting device for transmitting a digital information signal alternately in encoded form and non-encoded form
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
EP1308931A1 (de) * 2001-10-23 2003-05-07 Deutsche Thomson-Brandt Gmbh Decodierung eines codierten digitalen Audio-Signals welches in Header enthaltende Rahmen angeordnet ist
US6742293B2 (en) 2002-02-11 2004-06-01 Cyber World Group Advertising system
EP1500084B1 (en) * 2002-04-22 2008-01-23 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
KR100524065B1 (ko) * 2002-12-23 2005-10-26 삼성전자주식회사 시간-주파수 상관성을 이용한 개선된 오디오 부호화및/또는 복호화 방법과 그 장치
JP2005202262A (ja) * 2004-01-19 2005-07-28 Matsushita Electric Ind Co Ltd 音声信号符号化方法、音声信号復号化方法、送信機、受信機、及びワイヤレスマイクシステム
KR100658222B1 (ko) * 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
EP1999997B1 (en) * 2006-03-28 2011-04-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Enhanced method for signal shaping in multi-channel audio reconstruction
EP3447916B1 (en) 2006-07-04 2020-07-15 Dolby International AB Filter system comprising a filter converter and a filter compressor and method for operating the filter system
EP2092516A4 (en) 2006-11-15 2010-01-13 Lg Electronics Inc METHOD AND APPARATUS FOR AUDIO SIGNAL DECODING
KR20080073926A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 오디오 신호를 복호화하는 장치에서 이퀄라이저를 구현하는방법 및 이를 위한 장치
JP5133401B2 (ja) 2007-04-26 2013-01-30 ドルビー・インターナショナル・アクチボラゲット 出力信号の合成装置及び合成方法
US20090051637A1 (en) 2007-08-20 2009-02-26 Himax Technologies Limited Display devices

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009049895A1 (en) * 2007-10-17 2009-04-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016522445A (ja) * 2013-05-24 2016-07-28 ドルビー・インターナショナル・アーベー オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ
US9818412B2 (en) 2013-05-24 2017-11-14 Dolby International Ab Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder
JP2016527806A (ja) * 2013-07-22 2016-09-08 フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. 入力チャネル設定の複数の入力チャネルを出力チャネル設定の出力チャネルにマッピングするための方法及び信号処理装置
JP2019032541A (ja) * 2013-07-22 2019-02-28 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ マルチチャネル・オーディオ・デコーダ、マルチチャネル・オーディオ・エンコーダ、レンダリングされたオーディオ信号を使用する方法、コンピュータ・プログラムおよび符号化オーディオ表現
US11115770B2 (en) 2013-07-22 2021-09-07 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel decorrelator, multi-channel audio decoder, multi channel audio encoder, methods and computer program using a premix of decorrelator input signals
US11240619B2 (en) 2013-07-22 2022-02-01 Fraunhofer-Gesellschaft zur Foerderang der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
US11252523B2 (en) 2013-07-22 2022-02-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
US11381925B2 (en) 2013-07-22 2022-07-05 Fraunhofer-Gesellschaft zur Foerderang der angewandten Forschung e.V. Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals
JP2016534667A (ja) * 2013-09-11 2016-11-04 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数の拡声器信号を非相関にする装置及び方法
US9807534B2 (en) 2013-09-11 2017-10-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Device and method for decorrelating loudspeaker signals

Also Published As

Publication number Publication date
SG177277A1 (en) 2012-02-28
HK1170329A1 (en) 2013-02-22
CA2766727C (en) 2016-07-05
CN103474077A (zh) 2013-12-25
BRPI1009648B1 (pt) 2020-12-29
MY154078A (en) 2015-04-30
EP2535892B1 (en) 2014-08-27
ES2524428T3 (es) 2014-12-09
MX2011013829A (es) 2012-03-07
CA2766727A1 (en) 2010-12-29
WO2010149700A1 (en) 2010-12-29
RU2012101652A (ru) 2013-08-20
TWI441164B (zh) 2014-06-11
HK1180100A1 (en) 2013-10-11
EP2446435A1 (en) 2012-05-02
BRPI1009648A2 (pt) 2016-03-15
CN103474077B (zh) 2016-08-10
CN102460573B (zh) 2014-08-20
EP2535892A1 (en) 2012-12-19
CN102460573A (zh) 2012-05-16
CA2855479A1 (en) 2010-12-29
PL2535892T3 (pl) 2015-03-31
AU2010264736A1 (en) 2012-02-16
CA2855479C (en) 2016-09-13
CN103489449B (zh) 2017-04-12
ES2426677T3 (es) 2013-10-24
AU2010264736B2 (en) 2014-03-27
TW201108204A (en) 2011-03-01
KR101388901B1 (ko) 2014-04-24
AR077226A1 (es) 2011-08-10
KR20120023826A (ko) 2012-03-13
RU2558612C2 (ru) 2015-08-10
US20120177204A1 (en) 2012-07-12
CN103489449A (zh) 2014-01-01
ZA201109112B (en) 2012-08-29
US8958566B2 (en) 2015-02-17
EP2446435B1 (en) 2013-06-05
PL2446435T3 (pl) 2013-11-29
JP5678048B2 (ja) 2015-02-25
CO6480949A2 (es) 2012-07-16

Similar Documents

Publication Publication Date Title
JP5678048B2 (ja) カスケード化されたオーディオオブジェクト処理ステージを用いたオーディオ信号デコーダ、オーディオ信号を復号化する方法、およびコンピュータプログラム
KR102230727B1 (ko) 광대역 정렬 파라미터 및 복수의 협대역 정렬 파라미터들을 사용하여 다채널 신호를 인코딩 또는 디코딩하기 위한 장치 및 방법
TWI550598B (zh) 使用聯合編碼殘餘信號之音訊編碼器、音訊解碼器、方法及電腦程式
TWI508578B (zh) 音訊編碼及解碼
JP5291227B2 (ja) オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
KR101120909B1 (ko) 멀티 채널 파라미터 변환 장치, 방법 및 컴퓨터로 판독가능한 매체
JP5209637B2 (ja) オーディオ処理方法及び装置
EP2483887B1 (en) Mpeg-saoc audio signal decoder, method for providing an upmix signal representation using mpeg-saoc decoding and computer program using a time/frequency-dependent common inter-object-correlation parameter value
EP4057281A1 (en) Audio scene encoder, audio scene decoder and related methods using hybrid encoder/decoder spatial analysis
GB2485979A (en) Spatial audio coding
AU2014201655B2 (en) Audio signal decoder, method for decoding an audio signal and computer program using cascaded audio object processing stages

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130115

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20130411

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20130418

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130712

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130910

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20131209

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20131216

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150105

R150 Certificate of patent or registration of utility model

Ref document number: 5678048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250