JP2010508545A - オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置 - Google Patents

オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置 Download PDF

Info

Publication number
JP2010508545A
JP2010508545A JP2009534511A JP2009534511A JP2010508545A JP 2010508545 A JP2010508545 A JP 2010508545A JP 2009534511 A JP2009534511 A JP 2009534511A JP 2009534511 A JP2009534511 A JP 2009534511A JP 2010508545 A JP2010508545 A JP 2010508545A
Authority
JP
Japan
Prior art keywords
signal
information
channel
downmix
additional information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009534511A
Other languages
English (en)
Other versions
JP5232795B2 (ja
Inventor
スー キム,ドン
スク パン,ヒー
ヒュン リム,ジェ
ヨン ユーン,スン
クーク リー,ヒュン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2010508545A publication Critical patent/JP2010508545A/ja
Application granted granted Critical
Publication of JP5232795B2 publication Critical patent/JP5232795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

オブジェクトベースのオーディオ信号を效率的に処理できるように符号化及び復号化するオーディオ符号化及び復号化方法とその装置を提供する。
オーディオ復号化方法は、少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号とオブジェクトベースの付加情報を受信し、オブジェクトベースの付加情報から利得情報を抽出し、利得情報に基づいてチャネル別にダウンミックスチャネル信号を変更する変更情報を生成し、変更情報をダウンミックスチャネル信号に適用してダウンミックス信号を変更する。

Description

本発明は、オブジェクトベースのオーディオ信号を效率的に処理できるように符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置に関するものである。
一般に、マルチチャネルオーディオ符号化及び復号化では、マルチチャネル信号から構成された複数のチャネル信号を元のチャネル数よりも小さい数のチャネル信号にダウンミックス(downmix)し、元のチャネル信号に関する付加情報を伝送し、元のチャネル数を持つマルチチャネル信号が再生される。
オブジェクトベースのオーディオ符号化及び復号化も、複数の音源をそれよりも小さい数の音源信号にダウンミックスし、元の音源に関する付加情報を伝送する点で、マルチチャネルオーディオ符号化及び復号化と同様である。ただし、オブジェクトベースのオーディオ符号化及び復号化では、オブジェクト信号をマルチチャネルオーディオ符号化においてチャネル信号に該当する信号と見なしてコーディングを行う。ここで、オブジェクト信号は、チャネル信号の基本的な要素(例えば、ある楽器の音や人の声)のことを指す。
すなわち、マルチチャネルオーディオ符号化及び復号化では、コーディングしようとするチャネル信号がいくつの要素で構成されているに関らず、チャネル信号間の情報のみに基づいてマルチチャネルオーディオコーディングを行うのに対し、オブジェクトベースのオーディオ符号化及び復号化では、オブジェクト信号をコーディングの対象と見なす。
本発明の目的は、オーディオ信号が多様な環境で適用可能なようにオーディオ信号を符号化又は復号化することができるオーディオ符号化及び復号化方法並びにその装置を提供することにある。
上記の目的を達成するための本発明によるオーディオ復号化方法は、少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報を受信する段階と、前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックス信号をチャネル別に変更する変更情報を生成する段階と、前記変更情報を前記ダウンミックスチャネル信号に適用して前記ダウンミックスチャネル信号を変更する段階と、を含む。
また、上記の目的を達成するための本発明によるオーディオ符号化方法は、オブジェクト信号をダウンミックスして少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号を生成する段階と、前記オブジェクト信号に関するオブジェクト関連情報を抽出し、前記オブジェクト関連情報に基づいてオブジェクトベースの付加情報を生成する段階と、前記ダウンミックスチャネル信号をチャネル別に変更するゲイン情報を前記オブジェクトベースの付加情報に挿入する段階と、を含む。
入力オーディオ信号から、少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報と、を抽出するデマルチプレクサと、
前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックスチャネル信号をチャネル別に変更する変更情報を生成し、前記変更情報を前記ダウンミックスチャネル信号を適用して前記ダウンミックスチャネル信号をチャネル別に変更するトランスコーダと、
を含むことを特徴とするオーディオ復号化装置。
少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報を受信する段階と、
前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックス信号をチャネル別に変更する変更情報を生成する段階と、
前記変更情報を前記ダウンミックスチャネル信号に適用してダウンミックス信号を変更する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
オブジェクト信号をダウンミックスして少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号を生成する段階と、
前記オブジェクト信号に関するオブジェクト関連情報を抽出し、前記オブジェクト関連情報に基づいてオブジェクトベースの付加情報を生成する段階と、
前記ダウンミックスチャネル信号をチャネル別に変更するゲイン情報を前記オブジェクトベースの付加情報に挿入する段階と、を含むオーディオ符号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
一般的なオブジェクトベースのオーディオ符号化/復号化装置を示すブロック図である。 本発明の第1実施例によるオーディオ復号化装置を示すブロック図である。 本発明の第2実施例によるオーディオ復号化装置を示すブロック図である。 本発明の第3実施例によるオーディオ復号化装置を示すブロック図である。 本発明の第3実施例によるオーディオ復号化装置で使用可能なADGモジュールを示すブロック図である。 本発明の第4実施例によるオーディオ復号化装置を示すブロック図である。 本発明の第5実施例によるオーディオ復号化装置を示すブロック図である。 本発明の第6実施例によるオーディオ復号化装置を示すブロック図である。 本発明の第7実施例によるオーディオ復号化装置を示すブロック図である。 本発明の第8実施例によるオーディオ復号化装置を示すブロック図である。 トランスコーダの動作を説明するための図である。 トランスコーダの動作を説明するための図である。 付加情報を構成する多様な方法を説明するための図である。 付加情報を構成する多様な方法を説明するための図である。 付加情報を構成する多様な方法を説明するための図である。 付加情報を構成する多様な方法を説明するための図である。 付加情報を結合する場合を説明するための図である。 付加情報を結合する場合を説明するための図である。 付加情報を結合する場合を説明するための図である。 付加情報を結合する場合を説明するための図である。 付加情報を結合する場合を説明するための図である。 付加情報を結合する場合を説明するための図である。 前処理過程を説明するための図である。 前処理過程を説明するための図である。 前処理過程を説明するための図である。 前処理過程を説明するための図である。 前処理過程を説明するための図である。 複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。 複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。 複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。 複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。 複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。 複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合を説明するための図である。
以下、添付の図面を参照しつつ本発明をより詳細に説明する。
本発明によるオーディオ符号化及び復号化方法は基本的にオブジェクトベースのオーディオ信号の処理過程に適用されるが、これに限定されず、本発明による条件を満たす他の信号の処理過程にも適用可能である。
図1は、一般的なオブジェクトベースのオーディオ符号化及び復号化装置を示すブロック図である。一般的にオブジェクトベースのオーディオ符号化装置において入力信号は、マルチチャネル上のチャネルとは関わっておらず、それぞれ独立したオブジェクト信号に該当し、このような点で、オブジェクトベースのオーディオ符号化装置は、入力信号がマルチチャネル上の各チャネル信号に該当するマルチチャネルオーディオ符号化装置と異なっている。例えば、マルチチャネルオーディオ符号化装置で入力信号は、5.1チャネル信号のフロントレフト(front left)信号やフロントライト(front right)信号などのようなチャネル信号となる。これに対し、オブジェクトベースのオーディオ符号化装置において入力信号となるオブジェクト信号は、通常、チャネル信号よりも小さい構成要素を指すもので、人の声またはバイオリンやピアノなどの楽器音などがそれに該当する。
図1を参照すると、オブジェクトベースのオーディオ符号化/復号化システムは、オブジェクトベースのオーディオ符号化装置及びオブジェクトベースのオーディオ復号化装置を含む。オブジェクトベースのオーディオ符号化装置は、オブジェクトエンコーダ100を含み、オブジェクトベースの復号化装置に含まれるオブジェクトデコーダ111及びミキサー/レンダラー113を含む。
オブジェクトエンコーダ100は、N個のオブジェクト信号を受信し、1つあるいはそれ以上のチャネルを持つオブジェクトベースのダウンミックス信号と、各オブジェクトオーディオ信号から抽出した情報が含まれる付加情報とを生成する。付加情報とオブジェクトベースのダウンミックス信号を、一つのビットストリームに結合し、オブジェクトベースの復号化装置に転送する。
付加情報には、チャネルベースのオーディオコーディングなのかオブジェクトベースのオーディオコーディングなのかを識別する識別子(flag)が含まれ、この値によってチャネルベースの復号化を行ったりあるいはオブジェクトベースの復号化を行うようにすることができる。また、付加情報には、オブジェクト信号に関する、エネルギー情報、グルーピング情報、無音区間情報、ダウンミックスゲイン情報、遅延(delay)情報などを含むことができる。
付加情報とオブジェクトベースのダウンミックス信号を、一つのビットストリームに結合し、復号化装置に転送することができる。
オブジェクトデコーダ111は、オブジェクトベースのオーディオ符号化装置から転送されたダウンミックス信号とオブジェクト情報を用いてN個のオブジェクト信号と類似な性質を有するオブジェクト信号を再生する。この時、オブジェクトデコーダ111で生成されるオブジェクト信号は、マルチチャネル上の特定チャネルに配置されていない信号である。したがって、オブジェクトデコーダ111で生成されたオブジェクト信号はそれぞれ、ミキサー/レンダラー113に入力され、制御情報(control information)によってマルチチャネル空間上の特定位置に特定レベルで配置されて再生される。各オブジェクト信号に関する制御情報は時間変化することができ、これにより、オブジェクトデコーダ111で生成されたオブジェクト信号の空間上の位置やそのレベルを変えることができる。
図2は、本発明の第1実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置120は、制御情報の分析を通じて適応的デコーディングが可能なように構成される。
図2を参照すると、本実施例によるオーディオ信号復号化装置120は、オブジェクトデコーダ121、ミキサー/レンダラー123、及びパラメータコンバータ125を含む。図示していないが、復号化装置は、デマルチプレクサ(demultiplexer)などを含み、受信したビットストリームからダウンミックス信号とオブジェクト情報を抽出でき、以下に説明する他の実施例による復号化装置においても同様である。
オブジェクトデコーダ121は、ダウンミックス信号と、パラメータコンバータ125から伝達される変更された付加情報を用いて複数のオブジェクト信号を生成する。ミキサー/レンダラー123は、オブジェクトデコーダ121から出力される各オブジェクト信号を制御情報によってマルチチャネルの空間上の特定位置に特定レベルで配置する。パラメータコンバータ125は、付加情報に制御情報を結合することによって、変更された付加情報を生成し、変更された付加情報をオブジェクトデコーダ121に伝達する。
このような構成により、オブジェクトデコーダ121で、変更されたオブジェクト情報の制御情報を分析し、適応的復号化が可能になる。
例えば、制御情報によって、第1オブジェクト信号と第2オブジェクト信号がマルチチャネル空間上で同じ位置に同遅延ベルに設定される場合、一般的な復号化装置では、第1オブジェクト信号と第2オブジェクト信号がそれぞれ個別にデコーディングされた後、ミキシング/レンダリング過程で制御情報に合うようにマルチチャネル空間上に配列される。しかし、本実施例によるオーディオ復号化装置120では、オブジェクトデコーダ121は、変更されたオブジェクト情報の制御情報から、第1オブジェクト信号と第2オブジェクト信号がまるで一つの音源かのように同遅延ベルで同じ位置に設定されていることがわかる。これにより、オブジェクトデコーダ121は、第1オブジェクト信号と第2オブジェクト信号をそれぞれ別個にデコーディングせずに一つの音源のようにデコーディングすることができる。
このように第1オブジェクト信号と第2オブジェクト信号を一つの音源のように復号化し、復号化過程の複雑さを減らすことができる。また、ミキシング/レンダリング過程においても処理すべき音源が減るので、同様に複雑さを減らすことができる。このようなオーディオ復号化装置120は、オブジェクト信号の数が最終出力チャネル数よりも多いので、確率的に複数のオブジェクト信号が同じ空間上に配置される場合に效果的に使われることができる。
他の例として、オーディオ復号化装置120は、第1オブジェクト信号と第2オブジェクト信号がマルチチャネル空間上で同じ位置に配置されるが、第1オブジェクト信号と第2オブジェクト信号のレベルが同一でなく、いずれか一方が他方よりも大きい場合にも使われることができる。この場合にも、第1オブジェクト信号と第2オブジェクト信号を個別にデコーディングした後にミキサー/レンダラー123の入力として転送する代わりに、第1オブジェクト信号と第2オブジェクト信号のレベルが調整された状態でこれら両者を一つの信号のようにデコーディングすることとなる。この時、オブジェクトデコーダ121は、変更されたオブジェクト情報に結合された制御情報から、第1オブジェクト信号と第2オブジェクト信号に対するエネルギーレベル差に関する情報を得ることができるので、この情報に基づいて両信号をデコーディングすることができる。これにより、第1オブジェクト信号と第2オブジェクト信号はそれぞれのレベルが調整された状態で一つの音源のように復号化が可能になる。
さらに他の例として、オブジェクトデコーダ121は、制御情報によって各オブジェクト信号のレベルを調整するようにすることができる。すなわち、オブジェクトデコーダ121で制御情報によって、各オブジェクト信号がレベル調整された状態でデコーディングが行われるようにする。この場合、ミキサー/レンダラー123では位置とレベルを両方とも調整する代わりに、レベル調整無しで各オブジェクト信号のマルチチャネル空間上の位置に対してのみ配置作業をすれば良い。したがって、制御情報によるレベル調整段階をオブジェクトデコーダ121のデコーディング過程で行い、オブジェクト信号に対して追加的なレベル調整をすることなく直ちに位置配置が可能なので、複雑さを減らすことができる。
このように本実施例によるオーディオ復号化装置120は、制御情報の分析を通じてオブジェクトデコーダ121が適応的にデコーディングを行うことができるので、デコーディング過程とミキシング/レンダリング過程の複雑さを減らすという効果が得られる。また、前述した様々な例で説明した方法は組み合わせて同時に用いても良い。
図3は、本発明の第2実施例によるオーディオ信号復号化装置のブロック図である。図3を参照すると、本実施例によるオーディオ信号復号化装置130は、オブジェクトデコーダ131と、ミキサー/レンダラー133とを含む。本実施例によるオーディオ信号復号化装置130は、オブジェクト情報がオブジェクトデコーダ131の他にミキサー/レンダラー133にも伝達されるのに特徴がある。
このような構成により、オブジェクト信号中に無音区間が存在する場合に、效率的にデコーディング作業を行うことができる。例えば、第2、第3及び第4オブジェクト信号までは楽器音が演奏され、第1オブジェクト信号が無音区間、すなわち伴奏区間に該当することができる。また、信号の時間帯別に特定オブジェクト信号が無音区間である場合が存在する。このような場合、各オブジェクト信号の無音区間に関する情報を付加情報に含んで転送することができる。この時、オブジェクトデコーダ131は、特定オブジェクト信号が無音区間に該当する場合、その特定オブジェクト信号をデコーディングしないことによって復号化過程の複雑さを最小化する。
また、ミキサー/レンダラー133には、無音に該当するオブジェクトの信号が‘0’値で伝達される。しかし、このような無音信号、すなわち‘0’となっている信号に対してもミキサー/レンダラー133は一つの信号と見なし、ミキシング/レンダリング作業を行うのが一般的である。
しかし、本実施例によるオーディオ復号化装置130は、個々のオブジェクト信号の無音区間に関する情報が含まれているオブジェクト情報をミキサー/レンダラー133にも伝達し、特定オブジェクト信号が無音区間である場合、オーディオ復号化装置130を、そのオブジェクト信号に対してミキシングやレンダリング作業が行われないように構成することができる。
図4は、本発明の第3実施例によるオーディオ復号化装置を示すブロック図である。本実施例によるオーディオ復号化装置は、オブジェクトデコーダとミキサー/レンダラーの代わりにマルチチャネルデコーダを使用し、各オブジェクト信号がマルチチャネル空間上で配置完了し、デコーディングされるように構成される。
図4を参照すると、本実施例によるオーディオ復号化装置140は、マルチチャネルデコーダ141及びパラメータコンバータ145を含む。マルチチャネルデコーダ141は、ダウンミックス信号とパラメータコンバータ145から伝達されるチャネルベースのパラメータ情報である空間パラメータ(spatial parameter)とを用いて、マルチチャネル空間上に配置完了したマルチチャネル信号を出力する。パラメータコンバータ145では、付加情報及び制御情報を用いて空間パラメータを生成する。すなわち、付加情報と、プレイバックセットアップ(playback setup)情報及びミキシング情報などが含まれた制御情報とを取り込み、これに基づいてマルチチャネルデコーダ141で使用可能な空間パラメータを生成する。これは、各OTT(One−To−Two)ボックスあるいはTTT(Two−To−Three)ボックスに該当する空間データへの変換を意味する。
このような構成により、オブジェクトベースのデコーディング及びミキシング/レンダリング過程がマルチチャネルデコーディング過程により完了し、中間段階としてそれぞれのオブジェクト信号を復号化する過程が省かれ、複雑さを減らす効果が得られる。
例えば、10個のオブジェクト信号があり、最終再生チャネルは5.1チャネルスピーカー再生システムである場合、一般的なオブジェクトベースオーディオ復号化装置では、ダウンミックス信号と付加情報を用いて10個のオブジェクトのそれぞれに対してデコーディングされた信号を生成する。そして、10個のオブジェクト信号とミキシング/レンダリング情報を用いて、ミキサー/レンダラーでは、5.1チャネルスピーカー環境に合わせて各オブジェクト信号をマルチチャネル上の特定位置に配置し、最終的に5.1チャネル信号を生成する。このように、最終5.1チャネル信号のために中間段階で10個のオブジェクト信号のそれぞれを生成するのは非効率であり、この問題は、最終再生チャネル数とオブジェクト信号の数との差が大きいほどより増大する。
しかし、本実施例によるオーディオ復号化装置140を用いてデコーディングする場合、付加情報と制御情報を用いて5.1チャネル出力構成に合う空間パラメータを生成する。そして、空間パラメータとダウンミックス信号をマルチチャネルデコーダ141に入力し、5.1チャネル信号を出力する。すなわち、最終出力チャネルが5.1チャネルである場合、中間段階である10個の信号を生成する過程無しで直接ダウンミックス信号から5.1チャネル信号を生成するので、一般的な方法に比べて効率的である。
オーディオ信号復号化装置140は、エンコーダから転送されたオブジェクト情報と制御情報の分析を通じて各OTT、TTTボックスの空間パラメータを計算するのに必要な計算量が全てのオブジェクト信号のそれぞれをデコーディングした後にミキサー/レンダラーを経由するのに必要な計算量よりも少ない場合に効率的である。
また、本実施例によるオーディオ信号復号化装置140は、付加情報と制御情報の分析を通じて空間パラメータを生成するモジュールを典型的なマルチチャネルオーディオ復号化装置に追加するだけで具現でき、典型的なマルチチャネルデコーダと互換性を維持できるという長所がある。また、オーディオ復号化装置140は、envelop shaping、STP(Sub−band Temporal Processing)ツール、デコリレータ(decorrelator)などの典型的なオーディオ復号化装置の既存ツールを使用して音質を向上させることができる。これらの点は、典型的なマルチチャネルデコーディングが持っている長所をいずれもオブジェクト復号化過程でも使用可能であるということを意味している。
そして、パラメータコンバータ145から出力されてマルチチャネルデコーダ141に転送される空間パラメータ情報は、転送に適切となるように圧縮されても良く、典型的なマルチチャネルエンコーダから転送される形態、すなわちハフマンデコーディング(Huffman decoding)、パイロット(Pilot)デコーディングなどの過程を経て、圧縮されていない空間パラメータの形態で各モジュールに転送されても良い。前者の場合、該当の空間パラメータ情報を遠隔地に在る他のマルチチャネルデコーダに転送するのに有利である。後者の場合、マルチチャネルデコーダで圧縮された空間パラメータをデコーディング作業に使われる空間パラメータに再び変換しなくて済むという長所がある。
一方、付加情報と制御情報の分析を通じて空間パラメータを構成する上で遅延(delay)が発生することがある。遅延を補償するために、ダウンミックス信号に追加的なバッファー(buffer)を置いてダウンミックス信号とビットストリーム間の遅延を補償する方法と、オブジェクト情報と制御情報から得られた空間パラメータに追加的なバッファーを置いて遅延を補償する方法がある。しかし、これらの方法は追加のバッファーを置かなければならないという不具合がある。この点に鑑み、付加情報自体を遅延を考慮してダウンミックス信号の前に送る方法も可能である。この場合、制御情報と結合して生成された空間パラメータは、追加的な遅延を補償することなく適用可能である。
また、各オブジェクト信号が異なるレベル(level)を有する場合、制御情報により与えられる各オブジェクト信号の相対的大きさは、ダウンミックス信号を直接補正するADG(Arbitrary Downmix Gains)によって決定し、オブジェクト信号の空間上の特定位置への割当は、CLD(Channel Level Difference)、ICC(Inter Channel Correlation)、CPC(Channel Prediction Coefficient)などの空間パラメータによって行うことが可能である。
例えば、第1オブジェクト信号が制御情報によって空間上の特定の位置に配置されると同時に他のオブジェクト信号に比べてレベルが大きくなった状態で配置される場合、典型的なマルチチャネルベースのデコーダは、転送された空間パラメータを用いてダウンミックス信号のチャネルのエネルギー差を計算した後、計算に基づいてダウンミックス信号を複数の出力チャネルに分割する。このようなマルチチャネルデコーダは、ダウンミックス信号の特定の音の音量のみを増加または減少させることができない。すなわち、典型的なマルチチャネルデコーダは転送されたダウンミックス信号を出力チャネルにそれぞれ分けて分配する形式であるがため、ダウンミックス信号自体に小さい音として含まれている信号を増加させたり、ダウンミックス信号自体に大きい音として含まれている信号を減少させるという役割を果たし難い。
したがって、オブジェクトエンコーダで生成されたダウンミックス信号を用いて、制御情報で要求する各オブジェクト信号の空間上の特定の位置に割り当てることは容易であるが、特定オブジェクト信号の大きさを増減させる場合には更に特別な方法が必要とされる。これは、オブジェクトエンコーダで生成されたダウンミックス信号をそのまま使用する場合、ダウンミックス信号中に含まれている特定オブジェクト信号の音を減少させることが難しいためである。
したがって、本実施例では、このような場合において制御情報によるオブジェクト信号の相対的大きさを変化させる方法として、図5に示すように、ADGモジュール147を使用することができる。このADGモジュール147はマルチチャネルデコーダ141内に設置されても良く、マルチチャネルデコーダ141とは別に設置されても良い。
ADGモジュール147を使用する場合、オブジェクトエンコーダから転送されたダウンミックス信号において特定オブジェクト信号の相対的大きさを増減することが可能になり、ADGモジュール147によって変換されたダウンミックス信号をもってマルチチャネルデコーディングを行うことが可能である。
ADGモジュール147を使用してダウンミックス信号を変化させ、オブジェクト信号の相対的大きさを調節する方法を用いる場合、オブジェクトデコーディングを典型的なマルチチャネルデコーダを用いて行うことができるという長所がある。オブジェクトエンコーダで生成されたダウンミックス信号がモノ、ステレオ、または3チャネル以上の信号である場合にもADGモジュール147を適用することが可能であり、ダウンミックス信号が2チャネル以上である場合、大きさを調整しようとするオブジェクト信号がダウンミックスの特定チャネルにのみ存在すると、ADGモジュール147を特定ダウンミックスチャネルにのみ適用することも可能である。全ての場合に典型的なマルチチャネルデコーダの構成を変えることなく適用可能である。
また、最終出力信号がマルチチャネルスピーカー(speaker)再生ではなくバイノーラル(binaural)再生の場合にも同一に適用可能であり、この場合にも、オブジェクト信号間の相対的な大きさをADGモジュール147を用いて調節可能である。
ADGモジュール147を使用する代わりに、各パラメータ値を用いて信号を生成する過程でオブジェクト信号間の相対的大きさを適用するゲイン(gain)値を適用させることも可能である。この場合、典型的なマルチチャネルデコーダにおいてこのようなゲイン値を追加させるための若干の変形が必要である。しかし、典型的なマルチチャネルデコーダの修正が必要である以外は、ADGを計算し補正する方法を用いずにデコーディング過程中にゲイン値を追加する方法で大きさを調整することができるので、復号化の複雑さが低減するという長所がある。
このように、ADGモジュール147を、単にオブジェクト信号のレベル調整だけでなく、特定オブジェクト信号のスペクトル情報の変形が可能な場合にこれに対する適用ツールとしても用いることができる。すなわち、特定オブジェクト信号のレベルを増加させたり減少させる場合にADGモジュール147が使われると共に、特定オブジェクト信号のスペクトル情報の変形、すなわち特定オブジェクトの低音部を増やしたり高音部を増やしたりするようなスペクトル情報の変形もADGモジュール147を用いて行うことができる。もちろん、このようなスペクトル情報の変形は、典型的なマルチチャネルデコーダでADGモジュール147を使用せずには不可能な過程である。
図6は、本発明の第4実施例によるオーディオ復号化装置を示すブロック図である。本実施例による復号化装置は、前述した実施例と略同一であるが、バイノーラル出力の場合を追加した点に特徴がある。
図6を参照すると、本実施例によるオーディオ信号復号化装置150は、マルチチャネルバイノーラルデコーダ151、第1パラメータコンバータ157、及び第2パラメータコンバータ159を含む。
第2パラメータコンバータ159は、エンコーダで生成された付加情報と制御情報を分析して空間パラメータを生成する。第1パラメータコンバータ157は空間パラメータに再びHRTFパラメータなどの3D情報を追加し、仮想(virtual)3Dパラメータを生成する。マルチチャネルバイノーラルデコーダ151は、ダウンミックス信号に仮想3Dパラメータを適用してバイノーラル信号を生成する。
この時、第1パラメータコンバータ157と第2パラメータコンバータ159を結合し、付加情報と制御情報及び3D情報を受信してバイノーラルパラメータを生成する統合されたパラメータコンバータ155としても良い。
もし、一般的な方法により、10個のオブジェクト信号が含まれたダウンミックス信号を、ヘッドホン再生などのためのバイノーラル信号とするためには、まず、オブジェクトデコーダでダウンミックス信号と付加情報から10個のオブジェクト信号のそれぞれに対してデコーディングされた信号を生成する。生成した信号と制御情報を用いてミキサー/レンダラーでは5チャネルスピーカー環境に合うように各オブジェクト信号をマルチチャネル上の特定位置に配置し、5チャネルスピーカーを通じて再生される5チャネル信号を生成する。そして、この信号に対して各チャネル別3D情報などを適用し、最終的に2チャネル出力を生成することとなる。これは、最終2チャネル信号を生成するために、10個のオブジェクト信号を再生し、これらを再び5チャネル信号に変換した後に最終2チャネル信号を生成するという点で非効率的である。
これに対して、本実施例による復号化装置150は、オブジェクト信号からヘッドホン再生などのためのバイノーラル信号を直接生成することができる。また、本実施例による復号化装置150は、付加情報と制御情報を分析して空間パラメータを生成し、バイノーラル出力の場合にも典型的なマルチチャネルバイノーラルデコーダをそのまま使用することができるという長所がある。そして、付加情報と制御情報、HRTFパラメータを入力としてバイノーラルパラメータを生成する統合されたパラメータコンバータを用いる場合、複雑さをさらに減らすことができるという長所がある。この場合にも同様に、マルチチャネルバイノーラルデコーダを再使用できるという長所がある。
図7は、本発明の第5実施例によるオーディオ復号化装置を示すブロック図である。図7を参照すると、本実施例によるオーディオ復号化装置160は、前処理部161、マルチチャネルデコーダ163、及びパラメータコンバータ165を含む。
パラメータコンバータ165は、マルチチャネルデコーダ163で使用される空間パラメータと前処理部161で使用されるパラメータとを生成する。前処理部161は、ダウンミックス信号に対する前処理過程を行い、前処理過程の行われた信号はマルチチャネルデコーダ163に伝達され、デコーディング過程が行われる。マルチチャネルデコーダ163から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。前処理部161で行われる前処理過程には、フィルタリングなどを用いたダウンミックス信号の時間あるいは周波数ドメインでの修正や変換などを含むことができる。
また、オーディオ復号化装置160に入力されるダウンミックス信号がステレオ信号の場合、このダウンミックス信号は、マルチチャネルデコーダ163の入力として転送される前に、前処理部161でダウンミックス前処理(pre−processing)過程を経なければならない。その理由は、マルチチャネルデコーダ163は、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程においてダウンミックス信号の左チャネルに位置している信号をマルチチャネルの右側チャネルにマッピングすることができないためである。したがって、ステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更しようとする場合、ステレオダウンミックス信号を前処理部161によって前処理過程を行い、前処理されたステレオダウンミックス信号をマルチチャネルデコーダ163に入力する必要がある。
このようなステレオダウンミックス信号の前処理過程は、付加情報と制御情報から前処理に関する情報を求めた後、この情報を用いて行うことができる。
図8は、本発明の第6実施例によるオーディオ復号化装置を示すブロック図である。図8を参照すると、本実施例によるオーディオ復号化装置170は、マルチチャネルデコーダ171、後処理部173、及びパラメータコンバータ175を含む。
パラメータコンバータ175は、マルチチャネルデコーダ171で使われる空間パラメータと後処理部173で使われるパラメータとを生成する。後処理部173は、マルチチャネルデコーダ171の出力信号に後処理過程を行う。マルチチャネルデコーダ173から出力される信号は、ステレオ、バイノーラルステレオ、マルチチャネル信号を含む。
後処理部173で行われる後処理過程には、フィルタリングなどを用いて出力信号の各チャネル又は全てのチャネルに対して修正及び変換を行うことなどが含まれる。後処理部173の特定の例としては、オブジェクト情報内に特定オブジェクト信号の基本周波数値などを表示し、これを用いて後処理過程で基本周波数の高調波成分のみを除去することが挙げられる。マルチチャネル復号化方法だけでは、充分な性能のカラオケシステムを具現し難いかもしれないが、ボーカル(vocal)オブジェクト信号に対して基本周波数情報を含み、その高調波成分を後処理過程で消すと、高い性能のカラオケシステム具現が可能となる。この技術を、音声の他、特定オブジェクト信号に適用すると特定楽器のみを消すことが可能になる。また、オブジェクト信号の基本周波数情報を用いて特定高調波成分のみを増幅することができる。このように、後処理パラメータは、マルチチャネルデコーダで適用不可能なオブジェクト信号の残響効果挿入、ノイズ追加、低音部補強などの様々なエフェクト(effect)の適用を可能にする。
そして、後処理部173は、ダウンミックス信号に追加のエフェクト(effect)処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ171の出力信号に加える作業を行うことができる。特定オブジェクト信号のスペクトルを変更したり、ダウンミックス信号全体に変形を加える必要がある場合、後処理部173は、該当の作業をダウンミックス信号自体に加える。残響などのように、ダウンミックス信号に直接処理し、処理された信号をマルチチャネルデコーダ171に転送することが適切でない場合、このような処理をマルチチャネルデコーダ171に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ171の出力に加える方式で処理しても良い。
図9は、本発明の第7実施例によるオーディオ復号化装置を示すブロック図である。図9を参照すると、本実施例によるオーディオ復号化装置180は、前処理部181、マルチチャネルデコーダ183、後処理部185、及びパラメータコンバータ187を含む。すなわち、本実施例によるオーディオ復号化装置180は、マルチチャネルデコーダ183の前段に前処理部181が配置され、マルチチャネルデコーダ183の後段に後処理部185が配置されるように構成される。
前処理部181を、図7で説明したのと同様に適用することができる。また、後処理部185を、後処理過程が適用された後に対応するエフェクトが適用された信号をマルチチャネルデコーダ185の出力に加えて最終信号を得るのに使用しても良い。この場合、後処理部185は、信号を加える役割のみを果たす。また、エフェクトの適用がどちらで行われるかによってエフェクトパラメータは前処理部181と後処理部185のうち、該当の過程が行われる方に伝達される。また、ダウンミックス信号にエフェクトを適用してマルチチャネルデコーダ183の出力に加える過程と、マルチチャネルデコーダ185の出力信号にエフェクトを適用する過程を同時に行うことができる。
一方、図7及び図9で提案された前処理部は、ダウンミックス信号をユーザの制御情報によってレンダリングする役割を果たすことができる。また、前処理部は、単純なオブジェクト信号の方向情報によるレンダリング過程だけでなく、オブジェクト信号のレベルを増加または減少させる過程、オブジェクト信号のスペクトルに変更を加える過程も行うことができる。この場合、前述したADGモジュールで可能な処理を前処理部で行うことも可能である。
このような場合、前処理部では、オブジェクト信号の方向情報によるレンダリング過程と、オブジェクト信号のレベル調整、オブジェクト信号のスペクトル情報変更などの過程を同時に行うことができる。また、これらの過程は、適切に分けられ、一部は前処理部で行い、一部はADGモジュールを用いて行うことができる。例えば、オブジェクト信号のスペクトル変更の場合、ADGモジュールで使われる量子化レベル(quantization level)間隔及びパラメータバンド間隔を用いて行うことが適切でない場合がある。この場合、オブジェクト信号のスペクトル変更を、前処理過程で周波数別に細かいスペクトル変更を行い、ADGモジュールでは各オブジェクト信号のレベル調整を行うことによって行うことができる。
図10は、本発明の第8実施例によるオーディオ復号化装置を示すブロック図である。図10を参照すると、本実施例によるオーディオ復号化装置200は、レンダリングマトリクス生成部201、トランスコーダ203、マルチチャネルデコーダ205、前処理部207、エフェクトプロセッサ208、及び加算器209を含む。
レンダリングマトリクス生成部201は、オブジェクト信号の空間上での位置に関する情報と、オブジェクト信号のレベルの大きさに関するプレイバック(playback)情報などを表現するレンダリングマトリクスを生成し、トランスコーダ203に伝達する。また、レンダリングマトリクス生成部201は、オブジェクト信号の空間上での位置に関する情報によって適切なHRTF係数などのような3D情報を生成して伝達する。この時、HRTFとは、任意の位置を持つ音源から出る音波と耳の鼓膜に到達する音波間の伝達関数(transfer function)を意味し、音源の方位と高度によってその値が異なってくる。方向性のない信号を特定方向のHRTFでフィルタリングすると、人にはあたかも特定方向から声が聞こえるかのように感じられる。
レンダリングマトリクス生成部201が入力として受けるオブジェクト位置とプレイバック(playback)構成情報は、エンドユーザが任意の組合せで入力し、時間変化が可能な情報である。
トランスコーダ203は、オブジェクトベースのオブジェクト情報とレンダリングマトリクス情報、3D情報などを用いてチャネルベースの付加情報(channel−based side information)を生成してマルチチャネルデコーダ205に伝達し、マルチチャネルデコーダ205で使用される3D情報を伝達する。すなわち、トランスコーダ203は、N個のオブジェクト信号に対するオブジェクトベースパラメータ情報から変換されたM個のチャネルに対するチャネルベースの付加情報と、各オブジェクト信号に適用された3D情報とを分離してマルチチャネルデコーダ205に転送する。
マルチチャネルデコーダ205は、ダウンミックス信号とトランスコーダ203から出力されるチャネルベースの付加情報とを用いてマルチチャネルオーディオ信号を生成し、3D情報を用いて3Dレンダリングを行い、3Dベースのマルチチャネル信号を出力することができる。また、図示してはいないが、レンダリングマトリクス生成部201内に3D情報データベースを備えることができる。
ダウンミックス信号をマルチチャネルデコーダ205に入力する前に前処理作業が必要な場合、トランスコーダ203は、前処理に関する情報を前処理部207に伝達する。トランスコーダ203に入力されるオブジェクトベースの付加情報には各オブジェクト信号に関する情報が含まれており、レンダリングマトリクスには各オブジェクト信号の空間上の位置及びレベル情報が含まれている。トランスコーダ203はこれら2つの情報を利用すると各オブジェクト信号が最終的にミキシングされて再生されるチャネルに関する情報が得られ、このようにミキシングされて再生されるためにマルチチャネルデコーダ205に転送されなければならないチャネルベースの付加情報を算出し、マルチチャネルデコーダ205に転送する。
トランスコーダ203から出力されるチャネルベースの付加情報と3D情報はそれぞれ、フレームインデックス(frame index)を含むことができる。これにより、マルチチャネルデコーダ205では、フレームインデックスを用いて、チャネルベースの付加情報と3D情報を同期させ、ビットストリームの特定フレームに3D情報を適用することができる。このようにフレームインデックスを用いて、3D情報が時間の経過と共に更新される場合、チャネルベースの付加情報で時間上のどの位置に適用されるかを決定することができる。すなわち、マルチチャネルデコーダ205でチャネルベースの付加情報と更新される3D情報を同期させるため、トランスコーダ203でチャネルベースの付加情報と3D情報にフレームインデックスを含める。
前処理部207は、受信したダウンミックス信号をマルチチャネルデコーダ205に入力する前に、必要な作業がある場合、それに対する作業を行う。すなわち、前述したように、ステレオダウンミックス信号では、左チャネルに属したオブジェクト信号を右チャネルで再生しようとする場合などにおいて該当の作業がマルチチャネルデコーダ205で不可能なので、ダウンミックス信号に対して該当のオブジェクト信号の位置変換作業などを行う。このような作業に関する情報をトランスコーダ205から受信する。該当の作業を経たダウンミックス信号はマルチチャネルデコーダ205に伝達される。
エフェクトプロセッサ208と加算器209は、ダウンミックス信号に追加のエフェクト処理をしたり、ダウンミックス信号にエフェクト処理した信号をマルチチャネルデコーダ205の出力信号に加える作業を行うことができる。エフェクトプロセッサ208は、特定オブジェクト信号のスペクトルを変更したり、ダウンミックス信号全体に変更を加える必要がある場合、かかる作業をダウンミックス信号自体に適用することができる。また、残響などのように、ダウンミックス信号に直接処理し、処理されたダウンミックス信号をマルチチャネルデコーダ205に転送することが適切でない場合、該当の処理をマルチチャネルデコーダ205に伝達されるダウンミックス信号に適用せずに、処理された信号をマルチチャネルデコーダ205の出力に加える方式で処理することができる。
レンダリングマトリクス生成部201で生成するレンダリングマトリクスについてより詳細に説明すると、下記の通りである。
レンダリングマトリクスは、オブジェクト信号の位置とプレイバック(playback)構成に関する情報を表現するマトリクスである。すなわち、オブジェクト信号の個数がNで、最終再生チャネルの個数がMの場合、レンダリングマトリクスはN個のオブジェクト信号がM個のチャネルにどのようにマッピングされるかに関する情報を含む。このような情報を、下記のように様々な方法を用いてレンダリングマトリクスとして表現できる。
第一の方法は、N個のオブジェクト信号をM個のチャネルにマッピングする場合、N*Mマトリクスで表現する。この場合、N行はそれぞれのオブジェクト信号に該当し、M列は各チャネルに該当する。特定オブジェクト信号に該当する行のM列には、該当のオブジェクト信号が各チャネルに割り当てられる比率を表記する。この比率を表記する方法は、実数で表現しても良く、整数で表現しても良い。
オブジェクト信号が各チャネルに割り当てられる比率を実数で表現する場合、特定行のM列の値を全部合算した値が1の場合、オブジェクト信号のレベル変化はないと見なす。また、この値が1よりも小さい場合は該当のオブジェクト信号のレベルを減らした場合と見なし、1よりも大きい場合はレベルを増加させた場合と見なす。もちろん、レベル変化のないケースに該当する基準値1は、他の値で表示しても良い。レベル変化の範囲は±12dBなどのような値でその範囲を限定することができる。例えば、レベル変化のない場合の基準値を1にした場合、1.5は+12dBに該当し、0.5は−12dBに該当するもので表現し、0.5〜1.5の値は−12dB〜+12dBの値で線形的に対応させることが可能である。
オブジェクト信号が各チャネルに割り当てられる比率を整数で表現する場合、オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のM列を全部合算した値を10または20、30あるいは100等の定められた値で定義することとなる。M列の和が定められた値よりも小さい場合、当該オブジェクト信号のレベルを減少させたことに該当し、和が定められた値よりも大きい場合、オブジェクト信号のレベルを増加させたことに該当する。この場合にもレベル変化の範囲は±12dBなどのような値でその範囲を限定することができる。また、この場合、該当のレベル変化範囲内で表示できるレベル変化の差の間隔を定めることができる。例えば、数字1の増減を2dBの変化と表現することができる。オブジェクト信号のレベルが変わっていない場合、該オブジェクト信号に該当する行のM列を全部合算した値が20の場合を取り上げて説明すると、23は+6dBを表現し、15は−10dBを表現することができる。
レンダリングマトリクスをN*Mマトリクスで表現する場合、オブジェクト信号が6個であり、再生チャネルが5個である場合を挙げると、この時に表現されるレンダリングマトリクスは6*5行列となる。各チャネルに割り当てられるオブジェクト信号の比率を整数で表現し、オブジェクト信号のレベル変化がない場合の和が10の場合と、この値の1の増減が2dB増減を表す場合、任意のレンダリングマトリクスを表現すると、下記の式1のようになる。この時チャネルを表現する5列ま順序はLf、Rf、C、Ls、Rsであると仮定する。
Figure 2010508545
上記の式1のように表現されるレンダリングマトリクスから、第1オブジェクト信号に該当する1行の5列の値(3,1,2,2,2)を参照すると、第1オブジェクト信号が5チャネル上にどんな割合で分配されたかがわかる。この5列のうち1番目の列が3と最も大きく、5列の和が10であることから、第1オブジェクト信号はLf方向に位置が定められ、全体的なオブジェクト信号のレベルには変化が無いことがわかる。同様に、第2オブジェクト信号に該当する値である(2,4,3,1,2)を参照すると、最も大きい値がRfに位置していて、第2オブジェクト信号の方向がRf側に位置していることがわかり、5列の和が12と、第2オブジェクト信号のレベルが4dB大きくなったことがわかる。同様に、第3オブジェクト信号の場合、該当する値が(0,0,12,0,0)であり、Cにのみ成分が存在し、全体的に4dB大きくなったことがわかる。第5オブジェクト信号の場合、(2,2,2,2,2)と全チャネルに均一に分布しており、レベルの大きさには変化が無いことがわかる。
レンダリングマトリクスで表現する第二の方法は、前述したように、オブジェクト信号のレベル変化の有無を、オブジェクト信号に該当する行に在る全ての列の値を合算した値から求めることができるが、このような構造を若干変更し、上のN*Mマトリクスで表現されたものに1列を追加し、N*(M+1)マトリクスで表現する。この時、各行の1番目のM列は、Mチャネルにオブジェクト信号がどのように分布するかを、上記第一の方法と略同様な方法で表現する。M+1にオブジェクト信号のレベルを表現する方式は、第一の方法でM列の和の値で表現する方法と同じ方法で表現可能である。
このようにオブジェクト信号のチャネル上の分布とレベル変化を同時に表示する場合とは違い、オブジェクト信号のチャネル上の分布とレベル変化を別個に表示する場合、以降オブジェクト信号のレベル変化のみを計算する必要がある場合、追加の計算無しでレベル変化情報を得ることができる。また、このような第二の方法は、第一の方法とは表現する方式が違うだけで、表現の内容には違いがないので、第一の方法で表現されたレンダリングマトリクスをこのような形式に変換したりその反対に変換したりすることが可能であり、このような変換に追加的に必要な情報はない。
レンダリングマトリクスで表現する第三の方法は、N個のオブジェクト信号をM個のチャネルにマッピングする場合にN*2マトリクスで表現する。この場合、1番目の列は、オブジェクト信号が位置する空間上の位置に対する角度を表し、2番目の列は、オブジェクト信号のレベル変化を表すことができる。角度表示の場合、フロント(front)を0度と仮定し、反時計回りにオブジェクト位置の角度を表することができる。角度表示は0〜360度の値とすることができる。この時、角度表現は、1度間隔あるいは3度間隔などの間隔レベルをおいて行うことができる。特定の方向が存在せず、全チャネルに均一に分布するオブジェクト信号では、特定値を割り当てて方向を表示する値に特定値を表する場合には、全チャネルに均一に分布するということを意味するように設定することができる。
このような方法は、2次元上の方向の他に上下の方向を表示しようとする場合、N*2マトリクスに列を一つ追加してN*3マトリクスで表現し、2番目の列を上下の方向に関する情報を表現するのに使用することができる。最後の列に表されるオブジェクト信号のレベル変化は、第一の方法と同様に、実数あるいは整数で表現が可能であり、その変化のレベル間隔及び範囲も、第一の方法で説明したような方法を用いれば良い。
オブジェクトデコーダの最終再生モードがバイノーラルステレオである場合、レンダリングマトリクス生成部201は、オブジェクト信号の位置に対応する3D情報あるいは該3D情報に対応するインデックス(index)を伝達することができる。3D情報インデックスを伝達する場合、トランスコーダ203は、伝達されたインデックスに対応する3D情報を保有していなければならない。また、各オブジェクト信号の位置に対応する3D情報を転送することによって、トランスコーダ203は、各オブジェクト信号の位置に対応する3D情報、レンダリングマトリクス、及びオブジェクト情報から、マルチチャネルデコーダ205で使われる特定の3D情報を計算することができる。もちろん、インデックスを伝達せずに、レンダリングマトリクス生成部で計算された3D情報を直接伝達しても良い。
前述したレンダリングマトリクスと3D情報は、エンドユーザがオブジェクト位置とプレイバック(playback)構成情報を実時間で変更することによって適応的に実時間変更され、トランスコーダ203に転送される。この時、レンダリングマトリクスと3D情報情報は一定の時間間隔をおいて情報の変化の有無及び以前の情報と対比して変化した情報のみを転送しても良い。例えば0.5秒間隔で1回ずつ情報変化の有無及び情報変化時に変化された情報転送をする場合が挙げられる。この時、時間間隔を任意に定めることができる。設定された時間間隔をおいて転送された情報をトランスコーダ203で使用する場合、情報の変化が起きた区間では、以前の情報と変化された情報を用いて必要な情報を生成できる。
情報転送の方法も、オブジェクト位置とプレイバック(playback)構成が変わらない場合、最初にレンダリングマトリクスと3D情報を一度転送した後、それ以上該当の情報を転送せずに、変化の無いことを表す情報のみを転送できる。情報の変化がある場合には、変化があることを表示する情報の転送後に、変化されたレンダリングマトリクスと3D情報を転送する方法を用いることができる。情報の変化を表す方法の場合にも、レンダリングマトリクスと3D情報のそれぞれに対して情報変化の有無を表す方法と、これら両者の変化を一つの代表値で表した後、変化が起きた場合に追加的にレンダリングマトリクスと3D情報のいずれの情報に変化が起きたかを表現する方法が可能である。この方法を使用する場合、変化が長い間起こらない場合に、変化が起きていないことを表す方法をより簡単にすることができる。
上記の式1のレンダリングマトリクスに1列を追加し、この列にはオブジェクトの上下方向に関する情報を含めることができる。この場合、該当の情報は、−90度〜+90度までの値を表現することとなる。このようなオブジェクト信号の上下方向に関する情報が追加的な行列の列に含まれることは、第一の方法だけでなく第二及び第三の方法のケースに該当するレンダリングマトリクスにも適用することができる。この情報の場合、実際マルチチャネルデコーダのノーマルデコーディングモードでは使用されず、マルチチャネルデコーダがバイノーラルモードで動作する場合に追加的な3D情報を適用することによって具現可能である。このようなオブジェクト信号の上下方向に関する情報を、このようにレンダリングマトリクスに含めて転送しても良いが、レンダリングマトリクスに含めずに、3D情報と一緒に転送される方式で転送しても良い。このような上下方向に関する情報は、チャネルベースの付加情報には影響を及ぼさなく、バイノーラルモードでデコーディングする時に3D情報に適用されることとなる。
一方、オブジェクト信号の空間上の位置とレベル調整に関する情報は、レンダリングマトリクスで表現可能であるだけでなく、オブジェクト信号のスペクトル上に変化を与えることもできる。例えば、特定オブジェクト信号に対する低音部強化、あるいは高音部強化のような変化を与えることができる。この場合、これに関する情報を、マルチチャネルコーデックで使われるADGと類似な形態で各パラメータバンドのレベル変化として表示して転送することができる。このようなオブジェクト信号のスペクトル変更は、ダウンミックス前処理過程で可能である。このようなオブジェクト信号のスペクトル上の変化をエンドユーザが制御する場合、これに関する情報を、例えばスペクトルマトリクス(spectrum matrix)などのような形態としてレンダリングマトリクスとは別個に転送することができる。この場合、レンダリングマトリクスの行を、オブジェクト信号の個数分だけ使用することができ、レンダリングマトリクスの列を、パラメータ個数分だけ構成された行列が使用することができ、行列の係数は、各パラメータバンドのレベル調整に関する情報を表すことができる。
次に、トランスコーダ203の動作過程について詳細に説明する。トランスコーダ203は、オブジェクトベースのオブジェクト情報、レンダリングマトリクス情報及び3D情報を用いて、マルチチャネルデコーダ205で使われるチャネルベースの付加情報を生成して伝達し、マルチチャネルデコーダ205で使用される3D情報を伝達する。また、ダウンミックス信号をマルチチャネルデコーダ205に入力する前に前処理過程が必要な場合、これに関する情報を伝達する。
トランスコーダ203が入力として受信するオブジェクトベースの付加情報には、各オブジェクト信号がダウンミックス信号にどのように含まれているかを表す情報が入っている。各オブジェクト信号がダウンミックス信号にどのように含まれているかを表す方法には、マルチチャネルコーデック(Codec)で既に使用されているOTT(One−to−Two)ボックス及びTTT(Two−to−Three)ボックスなどを用いてCLD、ICC、CPC等の情報を通じて表す方法がある。このような情報を通じて、各オブジェクト信号に関する情報をどのように表現可能かについてオブジェクトエンコーダで可能な方法を説明すると、オブジェクト情報にオブジェクト信号に関する情報がどんな方法で含まれるかがわかる。
一般に、マルチチャネルコーデックにおけるTTTボックスは、L、C、R信号をL、R信号にダウンミックスしたり、逆にアップミックス(upmix)するのに使われる。これはC信号がL、R信号の成分を一部ずつ持っているケースに該当する。しかし、オブジェクト信号間のダウンミックスとアップミックスの場合、オブジェクト信号間にこのような特徴を持っている場合はほとんど存在しない。したがって、オブジェクトコーディングのアップミックスとダウンミックス時にはほとんどOTTボックスのみが使われる場合が多い。もちろん、マルチチャネルコーデックにおいて、CがL、Rの成分ではなく独立した信号を含んでいる場合にも問題なくTTTボックスの使用が可能なので、オブジェクトコーディングアップミックスとダウンミックス時にTTTボックスの使用も可能である。
このような場合の例として、オブジェクト信号が合計6個存在し、モノダウンミックス信号である場合が考えられる。この場合、図11に示すように、OTTボックスを通じて6個のオブジェクト信号をダウンミックス信号に変換し、オブジェクト信号に関する情報を求めることが可能である。
図11に示す構造で、一つのダウンミックス信号と合計5個のOTTボックスから得られるCLD、ICC等の情報で6個のオブジェクト信号に関する情報を表現できる。また、オブジェクトコーディングではこのような構造の自由な変更が可能である。すなわち、図11で、OTTボックス1(211)には、6個のオブジェクト信号のうち任意の二つのオブジェクト信号を入力することができる。また、OTTボックスとOTTボックスが階層的に連結される構造も自由な変更が可能であり、オブジェクト情報にはこのようなOTTボックスの階層的に連結される構造に関する情報と各オブジェクト信号が入力として入る位置に関する情報が含まれる。任意のツリー構造の場合、マルチチャネルコーデックで使用する任意のツリー構造を表現する方法をそのまま使用することも可能である。また、各オブジェクト信号の入力位置に関する情報は様々な方法を用いて表現できる。
付加情報には各オブジェクト信号の無音区間、すなわち、特定オブジェクトの信号がない場合に対して情報を表示することも可能である。この場合、ツリー構造が時間の変化によって適応的に変わることができる。例えば、図11で、第1オブジェクト信号が無音区間である場合、OTTボックス1(211)への情報は必要でなく、第2オブジェクト信号に該当する信号がOTTボックス4(217)に入力されると見なすことができる。このように、場合によって毎回ツリー構造を変更し、これに関する情報をオブジェクト情報に含めることができる。
また、類似な方法として、特定オブジェクト信号が無音状態にあり、そのオブジェクト信号がダウンミックスされるOTTボックスに対して、OTTボックスの使用の有無に関する情報が存在し、この情報によって当該ボックスのキュー(cue)が存在したり存在しない方法を使用することができる。このように、特定オブジェクト信号の無音区間に関する情報を適用する場合、オブジェクト情報で実際に使われないOTT、TTTボックスに関する情報を減らすことができるという長所がある。また、ツリー(tree)構造を変更する場合にも、最初に定められたツリー構造で特定オブジェクト信号が無音区間に該当する場合、該当オブジェクト信号が無音となることによって機能がOn/Offされるボックスがどれかを類推できる。したがって、毎回変更されたツリー構造全体に対して情報を送らず、特定オブジェクト信号が無音であるという情報だけでもデコーダではツリー構造のどの部分に修正が加えられるべきかがわかるので、無音区間有無に関する情報は最小限に低減され、オブジェクト信号に対するキューを效率的に転送することができる。
図12は、各オブジェクト信号がダウンミックス信号にどのように含まれているかを説明するための図である。図12を参照すると、図11でマルチチャネルコーディングのOTTボックス構造をそのまま使用したこととは違い、それを若干変形した構造を示している。この構造では、一つのボックスに複数のオブジェクト信号が入力され、一つのダウンミックス信号を生成する。この場合、各オブジェクト信号に関する情報は、全体エネルギーに対する各オブジェクト信号のエネルギーの比で表現することが可能である。しかし、オブジェクト信号数が多くなると、各オブジェクト信号のエネルギーに比べて全体エネルギーの大きさが大きくなり、各オブジェクト信号に関する情報であるエネルギーの比が小さい値のみからなることがある。これを補正するため、全体エネルギーに対する各オブジェクト信号のエネルギー比を表示せずに、特定パラメータバンド内でエネルギーの最も大きいオブジェクト信号を探索し、残りのオブジェクト信号のエネルギーを最もエネルギーの大きいオブジェクト信号のエネルギーに対する割合で表す方法を適用することができる。このような方法を用いる場合、該当のパラメータバンド内で最も大きいエネルギーを持つオブジェクト信号に関する情報と、該オブジェクト信号が持つエネルギーの絶対値を知ると、残りのオブジェクト信号のエネルギーの大きさがわかる。
特定パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルは、MCU(Multipoint Control Unit)のように複数のビットストリームを一つのビットストリームに併合する場合には必須の情報となる。しかし、ビットストリームを併合しない場合、最も大きいエネルギーを持つオブジェクト信号と比較した残りのオブジェクト信号のエネルギー大きさの比が与えられると、最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値を、計算を通じて抽出することができる。
例えば、特定パラメータに含まれたオブジェクト信号がA、B、C、Dの4個と仮定し、この中で最も大きいエネルギーを持つオブジェクト信号をAとする。オブジェクトAのエネルギーとB、C、Dとのエネルギー大きさの比をそれぞれa、b、cとし、オブジェクトAのエネルギーレベルの絶対値をEAとし、該当のパラメータバンドのエネルギーをEPとすれば、下記のような式が成り立つ。
Figure 2010508545
上記の式2から、最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値は、それに関する情報が与えられなくても他の情報を用いて計算できることがわかる。したがって、MCUを経てビットストリームが結合される場合でない限り、最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値を、ビットストリームに含めて転送しなくても良い。ビットストリームにはこのような情報が含まれているか否かをヘッダ(header)に表示する方法を用いて全体ビットストリームの大きさを低減することができる。
しかし、MCUを経てビットストリームが結合される場合、最も大きいエネルギーを持つオブジェクト信号のエネルギーレベル値に関する情報が必要とされる。この場合、ダウンミックス信号の実際のエネルギー大きさと最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号との比から求められる各オブジェクト信号のエネルギーの和が、実際ダウンミックス信号のエネルギーレベルと異なってくる場合が発生する。すなわち、ダウンミックス信号のエネルギーレベルは100であるが、各オブジェクト信号のエネルギーレベルを計算して合算した結果が98あるいは103等と、100でない値として計算される場合がある。これは、各エネルギーの絶対値とエネルギーレベルの比が量子化された状態でこれを逆量子化(dequantization)したのち計算することによる不一致に起因する。この場合、各オブジェクト信号のエネルギーレベルとして計算された最終値にこの差を補正する係数を乗算しなければならない。ダウンミックス信号のエネルギーがXであるが、各オブジェクト信号のエネルギーを計算して合算した値がYである場合、各オブジェクト信号を計算する部分にX/Yを乗算しなければならいない。このような不一致を考慮しない場合、量子化エラーが各パラメータバンド及び毎フレームに含まれ、信号の歪みが生じることができる。
したがって、パラメータバンドで最も大きいエネルギーを持つオブジェクト信号のエネルギーの絶対値がどのオブジェクト信号に該当するかを表示する情報が必要である。これを表示するための情報は、特定ビットを用いて表現できるが、この情報を表示するために必要なビット数は、オブジェクト信号の総数が幾つかによって変わることができる。すなわち、オブジェクト信号数が少ないと最も大きいエネルギーの絶対値を持つオブジェクト信号を表現するのに使われるビット数も減り、オブジェクト信号の数が多いとこれを表現するビット数も増えることとなる。このとき、あらかじめ定められた規則によって該当のビット数を定めても良く、あるいは、何ビットを使用すべきかを表す他の情報を必要としても良い。
また、マルチチャネルコーデックのOTT、TTTボックスに使われるCLD、ICC、CPC値を表現する時、その絶対値ではなく時間差(time differential)、周波数差(frequency differential)、パイロットコーディング(pilot coding)などの方法を通じて情報量を減らすことと同様に、パラメータバンド別に最も大きいエネルギーの絶対値を持つオブジェクトに関する情報も上記のような方法を用いて表示することができる。
また、最も大きいエネルギーの絶対値を持つオブジェクト信号を表現するのに最適化されたハフマンテーブル(huffman table)を使用することも可能である。この場合、パラメータバンド内での最も大きいエネルギーの絶対値を持つオブジェクト信号がどれかを表示する情報の他にも、最も大きいエネルギーの絶対値を持つオブジェクト信号と比較した相対エネルギーを表示するオブジェクト信号の順序に関する情報も必要である。例えば、オブジェクト信号が1、2、3、4、5の5個が存在すると仮定する。特定パラメータで最も大きいエネルギーを持つオブジェクト信号を第3オブジェクト信号とする場合、このオブジェクト信号に関する情報を表示し、相対的なエネルギーの比を表示する方法としては、下記のようなものが考えられる。
その第1の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、第1オブジェクト信号から順次にエネルギーの比を表示する方法であり、第2の方法は、最も大きいエネルギーを持つオブジェクト信号に関する情報以降に、該当のオブジェクト信号以降のオブジェクトから循環的な順序でオブジェクト信号のエネルギーの比を表示する方法である。もちろん、このようなオブジェクト信号間の順序に関する情報は、ファイルヘッダにあるいは一定フレームごとに1回ずつ転送されてオブジェクト信号の表示順序を知らせる情報に基づく。マルチチャネルコーデックでOTTボックス番号によって各チャネルに該当する信号のCLD、ICCなどを推論するのと同様に、オブジェクトビットストリーム上には各オブジェクト信号とビットストリーム上の情報がどのようにマッチングされるかを表現する情報が必要である。
マルチチャネルコーデックの場合、OTTあるいはTTTボックスのナンバーによって各チャネルに該当する信号に関する情報が何であるかがわかる。オブジェクトベースのオーディオ符号化でも、上記の方法のようにオブジェクト信号がN個ある場合、該当のオブジェクト信号を表示するために1番からN番までの番号を割り当てる方法を用いることができる。しかし、オブジェクトベースのオーディオ符号化では、該当のオブジェクト信号をオブジェクトデコーダ上でユーザが制御する場合が発生するが、この場合、ユーザはオブジェクト信号のナンバリングだけでなく、該当番号に該当するオブジェクト信号がどのオブジェクト信号かに関する説明も必要である。例えば、第1オブジェクト信号は女性ボーカルに該当し、第2オブジェクト信号はピアノに該当するなどという情報が必要であるが、これに関する情報もビットストリームのヘッダにメタデータなどとして含めて伝達することができる。このためには、オブジェクト信号に関する説明をテキスト(text)のようなフォーマット(format)で自由に表示できる方法を用いたり、コードテーブル(code table)のような方法を用いてあらかじめ定められたオブジェクト信号区分方法によるコードワード(codeword)を使って表現しても良い。
また、オブジェクト信号間の相関情報が必要な場合もあるが、この場合にも、相関値は、エネルギーの最も大きいオブジェクト信号を基準にしてその他のオブジェクト信号に対する相関値を表現する方法を用いることができる。この時、マルチチャネルコーデックで全てのOTTボックスに一つのICC値を使用したのと同様に、全てのオブジェクト信号に一つの相関値を指定することも可能である。
オブジェクト信号がステレオオブジェクト信号の場合、ステレオチャネルで表現されるオブジェクト信号の左、右信号に対するエネルギー比率、相関情報などが必要である。ステレオオブジェクト信号の左、右エネルギーに対する比率は、前述した各チャネルの特定パラメータバンドで最も大きいエネルギーを持つオブジェクト信号に対する残りのオブジェクト信号の比率、そして最も大きいエネルギーを持つオブジェクト信号の絶対的エネルギー値に関する情報から得ることができる。例えば、特定パラメータバンドで各チャネルで最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値をそれぞれA、Bとし、これに比例したステレオオブジェクトの相対的エネルギー比率に関する情報をそれぞれx、yとすれば、ステレオオブジェクト信号の左、右チャネルに含まれたエネルギーの値はA*x、B*yとして求められる。したがって、この値を使用すると、ステレオオブジェクト信号の左右チャネル間のエネルギー比率が計算できる。
上記情報は、オブジェクト信号はモノ(mono)であるが、ダウンミックス信号がステレオであり、このステレオダウンミックス信号にモノオブジェクト信号がステレオダウンミックスチャネルの両側に全て含めて転送する場合にも使うことができる。この場合、モノオブジェクト信号がステレオダウンミックス信号の両チャネルに含まれたエネルギーの比に関する情報、相関に関する情報が必要であり、これはステレオオブジェクトに必要な情報と同一である。モノオブジェクトをステレオダウンミックス信号の両チャネルに含める場合、多くの場合において相関値が1の信号、すなわち、L、R両側にレベルの差のみが存在する信号が含まれる。この場合、両信号間の相関は、パラメータ全域にわたって1である場合が存在する。このような場合、データ量を減らすため、該当の相関はパラメータ全域がいずれも1であることを表示する情報を用いて追加的な情報を減らすことができる。このような情報を使用する場合、パラメータバンド全体に対して相関値が1であることを毎パラメータバンドごとに表示せずに、全体パラメータに該当する相関値を一つの値で表示すれば良い。
また、複数のオブジェクト信号を一つのダウンミックス信号に結合すべくオブジェクト信号を加える場合、クリッピング(clipping)が発生する場合がある。これを防止するため、ダウンミックス信号に特定値を乗じ、ダウンミックス信号の最大値がクリッピング限界を超えないようにするゲイン(gain)値が必要である。このゲイン値は、時間によって変わることができる。したがって、この場合、各ダウンミックスチャネルに乗じられるゲイン値に関する情報が必要である。ダウンミックス信号がステレオダウンミックスである場合、このようなクリッピング防止のためのゲイン値は、L、Rそれぞれ独立して存在することとなる。これらの値をそれぞれを独立して表示して転送することができる。転送されるデータ量を減らすべくゲイン値をそれぞれ独立して転送せずに、ゲイン値の和と比に変形して転送しても良い。このように転送する場合、ゲイン値を別に転送する時よりもダイナミックレンジ(dynamic range)を減らすことができ、データ転送量を低減させることができる。
また、データ転送量を更に減らす目的で、オブジェクト信号を一つのダウンミックス信号にする時、クリッピングが起きたか否かを表示するビットを備え、該当のビットがクリッピングが起きたことを知らせる時にのみゲイン値を転送し、該当のビットがクリッピングが起きていないことを知らせる場合にはゲイン値に関する情報を転送しない方法を使用することも可能である。このようなクリッピングに関する情報は、複数のビットストリームを構成する場合においてダウンミックス信号を結合する場合にもクリッピング防止のために必要である。この時、複数のダウンミックス信号が結合される場合にクリッピング防止のためのゲイン値の逆数だけがダウンミックス信号の和に乗算される。
図13〜図16は、オブジェクトベースのオブジェクト情報を構成する多様な方法を説明するための図である。これは、特定オブジェクトの信号がモノ、ステレオだけでなく、マルチチャネルである場合にも適用可能である。
図13を参照すると、マルチチャネルオブジェクト信号をオブジェクトエンコーダ221を通じてダウンミックス信号とオブジェクト情報を生成した後、ダウンミックス信号は他のオブジェクト信号と共に再びオブジェクトエンコーダ223を経由するように構成されている。マルチプレクサ225はオブジェクトデコーダ221,223で生成した付加情報を併合する作業を行う。
図14は、MCUで複数のビットストリームを結合する方法と同様にして、マルチチャネルオブジェクト信号で一つのビットストリームを生成し、残りのオブジェクト信号を用いてビットストリームを生成した後、これらを再び一つの結合されたビットストリームとして生成する形態を示している。
図15を参照すると、マルチチャネルオブジェクトをまず、マルチチャネルエンコーダ241でダウンミックス信号とチャネルベースの付加情報として生成する。マルチチャネルエンコーダ241から出力されたダウンミックス信号は、残りのオブジェクト信号が入力として入るオブジェクトエンコーダ243に一つの独立したオブジェクト信号のように入力される。オブジェクトエンコーダ243では、このダウンミックス信号と残りのオブジェクト信号を用いてオブジェクトビットストリームを生成する。マルチプレクサ245では、マルチチャネルエンコーダ241から出力されるチャネルベースの付加情報とオブジェクトエンコーダ243から出力されるオブジェクト情報を結合して出力する。
図16は、マルチチャネルオブジェクトをマルチチャネルエンコーダ253に通過させ、残りのオブジェクト信号はオブジェクトエンコーダ251を通過させた後、これら両ダウンミックス信号を再びオブジェクトエンコーダ255に通過させる構造を示している。ここで、マックス257は、二つのオブジェクトエンコーダ251,255で生成されたオブジェクト情報とマルチチャネルエンコーダ253で生成されたチャネルベースの付加情報とを結合させる。
次いで、テレコンファレンス(Teleconference)などでオブジェクトベースのオーディオ符号化が用いられる場合、一つのオブジェクトビットストリームともう一つのオブジェクトビットストリームとが結合され、結合されたビットストリームを生成しなければならない場合について説明する。
図17は、二つのオブジェクトビットストリームが結合される場合を示している。図17を参照すると、二つのオブジェクトビットストリームが一つのオブジェクトビットストリームに結合される場合、それぞれのオブジェクトビットストリーム中のOTTボックスに該当するCLD、ICC等の情報を修正する必要がない。ただし、二つのオブジェクトビットストリームに属する二つのダウンミックス信号をダウンミックスする過程で追加のOTTボックスが1つ使われ、かつ、この追加されたOTTボックスによりCLD、ICC情報が追加される。
この場合、既存のそれぞれのオブジェクトビットストリームでツリー構成情報を表現する部分が、2つのビットストリームが結合されながら、統合されたツリー構成情報に変換されなければならない。結局、2オブジェクトビットストリームが結合されながら追加的な構成情報に対する修正と、各ボックスに対するインデクシングなどの修正と、追加されるOTTボックスでの情報計算と、2つのダウンミックス信号の再ダウンミックス等の追加作業としか必要とせず、既存のオブジェクトビットストリームに含まれたオブジェクト信号に関する情報自体を修正する必要はない。これにより、2つのビットストリームを一つのビットストリームに結合する簡単な方法を提供する。
また、図17で、2つのダウンミックス信号を再びダウンミックスせずに2チャネルダウンミックス信号として持つ場合、すなわち、図17で、OTTボックス11を省く場合、追加的なOTTボックスに対する計算をすることなく2つのビットストリームを結合することができる。
図18は、ダウンミックス信号がステレオである場合、独立したオブジェクトビットストリーム間の結合を示す図である。図18を参照すると、2つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、それぞれのオブジェクトビットストリームで使われたパラメータバンドの個数が互いに異なる場合が発生することがある。この場合、統合されたパラメータバンドの個数に統合することが必要である。一般的には、2つのオブジェクトビットストリームのうちパラメータバンドの個数が少ない側を、パラメータバンドの個数が多い側に合わせてマッピングする。
マッピングする方法は、各パラメータバンド間のマッピングに対するテーブルを持っており、これによってマッピングを行うことが一般的である。この場合、パラメータバンド拡張によるマッピング方法は簡単な線形的数式によって行うことができる。
マッピング時に複数のバンドが重なる区間では、重なった区間だけの割合でパラメータ値を混ぜる方法を用いることとなる。複雑さが少ないこと(Low complexity)が優先される場合、パラメータバンドの統合は、2つのオブジェクトビットストリームのうち、パラメータバンドの個数が多い側をパラメータバンドの個数が少ない側に合わせてマッピングすることも可能である。この場合にも、パラメータのマッピングは、上記の場合と同じ方法で行う。
前述した2つ以上の独立したオブジェクトビットストリームを一つの統合されたオブジェクトビットストリームとする場合、既存のオブジェクトビットストリームがそれぞれ持っているパラメータを再計算することなく結合可能である。しかし、ダウンミックス信号を結合する場合、このダウンミックス信号に関するパラメータを再びQMF/ハイブリッド分析(QMF/Hybride analysis)を通じて計算する必要がある。このようなダウンミックス信号に関するパラメータの計算に必要な計算量が相対的に大きく、このため、オブジェクトビットストリームを統合する時に再計算が必要でないという長所がやや薄れてしまう。既存のオブジェクトビットストリーム間の統合の場合にも再計算することなく統合可能なので、ダウンミックス信号間の再ダウンミックス時にもQMF/ハイブリッド分析/合成(QMF/Hybrid analysis/synthesis)過程を行わずにパラメータを抽出できる方法が必要である。このような過程は、オブジェクトビットストリーム上にあらかじめ各ダウンミックス信号のパラメータバンド別エネルギーに関する情報を含めておく方法で解決可能である。この場合、ダウンミックス信号の再ダウンミックス時にパラメータ計算に必要なQMF/ハイブリッド分析/合成過程無しで、オブジェクトビットストリーム上に含まれているパラメータバンド別エネルギー情報から簡単にCLDのような値を計算することができる。このようなエネルギー情報は、該当のパラメータの全体エネルギー値を表示しても良く、前述したように該当のパラメータで最も大きいエネルギーレベルを持つオブジェクトのエネルギーレベルの絶対値を表示しても良い。ICCのような情報の場合、ダウンミックス信号の時間ドメイン上で求められるICC値を全体パラメータに使用する簡単化した方法を使用しても良く、パラメータバンド数よりも少ないバンドで簡単な分析過程を経た後、それに対してICC値を求める方法も可能である。
このような場合、複数のダウンミックス信号を再ダウンミックスする過程で信号のクリッピングが起きる可能性がある。したがって、ダウンミックス信号のレベルを減少させて再ダウンミックス時にクリッピングが起きないようにする過程が必要である。このようなクリッピング防止のために信号のレベルを減少させる場合において、該当のレベル調整に関する情報がオブジェクトビットストリームに必要となる。このようなレベル調整に関する情報は、フレーム別に適用可能であり、クリッピングが起きるフレームに対してのみ該当のレベル調整情報を持っており、デコーディング時にこれを逆に適用すると元の信号のエネルギーレベルを求めることができる。このようなクリッピング防止のための情報を計算する過程は時間ドメイン上で可能なので、QMF/ハイブリッド合成/分析を行わなくても良い。
複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合することは、図12のような構造でも可能である。これを図19に示す。
図19は、Box1(261)を通じて生成された独立した第1オブジェクトビットストリームと、Box2(263)を通じて生成された第2オブジェクトビットストリームとを、Box3(265)を通じて結合された第3オブジェクトビットストリームとして生成する場合を示している。この場合、第1ビットストリームと第2ビットストリームに含まれた情報が、前述した特定パラメータバンド内の最も大きいエネルギーを持つオブジェクト信号のエネルギーレベルの絶対値と、これと比較した残りのオブジェクト信号の相対的エネルギー比率、Box1(261)とBox2(263)におけるダウンミックス信号に乗算されたゲイン値に関する情報などである場合、Box3(265)では追加的なオブジェクトパラメータを計算したり抽出する過程無しで入力として入る複数のオブジェクトビットストリームを単純に併合する過程のみが必要となる。
また、Box3(265)に入力として入る複数のダウンミックス信号をPCM信号に変換した後、単純和で一つのダウンミックス信号とする過程しか必要としない。この時、Box3(265)に入力される複数のダウンミックス信号を一つのダウンミックスとして結合する過程でクリッピングが起きる場合がある。したがって、クリッピングを防止するためには追加的にダウンミックス信号にゲイン値を乗じる過程が必要である。この場合、ゲイン値は併合されたオブジェクトパラメータに含まれて転送される。
複数のオブジェクトビットストリームを一つのオブジェクトビットストリームに結合する場合についてより詳細に説明すると、下記の通りである。図19の例を挙げると、SIDE INFO Aの特定パラメータには最も大きいエネルギーを持つオブジェクト信号に関する情報とそのエネルギー大きさの値、この値と比較した他のオブジェクト信号のエネルギー比に関する値などが含まれており、SIDE INFO Bにも同じ種類の情報が含まれている。この場合、2つのビットストリームを結合して一つのビットストリームとして構成する方法には、下記のような方法が適用可能である。
第一の方法は、2つのビットストリームを追加的な計算によって統合せずに、単純に一つのビットストリーム内に並列式で配置することである。この場合、図20に示すように、デコーダでは、転送されてきたビットストリーム内に複数のビットストリームが並列式で存在していることを知らせるビット情報に基づいて当該ビットストリームを分析することとなる。
図20に示すように、一つに結合されたビットストリームを表示する場合、MCUのように複数のオブジェクトビットストリームを一つのビットストリームに併合する所では単純に複数個のビットストリームが存在するという情報、いくつのビットストリームが結合されたかに関する情報、及び併合される前のビットストリームの位置を区分するビット情報以降に、併合される前の別個のビットストリームを単純に配置すればよい。この場合、デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが結合されたものかは情報分析によってわかる。この場合、複数のビットストリームを併合する際に単純な識別子に該当する情報を加える作業以外には他の付加的な作業をする必要がないという長所がある。しかし、これに関する情報を一定のフレームごとにヘッダに含めなければならないという負担が存在し、デコーダでは毎度転送されてきたビットストリームが最初から一つに生成されたビットストリームなのか、複数個のビットストリームが併合されたビットストリームなのかを判断しなければならない。
上の方法の代案としては、デコーダが複数のビットストリームが一つのビットストリームに併合されたものかが確認できないように若干の計算を通じてビットストリームを併合する方法がある。この場合を図21に示す。
図21を参照すると、A、Bの最も大きいオブジェクト信号のエネルギーレベルを比較した後、エネルギーレベルの大きい方のオブジェクト信号を併合されたストリーム(stream)でエネルギーレベルの最も大きいオブジェクト信号と定める。このオブジェクト信号が含まれていたビットストリームに含まれたオブジェクト信号のエネルギー比はそのまま使用し、他のビットストリームに含まれたオブジェクト信号のエネルギーはA、Bの最も大きいエネルギーの比だけを乗じて再び計算をする。この場合、パラメータバンド内で最も大きいエネルギーを持つオブジェクト信号と残りのオブジェクト信号間のエネルギーレベルの比を再び計算しなければならないが、複雑さはあまり高くない。デコーダでは、転送されてきたオブジェクトビットストリームが複数のビットストリームが併合されたビットストリームなのか否かが確認できないので、一般的な方法を使用してデコーディングできるという長所がある。
ダウンミックス信号がステレオである場合にも、2つのオブジェクトビットストリームの結合は、モノダウンミックス信号のオブジェクトビットストリームの結合における場合と類似な方式で可能であり、このような結合は、それぞれのオブジェクトビットストリームが持っていたオブジェクト信号に関する情報を再び計算せずに使用することができるという点から、簡単な結合方法であることがわかる。このように、オブジェクトビットストリームの構造を、最初にオブジェクト信号をダウンミックスするツリー構造に関する情報が置かれた後、各ツリーの枝に該当するボックスから得られたオブジェクト信号の情報が続く形態で構成することができる。
以上のオブジェクトビットストリームでは、特定のオブジェクト信号がダウンミックスチャネルのたった一箇所に存在する場合について説明した。すなわち、ダウンミックス信号がステレオである場合であり、特定オブジェクトの信号がステレオダウンミックス信号の両側ともに存在する場合についての説明がさらに必要である。こういう場合は主として、オブジェクトオーディオ符号化の下位互換性(backward compatibiliy)に対する条件でダウンミックス信号のみを典型的なステレオ再生機で再生する場合を考慮することによって発生する。すなわち、一般的なステレオ信号の場合、一つのオブジェクト信号が一方のチャネルにのみ存在するのではなく両チャネルともに存在する場合が一般的である。この場合、該当するダウンミックス信号を生成するときにオブジェクトビットストリームを生成する方法は、下記の通りである。
図22は、複数のオブジェクト信号をミキシングしてステレオダウンミックス信号を生成する方法を説明するための図である。図22には、4個のオブジェクト信号がミキシングされて、L、Rのステレオ信号としてダウンミックスされる過程が示されている。
このような場合、特定のオブジェクト信号がダウンミックスチャネルのL、R両側ともに含まれていることがわかる。特定のオブジェクト信号がL、R両側チャネルに分配される過程は、次の通りである。図22で、第1オブジェクト信号は、LとRにa:bの割合で分配して入力されている。これを数式にすると、下記の通りである。
Figure 2010508545
上記のような式から、各オブジェクト信号がL、Rに分配された比率がわかると、特定のオブジェクト信号がL、R両方ともに含まれた場合にも、L、Rにオブジェクト信号がどんな割合で含まれているかがわかる。すなわち、オブジェクト信号がステレオダウンミックスチャネルの両側ともに含まれた場合、これに対する比、すなわち、上の式でa、b値に関する情報が追加的に必要である。以降、L、Rの各チャネルにOTTボックスによるダウンミックスを通じてCLD、ICC等のオブジェクトに関する情報を計算することは、図23に示されている。
図23に示すように、ダウンミックスを進行しながら各OTTボックスで得られたCLD、ICC情報と、前述したL、Rに分配されたオブジェクト信号の分配比率に関する情報を持っていると、以後、エンドユーザがオブジェクト位置、プレイバック(playback)構成情報を変化させる場合にこれに対して適応的に変化されるマルチチャネルビットストリームを計算することができる。また、ダウンミックス前処理過程でステレオダウンミックス信号に変形を加えなければならない場合、その変形情報を求めて前処理部に伝達することも可能である。言い換えると、設けられた複数のオブジェクト信号の各々のチャネル分配比率情報がない場合、マルチチャネルビットストリームを計算する方法や、ダウンミックス前処理部で処理しなければならない情報を求める方法がない。オブジェクト信号のチャネル分配比率情報を、二つの整数又はスカラー(単位:dB)で表すことができる。
上述した場合、すなわち、オブジェクト信号がステレオダウンミックス信号の全てに含まれている場合には、該当の信号のチャネル間の分配比率に関する情報が必要である。この時、この情報は、前述したように該当のオブジェクト信号の単純なチャネル間のレベルの比率であっても良いが、より複雑な場合、周波数バンド別にその比率を異なって適用することができる。この場合には前述した比率a、bに関する情報が周波数バンド別にそれぞれ与えられなければならない。また、このような情報が後で適用される場合においても該当のオブジェクト信号のチャネル間の情報を使用する場合、パラメータバンド別に与えられた比率情報を使用しなければならない。また、より複雑なダウンミックス過程を経た場合、すなわち、一つのオブジェクト信号がダウンミックスされたチャネル両側に含まれ、バンド別にICC値に変化を与えてダウンミックスされた場合、これに関する情報も追加的に必要である。これは、最終的にレンダリングされたオブジェクト出力信号をデコーディングする過程で必須となる。また、このような方法は、前述したオブジェクトの全ての可能な構造に適用可能である。
次に、前処理(Pre−procesing)過程について、図24〜図27を参照して詳細に説明する。オブジェクトデコーダに入力されるダウンミックス信号がステレオ信号である場合、このダウンミックス信号はオブジェクトデコーダ内のマルチチャネルデコーダの入力として入る前に前処理過程を経なければならない。その理由は、前述したように、マルチチャネルデコーダは、ステレオダウンミックス信号を受けてマルチチャネル信号をデコーディングする過程で、ダウンミックス信号の左チャネルに位置した信号をマルチチャネルの右チャネルにマッピングすることができないためである。したがって、エンドユーザがステレオダウンミックスのうち左チャネルに属しているオブジェクト信号の位置を右方向に変更しようとする場合、ステレオダウンミックスチャネルに対して前処理過程を行ってからマルチチャネルデコーダに入力しなければならない。
このようなステレオダウンミックス信号の前処理過程は、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求めた後、この情報を用いてステレオ信号に適切な処理をすることで完了する。ここでは、オブジェクトビットストリームとレンダリングマトリクスから前処理情報を求め、これをステレオダウンミックス信号に適用する方法について説明する。
図24は、第1〜4オブジェクトの合計4個のオブジェクト信号がステレオダウンミックスとして構成される過程を示している。図24を参照すると、第1オブジェクト信号と第2オブジェクト信号の場合、それぞれa:b、c:dの割合で分割されてL、Rチャネルに含まれており、第3オブジェクト信号はLチャネルにのみ、第4オブジェクト信号はRチャネルにのみ含まれている。これらのオブジェクト信号のそれぞれはOTTボックスを経由しながらCLD、ICC等の情報を生成し、ダウンミックス信号となる。
このような場合、エンドユーザがオブジェクト信号の位置とレベル調整値を設定し、上記の数式1のような形式のレンダリングマトリクスを得たと仮定する。ここでは最終再生チャネルが5チャネルである場合を挙げると、そのレンダリングマトリクスの例は、下記の式4で示される。
Figure 2010508545
上記の数式4で表現したレンダリングマトリクスを上記のレンダリングマトリクスの説明方法によって説明すると、次の通りである。レンダリングマトリクスの値は整数値を使用するフォーマットで表現され、各行の5列の和は100になる時に該当のオブジェクト信号のレベル変化がないと仮定した。また、この和が1増えたり減る度に該当のオブジェクト信号のレベルが1dBずつ増減することを表現することとし、5列の順序が表すチャネルの位置はFL、FR、C、RL、RRとする。
第1オブジェクト信号の場合について説明すると、レンダリングマトリクスで表現される第1オブジェクト信号のチャネル間の分布は[30 10 20 30 10]で表現される。これら係数の和が100であるので、第1オブジェクト信号はレベル変化はなく、単に空間上の位置のみ変化されることがわかる。これを左側と右側の2方向に分けると、Left=30+30+20*0.5=70、Right=10+10+20*0.5=30で表現される。すなわち、レンダリングマトリクスは、第1オブジェクト信号に対してレベルは変化せずに、左側に70%、右側に30%分布させるという情報を知らせる。和が100より小さいか大きい場合、これはオブジェクト信号レベルの変化を意味し、これはダウンミックス信号の前処理過程で処理しても良く、チャネルベースの付加情報にADG形態に変換して転送しても良い。
ダウンミックス信号の前処理を行うためには、ダウンミックス信号にQMF/ハイブリッド変換を行った信号からパラメータを抽出する時のパラメータバンド別に信号の分布比を計算した後、これをレンダリングマトリクスの設定に合うように再分布させなければならない。このような再分布方法には様々な方法がある。
第一の再分布方法は、左側、右側の各チャネル別にOTTボックスのCLD、ICCなどを用いて左側、右側の信号のそれぞれに対して、マルチチャネルコーデックでOTTボックスを含む場合に各信号をデコーディングするのと同様にして各オブジェクト信号をデコーディングする。このように左側、右側の信号のそれぞれに対してデコーディングを行うと、各信号に含まれていたオブジェクト信号を求めることができる。この時、計算量を減らすために、ICCは用いずにCLDのみを用いてデコーディングをすることができる。特定のオブジェクト信号が左側と右側の両側ともに含まれている場合、該当のオブジェクト信号が左側及び右側にどんな割合で含まれているかは、前述したように、該当の情報からわかる。
このようにして求められた信号を、レンダリングマトリクスから分かる左側及び右側の信号比率に合うように、レンダリングマトリクスの比率よりも多く含まれている側の信号からその分だけを引いた後、これを他の側のチャネルオブジェクト信号に加える作業を行うことで、各オブジェクト信号の分配が完了する。このように分配が完了した信号を再びOTTボックスなどを通じて各チャネル別にダウンミックスをすることで、ダウンミックス前処理過程が完了する。直前のチャネル別オブジェクト信号のダウンミックスを通じてOTTボックスのCLD、ICCなどは再計算される。このような方法はマルチチャネルデコーディングで使用した方法を再使用可能であるという長所はあるが、各チャネルに対してオブジェクト信号数だけの信号をデコーディングし、これを再分配した後にチャネル別にダウンミックス過程を行わなければならない。
第2の再分布方法は、左側及び右側チャネルのそれぞれの信号において全てのオブジェクト信号をそれぞれデコーディングせずに、一度で左側のダウンミックス信号のうち右側のダウンミックス信号側に移されなければならない部分及び右側のダウンミックス信号のうち左側のダウンミックス信号側に移されなければならない部分を構成する方法が可能である。これを簡単に表示すると、図25のようになる。図25では、図24のようにダウンミックスされた信号の例でダウンミックス前処理する状況を仮定した。
同図において、L信号において左側に残るようになる信号L_Lと右側に加えられなければならない信号L_Rを求める方法は次の通りであり、これは、R信号においてR_LとR_R信号を求める方法にも同様に適用される。まず、L、R信号においてオブジェクト信号がどのような比率となっているかを知らなければならない。これは、上記の式2におけるa、b値に該当するものである。式2では、第1オブジェクト信号がLとRにa:bの割合で分配されていることが示されている。ここにレンダリングマトリクスから求められるL’とR’におけるオブジェクト1に対する比率を求めることができる。式3の例では、この比率が7:3として得られることがわかる。ここで、これら2つの情報、すなわち、第1オブジェクト信号のL、Rの比率a:bとL’、R’の比率7:3とを比較すると、第1オブジェクト信号がL、RからL’、R’の割合に変わるためにはL、R信号のいずれかからどれほどの比率を抽出して残りの一方に加えられるべきかに関する値を得ることができる。
このような方法を用いると、第2、第3及び第4オブジェクト信号に対してもそれぞれ、L、R信号のどちらの成分をどれほど抽出して残りの他方に加えるべきかに関する情報を求めることができる。これは、図25でLから抽出されてR’側に加えるL_Rと、Rから抽出されてL’側に加えられるR_Lに対する比率に関する情報を計算したことに該当する。この情報と一緒にL、R各チャネルのOTTボックスのCLD、ICC情報を用いると、各パラメータバンド別にどんな割合でLの信号をL_Lの信号とL_Rの信号とに分割する場合に第1、第2、第3及び第4オブジェクト信号に対して所望の比率のままに分割された信号が得られるかに対する最終比率値を求めることができる。
以上ではLをL_LとL_Rとに分ける時にエネルギーの比率をどのように分割するかについて説明した。ここに加えて、L_LとL_R間のICC値も決定しなければならない。これもまた、パラメータバンド別にL信号に対するOTTボックスのICC情報から求めることができる。すなわち、既存OTTボックスでオブジェクト間のICC値がわかるので、L_LとL_Rでオブジェクト間の比率を通じて最終ICC値を求めることが可能になる。これにより、LをL_L、L_R信号に、またRをR_L、R_R信号に分けた後、この信号に対してL_LとR_L、L_RとR_Rを合算し、最終的にダウンミックス前処理が完了したL’とR’を得ることができる。
上記した第2の方法について具体的な数字を挙げて説明すると、次の通りである。まず、ダウンミックス信号であるLとRが図24のような過程によって得られるとする。また、第1オブジェクト信号は、L、Rに1:2の割合で含まれており、第2オブジェクト信号は2:3の割合で含まれているとする。また、第3オブジェクト信号はLにのみ含まれていて1:0の割合で表現でき、同様に第4オブジェクト信号はRにのみ含まれていて0:1の割合で表現できるとする。図25からわかるように、各チャネルでオブジェクト信号がOTTボックスを経てダウンミックスされ、CLD、ICCなどの情報を得ることとなる。
レンダリングマトリクスの例は式4に示した。これは、上記の式3で用いた例と同一である。該当のレンダリングマトリクスにはエンドユーザが設定したオブジェクト信号の位置nに関する情報が入っており、また、これを通じてダウンミックス前処理過程で得られるL’、R’に関する情報を求めることができる。レンダリングマトリクスの構成とこれを解析する方法については、上記の式3で説明した通りである。
レンダリングマトリクスを通じて得られる、第1、第2、第3及び第4オブジェクト信号のL’、R’に分布される比率は、下記の式5のように計算される。
Figure 2010508545
L、R信号に分布されていた第1、第2、第3及び第4オブジェクト信号の比率は前述した通りであり、下記の式6で表現される。
Figure 2010508545
上記の式5で、オブジェクト3のL’、R'比率の和は110であり、オブジェクト4のL’、R’比率の和は95であり、これは、オブジェクト3は25だけのレベルが大きくなるということを意味し、オブジェクト4は5だけのレベルが小さくなるということを意味する。このL’、R’比率の和が100であるとレベルの変化がないことを意味し、1増加したり減少することが該当のオブジェクトのレベルが1dB増加または減少するということを意味する場合、第3オブジェクト信号は、10dBレベル増加したことを意味し、第4オブジェクト信号は5dBレベル減少したことを意味することとなる。
上記の式5及び6に表現した第1、第2、第3及び第4オブジェクト信号に対するL、Rでの比率とレンダリングマトリクスを経た後に得られるL’、R’での比率とを比較しやくするため、比率の和が100となるように再び表現すると、下記の式7のようになる。
Figure 2010508545
上記の式7から、ダウンミックス前処理前後に各オブジェクトが左側及び右側にどんな分布とされているか、このような結果を得るためにダウンミックス信号の左側及び右側信号においてどのオブジェクト信号がどちらにどれだけ再分配されるべきかが容易にわかる。例えば、第2オブジェクト信号の場合、40:60から30:70へと比率が変わり、これは、ダウンミックス前処理を通じてL側の第2オブジェクト信号の成分40のうち10がR側へと移動しなければならないということを意味する。これは、Lに含まれているオブジェクト2の成分の25%(10/40*100)がR側に移動しなければならないということを意味する。これについて再び整理すると、下記の式8の通りである。
Figure 2010508545
式8を参照して図25のL_L、L_R、R_L、R_Rを表現すると、下記の式9のようになる。L信号に対して特定パラメータで第1、第2及び第3オブジェクト信号が占める比をLに対して示すと、下記の式9のようになる。式の複雑さを減らすためにパラメータ表示はしない。
Figure 2010508545
上記の式9で、各オブジェクト信号の値をOTTボックスのCLDを用いてL、Rに対する比で表現すると、下記の式10のようになる。ちなみに、下記の式10の値は、パラメータバンド別に表現されなければならないが、式の複雑さを避けるためにパラメータ表示はしないものとする。ここで、CLDは逆量子化された値を意味するとする。
Figure 2010508545
図25で、各パーシング部で用いられるCLDは、下記の式11で求められ、式10に代入すると具体的な値が得られる。
Figure 2010508545
このような方式で、図25においてLからL_L、L_R信号を生成するパーシング部に用いられるCLDとICCを求めることができ、同様に、RからR_L、R_R信号を生成するためのCLDとICCを求めることができる。これを用いて各信号を生成した後、同図のように、L_LとR_Lとを合算し、L_RとR_Rと合算することで、ダウンミックス前処理されたステレオ信号が得られる。最終再生チャネルがステレオである場合には、ダウンミックス前処理が完了したL’、R’信号を出力として用いることができる。この場合、特定オブジェクト信号のレベルが増加または減少した場合に対してはまだ処理されていないので、この処理ができるモジュールを選択的に追加することができる。該モジュールの機能は、マルチチャネルデコーディングでADGが行う処理過程と同一である。また、追加的にこのようなオブジェクト信号のレベル処理を、前述したダウンミックス前処理過程内に追加することも可能である。この場合にも、レベル処理方法はADG処理方法と同一である。
図25は、図26のような方法で表現されても良い。図26では、図25とは違い、リミックスされた出力L’、R’信号の相関値を合わせるためのデコリレーション作業が第1及び第2パーシング部で行われずに、L’あるいはR’信号の出力(output)に適用されている。Pre_L’とPre_R’の信号はL、R間のエネルギーレベル差が補正された信号を意味する。このうちいずれか一方の信号にデコリレータを適用した後、ミキシング過程を通じて相関値に該当する信号を生成する。
前述したダウンミックス前処理を経たステレオ信号は、マルチチャネルデコーダに入力される。エンドユーザが設定したオブジェクト位置とプレイバック(playback)構成に合うマルチチャネル出力を生成するためには、ダウンミックス前処理の出力信号と共にマルチチャネルデコーディングのためのチャネルベースの付加情報が必要である。このようなチャネルベースの付加情報を求める方法を、上記の例について説明すると、次の通りである。ダウンミックス前処理を経て出力された信号L’、R’がマルチチャネルデコーダの入力信号として入力されるので、この信号に対して式5を参照して再び整理すると、下記の式12のようになる。
Figure 2010508545
また、上記の式2のレンダリングマトリクスで各チャネルに対するオブジェクト信号の分布を式で表示すると、下記の式13のようになり、L’、R’が5.1チャネルに拡張される構造を図27に示す。
Figure 2010508545
図27で、各TTTボックスとOTTボックスのパラメータを計算しなければならない。この場合にも、パラメータの計算はパラメータバンド別に行われる。以降の式においてもパラメータバンドの表示がされていなければならないが、式の簡単化のためにパラメータバンド表示は省略する。TTT、OTTボックスのパラメータ計算式は、パラメータバンド単位に行われることに留意されたい。
図27で、TTTボックスはエネルギーベースモード(Energy based mode)と予測モード(prediction mode)の2種類のモードを使うことができる。エネルギーベースモードで動作する場合には2個のCLDが必要であり、予測モード(prediction mode)を使う場合には2個のCPCと1個のICCが必要である。
エネルギーベースモードの場合、CLDを求めるためには、図27でL"、R"、Cのエネルギー比率を知らなければならない。これは、式6、10、13を通じて求めることができる。L"のエネルギーを求める方法は式14に示されており、R"、Cに対しても同一式を適用すれば良い。
Figure 2010508545
上記の式14と同一の方法でR"、Cに対してもエネルギーを求めることができる。このようにして求めたL"、R"、Cのエネルギーを用いてエネルギーベースモードにおけるTTTボックスに使われるCLD値を求めることができ、これは、式15で示される。
Figure 2010508545
上記の式14では式10における値が使われた。この時、第1及び第2オブジェクト信号に対して代入された値は、式10で左チャネルに対する値が使われた。これと同じ方法で、式10で右チャネルに対する値を代入して計算することもできる。これから推論できる点は、図26で右チャネルのOTT3、OTT4のCLD、ICCの値をOTT1、OTT2のCLD、ICC値から計算できるという事実である。これは全てのオブジェクト信号のツリー構造に適用可能なわけではなく、特殊なケースに該当する。この場合、オブジェクトビットストリームに含まれて転送されてくる情報をOTTボックスのそれぞれに転送しても良く、一部のOTTボックスにのみ転送した後、転送しなかったボックスに関する情報は計算を通じて得ても良いということを意味する。
上記と類似な方式として、OTTボックスA、B、Cに対してもCLD、ICCパラメータを計算することができ、計算されたマルチチャネルパラメータをマルチチャネルデコーダの入力として伝達し、マルチチャネルデコーディングを行うと、エンドユーザーの所望するオブジェクト位置とプレイバック(playback)構成に合うようにレンダリングが完了したマルチチャネル信号が得られる。
上記のマルチチャネルパラメータには、オブジェクト信号レベルに変化がある場合、該当のレベルがダウンミックス前処理で調整されなかったとき、マルチチャネルパラメータにADG形態で含まれて転送され、マルチチャネルデコーディング過程上でオブジェクト信号のレベルを修正する。上記の例においてレベル補正がダウンミックス前処理過程で調整されなかった場合にADG値を計算する方法は、下記の通りである。
上記の例で、オブジェクト信号のレベル調整は、レンダリングマトリクスによって第3オブジェクト信号に対して10dB大きくなり、第4オブジェクト信号に対して5dB小さくなるように設定された。これはADGが適用されるL’、R’信号に対しては、L’信号で第3オブジェクト信号が5dB大きくなり、第4オブジェクト信号に対して2.5dB小さくなるように設定されたし、L’信号でオブジェクト3が5dB大きくなり、オブジェクト4に対して2.5dB小さくなるように設定された。L’信号で第3及び第4オブジェクトのレベル調整がなされる以前と以降の比率を計算すると、下記の式16のようになる。
Figure 2010508545
この式16に上記の式10の値を代入することによって値を求めることができる。R信号に対しても同じ方法でADG適用前後のエネルギーの比を求めることができる。このようにして求められた値は、オブジェクト信号のレベル調整前後における該当のパラメータバンドのエネルギー変化の比率であるから、これを通じてADG値を求めることができる。ADG値は、次の式17で求められる。
Figure 2010508545
このようにして求められたADG値は、マルチチャネルデコーディングのADG量子化テーブルによって量子化されて転送される。また、マルチチャネルデコーディングのADGテーブルを使用する場合よりもさらに精密な調整が必要な場合、該当の情報をADGの形態で転送し、マルチまだデコーダに適用せずにダウンミックス前処理部で行うことも可能である。
一方、オブジェクトビットストリームでオブジェクト信号を表現する時に使用したパラメータバンドと、マルチチャネルデコーダで使われるパラメータバンドの個数及びバンド間の間隔が異なる場合がありうる。この場合、オブジェクトのパラメータバンドからマルチチャネルデコーダのパラメータバンドにマッピングする方法が必要である。このとき、線形的なマッピング方法を使用する。線形的なマッピングとは、例えば、オブジェクトの特定パラメータバンドの領域がマルチチャネルデコーダの特定パラメータバンドの2箇所にわたっている場合、2箇所に含まれている領域の比率でオブジェクトのパラメータを分割して適用することを意味する。これは、オブジェクトの複数のパラメータバンドがマルチチャネルデコーディングの特定パラメータの1箇所に含まれた場合、これらオブジェクトパラメータの平均値を適用することを意味する。また、既にマルチチャネル標準に含まれているバンド間のマッピングテーブルを使用しても良い。
テレコンファレンスの場合においてオブジェクトコーディングを使用する状況を取り上げると、オブジェクト信号には多数の話し手の音声が該当し、オブジェクトデコーダではこれらのオブジェクト信号のそれぞれに該当する音声を特定スピーカーから再生することとなる。このように同時に多数の話し手が話をする場合、各話し手の信号を正確に区分し、それぞれのスピーカーに特定の話し手に該当する人の音声が配置されるようにデコーディングすることは難しい。この場合、オブジェクト信号に該当する話し手をそれぞれ異なるスピーカーに配置するようにする、すなわち、レンダリングする過程がダウンミックス信号よりも認識度が悪くなる程度の音質歪みを引き起こすという恐れがある。このような歪みを防止するため、一人が話をしているのか、同時に数人が話をしているのかを表す情報を含めることができる。このような情報によって、多数の話し手が同時に話す場合、敢えてそれぞれのオブジェクト信号を特定スピーカーに配置させるデコーディング作業をすることによって音質の歪みを誘発させずに、ダウンミックス信号とほぼ同様なデコーディングをしない信号が各スピーカーに出力されるようにトランスコーダのチャネルベースビットストリームを調整する方法が可能である。
例えば、a、b、c、d、eと5人の話し手に該当するオブジェクト信号があり、これらをそれぞれA、B、C、D、Eというスピーカーに配置されるようにデコーディングする場合が考えられる。もしa、b、cの3人の話し手が同時に話す場合、ダウンミックス信号にはa、b、cの3人の話し手の音声がダウンミックスされて含まれている。この場合、一般的なオブジェクトデコーディング過程は次の通りである。まず、a、b、cの音声が含まれたダウンミックス信号でa、b、cの音声に該当する部分に関する情報をマルチチャネルビットストリームに構成し、Aスピーカーからaの音声が出力され、Bスピーカーからはbの音声が出力され、cスピーカーからはcの音声のみ出力されるようにデコーディングが行われる。しかし、このようにする場合、各スピーカーからは該当の音声信号が歪まれた状態で出力され、むしろダウンミックス信号の場合よりも認識率が低下し、話し手間の音声が完壁に分離されないという不都合がある。このような場合、a、b、cが同時に話しているという情報がSAOCビットストリーム上に含まれて伝達されると、トランスコーダではA、B、Cスピーカーから該当のダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成する。これにより、信号の歪みが防止される。
多数の人が同時に話す場合、実際にも特定の一人が話す声のみを聞くことはできないので、人々の声をそれぞれ分離して所望の位置に出力させて歪みを発生させることにより、ダウンミックス信号をそのまま出力することがより実際の環境に近いといえよう。この場合、トランスコーダで、同時に話している人々に該当するスピーカーにダウンミックス信号がそのまま出力されるようにマルチチャネルビットストリームを生成しても良いが、該当のスピーカーに該当する話し手の音声が歪みを発生させないような範囲で相対的にやや大きく出力されるようにマルチチャネルビットストリームを生成しても良い。
また、オブジェクトビットストリームに複数の話し手が同時に話をしているか否かを表示して伝達せずに、オブジェクトエンコーダでこれを勘案してオブジェクトビットストリームを変形して伝達することも可能である。この場合、オブジェクトデコーダでは普段のとおりにデコーディングをするが、複数の話し手が話している場合、複数の話し手に該当するスピーカーの出力がダウンミックス信号、あるいは、対応するスピーカーに該当する話し手の音声が歪みの生じないような範囲でやや大きくなった信号がデコーディングされて出力されることとなる。
次に、マルチチャネルデコーダに伝達されるHTRFなどのような3D情報について説明する。
オブジェクトデコーダがバイノーラルモードで再生される場合、オブジェクトデコーダ内に含まれたマルチチャネルデコーダがバイノーラルモードで作動する。この時、エンドユーザが各オブジェクト信号を空間上に位置させた情報に基づいて最適化されたHRTFのような3D情報が、マルチチャネルデコーダに転送される。
このときに転送される3D情報を求める方法を、2個のオブジェクト信号が任意の位置1、2に位置している場合を挙げて説明する。このような場合、位置1、位置2に該当する3D情報は、レンダリングマトリクス生成部あるいはトランスコーダに含まれている。レンダリングマトリクス生成部に3D情報が含まれている場合、該当のオブジェクト信号が位置している位置に該当する3D情報をトランスコーダ側に転送する。3D情報がトランスコーダに含まれている場合、レンダリングマトリクス生成部は単に該当のオブジェクト信号が位置している位置に関する情報、すなわち、どの位置に該当の3D情報を使用すべきかに関するインデックス情報のみをトランスコーダに転送する。
このようにオブジェクト信号が2個あり、該当の位置に関する3D情報がある場合、バイノーラル信号は下記の式18から得られる。
Figure 2010508545
マルチチャネルバイノーラルデコーダでは、5.1スピーカー再生を仮定した状態で、5個のスピーカー位置に関する3D情報を用いてバイノーラルサウンドをデコーディングする。これを理論的な式にすれば、下記の式19のようになる。
Figure 2010508545
式18と式19から第1オブジェクト信号の左チャネルに対する部分のみを別に分離すると、下記の式20で表現できる。同様に、第1オブジェクト信号の右チャネルに対する部分と、第2オブジェクト信号の左側及び右側チャネルに対する部分も、式20で表現できる。
Figure 2010508545
例えば、第1オブジェクト信号と第2オブジェクト信号の全体エネルギーの比率をa:bとしする。また、第1オブジェクト信号がFLチャネルに含まれた比率をcとし、第2オブジェクト信号がFLチャネルに含まれた比率をdとすれば、FLで第1オブジェクト信号と第2オブジェクト信号が占めている比率はac:bdとなる。この場合、FLのHRTFは下記の式21から得られる。
Figure 2010508545
上記のような方法によってマルチチャネルバイノーラルデコーダに使われる3D情報を求めることができる。このようにして求められた3D情報を用いてバイノーラルデコーディングを行う場合、マルチチャネルデコーディングにおいて5個のスピーカー位置に固定されている3D情報を使用する時よりも、実際オブジェクト信号が位置している所に該当する3D情報を使用することができるから、より実感溢れるバイノーラル信号を再生することができる。
このようにオブジェクト信号の空間上に位置している所に該当する3D情報からマルチチャネルバイノーラルデコーダに使われる3D情報を計算する方法は、上記のようなエネルギー比率に関する情報のみを用いて行っても良いが、各オブジェクト信号間のICC情報に基づいて各オブジェクト位置に該当する3D情報を加算する時に、適切なデコリレーション過程を経て加算する方法を追加しても良い。
次に、エフェクトプロセシング(Effect processing)は、ダウンミックス前処理中に含めて処理する場合と、エフェクト結果をマルチチャネルデコーダ出力に加える場合とに分けることができる。ダウンミックス前処理中に含める場合において、特定オブジェクト信号に対するエフェクトを処理しようとする場合、前述したようにダウンミックス前処理においてL信号をL_L、L_R信号に分け、R信号をR_L、R_R信号に分ける過程に加えて、エフェクト処理を希望する信号を別個に抽出しなければならない。これは次の方法で処理可能である。
第一に、L、R信号から該当のオブジェクト信号を抽出し、これを除くオブジェクト信号に対してL_L、L_R、R_L、R_R信号を生成した後、別に抽出したオブジェクト信号に対してエフェクト処理をし、続いて、この信号はレンダリングマトリクスの情報によって左側及び右側の信号に分け、左側信号をL_L、R_L信号にさらに加え、右側信号をL_R、R_R信号にさらに加える方法がある。
第二に、L’、R’信号を生成した後、この信号からエフェクト処理しようとするオブジェクト信号の成分を抽出した後、エフェクト処理後に再び加える方法がある。
エフェクトプロセシングの場合、特定オブジェクト信号のスペクトル形態を変えても良い。例えば、特定オブジェクト信号に対して全体レベル調整だけでなく、高音成分を増やしたり、低音成分を増やしたりしたい時、該当のスペクトル領域に対してのみレベル調整を行うことが可能である。このような処理をする場合、スペクトルの値が変形されたパラメータバンドの場合、オブジェクトビットストリームを通じて受け取ったオブジェクト信号の情報を修正する必要がある。例えば、特定オブジェクト信号の低音成分を増やしたと仮定する場合、該オブジェクト信号の低音領域のエネルギーが大きくなったので、これに関する情報がオブジェクトビットストリームを通じて受け取ったものと異なってくる。これを修正するため、オブジェクトビットストリーム自体で当該オブジェクト信号に関する情報を修正する方法を用いることができる。また、スペクトル変化に関する情報をトランスコーダで受信してマルチチャネルビットストリームを生成するとき、この変化を適用してマルチチャネルビットストリームを生成する方法も可能である。
図28〜図33は、複数のオブジェクトベースの付加情報と複数のダウンミックス信号を一つの付加情報とダウンミックス信号に結合する場合を説明するための図である。テレコンファレンスなどでは、複数のオブジェクトベースの付加情報と複数のダウンミックス信号を、一つの付加情報とダウンミックス信号に結合しなければならない状況が発生し、このような場合、下記の事項を考慮しなければならない。
まず、図28は、オブジェクト符号化されたビットストリームの一例を示す。図28に示すように、オブジェクト符号化されたビットストリームは、ダウンミックス信号と付加情報が互い時間整合(time align)されている。したがって、このようなビットストリームは、オブジェクトデコーダで追加の考慮事項なしでデコーディング過程を行うことができる。しかし、複数のビットストリームを一つのビットストリームに結合する場合、状況によってはダウンミックス信号とオブジェクト情報間の時間整合を補正しなければならない場合が発生することができる。
図29は、オブジェクト符号化されたビットストリームが結合される最も簡単な場合の例を示している。図28の表示方法と同様に、四角形の上に付した数字1、2、3はフレーム番号を示し、四角形の上段は付加情報を、下段はダウンミックス信号を示す。そして、2つのオブジェクト符号化されたビットストリームはそれぞれBS1とBS2で示す。
図29を参照すると、ダウンミックス信号を一つに結合するためにはまず、圧縮コーデックで圧縮されているダウンミックス信号をPCM(Puls code modulation)信号に変換し、これを時間ドメイン上でダウンミックスした後、再び圧縮コーデック形式に変換する過程を行うこととなる。この過程で図29の(b)に示すように、遅延dが発生する。したがって、一つに結合されたビットストリームをデコーディングする場合にダウンミックス信号とオブジェクト情報との時間整合に留意しなければならない。
このような状況の発生時に、総遅延値がわかるとその遅延分だけを補正しなければならない。このような遅延はダウンミックスに使われる圧縮コーデックによってそれぞれ異なり、したがって、オブジェクト情報などに該当の遅延値を表示できるビットを割り当てることによって様々な遅延値を表示すると良い。
図30は、複数のビットストリームを一つのビットストリームに結合する場合においてそれぞれのビットストリームに使われたダウンミックス信号のコーデックが互いに異なるか、オブジェクト情報の構成が互いに異なることから、それぞれ異なる遅延が発生する場合を挙げている。
図30では、BS1とBS2に使われたコーデックの種類または付加情報の構成が異なる場合、ダウンミックス信号を結合するためにダウンミックス信号を時間ドメイン信号に変換し、これを再び一つの圧縮コーデックで変換するときに発生する総遅延が互いに異なる場合である。この場合、BS1とBS2間の互いに異なる遅延を考慮せずに結合する場合、ダウンミックス信号間に、またダウンミックス信号と付加情報間の時間整合に問題が発生することとなる。
これを解決する方法として、図31に示す方法を使用することができる。
図31を参照すると、BS1でダウンミックス信号に発生する遅延d1に付加的な遅延(additional delay)を加え、総遅延がBS2で発生する遅延d2と同じ値になるように調整する例が示されている。このように遅延を調整すると、BS1をBS2と結合する方法は、図30で示す方法と同一になる。すなわち、一つに結合すべきビットストリームが複数である場合、最も大きい遅延が発生するビットストリームを基準にして最終遅延値を定めればよい。
一般的に複数のビットストリームを一つに結合する場合でないと遅延値は0となるので、遅延の有無を表示するビット情報を含めた後、この情報が遅延があることを表示すると、以降具体的な遅延値を表示するビット情報を読むようにすることによって遅延表示に使われるビットを最小化することができる。
図32には、遅延差を補正する他の方法を示す。図32で、BS1で発生する遅延d1を基準にして時間整合する方法を示している。2番目のフレームを取り上げると、このフレームに該当するBS1の付加情報は2番目のフレームに該当する付加情報をそのまま使用することができる。これに対し、BS2の付加情報は、1番目のフレームに該当する付加情報と2番目のフレームに該当する付加情報がいずれも含まれている。したがって、当該フレームにおいて、BS2に該当する付加情報は、BS2の1番目のフレームの付加情報と2番目のフレームの付加情報に対して該当の区間を占める比率による平均化(averaging)を行う方法あるいは補間(interpolation)を行う方法を通じて得ることができる。こうすると、図32の(b)で点線で表示した各区間に該当するBS1、BS2の付加情報を得ることができ、これらの付加情報を一つの付加情報に結合することは、図29で使用した方法をそのまま用いれば良い。ダウンミックス信号の場合は、遅延がそれぞれ異なる状態で追加的な遅延補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれる遅延情報はd1に該当する情報が保存される。
図33には、上述した遅延差を補正するさらに他の方法を示す。図33は、BS2で発生する遅延d2を基準にして時間整合をする方法を示している。1番目のフレームを取り上げると、このフレームに該当するBS2の付加情報は、1番目のフレームに該当する付加情報をそのまま使用することができる。これに対し、BS1の付加情報は1番目のフレームに該当する付加情報と2番目のフレームに該当する付加情報がいずれも含まれている。したがって、2番目のフレームにおいて、BS1に該当する付加情報は、BS1の1番目フレームの付加情報と2番目のフレームの付加情報に対して当該区間を占める比率による平均化(averaging)を行う方法あるいは補間(interpolation)を行う方法を通じて得ることができる。こうすると、図33の右図、つまり(b)に点線で表示した各区間に該当するBS1、BS2の付加情報を得ることができ、これらの付加情報を一つの付加情報に結合することは、図29で使用した方法とすれば良い。ダウンミックス信号の場合、遅延がそれぞれ異なる状態で追加的な遅延補正を行わずに一つのダウンミックス信号に結合する。この場合、結合されたビットストリームに含まれる遅延情報はd2に該当する情報が保存される。
以上の如く、複数のオブジェクト符号化されたビットストリームを一つのビットストリームに結合する場合、各オブジェクト符号化されたビットストリームに含まれているダウンミックス信号を一つのダウンミックス信号に結合する過程が必要である。この場合、様々な圧縮コーデックによるダウンミックス信号を一つのダウンミックス信号に結合するためには、圧縮されている信号をPCM信号あるいは特定周波数ドメイン上の信号に変換し、該当のドメインでダウンミックス信号を結合し、また特定圧縮コーデックで信号を変換する過程が要求される。この時、圧縮コーデックがどんな種類かによって、ダウンミックス信号がPCM段階で結合されるか、特定周波数ドメインなどで結合されるかによってて様々な遅延が発生することとなる。このような遅延は、最終に結合されたビットストリームをデコーディングするデコーダではその具体的な値が予測できない。したがって、該当の遅延はビットストリーム上に含まれて伝達されなければならない。この遅延は、PCM信号上での遅延サンプル数を表現しても良く、特定周波数ドメイン上での遅延サンプル数を表現しても良い。
一方、本発明は、プロセッサが読取りできる記録媒体にプロセッサが読取りできるコードとして具現することが可能である。プロセッサが読取りできる記録媒体は、プロセッサにより読取り可能なデータが記憶される全ての種類の記録装置を含む。プロセッサが読取りできる記録媒体の例には、ROM、RAM、CD-ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置などがあり、また、インターネットを介した転送などのような搬送波の形態で具現されることも含む。また、プロセッサが読取りできる記録媒体はネットワークで連結されたシステムに分散され、分散方式でプロセッサが読取りできるコードが記憶され実行されることができる。
以上では具体的な実施例に挙げて本発明を説明してきたが、本発明は、具体例に限定されず、特許請求の範囲で請求する本発明の要旨を逸脱しない限度内で、当該発明が属する技術分野における通常の知識を持つ者が様々に変形実施できるということは明らかであり、このような変形実施は本発明の技術的思想や展望から個別的なものとして理解されてはいけない。

Claims (16)

  1. 少なくとも2つのチャネルを含むダウンミックス信号とオブジェクト情報を受信する段階と、
    ダウンミックスパラメータを含むオブジェクト情報を受信する段階と、
    前記ダウンミックスパラメータに基づいて、オブジェクト信号の変換とダウンミックスに用いられた加重情報を生成する段階と、
    を含むことを特徴とするオーディオ復号化方法。
  2. 少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報を受信する段階と、
    前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックス信号をチャネル別に変更する変更情報を生成する段階と、
    前記変更情報を前記ダウンミックスチャネル信号に適用して前記ダウンミックスチャネル信号を変更する段階と、
    を含むことを特徴とするオーディオ復号化方法。
  3. 前記オブジェクトベースの付加情報と、レンダリング制御情報を用いてチャネルベースの付加情報を生成する段階をさらに含むことを特徴とする、請求項2に記載のオーディオ復号化方法。
  4. 前記チャネルベースの付加情報と前記変更されたダウンミックス信号を用いてマルチチャネルオーディオ信号を生成する段階をさらに含むことを特徴とする、請求項3に記載のオーディオ復号化方法。
  5. 前記オブジェクトベースの付加情報が、前記ダウンミックスゲイン情報が前記オブジェクトベースの付加情報に含まれるか否かを表すフラッグ情報を含むことを特徴とする、請求項2に記載のオーディオ復号化方法。
  6. オブジェクト信号をダウンミックスして少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号を生成する段階と、
    前記オブジェクト信号に関するオブジェクト関連情報を抽出し、前記オブジェクト関連情報に基づいてオブジェクトベースの付加情報を生成する段階と、
    前記ダウンミックスチャネル信号をチャネル別に変更するゲイン情報を前記オブジェクトベースの付加情報に挿入する段階と、
    を含むことを特徴とするオーディオ符号化方法。
  7. 前記ダウンミックス信号、及び前記ゲイン情報が挿入されたオブジェクトベースの付加情報を結合したビットストリームを生成する段階をさらに含むことを特徴とする、請求項6に記載のオーディオ符号化方法。
  8. 前記ビットストリームには、前記ゲイン情報を転送するか否かを表すフラグ情報が含まれることを特徴とする、請求項7に記載のオーディオ復号化方法。
  9. 入力オーディオ信号から、少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報と、を抽出するデマルチプレクサと、
    前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックスチャネル信号をチャネル別に変更する変更情報を生成し、前記変更情報を前記ダウンミックスチャネル信号を適用して前記ダウンミックスチャネル信号をチャネル別に変更するトランスコーダと、
    を含むことを特徴とするオーディオ復号化装置。
  10. 前記トランスコーダが、前記オブジェクトベースの付加情報及びレンダリング制御情報を用いて、チャネルベースの付加情報を生成することを特徴とする、請求項9に記載のオーディオ復号化装置。
  11. 前記変更されたダウンミックス信号と前記チャネルベースの付加情報を用いてマルチチャネルオーディオ信号を生成するマルチチャネルデコーダをさらに含むことを特徴とする、請求項10に記載のオーディオ復号化装置。
  12. 請求項1に記載の方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
  13. 少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号と、オブジェクトベースの付加情報を受信する段階と、
    前記オブジェクトベースの付加情報から抽出したゲイン情報に基づいて、前記ダウンミックス信号をチャネル別に変更する変更情報を生成する段階と、
    前記変更情報を前記ダウンミックスチャネル信号に適用してダウンミックス信号を変更する段階と、を含むオーディオ復号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
  14. 前記オブジェクトベースの付加情報と、レンダリング制御情報を用いてチャネルベースの付加情報を生成する段階と、
    前記チャネルベースの付加情報と前記変更されたダウンミックス信号を用いてマルチチャネルオーディオ信号を生成する段階と、をさらに含むことを特徴とする請求項13に記載のプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
  15. オブジェクト信号をダウンミックスして少なくとも2つのダウンミックスチャネル信号を含むダウンミックス信号を生成する段階と、
    前記オブジェクト信号に関するオブジェクト関連情報を抽出し、前記オブジェクト関連情報に基づいてオブジェクトベースの付加情報を生成する段階と、
    前記ダウンミックスチャネル信号をチャネル別に変更するゲイン情報を前記オブジェクトベースの付加情報に挿入する段階と、を含むオーディオ符号化方法をプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
  16. 前記ダウンミックス信号、及び前記ゲイン情報が挿入されたオブジェクトベースの付加情報を結合したビットストリームを生成する段階をさらに含むことを特徴とする請求項15に記載のプロセッサで実行させるためのプログラムを記録したプロセッサが読取りできる記録媒体。
JP2009534511A 2007-02-14 2008-02-14 オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置 Active JP5232795B2 (ja)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US90108907P 2007-02-14 2007-02-14
US60/901,089 2007-02-14
US90164207P 2007-02-16 2007-02-16
US60/901,642 2007-02-16
US90381807P 2007-02-28 2007-02-28
US60/903,818 2007-02-28
US90768907P 2007-04-13 2007-04-13
US60/907,689 2007-04-13
US92402707P 2007-04-27 2007-04-27
US60/924,027 2007-04-27
US94762007P 2007-07-02 2007-07-02
US60/947,620 2007-07-02
US94837307P 2007-07-06 2007-07-06
US60/948,373 2007-07-06
PCT/KR2008/000885 WO2008100100A1 (en) 2007-02-14 2008-02-14 Methods and apparatuses for encoding and decoding object-based audio signals

Publications (2)

Publication Number Publication Date
JP2010508545A true JP2010508545A (ja) 2010-03-18
JP5232795B2 JP5232795B2 (ja) 2013-07-10

Family

ID=39690272

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2009534511A Active JP5232795B2 (ja) 2007-02-14 2008-02-14 オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置
JP2009532306A Pending JP2010506232A (ja) 2007-02-14 2008-02-14 オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
JP2009532305A Active JP5254983B2 (ja) 2007-02-14 2008-02-14 オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
JP2012120606A Expired - Fee Related JP5291227B2 (ja) 2007-02-14 2012-05-28 オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置

Family Applications After (3)

Application Number Title Priority Date Filing Date
JP2009532306A Pending JP2010506232A (ja) 2007-02-14 2008-02-14 オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
JP2009532305A Active JP5254983B2 (ja) 2007-02-14 2008-02-14 オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置
JP2012120606A Expired - Fee Related JP5291227B2 (ja) 2007-02-14 2012-05-28 オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置

Country Status (11)

Country Link
US (7) US8271289B2 (ja)
EP (3) EP2111616B1 (ja)
JP (4) JP5232795B2 (ja)
KR (3) KR101049143B1 (ja)
AT (1) ATE526659T1 (ja)
AU (3) AU2008215230B2 (ja)
BR (2) BRPI0802614A2 (ja)
CA (3) CA2645915C (ja)
MX (3) MX2008013078A (ja)
TW (3) TWI443647B (ja)
WO (3) WO2008100100A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010525378A (ja) * 2007-03-30 2010-07-22 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
JP2014532901A (ja) * 2011-11-01 2014-12-08 コーニンクレッカ フィリップス エヌ ヴェ オーディオオブジェクトのエンコーディング及びデコーディング
JP2015517688A (ja) * 2012-05-18 2015-06-22 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
KR20160015265A (ko) * 2013-05-29 2016-02-12 퀄컴 인코포레이티드 컨텐츠 분석 및 가중치를 이용한 바이노럴 룸 임펄스 응답들에 의한 필터링
JP2016530789A (ja) * 2013-07-22 2016-09-29 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 修正された出力信号を得るために符号化されたオーディオ信号を復号化するための装置および方法
JP2017535153A (ja) * 2014-10-01 2017-11-24 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびデコーダ
JP2020039181A (ja) * 2013-09-12 2020-03-12 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
JP2021057907A (ja) * 2013-09-12 2021-04-08 ドルビー ラボラトリーズ ライセンシング コーポレイション ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整
US11708741B2 (en) 2012-05-18 2023-07-25 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
JP7455836B2 (ja) 2018-12-13 2024-03-26 ドルビー ラボラトリーズ ライセンシング コーポレイション デュアルエンドのメディア・インテリジェンス

Families Citing this family (98)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102693727B (zh) * 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
EP2097895A4 (en) 2006-12-27 2013-11-13 Korea Electronics Telecomm DEVICE AND METHOD FOR ENCODING AND DECODING MULTI-OBJECT AUDIO SIGNAL WITH DIFFERENT CHANNELS WITH INFORMATION BIT RATE CONVERSION
US8321211B2 (en) * 2008-02-28 2012-11-27 University Of Kansas-Ku Medical Center Research Institute System and method for multi-channel pitch detection
KR101461685B1 (ko) * 2008-03-31 2014-11-19 한국전자통신연구원 다객체 오디오 신호의 부가정보 비트스트림 생성 방법 및 장치
US8670440B2 (en) 2008-05-13 2014-03-11 Electronics And Telecommunications Research Institute Data transceiving apparatus and method in centralized MAC-based wireless communication system
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata
MX2011011399A (es) * 2008-10-17 2012-06-27 Univ Friedrich Alexander Er Aparato para suministrar uno o más parámetros ajustados para un suministro de una representación de señal de mezcla ascendente sobre la base de una representación de señal de mezcla descendete, decodificador de señal de audio, transcodificador de señal de audio, codificador de señal de audio, flujo de bits de audio, método y programa de computación que utiliza información paramétrica relacionada con el objeto.
EP2353161B1 (en) 2008-10-29 2017-05-24 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
KR101600352B1 (ko) * 2008-10-30 2016-03-07 삼성전자주식회사 멀티 채널 신호의 부호화/복호화 장치 및 방법
WO2010087627A2 (en) * 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
WO2010087631A2 (en) * 2009-01-28 2010-08-05 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
WO2010090019A1 (ja) * 2009-02-04 2010-08-12 パナソニック株式会社 結合装置、遠隔通信システム及び結合方法
CN102292769B (zh) * 2009-02-13 2012-12-19 华为技术有限公司 一种立体声编码方法和装置
US8666752B2 (en) * 2009-03-18 2014-03-04 Samsung Electronics Co., Ltd. Apparatus and method for encoding and decoding multi-channel signal
WO2010138309A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Audio signal dynamic equalization processing control
WO2010138311A1 (en) * 2009-05-26 2010-12-02 Dolby Laboratories Licensing Corporation Equalization profiles for dynamic equalization of audio data
KR101387902B1 (ko) * 2009-06-10 2014-04-22 한국전자통신연구원 다객체 오디오 신호를 부호화하는 방법 및 부호화 장치, 복호화 방법 및 복호화 장치, 그리고 트랜스코딩 방법 및 트랜스코더
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
JP5635097B2 (ja) * 2009-08-14 2014-12-03 ディーティーエス・エルエルシーDts Llc オーディオオブジェクトを適応的にストリーミングするためのシステム
TWI484473B (zh) 2009-10-30 2015-05-11 Dolby Int Ab 用於從編碼位元串流擷取音訊訊號之節奏資訊、及估算音訊訊號之知覺顯著節奏的方法及系統
MY154641A (en) * 2009-11-20 2015-07-15 Fraunhofer Ges Forschung Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear cimbination parameter
KR101405976B1 (ko) * 2010-01-06 2014-06-12 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US9112591B2 (en) 2010-04-16 2015-08-18 Samsung Electronics Co., Ltd. Apparatus for encoding/decoding multichannel signal and method thereof
US8948403B2 (en) * 2010-08-06 2015-02-03 Samsung Electronics Co., Ltd. Method of processing signal, encoding apparatus thereof, decoding apparatus thereof, and signal processing system
CN103003877B (zh) * 2010-08-23 2014-12-31 松下电器产业株式会社 声音信号处理装置及声音信号处理方法
JP5533502B2 (ja) * 2010-09-28 2014-06-25 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
WO2012125855A1 (en) * 2011-03-16 2012-09-20 Dts, Inc. Encoding and reproduction of three dimensional audio soundtracks
US9171549B2 (en) 2011-04-08 2015-10-27 Dolby Laboratories Licensing Corporation Automatic configuration of metadata for use in mixing audio programs from two encoded bitstreams
TWI488174B (zh) * 2011-06-03 2015-06-11 Apple Inc 自動地建立文字資料與音訊資料間之映射
KR101783962B1 (ko) * 2011-06-09 2017-10-10 삼성전자주식회사 3차원 오디오 신호를 부호화 및 복호화하는 방법 및 장치
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
EP2560161A1 (en) 2011-08-17 2013-02-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Optimal mixing matrices and usage of decorrelators in spatial audio processing
US20130065213A1 (en) * 2011-09-13 2013-03-14 Harman International Industries, Incorporated System and method for adapting audio content for karaoke presentations
CN104012043A (zh) * 2011-12-22 2014-08-27 皇家飞利浦有限公司 无线网络配置系统和方法
WO2013192111A1 (en) * 2012-06-19 2013-12-27 Dolby Laboratories Licensing Corporation Rendering and playback of spatial audio using channel-based audio systems
TWI453441B (zh) * 2012-06-29 2014-09-21 Zeroplus Technology Co Ltd Signal decoding method
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) * 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
CN104541524B (zh) * 2012-07-31 2017-03-08 英迪股份有限公司 一种用于处理音频信号的方法和设备
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
WO2014023477A1 (en) * 2012-08-10 2014-02-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and methods for adapting audio information in spatial audio object coding
KR101685408B1 (ko) * 2012-09-12 2016-12-20 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 3차원 오디오를 위한 향상된 가이드 다운믹스 능력을 제공하기 위한 장치 및 방법
WO2014046916A1 (en) * 2012-09-21 2014-03-27 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
KR20140046980A (ko) * 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR20140047509A (ko) 2012-10-12 2014-04-22 한국전자통신연구원 객체 오디오 신호의 잔향 신호를 이용한 오디오 부/복호화 장치
AU2013355504C1 (en) 2012-12-04 2016-12-15 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
TWI530941B (zh) * 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
US9818412B2 (en) 2013-05-24 2017-11-14 Dolby International Ab Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder
CN117012210A (zh) 2013-05-24 2023-11-07 杜比国际公司 对音频场景进行解码的方法、装置及计算机可读介质
US9666198B2 (en) 2013-05-24 2017-05-30 Dolby International Ab Reconstruction of audio scenes from a downmix
US9723425B2 (en) * 2013-06-18 2017-08-01 Dolby Laboratories Licensing Corporation Bass management for audio rendering
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9883311B2 (en) 2013-06-28 2018-01-30 Dolby Laboratories Licensing Corporation Rendering of audio objects using discontinuous rendering-matrix updates
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP2830050A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
EP3059732B1 (en) * 2013-10-17 2018-10-10 Socionext Inc. Audio decoding device
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
JP6588899B2 (ja) 2013-10-22 2019-10-09 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ オーディオ装置のための組合せダイナミックレンジ圧縮および誘導クリッピング防止のための概念
CN113630711B (zh) * 2013-10-31 2023-12-01 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
JP6518254B2 (ja) 2014-01-09 2019-05-22 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・コンテンツの空間的誤差メトリック
KR101567665B1 (ko) * 2014-01-23 2015-11-10 재단법인 다차원 스마트 아이티 융합시스템 연구단 퍼스널 오디오 스튜디오 시스템
US9779739B2 (en) 2014-03-20 2017-10-03 Dts, Inc. Residual encoding in an object-based audio system
BR112016027506B1 (pt) * 2014-05-30 2023-04-11 Sony Corporation Aparelho e método de processamento de informação
US10373711B2 (en) 2014-06-04 2019-08-06 Nuance Communications, Inc. Medical coding system with CDI clarification request notification
US10754925B2 (en) 2014-06-04 2020-08-25 Nuance Communications, Inc. NLU training with user corrections to engine annotations
WO2015186535A1 (ja) * 2014-06-06 2015-12-10 ソニー株式会社 オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム
CN110895943B (zh) * 2014-07-01 2023-10-20 韩国电子通信研究院 处理多信道音频信号的方法和装置
US9774974B2 (en) 2014-09-24 2017-09-26 Electronics And Telecommunications Research Institute Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion
CN110364190B (zh) 2014-10-03 2021-03-12 杜比国际公司 个性化音频的智能访问
WO2016162165A1 (en) * 2015-04-10 2016-10-13 Thomson Licensing Method and device for encoding multiple audio signals, and method and device for decoding a mixture of multiple audio signals with improved separation
US10136240B2 (en) 2015-04-20 2018-11-20 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
CN106303897A (zh) 2015-06-01 2017-01-04 杜比实验室特许公司 处理基于对象的音频信号
EA034936B1 (ru) 2015-08-25 2020-04-08 Долби Интернешнл Аб Кодирование и декодирование звука с использованием параметров преобразования представления
US10366687B2 (en) * 2015-12-10 2019-07-30 Nuance Communications, Inc. System and methods for adapting neural network acoustic models
CN107346493B (zh) * 2016-05-04 2021-03-23 阿里巴巴集团控股有限公司 对象分配方法和装置
EP3465678B1 (en) 2016-06-01 2020-04-01 Dolby International AB A method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
WO2018057639A1 (en) 2016-09-20 2018-03-29 Nuance Communications, Inc. Method and system for sequencing medical billing codes
US9896031B1 (en) 2017-01-03 2018-02-20 Ford Global Technologies, Llc Spatial auditory alerts for a vehicle
US11133091B2 (en) 2017-07-21 2021-09-28 Nuance Communications, Inc. Automated analysis system and method
US11024424B2 (en) 2017-10-27 2021-06-01 Nuance Communications, Inc. Computer assisted coding systems and methods
GB201718341D0 (en) * 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
US10650834B2 (en) 2018-01-10 2020-05-12 Savitech Corp. Audio processing method and non-transitory computer readable medium
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
GB2578625A (en) 2018-11-01 2020-05-20 Nokia Technologies Oy Apparatus, methods and computer programs for encoding spatial metadata
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
EP3761672B1 (en) 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations
US11582572B2 (en) * 2020-01-30 2023-02-14 Bose Corporation Surround sound location virtualization
EP4226370A1 (en) 2020-10-05 2023-08-16 The Trustees of Columbia University in the City of New York Systems and methods for brain-informed speech separation
CN112309419B (zh) * 2020-10-30 2023-05-02 浙江蓝鸽科技有限公司 多路音频的降噪、输出方法及其系统
WO2023077284A1 (zh) * 2021-11-02 2023-05-11 北京小米移动软件有限公司 一种信号编解码方法、装置、用户设备、网络侧设备及存储介质

Family Cites Families (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3882280A (en) * 1973-12-19 1975-05-06 Magnavox Co Method and apparatus for combining digitized information
US6289308B1 (en) 1990-06-01 2001-09-11 U.S. Philips Corporation Encoded wideband digital transmission signal and record carrier recorded with such a signal
EP0562211A1 (en) 1992-03-25 1993-09-29 International Business Machines Corporation Self-aligning fiber couplers
TW272341B (ja) 1993-07-16 1996-03-11 Sony Co Ltd
JP3747492B2 (ja) * 1995-06-20 2006-02-22 ソニー株式会社 音声信号の再生方法及び再生装置
US6505160B1 (en) 1995-07-27 2003-01-07 Digimarc Corporation Connected audio and other media objects
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
TW429700B (en) 1997-02-26 2001-04-11 Sony Corp Information encoding method and apparatus, information decoding method and apparatus and information recording medium
US6741796B1 (en) * 1997-03-25 2004-05-25 Samsung Electronics, Co., Ltd. DVD-Audio disk, and apparatus and method for playing the same
US6449227B1 (en) * 1997-03-25 2002-09-10 Samsung Electronics Co., Ltd. DVD-audio disk, and apparatus and method for playing the same
US7110662B1 (en) 1997-03-25 2006-09-19 Samsung Electronics Co., Ltd. Apparatus and method for recording data on a DVD-audio disk
KR100261254B1 (ko) 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
JP4132154B2 (ja) * 1997-10-23 2008-08-13 ソニー株式会社 音声合成方法及び装置、並びに帯域幅拡張方法及び装置
KR100335609B1 (ko) 1997-11-20 2002-10-04 삼성전자 주식회사 비트율조절이가능한오디오부호화/복호화방법및장치
US20050120870A1 (en) 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
KR100566163B1 (ko) 2000-11-30 2006-03-29 마츠시타 덴끼 산교 가부시키가이샤 음성 복호화 장치, 음성 복호화 방법 및 프로그램을기록한 기록 매체
TW501376B (en) 2001-02-09 2002-09-01 Elan Microelectronics Corp Decoding device and method of digital audio
US6849794B1 (en) 2001-05-14 2005-02-01 Ronnie C. Lau Multiple channel system
US6658383B2 (en) 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
ES2268112T3 (es) * 2001-11-14 2007-03-16 Matsushita Electric Industrial Co., Ltd. Codificacion y descodificacion de audio.
US7149412B2 (en) 2002-03-01 2006-12-12 Thomson Licensing Trick mode audio playback
KR101016251B1 (ko) 2002-04-10 2011-02-25 코닌클리케 필립스 일렉트로닉스 엔.브이. 스테레오 신호의 코딩
US8340302B2 (en) 2002-04-22 2012-12-25 Koninklijke Philips Electronics N.V. Parametric representation of spatial audio
JP2005533271A (ja) 2002-07-16 2005-11-04 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化
CN1328707C (zh) 2002-07-19 2007-07-25 日本电气株式会社 音频解码设备以及解码方法
JP2004064363A (ja) 2002-07-29 2004-02-26 Sony Corp デジタルオーディオ処理方法、デジタルオーディオ処理装置およびデジタルオーディオ記録媒体
EP1527442B1 (en) 2002-08-01 2006-04-05 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and audio decoding method based on spectral band replication
EP1543307B1 (en) 2002-09-19 2006-02-22 Matsushita Electric Industrial Co., Ltd. Audio decoding apparatus and method
CN1717955B (zh) 2002-12-02 2013-10-23 汤姆森许可贸易公司 用于描述音频信号的合成的方法
CA2514682A1 (en) * 2002-12-28 2004-07-15 Samsung Electronics Co., Ltd. Method and apparatus for mixing audio stream and information storage medium
CN1748443B (zh) 2003-03-04 2010-09-22 诺基亚有限公司 多声道音频扩展支持
JP2004361731A (ja) 2003-06-05 2004-12-24 Nec Corp オーディオ復号装置及びオーディオ復号方法
US8140164B2 (en) * 2003-10-15 2012-03-20 Rmx, Llc Therapeutic diaphragm stimulation device and method
US7617109B2 (en) 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7391870B2 (en) 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
KR100658222B1 (ko) 2004-08-09 2006-12-15 한국전자통신연구원 3차원 디지털 멀티미디어 방송 시스템
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
TWI237806B (en) * 2004-11-03 2005-08-11 Sunplus Technology Co Ltd Audio decoding system with ring buffer and method thereof
JP5106115B2 (ja) 2004-11-30 2012-12-26 アギア システムズ インコーポレーテッド オブジェクト・ベースのサイド情報を用いる空間オーディオのパラメトリック・コーディング
EP1691348A1 (en) 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
DE102005008366A1 (de) 2005-02-23 2006-08-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ansteuern einer Wellenfeldsynthese-Renderer-Einrichtung mit Audioobjekten
TWI279712B (en) 2005-04-13 2007-04-21 Realtek Semiconductor Corp Voice message encoding/decoding apparatus and its method
US8073702B2 (en) * 2005-06-30 2011-12-06 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
KR20070011100A (ko) 2005-07-18 2007-01-24 엘지전자 주식회사 다채널 오디오 코딩에서 오디오 신호의 에너지 보정방법 및그 보정을 위한 부호화된 오디오 신호 생성방법
US8359341B2 (en) 2005-12-10 2013-01-22 International Business Machines Corporation Importing content into a content management system using an e-mail application
CN102693727B (zh) 2006-02-03 2015-06-10 韩国电子通信研究院 用于控制音频信号的渲染的方法
CA2646278A1 (en) 2006-02-09 2007-08-16 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
EP1853092B1 (en) 2006-05-04 2011-10-05 LG Electronics, Inc. Enhancing stereo audio with remix capability
DE102006029752A1 (de) 2006-06-28 2008-01-10 Basf Construction Polymers Gmbh Verwendung von Methacrylat-Derivaten zur Verdickung salzhaltiger Medien
CA2656867C (en) 2006-07-07 2013-01-08 Johannes Hilpert Apparatus and method for combining multiple parametrically coded audio sources
MY151722A (en) 2006-07-07 2014-06-30 Fraunhofer Ges Forschung Concept for combining multiple parametrically coded audio sources
EP2575130A1 (en) * 2006-09-29 2013-04-03 Electronics and Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
CA2874451C (en) * 2006-10-16 2016-09-06 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
CN101529504B (zh) 2006-10-16 2012-08-22 弗劳恩霍夫应用研究促进协会 多通道参数转换的装置和方法
JP4838361B2 (ja) * 2006-11-15 2011-12-14 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及びその装置
ES2452348T3 (es) * 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
US8295494B2 (en) * 2007-08-13 2012-10-23 Lg Electronics Inc. Enhancing audio with remixing capability
EP2082396A1 (en) * 2007-10-17 2009-07-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding using downmix

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6012010885; Christof Faller: 'Parametric Joint-Coding of Audio Sources' Convention Paper of the Audio Engineering Society 120th Convention 6752, 20060520, p.1-12, Audio Engineering Society *
JPN6012010886; Dai Yang, et al.: 'High-Fidelity Multichannel Audio Coding With Karhunen-Loeve Transform' IEEE Transactions on Speech and Audio Processing Vol.11, No.4, 200307, p.365-380, IEEE *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9257128B2 (en) 2007-03-30 2016-02-09 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
US8639498B2 (en) 2007-03-30 2014-01-28 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi object audio signal with multi channel
JP2010525378A (ja) * 2007-03-30 2010-07-22 エレクトロニクス アンド テレコミュニケーションズ リサーチ インスチチュート マルチチャネルで構成されたマルチオブジェクトオーディオ信号のエンコード、並びにデコード装置および方法
JP2014532901A (ja) * 2011-11-01 2014-12-08 コーニンクレッカ フィリップス エヌ ヴェ オーディオオブジェクトのエンコーディング及びデコーディング
US9401152B2 (en) 2012-05-18 2016-07-26 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
US11708741B2 (en) 2012-05-18 2023-07-25 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
US10074379B2 (en) 2012-05-18 2018-09-11 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
JP2015517688A (ja) * 2012-05-18 2015-06-22 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーダに関連するリバーシブルダイナミックレンジ制御情報を維持するシステム
US10950252B2 (en) 2012-05-18 2021-03-16 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
US10522163B2 (en) 2012-05-18 2019-12-31 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
US10388296B2 (en) 2012-05-18 2019-08-20 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
US9721578B2 (en) 2012-05-18 2017-08-01 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
US10217474B2 (en) 2012-05-18 2019-02-26 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
US9881629B2 (en) 2012-05-18 2018-01-30 Dolby Laboratories Licensing Corporation System for maintaining reversible dynamic range control information associated with parametric audio coders
JP2016523466A (ja) * 2013-05-29 2016-08-08 クゥアルコム・インコーポレイテッドQualcomm Incorporated コンテンツ解析および重み付けを用いたバイノーラル室内インパルス応答によるフィルタリング
US9674632B2 (en) 2013-05-29 2017-06-06 Qualcomm Incorporated Filtering with binaural room impulse responses
KR101719094B1 (ko) 2013-05-29 2017-03-22 퀄컴 인코포레이티드 컨텐츠 분석 및 가중치를 이용한 바이노럴 룸 임펄스 응답들에 의한 필터링
KR20160015265A (ko) * 2013-05-29 2016-02-12 퀄컴 인코포레이티드 컨텐츠 분석 및 가중치를 이용한 바이노럴 룸 임펄스 응답들에 의한 필터링
JP2016530789A (ja) * 2013-07-22 2016-09-29 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 修正された出力信号を得るために符号化されたオーディオ信号を復号化するための装置および方法
US10607615B2 (en) 2013-07-22 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for decoding an encoded audio signal to obtain modified output signals
US10956121B2 (en) 2013-09-12 2021-03-23 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
JP2021057907A (ja) * 2013-09-12 2021-04-08 ドルビー ラボラトリーズ ライセンシング コーポレイション ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整
US10993062B2 (en) 2013-09-12 2021-04-27 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
JP7038788B2 (ja) 2013-09-12 2022-03-18 ドルビー ラボラトリーズ ライセンシング コーポレイション ダウンミックスされたオーディオ・コンテンツについてのラウドネス調整
US11429341B2 (en) 2013-09-12 2022-08-30 Dolby International Ab Dynamic range control for a wide variety of playback environments
US11533575B2 (en) 2013-09-12 2022-12-20 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
JP2020039181A (ja) * 2013-09-12 2020-03-12 ドルビー ラボラトリーズ ライセンシング コーポレイション 多様な再生環境のためのダイナミックレンジ制御
US11842122B2 (en) 2013-09-12 2023-12-12 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
JP2017535153A (ja) * 2014-10-01 2017-11-24 ドルビー・インターナショナル・アーベー オーディオ・エンコーダおよびデコーダ
JP7455836B2 (ja) 2018-12-13 2024-03-26 ドルビー ラボラトリーズ ライセンシング コーポレイション デュアルエンドのメディア・インテリジェンス

Also Published As

Publication number Publication date
US20140297294A1 (en) 2014-10-02
US8271289B2 (en) 2012-09-18
EP2111617B1 (en) 2013-09-04
AU2008215230B2 (en) 2010-03-04
TW200847136A (en) 2008-12-01
JP2010506232A (ja) 2010-02-25
US8417531B2 (en) 2013-04-09
EP2111617A1 (en) 2009-10-28
TWI396187B (zh) 2013-05-11
JP5232795B2 (ja) 2013-07-10
CA2645913A1 (en) 2008-08-21
US8756066B2 (en) 2014-06-17
EP2111616B1 (en) 2011-09-28
CA2645915C (en) 2012-10-23
WO2008100099A1 (en) 2008-08-21
AU2008215230A1 (en) 2008-08-21
JP2012198556A (ja) 2012-10-18
KR20090082339A (ko) 2009-07-30
MX2008013078A (es) 2008-11-28
EP2111617A4 (en) 2010-01-20
TW200921642A (en) 2009-05-16
EP2111616A4 (en) 2010-05-26
WO2008100098A1 (en) 2008-08-21
US8204756B2 (en) 2012-06-19
US9449601B2 (en) 2016-09-20
JP2010506231A (ja) 2010-02-25
US20100076772A1 (en) 2010-03-25
KR101041825B1 (ko) 2011-06-17
CA2645912A1 (en) 2008-08-21
JP5254983B2 (ja) 2013-08-07
US20110202356A1 (en) 2011-08-18
US8234122B2 (en) 2012-07-31
AU2008215231A1 (en) 2008-08-21
US20110202357A1 (en) 2011-08-18
AU2008215231B2 (en) 2010-02-18
CA2645913C (en) 2012-09-18
TWI443647B (zh) 2014-07-01
KR101069268B1 (ko) 2011-10-04
EP2111616A1 (en) 2009-10-28
EP2115739A1 (en) 2009-11-11
CA2645912C (en) 2014-04-08
WO2008100100A1 (en) 2008-08-21
BRPI0802613A2 (pt) 2011-08-30
KR20090030323A (ko) 2009-03-24
CA2645915A1 (en) 2008-08-21
ATE526659T1 (de) 2011-10-15
MX2008012986A (es) 2008-11-28
KR20090082340A (ko) 2009-07-30
TWI431610B (zh) 2014-03-21
US20090326958A1 (en) 2009-12-31
US20090210238A1 (en) 2009-08-20
US20110200197A1 (en) 2011-08-18
KR101049143B1 (ko) 2011-07-15
AU2008215232B2 (en) 2010-02-25
MX2008013073A (es) 2008-10-27
JP5291227B2 (ja) 2013-09-18
AU2008215232A1 (en) 2008-08-21
TW200907932A (en) 2009-02-16
EP2115739A4 (en) 2010-01-20
BRPI0802614A2 (pt) 2011-08-30
US8296158B2 (en) 2012-10-23

Similar Documents

Publication Publication Date Title
JP5232795B2 (ja) オブジェクトベースのオーディオ信号の符号化及び復号化方法並びにその装置
JP5290988B2 (ja) オーディオ処理方法及び装置
RU2449388C2 (ru) Способы и устройства для кодирования и декодирования объектно-базированных аудиосигналов

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120306

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120606

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121106

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130201

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130226

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130325

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160329

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5232795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250