JP5394931B2 - オブジェクトベースオーディオ信号の復号化方法及びその装置 - Google Patents

オブジェクトベースオーディオ信号の復号化方法及びその装置 Download PDF

Info

Publication number
JP5394931B2
JP5394931B2 JP2009538336A JP2009538336A JP5394931B2 JP 5394931 B2 JP5394931 B2 JP 5394931B2 JP 2009538336 A JP2009538336 A JP 2009538336A JP 2009538336 A JP2009538336 A JP 2009538336A JP 5394931 B2 JP5394931 B2 JP 5394931B2
Authority
JP
Japan
Prior art keywords
signal
audio
audio signal
main object
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009538336A
Other languages
English (en)
Other versions
JP2010511190A (ja
Inventor
ヨン ユーン,スン
スク パン,ヒー
クーク リー,ヒュン
スー キム,ドン
ヒュン リム,ジェ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2010511190A publication Critical patent/JP2010511190A/ja
Application granted granted Critical
Publication of JP5394931B2 publication Critical patent/JP5394931B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

本発明は、オーディオ符号化及び復号化方法並びにその装置に関するもので、より詳細には、オブジェクトベースのオーディオ信号をグルーピングを通じて效率的に処理できるように符号化及び復号化できるオーディオ符号化及び復号化方法並びにその装置に関する。
一般に、オブジェクトベースのオーディオコーデック(object-based audio codec)は、各オブジェクト(object)信号から抽出した特定パラメータ及びオブジェクト信号の和を伝送し、これから再び各オブジェクト信号を復元した後、必要なチャネル数だけミキシングする方式を利用する。したがって、オブジェクト信号が多くなる場合、それぞれのオブジェクト信号をミキシングするのに必要な情報量もオブジェクト信号の数に比例して増加する。
ところで、互いに密接な相関性を持つオブジェクト信号の場合、各オブジェクト信号に対して類似なミキシング情報などを伝送することになるので、それらを一つのグループにまとめ、同一情報を一回のみ伝送することによって効率を高めることができる。
一般的な符号化及び復号化においても、多数のオブジェクト信号をまとめて一つのオブジェクト信号化することで類似な効果を奏することができるが、このような方法を使用する場合、オブジェクト信号の単位が大きくなる他、まとめる前の元のオブジェクト信号単位にミキシングすることも不可能である。
したがって、本発明の目的は、連関性を持つオブジェクトオーディオ信号を一つのグループにまとめてグループ別に処理し、これを用いて様々な再生モードの処理が可能なようにオーディオ信号を符号化及び復号化するオーディオ符号化及び復号化方法並びにその装置を提供することにある。
上記の目的を達成するための本発明によるオーディオ信号復号化方法は、少なくとも一つのミュージックオブジェクトがグルーピングされて符号化された第1オーディオ信号と、少なくとも二つのメインオブジェクトが段階的にグルーピングされて符号化された第2オーディオ信号と、前記第2オーディオ信号に対応するレジデュアル信号とを、オーディオ信号から抽出する段階と、前記第1及び第2オーディオ信号のうち少なくとも一つと、前記レジデュアル信号とを用いて第3オーディオ信号を生成する段階と、前記第3オーディオ信号を用いてマルチャネルオーディオ信号を生成する段階と、を含む。
一方、本発明によるオーディオ信号復号化装置は、少なくとも一つのミュージックオブジェクトがグルーピングされて符号化された第1オーディオ信号、少なくとも二つのメインオブジェクトが段階的にグルーピングされて符号化された第2オーディオ信号、及び前記第2オーディオ信号に対応するレジデュアル信号を、オーディオ信号から抽出し、前記第1及び第2オーディオ信号のうち少なくとも一つ及び前記レジデュアル信号を用いて第3オーディオ信号を生成するオブジェクトエンコーダと、前記第3オーディオ信号を用いてマルチャネルオーディオ信号を生成するマルチャネルデコーダと、を含む。
また、本発明によるオーディオ符号化方法は、少なくとも一つのミュージックオブジェクトがグルーピングされて符号化された第1オーディオ信号を生成する段階と、少なくとも二つのメインオブジェクトが段階的にグルーピングされて符号化された第2オーディオ信号と、前記第2オーディオ信号に対応するレジデュアル信号とを生成する段階と、前記第1及び第2オーディオ信号と前記レジデュアル信号を含むビットストリームを生成する段階と、を含む。
本発明によれば、少なくとも一つのミュージックオブジェクトがグルーピングされて符号化された第1オーディオ信号を生成するマルチャネルエンコーダと、少なくとも二つのメインオブジェクトが段階的にグルーピングされて符号化された第2オーディオ信号と、前記第2オーディオ信号に対応するレジデュアル信号とを生成するオブジェクトエンコーダと、前記第1及び第2オーディオ信号及び前記レジデュアル信号を含むビットストリームを生成するマルチプレクサと、を含むオーディオ復号化装置が提供される。
上記目的を達成するために、本発明では、上記方法をコンピュータで実行させるためのプログラムを記録したコンピュータにより読み取り可能な記録媒体を提供する。
本発明によれば、オブジェクトベースのオーディオ信号の符号化及び復号化の長所を活かしながら、連関性を持つオブジェクトオーディオ信号をグループ別にまとめて処理できる。これにより、符号化及び復号化過程で計算量及び符号化されるビットストリームの大きさなどにおいて効率を高めることができる。また、本発明は、ミュージックオブジェクトとボーカルオブジェクトなどにオブジェクト信号をグルーピングし、ソロモードやカラオケモードなどのような様々な再生モードの処理に有用に適用することができる。
本発明の第1実施例によるオーディオ符号化及び復号化装置のブロック図である。 本発明の第2実施例によるオーディオ符号化及び復号化装置のブロック図である。 音源、グループ、及びオブジェクト信号間の相関関係を示す図である。 本発明の第3実施例によるオーディオ符号化及び復号化装置のブロック図である。 メインオブジェクトとバックグラウンドオブジェクトを説明するための図である。 メインオブジェクトとバックグラウンドオブジェクトを説明するための図である。 符号化装置で生成するビットストリームの構成を説明するための図である。 符号化装置で生成するビットストリームの構成を説明するための図である。 本発明の第4実施例によるオーディオ符号化及び復号化装置のブロック図である。 複数のメインオブジェクトを使用する場合を説明するための図である。 本発明の第5実施例によるオーディオ符号化及び復号化装置のブロック図である。 本発明の第6実施例によるオーディオ符号化及び復号化装置のブロック図である。 本発明の第7実施例によるオーディオ符号化及び復号化装置のブロック図である。 本発明の第8実施例によるオーディオ符号化及び復号化装置のブロック図である。 本発明の第9実施例によるオーディオ符号化及び復号化装置のブロック図である。 本発明の第10実施例によるオーディオ符号化装置のブロック図である。
以下、添付の図面を参照しつつ、本発明についてより詳細に説明する。
図1は、本発明の第1実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置は、オブジェクトベース(object-based)のオーディオ信号に該当するオブジェクト信号をグルーピング(grouping)概念を適用して復号化及び符号化する。すなわち、連関性を持つ1個以上のオブジェクト信号を同じグループにまとめ、グループ単位に符号化及び復号化過程を行なう。
図1を参照すると、オブジェクトエンコーダ111を含むオーディオ符号化装置110と、オブジェクトデコーダ121及びミキサー/レンダラー(mixer/render)123を含むオーディオ復号化装置120が示されている。図示してはいないが、符号化装置110は、マルチプレクサ(multiplxer)などを含み、ダウンミックス信号及び付加情報を結合したビットストリームを生成し、復号化装置120は、デマルチプレクサ(demultiplexer)などを含み、受信したビットストリームからダウンミックス信号と付加情報を抽出することができる。このような構成は、下記する他の実施例による符号化及び復号化装置においても同様である。
符号化装置110は、N個のオブジェクト信号と、連関性を持つオブジェクト信号のグループ別の相対的な位置情報、大きさ情報、時間差情報などを含むグループ情報を受信する。符号化装置110は、連関性を持つオブジェクト信号をグルーピングした信号を符号化し、一つあるいはそれ以上のチャネルを持つオブジェクトベースのダウンミックス信号と、各オブジェクト信号から抽出した情報などが含まれる付加情報(side information)を生成する。
復号化装置120で、オブジェクトデコーダ121は、ダウンミックス信号と付加情報に基づいて、グルーピングに基づく符号化を行った信号を生成し、ミキサー/レンダラー123は、オブジェクトデコーダ121から出力される信号を、制御情報によってマルチチャネル空間上の特定位置に特定レベルで配置する。すなわち、復号化装置120は、グルーピングに基づく符号化を行った信号をオブジェクト単位に再び分解せずに、マルチチャネル信号を生成する。
このような構成により、時間による位置変化、大きさ変化、及び遅延変化などが類似しているオブジェクト信号をグルーピングして符号化することによって、伝送する情報量を減らすことができる。また、オブジェクト信号をグルーピングする場合、一つのグループに対して共通した付加情報を伝送できるので、同一グループに属した多数のオブジェクト信号に対する制御が簡単化する。
図2は、本発明の第2実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ信号復号化装置140は、オブジェクト抽出部143をさらに含む点が第1実施例と異なる。
すなわち、符号化装置130、オブジェクトデコーダ141、ミキサー/レンダラー145の機能及び構成は第1実施例で説明した通りである。ただし、復号化装置140がオブジェクト抽出部143をさらに含み、オブジェクト単位の分解が必要とされる場合、該当のオブジェクト信号の属するグループをオブジェクト単位に分解することができる。この場合、全てのグループに対してオブジェクト単位に分解を行なうのではなく、グループ単位にミキシングなどが不可能なグループに対してのみオブジェクト信号を抽出することができる。
図3は、音源、グループ(group)、及びオブジェクト信号間の相関関係を示す図である。図3に示すように、オブジェクト信号のグルーピングは、ビットストリームの大きさを減らすことができるように類似な性質を持つオブジェクト信号をまとめてなり、全てのオブジェクト信号は上位グループに属することとなる。
図4は、本発明の第3実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置では、コアダウンミックスチャネル(core downmix channel)の概念を用いる。
図4を参照すると、オーディオ符号化装置に属するオブジェクトエンコーダ151と、オブジェクトデコーダ161及びミキサー/レンダラー(mixer/render)163とを含むオーディオ復号化装置160が示されている。
オブジェクトエンコーダ151は、N(N>1)個のオブジェクト信号を受信し、M個(1<M<N)のチャネルにダウンミックスした信号を生成する。復号化装置160において、オブジェクトデコーダ161は、M個のチャネルにダウンミックスした信号を再びN個のオブジェクト信号に復号化し、最終的にはミキサー/レンダラー(Mixer/Render)163はL(L≧1)個のチャネル信号を出力する。
この時、オブジェクトエンコーダ151が生成するM個のダウンミックスチャネル(downmix channel)は、K(K<M)個のコアダウンミックスチャネル(core downmix channel)と(M−K)個のノンコアダウンミックスチャネル(non-core downmix channel)とで構成される。このようにダウンミックスチャネルを構成する理由は、オブジェクト信号によってその重要度を変えることができるためである。すなわち、一般的な符号化及び復号化方法では、オブジェクト信号に対する分解能が充分でないから、各オブジェクト信号別に他のオブジェクト信号の成分も含むことがある。したがって、このようにコアダウンミックスチャネルとノンコアダウンミックスチャネルとにダウンミックスチャネルを別に構成し、オブジェクト信号間の干渉を最小化することができる。
この場合、コアダウンミックスチャネルは、その処理方法においてノンコアダウンミックスチャネルと異なる処理方法を使用することができる。例えば、図4で、ミキサー/レンダラー163に入力される付加情報(side information)をコアダウンミックスチャネルにのみ定義することができる。すなわち、ミキサー/レンダラー163でノンコアダウンミックスチャネルから復号化されるオブジェクト信号は制御されず、コアダウンミックスチャネルから復号化されるオブジェクト信号のみ制御されうるように構成する。
他の例として、コアダウンミックスチャネルの場合、少ない数のオブジェクト信号でのみ構成し、これらオブジェクト信号に対して前述したグルーピング(grouping)を適用し、一つの制御情報で制御することができる。例えば、ボーカル(vocal)信号だけで別のコアダウンミックスチャネルを構成し、カラオケシステム(karaoke system)を構成することができる。また、ドラム(drum)などの信号のみをまとめて別のコアダウンミックスチャネルを構成し、ドラム信号などのような低周波信号の強度を精密に制御することができる。
一方、ミュージック(music)は、一般的にトラックなどの形態を有する様々なオーディオ信号をミキシングして生成する。例えば、ドラム、ギター、ピアノ、ボーカル(vocal)信号から構成されるミュージックの場合、ドラム、ギター、ピアノ、ボーカル信号をそれぞれオブジェクト信号とすることができる。この場合、特に重要なものと判断され、ユーザにより制御可能な全体オブジェクト信号の一つ、あるいは一つのオブジェクト信号のようにミキシングされて制御される複数のオブジェクト信号がをメインオブジェクト(main object)と定義することができる。また、全体オブジェクト信号のうち、メインオブジェクト以外のオブジェクト信号がミキシングされたものをバックグラウンドオブジェクト(background object)と定義することができる。このような定義によって、全体オブジェクトあるいはミュージックオブジェクトはメインオブジェクトとバックグラウンドオブジェクトとからなっているといえる。
図5及び図6は、メインオブジェクトとバックグラウンドオブジェクトを説明するための図である。図5の(a)に示すように、メインオブジェクトをボーカルサウンドとし、バックグラウンドオブジェクトをボーカルサウンド以外の全ての楽器音がミキシングされたものとする時、ミュージックオブジェクトを、ボーカルオブジェクトと、その他楽器音のミキシングされたバックグラウンドオブジェクトとから構成することができる。メインオブジェクトは、図5の(b)に示すように、一つ以上が含まれても良い。
また、メインオブジェクトは複数のオブジェクト信号がミキシングされた形態であっても良い。例えば、図6に示すように、ボーカルとギター(guitar)サウンドとをミキシングしたものをメインオブジェクトとし、その他の楽器をバックグラウンドオブジェクトとすることができる。
ミュージックオブジェクトでメインオブジェクトとバックグラウンドオブジェクトを別に制御するためには、符号化装置で符号化されたビットストリームが、下記の図7に示す形態のうちいずれか一つの形態を持たなければならない。
図7の(a)は、符号化装置で生成したビットストリームがミュージックビットストリームとメインオブジェクトビットストリームとで構成されたケースを示す。ミュージックビットストリームは全てのオブジェクト信号がミキシングされた形態で、メインオブジェクトとバックグラウンドオブジェクトとを結合したものに対応するビットストリームを意味する。図7の(b)は、ビットストリームがミュージックビットストリームとバックグラウンドオブジェクトビットストリームとで構成されたケースを示し、図7の(c)は、ビットストリームがメインオブジェクトビットストリームとバックグラウンドオブジェクトビットストリームとから構成されたケースを示す。
図7で、ミュージックビットストリーム、メインオブジェクトビットストリーム、バックグラウンドオブジェクトビットストリームはそれぞれ同じ方式の符号化器と復号化器を用いて生成することを原則とする。しかし、メインオブジェクトをボーカルオブジェクトとする場合、ミュージックビットストリームはMP3を用いて復号化及び符号化し、ボーカルオブジェクトビットストリームは、AMR、QCELP、EFR、EVRCなどの音声コーデックを用いてビットストリームの容量を減らしながら符号化及び復号化することができる。すなわち、ミュージックオブジェクトとメインオブジェクト、あるいはメインオブジェクトとバックグラウンドオブジェクトなどの符号化及び復号化方法を異ならしめることができる。
図7の(a)の場合、ミュージックビットストリーム部分は一般的な符号化方法と同一にして構成する。そして、MP3やAACなどの符号化方法は、ビットストリーム後半部にancillary領域あるいはauxiliary領域などの付加情報を表示する部分を持つが、この部分にメインオブジェクトビットストリームを追加することができる。したがって、全体ビットストリームは、ミュージックオブジェクトが符号化された領域と、後続するメインオブジェクト領域とで構成される。この時、付加領域の先頭部に、メインオブジェクトが追加されたということを表す指示子(indicator)やフラグ(flag)などを追加し、復号化装置でメインオブジェクトが存在するか否かを判別できるようにする。
図7の(b)の場合は(a)と基本的に同じ構成を有するが、上記の説明において、メインオブジェクトがバックグラウンドオブジェクトに代わる。
図7の(c)の場合は、ビットストリームがメインオブジェクトとバックグラウンドオブジェクトビットストリームとで構成されたケースを示す。この場合、ミュージックオブジェクトは、メインオブジェクトとバックグラウンドオブジェクトとの和あるいはミキシングされたものからなる。このビットストリームの構成方法においては、バックグラウンドオブジェクトをまず格納し、補助領域にメインオブジェクトを格納することができる。あるいは、メインオブジェクトをまず格納し、補助領域にメインオブジェクトを格納しても良い。このような場合、前述した通り、付加領域の先頭部に付加領域の情報を知らせるために指示子を追加する。
図8は、メインオブジェクトが追加されたことを判別できるようにビットストリームを構成する方法を示す。第一の例は、ミュージックビットストリームが終わると、次のフレーム(frame)が始まるまで補助領域であることをあらかじめ定義するものであり、メインオブジェクトが符号化されたということを表示する指示子のみあれば足りる。
第二の例は、ミュージックビットストリームが終わった後、補助領域あるいはデータ領域が始まるという指示子を必要とする符号化方法であるが、これにより、メインオブジェクトを符号化するに当たり、補助領域開始を表す指示子やメインオブジェクトであるということを表示する指示子のような2つの指示子が要る。このようなビットストリームを復号化する際には、まず指示子を読んでデータの種類を判別し、以降、データ部分を読んで復号化を行なうようになる。
図9は、本発明の第4実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置は、ボーカルオブジェクトがメインオブジェクトとして追加されたビットストリームを符号化及び復号化する。
図9を参照すると、符号化装置に含まれるエンコーダ211は、ボーカルオブジェクトとミュージックオブジェクトを含む音楽信号を符号化する。エンコーダ211の例としてはMP3、AAC、WMAなどが挙げられる。エンコーダ211は、音楽信号の他にボーカルオブジェクトをメインオブジェクトとしてビットストリームに追加する。この時、エンコーダ211は、前述したように、ancillary領域やauxiliary領域などの付加情報を表示する部分にボーカルオブジェクトを追加し、ボーカルオブジェクトがさらに存在するということを符号化装置に知らせるための指示子等も追加する。
復号化装置220は、一般コーデックデコーダ221、ボーカルデコーダ223及びミキシング部225を含む。一般コーデックデコーダ221は、受信したビットストリームのうち、ミュージックビットストリーム部分を復号化する。この場合、メインオブジェクト領域は、単に付加領域あるいはデータ領域として認識され、復号化過程で使用されない。ボーカルデコーダ223は、受信したビットストリームのうち、ボーカルオブジェクト部分を復号化する。ミキシング部225は、一般コーデックデコーダ221とボーカルデコーダ223で復号化した信号をミキシングして出力する。
ボーカルオブジェクトがメインオブジェクトとして含まれたビットストリームを受信した場合、ボーカルデコーダ223を有しない符号化装置では、ミュージックビットストリームのみ復号化して出力するが、この場合にもミュージックストリーム内にボーカル信号が含まれるので一般的なオーディオ出力と同一である。また、復号化過程で、ビットストリーム中の指示子などを用いてボーカルオブジェクトが追加されているか否かを判断し、ボーカルオブジェクトの復号化が不可能な場合には、ボーカルオブジェクトをスキップ(skip)などを通じて無視し、復号化が可能な場合には復号化してミキシングに使用する。
一般コーデックデコーダ221は音楽再生のためのものであるから、一般的に多く使用されているオーディオ復号化を用いる。その例には、MP3、AAC、HE−AAC、WMA、OggVorbisなどがある。ボーカルデコーダ223は、一般コーデックデコーダ221と同じコーデックを使用したりあるいは異なるコーデックを使用することができる。例えば、ボーカルデコーダ223ではEVRC、EFR、AMR、QCELPなどの音声コーデックを使用することができ、この場合は、復号化のための演算量を減らすことができる。
また、ボーカルオブジェクトをモノ(mono)で構成した場合にビットレートを最も減らすことができるが、もしミュージックビットストリームがステレオチャネルで構成されており、左右チャネルでボーカル信号が異なるためにモノのみでは構成できない場合には、ボーカルオブジェクトもステレオで構成することができる。
本実施例による復号化装置220では、再生機器におけるボタンやメニュー操作などのようなユーザ制御命令によって、音楽のみ再生するモード、メインオブジェクトのみ再生するモード、及びミュージックとメインオブジェクトとを適切にミキシングして再生するモードのうちいずれか一つを選択して再生できる。
メインオブジェクトを無視して元の音楽のみを再生する場合は、既存の音楽再生のケースに該当する。ただし、ユーザ制御命令などによってミキシング可能なため、メインオブジェクトあるいはバックグラウンドオブジェクトの大きさなどを調節することができる。メインオブジェクトがボーカルオブジェクトである場合には、バックグラウンドミュージックに比べてボーカルのみを大きくしたり小さくすることができるということを意味する。
メインオブジェクトのみ再生する場合の例には、メインオブジェクトとしてボーカルオブジェクトや特別な一つの楽器を使用することが挙げられる。すなわち、バックグラウンドミュージック無しでボーカルのみを聞いたり、バックグラウンドミュージック無しで特定楽器音のみを聞く場合などを意味する。
音楽とメインオブジェクトを適切にミキシングして聞く場合とは、バックグラウンドミュージックに比べてボーカルのみ大きくしたり小さくすることを意味する。特に、ミュージックからボーカル成分を完全に除外する場合には、ボーカル成分が消え、カラオケ(karaoke)システムとして使用することができる。もし符号化装置でボーカルオブジェクトの位相(phase)をあらかじめ逆にして符号化した場合なら、復号化装置でミュージックオブジェクトにボーカルオブジェクトを加えることによってカラオケシステムを再生できる。
以上の過程では、ミュージックオブジェクトとメインオブジェクトをそれぞれ復号化した後にミキシングする例に挙げて説明したが、そのミキシング過程を復号化過程中に行っても良い。例えば、MP3、AACなどMDCT(修正離散コサイン変換)のような変換符号化(transform coding)系列ではミキシングをMDCT係数に対して行ない、最終的に逆MDCT(inverse MDCT)を行なってPCM出力をすればいい。これにより、全体演算量を大幅に減らすことができる。また、MDCTに限定されず、一般的な変換符号化系列の復号化器に対してその変換ドメインで係数をミキシングし復号化を行なういずれの種類をも含む。
そして、上記の例では、一つのメインオブジェクトを使用する場合として説明したが、複数のメインオブジェクトを使用しても良い。例えば、図10に示すように、ボーカルをメインオブジェクト1、ギター(guitar)をメインオブジェクト2とすることができる。このような構成は、音楽からボーカルとギター以外のバックグラウンドオブジェクトのみを再生し、ボーカルとギターはユーザが直接演奏練習をする状況で非常に有用である。また、このビットストリームに対して、ミュージック、ミュージックからボーカルを除外したもの、ミュージックからギターを除外したもの、ミュージックからボーカルとギターを除外したもの等、様々な組合せとして再生可能である。
一方、本発明でボーカルビットストリームと表示されるチャネルは拡張可能である。例えば、ドラムビットストリーム(drum bitstream)を用いて、音楽の全体部分、音楽のドラムサウンド部分、音楽の全体部分からドラムサウンドのみを除外した部分の場合を再生することが可能である。また、ボーカルビットストリームとドラムビットストリームなど2個以上の追加ビットストリームを用いて、各部分別にミキシングを制御することが可能である。
そして、本実施例ではステレオ/モノ(stereo/mono)に挙げて説明したが、マルチチャネル(multi-channel)の場合にも拡張可能である。例えば、5.1チャネルビットストリームにボーカルオブジェクトやメインオブジェクトビットストリームなどを追加してビットストリームを構成し、再生時には元の音、ボーカルを除外した音、ボーカルのみある音のうちいずれか一つを再生することが可能である。
ミュージックと、ミュージックからボーカルを除外したもののみを支援し、ボーカル(メインオブジェクト)のみ再生するモードは支援しないように構成しても良い。これを、歌手がボーカルのみ再生されるのを希望しない場合に使用することができる。これを拡張し、ボーカルのみ支援する機能があるか否かを表示する識別子をビットストリームに含ませ、これを用いて再生範囲を決定する復号化器の構成が可能である。
図11は、本発明の第5実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置ではレジデュアル信号を用いてカラオケシステムの具現が可能である。カラオケシステムに特化した時、前述したように、ミュージックオブジェクトをバックグラウンドオブジェクトとメインオブジェクトとに分けることができる。メインオブジェクトは、バックグラウンドオブジェクトと別に制御するためのオブジェクト信号を意味し、特にボーカルオブジェクト信号を指すことができる。バックグラウンドオブジェクトは、メインオブジェクト以外の全てのオブジェクト信号の和を意味する。
図11を参照すると、符号化装置に含まれるエンコーダ251は、バックグラウンドオブジェクトとメインオブジェクトとが合わせられた状態で符号化する。符号化時に、AAC、MP3等一般的なオーディオコーデックを使用することができる。この信号が復号化装置260で復号化されると、この復号化された信号はバックグラウンドオブジェクト信号とメインオブジェクト信号を両方とも含むようになる。この復号化された信号が元の復号信号であると仮定すると、この信号に対してカラオケシステムを適用するためには下記のような方法を使用することができる。
メインオブジェクトをレジデュアル(residual)信号の形態で全体ビットストリームに含み、これを復号化した後、元の復号信号から除外させる。この場合、第1デコーダ261は全体信号を復号化し、第2デコーダ263はレジデュアル信号を復号化し、g=1に該当する。あるいは、メインオブジェクト信号に逆位相を与え、レジデュアル信号の形態で全体ビットストリームに含み、これを復号化した後、原本復号信号に加える。この場合は、g=−1である。それぞれの場合に対してg値を調整すると、一種のスケーラブル(scalable)カラオケシステムが可能である。
例えば、g=−0.5あるいはg=0.5とする場合、メインオブジェクトあるいはボーカルオブジェクトを完全に除去せずにレベル(level)調整のみすることになる。また、gを正の数またはgを負の数にすると、ボーカルオブジェクトの大きさを調節する効果がある。もし元の復号信号を使用せずにレジデュアル信号のみを出力し、ボーカルのみ出力されるソロモードを支援することも可能である。
図12は、本発明の第6実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置は、カラオケ信号出力及びボーカルモード出力のためのレジデュアル信号をそれぞれ異ならしめ、2個のレジデュアル信号を使用する。
図12を参照すると、第1デコーダ291で復号化された元の復号信号は、オブジェクト分離部295でバックグラウンドオブジェクト信号とメインオブジェクト信号とに分けて出力される。実際にはバックグラウンドオブジェクトは、元のバックグラウンドオブジェクトに加えて若干のメインオブジェクト成分を含み、メインオブジェクトも元のメインオブジェクトに加えて若干のバックグラウンドオブジェクト成分を含むようになる。これは、元の復号信号からバックグラウンドオブジェクトとメインオブジェクト信号とを分ける過程が完壁でないからである。
特に、バックグラウンドオブジェクトに対して、バックグラウンドオブジェクト内に含まれたメインオブジェクト成分をあらかじめレジデュアル信号の形態で全体ビットストリームに含ませ、これを復号した後、バックグラウンドオブジェクトから除外することができる。この場合は、図12でg=1に該当する。あるいは、バックグラウンドオブジェクト内に含まれたメインオブジェクト成分に対して逆位相を与え、あらかじめレジデュアル信号の形態で全体ビットストリームに含ませ、これを復号した後、バックグラウンドオブジェクト信号に加えても良い。この場合は、図12でg=−1に該当する。それぞれの場合に対してg値を調節すると、第5実施例で説明した通り、スケーラブル(scalable)カラオケシステムが可能となる。
同様の方法でレジデュアル(residual)信号をメインオブジェクト信号に適用し、g1値を調整してソロモードを支援することができる。g1値はレジデュアル信号と元のオブジェクトの位相比較及びボーカルモード度合を考慮し、上述と同様に適用することができる。
図13は、本発明の第7実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例では、前述した実施例でレジデュアル信号のビットレートをより減らすために下記のような方法を用いる。
メインオブジェクト信号がモノである時は、第1デコーダ301で復号化された元のステレオ(stereo)信号に対しステレオ−3チャネル(Stereo-to-Three channel)変換部305はステレオ−3チャネル変換を行なう。このステレオ−3チャネル変換は完壁でないため、その出力であるバックグラウンドオブジェクトは、バックグラウンドオブジェクト成分に加えて若干のメインオブジェクト成分を含み、他の出力であるメインオブジェクトもメインオブジェクト成分に加えて若干のバックグラウンドオブジェクト成分を含む。
続いて、全体ビットストリームのうちレジデュアル部分を第2デコーダ303で復号化(あるいは、デコーディング後にqmf変換あるいはmdct−to−qmf変換)を行ない、バックグラウンドオブジェクト信号及びメインオブジェクト信号に重み付け(weighting)をして合算すると、バックグラウンドオブジェクト成分とメインオブジェクト成分で構成された信号がそれぞれ得られる。
このような方法の長所は、ステレオ−3チャネル変換を通じてバックグラウンドオブジェクト信号とメインオブジェクト信号を一度区分したため、その信号中に含まれている他の成分、すなわち、バックグラウンドオブジェクト信号中に残っているメインオブジェクト成分とメインオブジェクト信号中に残っているバックグラウンドオブジェクト成分を除去するためのレジデュアル信号を、少ないビットレートを用いて構成できるという点である。
図13を参照すると、バックグラウンドオブジェクト信号(BS)中のバックグラウンドオブジェクト成分をB、メインオブジェクト成分をmとし、メインオブジェクト信号(MS)中のメインオブジェクト成分をM、バックグラウンドオブジェクト成分をbとすれば、下記の式が成り立つ。
Figure 0005394931
例えば、レジデュアル信号(R)をb−mで構成すると、最終カラオケ出力(KO)はg=−1とし
Figure 0005394931
となり、最終ソロモード出力(SO)はg1=1とし
Figure 0005394931
となる。レジデュアル信号の符号を上の式で変えることができる。すなわち、R=m−b、g=−1及びg1=1のようにすることができる。
BSとMSの構成時に、KOとSOの最終値がBとb、Mとmで構成するためのgとg1の値を、B、m、M、bの符号をどのように構成するかによって容易に計算することができる。上の場合に対してカラオケとソロとも元の信号から少し変わるが、カラオケ出力はソロ成分を含まないし、ソロ出力もカラオケ成分を含まないので、実際に使用可能な高音質信号出力が可能である。
そして、2つ以上のメインオブジェクトが存在する場合、2−3チャネル(Two-to-Three channel)変換及びレジデュアル信号加減が段階的に用いられることができる。
図14は、本発明の第8実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ信号復号化装置330は、メインオブジェクト信号がステレオ信号である場合、元のステレオのそれぞれのチャネルに対してモノ−ステレオ(Mono-to-Stereo)変換を2回行なうという点で第7実施例と異なる。
このモノ−ステレオ変換も完壁でないゆえに、その出力であるバックグラウンドオブジェクト信号は、バックグラウンドオブジェクト成分に加えて若干のメインオブジェクト成分を含み、他の出力であるメインオブジェクト信号もメインオブジェクト成分に加えて若干のバックグラウンドオブジェクト成分を含む。したがって、全体ビットストリームのうちレジデュアル部分をデコーディング(あるいは、デコーディング後にqmf変換あるいはmdct−to−qmf変換)を行ない、その左右チャネル成分をバックグラウンドオブジェクト信号及びメインオブジェクト信号のそれぞれの左右チャネルに重み付けをして合算すると、バックグラウンドオブジェクト成分(ステレオ)とメインオブジェクト成分(ステレオ)で構成された信号をそれぞれ得ることができる。
ステレオバックグラウンドオブジェクトとステレオメインオブジェクトの左右成分の差を用いてステレオレジデュアル信号を生成する場合、図14で、g=g2=−1、g1=g3=1にすることができる。また、前述したように、バックグラウンドオブジェクト信号、メインオブジェクト信号、レジデュアル信号の符号によってg、g1、g2、g3の値を容易に計算することができる
一般的にメインオブジェクト信号はモノでもステレオでもあり得る。したがって、全体ビットストリーム中にメインオブジェクト信号がモノかステレオかを表すフラグ(flag)を含ませ、このフラグを読むことによって、モノの時には図13の第7実施例で説明した方法を用いて復号し、ステレオの時には図14の第8実施例で説明した方法を用いて復号化すれば良い。
また、一つ以上のメインオブジェクトを含む場合には、それぞれのメインオブジェクトがモノかステレオかによって前述の方法を連続して使用する。この時、各方法の使用回数は、モノ/ステレオメインオブジェクトの数と同一である。例えば、メインオブジェクトが3であり、このうち、モノメインオブジェクトが2であり、ステレオメインオブジェクトが1である場合、第7実施例で説明した方法を2回使用し、図14の第8実施例で説明した方法を1回使用することで、カラオケ信号を出力する。この時、第7実施例で説明した方法と第8実施例で説明した方法の使用順序をあらかじめ決定しておくことができる。例えば、モノメインオブジェクトに対して第7実施例で説明した方法を常にまず使用し、その後、ステレオメインオブジェクトに対して第8実施例で説明した方法を適用することが可能である。他の使用順序決定方法としては、全体ビットストリーム中に、第7実施例で説明した方法と第8実施例で説明した方法の適用順序を記述する記述子(descriptor)を含ませ、これによって選択的に適用することも可能である。
図15は、本発明の第9実施例によるオーディオ符号化及び復号化装置のブロック図である。本実施例によるオーディオ符号化及び復号化装置は、ミュージックオブジェクトあるいはバックグラウンドオブジェクトをマルチチャネルエンコーダを用いて生成する。
図15を参照すると、マルチチャネルエンコーダ351、オブジェクトエンコーダ353、及びマルチプレクサ355を含むオーディオ符号化装置350と、デマルチプレクサ361、オブジェクトデコーダ363、及びマルチチャネルデコーダ369を含むオーディオ復号化装置360とが示されている。オブジェクトデコーダ363は、チャネルコンバータ365とミキサー367を含むことができる。
マルチチャネルエンコーダ351は、ミュージックオブジェクトをチャネルベースにダウンミックスした信号を生成し、ミュージックオブジェクトに関する情報を抽出してチャネルベースの第1オーディオパラメータ情報を生成する。オブジェクトエンコーダ353は、ボーカルオブジェクトとマルチチャネルエンコーダ351でダウンミックスした信号を、オブジェクトベースに符号化したダウンミックス信号、オブジェクトベースの第2オーディオパラメータ情報、そしてボーカルオブジェクトに対応するレジデュアル信号として生成する。マルチプレクサ355は、オブジェクトエンコーダ353で生成したダウンミックス信号と付加情報とを結合したビットストリームを生成する。この時、付加情報は、マルチチャネルエンコーダ351で生成した第1オーディオパラメータ、オブジェクトエンコーダ353で生成したレジデュアル信号及び第2オーディオパラメータなどを含む情報である。
オーディオ復号化装置360で、デマルチプレクサ361は、受信したビットストリームからダウンミックス信号と付加情報とを分離し、オブジェクトデコーダ363は、ミュージックオブジェクトがチャネルベースに符号化されたオーディオ信号と、ボーカルオブジェクトが符号化されたオーディオ信号とのうち少なくとも一つを用いて、ボーカル成分が調整されたオーディオ信号を生成する。オブジェクトデコーダ363はチャネルコンバータ365を含み、復号化過程でモノ−ステレオ変換、あるいは2−3(Two-to-Three)変換を行なうことができ、ミキサー367は、制御情報に含まれるミキシングパラメータなどを用いて特定オブジェクト信号のレベルや位置などを調節することができる。マルチチャネルデコーダ369は、オブジェクトデコーダ363で復号化されたオーディオ信号と付加情報などを用いてマルチチャネル信号を生成する。
オブジェクトデコーダ363は、入力される制御情報によって、ボーカル成分のないオーディオ信号を生成するカラオケモード、ボーカル成分のみを含むオーディオ信号を生成するソロモード、またはボーカル成分の含まれるオーディオ信号を生成する一般モードのうちのいずれかに対応するオーディオ信号を生成することができる。
図16は、ボーカルオブジェクトが段階的に符号化される場合を説明するための図である。図16を参照すると、本実施例による符号化装置380は、マルチチャネルエンコーダ381、第1乃至第3オブジェクトデコーダ383,385,387、及びマルチプレクサ389を含む。
マルチチャネルエンコーダ381の構成及び機能は、図15で説明した通りであるが、本実施例では、第1乃至第3オブジェクトエンコーダ383,385,387がボーカルオブジェクトを段階的にグルーピングし、各グルーピング段階で生成したレジデュアル信号が、マルチプレクサ389で生成されるビットストリームに含まれるように構成されるという点が異なる。
このような過程により生成したビットストリームを復号化する場合、ビットストリームから抽出したレジデュアル信号を、ミュージックオブジェクトがグルーピングされて符号化されたオーディオ信号あるいはボーカルオブジェクトがグルーピングされて符号化されたオーディオ信号に段階的に適用し、ボーカル成分やその他所望のオブジェクト成分を調節した信号を生成することができる。
一方、上記の実施例で、元の復号信号とレジデュアル信号との和あるいは差、バックグラウンドオブジェクト信号あるいはメインオブジェクト信号とレジデュアル信号との和あるいは差が行なわれる所は特定ドメインに限定されない。例えば、この過程は、時間ドメイン(time domain)で行なわれても良く、MDCTドメインのような一種の周波数ドメインで行なわれても良い。また、QMFサブバンドドメインやハイブリッド(hybrid)サブバンドドメインのようなサブバンドドメイン(subband domain)で行なわれても良い。特に周波数ドメインやサブバンドドメインで行なわれる場合は、レジデュアル成分を除くバンド(band)数を調節することによってスケーラブルカラオケ信号を生成することができる。例えば、元の復号信号のサブバンドの数が20個の場合、レジデュアル信号のバンド数を20とすれば完全なカラオケ信号を出力するようになり、低周波10個のみカバーすれば低周波部分のみからボーカル成分がなくなり、高周波部分では残っている形態となる。後者の場合、音質は前者に比べて落ちるが、ビットレートを下げることができるという長所がある。
また、メインオブジェクトが一つでない場合には、複数個のレジデュアル信号を全体ビットストリームに含ませ、レジデュアル信号の和あるいは差を複数回行なうことができる。例えば、ボーカルとギターを2個のメインオブジェクトとし、これらのレジデュアル信号を全体ビットストリームに含める場合、全体信号に対してボーカル信号をまず除去し、続いてギター信号を除去する形態で両信号を除去したカラオケ信号を生成することができる。この場合、さらにはボーカルのみ除去されたカラオケ信号、ギターのみ除去されたカラオケ信号も生成可能である。なお、ボーカル信号のみ出力したりあるいはギター信号のみを出力することも可能である。
また、根本的に全体信号からボーカル信号のみを除去してカラオケ信号を生成するために、全体信号とボーカル信号はそれぞれ符号化されるが、符号化に用いられるコーデックの種類によって次の2つの区分が必要である。第一に、全体信号とボーカル信号に対して符号化コーデックは常に同一なものを使用する。この場合、全体信号及びボーカル信号に対して符号化コーデック(codec)の種類を判別できるような識別子をそれぞれのビットストリーム中に含めなければならなく、復号化器ではこの識別子を判断してコーデックの種類を識別し復号した後にボーカル成分を除去する過程を行なう。この過程で、上述したように和または差が用いられる。この識別子の情報としては、レジデュアル信号は元の復号信号と同一のコーデック(codec)を使用したか否か、レジデュアル信号の符号化時に使用したコーデック種類などが挙げられる。
また、全体信号とボーカル信号の符号化コーデックを異なるものとしても良い。例えば、ボーカル信号(すなわち、residual信号)は常に固定したコーデックを使用する。この場合、レジデュアル信号に対する識別子は不要であり、あらかじめ定められたコーデックのみを用いて復号化すればよい。ただし、この場合、全体信号からレジデュアル信号を除去する過程は、時間ドメイン(time domain)あるいはサブバンドドメイン(subband domain)のように両信号間のプロセシングが直ちにできるドメインに制限される。例えば、mdctのようなドメインでは一般的に両信号間のプロセシングが直ちに行なわれない。
そして、本発明を用いて、バックグラウンドオブジェクト信号のみで構成されたカラオケ信号を出力することができる。この信号に対して追加的なアップミックスプロセス(Upmix process)を行なって多チャネル信号を生成することができる。例えば、本発明により生成されたカラオケ信号にMPEGサラウンドをさらに適用すると、5.1チャネルカラオケ信号の生成が可能である。
また、上記の実施例では、ミュージックオブジェクトとメインオブジェクト、あるいはバックグラウンドオブジェクトとメインオブジェクトに対してフレーム中に同一数が存在する例に挙げて説明したが、異なる数にしても良い。例えば、ミュージックは毎フレーム存在し、メインオブジェクトは2フレームごとに存在することも可能である。この時は、メインオブジェクトを復号化してこれを2フレームに対して適用すればよい。
ミュージックとメインオブジェクトはそれぞれ異なるサンプリング周波数を持つことができる。例えば、ミュージックのサンプリング周波数が44.1kHzで、メインオブジェクトのサンプリング周波数が22.05kHzであれば、メインオブジェクトのMDCT係数を計算した後、ミュージックのMDCT係数のうち、該当の領域に対してのみミキシングを行なうことができる。これは、カラオケシステムに対してボーカルが楽器音よりも周波数帯域が低いことに着目したもので、データ容量を減らしうるという長所がある。
そして、本発明は、プロセッサが読み取り可能な記録媒体にプロセッサが読み取り可能なコードとして具現可能である。プロセッサが読み取り可能な記録媒体は、プロセッサにより読み取り可能なデータが記憶される記録装置のいずれをも含む。プロセッサにより読み取り可能な記録媒体の例には、ROM、RAM、CD−ROM、磁気テープ、フロッピー(登録商標)ディスク、光データ記憶装置などがあり、またインターネットを通じた伝送などのようなキャリアウェーブの形態で具現されるものも含む。またプロセッサが読み取り可能な記録媒体は、ネットワークで連結されたシステムに分散され、分散方式でプロセッサが読み取り可能なコードが格納されて実行されることができる。
また、以上では本発明の好適な実施例について図示及び説明したが、本発明は、上記の特定の実施例に限定されず、特許請求の範囲で請求する本発明の要旨を逸脱しない限度内で、当該発明の属する技術分野における通常の知識を持つ者にとっては様々な変形実施が可能であり、また、これらの変形実施はいずれも本発明に含まれるということは明らかである。
本発明は、オブジェクトベースのオーディオ信号の符号化及び復号化過程などに用いられ、連関性あるオブジェクト信号をグループ単位に処理し、カラオケモード、ソロモード、及び一般モードなどの再生モードを提供することができる。

Claims (10)

  1. ダウンミックス信号及びレジデュアル信号を受信する段階と、
    前記レジデュアル信号を前記ダウンミックス信号に適用して第1オーディオ信号及び第2オーディオ信号を取得する段階と、
    ミキシングパラメータを前記第1オーディオ信号及び前記第2オーディオ信号のうち少なくとも一つに適用して第3オーディオ信号を生成する段階と、
    前記第3オーディオ信号を用いてマルチャネルオーディオ信号を生成する段階と、
    を含み、
    前記ダウンミックス信号はメインオブジェクト信号とバックグラウンドオブジェクト信号を含み、
    前記第1オーディオ信号は前記メインオブジェクト信号と前記レジデュアル信号を用いて取得され、前記第2オーディオ信号は前記バックグラウンドオブジェクト信号と前記レジデュアル信号とを用いて取得され、
    前記レジデュアル信号は、前記第1オーディオ信号及び前記第2オーディオ信号が前記ダウンミックス信号にダウンミックスされるときに生成され、
    前記ミキシングパラメータは、前記第1オーディオ信号及び前記第2オーディオ信号のうち少なくとも一つに含まれる複数のオブジェクト信号のうち、少なくとも一つのオブジェクト信号のレベル又は位置を制御するものであり、
    前記第3オーディオ信号は、前記第1オーディオ信号及び前記第2オーディオ信号のうち少なくとも一つのうちの、少なくとも一つの前記オブジェクト信号のレベル又は位置を制御して生成されることを特徴とするオーディオ復号化方法。
  2. 前記第1オーディオ信号及び前記第2オーディオ信号は、それぞれ互いに異なるコーデックを用いて符号化され、前記レジデュアル信号は前記メインオブジェクト信号に対応することを特徴とする、請求項1に記載のオーディオ復号化方法。
  3. 前記第1オーディオ信号及び前記第2オーディオ信号は、互いに異なるサンプリング周波数を用いて符号化されたことを特徴とする、請求項1に記載のオーディオ復号化方法。
  4. 前記ダウンミックス信号は、放送用信号から受信した信号であり、
    前記バックグラウンドオブジェクト信号はカラオケオブジェクト信号を含み、
    前記メインオブジェクト信号は第1メインオブジェクト成分と第1バックグラウンドオブジェクト成分を含み、前記カラオケオブジェクト信号は第2バックグラウンドオブジェクト成分と第2メインオブジェクト成分を含み、
    前記レジデュアル信号は前記第1バックグラウンドオブジェクト成分と前記第2メインオブジェクト成分の差であり、
    前記第1オーディオ信号は前記メインオブジェクト信号と前記レジデュアル信号を用いて取得され、前記第2オーディオ信号は前記カラオケオブジェクト信号と前記レジデュアル信号を用いて取得されることを特徴とする、請求項1に記載のオーディオ復号化方法。
  5. 前記第1オーディオ信号に対応する第1オーディオパラメータと、前記第2オーディオ信号に対応する第2オーディオパラメータとを受信する段階をさらに含むことを特徴とする、請求項1に記載のオーディオ復号化方法。
  6. 前記第3オーディオ信号は、前記第1オーディオパラメータ及び前記第2オーディオパラメータのうち少なくとも一つを用いて生成されることを特徴とする、請求項5に記載のオーディオ復号化方法。
  7. ダウンミックス信号及びレジデュアル信号を受信するデマルチプレクサと、
    前記レジデュアル信号を前記ダウンミックス信号に適用して第1オーディオ信号及び第2オーディオ信号を取得し、ミキシングパラメータを前記第1オーディオ信号及び前記第2オーディオ信号のうち少なくとも一つに適用して第3オーディオ信号を生成するオブジェクトデコーダと、
    前記第3オーディオ信号を用いてマルチャネルオーディオ信号を生成するマルチャネルデコーダと、
    を含み、
    前記ダウンミックス信号はメインオブジェクト信号とバックグラウンドオブジェクト信号を含み、
    前記第1オーディオ信号は前記メインオブジェクト信号と前記レジデュアル信号を用いて取得され、前記第2オーディオ信号は前記バックグラウンドオブジェクト信号と前記レジデュアル信号とを用いて取得され、
    前記レジデュアル信号は、前記第1オーディオ信号及び前記第2オーディオ信号が前記ダウンミックス信号にダウンミックスされるときに生成され、
    前記ミキシングパラメータは、前記第1オーディオ信号及び前記第2オーディオ信号のうち少なくとも一つに含まれる複数のオブジェクト信号のうち、少なくとも一つのオブジェクト信号のレベル又は位置を制御するものであり、
    前記第3オーディオ信号は、前記第1オーディオ信号及び前記第2オーディオ信号のうち少なくとも一つのうちの、少なくとも一つの前記オブジェクト信号のレベル又は位置を制御して生成されることを特徴とするオーディオ復号化装置。
  8. 前記デマルチプレクサは、前記第1オーディオ信号に対応する第1オーディオパラメータと、前記第2オーディオ信号に対応する第2オーディオパラメータとを抽出することを特徴とする、請求項7に記載のオーディオ復号化装置。
  9. 前記第3オーディオ信号は、前記第1オーディオパラメータ及び前記第2オーディオパラメータのうち少なくとも一つを用いて生成されることを特徴とする、請求項8に記載のオーディオ復号化装置。
  10. 請求項1〜6のいずれか1項に記載の前記復号化方法をコンピュータに実行させるための記録されたステートメント及びインストラクションを含むコンピュータ読み取り可能な記録媒体。
JP2009538336A 2006-11-24 2007-11-24 オブジェクトベースオーディオ信号の復号化方法及びその装置 Expired - Fee Related JP5394931B2 (ja)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US86082306P 2006-11-24 2006-11-24
US60/860,823 2006-11-24
US90164207P 2007-02-16 2007-02-16
US60/901,642 2007-02-16
US98151707P 2007-10-22 2007-10-22
US60/981,517 2007-10-22
US98240807P 2007-10-24 2007-10-24
US60/982,408 2007-10-24
PCT/KR2007/005969 WO2008063035A1 (en) 2006-11-24 2007-11-24 Method for encoding and decoding object-based audio signal and apparatus thereof

Publications (2)

Publication Number Publication Date
JP2010511190A JP2010511190A (ja) 2010-04-08
JP5394931B2 true JP5394931B2 (ja) 2014-01-22

Family

ID=39429918

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009538336A Expired - Fee Related JP5394931B2 (ja) 2006-11-24 2007-11-24 オブジェクトベースオーディオ信号の復号化方法及びその装置
JP2009538335A Active JP5139440B2 (ja) 2006-11-24 2007-11-24 オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2009538335A Active JP5139440B2 (ja) 2006-11-24 2007-11-24 オブジェクトベースオーディオ信号の符号化及び復号化方法並びにその装置

Country Status (11)

Country Link
US (2) US20090265164A1 (ja)
EP (2) EP2095365A4 (ja)
JP (2) JP5394931B2 (ja)
KR (3) KR20090028723A (ja)
AU (2) AU2007322487B2 (ja)
BR (2) BRPI0711094A2 (ja)
CA (2) CA2645911C (ja)
ES (1) ES2387692T3 (ja)
MX (2) MX2008012918A (ja)
RU (2) RU2544789C2 (ja)
WO (2) WO2008063034A1 (ja)

Families Citing this family (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
EP2595149A3 (en) * 2006-12-27 2013-11-13 Electronics and Telecommunications Research Institute Apparatus for transcoding downmix signals
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
WO2009051404A2 (en) * 2007-10-15 2009-04-23 Lg Electronics Inc. A method and an apparatus for processing a signal
AU2008344073B2 (en) 2008-01-01 2011-08-11 Lg Electronics Inc. A method and an apparatus for processing an audio signal
CN101911183A (zh) * 2008-01-11 2010-12-08 日本电气株式会社 信号分析控制、信号分析、信号控制系统、装置以及程序
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
US7928307B2 (en) * 2008-11-03 2011-04-19 Qnx Software Systems Co. Karaoke system
WO2010064877A2 (en) * 2008-12-05 2010-06-10 Lg Electronics Inc. A method and an apparatus for processing an audio signal
KR20100065121A (ko) * 2008-12-05 2010-06-15 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US20100324915A1 (en) * 2009-06-23 2010-12-23 Electronic And Telecommunications Research Institute Encoding and decoding apparatuses for high quality multi-channel audio codec
US9536529B2 (en) * 2010-01-06 2017-01-03 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US8428936B2 (en) 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
ES2935911T3 (es) 2010-04-09 2023-03-13 Dolby Int Ab Descodificación estéreo de predicción compleja basada en MDCT
JP5532518B2 (ja) * 2010-06-25 2014-06-25 ヤマハ株式会社 周波数特性制御装置
KR20120071072A (ko) 2010-12-22 2012-07-02 한국전자통신연구원 객체 기반 오디오를 제공하는 방송 송신 장치 및 방법, 그리고 방송 재생 장치 및 방법
US9754595B2 (en) 2011-06-09 2017-09-05 Samsung Electronics Co., Ltd. Method and apparatus for encoding and decoding 3-dimensional audio signal
KR102172279B1 (ko) * 2011-11-14 2020-10-30 한국전자통신연구원 스케일러블 다채널 오디오 신호를 지원하는 부호화 장치 및 복호화 장치, 상기 장치가 수행하는 방법
EP2870603B1 (en) * 2012-07-09 2020-09-30 Koninklijke Philips N.V. Encoding and decoding of audio signals
US9288603B2 (en) 2012-07-15 2016-03-15 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for backward-compatible audio coding
US9190065B2 (en) 2012-07-15 2015-11-17 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients
US9473870B2 (en) 2012-07-16 2016-10-18 Qualcomm Incorporated Loudspeaker position compensation with 3D-audio hierarchical coding
US9761229B2 (en) 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9479886B2 (en) 2012-07-20 2016-10-25 Qualcomm Incorporated Scalable downmix design with feedback for object-based surround codec
EP2863657B1 (en) 2012-07-31 2019-09-18 Intellectual Discovery Co., Ltd. Method and device for processing audio signal
US9489954B2 (en) 2012-08-07 2016-11-08 Dolby Laboratories Licensing Corporation Encoding and rendering of object based audio indicative of game audio content
IN2015DN02595A (ja) * 2012-11-15 2015-09-11 Ntt Docomo Inc
US9336791B2 (en) * 2013-01-24 2016-05-10 Google Inc. Rearrangement and rate allocation for compressing multichannel audio
ES2643789T3 (es) 2013-05-24 2017-11-24 Dolby International Ab Codificación eficiente de escenas de audio que comprenden objetos de audio
RU2630754C2 (ru) * 2013-05-24 2017-09-12 Долби Интернешнл Аб Эффективное кодирование звуковых сцен, содержащих звуковые объекты
US9883312B2 (en) 2013-05-29 2018-01-30 Qualcomm Incorporated Transformed higher order ambisonics audio data
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP3503095A1 (en) 2013-08-28 2019-06-26 Dolby Laboratories Licensing Corp. Hybrid waveform-coded and parametric-coded speech enhancement
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
JP6518254B2 (ja) * 2014-01-09 2019-05-22 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・コンテンツの空間的誤差メトリック
US9922656B2 (en) 2014-01-30 2018-03-20 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
CN104882145B (zh) 2014-02-28 2019-10-29 杜比实验室特许公司 使用音频对象的时间变化的音频对象聚类
WO2015150384A1 (en) 2014-04-01 2015-10-08 Dolby International Ab Efficient coding of audio scenes comprising audio objects
WO2015150480A1 (en) 2014-04-02 2015-10-08 Dolby International Ab Exploiting metadata redundancy in immersive audio metadata
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
US10770087B2 (en) 2014-05-16 2020-09-08 Qualcomm Incorporated Selecting codebooks for coding vectors decomposed from higher-order ambisonic audio signals
CN106465028B (zh) * 2014-06-06 2019-02-15 索尼公司 音频信号处理装置和方法、编码装置和方法以及程序
KR102208477B1 (ko) * 2014-06-30 2021-01-27 삼성전자주식회사 마이크 운용 방법 및 이를 지원하는 전자 장치
CN116709161A (zh) 2016-06-01 2023-09-05 杜比国际公司 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
EP3605531A4 (en) * 2017-03-28 2020-04-15 Sony Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
EP3761672B1 (en) 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations
GB2587614A (en) * 2019-09-26 2021-04-07 Nokia Technologies Oy Audio encoding and audio decoding

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3882280A (en) * 1973-12-19 1975-05-06 Magnavox Co Method and apparatus for combining digitized information
JP2944225B2 (ja) * 1990-12-17 1999-08-30 株式会社東芝 ステレオ信号処理装置
KR960007947B1 (ko) * 1993-09-17 1996-06-17 엘지전자 주식회사 가라오케-콤팩트 디스크(karaoke-cd) 및 이를 이용한 오디오 제어장치
JPH1039881A (ja) * 1996-07-19 1998-02-13 Yamaha Corp カラオケ採点装置
JPH10247090A (ja) * 1997-03-04 1998-09-14 Yamaha Corp 音楽情報送信方法、音楽情報記録方法、音楽情報記録媒体、音楽情報再生方法および音楽情報再生装置
JPH11167390A (ja) * 1997-12-04 1999-06-22 Ricoh Co Ltd 音楽演奏装置
RU2121718C1 (ru) * 1998-02-19 1998-11-10 Яков Шоел-Берович Ровнер Портативная музыкальная система для караоке и картридж для нее
US20050120870A1 (en) * 1998-05-15 2005-06-09 Ludwig Lester F. Envelope-controlled dynamic layering of audio signal processing and synthesis for music applications
JP3632891B2 (ja) * 1998-09-07 2005-03-23 日本ビクター株式会社 オーディオ信号の伝送方法、オーディオディスク、エンコード装置及びデコード装置
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6849794B1 (en) * 2001-05-14 2005-02-01 Ronnie C. Lau Multiple channel system
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
JP3590377B2 (ja) * 2001-11-30 2004-11-17 株式会社東芝 デジタル放送システム、デジタル放送編成装置及びその編成方法
JP2004064363A (ja) * 2002-07-29 2004-02-26 Sony Corp デジタルオーディオ処理方法、デジタルオーディオ処理装置およびデジタルオーディオ記録媒体
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
DE602004005846T2 (de) * 2003-04-17 2007-12-20 Koninklijke Philips Electronics N.V. Audiosignalgenerierung
JP2005141121A (ja) * 2003-11-10 2005-06-02 Matsushita Electric Ind Co Ltd オーディオ再生装置
WO2005098826A1 (en) * 2004-04-05 2005-10-20 Koninklijke Philips Electronics N.V. Method, device, encoder apparatus, decoder apparatus and audio system
SE0402652D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Methods for improved performance of prediction based multi- channel reconstruction
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
ATE527833T1 (de) * 2006-05-04 2011-10-15 Lg Electronics Inc Verbesserung von stereo-audiosignalen mittels neuabmischung
MX2008012251A (es) * 2006-09-29 2008-10-07 Lg Electronics Inc Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto.
WO2008039038A1 (en) * 2006-09-29 2008-04-03 Electronics And Telecommunications Research Institute Apparatus and method for coding and decoding multi-object audio signal with various channel
ATE539434T1 (de) * 2006-10-16 2012-01-15 Fraunhofer Ges Forschung Vorrichtung und verfahren für mehrkanalparameterumwandlung
CA2874454C (en) * 2006-10-16 2017-05-02 Dolby International Ab Enhanced coding and parameter representation of multichannel downmixed object coding
CA2669091C (en) * 2006-11-15 2014-07-08 Lg Electronics Inc. A method and an apparatus for decoding an audio signal
PL2137725T3 (pl) * 2007-04-26 2014-06-30 Dolby Int Ab Urządzenie i sposób do syntetyzowania sygnału wyjściowego
BRPI0816556A2 (pt) * 2007-10-17 2019-03-06 Fraunhofer Ges Zur Foerderung Der Angewandten Forsschung E V codificação de áudio usando downmix

Also Published As

Publication number Publication date
KR20110002489A (ko) 2011-01-07
MX2008012918A (es) 2008-10-15
EP2095364B1 (en) 2012-06-27
RU2010140328A (ru) 2012-04-10
BRPI0711094A2 (pt) 2011-08-23
JP2010511189A (ja) 2010-04-08
RU2544789C2 (ru) 2015-03-20
CA2645911C (en) 2014-01-07
US20090210239A1 (en) 2009-08-20
JP2010511190A (ja) 2010-04-08
KR101055739B1 (ko) 2011-08-11
EP2095364A1 (en) 2009-09-02
RU2010147691A (ru) 2012-05-27
EP2095365A1 (en) 2009-09-02
AU2007322487B2 (en) 2010-12-16
WO2008063035A1 (en) 2008-05-29
AU2007322488B2 (en) 2010-04-29
MX2008012439A (es) 2008-10-10
CA2645863A1 (en) 2008-05-29
ES2387692T3 (es) 2012-09-28
US20090265164A1 (en) 2009-10-22
KR101102401B1 (ko) 2012-01-05
WO2008063034A1 (en) 2008-05-29
KR20090018839A (ko) 2009-02-23
EP2095364A4 (en) 2010-04-28
JP5139440B2 (ja) 2013-02-06
KR20090028723A (ko) 2009-03-19
AU2007322487A1 (en) 2008-05-29
RU2484543C2 (ru) 2013-06-10
CA2645911A1 (en) 2008-05-29
EP2095365A4 (en) 2009-11-18
CA2645863C (en) 2013-01-08
BRPI0710935A2 (pt) 2012-02-14
AU2007322488A1 (en) 2008-05-29

Similar Documents

Publication Publication Date Title
JP5394931B2 (ja) オブジェクトベースオーディオ信号の復号化方法及びその装置
RU2551797C2 (ru) Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов
JP5883561B2 (ja) アップミックスを使用した音声符号器
KR101227932B1 (ko) 다채널 멀티트랙 오디오 시스템 및 오디오 처리 방법
CN101490744B (zh) 用于编码和解码基于对象的音频信号的方法和装置
RU2455708C2 (ru) Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111107

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111115

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121009

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130109

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20130219

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130607

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20130617

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130813

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130823

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131017

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees