JP7412367B2

JP7412367B2 - 復号装置および方法、並びにプログラム

Info

Publication number: JP7412367B2
Application number: JP2021006899A
Authority: JP
Inventors: 徹知念; 正之西口; 潤宇史; 光行畠中; 優樹山本
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2014-03-24
Filing date: 2021-01-20
Publication date: 2024-01-12
Anticipated expiration: 2034-07-02
Also published as: JP2023072027A; JP2021064013A; JP6863359B2; JP2019049745A

Description

本技術は復号装置および方法、並びにプログラムに関し、特に、オーディオ信号の復号の計算量を低減させることができるようにした復号装置および方法、並びにプログラムに関する。

例えば、オーディオ信号を符号化する方法として、国際標準規格であるMPEG(Moving Picture Experts Group)-2 AAC(Advanced Audio Coding)規格、MPEG-4 AAC規格やMPEG-D USAC(Unified Speech and Audio Coding)規格のマルチチャネル符号化が知られている（例えば、非特許文献１および非特許文献２参照）。

INTERNATIONAL STANDARD ISO/IEC 14496-3 Fourth edition 2009-09-01 Information technology-coding of audio-visual objects-part3:Audio INTERNATIONAL STANDARD ISO/IEC 23003-3 Frist edition 2012-04-01 Information technology-coding of audio-visual objects-part3:Unified speech and audio coding

ところで、従来の5.1チャネルサラウンド再生を超える、より高臨場感な再生や、複数の音素材（オブジェクト）を伝送するためには、より多くのオーディオチャネルを用いた符号化技術が必要になる。

例えば、24チャネルのオーディオ信号および複数のオブジェクトのオーディオ信号を符号化し、復号を行う場合と、2チャネルのオーディオ信号を符号化し復号する場合とを考える。このような場合、計算能力の乏しいモバイルデバイスなどでは、2チャネルのオーディオ信号をリアルタイムに復号することは可能であるが、24チャネルのオーディオ信号および複数のオブジェクトのオーディオ信号をリアルタイムに復号することが困難な場合がある。

現状のMPEG-D USACなどのオーディオコーデックでは、全チャネルおよび全オブジェクトのオーディオ信号を復号する必要があるため、復号時の計算量を低減させることが困難である。そうすると、復号側の機器によっては、リアルタイムでオーディオ信号を再生することができなくなってしまうことがある。

本技術は、このような状況に鑑みてなされたものであり、復号の計算量を低減させることができるようにするものである。

本技術の一側面の復号装置は、供給されたビットストリームから複数のオブジェクトの符号化されたオーディオ信号、および各前記オブジェクトの符号化されたオーディオ信号の所定の時間における優先度情報を取得する取得部と、前記優先度情報に示される優先度合いが所定の度合い以上である前記オブジェクトの符号化されたオーディオ信号を復号し、前記優先度情報に示される優先度合いが前記所定の度合い未満である前記オブジェクトの符号化されたオーディオ信号は復号しないオーディオ信号復号部とを備え、前記優先度情報は、オーディオ信号の出力調整に使用可能であり、前記オーディオ信号の出力調整は、徐々にオーディオ信号の出力ゲインを増加または減少させることを含む。

本技術の一側面の復号方法またはプログラムは、供給されたビットストリームから複数のオブジェクトの符号化されたオーディオ信号、および各前記オブジェクトの符号化されたオーディオ信号の所定の時間における優先度情報を取得し、前記優先度情報に示される優先度合いが所定の度合い以上である前記オブジェクトの符号化されたオーディオ信号を復号し、前記優先度情報に示される優先度合いが前記所定の度合い未満である前記オブジェクトの符号化されたオーディオ信号は復号しないステップを含み、前記優先度情報は、オーディオ信号の出力調整に使用可能であり、前記オーディオ信号の出力調整は、徐々にオーディオ信号の出力ゲインを増加または減少させることを含む。

本技術の一側面においては、供給されたビットストリームから複数のオブジェクトの符号化されたオーディオ信号、および各前記オブジェクトの符号化されたオーディオ信号の所定の時間における優先度情報が取得され、前記優先度情報に示される優先度合いが所定の度合い以上である前記オブジェクトの符号化されたオーディオ信号が復号され、前記優先度情報に示される優先度合いが前記所定の度合い未満である前記オブジェクトの符号化されたオーディオ信号は復号されない。また、前記優先度情報は、オーディオ信号の出力調整に使用可能とされ、前記オーディオ信号の出力調整には、徐々にオーディオ信号の出力ゲインを増加または減少させることが含まれている。

ビットストリームについて説明する図である。符号化について説明する図である。優先度情報について説明する図である。優先度情報の値の意味について説明する図である。符号化装置の構成例を示す図である。チャネルオーディオ符号化部の構成例を示す図である。オブジェクトオーディオ符号化部の構成例を示す図である。符号化処理を説明するフローチャートである。復号装置の構成例を示す図である。アンパッキング／復号部の構成例を示す図である。復号処理を説明するフローチャートである。選択復号処理を説明するフローチャートである。アンパッキング／復号部の他の構成例を示す図である。選択復号処理を説明するフローチャートである。オブジェクトのメタデータのシンタックスの一例を示す図である。オーディオ信号の生成について説明する図である。オーディオ信号の生成について説明する図である。 MDCT係数の出力先の選択について説明する図である。オーディオ信号と高域のパワー値のゲイン調整について説明する図である。オーディオ信号と高域のパワー値のゲイン調整について説明する図である。アンパッキング／復号部の他の構成例を示す図である。選択復号処理を説明するフローチャートである。オーディオ信号のゲイン調整について説明する図である。オーディオ信号のゲイン調整について説明する図である。アンパッキング／復号部の他の構成例を示す図である。選択復号処理を説明するフローチャートである。 VBAPゲインについて説明する図である。 VBAPゲインについて説明する図である。アンパッキング／復号部の他の構成例を示す図である。復号処理を説明するフローチャートである。選択復号処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術の概要について〉
本技術は、マルチチャネルを構成する各チャネルのオーディオ信号、およびオブジェクトのオーディオ信号の符号化において、各チャネルのオーディオ信号の優先度情報および各オブジェクトのオーディオ信号の優先度情報を伝送することで、復号の計算量を低減させることができるようにするものである。

また、本技術は復号側において、各チャネルまたは各オブジェクトの優先度情報に示される優先度合いが所定の度合い以上である場合に周波数時間変換を行い、優先度情報に示される優先度合いが所定の度合い未満である場合には、周波数時間変換を行わず、周波数時間変換の結果を０とすることで、オーディオ信号の復号の計算量を低減させることができるようにするものである。

なお、以下では、マルチチャネルのオーディオ信号およびオブジェクトのオーディオ信号がAAC規格に従って符号化される場合について説明するが、他の方式で符号化される場合にも同様の処理が行なわれる。

例えば、マルチチャネルのオーディオ信号、および複数のオブジェクトのオーディオ信号がAAC規格に従って符号化され、伝送される場合、各チャネルや各オブジェクトのオーディオ信号がフレームごとに符号化されて伝送される。

具体的には図１に示すように、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント（ビットストリームエレメント）に格納され、それらのエレメントからなるビットストリームが伝送されることになる。

この例では、１フレーム分のビットストリームには、先頭から順番にｔ個のエレメントＥＬ１乃至エレメントＥＬｔが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子ＴＥＲＭが配置されている。

例えば、先頭に配置されたエレメントＥＬ１は、DSE（Data Stream Element）と呼ばれるアンシラリデータ領域であり、DSEにはオーディオ信号のダウンミックスに関する情報や識別情報など、複数の各チャネルに関する情報が記述される。

エレメントＥＬ１の後に続くエレメントＥＬ２乃至エレメントＥＬｔには、符号化されたオーディオ信号が格納される。

特に、シングルチャネルのオーディオ信号が格納されているエレメントはSCEと呼ばれており、ペアとなる２つのチャネルのオーディオ信号が格納されているエレメントはCPEと呼ばれている。また、各オブジェクトのオーディオ信号はSCEに格納される。

本技術では、マルチチャネルを構成する各チャネルのオーディオ信号の優先度情報、および各オブジェクトのオーディオ信号の優先度情報が生成されてDSEに格納される。

例えば、図２に示すように連続するフレームＦ１１乃至フレームＦ１３のオーディオ信号が符号化されるとする。

このような場合、符号化装置（エンコーダ）は、それらのフレームごとに、各チャネルのオーディオ信号がどの程度の優先度合いであるかを解析し、例えば図３に示すように各チャネルの優先度情報を生成する。同様に、符号化装置は、各オブジェクトのオーディオ信号についても優先度情報を生成する。

例えば符号化装置は、オーディオ信号の音圧やスペクトルの形状、さらに各チャネル間やオブジェクト間のスペクトル形状の相関などに基づいて、オーディオ信号がどの程度の優先度合いであるかを解析する。

図３では、全チャネル数がＭチャネルである場合における各チャネルの優先度情報が例として示されている。すなわち、チャネル番号が０であるチャネルから、チャネル番号がＭ－１であるチャネルまでの各チャネルについて、それらのチャネルのオーディオ信号の優先度合いを示す数値が優先度情報として示されている。

例えばチャネル番号が０であるチャネルの優先度情報は３となっており、チャネル番号が１であるチャネルの優先度情報は０となっている。なお、以下、所定のチャネル番号ｍ（ｍ＝0,1,・・・,M-1）のチャネルをチャネルｍとも称することとする。

図３に示した優先度情報の値は、図４に示すように０から７までの何れかの値とされるようになされており、優先度情報の値が大きいほど、オーディオ信号の再生時の優先度合い、つまり重要度が高いとされている。

したがって、優先度情報の値が０であるオーディオ信号は最も優先度が低く、優先度情報の値が７であるオーディオ信号は最も優先度が高いことになる。

マルチチャネルのオーディオ信号や複数のオブジェクトのオーディオ信号が同時に再生される場合、通常、それらのオーディオ信号により再生される音声のなかには、他の音声と比べるとそれほど重要ではない音声も含まれている。換言すれば、全体の音声のなかで、ある特定の音声が再生されなかったとしても、そのことにより受聴者に違和感を与えるようなことがない程度の音声も存在する。

したがって、必要に応じて優先度の低いオーディオ信号については復号しないようにすれば、音質の劣化を抑えつつ復号の計算量を低減させることができる。そこで、符号化装置では、復号しないオーディオ信号を適切に選択することができるように、再生時における各オーディオ信号の重要さの度合い、つまり復号を優先させるべき度合いを示す優先度情報が、フレームごとに各オーディオ信号に対して付与される。

以上のようにして各オーディ信号の優先度情報が定められると、それらの優先度情報は、図１に示したエレメントＥＬ１のDSEに格納される。特に図３の例では、マルチチャネルのオーディオ信号を構成するチャネル数はＭであるから、チャネル０からチャネルＭ－１のＭ個の各チャネルの優先度情報がDSEに格納される。

同様に、各オブジェクトの優先度情報もエレメントＥＬ１のDSEに格納される。ここでは、例えばオブジェクト番号が０からＮ－１までのＮ個のオブジェクトがあるとすると、Ｎ個の各オブジェクトに対して、それぞれ優先度情報が定められ、DSEに格納される。

なお、以下、所定のオブジェクト番号ｎ（ｎ＝0,1,・・・,N-1）のオブジェクトをオブジェクトｎとも称することとする。

このように、各オーディオ信号に対して優先度情報を定めれば、再生側、つまりオーディオ信号の復号側において、再生時にどのオーディオ信号が重要であり、優先して復号すべきか、つまり再生に用いるべきかを簡単に特定することができる。

図２の説明に戻り、例えば所定のチャネルのフレームＦ１１とフレームＦ１３のオーディオ信号の優先度情報が７であり、その所定のチャネルのフレームＦ１２のオーディオ信号の優先度情報が０であったとする。

また、オーディオ信号の復号側、つまり復号装置（デコーダ）において所定の優先度合い未満のオーディオ信号に対しては、復号が行われないようになっているとする。

ここで、例えば所定の優先度合いを閾値と呼ぶこととし、その閾値が４であるとすると、上述した例では、優先度情報が７である所定チャネルのフレームＦ１１とフレームＦ１３のオーディオ信号に対しては復号が行われる。

これに対して、優先度情報が０である所定チャネルのフレームＦ１２のオーディオ信号に対しては復号が行われない。

したがって、この例ではフレームＦ１２のオーディオ信号が無音信号とされて、フレームＦ１１とフレームＦ１３のオーディオ信号が合成され、最終的な所定チャネルのオーディオ信号とされる。

より詳細には、例えば各オーディオ信号の符号化時には、オーディオ信号に対する時間周波数変換が行われて時間周波数変換により得られた情報が符号化され、その結果得られた符号化データがエレメントに格納される。

なお、時間周波数変換としてどのような処理が行われてもよいが、以下では時間周波数変換としてMDCT（Modified Discrete Cosine Transform）（修正離散コサイン変換）が行われるものとして説明を続ける。

また、復号装置では、符号化データに対する復号が行われ、その結果得られたMDCT係数に対してIMDCT（Inverse Modified Discrete Cosine Transform）（逆修正離散コサイン変換）が行われ、オーディオ信号が生成される。すなわち、ここでは時間周波数変換の逆変換（周波数時間変換）としてIMDCTが行われる。

そのため、より詳細には、優先度情報が閾値の値４以上であるフレームＦ１１とフレームＦ１３についてはIMDCTが行われてオーディオ信号が生成される。

また、優先度情報が閾値の値４未満であるフレームＦ１２についてはIMDCTが行われず、IMDCTの結果が０とされてオーディオ信号が生成される。これにより、フレームＦ１２のオーディオ信号は無音信号、つまり０データとなる。

さらに別の例として、図３に示した例では、閾値が４であるときには各チャネル０乃至チャネルＭ－１のオーディオ信号のうち、優先度情報が閾値である４未満の値となっているチャネル０、チャネル１、およびチャネルＭ－２のオーディオ信号の復号が行われないことになる。

以上のように閾値との比較結果に応じて、優先度情報により示される優先度合いの低いオーディオ信号については復号を行わないようにすることで、音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。

〈符号化装置の構成例〉
次に、本技術を適用した符号化装置および復号装置の具体的な実施の形態について説明する。まず、符号化装置について説明する。

図５は、本技術を適用した符号化装置の構成例を示す図である。

図５の符号化装置１１は、チャネルオーディオ符号化部２１、オブジェクトオーディオ符号化部２２、メタデータ入力部２３、およびパッキング部２４を有している。

チャネルオーディオ符号化部２１には、チャネル数がＭであるマルチチャネルの各チャネルのオーディオ信号が供給される。例えば各チャネルのオーディオ信号は、それらのチャネルに対応するマイクロフォンから供給される。図５では、文字「＃０」乃至「＃Ｍ－１」は、各チャネルのチャネル番号を表している。

チャネルオーディオ符号化部２１は、供給された各チャネルのオーディオ信号を符号化するとともに、オーディオ信号に基づいて優先度情報を生成し、符号化により得られた符号化データと、優先度情報とをパッキング部２４に供給する。

オブジェクトオーディオ符号化部２２には、Ｎ個の各オブジェクトのオーディオ信号が供給される。例えば各オブジェクトのオーディオ信号は、それらのオブジェクトに取り付けられたマイクロフォンから供給される。図５では、文字「＃０」乃至「＃Ｎ－１」は、各オブジェクトのオブジェクト番号を表している。

オブジェクトオーディオ符号化部２２は、供給された各オブジェクトのオーディオ信号を符号化するとともに、オーディオ信号に基づいて優先度情報を生成し、符号化により得られた符号化データと、優先度情報とをパッキング部２４に供給する。

メタデータ入力部２３は、各オブジェクトのメタデータをパッキング部２４に供給する。例えばオブジェクトのメタデータは、空間上におけるオブジェクトの位置を示す空間位置情報などとされる。より具体的には、例えば空間位置情報は３次元空間におけるオブジェクトの位置の座標を示す３次元座標情報である。

パッキング部２４は、チャネルオーディオ符号化部２１から供給された符号化データと優先度情報、オブジェクトオーディオ符号化部２２から供給された符号化データと優先度情報、およびメタデータ入力部２３から供給されたメタデータをパッキングしてビットストリームを生成し、出力する。

このようにして得られるビットストリームには、フレームごとに各チャネルの符号化データ、各チャネルの優先度情報、各オブジェクトの符号化データ、各オブジェクトの優先度情報、および各オブジェクトのメタデータが含まれていることになる。

ここで、１フレーム分のビットストリームに格納されるＭ個の各チャネルのオーディオ信号、およびＮ個の各オブジェクトのオーディオ信号は、同時に再生されるべき同一フレームのオーディオ信号である。

なお、ここでは、各チャネルや各オブジェクトのオーディオ信号の優先度情報として、１フレームごとに各オーディオ信号に対して優先度情報が生成される例について説明するが、任意の所定の時間を単位として、例えば数フレーム分のオーディオ信号に対して１つの優先度情報が生成されるようにしてもよい。

〈チャネルオーディオ符号化部の構成例〉
また、図５のチャネルオーディオ符号化部２１は、より詳細には、例えば図６に示すように構成される。

図６に示すチャネルオーディオ符号化部２１は、符号化部５１および優先度情報生成部５２を備えている。

符号化部５１はMDCT部６１を備えており、符号化部５１は外部から供給された各チャネルのオーディオ信号を符号化する。

すなわち、MDCT部６１は、外部から供給された各チャネルのオーディオ信号に対してMDCTを行う。符号化部５１は、MDCTにより得られた各チャネルのMDCT係数を符号化し、その結果得られた各チャネルの符号化データ、つまり符号化されたオーディオ信号をパッキング部２４に供給する。

また、優先度情報生成部５２は、外部から供給された各チャネルのオーディオ信号を解析して、それらの各チャネルのオーディオ信号の優先度情報を生成し、パッキング部２４に供給する。

〈オブジェクトオーディオ符号化部の構成例〉
さらに、図５のオブジェクトオーディオ符号化部２２は、より詳細には、例えば図７に示すように構成される。

図７に示すオブジェクトオーディオ符号化部２２は、符号化部９１および優先度情報生成部９２を備えている。

符号化部９１はMDCT部１０１を備えており、符号化部９１は外部から供給された各オブジェクトのオーディオ信号を符号化する。

すなわち、MDCT部１０１は、外部から供給された各オブジェクトのオーディオ信号に対してMDCTを行う。符号化部９１は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データ、つまり符号化されたオーディオ信号をパッキング部２４に供給する。

また、優先度情報生成部９２は、外部から供給された各オブジェクトのオーディオ信号を解析して、それらの各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部２４に供給する。

〈符号化処理の説明〉
次に、符号化装置１１により行われる処理について説明する。

符号化装置１１は、同時に再生される、複数の各チャネルのオーディオ信号および複数の各オブジェクトのオーディオ信号が１フレーム分だけ供給されると、符号化処理を行って、符号化されたオーディオ信号が含まれるビットストリームを出力する。

以下、図８のフローチャートを参照して、符号化装置１１による符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。

ステップＳ１１において、チャネルオーディオ符号化部２１の優先度情報生成部５２は、供給された各チャネルのオーディオ信号の優先度情報を生成し、パッキング部２４に供給する。例えば優先度情報生成部５２は、チャネルごとにオーディオ信号を解析し、オーディオ信号の音圧やスペクトル形状、チャネル間のスペクトル形状の相関などに基づいて優先度情報を生成する。

ステップＳ１２において、パッキング部２４は、優先度情報生成部５２から供給された各チャネルのオーディオ信号の優先度情報をビットストリームのDSEに格納する。すなわち、優先度情報がビットストリームの先頭のエレメントに格納される。

ステップＳ１３において、オブジェクトオーディオ符号化部２２の優先度情報生成部９２は、供給された各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部２４に供給する。例えば優先度情報生成部９２は、オブジェクトごとにオーディオ信号を解析し、オーディオ信号の音圧やスペクトル形状、オブジェクト間のスペクトル形状の相関などに基づいて優先度情報を生成する。

なお、各チャネルや各オブジェクトのオーディオ信号の優先度情報の生成時には、優先度情報の値となる優先度合いごとに、それらの優先度合いが割り当てられるオーディオ信号の数が、チャネル数やオブジェクト数に対して予め定められているようにしてもよい。

例えば図３の例では、優先度情報が「７」とされるオーディオ信号の数、つまりチャネルの数は５個、優先度情報が「６」とされるオーディオ信号の数は３個などと、予め定められているようにしてもよい。

ステップＳ１４において、パッキング部２４は、優先度情報生成部９２から供給された各オブジェクトのオーディオ信号の優先度情報をビットストリームのDSEに格納する。

ステップＳ１５において、パッキング部２４は、各オブジェクトのメタデータをビットストリームのDSEに格納する。

例えばメタデータ入力部２３は、ユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、各オブジェクトのメタデータを取得し、パッキング部２４に供給する。パッキング部２４は、このようにしてメタデータ入力部２３から供給されたメタデータをDSEに格納する。

以上の処理により、ビットストリームのDSEには、全チャネルのオーディオ信号の優先度情報、全オブジェクトのオーディオ信号の優先度情報、および全オブジェクトのメタデータが格納されたことになる。

ステップＳ１６において、チャネルオーディオ符号化部２１の符号化部５１は、供給された各チャネルのオーディオ信号を符号化する。

より具体的には、MDCT部６１は各チャネルのオーディオ信号に対してMDCTを行い、符号化部５１は、MDCTにより得られた各チャネルのMDCT係数を符号化し、その結果得られた各チャネルの符号化データをパッキング部２４に供給する。

ステップＳ１７において、パッキング部２４は符号化部５１から供給された各チャネルのオーディオ信号の符号化データを、ビットストリームのSCEまたはCPEに格納する。すなわち、ビットストリームにおいてDSEに続いて配置されている各エレメントに符号化データが格納される。

ステップＳ１８において、オブジェクトオーディオ符号化部２２の符号化部９１は、供給された各オブジェクトのオーディオ信号を符号化する。

より具体的には、MDCT部１０１は各オブジェクトのオーディオ信号に対してMDCTを行い、符号化部９１は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データをパッキング部２４に供給する。

ステップＳ１９において、パッキング部２４は符号化部９１から供給された各オブジェクトのオーディオ信号の符号化データを、ビットストリームのSCEに格納する。すなわち、ビットストリームにおいてDSEよりも後に配置されているいくつかのエレメントに符号化データが格納される。

以上の処理により、処理対象となっているフレームについて、全チャネルのオーディオ信号の優先度情報と符号化データ、全オブジェクトのオーディオ信号の優先度情報と符号化データ、および全オブジェクトのメタデータが格納されたビットストリームが得られる。

ステップＳ２０において、パッキング部２４は、得られたビットストリームを出力し、符号化処理は終了する。

以上のようにして符号化装置１１は、各チャネルのオーディオ信号の優先度情報と、各オブジェクトのオーディオ信号の優先度情報とを生成してビットストリームに格納し、出力する。したがって、復号側において、どのオーディオ信号がより優先度合いの高いものであるかを簡単に把握することができるようになる。

これにより、復号側では、優先度情報に応じて、符号化されたオーディオ信号の復号を選択的に行うことができる。その結果、オーディオ信号により再生される音声の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。

特に、各オブジェクトのオーディオ信号の優先度情報をビットストリームに格納しておくことで、復号側において、復号の計算量を低減できるだけでなく、その後のレンダリング等の処理の計算量も低減させることができる。

〈復号装置の構成例〉
次に、以上において説明した符号化装置１１から出力されたビットストリームを入力とし、ビットストリームに含まれる符号化データを復号する復号装置について説明する。

そのような復号装置は、例えば図９に示すように構成される。

図９に示す復号装置１５１は、アンパッキング／復号部１６１、レンダリング部１６２、およびミキシング部１６３を有している。

アンパッキング／復号部１６１は、符号化装置１１から出力されたビットストリームを取得するとともに、ビットストリームのアンパッキングおよび復号を行う。

アンパッキング／復号部１６１は、アンパッキングおよび復号により得られた各オブジェクトのオーディオ信号と、各オブジェクトのメタデータとをレンダリング部１６２に供給する。このとき、アンパッキング／復号部１６１は、ビットストリームに含まれている優先度情報に応じて各オブジェクトの符号化データの復号を行う。

また、アンパッキング／復号部１６１は、アンパッキングおよび復号により得られた各チャネルのオーディオ信号をミキシング部１６３に供給する。このとき、アンパッキング／復号部１６１は、ビットストリームに含まれている優先度情報に応じて各チャネルの符号化データの復号を行う。

レンダリング部１６２は、アンパッキング／復号部１６１から供給された各オブジェクトのオーディオ信号、および各オブジェクトのメタデータとしての空間位置情報に基づいて、Ｍチャネルのオーディオ信号を生成し、ミキシング部１６３に供給する。このときレンダリング部１６２は、各オブジェクトの音像が、それらのオブジェクトの空間位置情報により示される位置に定位するようにＭ個の各チャネルのオーディオ信号を生成する。

ミキシング部１６３は、アンパッキング／復号部１６１から供給された各チャネルのオーディオ信号と、レンダリング部１６２から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算を行って、最終的な各チャネルのオーディオ信号を生成する。ミキシング部１６３は、このようにして得られた最終的な各チャネルのオーディオ信号を、外部の各チャネルに対応するスピーカに供給し、音声を再生させる。

〈アンパッキング／復号部の構成例〉
また、図９に示した復号装置１５１のアンパッキング／復号部１６１は、より詳細には例えば図１０に示すように構成される。

図１０に示すアンパッキング／復号部１６１は、優先度情報取得部１９１、チャネルオーディオ信号取得部１９２、チャネルオーディオ信号復号部１９３、出力選択部１９４、０値出力部１９５、IMDCT部１９６、オブジェクトオーディオ信号取得部１９７、オブジェクトオーディオ信号復号部１９８、出力選択部１９９、０値出力部２００、およびIMDCT部２０１を有している。

優先度情報取得部１９１は、供給されたビットストリームから、各チャネルのオーディオ信号の優先度情報を取得して出力選択部１９４に供給するとともに、ビットストリームから各オブジェクトのオーディオ信号の優先度情報を取得して出力選択部１９９に供給する。

また、優先度情報取得部１９１は、供給されたビットストリームから各オブジェクトのメタデータを取得してレンダリング部１６２に供給するとともに、ビットストリームをチャネルオーディオ信号取得部１９２およびオブジェクトオーディオ信号取得部１９７に供給する。

チャネルオーディオ信号取得部１９２は、優先度情報取得部１９１から供給されたビットストリームから各チャネルの符号化データを取得して、チャネルオーディオ信号復号部１９３に供給する。チャネルオーディオ信号復号部１９３は、チャネルオーディオ信号取得部１９２から供給された各チャネルの符号化データを復号し、その結果得られたMDCT係数を出力選択部１９４に供給する。

出力選択部１９４は、優先度情報取得部１９１から供給された各チャネルの優先度情報に基づいて、チャネルオーディオ信号復号部１９３から供給された各チャネルのMDCT係数の出力先を選択的に切り替える。

すなわち、出力選択部１９４は、所定のチャネルについての優先度情報が所定の閾値Ｐ未満である場合、そのチャネルのMDCT係数を０として０値出力部１９５に供給する。また、出力選択部１９４は、所定のチャネルについての優先度情報が所定の閾値Ｐ以上である場合、チャネルオーディオ信号復号部１９３から供給された、そのチャネルのMDCT係数をIMDCT部１９６に供給する。

０値出力部１９５は、出力選択部１９４から供給されたMDCT係数に基づいてオーディオ信号を生成し、ミキシング部１６３に供給する。この場合、MDCT係数は０であるので、無音のオーディオ信号が生成される。

IMDCT部１９６は、出力選択部１９４から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、ミキシング部１６３に供給する。

オブジェクトオーディオ信号取得部１９７は、優先度情報取得部１９１から供給されたビットストリームから各オブジェクトの符号化データを取得して、オブジェクトオーディオ信号復号部１９８に供給する。オブジェクトオーディオ信号復号部１９８は、オブジェクトオーディオ信号取得部１９７から供給された各オブジェクトの符号化データを復号し、その結果得られたMDCT係数を出力選択部１９９に供給する。

出力選択部１９９は、優先度情報取得部１９１から供給された各オブジェクトの優先度情報に基づいて、オブジェクトオーディオ信号復号部１９８から供給された各オブジェクトのMDCT係数の出力先を選択的に切り替える。

すなわち、出力選択部１９９は、所定のオブジェクトについての優先度情報が所定の閾値Ｑ未満である場合、そのオブジェクトのMDCT係数を０として０値出力部２００に供給する。また、出力選択部１９９は、所定のオブジェクトについての優先度情報が所定の閾値Ｑ以上である場合、オブジェクトオーディオ信号復号部１９８から供給された、そのオブジェクトのMDCT係数をIMDCT部２０１に供給する。

なお、閾値Ｑの値は、閾値Ｐの値と同じであってもよいし、閾値Ｐの値と異なる値であってもよい。復号装置１５１の計算能力等に応じて適切に閾値Ｐおよび閾値Ｑを定めることにより、オーディオ信号の復号の計算量を、復号装置１５１がリアルタイムに復号することが可能な範囲内の計算量まで低減させることができる。

０値出力部２００は、出力選択部１９９から供給されたMDCT係数に基づいてオーディオ信号を生成し、レンダリング部１６２に供給する。この場合、MDCT係数は０であるので、無音のオーディオ信号が生成される。

IMDCT部２０１は、出力選択部１９９から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、レンダリング部１６２に供給する。

〈復号処理の説明〉
次に、復号装置１５１の動作について説明する。

復号装置１５１は、符号化装置１１から１フレーム分のビットストリームが供給されると、復号処理を行ってオーディオ信号を生成し、スピーカへと出力する。以下、図１１のフローチャートを参照して、復号装置１５１により行われる復号処理について説明する。

ステップＳ５１において、アンパッキング／復号部１６１は、符号化装置１１から送信されてきたビットストリームを取得する。すなわち、ビットストリームが受信される。

ステップＳ５２において、アンパッキング／復号部１６１は選択復号処理を行う。

なお、選択復号処理の詳細は後述するが、選択復号処理では各チャネルの符号化データと、各オブジェクトの符号化データとが優先度情報に基づいて選択的に復号される。そして、その結果得られた各チャネルのオーディオ信号がミキシング部１６３に供給され、各オブジェクトのオーディオ信号がレンダリング部１６２に供給される。また、ビットストリームから取得された各オブジェクトのメタデータがレンダリング部１６２に供給される。

ステップＳ５３において、レンダリング部１６２は、アンパッキング／復号部１６１から供給された各オブジェクトのオーディオ信号、および各オブジェクトのメタデータとしての空間位置情報に基づいて、各オブジェクトのオーディオ信号のレンダリングを行う。

例えばレンダリング部１６２は、空間位置情報に基づいてVBAP（Vector Base Amplitude Pannning）により、各オブジェクトの音像が空間位置情報により示される位置に定位するように各チャネルのオーディオ信号を生成し、ミキシング部１６３に供給する。

ステップＳ５４において、ミキシング部１６３は、アンパッキング／復号部１６１から供給された各チャネルのオーディオ信号と、レンダリング部１６２から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、外部のスピーカに供給する。これにより、各スピーカには、それらのスピーカに対応するチャネルのオーディオ信号が供給されるので、各スピーカは供給されたオーディオ信号に基づいて音声を再生する。

各チャネルのオーディオ信号がスピーカに供給されると、復号処理は終了する。

以上のようにして、復号装置１５１は、ビットストリームから優先度情報を取得して、その優先度情報に応じて各チャネルおよび各オブジェクトの符号化データを復号する。

〈選択復号処理の説明〉
続いて、図１２のフローチャートを参照して、図１１のステップＳ５２の処理に対応する選択復号処理について説明する。

ステップＳ８１において、優先度情報取得部１９１は、供給されたビットストリームから、各チャネルのオーディオ信号の優先度情報、および各オブジェクトのオーディオ信号の優先度情報を取得して、それぞれ出力選択部１９４および出力選択部１９９に供給する。

また、優先度情報取得部１９１は、ビットストリームから各オブジェクトのメタデータを取得してレンダリング部１６２に供給するとともに、ビットストリームをチャネルオーディオ信号取得部１９２およびオブジェクトオーディオ信号取得部１９７に供給する。

ステップＳ８２において、チャネルオーディオ信号取得部１９２は、処理対象とするチャネルのチャネル番号に０を設定し、保持する。

ステップＳ８３において、チャネルオーディオ信号取得部１９２は、保持しているチャネル番号がチャネル数Ｍ未満であるか否かを判定する。

ステップＳ８３において、チャネル番号がＭ未満であると判定された場合、ステップＳ８４において、チャネルオーディオ信号復号部１９３は、処理対象のチャネルのオーディオ信号の符号化データを復号する。

すなわち、チャネルオーディオ信号取得部１９２は、優先度情報取得部１９１から供給されたビットストリームから、処理対象のチャネルの符号化データを取得してチャネルオーディオ信号復号部１９３に供給する。

すると、チャネルオーディオ信号復号部１９３は、チャネルオーディオ信号取得部１９２から供給された符号化データを復号し、その結果得られたMDCT係数を出力選択部１９４に供給する。

ステップＳ８５において、出力選択部１９４は、優先度情報取得部１９１から供給された処理対象のチャネルの優先度情報が、図示せぬ上位の制御装置等により指定された閾値Ｐ以上であるか否かを判定する。ここで閾値Ｐは、例えば復号装置１５１の計算能力等に応じて定められる。

ステップＳ８５において、優先度情報が閾値Ｐ以上であると判定された場合、出力選択部１９４は、チャネルオーディオ信号復号部１９３から供給された、処理対象のチャネルのMDCT係数をIMDCT部１９６に供給し、処理はステップＳ８６に進む。この場合、処理対象のチャネルのオーディオ信号の優先度合いは、所定の優先度合い以上であるので、そのチャネルについての復号、より詳細にはIMDCTが行われる。

ステップＳ８６において、IMDCT部１９６は、出力選択部１９４から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のチャネルのオーディオ信号を生成し、ミキシング部１６３に供給する。オーディオ信号が生成されると、その後、処理はステップＳ８７へと進む。

これに対して、ステップＳ８５において、優先度情報が閾値Ｐ未満であると判定された場合、出力選択部１９４は、MDCT係数を０として０値出力部１９５に供給する。

０値出力部１９５は、出力選択部１９４から供給された０であるMDCT係数から、処理対象のチャネルのオーディオ信号を生成し、ミキシング部１６３に供給する。したがって、０値出力部１９５では、実質的にはIMDCTなどのオーディオ信号を生成するための処理は何も行われない。

なお、０値出力部１９５により生成されるオーディオ信号は無音信号である。オーディオ信号が生成されると、その後、処理はステップＳ８７へと進む。

ステップＳ８５において優先度情報が閾値Ｐ未満であると判定されたか、またはステップＳ８６においてオーディオ信号が生成されると、ステップＳ８７において、チャネルオーディオ信号取得部１９２は、保持しているチャネル番号に１を加え、処理対象のチャネルのチャネル番号を更新する。

チャネル番号が更新されると、その後、処理はステップＳ８３に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のチャネルのオーディオ信号が生成される。

また、ステップＳ８３において、処理対象のチャネルのチャネル番号がＭ未満ではないと判定された場合、全てのチャネルについてオーディオ信号が得られたので、処理はステップＳ８８へと進む。

ステップＳ８８において、オブジェクトオーディオ信号取得部１９７は、処理対象とするオブジェクトのオブジェクト番号に０を設定し、保持する。

ステップＳ８９において、オブジェクトオーディオ信号取得部１９７は、保持しているオブジェクト番号がオブジェクト数Ｎ未満であるか否かを判定する。

ステップＳ８９において、オブジェクト番号がＮ未満であると判定された場合、ステップＳ９０において、オブジェクトオーディオ信号復号部１９８は、処理対象のオブジェクトのオーディオ信号の符号化データを復号する。

すなわち、オブジェクトオーディオ信号取得部１９７は、優先度情報取得部１９１から供給されたビットストリームから、処理対象のオブジェクトの符号化データを取得してオブジェクトオーディオ信号復号部１９８に供給する。

すると、オブジェクトオーディオ信号復号部１９８は、オブジェクトオーディオ信号取得部１９７から供給された符号化データを復号し、その結果得られたMDCT係数を出力選択部１９９に供給する。

ステップＳ９１において、出力選択部１９９は、優先度情報取得部１９１から供給された処理対象のオブジェクトの優先度情報が、図示せぬ上位の制御装置等により指定された閾値Ｑ以上であるか否かを判定する。ここで閾値Ｑは、例えば復号装置１５１の計算能力等に応じて定められる。

ステップＳ９１において、優先度情報が閾値Ｑ以上であると判定された場合、出力選択部１９９は、オブジェクトオーディオ信号復号部１９８から供給された、処理対象のオブジェクトのMDCT係数をIMDCT部２０１に供給し、処理はステップＳ９２に進む。

ステップＳ９２において、IMDCT部２０１は、出力選択部１９９から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部１６２に供給する。オーディオ信号が生成されると、その後、処理はステップＳ９３へと進む。

これに対して、ステップＳ９１において、優先度情報が閾値Ｑ未満であると判定された場合、出力選択部１９９は、MDCT係数を０として０値出力部２００に供給する。

０値出力部２００は、出力選択部１９９から供給された０であるMDCT係数から、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部１６２に供給する。したがって、０値出力部２００では、実質的にはIMDCTなどのオーディオ信号を生成するための処理は何も行われない。

なお、０値出力部２００により生成されるオーディオ信号は無音信号である。オーディオ信号が生成されると、その後、処理はステップＳ９３へと進む。

ステップＳ９１において優先度情報が閾値Ｑ未満であると判定されたか、またはステップＳ９２においてオーディオ信号が生成されると、ステップＳ９３において、オブジェクトオーディオ信号取得部１９７は、保持しているオブジェクト番号に１を加え、処理対象のオブジェクトのオブジェクト番号を更新する。

オブジェクト番号が更新されると、その後、処理はステップＳ８９に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のオブジェクトのオーディオ信号が生成される。

また、ステップＳ８９において、処理対象のオブジェクトのオブジェクト番号がＮ未満ではないと判定された場合、全てのチャネルおよびオブジェクトについてオーディオ信号が得られたので選択復号処理は終了し、その後、処理は図１１のステップＳ５３に進む。

以上のようにして、復号装置１５１は、各チャネルまたは各オブジェクトについて、優先度情報と閾値とを比較して、処理対象のフレームのチャネルやオブジェクトごとに符号化されたオーディオ信号の復号を行うか否かを判定しながら、符号化されたオーディオ信号を復号する。

すなわち、復号装置１５１では、各オーディオ信号の優先度情報に応じた所定の数だけ、符号化されたオーディオ信号が復号され、残りのオーディオ信号は復号されない。

これにより、再生環境に合わせて優先度合いの高いオーディオ信号のみを選択的に復号することができ、オーディオ信号により再生される音声の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。

しかも、各オブジェクトのオーディオ信号の優先度情報に基づいて、符号化されたオーディオ信号の復号を行うことで、オーディオ信号の復号の計算量だけでなく、レンダリング部１６２等における処理など、その後の処理の計算量も低減させることができる。

〈第１の実施の形態の変形例１〉
〈優先度情報について〉
なお、以上においては各チャネルや各オブジェクトの１つのオーディオ信号に対して、１つの優先度情報が生成されると説明したが、複数の優先度情報が生成されるようにしてもよい。

そのような場合、例えば複数の各優先度情報は復号の計算量、すなわち復号側の計算能力に応じて、計算能力ごとに生成される。

具体的には、例えば2チャネル相当のオーディオ信号をリアルタイムに復号するための計算量に基づいて、2チャネル相当の計算能力を有する機器のための優先度情報が生成される。

このような2チャネル相当の機器のための優先度情報では、例えば全オーディオ信号のうち、より優先度合いが低い、つまり０に近い値が優先度情報として割り当てられるオーディオ信号が多くなるように優先度情報が生成される。

また、例えば24チャネル相当のオーディオ信号をリアルタイムに復号するための計算量に基づいて、24チャネル相当の計算能力を有する機器のための優先度情報も生成される。24チャネル相当の機器のための優先度情報では、例えば全オーディオ信号のうち、より優先度合いが高い、つまり７に近い値が優先度情報として割り当てられるオーディオ信号が多くなるように優先度情報が生成される。

この場合、例えば優先度情報生成部５２は、図８のステップＳ１１において、各チャネルのオーディオ信号に対して2チャネル相当の機器のための優先度情報を生成するとともに、それらの優先度情報に2チャネル相当の機器のためのものであることを示す識別子を付加し、パッキング部２４に供給する。

さらに、優先度情報生成部５２は、ステップＳ１１において、各チャネルのオーディオ信号に対して24チャネル相当の機器のための優先度情報も生成するとともに、それらの優先度情報に24チャネル相当の機器のためのものであることを示す識別子を付加し、パッキング部２４に供給する。

同様に、優先度情報生成部９２も図８のステップＳ１３において、2チャネル相当の機器のための優先度情報と、24チャネル相当の機器のための優先度情報とを生成して識別子を付加し、パッキング部２４に供給する。

これにより、例えばポータブルオーディオプレーヤや、多機能型携帯電話機、タブレット型コンピュータ、テレビジョン受像機、パーソナルコンピュータ、高品位な音響機器などの再生機器の計算能力に応じた優先度情報が複数得られることになる。

例えばポータブルオーディオプレーヤなどの再生機器は、比較的計算能力が低いので、そのような再生機器では、2チャネル相当の機器のための優先度情報に基づいて符号化されたオーディオ信号を復号すれば、リアルタイムでオーディオ信号の再生を行うことができる。

以上のように、１つのオーディオ信号に対して複数の優先度情報が生成される場合、復号装置１５１では、例えば上位の制御装置により、複数の優先度情報のうちのどの優先度情報を用いて復号を行うかが優先度情報取得部１９１等に対して指示がされる。どの優先度情報を用いるかの指示は、例えば識別子が供給されることにより行われる。

なお、どの識別子の優先度情報を用いるかが、復号装置１５１ごとに予め定められているようにしてもよい。

例えば優先度情報取得部１９１において、予めどの識別子の優先度情報を用いるかが定められた場合、または上位の制御装置により識別子が指定された場合、図１２のステップＳ８１では、優先度情報取得部１９１は、定められた識別子が付加されている優先度情報を取得する。そして、取得された優先度情報が優先度情報取得部１９１から、出力選択部１９４や出力選択部１９９に供給される。

換言すれば、ビットストリームに格納されている複数の優先度情報のなかから、復号装置１５１、より詳細にはアンパッキング／復号部１６１の計算能力等に応じて適切な優先度情報が１つ選択される。

この場合、各チャネルの優先度情報と、各オブジェクトの優先度情報とで異なる識別子が利用されてビットストリームから優先度情報が読み出されてもよい。

このように、ビットストリームに含まれている複数の優先度情報のなかから、特定の優先度情報を選択して取得することにより、復号装置１５１の計算能力等に応じて適切な優先度情報を選択し、復号を行うことができる。これにより、何れの復号装置１５１においてもリアルタイムでオーディオ信号を再生することができるようになる。

〈第２の実施の形態〉
〈アンパッキング／復号部の構成例〉
なお、以上においては、符号化装置１１から出力されるビットストリームに優先度情報が含まれている例について説明したが、符号化装置によっては、ビットストリームに優先度情報が含まれていないこともあり得る。

そこで、復号装置１５１において優先度情報を生成するようにしてもよい。例えば、ビットストリームに含まれているオーディオ信号の符号化データから抽出できる、オーディオ信号の音圧を示す情報やスペクトル形状を示す情報を用いて優先度情報を生成することが可能である。

このように、復号装置１５１において優先度情報を生成する場合、復号装置１５１のアンパッキング／復号部１６１は、例えば図１３に示すように構成される。なお、図１３において、図１０における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１３に示すアンパッキング／復号部１６１は、チャネルオーディオ信号取得部１９２、チャネルオーディオ信号復号部１９３、出力選択部１９４、０値出力部１９５、IMDCT部１９６、オブジェクトオーディオ信号取得部１９７、オブジェクトオーディオ信号復号部１９８、出力選択部１９９、０値出力部２００、IMDCT部２０１、優先度情報生成部２３１、および優先度情報生成部２３２を有している。

図１３に示すアンパッキング／復号部１６１の構成は、優先度情報取得部１９１が設けられておらず、新たに優先度情報生成部２３１、および優先度情報生成部２３２が設けられている点で図１０のアンパッキング／復号部１６１と異なり、他の構成は図１０のアンパッキング／復号部１６１と同じとなっている。

チャネルオーディオ信号取得部１９２は、供給されたビットストリームから各チャネルの符号化データを取得して、チャネルオーディオ信号復号部１９３および優先度情報生成部２３１に供給する。

優先度情報生成部２３１は、チャネルオーディオ信号取得部１９２から供給された各チャネルの符号化データに基づいて、各チャネルの優先度情報を生成し、出力選択部１９４に供給する。

オブジェクトオーディオ信号取得部１９７は、供給されたビットストリームから各オブジェクトの符号化データを取得して、オブジェクトオーディオ信号復号部１９８および優先度情報生成部２３２に供給する。また、オブジェクトオーディオ信号取得部１９７は、供給されたビットストリームから各オブジェクトのメタデータを取得して、レンダリング部１６２に供給する。

優先度情報生成部２３２は、オブジェクトオーディオ信号取得部１９７から供給された各オブジェクトの符号化データに基づいて、各オブジェクトの優先度情報を生成し、出力選択部１９９に供給する。

〈選択復号処理の説明〉
アンパッキング／復号部１６１が図１３に示した構成とされる場合、復号装置１５１は、図１１に示した復号処理のステップＳ５２に対応する処理として、図１４に示す選択復号処理を行う。以下、図１４のフローチャートを参照して、復号装置１５１による選択復号処理について説明する。

ステップＳ１３１において、優先度情報生成部２３１は各チャネルのオーディオ信号の優先度情報を生成する。

例えばチャネルオーディオ信号取得部１９２は、供給されたビットストリームから各チャネルの符号化データを取得して、チャネルオーディオ信号復号部１９３および優先度情報生成部２３１に供給する。

優先度情報生成部２３１は、チャネルオーディオ信号取得部１９２から供給された各チャネルの符号化データに基づいて各チャネルの優先度情報を生成し、出力選択部１９４に供給する。

例えばビットストリームには、オーディオ信号の符号化データとして、MDCT係数を得るためのスケールファクタ、サイド情報、および量子化スペクトルが含まれている。ここで、スケールファクタはオーディオ信号の音圧を示す情報であり、量子化スペクトルはオーディオ信号のスペクトル形状を示す情報である。

優先度情報生成部２３１は、各チャネルの符号化データとして含まれているスケールファクタや量子化スペクトルに基づいて、各チャネルのオーディオ信号の優先度情報を生成する。このように、スケールファクタや量子化スペクトルを用いて優先度情報を生成すれば、符号化データの復号を行う前に、直ちに優先度情報を得ることができ、優先度情報の生成のための計算量も低減させることができる。

なお、優先度情報は、その他、MDCT係数の自乗平均値を計算することで得られる、オーディオ信号の音圧や、MDCT係数のピーク包絡から得られるオーディオ信号のスペクトル形状に基づいて生成されるようにしてもよい。この場合、優先度情報生成部２３１は、適宜、符号化データの復号を行ったり、チャネルオーディオ信号復号部１９３からMDCT係数を取得したりする。

各チャネルの優先度情報が得られると、その後、ステップＳ１３２乃至ステップＳ１３７の処理が行われるが、これらの処理は図１２のステップＳ８２乃至ステップＳ８７の処理と同様であるので、その説明は省略する。但し、この場合、すでに各チャネルの符号化データは取得されているので、ステップＳ１３４では符号化データの復号のみが行われる。

また、ステップＳ１３３において、チャネル番号がＭ未満でないと判定されると、ステップＳ１３８において、優先度情報生成部２３２は各オブジェクトのオーディオ信号の優先度情報を生成する。

例えばオブジェクトオーディオ信号取得部１９７は、供給されたビットストリームから各オブジェクトの符号化データを取得して、オブジェクトオーディオ信号復号部１９８および優先度情報生成部２３２に供給する。また、オブジェクトオーディオ信号取得部１９７は、供給されたビットストリームから各オブジェクトのメタデータを取得して、レンダリング部１６２に供給する。

優先度情報生成部２３２は、オブジェクトオーディオ信号取得部１９７から供給された各オブジェクトの符号化データに基づいて各オブジェクトの優先度情報を生成し、出力選択部１９９に供給する。例えば優先度情報は、各チャネルにおける場合と同様に、スケールファクタや量子化スペクトルに基づいて生成される。

また、MDCT係数から得られる音圧やスペクトル形状に基づいて優先度情報が生成されてもよい。この場合、優先度情報生成部２３２は、適宜、符号化データの復号を行ったり、オブジェクトオーディオ信号復号部１９８からMDCT係数を取得したりする。

各オブジェクトの優先度情報が得られると、その後、ステップＳ１３９乃至ステップＳ１４４の処理が行われて選択復号処理は終了するが、これらの処理は図１２のステップＳ８８乃至ステップＳ９３の処理と同様であるので、その説明は省略する。但し、この場合、すでに各オブジェクトの符号化データは取得されているので、ステップＳ１４１では符号化データの復号のみが行われる。

選択復号処理が終了すると、その後、処理は図１１のステップＳ５３へと進む。

以上のようにして、復号装置１５１は、ビットストリームに含まれている符号化データに基づいて、各チャネルや各オブジェクトのオーディオ信号の優先度情報を生成する。このように復号装置１５１において優先度情報を生成することで、各オーディオ信号について適切な優先度情報を少ない計算量で得ることができ、復号の計算量やレンダリング等の計算量を低減させることができる。また、オーディオ信号により再生される音声の音質の劣化を最小限に抑えることもできる。

なお、図１０に示したアンパッキング／復号部１６１の優先度情報取得部１９１が、供給されたビットストリームから、各チャネルおよび各オブジェクトのオーディオ信号の優先度情報を取得しようとしたが、ビットストリームから優先度情報が取得できなかった場合に、優先度情報が生成されるようにしてもよい。そのような場合、優先度情報取得部１９１は、優先度情報生成部２３１や優先度情報生成部２３２と同様の処理を行い、符号化データから各チャネルおよび各オブジェクトのオーディオ信号の優先度情報を生成する。

〈第３の実施の形態〉
〈優先度情報の閾値について〉
さらに、以上においては、各チャネルや各オブジェクトについて、優先度情報と、閾値Ｐや閾値Ｑとを比較して復号するオーディオ信号、より詳細にはIMDCTを行うMDCT係数を選択すると説明したが、これらの閾値Ｐや閾値Ｑがオーディオ信号のフレームごとに動的に変更されるようにしてもよい。

例えば図１０に示したアンパッキング／復号部１６１の優先度情報取得部１９１では、復号を必要とせずに、ビットストリームから各チャネルおよび各オブジェクトの優先度情報を取得することができる。

したがって、例えば優先度情報取得部１９１が全チャネルのオーディオ信号の優先度情報を読み出せば、処理対象となっているフレームにおける優先度情報の分布を得ることができる。また、復号装置１５１では、例えば何チャネルまでなら同時に、つまりリアルタイムで処理できるかなど、予め自分自身の計算能力が分かっている。

そこで、優先度情報取得部１９１が処理対象のフレームにおける優先度情報の分布と、復号装置１５１の計算能力とに基づいて、その処理対象のフレームについての優先度情報の閾値Ｐを定めるようにしてもよい。

例えば閾値Ｐは、復号装置１５１がリアルタイムで処理を行うことのできる範囲内で最も多くのオーディオ信号が復号されるように定められる。

また、優先度情報取得部１９１は、閾値Ｐにおける場合と同様に閾値Ｑを動的に定めることができる。この場合、優先度情報取得部１９１は全オブジェクトのオーディオ信号の優先度情報に基づいて、それらの優先度情報の分布を求め、求めた分布と、復号装置１５１の計算能力とに基づいて、処理対象のフレームについての優先度情報の閾値Ｑを定める。

このような閾値Ｐや閾値Ｑの決定は、比較的少ない計算量で行うことができる。

このように優先度情報の閾値を動的に変化させることで、リアルタイムで復号を行いつつ、オーディオ信号により再生される音声の音質の劣化を最小限に抑えることができる。特にこのような場合、優先度情報を複数用意する必要がなく、また優先度情報に識別子を設ける必要もないので、ビットストリームの符号量も少なくてすむ。

〈オブジェクトのメタデータについて〉
さらに、以上において説明した第１の実施の形態乃至第３の実施の形態では、ビットストリームの先頭のエレメントには、１フレーム分のオブジェクトのメタデータや優先度情報などが格納されると説明した。

この場合、ビットストリームの先頭のエレメントにおける、オブジェクトのメタデータおよび優先度情報が格納される部分のシンタックスは、例えば図１５に示すようになる。

図１５に示す例では、オブジェクトのメタデータのなかに、オブジェクトの空間位置情報と優先度情報が１フレーム分だけ格納されている。

この例では「num_objects」はオブジェクトの数を示している。また、「object_priority[o]」はO番目のオブジェクトの優先度情報を示している。ここで、O番目のオブジェクトとは、オブジェクト番号により特定されるオブジェクトである。

「position_azimuth[o]」は、視聴者であるユーザからみた、つまり所定の基準位置からみたO番目のオブジェクトの３次元空間位置を表す水平方向角度を示している。また、「position_elevation[o]」は、視聴者であるユーザからみたO番目のオブジェクトの３次元空間位置を表す垂直方向角度を示している。さらに「position_radius[o]」は、視聴者からO番目のオブジェクトまでの距離を示している。

したがって、３次元空間におけるオブジェクトの位置は、これらの「position_azimuth[o]」、「position_elevation[o]」、および「position_radius[o]」から特定されることになり、これらの情報がオブジェクトの空間位置情報とされる。

また、「gain_factor[o]」はO番目のオブジェクトの利得を示している。

このように、図１５に示すメタデータには、１つのオブジェクトについての「object_priority[o]」、「position_azimuth[o]」、「position_elevation[o]」、「position_radius[o]」、および「gain_factor[o]」が、そのオブジェクトのデータとして順番に配置されている。そして、メタデータ内には、各オブジェクトのデータが、例えばオブジェクトのオブジェクト番号順に並べられて配置されている。

〈第４の実施の形態〉
〈オーディオ信号の完全再構成と不連続性に起因するノイズについて〉
以上においては、復号装置１５１においてビットストリームから読み出されたチャネルまたはオブジェクトごとの各フレーム（以下では、特に時間フレームと称する）の優先度情報が、予め定められた閾値未満である場合にIMDCT等の復号処理を省くことで、復号時の処理量を削減する例について説明した。具体的には、優先度情報が閾値未満である場合には、０値出力部１９５や０値出力部２００から無音のオーディオ信号を出力する、つまりオーディオ信号として０データを出力すると説明した。

ところが、そのような場合、聴感上の音質劣化が生じてしまう。具体的には、オーディオ信号の完全再構成に起因する音質劣化と、グリッチノイズ等の信号の不連続性に起因するノイズの発生による音質劣化が生じる。

（完全再構成に起因する音質劣化）
例えば、優先度情報が閾値未満である場合にオーディオ信号として０データを出力すると、０データの出力と、０データではない通常のオーディオ信号の出力との切り替え時に音質劣化が生じる。

上述したようにアンパッキング／復号部１６１では、IMDCT部１９６やIMDCT部２０１において、ビットストリームから読み出された時間フレームごとのMDCT係数に対してIMDCTが行われる。そして、より詳細にはアンパッキング／復号部１６１では、現時間フレームについてのIMDCTの結果または０データと、１時間フレーム前のIMDCTの結果または０データとから、現時間フレームのオーディオ信号が生成される。

ここで、オーディオ信号の生成について、図１６を参照して説明する。なお、ここでは、オブジェクトのオーディオ信号の生成を例として説明するが、各チャネルのオーディオ信号の生成についても同様である。また、以下では、０値出力部２００から出力されるオーディオ信号、およびIMDCT部２０１から出力されるオーディオ信号を、特にIMDCT信号とも称することとする。同様に、０値出力部１９５から出力されるオーディオ信号、およびIMDCT部１９６から出力されるオーディオ信号を、特にIMDCT信号とも称することとする。

図１６では、図中、横方向は時間を示しており、文字「data[n-1]」乃至「data[n+2]」が記された長方形は、それぞれ所定のオブジェクトの時間フレーム（n-1）乃至時間フレーム（n+2）のビットストリームを表している。また、各時間フレームのビットストリーム内の数値は、その時間フレームのオブジェクトの優先度情報の値を示しており、この例では各時間フレームの優先度情報の値は「７」となっている。

さらに、図１６において文字「MDCT_coef[q]」（但し、q＝n-1,n,…）が記された長方形は、それぞれ時間フレーム（q）のMDCT係数を表している。

いま、閾値Ｑ＝４であるとすると、時間フレーム（n-1）の優先度情報の値「７」は閾値Ｑ以上であるので、時間フレーム（n-1）についてのMDCT係数に対してIMDCTが行われる。同様に、時間フレーム（n）の優先度情報の値「７」も閾値Ｑ以上であるので、時間フレーム（n）についてのMDCT係数に対してIMDCTが行われる。

その結果、時間フレーム（n-1）のIMDCT信号OPS11と、時間フレーム（n）のIMDCT信号OPS12が得られたとする。

この場合、アンパッキング／復号部１６１は、時間フレーム（n）のIMDCT信号OPS12の前半部分と、１時間フレーム前の時間フレーム（n-1）のIMDCT信号OPS11の後半部分とを足し合わせて、時間フレーム（n）のオーディオ信号、つまり期間FL(n)のオーディオ信号とする。換言すれば、IMDCT信号OPS11の期間FL(n)の部分と、IMDCT信号OPS12の期間FL(n)の部分とがオーバーラップ加算されて、処理対象のオブジェクトの符号化前の時間フレーム（n）のオーディオ信号が再現される。

このような処理は、IMDCT信号がMDCT前の信号に完全再構成されるために必要な処理である。

しかしながら、上述したアンパッキング／復号部１６１では、例えば図１７に示すように、各時間フレームの優先度情報に応じて、IMDCT部２０１のIMDCT信号と０値出力部２００のIMDCT信号を切り替えるタイミングにおいて、IMDCT信号がMDCT前の信号に完全再構成されなくなる。つまり、オーバーラップ加算時にもとの信号ではなく０データが用いられると、完全再構成されないため、もとのオーディオ信号を再現することができず、オーディオ信号の聴感上の音質が劣化してしまう。

なお、図１７において、図１６における場合と対応する部分には同一の文字等を記してあり、その説明は省略する。

図１７の例では、時間フレーム（n-1）の優先度情報の値は「７」であるが、他の時間フレーム（n）乃至時間フレーム（n+2）の優先度情報は最も低い「０」となっている。

したがって、閾値Ｑ＝４であるとすると、時間フレーム（n-1）については、IMDCT部２０１においてMDCT係数に対するIMDCTが行われ、時間フレーム（n-1）のIMDCT信号OPS21が得られる。これに対して、時間フレーム（n）については、MDCT係数に対するIMDCTが行われず、０値出力部２００から出力される０データが時間フレーム（n）のIMDCT信号OPS22とされる。

この場合、時間フレーム（n）のIMDCT信号OPS22である０データの前半部分と、その１時間フレーム前の時間フレーム（n-1）のIMDCT信号OPS21の後半部分とが足し合わされて、最終的な時間フレーム（n）のオーディオ信号とされる。すなわち、IMDCT信号OPS22とIMDCT信号OPS21の期間FL(n)の部分がオーバーラップ加算されて、処理対象のオブジェクトの最終的な時間フレーム（n）のオーディオ信号とされる。

このようにIMDCT信号の出力元がIMDCT部２０１から０値出力部２００へと、または０値出力部２００からIMDCT部２０１へと切り替わるときには、IMDCT部２０１からのIMDCT信号が完全再構成されなくなり、聴感上の音質の劣化が生じてしまう。

（不連続性に起因するノイズの発生による音質劣化）
また、IMDCT信号の出力元がIMDCT部２０１から０値出力部２００へと、または０値出力部２００からIMDCT部２０１へと切り替わる場合、信号が完全再構成されないので、IMDCTにより得られたIMDCT信号と、０データとされたIMDCT信号との接続部分で信号が不連続となることがある。そうすると、その不連続な接続部分にグリッチノイズが発生し、オーディオ信号の聴感上の音質が劣化してしまう。

さらに、アンパッキング／復号部１６１において音質を向上させるために、IMDCT部２０１や０値出力部２００から出力されたIMDCT信号をオーバーラップ加算して得られたオーディオ信号に対して、SBR（Spectral Band Replication）等の処理が行われることがある。

なお、IMDCT部２０１や０値出力部２００の後段の処理として様々な処理が考えられるが、以下ではSBRを例として説明を続ける。

SBRでは、低域成分である、オーバーラップ加算により得られたオーディオ信号と、ビットストリームに格納されている高域のパワー値とから、符号化前のもとのオーディオ信号の高域成分が生成される。

具体的には、１時間フレーム分のオーディオ信号が、タイムスロットと呼ばれるいくつかの区間に分割され、各タイムスロットのオーディオ信号が低域の複数のサブバンドの信号（以下、低域サブバンド信号とも称する）に帯域分割される。

そして各サブバンドの低域サブバンド信号と、高域側のサブバンドごとのパワー値とに基づいて、高域の各サブバンドの信号（以下、高域サブバンド信号とも称する）が生成される。例えば、所定のサブバンドの低域サブバンド信号を高域の目的とするサブバンドのパワー値によりパワー調整したり、周波数シフトしたりすることで、目的とする高域サブバンド信号が生成される。

さらに、高域サブバンド信号と低域サブバンド信号が合成されて、高域成分を含むオーディオ信号が生成され、タイムスロットごとに生成された高域成分を含むオーディオ信号が結合されて、高域成分を含む１時間フレームのオーディオ信号とされる。

IMDCT部２０１や０値出力部２００の後段において、このようなSBRが行われる場合、IMDCT部２０１から出力されたIMDCT信号からなるオーディオ信号については、SBRにより高域成分が生成される。ところが、０値出力部２００から出力されたIMDCT信号は０データであるため、０値出力部２００から出力されたIMDCT信号からなるオーディオ信号については、SBRにより得られる高域成分も０データとなってしまう。

そうすると、IMDCT信号の出力元がIMDCT部２０１から０値出力部２００へと、または０値出力部２００からIMDCT部２０１へと切り替わるときに、高域においても接続部分が不連続となってしまうことがある。そのような場合、グリッチノイズが発生し、聴感上の音質が劣化してしまう。

そこで、本技術では前後の時間フレームを考慮したMDCT係数の出力先の選択、およびオーディオ信号に対するフェードイン処理とフェードアウト処理を行うことにより、上述した聴感上の音質劣化を抑制し、音質を向上させるようにした。

〈前後の時間フレームを考慮したMDCT係数の出力先の選択について〉
まず、前後の時間フレームを考慮したMDCT係数の出力先の選択について説明する。なお、ここでもオブジェクトのオーディオ信号を例として説明するが、各チャネルのオーディオ信号についても同様である。また、以下において説明する処理は、オブジェクトごと、およびチャネルごとに行われる。

例えば、上述した実施の形態では、出力選択部１９９は、現時間フレームの優先度情報に基づいて、各オブジェクトのMDCT係数の出力先を選択的に切り替えると説明した。これに対して、本実施の形態では、出力選択部１９９は、現時間フレーム、現時間フレームの１つ前の時間フレーム、および現時間フレームの１つ後の時間フレームの時間的に連続する３つの時間フレームの優先度情報に基づいて、MDCT係数の出力先を切り替える。換言すれば、連続する３つの時間フレームの優先度情報に基づいて、符号化データの復号を行うか否かが選択される。

具体的には、出力選択部１９９は、処理対象のオブジェクトについて、次式（１）に示す条件式が満たされる場合、そのオブジェクトの時間フレーム（n）のMDCT係数をIMDCT部２０１に供給する。

式（１）において、object_priority[q]（但し、q＝n-1,n,n+1）は各時間フレーム（q）の優先度情報を示しており、threは閾値Ｑを示している。

したがって、現時間フレームと、現時間フレームの前後の時間フレームとの合計３つの連続する時間フレームにおいて、１つでも優先度情報が閾値Ｑ以上となる時間フレームがある場合、MDCT係数の供給先としてIMDCT部２０１が選択される。この場合、符号化データの復号、より詳細にはMDCT係数に対するIMDCTが行われる。これに対して、それらの３つの時間フレームの優先度情報が全て閾値Ｑ未満である場合、MDCT係数が０とされて０値出力部２００に出力される。この場合、符号化データの復号、より詳細にはMDCT係数に対するIMDCTは実質的に行われない。

これにより、図１８に示すようにIMDCT信号からオーディオ信号が完全再構成され、聴感上の音質の劣化が抑制される。なお、図１８において、図１６における場合と対応する部分には同一の文字等を記してあり、その説明は省略する。

図１８の上側に示す例では、各時間フレームの優先度情報の値が図１７に示した例と同じとなっている。例えば閾値Ｑ＝４であるとすると、図中、上側に示す例では時間フレーム（n-1）の優先度情報は閾値Ｑ以上であるが、時間フレーム（n）乃至時間フレーム（n+2）では、優先度情報が閾値Ｑ未満となっている。

そのため、式（１）に示した条件式から、時間フレーム（n-1）と時間フレーム（n）のMDCT係数に対してIMDCTが行われ、それぞれIMDCT信号OPS31とIMDCT信号OPS32が得られる。これに対して、条件式が満たされない時間フレーム（n+1）では、MDCT係数に対するIMDCTが行われず、０データがIMDCT信号OPS33とされる。

したがって、図１７の例では完全再構成されなかった時間フレーム（n）のオーディオ信号が、図１８の上側に示す例では完全再構成されるようになり、聴感上の音質の劣化が抑制される。但し、この例では、その次の時間フレーム（n+1）でオーディオ信号が完全再構成されないため、時間フレーム（n）と時間フレーム（n+1）で後述するフェードアウト処理が行われ、聴感上の音質の劣化が抑制される。

また、図中、下側に示す例では、時間フレーム（n-1）乃至時間フレーム（n+1）で優先度情報が閾値Ｑ未満となっており、時間フレーム（n+2）で優先度情報は閾値Ｑ以上となっている。

そのため、式（１）に示した条件式から、条件式が満たされない時間フレーム（n）ではMDCT係数に対するIMDCTが行われず、０データがIMDCT信号OPS41とされる。これに対して、時間フレーム（n+1）および時間フレーム（n+2）のMDCT係数に対してIMDCTが行われ、それぞれIMDCT信号OPS42とIMDCT信号OPS43が得られる。

この例では、優先度情報が閾値Ｑ未満の値から閾値Ｑ以上の値へと切り替わった時間フレーム（n+2）で、オーディオ信号を完全再構成することができるため、聴感上の音質の劣化を抑制することができる。但し、この場合においても、その直前の時間フレーム（n+1）でオーディオ信号が完全再構成されないため、時間フレーム（n+1）と時間フレーム（n+2）で後述するフェードイン処理が行われ、聴感上の音質の劣化が抑制される。

なお、ここでは、１時間フレーム分だけ優先度情報の先読みを行って、連続する３時間フレームの優先度情報からMDCT係数の出力先が選択されている。そのため、図中、上側で示した例の時間フレーム（n）と時間フレーム（n+1）でフェードアウト処理が行われ、図中、下側で示した例の時間フレーム（n+1）と時間フレーム（n+2）でフェードイン処理が行われる。

しかし、２時間フレーム分の優先度情報の先読みを行うことができる場合には、図中、上側で示した例の時間フレーム（n+1）と時間フレーム（n+2）でフェードアウト処理が行われ、図中、下側で示した例の時間フレーム（n）と時間フレーム（n+1）でフェードイン処理が行われるようにしてもよい。

〈フェードイン処理とフェードアウト処理について〉
次に、オーディオ信号に対するフェードイン処理とフェードアウト処理について説明する。なお、ここでもオブジェクトのオーディオ信号を例として説明するが、各チャネルのオーディオ信号についても同様である。また、フェードイン処理とフェードアウト処理は、オブジェクトごと、およびチャネルごとに行われる。

本技術では、例えば図１８に示した例のように、IMDCTにより得られたIMDCT信号と０データであるIMDCT信号とがオーバーラップ加算される時間フレームとその前または後の時間フレームにおいて、フェードイン処理またはフェードアウト処理が行われる。

フェードイン処理では、その時間フレームのオーディオ信号の振幅（大きさ）が時間とともに大きくなるように、オーディオ信号に対するゲイン調整が行われる。逆にフェードアウト処理では、その時間フレームのオーディオ信号の振幅が時間とともに小さくなるように、オーディオ信号に対するゲイン調整が行われる。

これにより、IMDCTにより得られたIMDCT信号と、０データとされたIMDCT信号との接続部分が不連続となる場合でも聴感上の音質の劣化を抑制することができる。なお、以下、このようなゲイン調整時にオーディオ信号に対して乗算されるゲイン値を、特にフェーディング信号ゲインとも称することとする。

さらに、本技術では、IMDCTにより得られたIMDCT信号と０データであるIMDCT信号との接続部分について、SBRにおいてもフェードイン処理またはフェードアウト処理が行われる。

すなわち、SBRではタイムスロットごとに高域の各サブバンドのパワー値が用いられるが、本技術では、フェードイン処理用またはフェードアウト処理用にタイムスロットごとに定められたゲイン値が、高域の各サブバンドのパワー値に乗算されてSBRが行われる。つまり、高域のパワー値のゲイン調整が行われる。

なお、以下、高域のパワー値に乗算される、タイムスロットごとに定められたゲイン値を、特にフェーディングSBRゲインとも称することとする。

具体的には、フェードイン処理用のフェーディングSBRゲインは、そのゲイン値が時間とともに大きくなるように、つまり時間的に後方のタイムスロットのフェーディングSBRゲインほど、その値が大きくなるように定められている。逆に、フェードアウト処理用のフェーディングSBRゲインは、時間的に後方のタイムスロットのフェーディングSBRゲインほど、その値が小さくなるように定められている。

このように、SBR時にもフェードイン処理やフェードアウト処理を行うことで、高域が不連続となるときでも聴感上の音質の劣化を抑制することができる。

このようなオーディオ信号および高域のパワー値に対するフェードイン処理やフェードアウト処理といったゲイン調整として、具体的には、例えば図１９や図２０に示す処理が行われることになる。なお、図１９および図２０において、図１８における場合と対応する部分には同一の文字や符号等を記してあり、その説明は省略する。

図１９に示す例は、図１８における図中、上側に示した場合の例である。この例では、時間フレーム（n）および時間フレーム（n+1）のオーディオ信号に対して、折れ線GN11に示されるフェーディング信号ゲインが乗算されることになる。

折れ線GN11に示されるフェーディング信号ゲインの値は、時間フレーム（n）の部分では時間とともに「１」から「０」まで線形に変化し、時間フレーム（n+1）の部分では継続して「０」となっている。したがって、フェーディング信号ゲインによるオーディオ信号のゲイン調整によって、オーディオ信号は徐々に０データへと変化していくので、聴感上の音質の劣化を抑制することができる。

また、この例では時間フレーム（n）の各タイムスロットの高域のパワー値に対して、矢印GN12に示されるフェーディングSBRゲインが乗算されることになる。

矢印GN12に示されるフェーディングSBRゲインの値は、時間的に後方のタイムスロットほど小さくなるように、「１」から「０」まで変化している。したがって、フェーディングSBRゲインによる高域のゲイン調整によって、オーディオ信号の高域成分は徐々に０データへと変化していくので、聴感上の音質の劣化を抑制することができる。

これに対して、図２０に示す例は、図１８における図中、下側に示した場合の例である。この例では、時間フレーム（n+1）および時間フレーム（n+2）のオーディオ信号に対して、折れ線GN21に示されるフェーディング信号ゲインが乗算されることになる。

折れ線GN21に示されるフェーディング信号ゲインの値は、時間フレーム（n+1）の部分では継続して「０」となっており、時間フレーム（n+2）の部分では時間とともに「０」から「１」まで線形に変化している。したがって、フェーディング信号ゲインによるオーディオ信号のゲイン調整によって、オーディオ信号は徐々に０データから本来の信号へと変化していくので、聴感上の音質の劣化を抑制することができる。

また、この例では時間フレーム（n+2）の各タイムスロットの高域のパワー値に対して、矢印GN22に示されるフェーディングSBRゲインが乗算されることになる。

矢印GN22に示されるフェーディングSBRゲインの値は、時間的に後方のタイムスロットほど大きくなるように、「０」から「１」まで変化している。したがって、フェーディングSBRゲインによる高域のゲイン調整によって、オーディオ信号の高域成分は徐々に０データから本来の信号へと変化していくので、聴感上の音質の劣化を抑制することができる。

〈アンパッキング／復号部の構成例〉
以上において説明したMDCT係数の出力先の選択と、フェードイン処理やフェードアウト処理といったゲイン調整とが行われる場合、アンパッキング／復号部１６１は、例えば図２１に示すように構成される。なお、図２１において、図１０における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２１に示すアンパッキング／復号部１６１は優先度情報取得部１９１、チャネルオーディオ信号取得部１９２、チャネルオーディオ信号復号部１９３、出力選択部１９４、０値出力部１９５、IMDCT部１９６、オーバーラップ加算部２７１、ゲイン調整部２７２、SBR処理部２７３、オブジェクトオーディオ信号取得部１９７、オブジェクトオーディオ信号復号部１９８、出力選択部１９９、０値出力部２００、IMDCT部２０１、オーバーラップ加算部２７４、ゲイン調整部２７５、およびSBR処理部２７６から構成される。

図２１に示すアンパッキング／復号部１６１の構成は、図１０に示したアンパッキング／復号部１６１の構成に、さらにオーバーラップ加算部２７１乃至SBR処理部２７６が設けられた構成となっている。

オーバーラップ加算部２７１は、０値出力部１９５またはIMDCT部１９６から供給されたIMDCT信号（オーディオ信号）をオーバーラップ加算することにより、各時間フレームのオーディオ信号を生成し、ゲイン調整部２７２に供給する。

ゲイン調整部２７２は、優先度情報取得部１９１から供給された優先度情報に基づいて、オーバーラップ加算部２７１から供給されたオーディオ信号をゲイン調整し、SBR処理部２７３に供給する。

SBR処理部２７３は、優先度情報取得部１９１からタイムスロットごとの高域の各サブバンドのパワー値を取得するとともに、優先度情報取得部１９１から供給された優先度情報に基づいて高域のパワー値をゲイン調整する。また、SBR処理部２７３は、ゲイン調整された高域のパワー値を用いて、ゲイン調整部２７２から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をミキシング部１６３に供給する。

オーバーラップ加算部２７４は、０値出力部２００またはIMDCT部２０１から供給されたIMDCT信号（オーディオ信号）をオーバーラップ加算することにより、各時間フレームのオーディオ信号を生成し、ゲイン調整部２７５に供給する。

ゲイン調整部２７５は、優先度情報取得部１９１から供給された優先度情報に基づいて、オーバーラップ加算部２７４から供給されたオーディオ信号をゲイン調整し、SBR処理部２７６に供給する。

SBR処理部２７６は、優先度情報取得部１９１からタイムスロットごとの高域の各サブバンドのパワー値を取得するとともに、優先度情報取得部１９１から供給された優先度情報に基づいて高域のパワー値をゲイン調整する。また、SBR処理部２７６は、ゲイン調整された高域のパワー値を用いて、ゲイン調整部２７５から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をレンダリング部１６２に供給する。

〈選択復号処理の説明〉
続いて、アンパッキング／復号部１６１が図２１に示した構成とされる場合における復号装置１５１の動作について説明する。この場合、復号装置１５１は、図１１を参照して説明した復号処理を行う。但し、ステップＳ５２の選択復号処理として、図２２に示す処理を行う。

以下、図２２のフローチャートを参照して、図１１のステップＳ５２の処理に対応する選択復号処理について説明する。

ステップＳ１８１において、優先度情報取得部１９１は、供給されたビットストリームから、各チャネルのオーディオ信号の高域のパワー値を取得してSBR処理部２７３に供給するとともに、ビットストリームから、各オブジェクトのオーディオ信号の高域のパワー値を取得してSBR処理部２７６に供給する。

高域のパワー値が取得されると、その後ステップＳ１８２乃至ステップＳ１８７の処理が行われて処理対象のチャネルのオーディオ信号（IMDCT信号）が生成されるが、これらの処理は図１２のステップＳ８１乃至ステップＳ８６の処理と同様であるので、その説明は省略する。

但し、ステップＳ１８６では、上述した式（１）と同様の条件式が満たされる場合、すなわち処理対象のチャネルの現時間フレームの優先度情報、およびその現時間フレームの直前および直後の各時間フレームの優先度情報のうちの１つでも閾値Ｐ以上である場合、優先度情報が閾値Ｐ以上であると判定される。また、０値出力部１９５またはIMDCT部１９６で生成されたIMDCT信号は、オーバーラップ加算部２７１に出力される。

ステップＳ１８６において優先度情報が閾値Ｐ以上であると判定されなかったか、またはステップＳ１８７においてIMDCT信号が生成されると、ステップＳ１８８の処理が行われる。

ステップＳ１８８において、オーバーラップ加算部２７１は、０値出力部１９５またはIMDCT部１９６から供給されたIMDCT信号のオーバーラップ加算を行い、その結果得られた現時間フレームのオーディオ信号をゲイン調整部２７２に供給する。

具体的には、例えば図１８を参照して説明したように、現時間フレームのIMDCT信号の前半部分と、直前の時間フレームのIMDCT信号の後半部分とが足し合わされて現時間フレームのオーディオ信号とされる。

ステップＳ１８９において、ゲイン調整部２７２は、優先度情報取得部１９１から供給された処理対象のチャネルの優先度情報に基づいて、オーバーラップ加算部２７１から供給されたオーディオ信号をゲイン調整し、SBR処理部２７３に供給する。

具体的にはゲイン調整部２７２は、現時間フレームの直前の時間フレームの優先度情報が閾値Ｐ以上であり、かつ現時間フレームの優先度情報と、現時間フレームの直後の時間フレームの優先度情報が閾値Ｐ未満である場合、図１９の折れ線GN11に示されるフェーディング信号ゲインでオーディオ信号のゲインを調整する。この場合、図１９における時間フレーム（n）が現時間フレームに対応し、現時間フレームの直後の時間フレームでは、折れ線GN11に示されるように、フェーディング信号ゲイン＝０でのゲイン調整が行われる。

また、ゲイン調整部２７２は、現時間フレームの優先度情報が閾値Ｐ以上であり、現時間フレームの直前の２時間フレームの優先度情報がともに閾値Ｐ未満である場合、図２０の折れ線GN21に示されるフェーディング信号ゲインでオーディオ信号のゲインを調整する。この場合、図２０における時間フレーム（n+2）が現時間フレームに対応し、現時間フレームの直前の時間フレームでは、折れ線GN21に示されるように、フェーディング信号ゲイン＝０でのゲイン調整が行われる。

なお、ゲイン調整部２７２は、これらの２つの例の場合のみゲイン調整を行い、それ以外の場合にはゲイン調整を行わず、オーディオ信号をそのままSBR処理部２７３に供給する。

ステップＳ１９０において、SBR処理部２７３は、優先度情報取得部１９１から供給された、処理対象のチャネルの高域のパワー値および優先度情報に基づいて、ゲイン調整部２７２から供給されたオーディオ信号に対してSBRを行う。

具体的には、SBR処理部２７３は、現時間フレームの直前の時間フレームの優先度情報が閾値Ｐ以上であり、かつ現時間フレームの優先度情報と、現時間フレームの直後の時間フレームの優先度情報が閾値Ｐ未満である場合、図１９の矢印GN12に示されるフェーディングSBRゲインで高域のパワー値をゲイン調整する。すなわち、高域のパワー値にフェーディングSBRゲインが乗算される。

そして、SBR処理部２７３は、ゲイン調整された高域のパワー値を用いてSBRを行い、その結果得られたオーディオ信号をミキシング部１６３に供給する。この場合、図１９における時間フレーム（n）が現時間フレームに対応する。

また、SBR処理部２７３は、現時間フレームの優先度情報が閾値Ｐ以上であり、現時間フレームの直前の２時間フレームの優先度情報がともに閾値Ｐ未満である場合、図２０の矢印GN22に示されるフェーディングSBRゲインで高域のパワー値をゲイン調整する。そして、SBR処理部２７３は、ゲイン調整された高域のパワー値を用いてSBRを行い、その結果得られたオーディオ信号をミキシング部１６３に供給する。この場合、図２０における時間フレーム（n+2）が現時間フレームに対応する。

なお、SBR処理部２７３は、これらの２つの例の場合のみ高域のパワー値のゲイン調整を行い、それ以外の場合にはゲイン調整を行わずに、取得された高域のパワー値をそのまま用いてSBRを行い、その結果得られたオーディオ信号をミキシング部１６３に供給する。

SBRが行われて現時間フレームのオーディオ信号が得られると、その後、ステップＳ１９１乃至ステップＳ１９６の処理が行われるが、これらの処理は図１２のステップＳ８７乃至ステップＳ９２の処理と同様であるので、その説明は省略する。

但し、ステップＳ１９５では、上述した式（１）の条件式が満たされる場合、優先度情報が閾値Ｑ以上であると判定される。また、０値出力部２００またはIMDCT部２０１で生成されたIMDCT信号（オーディオ信号）は、オーバーラップ加算部２７４に出力される。

このようにして現時間フレームのIMDCT信号が得られると、ステップＳ１９７乃至ステップＳ１９９の処理が行われて現時間フレームのオーディオ信号が生成されるが、これらの処理はステップＳ１８８乃至ステップＳ１９０の処理と同様であるので、その説明は省略する。

ステップＳ２００において、オブジェクトオーディオ信号取得部１９７がオブジェクト番号に１を加えると、処理はステップＳ１９３に戻る。そして、ステップＳ１９３においてオブジェクト番号がＮ未満ではないと判定されると、選択復号処理は終了し、その後、処理は図１１のステップＳ５３へと進む。

以上のようにしてアンパッキング／復号部１６１は、現時間フレームとその前後の時間フレームの優先度情報に応じて、MDCT係数の出力先を選択する。これにより、優先度情報が閾値以上である時間フレームと、優先度情報が閾値未満である時間フレームとの切り替わり部分においてオーディオ信号が完全再構成されるようになり、聴感上の音質の劣化を抑制することができる。

また、アンパッキング／復号部１６１は、連続する３時間フレームの優先度情報に基づいて、オーバーラップ加算後のオーディオ信号や、高域のパワー値をゲイン調整する。すなわち、適宜、フェードイン処理やフェードアウト処理が行われる。これにより、グリッチノイズの発生を抑制し、聴感上の音質の劣化を抑制することができる。

〈第５の実施の形態〉
〈フェードイン処理とフェードアウト処理について〉
なお、第４の実施の形態では、オーバーラップ加算後のオーディオ信号に対してゲイン調整を行い、さらにSBR時に高域のパワー値に対するゲイン調整を行うと説明した。この場合、最終的なオーディオ信号の低域成分と高域成分とで別々にゲイン調整、つまりフェードイン処理やフェードアウト処理が行われることになる。

そこで、より少ない処理でこれらのフェードイン処理やフェードアウト処理を実現することができるように、オーバーラップ加算直後およびSBR時にはゲイン調整を行わず、SBRにより得られたオーディオ信号に対してゲイン調整を行うようにしてもよい。

そのような場合、例えば図２３や図２４に示すようにゲイン調整が行われる。なお、図２３および図２４において、図１９および図２０における場合と対応する部分には同一の文字等を記してあり、その説明は省略する。

図２３に示す例は、優先度情報の変化が図１９に示した場合と同じである例である。この例では、閾値Ｑ＝４であるとすると、時間フレーム（n-1）の優先度情報は閾値Ｑ以上であるが、時間フレーム（n）乃至時間フレーム（n+2）では、優先度情報が閾値Ｑ未満となっている。

このような場合、時間フレーム（n）および時間フレーム（n+1）における、SBRにより得られたオーディオ信号に対して、折れ線GN31に示されるフェーディング信号ゲインが乗算されてゲイン調整されることになる。

この折れ線GN31に示されるフェーディング信号ゲインは、図１９の折れ線GN11に示されるフェーディング信号ゲインと同じものとなっている。但し、図２３の例の場合には、ゲイン調整の対象となるオーディオ信号は、低域成分も高域成分も含まれたものとなっているので、それらの低域成分と高域成分のゲイン調整を１つのフェーディング信号ゲインで行うことができる。

このようなフェーディング信号ゲインによるオーディオ信号のゲイン調整によって、IMDCTにより得られたIMDCT信号と、０データとされたIMDCT信号とがオーバーラップ加算される部分とその直前の部分で、オーディオ信号が徐々に０データへと変化していくようになる。これにより、聴感上の音質の劣化を抑制することができる。

これに対して、図２４に示す例は、優先度情報の変化が図２０に示した場合と同じである例である。この例では、閾値Ｑ＝４であるとすると、時間フレーム（n）および時間フレーム（n+1）では優先度情報が閾値Ｑ未満であるが、時間フレーム（n+2）の優先度情報は閾値Ｑ以上となっている。

このような場合、時間フレーム（n+1）および時間フレーム（n+2）における、SBRにより得られたオーディオ信号に対して、折れ線GN41に示されるフェーディング信号ゲインが乗算されてゲイン調整されることになる。

この折れ線GN41に示されるフェーディング信号ゲインは、図２０の折れ線GN21に示されるフェーディング信号ゲインと同じものとなっている。但し、図２４の例の場合には、ゲイン調整の対象となるオーディオ信号は、低域成分も高域成分も含まれたものとなっているので、それらの低域成分と高域成分のゲイン調整を１つのフェーディング信号ゲインで行うことができる。

このようなフェーディング信号ゲインによるオーディオ信号のゲイン調整によって、IMDCTにより得られたIMDCT信号と、０データとされたIMDCT信号とがオーバーラップ加算される部分とその直後の部分で、オーディオ信号が０データから本来の信号へと徐々に変化していくようになる。これにより、聴感上の音質の劣化を抑制することができる。

〈アンパッキング／復号部の構成例〉
図２３および図２４を参照して説明したフェードイン処理やフェードアウト処理によるゲイン調整が行われる場合、アンパッキング／復号部１６１は、例えば図２５に示すように構成される。なお、図２５において、図２１における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２５に示すアンパッキング／復号部１６１は優先度情報取得部１９１、チャネルオーディオ信号取得部１９２、チャネルオーディオ信号復号部１９３、出力選択部１９４、０値出力部１９５、IMDCT部１９６、オーバーラップ加算部２７１、SBR処理部２７３、ゲイン調整部２７２、オブジェクトオーディオ信号取得部１９７、オブジェクトオーディオ信号復号部１９８、出力選択部１９９、０値出力部２００、IMDCT部２０１、オーバーラップ加算部２７４、SBR処理部２７６、およびゲイン調整部２７５から構成される。

図２５に示すアンパッキング／復号部１６１の構成は、ゲイン調整部２７２およびゲイン調整部２７５が、それぞれSBR処理部２７３およびSBR処理部２７６の後段に配置されている点で、図２１に示したアンパッキング／復号部１６１の構成と異なる。

図２５に示すアンパッキング／復号部１６１では、SBR処理部２７３は、優先度情報取得部１９１から供給された高域のパワー値に基づいて、オーバーラップ加算部２７１から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をゲイン調整部２７２に供給する。この場合、SBR処理部２７３では、高域のパワー値のゲイン調整は行われない。

ゲイン調整部２７２は、優先度情報取得部１９１から供給された優先度情報に基づいて、SBR処理部２７３から供給されたオーディオ信号をゲイン調整し、ミキシング部１６３に供給する。

SBR処理部２７６は、優先度情報取得部１９１から供給された高域のパワー値に基づいて、オーバーラップ加算部２７４から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をゲイン調整部２７５に供給する。この場合、SBR処理部２７６では、高域のパワー値のゲイン調整は行われない。

ゲイン調整部２７５は、優先度情報取得部１９１から供給された優先度情報に基づいて、SBR処理部２７６から供給されたオーディオ信号をゲイン調整し、レンダリング部１６２に供給する。

〈選択復号処理の説明〉
続いて、アンパッキング／復号部１６１が図２５に示した構成とされる場合における復号装置１５１の動作について説明する。この場合、復号装置１５１は、図１１を参照して説明した復号処理を行う。但し、ステップＳ５２の選択復号処理として、図２６に示す処理を行う。

以下、図２６のフローチャートを参照して、図１１のステップＳ５２の処理に対応する選択復号処理について説明する。なお、ステップＳ２３１乃至ステップＳ２３８の処理は、図２２のステップＳ１８１乃至ステップＳ１８８の処理と同様であるので、その説明は省略する。但し、ステップＳ２３２では、SBR処理部２７３およびSBR処理部２７６には、優先度情報は供給されない。

ステップＳ２３９において、SBR処理部２７３は、優先度情報取得部１９１から供給された高域のパワー値に基づいて、オーバーラップ加算部２７１から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をゲイン調整部２７２に供給する。

ステップＳ２４０において、ゲイン調整部２７２は、優先度情報取得部１９１から供給された処理対象のチャネルの優先度情報に基づいて、SBR処理部２７３から供給されたオーディオ信号をゲイン調整し、ミキシング部１６３に供給する。

具体的にはゲイン調整部２７２は、現時間フレームの直前の時間フレームの優先度情報が閾値Ｐ以上であり、かつ現時間フレームの優先度情報と、現時間フレームの直後の時間フレームの優先度情報が閾値Ｐ未満である場合、図２３の折れ線GN31に示されるフェーディング信号ゲインでオーディオ信号のゲインを調整する。この場合、図２３における時間フレーム（n）が現時間フレームに対応し、現時間フレームの直後の時間フレームでは、折れ線GN31に示されるように、フェーディング信号ゲイン＝０でのゲイン調整が行われる。

また、ゲイン調整部２７２は、現時間フレームの優先度情報が閾値Ｐ以上であり、現時間フレームの直前の２時間フレームの優先度情報がともに閾値Ｐ未満である場合、図２４の折れ線GN41に示されるフェーディング信号ゲインでオーディオ信号のゲインを調整する。この場合、図２４における時間フレーム（n+2）が現時間フレームに対応し、現時間フレームの直前の時間フレームでは、折れ線GN41に示されるように、フェーディング信号ゲイン＝０でのゲイン調整が行われる。

なお、ゲイン調整部２７２は、これらの２つの例の場合のみゲイン調整を行い、それ以外の場合にはゲイン調整を行わず、オーディオ信号をそのままミキシング部１６３に供給する。

オーディオ信号のゲイン調整が行われると、その後、ステップＳ２４１乃至ステップＳ２４７の処理が行われるが、これらの処理は図２２のステップＳ１９１乃至ステップＳ１９７の処理と同様であるので、その説明は省略する。

このようにして処理対象のオブジェクトの現時間フレームのオーディオ信号が得られると、ステップＳ２４８およびステップＳ２４９の処理が行われて最終的な現時間フレームのオーディオ信号が生成されるが、これらの処理はステップＳ２３９およびステップＳ２４０の処理と同様であるので、その説明は省略する。

ステップＳ２５０において、オブジェクトオーディオ信号取得部１９７がオブジェクト番号に１を加えると、処理はステップＳ２４３に戻る。そして、ステップＳ２４３においてオブジェクト番号がＮ未満ではないと判定されると、選択復号処理は終了し、その後、処理は図１１のステップＳ５３へと進む。

以上のようにしてアンパッキング／復号部１６１は、連続する３時間フレームの優先度情報に基づいて、SBRにより得られたオーディオ信号をゲイン調整する。これにより、より簡単にグリッチノイズの発生を抑制し、聴感上の音質の劣化を抑制することができる。

なお、この実施の形態では、３時間フレーム分の優先度情報を用いたMDCT係数の出力先の選択と、フェーディング信号ゲインによるゲイン調整とを行う例について説明したが、フェーディング信号ゲインによるゲイン調整のみが行われるようにしてもよい。

そのような場合、出力選択部１９４や出力選択部１９９では、第１の実施の形態における場合と同様の処理により、MDCT係数の出力先が選択される。そして、ゲイン調整部２７２およびゲイン調整部２７５では、現時間フレームの優先度情報が閾値未満である場合、現時間フレームのフェーディング信号ゲインを線形に増加または減少させることで、フェードイン処理やフェードアウト処理を行う。ここで、フェードイン処理とするか、またはフェードアウト処理とするかは、現時間フレームの優先度情報と、その前後の時間フレームの優先度情報とから定めればよい。

〈第６の実施の形態〉
〈フェードイン処理とフェードアウト処理について〉
ところで、レンダリング部１６２では、例えばVBAPが行われて各オブジェクトのオーディオ信号から、各オブジェクトの音声を再生するための各チャネルのオーディオ信号が生成される。

具体的には、VBAPではチャネルごと、つまり音声を出力するスピーカごとに、各オブジェクトについて、オーディオ信号のゲイン値（以下、VBAPゲインとも称する）が時間フレームごとに算出される。そして、同じチャネル（スピーカ）についてのVBAPゲインが乗算された各オブジェクトのオーディオ信号の和が、そのチャネルのオーディオ信号とされる。換言すれば、各オブジェクトについて、オブジェクトのオーディオ信号がチャネルごとに算出されたVBAPゲインで、それらの各チャネルに割り当てられる。

そこで、オブジェクトのオーディオ信号については、オブジェクトのオーディオ信号や高域のパワー値のゲイン調整をするのではなく、VBAPゲインを適切に調整することにより、グリッチノイズの発生を抑制して聴感上の音質の劣化を抑制するようにしてもよい。

そのような場合、例えば各時間フレームのVBAPゲインに対して線形補間等が行われ、各時間フレーム内のオーディオ信号のサンプルごとのVBAPゲインが算出され、得られたVBAPゲインにより各チャネルのオーディオ信号が生成される。

例えば、処理対象の時間フレームの先頭サンプルのVBAPゲインの値は、処理対象の時間フレームの直前の時間フレームの末尾のサンプルのVBAPゲインの値とされる。また、処理対象の時間フレームの末尾のサンプルのVBAPゲインの値は、その処理対象の時間フレームに対する通常のVBAPにより算出されたVBAPゲインの値とされる。

そして、処理対象の時間フレームでは、先頭サンプルから末尾のサンプルまでVBAPゲインが線形に変化するように、先頭サンプルと末尾のサンプルとの間の各サンプルのVBAPゲインの値が定められる。

但し、処理対象の時間フレームの優先度情報が閾値未満である場合には、VBAPの計算は行われず、その処理対象の時間フレームの末尾のサンプルのVBAPゲインの値は、０とされる。そして、処理対象の時間フレームの先頭サンプルから、末尾のサンプルまでVBAPゲインが線形に変化するように、各サンプルのVBAPゲインが定められる。

このようにしてVBAPゲインにより各オブジェクトのオーディオ信号のゲイン調整を行うことで、低域成分と高域成分のゲイン調整を１度に行うことができ、より少ない処理量でグリッチノイズの発生を抑制し、聴感上の音質の劣化を抑制することができる。

このようにサンプルごとにVBAPゲインを定める場合、各時間フレームのサンプルごとのVBAPゲインは例えば図２７や図２８に示すようになる。

なお、図２７および図２８において、図１９および図２０における場合と対応する部分には同一の文字等を記してあり、その説明は省略する。また、図２７および図２８において、「VBAP_gain[q][s]」（但し、q＝n-1,n,n+1,n+2）は、所定のチャネルに対応するスピーカを特定するスピーカインデックスがｓである、処理対象のオブジェクトの時間フレーム（q）のVBAPゲインを示している。

図２７に示す例は、優先度情報の変化が図１９に示した場合と同じである例である。この例では、閾値Ｑ＝４であるとすると、時間フレーム（n-1）の優先度情報は閾値Ｑ以上であるが、時間フレーム（n）乃至時間フレーム（n+2）では、優先度情報が閾値Ｑ未満となっている。

このような場合、時間フレーム（n-1）乃至時間フレーム（n+1）のVBAPゲインは、例えば折れ線GN51に示されるゲインとされる。

この例では、時間フレーム（n-1）の優先度情報は閾値Ｑ以上であるので、通常のVBAPにより算出されたVBAPゲインに基づいて、各サンプルのVBAPゲインが定められる。

すなわち、時間フレーム（n-1）の先頭のサンプルのVBAPゲインの値は、時間フレーム（n-2）の末尾のサンプルのVBAPゲインの値と同じとされている。また、時間フレーム（n-1）の末尾のサンプルのVBAPゲインの値は、処理対象となっているオブジェクトについて、時間フレーム（n-1）に対する通常のVBAPにより算出された、スピーカｓに対応するチャネルのVBAPゲインの値とされている。そして、時間フレーム（n-1）の各サンプルのVBAPゲインの値は、先頭のサンプルから末尾のサンプルまで線形に変化するように定められている。

また、時間フレーム（n）の優先度情報は閾値Ｑ未満であるので、時間フレーム（n）の末尾のサンプルのVBAPゲインの値は０とされる。

すなわち、時間フレーム（n）の先頭のサンプルのVBAPゲインの値は、時間フレーム（n-1）の末尾のサンプルのVBAPゲインの値と同じとされ、時間フレーム（n）の末尾のサンプルのVBAPゲインの値は０とされる。そして、時間フレーム（n）の各サンプルのVBAPゲインの値が、先頭のサンプルから末尾のサンプルまで線形に変化するように定められる。

さらに、時間フレーム（n+1）の優先度情報は閾値Ｑ未満であるので、時間フレーム（n+1）の末尾のサンプルのVBAPゲインの値は０とされ、結果として時間フレーム（n+1）の全サンプルのVBAPゲインの値は０となる。

このように、優先度情報が閾値Ｑ未満である時間フレームの末尾のサンプルのVBAPゲインの値を０とすることで、図２３の例と等価なフェードアウト処理が可能となる。

これに対して、図２８に示す例は、優先度情報の変化が図２４に示した場合と同じである例である。この例では、閾値Ｑ＝４であるとすると、時間フレーム（n-1）乃至時間フレーム（n+1）では優先度情報が閾値Ｑ未満であるが、時間フレーム（n+2）の優先度情報は閾値Ｑ以上となっている。

このような場合、時間フレーム（n-1）乃至時間フレーム（n+2）のVBAPゲインは、例えば折れ線GN61に示されるゲインとされる。

この例では、時間フレーム（n）の優先度情報も時間フレーム（n+1）の優先度情報もともに閾値Ｑ未満であるので、時間フレーム（n+1）の全サンプルのVBAPゲインは０となる。

また、時間フレーム（n+2）の優先度情報は閾値Ｑ以上であるので、処理対象となっているオブジェクトについて、通常のVBAPにより算出されたスピーカｓに対応するチャネルのVBAPゲインに基づいて、各サンプルのVBAPゲインが定められる。

すなわち、時間フレーム（n+2）の先頭のサンプルのVBAPゲインの値は、時間フレーム（n+1）の末尾のサンプルのVBAPゲインの値である０とされ、時間フレーム（n+2）の末尾のサンプルのVBAPゲインの値は、時間フレーム（n+2）に対する通常のVBAPにより算出されたVBAPゲインの値とされている。そして、時間フレーム（n+2）の各サンプルのVBAPゲインの値は、先頭のサンプルから末尾のサンプルまで線形に変化するように定められている。

このように、優先度情報が閾値Ｑ未満である時間フレームの末尾のサンプルのVBAPゲインの値を０とすることで、図２４の例と等価なフェードイン処理が可能となる。

〈アンパッキング／復号部の構成例〉
図２７および図２８を参照して説明したフェードイン処理やフェードアウト処理によるゲイン調整が行われる場合、アンパッキング／復号部１６１は、例えば図２９に示すように構成される。なお、図２９において、図２５における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図２９に示すアンパッキング／復号部１６１は優先度情報取得部１９１、チャネルオーディオ信号取得部１９２、チャネルオーディオ信号復号部１９３、出力選択部１９４、０値出力部１９５、IMDCT部１９６、オーバーラップ加算部２７１、SBR処理部２７３、ゲイン調整部２７２、オブジェクトオーディオ信号取得部１９７、オブジェクトオーディオ信号復号部１９８、出力選択部１９９、０値出力部２００、IMDCT部２０１、オーバーラップ加算部２７４、およびSBR処理部２７６から構成される。

図２９に示すアンパッキング／復号部１６１の構成は、ゲイン調整部２７５が設けられていない点で、図２５に示したアンパッキング／復号部１６１の構成と異なり、その他の点では同じ構成となっている。

図２９に示すアンパッキング／復号部１６１では、SBR処理部２７６は、優先度情報取得部１９１から供給された高域のパワー値に基づいて、オーバーラップ加算部２７４から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をレンダリング部１６２に供給する。

また、優先度情報取得部１９１は、供給されたビットストリームから各オブジェクトのメタデータと優先度情報を取得してレンダリング部１６２に供給する。なお、各オブジェクトの優先度情報は、出力選択部１９９にも供給される。

〈復号処理の説明〉
続いて、アンパッキング／復号部１６１が図２９に示した構成とされる場合における復号装置１５１の動作について説明する。

この場合、復号装置１５１は、図３０に示す復号処理を行う。以下、図３０のフローチャートを参照して、復号装置１５１により行われる復号処理について説明する。但し、ステップＳ２８１では、図１１のステップＳ５１の処理と同様の処理が行われるので、その説明は省略する。

ステップＳ２８２において、アンパッキング／復号部１６１は選択復号処理を行う。

ここで、図３１のフローチャートを参照して、図３０のステップＳ２８２の処理に対応する選択復号処理について説明する。

なお、ステップＳ３１１乃至ステップＳ３２８の処理は、図２６のステップＳ２３１乃至ステップＳ２４８の処理と同様であるので、その説明は省略する。但し、ステップＳ３１２では、優先度情報取得部１９１は、ビットストリームから取得された優先度情報をレンダリング部１６２にも供給する。

ステップＳ３２９において、オブジェクトオーディオ信号取得部１９７がオブジェクト番号に１を加えると、処理はステップＳ３２３に戻る。そして、ステップＳ３２３においてオブジェクト番号がＮ未満ではないと判定されると、選択復号処理は終了し、その後、処理は図３０のステップＳ２８３へと進む。

したがって、図３１に示した選択復号処理では、各チャネルのオーディオ信号については、第５の実施の形態における場合と同様にフェーディング信号ゲインによるゲイン調整が行われ、各オブジェクトについては、ゲイン調整は行われず、SBRにより得られたオーディオ信号がそのままレンダリング部１６２に出力される。

図３０の復号処理の説明に戻り、ステップＳ２８３において、レンダリング部１６２は、SBR処理部２７６から供給された各オブジェクトのオーディオ信号と、優先度情報取得部１９１から供給された各オブジェクトのメタデータとしての位置情報、および各オブジェクトの現時間フレームの優先度情報とに基づいて、各オブジェクトのオーディオ信号のレンダリングを行う。

例えばレンダリング部１６２は、図２７や図２８を参照して説明したように、オブジェクトごとに、各チャネルについて現時間フレームの優先度情報と、現時間フレームの直前の時間フレームの末尾のサンプルのVBAPゲインに基づいて、現時間フレームの各サンプルのVBAPゲインを算出する。このときレンダリング部１６２は、適宜、位置情報に基づいてVBAPによりVBAPゲインを算出する。

そして、レンダリング部１６２は、各オブジェクトについて算出した各チャネルのサンプルごとのVBAPゲインと、各オブジェクトのオーディオ信号とに基づいて、各チャネルのオーディオ信号を生成し、ミキシング部１６３に供給する。

なお、ここでは時間フレーム内の各サンプルのVBAPゲインが線形に変化するように各サンプルのVBAPゲインを算出する例について説明したが、VBAPゲインが非線形に変化するようにしてもよい。また、VBAPにより各チャネルのオーディオ信号が生成される例について説明したが、他の方法により各チャネルのオーディオ信号を生成する場合でも、VBAPにおける場合と同様の処理により、各オブジェクトのオーディオ信号のゲインを調整することが可能である。

各チャネルのオーディオ信号が生成されると、その後、ステップＳ２８４の処理が行われて復号処理は終了するが、ステップＳ２８４の処理は図１１のステップＳ５４の処理と同様であるので、その説明は省略する。

このようにして復号装置１５１は、各オブジェクトについて、優先度情報に基づいてサンプルごとにVBAPゲインを算出し、各チャネルのオーディオ信号の生成時に、VBAPゲインによりオブジェクトのオーディオ信号のゲイン調整を行う。これにより、より少ない処理量でグリッチノイズの発生を抑制し、聴感上の音質の劣化を抑制することができる。

なお、第４の実施の形態乃至第６の実施の形態では、現時間フレームの直前および直後の時間フレームの優先度情報を利用してMDCT係数の出力先を選択したり、フェーディング信号ゲイン等によるゲイン調整を行ったりすると説明した。しかし、これに限らず、現時間フレームの優先度情報と、現時間フレームの所定時間フレームだけ前の時間フレームの優先度情報や、現時間フレームの所定時間フレームだけ後の時間フレームの優先度情報とが用いられるようにしてもよい。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。

図３２は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１，ＲＯＭ（Read Only Memory）５０２，ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、およびドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５およびバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。

さらに、本技術は、以下の構成とすることも可能である。

（１）
複数のチャネルまたは複数のオブジェクトの符号化されたオーディオ信号、および所定の時間における各前記オーディオ信号の優先度情報を取得する取得部と、
前記優先度情報に基づいて、前記優先度情報に応じた所定の数のチャネルまたはオブジェクトの前記符号化されたオーディオ信号を復号するオーディオ信号復号部と
を備える復号装置。
（２）
前記オーディオ信号復号部は、前記優先度情報により示される優先度合いが所定の度合い以上である、前記符号化されたオーディオ信号を復号する
（１）に記載の復号装置。
（３）
前記取得部は、前記所定の時間における前記複数のチャネルまたは前記複数のオブジェクトのオーディオ信号の前記優先度情報に基づいて、前記所定の度合いを変更する
（２）に記載の復号装置。
（４）
前記取得部は、前記オーディオ信号ごとに複数の前記優先度情報を取得し、
前記オーディオ信号復号部は、前記複数の前記優先度情報のなかから選択された１つの前記優先度情報に基づいて、前記符号化されたオーディオ信号を復号する
（１）乃至（３）の何れか一項に記載の復号装置。
（５）
前記複数の前記優先度情報は、前記符号化されたオーディオ信号の復号側の計算能力に応じて、前記計算能力ごとに生成されたものである
（４）に記載の復号装置。
（６）
前記符号化されたオーディオ信号に基づいて、前記優先度情報を生成する優先度情報生成部をさらに備える
（１）乃至（５）の何れか一項に記載の復号装置。
（７）
前記優先度情報生成部は、前記符号化されたオーディオ信号から得られる、オーディオ信号の音圧またはスペクトル形状に基づいて前記優先度情報を生成する
（６）に記載の復号装置。
（８）
前記オーディオ信号復号部は、チャネルごとまたはオブジェクトごとに、前記所定の時間の前記優先度情報と、前記所定の時間よりも前または後の時間の前記優先度情報とに基づいて、前記所定の時間の前記符号化されたオーディオ信号を復号するかを選択する
（１）に記載の復号装置。
（９）
前記復号が行われた場合、前記復号により得られた信号を出力信号とし、前記復号が行われなかった場合、０データを出力信号として、チャネルごとまたはオブジェクトごとに、前記所定の時間の前記出力信号と、前記所定の時間よりも前または後の時間の前記出力信号とを加算して前記所定の時間のオーディオ信号を生成する加算部と、
チャネルごとまたはオブジェクトごとに、前記所定の時間の前記優先度情報と、前記所定の時間よりも前または後の時間の前記優先度情報とに基づいて、前記所定の時間のオーディオ信号のゲイン調整を行うゲイン調整部と
をさらに備える（１）に記載の復号装置。
（１０）
チャネルごとまたはオブジェクトごとに、前記所定の時間の前記優先度情報と、前記所定の時間よりも前または後の時間の前記優先度情報とに基づいて、高域のパワー値をゲイン調整するとともに、ゲイン調整された前記パワー値と、前記所定の時間のオーディオ信号とに基づいて、前記所定の時間のオーディオ信号の高域成分を生成する高域生成部をさらに備える
（９）に記載の復号装置。
（１１）
チャネルごとまたはオブジェクトごとに、高域のパワー値と、前記所定の時間のオーディオ信号とに基づいて、高域成分が含まれる前記所定の時間のオーディオ信号を生成する高域生成部をさらに備え、
前記ゲイン調整部は、高域成分が含まれる前記所定の時間のオーディオ信号のゲイン調整を行う
（９）に記載の復号装置。
（１２）
前記所定の時間の前記優先度情報に基づいて、オブジェクトのオーディオ信号を複数の各チャネルに所定のゲイン値で割り当てて、前記複数の各チャネルのオーディオ信号を生成するレンダリング部をさらに備える
（１）に記載の復号装置。
（１３）
複数のチャネルまたは複数のオブジェクトの符号化されたオーディオ信号、および所定の時間における各前記オーディオ信号の優先度情報を取得し、
前記優先度情報に基づいて、前記優先度情報に応じた所定の数のチャネルまたはオブジェクトの前記符号化されたオーディオ信号を復号する
ステップを含む復号方法。
（１４）
複数のチャネルまたは複数のオブジェクトの符号化されたオーディオ信号、および所定の時間における各前記オーディオ信号の優先度情報を取得し、
前記優先度情報に基づいて、前記優先度情報に応じた所定の数のチャネルまたはオブジェクトの前記符号化されたオーディオ信号を復号する
ステップを含む処理をコンピュータに実行させるプログラム。
（１５）
複数のチャネルまたは複数のオブジェクトのオーディオ信号の所定の時間における優先度情報を生成する優先度情報生成部と、
前記優先度情報をビットストリームに格納するパッキング部と
を備える符号化装置。
（１６）
前記優先度情報生成部は、前記オーディオ信号ごとに複数の前記優先度情報を生成する
（１５）に記載の符号化装置。
（１７）
前記優先度情報生成部は、符号化された前記オーディオ信号の復号側の計算能力に応じて、前記計算能力ごとに前記優先度情報を生成する
（１６）に記載の符号化装置。
（１８）
前記優先度情報生成部は、前記オーディオ信号の音圧またはスペクトル形状に基づいて前記優先度情報を生成する
（１５）乃至（１７）の何れか一項に記載の符号化装置。
（１９）
前記複数のチャネルまたは前記複数のオブジェクトのオーディオ信号を符号化する符号化部をさらに備え、
前記パッキング部は、前記優先度情報と符号化された前記オーディオ信号とを前記ビットストリームに格納する
（１５）乃至（１８）の何れか一項に記載の符号化装置。
（２０）
複数のチャネルまたは複数のオブジェクトのオーディオ信号の所定の時間における優先度情報を生成し、
前記優先度情報をビットストリームに格納する
ステップを含む符号化方法。
（２１）
複数のチャネルまたは複数のオブジェクトのオーディオ信号の所定の時間における優先度情報を生成し、
前記優先度情報をビットストリームに格納する
ステップを含む処理をコンピュータに実行させるプログラム。

１１符号化装置，２１チャネルオーディオ符号化部，２２オブジェクトオーディオ符号化部，２３メタデータ入力部，２４パッキング部，５１符号化部，５２優先度情報生成部，６１ MDCT部，９１符号化部，９２優先度情報生成部，１０１ MDCT部，１５１復号装置，１６１アンパッキング／復号部，１６２レンダリング部，１６３ミキシング部，１９１優先度情報取得部，１９３チャネルオーディオ信号復号部，１９４出力選択部，１９６ IMDCT部，１９８オブジェクトオーディオ信号復号部，１９９出力選択部，２０１ IMDCT部，２３１優先度情報生成部，２３２優先度情報生成部，２７１オーバーラップ加算部，２７２ゲイン調整部，２７３ SBR処理部，２７４オーバーラップ処理部，２７５ゲイン調整部，２７６ SBR処理部

Claims

供給されたビットストリームから複数のオブジェクトの符号化されたオーディオ信号、および各前記オブジェクトの符号化されたオーディオ信号の所定の時間における優先度情報を取得する取得部と、
前記優先度情報に示される優先度合いが所定の度合い以上である前記オブジェクトの符号化されたオーディオ信号を復号し、前記優先度情報に示される優先度合いが前記所定の度合い未満である前記オブジェクトの符号化されたオーディオ信号は復号しないオーディオ信号復号部と
を備え、
前記優先度情報は、オーディオ信号の出力調整に使用可能であり、
前記オーディオ信号の出力調整は、徐々にオーディオ信号の出力ゲインを増加または減少させることを含む
復号装置。
前記出力ゲインの調整は、フェードイン処理またはフェードアウト処理を行うことを含む
請求項１に記載の復号装置。
前記優先度情報に示される優先度合いが前記所定の度合い未満である前記オブジェクトの復号されたオーディオ信号を、無音信号として出力する出力部をさらに備える
請求項１に記載の復号装置。
前記出力部は、前記復号により得られた、前記優先度情報に示される優先度合いが前記所定の度合い以上である前記オブジェクトの信号を出力信号として出力する
請求項３に記載の復号装置。
復号装置が、
供給されたビットストリームから複数のオブジェクトの符号化されたオーディオ信号、および各前記オブジェクトの符号化されたオーディオ信号の所定の時間における優先度情報を取得し、
前記優先度情報に示される優先度合いが所定の度合い以上である前記オブジェクトの符号化されたオーディオ信号を復号し、前記優先度情報に示される優先度合いが前記所定の度合い未満である前記オブジェクトの符号化されたオーディオ信号は復号せず、
前記優先度情報は、オーディオ信号の出力調整に使用可能であり、
前記オーディオ信号の出力調整は、徐々にオーディオ信号の出力ゲインを増加または減少させることを含む
復号方法。
前記出力ゲインの調整は、フェードイン処理またはフェードアウト処理を行うことを含む
請求項５に記載の復号方法。
供給されたビットストリームから複数のオブジェクトの符号化されたオーディオ信号、および各前記オブジェクトの符号化されたオーディオ信号の所定の時間における優先度情報を取得し、
前記優先度情報に示される優先度合いが所定の度合い以上である前記オブジェクトの符号化されたオーディオ信号を復号し、前記優先度情報に示される優先度合いが前記所定の度合い未満である前記オブジェクトの符号化されたオーディオ信号は復号しない
ステップを含む処理をコンピュータに実行させ、
前記優先度情報は、オーディオ信号の出力調整に使用可能であり、
前記オーディオ信号の出力調整は、徐々にオーディオ信号の出力ゲインを増加または減少させることを含む
プログラム。