以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術の概要について〉
本技術は、マルチチャネルを構成する各チャネルのオーディオ信号、およびオブジェクトのオーディオ信号の符号化において、各チャネルのオーディオ信号の優先度情報および各オブジェクトのオーディオ信号の優先度情報を伝送することで、復号の計算量を低減させることができるようにするものである。
また、本技術は復号側において、各チャネルまたは各オブジェクトの優先度情報に示される優先度合いが所定の度合い以上である場合に周波数時間変換を行い、優先度情報に示される優先度合いが所定の度合い未満である場合には、周波数時間変換を行わず、周波数時間変換の結果を0とすることで、オーディオ信号の復号の計算量を低減させることができるようにするものである。
なお、以下では、マルチチャネルのオーディオ信号およびオブジェクトのオーディオ信号がAAC規格に従って符号化される場合について説明するが、他の方式で符号化される場合にも同様の処理が行なわれる。
例えば、マルチチャネルのオーディオ信号、および複数のオブジェクトのオーディオ信号がAAC規格に従って符号化され、伝送される場合、各チャネルや各オブジェクトのオーディオ信号がフレームごとに符号化されて伝送される。
具体的には図1に示すように、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント(ビットストリームエレメント)に格納され、それらのエレメントからなるビットストリームが伝送されることになる。
この例では、1フレーム分のビットストリームには、先頭から順番にt個のエレメントEL1乃至エレメントELtが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子TERMが配置されている。
例えば、先頭に配置されたエレメントEL1は、DSE(Data Stream Element)と呼ばれるアンシラリデータ領域であり、DSEにはオーディオ信号のダウンミックスに関する情報や識別情報など、複数の各チャネルに関する情報が記述される。
エレメントEL1の後に続くエレメントEL2乃至エレメントELtには、符号化されたオーディオ信号が格納される。
特に、シングルチャネルのオーディオ信号が格納されているエレメントはSCEと呼ばれており、ペアとなる2つのチャネルのオーディオ信号が格納されているエレメントはCPEと呼ばれている。また、各オブジェクトのオーディオ信号はSCEに格納される。
本技術では、マルチチャネルを構成する各チャネルのオーディオ信号の優先度情報、および各オブジェクトのオーディオ信号の優先度情報が生成されてDSEに格納される。
例えば、図2に示すように連続するフレームF11乃至フレームF13のオーディオ信号が符号化されるとする。
このような場合、符号化装置(エンコーダ)は、それらのフレームごとに、各チャネルのオーディオ信号がどの程度の優先度合いであるかを解析し、例えば図3に示すように各チャネルの優先度情報を生成する。同様に、符号化装置は、各オブジェクトのオーディオ信号についても優先度情報を生成する。
例えば符号化装置は、オーディオ信号の音圧やスペクトルの形状、さらに各チャネル間やオブジェクト間のスペクトル形状の相関などに基づいて、オーディオ信号がどの程度の優先度合いであるかを解析する。
図3では、全チャネル数がMチャネルである場合における各チャネルの優先度情報が例として示されている。すなわち、チャネル番号が0であるチャネルから、チャネル番号がM-1であるチャネルまでの各チャネルについて、それらのチャネルのオーディオ信号の優先度合いを示す数値が優先度情報として示されている。
例えばチャネル番号が0であるチャネルの優先度情報は3となっており、チャネル番号が1であるチャネルの優先度情報は0となっている。なお、以下、所定のチャネル番号m(m=0,1,・・・,M-1)のチャネルをチャネルmとも称することとする。
図3に示した優先度情報の値は、図4に示すように0から7までの何れかの値とされるようになされており、優先度情報の値が大きいほど、オーディオ信号の再生時の優先度合い、つまり重要度が高いとされている。
したがって、優先度情報の値が0であるオーディオ信号は最も優先度が低く、優先度情報の値が7であるオーディオ信号は最も優先度が高いことになる。
マルチチャネルのオーディオ信号や複数のオブジェクトのオーディオ信号が同時に再生される場合、通常、それらのオーディオ信号により再生される音声のなかには、他の音声と比べるとそれほど重要ではない音声も含まれている。換言すれば、全体の音声のなかで、ある特定の音声が再生されなかったとしても、そのことにより受聴者に違和感を与えるようなことがない程度の音声も存在する。
したがって、必要に応じて優先度の低いオーディオ信号については復号しないようにすれば、音質の劣化を抑えつつ復号の計算量を低減させることができる。そこで、符号化装置では、復号しないオーディオ信号を適切に選択することができるように、再生時における各オーディオ信号の重要さの度合い、つまり復号を優先させるべき度合いを示す優先度情報が、フレームごとに各オーディオ信号に対して付与される。
以上のようにして各オーディ信号の優先度情報が定められると、それらの優先度情報は、図1に示したエレメントEL1のDSEに格納される。特に図3の例では、マルチチャネルのオーディオ信号を構成するチャネル数はMであるから、チャネル0からチャネルM-1のM個の各チャネルの優先度情報がDSEに格納される。
同様に、各オブジェクトの優先度情報もエレメントEL1のDSEに格納される。ここでは、例えばオブジェクト番号が0からN-1までのN個のオブジェクトがあるとすると、N個の各オブジェクトに対して、それぞれ優先度情報が定められ、DSEに格納される。
なお、以下、所定のオブジェクト番号n(n=0,1,・・・,N-1)のオブジェクトをオブジェクトnとも称することとする。
このように、各オーディオ信号に対して優先度情報を定めれば、再生側、つまりオーディオ信号の復号側において、再生時にどのオーディオ信号が重要であり、優先して復号すべきか、つまり再生に用いるべきかを簡単に特定することができる。
図2の説明に戻り、例えば所定のチャネルのフレームF11とフレームF13のオーディオ信号の優先度情報が7であり、その所定のチャネルのフレームF12のオーディオ信号の優先度情報が0であったとする。
また、オーディオ信号の復号側、つまり復号装置(デコーダ)において所定の優先度合い未満のオーディオ信号に対しては、復号が行われないようになっているとする。
ここで、例えば所定の優先度合いを閾値と呼ぶこととし、その閾値が4であるとすると、上述した例では、優先度情報が7である所定チャネルのフレームF11とフレームF13のオーディオ信号に対しては復号が行われる。
これに対して、優先度情報が0である所定チャネルのフレームF12のオーディオ信号に対しては復号が行われない。
したがって、この例ではフレームF12のオーディオ信号が無音信号とされて、フレームF11とフレームF13のオーディオ信号が合成され、最終的な所定チャネルのオーディオ信号とされる。
より詳細には、例えば各オーディオ信号の符号化時には、オーディオ信号に対する時間周波数変換が行われて時間周波数変換により得られた情報が符号化され、その結果得られた符号化データがエレメントに格納される。
なお、時間周波数変換としてどのような処理が行われてもよいが、以下では時間周波数変換としてMDCT(Modified Discrete Cosine Transform)(修正離散コサイン変換)が行われるものとして説明を続ける。
また、復号装置では、符号化データに対する復号が行われ、その結果得られたMDCT係数に対してIMDCT(Inverse Modified Discrete Cosine Transform)(逆修正離散コサイン変換)が行われ、オーディオ信号が生成される。すなわち、ここでは時間周波数変換の逆変換(周波数時間変換)としてIMDCTが行われる。
そのため、より詳細には、優先度情報が閾値の値4以上であるフレームF11とフレームF13についてはIMDCTが行われてオーディオ信号が生成される。
また、優先度情報が閾値の値4未満であるフレームF12についてはIMDCTが行われず、IMDCTの結果が0とされてオーディオ信号が生成される。これにより、フレームF12のオーディオ信号は無音信号、つまり0データとなる。
さらに別の例として、図3に示した例では、閾値が4であるときには各チャネル0乃至チャネルM-1のオーディオ信号のうち、優先度情報が閾値である4未満の値となっているチャネル0、チャネル1、およびチャネルM-2のオーディオ信号の復号が行われないことになる。
以上のように閾値との比較結果に応じて、優先度情報により示される優先度合いの低いオーディオ信号については復号を行わないようにすることで、音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。
〈符号化装置の構成例〉
次に、本技術を適用した符号化装置および復号装置の具体的な実施の形態について説明する。まず、符号化装置について説明する。
図5は、本技術を適用した符号化装置の構成例を示す図である。
図5の符号化装置11は、チャネルオーディオ符号化部21、オブジェクトオーディオ符号化部22、メタデータ入力部23、およびパッキング部24を有している。
チャネルオーディオ符号化部21には、チャネル数がMであるマルチチャネルの各チャネルのオーディオ信号が供給される。例えば各チャネルのオーディオ信号は、それらのチャネルに対応するマイクロフォンから供給される。図5では、文字「#0」乃至「#M-1」は、各チャネルのチャネル番号を表している。
チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化するとともに、オーディオ信号に基づいて優先度情報を生成し、符号化により得られた符号化データと、優先度情報とをパッキング部24に供給する。
オブジェクトオーディオ符号化部22には、N個の各オブジェクトのオーディオ信号が供給される。例えば各オブジェクトのオーディオ信号は、それらのオブジェクトに取り付けられたマイクロフォンから供給される。図5では、文字「#0」乃至「#N-1」は、各オブジェクトのオブジェクト番号を表している。
オブジェクトオーディオ符号化部22は、供給された各オブジェクトのオーディオ信号を符号化するとともに、オーディオ信号に基づいて優先度情報を生成し、符号化により得られた符号化データと、優先度情報とをパッキング部24に供給する。
メタデータ入力部23は、各オブジェクトのメタデータをパッキング部24に供給する。例えばオブジェクトのメタデータは、空間上におけるオブジェクトの位置を示す空間位置情報などとされる。より具体的には、例えば空間位置情報は3次元空間におけるオブジェクトの位置の座標を示す3次元座標情報である。
パッキング部24は、チャネルオーディオ符号化部21から供給された符号化データと優先度情報、オブジェクトオーディオ符号化部22から供給された符号化データと優先度情報、およびメタデータ入力部23から供給されたメタデータをパッキングしてビットストリームを生成し、出力する。
このようにして得られるビットストリームには、フレームごとに各チャネルの符号化データ、各チャネルの優先度情報、各オブジェクトの符号化データ、各オブジェクトの優先度情報、および各オブジェクトのメタデータが含まれていることになる。
ここで、1フレーム分のビットストリームに格納されるM個の各チャネルのオーディオ信号、およびN個の各オブジェクトのオーディオ信号は、同時に再生されるべき同一フレームのオーディオ信号である。
なお、ここでは、各チャネルや各オブジェクトのオーディオ信号の優先度情報として、1フレームごとに各オーディオ信号に対して優先度情報が生成される例について説明するが、任意の所定の時間を単位として、例えば数フレーム分のオーディオ信号に対して1つの優先度情報が生成されるようにしてもよい。
〈チャネルオーディオ符号化部の構成例〉
また、図5のチャネルオーディオ符号化部21は、より詳細には、例えば図6に示すように構成される。
図6に示すチャネルオーディオ符号化部21は、符号化部51および優先度情報生成部52を備えている。
符号化部51はMDCT部61を備えており、符号化部51は外部から供給された各チャネルのオーディオ信号を符号化する。
すなわち、MDCT部61は、外部から供給された各チャネルのオーディオ信号に対してMDCTを行う。符号化部51は、MDCTにより得られた各チャネルのMDCT係数を符号化し、その結果得られた各チャネルの符号化データ、つまり符号化されたオーディオ信号をパッキング部24に供給する。
また、優先度情報生成部52は、外部から供給された各チャネルのオーディオ信号を解析して、それらの各チャネルのオーディオ信号の優先度情報を生成し、パッキング部24に供給する。
〈オブジェクトオーディオ符号化部の構成例〉
さらに、図5のオブジェクトオーディオ符号化部22は、より詳細には、例えば図7に示すように構成される。
図7に示すオブジェクトオーディオ符号化部22は、符号化部91および優先度情報生成部92を備えている。
符号化部91はMDCT部101を備えており、符号化部91は外部から供給された各オブジェクトのオーディオ信号を符号化する。
すなわち、MDCT部101は、外部から供給された各オブジェクトのオーディオ信号に対してMDCTを行う。符号化部91は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データ、つまり符号化されたオーディオ信号をパッキング部24に供給する。
また、優先度情報生成部92は、外部から供給された各オブジェクトのオーディオ信号を解析して、それらの各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部24に供給する。
〈符号化処理の説明〉
次に、符号化装置11により行われる処理について説明する。
符号化装置11は、同時に再生される、複数の各チャネルのオーディオ信号および複数の各オブジェクトのオーディオ信号が1フレーム分だけ供給されると、符号化処理を行って、符号化されたオーディオ信号が含まれるビットストリームを出力する。
以下、図8のフローチャートを参照して、符号化装置11による符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。
ステップS11において、チャネルオーディオ符号化部21の優先度情報生成部52は、供給された各チャネルのオーディオ信号の優先度情報を生成し、パッキング部24に供給する。例えば優先度情報生成部52は、チャネルごとにオーディオ信号を解析し、オーディオ信号の音圧やスペクトル形状、チャネル間のスペクトル形状の相関などに基づいて優先度情報を生成する。
ステップS12において、パッキング部24は、優先度情報生成部52から供給された各チャネルのオーディオ信号の優先度情報をビットストリームのDSEに格納する。すなわち、優先度情報がビットストリームの先頭のエレメントに格納される。
ステップS13において、オブジェクトオーディオ符号化部22の優先度情報生成部92は、供給された各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部24に供給する。例えば優先度情報生成部92は、オブジェクトごとにオーディオ信号を解析し、オーディオ信号の音圧やスペクトル形状、オブジェクト間のスペクトル形状の相関などに基づいて優先度情報を生成する。
なお、各チャネルや各オブジェクトのオーディオ信号の優先度情報の生成時には、優先度情報の値となる優先度合いごとに、それらの優先度合いが割り当てられるオーディオ信号の数が、チャネル数やオブジェクト数に対して予め定められているようにしてもよい。
例えば図3の例では、優先度情報が「7」とされるオーディオ信号の数、つまりチャネルの数は5個、優先度情報が「6」とされるオーディオ信号の数は3個などと、予め定められているようにしてもよい。
ステップS14において、パッキング部24は、優先度情報生成部92から供給された各オブジェクトのオーディオ信号の優先度情報をビットストリームのDSEに格納する。
ステップS15において、パッキング部24は、各オブジェクトのメタデータをビットストリームのDSEに格納する。
例えばメタデータ入力部23は、ユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、各オブジェクトのメタデータを取得し、パッキング部24に供給する。パッキング部24は、このようにしてメタデータ入力部23から供給されたメタデータをDSEに格納する。
以上の処理により、ビットストリームのDSEには、全チャネルのオーディオ信号の優先度情報、全オブジェクトのオーディオ信号の優先度情報、および全オブジェクトのメタデータが格納されたことになる。
ステップS16において、チャネルオーディオ符号化部21の符号化部51は、供給された各チャネルのオーディオ信号を符号化する。
より具体的には、MDCT部61は各チャネルのオーディオ信号に対してMDCTを行い、符号化部51は、MDCTにより得られた各チャネルのMDCT係数を符号化し、その結果得られた各チャネルの符号化データをパッキング部24に供給する。
ステップS17において、パッキング部24は符号化部51から供給された各チャネルのオーディオ信号の符号化データを、ビットストリームのSCEまたはCPEに格納する。すなわち、ビットストリームにおいてDSEに続いて配置されている各エレメントに符号化データが格納される。
ステップS18において、オブジェクトオーディオ符号化部22の符号化部91は、供給された各オブジェクトのオーディオ信号を符号化する。
より具体的には、MDCT部101は各オブジェクトのオーディオ信号に対してMDCTを行い、符号化部91は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データをパッキング部24に供給する。
ステップS19において、パッキング部24は符号化部91から供給された各オブジェクトのオーディオ信号の符号化データを、ビットストリームのSCEに格納する。すなわち、ビットストリームにおいてDSEよりも後に配置されているいくつかのエレメントに符号化データが格納される。
以上の処理により、処理対象となっているフレームについて、全チャネルのオーディオ信号の優先度情報と符号化データ、全オブジェクトのオーディオ信号の優先度情報と符号化データ、および全オブジェクトのメタデータが格納されたビットストリームが得られる。
ステップS20において、パッキング部24は、得られたビットストリームを出力し、符号化処理は終了する。
以上のようにして符号化装置11は、各チャネルのオーディオ信号の優先度情報と、各オブジェクトのオーディオ信号の優先度情報とを生成してビットストリームに格納し、出力する。したがって、復号側において、どのオーディオ信号がより優先度合いの高いものであるかを簡単に把握することができるようになる。
これにより、復号側では、優先度情報に応じて、符号化されたオーディオ信号の復号を選択的に行うことができる。その結果、オーディオ信号により再生される音声の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。
特に、各オブジェクトのオーディオ信号の優先度情報をビットストリームに格納しておくことで、復号側において、復号の計算量を低減できるだけでなく、その後のレンダリング等の処理の計算量も低減させることができる。
〈復号装置の構成例〉
次に、以上において説明した符号化装置11から出力されたビットストリームを入力とし、ビットストリームに含まれる符号化データを復号する復号装置について説明する。
そのような復号装置は、例えば図9に示すように構成される。
図9に示す復号装置151は、アンパッキング/復号部161、レンダリング部162、およびミキシング部163を有している。
アンパッキング/復号部161は、符号化装置11から出力されたビットストリームを取得するとともに、ビットストリームのアンパッキングおよび復号を行う。
アンパッキング/復号部161は、アンパッキングおよび復号により得られた各オブジェクトのオーディオ信号と、各オブジェクトのメタデータとをレンダリング部162に供給する。このとき、アンパッキング/復号部161は、ビットストリームに含まれている優先度情報に応じて各オブジェクトの符号化データの復号を行う。
また、アンパッキング/復号部161は、アンパッキングおよび復号により得られた各チャネルのオーディオ信号をミキシング部163に供給する。このとき、アンパッキング/復号部161は、ビットストリームに含まれている優先度情報に応じて各チャネルの符号化データの復号を行う。
レンダリング部162は、アンパッキング/復号部161から供給された各オブジェクトのオーディオ信号、および各オブジェクトのメタデータとしての空間位置情報に基づいて、Mチャネルのオーディオ信号を生成し、ミキシング部163に供給する。このときレンダリング部162は、各オブジェクトの音像が、それらのオブジェクトの空間位置情報により示される位置に定位するようにM個の各チャネルのオーディオ信号を生成する。
ミキシング部163は、アンパッキング/復号部161から供給された各チャネルのオーディオ信号と、レンダリング部162から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算を行って、最終的な各チャネルのオーディオ信号を生成する。ミキシング部163は、このようにして得られた最終的な各チャネルのオーディオ信号を、外部の各チャネルに対応するスピーカに供給し、音声を再生させる。
〈アンパッキング/復号部の構成例〉
また、図9に示した復号装置151のアンパッキング/復号部161は、より詳細には例えば図10に示すように構成される。
図10に示すアンパッキング/復号部161は、優先度情報取得部191、チャネルオーディオ信号取得部192、チャネルオーディオ信号復号部193、出力選択部194、0値出力部195、IMDCT部196、オブジェクトオーディオ信号取得部197、オブジェクトオーディオ信号復号部198、出力選択部199、0値出力部200、およびIMDCT部201を有している。
優先度情報取得部191は、供給されたビットストリームから、各チャネルのオーディオ信号の優先度情報を取得して出力選択部194に供給するとともに、ビットストリームから各オブジェクトのオーディオ信号の優先度情報を取得して出力選択部199に供給する。
また、優先度情報取得部191は、供給されたビットストリームから各オブジェクトのメタデータを取得してレンダリング部162に供給するとともに、ビットストリームをチャネルオーディオ信号取得部192およびオブジェクトオーディオ信号取得部197に供給する。
チャネルオーディオ信号取得部192は、優先度情報取得部191から供給されたビットストリームから各チャネルの符号化データを取得して、チャネルオーディオ信号復号部193に供給する。チャネルオーディオ信号復号部193は、チャネルオーディオ信号取得部192から供給された各チャネルの符号化データを復号し、その結果得られたMDCT係数を出力選択部194に供給する。
出力選択部194は、優先度情報取得部191から供給された各チャネルの優先度情報に基づいて、チャネルオーディオ信号復号部193から供給された各チャネルのMDCT係数の出力先を選択的に切り替える。
すなわち、出力選択部194は、所定のチャネルについての優先度情報が所定の閾値P未満である場合、そのチャネルのMDCT係数を0として0値出力部195に供給する。また、出力選択部194は、所定のチャネルについての優先度情報が所定の閾値P以上である場合、チャネルオーディオ信号復号部193から供給された、そのチャネルのMDCT係数をIMDCT部196に供給する。
0値出力部195は、出力選択部194から供給されたMDCT係数に基づいてオーディオ信号を生成し、ミキシング部163に供給する。この場合、MDCT係数は0であるので、無音のオーディオ信号が生成される。
IMDCT部196は、出力選択部194から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、ミキシング部163に供給する。
オブジェクトオーディオ信号取得部197は、優先度情報取得部191から供給されたビットストリームから各オブジェクトの符号化データを取得して、オブジェクトオーディオ信号復号部198に供給する。オブジェクトオーディオ信号復号部198は、オブジェクトオーディオ信号取得部197から供給された各オブジェクトの符号化データを復号し、その結果得られたMDCT係数を出力選択部199に供給する。
出力選択部199は、優先度情報取得部191から供給された各オブジェクトの優先度情報に基づいて、オブジェクトオーディオ信号復号部198から供給された各オブジェクトのMDCT係数の出力先を選択的に切り替える。
すなわち、出力選択部199は、所定のオブジェクトについての優先度情報が所定の閾値Q未満である場合、そのオブジェクトのMDCT係数を0として0値出力部200に供給する。また、出力選択部199は、所定のオブジェクトについての優先度情報が所定の閾値Q以上である場合、オブジェクトオーディオ信号復号部198から供給された、そのオブジェクトのMDCT係数をIMDCT部201に供給する。
なお、閾値Qの値は、閾値Pの値と同じであってもよいし、閾値Pの値と異なる値であってもよい。復号装置151の計算能力等に応じて適切に閾値Pおよび閾値Qを定めることにより、オーディオ信号の復号の計算量を、復号装置151がリアルタイムに復号することが可能な範囲内の計算量まで低減させることができる。
0値出力部200は、出力選択部199から供給されたMDCT係数に基づいてオーディオ信号を生成し、レンダリング部162に供給する。この場合、MDCT係数は0であるので、無音のオーディオ信号が生成される。
IMDCT部201は、出力選択部199から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、レンダリング部162に供給する。
〈復号処理の説明〉
次に、復号装置151の動作について説明する。
復号装置151は、符号化装置11から1フレーム分のビットストリームが供給されると、復号処理を行ってオーディオ信号を生成し、スピーカへと出力する。以下、図11のフローチャートを参照して、復号装置151により行われる復号処理について説明する。
ステップS51において、アンパッキング/復号部161は、符号化装置11から送信されてきたビットストリームを取得する。すなわち、ビットストリームが受信される。
ステップS52において、アンパッキング/復号部161は選択復号処理を行う。
なお、選択復号処理の詳細は後述するが、選択復号処理では各チャネルの符号化データと、各オブジェクトの符号化データとが優先度情報に基づいて選択的に復号される。そして、その結果得られた各チャネルのオーディオ信号がミキシング部163に供給され、各オブジェクトのオーディオ信号がレンダリング部162に供給される。また、ビットストリームから取得された各オブジェクトのメタデータがレンダリング部162に供給される。
ステップS53において、レンダリング部162は、アンパッキング/復号部161から供給された各オブジェクトのオーディオ信号、および各オブジェクトのメタデータとしての空間位置情報に基づいて、各オブジェクトのオーディオ信号のレンダリングを行う。
例えばレンダリング部162は、空間位置情報に基づいてVBAP(Vector Base Amplitude Pannning)により、各オブジェクトの音像が空間位置情報により示される位置に定位するように各チャネルのオーディオ信号を生成し、ミキシング部163に供給する。
ステップS54において、ミキシング部163は、アンパッキング/復号部161から供給された各チャネルのオーディオ信号と、レンダリング部162から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、外部のスピーカに供給する。これにより、各スピーカには、それらのスピーカに対応するチャネルのオーディオ信号が供給されるので、各スピーカは供給されたオーディオ信号に基づいて音声を再生する。
各チャネルのオーディオ信号がスピーカに供給されると、復号処理は終了する。
以上のようにして、復号装置151は、ビットストリームから優先度情報を取得して、その優先度情報に応じて各チャネルおよび各オブジェクトの符号化データを復号する。
〈選択復号処理の説明〉
続いて、図12のフローチャートを参照して、図11のステップS52の処理に対応する選択復号処理について説明する。
ステップS81において、優先度情報取得部191は、供給されたビットストリームから、各チャネルのオーディオ信号の優先度情報、および各オブジェクトのオーディオ信号の優先度情報を取得して、それぞれ出力選択部194および出力選択部199に供給する。
また、優先度情報取得部191は、ビットストリームから各オブジェクトのメタデータを取得してレンダリング部162に供給するとともに、ビットストリームをチャネルオーディオ信号取得部192およびオブジェクトオーディオ信号取得部197に供給する。
ステップS82において、チャネルオーディオ信号取得部192は、処理対象とするチャネルのチャネル番号に0を設定し、保持する。
ステップS83において、チャネルオーディオ信号取得部192は、保持しているチャネル番号がチャネル数M未満であるか否かを判定する。
ステップS83において、チャネル番号がM未満であると判定された場合、ステップS84において、チャネルオーディオ信号復号部193は、処理対象のチャネルのオーディオ信号の符号化データを復号する。
すなわち、チャネルオーディオ信号取得部192は、優先度情報取得部191から供給されたビットストリームから、処理対象のチャネルの符号化データを取得してチャネルオーディオ信号復号部193に供給する。
すると、チャネルオーディオ信号復号部193は、チャネルオーディオ信号取得部192から供給された符号化データを復号し、その結果得られたMDCT係数を出力選択部194に供給する。
ステップS85において、出力選択部194は、優先度情報取得部191から供給された処理対象のチャネルの優先度情報が、図示せぬ上位の制御装置等により指定された閾値P以上であるか否かを判定する。ここで閾値Pは、例えば復号装置151の計算能力等に応じて定められる。
ステップS85において、優先度情報が閾値P以上であると判定された場合、出力選択部194は、チャネルオーディオ信号復号部193から供給された、処理対象のチャネルのMDCT係数をIMDCT部196に供給し、処理はステップS86に進む。この場合、処理対象のチャネルのオーディオ信号の優先度合いは、所定の優先度合い以上であるので、そのチャネルについての復号、より詳細にはIMDCTが行われる。
ステップS86において、IMDCT部196は、出力選択部194から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のチャネルのオーディオ信号を生成し、ミキシング部163に供給する。オーディオ信号が生成されると、その後、処理はステップS87へと進む。
これに対して、ステップS85において、優先度情報が閾値P未満であると判定された場合、出力選択部194は、MDCT係数を0として0値出力部195に供給する。
0値出力部195は、出力選択部194から供給された0であるMDCT係数から、処理対象のチャネルのオーディオ信号を生成し、ミキシング部163に供給する。したがって、0値出力部195では、実質的にはIMDCTなどのオーディオ信号を生成するための処理は何も行われない。
なお、0値出力部195により生成されるオーディオ信号は無音信号である。オーディオ信号が生成されると、その後、処理はステップS87へと進む。
ステップS85において優先度情報が閾値P未満であると判定されたか、またはステップS86においてオーディオ信号が生成されると、ステップS87において、チャネルオーディオ信号取得部192は、保持しているチャネル番号に1を加え、処理対象のチャネルのチャネル番号を更新する。
チャネル番号が更新されると、その後、処理はステップS83に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のチャネルのオーディオ信号が生成される。
また、ステップS83において、処理対象のチャネルのチャネル番号がM未満ではないと判定された場合、全てのチャネルについてオーディオ信号が得られたので、処理はステップS88へと進む。
ステップS88において、オブジェクトオーディオ信号取得部197は、処理対象とするオブジェクトのオブジェクト番号に0を設定し、保持する。
ステップS89において、オブジェクトオーディオ信号取得部197は、保持しているオブジェクト番号がオブジェクト数N未満であるか否かを判定する。
ステップS89において、オブジェクト番号がN未満であると判定された場合、ステップS90において、オブジェクトオーディオ信号復号部198は、処理対象のオブジェクトのオーディオ信号の符号化データを復号する。
すなわち、オブジェクトオーディオ信号取得部197は、優先度情報取得部191から供給されたビットストリームから、処理対象のオブジェクトの符号化データを取得してオブジェクトオーディオ信号復号部198に供給する。
すると、オブジェクトオーディオ信号復号部198は、オブジェクトオーディオ信号取得部197から供給された符号化データを復号し、その結果得られたMDCT係数を出力選択部199に供給する。
ステップS91において、出力選択部199は、優先度情報取得部191から供給された処理対象のオブジェクトの優先度情報が、図示せぬ上位の制御装置等により指定された閾値Q以上であるか否かを判定する。ここで閾値Qは、例えば復号装置151の計算能力等に応じて定められる。
ステップS91において、優先度情報が閾値Q以上であると判定された場合、出力選択部199は、オブジェクトオーディオ信号復号部198から供給された、処理対象のオブジェクトのMDCT係数をIMDCT部201に供給し、処理はステップS92に進む。
ステップS92において、IMDCT部201は、出力選択部199から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部162に供給する。オーディオ信号が生成されると、その後、処理はステップS93へと進む。
これに対して、ステップS91において、優先度情報が閾値Q未満であると判定された場合、出力選択部199は、MDCT係数を0として0値出力部200に供給する。
0値出力部200は、出力選択部199から供給された0であるMDCT係数から、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部162に供給する。したがって、0値出力部200では、実質的にはIMDCTなどのオーディオ信号を生成するための処理は何も行われない。
なお、0値出力部200により生成されるオーディオ信号は無音信号である。オーディオ信号が生成されると、その後、処理はステップS93へと進む。
ステップS91において優先度情報が閾値Q未満であると判定されたか、またはステップS92においてオーディオ信号が生成されると、ステップS93において、オブジェクトオーディオ信号取得部197は、保持しているオブジェクト番号に1を加え、処理対象のオブジェクトのオブジェクト番号を更新する。
オブジェクト番号が更新されると、その後、処理はステップS89に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のオブジェクトのオーディオ信号が生成される。
また、ステップS89において、処理対象のオブジェクトのオブジェクト番号がN未満ではないと判定された場合、全てのチャネルおよびオブジェクトについてオーディオ信号が得られたので選択復号処理は終了し、その後、処理は図11のステップS53に進む。
以上のようにして、復号装置151は、各チャネルまたは各オブジェクトについて、優先度情報と閾値とを比較して、処理対象のフレームのチャネルやオブジェクトごとに符号化されたオーディオ信号の復号を行うか否かを判定しながら、符号化されたオーディオ信号を復号する。
すなわち、復号装置151では、各オーディオ信号の優先度情報に応じた所定の数だけ、符号化されたオーディオ信号が復号され、残りのオーディオ信号は復号されない。
これにより、再生環境に合わせて優先度合いの高いオーディオ信号のみを選択的に復号することができ、オーディオ信号により再生される音声の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。
しかも、各オブジェクトのオーディオ信号の優先度情報に基づいて、符号化されたオーディオ信号の復号を行うことで、オーディオ信号の復号の計算量だけでなく、レンダリング部162等における処理など、その後の処理の計算量も低減させることができる。
〈第1の実施の形態の変形例1〉
〈優先度情報について〉
なお、以上においては各チャネルや各オブジェクトの1つのオーディオ信号に対して、1つの優先度情報が生成されると説明したが、複数の優先度情報が生成されるようにしてもよい。
そのような場合、例えば複数の各優先度情報は復号の計算量、すなわち復号側の計算能力に応じて、計算能力ごとに生成される。
具体的には、例えば2チャネル相当のオーディオ信号をリアルタイムに復号するための計算量に基づいて、2チャネル相当の計算能力を有する機器のための優先度情報が生成される。
このような2チャネル相当の機器のための優先度情報では、例えば全オーディオ信号のうち、より優先度合いが低い、つまり0に近い値が優先度情報として割り当てられるオーディオ信号が多くなるように優先度情報が生成される。
また、例えば24チャネル相当のオーディオ信号をリアルタイムに復号するための計算量に基づいて、24チャネル相当の計算能力を有する機器のための優先度情報も生成される。24チャネル相当の機器のための優先度情報では、例えば全オーディオ信号のうち、より優先度合いが高い、つまり7に近い値が優先度情報として割り当てられるオーディオ信号が多くなるように優先度情報が生成される。
この場合、例えば優先度情報生成部52は、図8のステップS11において、各チャネルのオーディオ信号に対して2チャネル相当の機器のための優先度情報を生成するとともに、それらの優先度情報に2チャネル相当の機器のためのものであることを示す識別子を付加し、パッキング部24に供給する。
さらに、優先度情報生成部52は、ステップS11において、各チャネルのオーディオ信号に対して24チャネル相当の機器のための優先度情報も生成するとともに、それらの優先度情報に24チャネル相当の機器のためのものであることを示す識別子を付加し、パッキング部24に供給する。
同様に、優先度情報生成部92も図8のステップS13において、2チャネル相当の機器のための優先度情報と、24チャネル相当の機器のための優先度情報とを生成して識別子を付加し、パッキング部24に供給する。
これにより、例えばポータブルオーディオプレーヤや、多機能型携帯電話機、タブレット型コンピュータ、テレビジョン受像機、パーソナルコンピュータ、高品位な音響機器などの再生機器の計算能力に応じた優先度情報が複数得られることになる。
例えばポータブルオーディオプレーヤなどの再生機器は、比較的計算能力が低いので、そのような再生機器では、2チャネル相当の機器のための優先度情報に基づいて符号化されたオーディオ信号を復号すれば、リアルタイムでオーディオ信号の再生を行うことができる。
以上のように、1つのオーディオ信号に対して複数の優先度情報が生成される場合、復号装置151では、例えば上位の制御装置により、複数の優先度情報のうちのどの優先度情報を用いて復号を行うかが優先度情報取得部191等に対して指示がされる。どの優先度情報を用いるかの指示は、例えば識別子が供給されることにより行われる。
なお、どの識別子の優先度情報を用いるかが、復号装置151ごとに予め定められているようにしてもよい。
例えば優先度情報取得部191において、予めどの識別子の優先度情報を用いるかが定められた場合、または上位の制御装置により識別子が指定された場合、図12のステップS81では、優先度情報取得部191は、定められた識別子が付加されている優先度情報を取得する。そして、取得された優先度情報が優先度情報取得部191から、出力選択部194や出力選択部199に供給される。
換言すれば、ビットストリームに格納されている複数の優先度情報のなかから、復号装置151、より詳細にはアンパッキング/復号部161の計算能力等に応じて適切な優先度情報が1つ選択される。
この場合、各チャネルの優先度情報と、各オブジェクトの優先度情報とで異なる識別子が利用されてビットストリームから優先度情報が読み出されてもよい。
このように、ビットストリームに含まれている複数の優先度情報のなかから、特定の優先度情報を選択して取得することにより、復号装置151の計算能力等に応じて適切な優先度情報を選択し、復号を行うことができる。これにより、何れの復号装置151においてもリアルタイムでオーディオ信号を再生することができるようになる。
〈第2の実施の形態〉
〈アンパッキング/復号部の構成例〉
なお、以上においては、符号化装置11から出力されるビットストリームに優先度情報が含まれている例について説明したが、符号化装置によっては、ビットストリームに優先度情報が含まれていないこともあり得る。
そこで、復号装置151において優先度情報を生成するようにしてもよい。例えば、ビットストリームに含まれているオーディオ信号の符号化データから抽出できる、オーディオ信号の音圧を示す情報やスペクトル形状を示す情報を用いて優先度情報を生成することが可能である。
このように、復号装置151において優先度情報を生成する場合、復号装置151のアンパッキング/復号部161は、例えば図13に示すように構成される。なお、図13において、図10における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図13に示すアンパッキング/復号部161は、チャネルオーディオ信号取得部192、チャネルオーディオ信号復号部193、出力選択部194、0値出力部195、IMDCT部196、オブジェクトオーディオ信号取得部197、オブジェクトオーディオ信号復号部198、出力選択部199、0値出力部200、IMDCT部201、優先度情報生成部231、および優先度情報生成部232を有している。
図13に示すアンパッキング/復号部161の構成は、優先度情報取得部191が設けられておらず、新たに優先度情報生成部231、および優先度情報生成部232が設けられている点で図10のアンパッキング/復号部161と異なり、他の構成は図10のアンパッキング/復号部161と同じとなっている。
チャネルオーディオ信号取得部192は、供給されたビットストリームから各チャネルの符号化データを取得して、チャネルオーディオ信号復号部193および優先度情報生成部231に供給する。
優先度情報生成部231は、チャネルオーディオ信号取得部192から供給された各チャネルの符号化データに基づいて、各チャネルの優先度情報を生成し、出力選択部194に供給する。
オブジェクトオーディオ信号取得部197は、供給されたビットストリームから各オブジェクトの符号化データを取得して、オブジェクトオーディオ信号復号部198および優先度情報生成部232に供給する。また、オブジェクトオーディオ信号取得部197は、供給されたビットストリームから各オブジェクトのメタデータを取得して、レンダリング部162に供給する。
優先度情報生成部232は、オブジェクトオーディオ信号取得部197から供給された各オブジェクトの符号化データに基づいて、各オブジェクトの優先度情報を生成し、出力選択部199に供給する。
〈選択復号処理の説明〉
アンパッキング/復号部161が図13に示した構成とされる場合、復号装置151は、図11に示した復号処理のステップS52に対応する処理として、図14に示す選択復号処理を行う。以下、図14のフローチャートを参照して、復号装置151による選択復号処理について説明する。
ステップS131において、優先度情報生成部231は各チャネルのオーディオ信号の優先度情報を生成する。
例えばチャネルオーディオ信号取得部192は、供給されたビットストリームから各チャネルの符号化データを取得して、チャネルオーディオ信号復号部193および優先度情報生成部231に供給する。
優先度情報生成部231は、チャネルオーディオ信号取得部192から供給された各チャネルの符号化データに基づいて各チャネルの優先度情報を生成し、出力選択部194に供給する。
例えばビットストリームには、オーディオ信号の符号化データとして、MDCT係数を得るためのスケールファクタ、サイド情報、および量子化スペクトルが含まれている。ここで、スケールファクタはオーディオ信号の音圧を示す情報であり、量子化スペクトルはオーディオ信号のスペクトル形状を示す情報である。
優先度情報生成部231は、各チャネルの符号化データとして含まれているスケールファクタや量子化スペクトルに基づいて、各チャネルのオーディオ信号の優先度情報を生成する。このように、スケールファクタや量子化スペクトルを用いて優先度情報を生成すれば、符号化データの復号を行う前に、直ちに優先度情報を得ることができ、優先度情報の生成のための計算量も低減させることができる。
なお、優先度情報は、その他、MDCT係数の自乗平均値を計算することで得られる、オーディオ信号の音圧や、MDCT係数のピーク包絡から得られるオーディオ信号のスペクトル形状に基づいて生成されるようにしてもよい。この場合、優先度情報生成部231は、適宜、符号化データの復号を行ったり、チャネルオーディオ信号復号部193からMDCT係数を取得したりする。
各チャネルの優先度情報が得られると、その後、ステップS132乃至ステップS137の処理が行われるが、これらの処理は図12のステップS82乃至ステップS87の処理と同様であるので、その説明は省略する。但し、この場合、すでに各チャネルの符号化データは取得されているので、ステップS134では符号化データの復号のみが行われる。
また、ステップS133において、チャネル番号がM未満でないと判定されると、ステップS138において、優先度情報生成部232は各オブジェクトのオーディオ信号の優先度情報を生成する。
例えばオブジェクトオーディオ信号取得部197は、供給されたビットストリームから各オブジェクトの符号化データを取得して、オブジェクトオーディオ信号復号部198および優先度情報生成部232に供給する。また、オブジェクトオーディオ信号取得部197は、供給されたビットストリームから各オブジェクトのメタデータを取得して、レンダリング部162に供給する。
優先度情報生成部232は、オブジェクトオーディオ信号取得部197から供給された各オブジェクトの符号化データに基づいて各オブジェクトの優先度情報を生成し、出力選択部199に供給する。例えば優先度情報は、各チャネルにおける場合と同様に、スケールファクタや量子化スペクトルに基づいて生成される。
また、MDCT係数から得られる音圧やスペクトル形状に基づいて優先度情報が生成されてもよい。この場合、優先度情報生成部232は、適宜、符号化データの復号を行ったり、オブジェクトオーディオ信号復号部198からMDCT係数を取得したりする。
各オブジェクトの優先度情報が得られると、その後、ステップS139乃至ステップS144の処理が行われて選択復号処理は終了するが、これらの処理は図12のステップS88乃至ステップS93の処理と同様であるので、その説明は省略する。但し、この場合、すでに各オブジェクトの符号化データは取得されているので、ステップS141では符号化データの復号のみが行われる。
選択復号処理が終了すると、その後、処理は図11のステップS53へと進む。
以上のようにして、復号装置151は、ビットストリームに含まれている符号化データに基づいて、各チャネルや各オブジェクトのオーディオ信号の優先度情報を生成する。このように復号装置151において優先度情報を生成することで、各オーディオ信号について適切な優先度情報を少ない計算量で得ることができ、復号の計算量やレンダリング等の計算量を低減させることができる。また、オーディオ信号により再生される音声の音質の劣化を最小限に抑えることもできる。
なお、図10に示したアンパッキング/復号部161の優先度情報取得部191が、供給されたビットストリームから、各チャネルおよび各オブジェクトのオーディオ信号の優先度情報を取得しようとしたが、ビットストリームから優先度情報が取得できなかった場合に、優先度情報が生成されるようにしてもよい。そのような場合、優先度情報取得部191は、優先度情報生成部231や優先度情報生成部232と同様の処理を行い、符号化データから各チャネルおよび各オブジェクトのオーディオ信号の優先度情報を生成する。
〈第3の実施の形態〉
〈優先度情報の閾値について〉
さらに、以上においては、各チャネルや各オブジェクトについて、優先度情報と、閾値Pや閾値Qとを比較して復号するオーディオ信号、より詳細にはIMDCTを行うMDCT係数を選択すると説明したが、これらの閾値Pや閾値Qがオーディオ信号のフレームごとに動的に変更されるようにしてもよい。
例えば図10に示したアンパッキング/復号部161の優先度情報取得部191では、復号を必要とせずに、ビットストリームから各チャネルおよび各オブジェクトの優先度情報を取得することができる。
したがって、例えば優先度情報取得部191が全チャネルのオーディオ信号の優先度情報を読み出せば、処理対象となっているフレームにおける優先度情報の分布を得ることができる。また、復号装置151では、例えば何チャネルまでなら同時に、つまりリアルタイムで処理できるかなど、予め自分自身の計算能力が分かっている。
そこで、優先度情報取得部191が処理対象のフレームにおける優先度情報の分布と、復号装置151の計算能力とに基づいて、その処理対象のフレームについての優先度情報の閾値Pを定めるようにしてもよい。
例えば閾値Pは、復号装置151がリアルタイムで処理を行うことのできる範囲内で最も多くのオーディオ信号が復号されるように定められる。
また、優先度情報取得部191は、閾値Pにおける場合と同様に閾値Qを動的に定めることができる。この場合、優先度情報取得部191は全オブジェクトのオーディオ信号の優先度情報に基づいて、それらの優先度情報の分布を求め、求めた分布と、復号装置151の計算能力とに基づいて、処理対象のフレームについての優先度情報の閾値Qを定める。
このような閾値Pや閾値Qの決定は、比較的少ない計算量で行うことができる。
このように優先度情報の閾値を動的に変化させることで、リアルタイムで復号を行いつつ、オーディオ信号により再生される音声の音質の劣化を最小限に抑えることができる。特にこのような場合、優先度情報を複数用意する必要がなく、また優先度情報に識別子を設ける必要もないので、ビットストリームの符号量も少なくてすむ。
〈オブジェクトのメタデータについて〉
さらに、以上において説明した第1の実施の形態乃至第3の実施の形態では、ビットストリームの先頭のエレメントには、1フレーム分のオブジェクトのメタデータや優先度情報などが格納されると説明した。
この場合、ビットストリームの先頭のエレメントにおける、オブジェクトのメタデータおよび優先度情報が格納される部分のシンタックスは、例えば図15に示すようになる。
図15に示す例では、オブジェクトのメタデータのなかに、オブジェクトの空間位置情報と優先度情報が1フレーム分だけ格納されている。
この例では「num_objects」はオブジェクトの数を示している。また、「object_priority[o]」はO番目のオブジェクトの優先度情報を示している。ここで、O番目のオブジェクトとは、オブジェクト番号により特定されるオブジェクトである。
「position_azimuth[o]」は、視聴者であるユーザからみた、つまり所定の基準位置からみたO番目のオブジェクトの3次元空間位置を表す水平方向角度を示している。また、「position_elevation[o]」は、視聴者であるユーザからみたO番目のオブジェクトの3次元空間位置を表す垂直方向角度を示している。さらに「position_radius[o]」は、視聴者からO番目のオブジェクトまでの距離を示している。
したがって、3次元空間におけるオブジェクトの位置は、これらの「position_azimuth[o]」、「position_elevation[o]」、および「position_radius[o]」から特定されることになり、これらの情報がオブジェクトの空間位置情報とされる。
また、「gain_factor[o]」はO番目のオブジェクトの利得を示している。
このように、図15に示すメタデータには、1つのオブジェクトについての「object_priority[o]」、「position_azimuth[o]」、「position_elevation[o]」、「position_radius[o]」、および「gain_factor[o]」が、そのオブジェクトのデータとして順番に配置されている。そして、メタデータ内には、各オブジェクトのデータが、例えばオブジェクトのオブジェクト番号順に並べられて配置されている。
〈第4の実施の形態〉
〈オーディオ信号の完全再構成と不連続性に起因するノイズについて〉
以上においては、復号装置151においてビットストリームから読み出されたチャネルまたはオブジェクトごとの各フレーム(以下では、特に時間フレームと称する)の優先度情報が、予め定められた閾値未満である場合にIMDCT等の復号処理を省くことで、復号時の処理量を削減する例について説明した。具体的には、優先度情報が閾値未満である場合には、0値出力部195や0値出力部200から無音のオーディオ信号を出力する、つまりオーディオ信号として0データを出力すると説明した。
ところが、そのような場合、聴感上の音質劣化が生じてしまう。具体的には、オーディオ信号の完全再構成に起因する音質劣化と、グリッチノイズ等の信号の不連続性に起因するノイズの発生による音質劣化が生じる。
(完全再構成に起因する音質劣化)
例えば、優先度情報が閾値未満である場合にオーディオ信号として0データを出力すると、0データの出力と、0データではない通常のオーディオ信号の出力との切り替え時に音質劣化が生じる。
上述したようにアンパッキング/復号部161では、IMDCT部196やIMDCT部201において、ビットストリームから読み出された時間フレームごとのMDCT係数に対してIMDCTが行われる。そして、より詳細にはアンパッキング/復号部161では、現時間フレームについてのIMDCTの結果または0データと、1時間フレーム前のIMDCTの結果または0データとから、現時間フレームのオーディオ信号が生成される。
ここで、オーディオ信号の生成について、図16を参照して説明する。なお、ここでは、オブジェクトのオーディオ信号の生成を例として説明するが、各チャネルのオーディオ信号の生成についても同様である。また、以下では、0値出力部200から出力されるオーディオ信号、およびIMDCT部201から出力されるオーディオ信号を、特にIMDCT信号とも称することとする。同様に、0値出力部195から出力されるオーディオ信号、およびIMDCT部196から出力されるオーディオ信号を、特にIMDCT信号とも称することとする。
図16では、図中、横方向は時間を示しており、文字「data[n-1]」乃至「data[n+2]」が記された長方形は、それぞれ所定のオブジェクトの時間フレーム(n-1)乃至時間フレーム(n+2)のビットストリームを表している。また、各時間フレームのビットストリーム内の数値は、その時間フレームのオブジェクトの優先度情報の値を示しており、この例では各時間フレームの優先度情報の値は「7」となっている。
さらに、図16において文字「MDCT_coef[q]」(但し、q=n-1,n,…)が記された長方形は、それぞれ時間フレーム(q)のMDCT係数を表している。
いま、閾値Q=4であるとすると、時間フレーム(n-1)の優先度情報の値「7」は閾値Q以上であるので、時間フレーム(n-1)についてのMDCT係数に対してIMDCTが行われる。同様に、時間フレーム(n)の優先度情報の値「7」も閾値Q以上であるので、時間フレーム(n)についてのMDCT係数に対してIMDCTが行われる。
その結果、時間フレーム(n-1)のIMDCT信号OPS11と、時間フレーム(n)のIMDCT信号OPS12が得られたとする。
この場合、アンパッキング/復号部161は、時間フレーム(n)のIMDCT信号OPS12の前半部分と、1時間フレーム前の時間フレーム(n-1)のIMDCT信号OPS11の後半部分とを足し合わせて、時間フレーム(n)のオーディオ信号、つまり期間FL(n)のオーディオ信号とする。換言すれば、IMDCT信号OPS11の期間FL(n)の部分と、IMDCT信号OPS12の期間FL(n)の部分とがオーバーラップ加算されて、処理対象のオブジェクトの符号化前の時間フレーム(n)のオーディオ信号が再現される。
このような処理は、IMDCT信号がMDCT前の信号に完全再構成されるために必要な処理である。
しかしながら、上述したアンパッキング/復号部161では、例えば図17に示すように、各時間フレームの優先度情報に応じて、IMDCT部201のIMDCT信号と0値出力部200のIMDCT信号を切り替えるタイミングにおいて、IMDCT信号がMDCT前の信号に完全再構成されなくなる。つまり、オーバーラップ加算時にもとの信号ではなく0データが用いられると、完全再構成されないため、もとのオーディオ信号を再現することができず、オーディオ信号の聴感上の音質が劣化してしまう。
なお、図17において、図16における場合と対応する部分には同一の文字等を記してあり、その説明は省略する。
図17の例では、時間フレーム(n-1)の優先度情報の値は「7」であるが、他の時間フレーム(n)乃至時間フレーム(n+2)の優先度情報は最も低い「0」となっている。
したがって、閾値Q=4であるとすると、時間フレーム(n-1)については、IMDCT部201においてMDCT係数に対するIMDCTが行われ、時間フレーム(n-1)のIMDCT信号OPS21が得られる。これに対して、時間フレーム(n)については、MDCT係数に対するIMDCTが行われず、0値出力部200から出力される0データが時間フレーム(n)のIMDCT信号OPS22とされる。
この場合、時間フレーム(n)のIMDCT信号OPS22である0データの前半部分と、その1時間フレーム前の時間フレーム(n-1)のIMDCT信号OPS21の後半部分とが足し合わされて、最終的な時間フレーム(n)のオーディオ信号とされる。すなわち、IMDCT信号OPS22とIMDCT信号OPS21の期間FL(n)の部分がオーバーラップ加算されて、処理対象のオブジェクトの最終的な時間フレーム(n)のオーディオ信号とされる。
このようにIMDCT信号の出力元がIMDCT部201から0値出力部200へと、または0値出力部200からIMDCT部201へと切り替わるときには、IMDCT部201からのIMDCT信号が完全再構成されなくなり、聴感上の音質の劣化が生じてしまう。
(不連続性に起因するノイズの発生による音質劣化)
また、IMDCT信号の出力元がIMDCT部201から0値出力部200へと、または0値出力部200からIMDCT部201へと切り替わる場合、信号が完全再構成されないので、IMDCTにより得られたIMDCT信号と、0データとされたIMDCT信号との接続部分で信号が不連続となることがある。そうすると、その不連続な接続部分にグリッチノイズが発生し、オーディオ信号の聴感上の音質が劣化してしまう。
さらに、アンパッキング/復号部161において音質を向上させるために、IMDCT部201や0値出力部200から出力されたIMDCT信号をオーバーラップ加算して得られたオーディオ信号に対して、SBR(Spectral Band Replication)等の処理が行われることがある。
なお、IMDCT部201や0値出力部200の後段の処理として様々な処理が考えられるが、以下ではSBRを例として説明を続ける。
SBRでは、低域成分である、オーバーラップ加算により得られたオーディオ信号と、ビットストリームに格納されている高域のパワー値とから、符号化前のもとのオーディオ信号の高域成分が生成される。
具体的には、1時間フレーム分のオーディオ信号が、タイムスロットと呼ばれるいくつかの区間に分割され、各タイムスロットのオーディオ信号が低域の複数のサブバンドの信号(以下、低域サブバンド信号とも称する)に帯域分割される。
そして各サブバンドの低域サブバンド信号と、高域側のサブバンドごとのパワー値とに基づいて、高域の各サブバンドの信号(以下、高域サブバンド信号とも称する)が生成される。例えば、所定のサブバンドの低域サブバンド信号を高域の目的とするサブバンドのパワー値によりパワー調整したり、周波数シフトしたりすることで、目的とする高域サブバンド信号が生成される。
さらに、高域サブバンド信号と低域サブバンド信号が合成されて、高域成分を含むオーディオ信号が生成され、タイムスロットごとに生成された高域成分を含むオーディオ信号が結合されて、高域成分を含む1時間フレームのオーディオ信号とされる。
IMDCT部201や0値出力部200の後段において、このようなSBRが行われる場合、IMDCT部201から出力されたIMDCT信号からなるオーディオ信号については、SBRにより高域成分が生成される。ところが、0値出力部200から出力されたIMDCT信号は0データであるため、0値出力部200から出力されたIMDCT信号からなるオーディオ信号については、SBRにより得られる高域成分も0データとなってしまう。
そうすると、IMDCT信号の出力元がIMDCT部201から0値出力部200へと、または0値出力部200からIMDCT部201へと切り替わるときに、高域においても接続部分が不連続となってしまうことがある。そのような場合、グリッチノイズが発生し、聴感上の音質が劣化してしまう。
そこで、本技術では前後の時間フレームを考慮したMDCT係数の出力先の選択、およびオーディオ信号に対するフェードイン処理とフェードアウト処理を行うことにより、上述した聴感上の音質劣化を抑制し、音質を向上させるようにした。
〈前後の時間フレームを考慮したMDCT係数の出力先の選択について〉
まず、前後の時間フレームを考慮したMDCT係数の出力先の選択について説明する。なお、ここでもオブジェクトのオーディオ信号を例として説明するが、各チャネルのオーディオ信号についても同様である。また、以下において説明する処理は、オブジェクトごと、およびチャネルごとに行われる。
例えば、上述した実施の形態では、出力選択部199は、現時間フレームの優先度情報に基づいて、各オブジェクトのMDCT係数の出力先を選択的に切り替えると説明した。これに対して、本実施の形態では、出力選択部199は、現時間フレーム、現時間フレームの1つ前の時間フレーム、および現時間フレームの1つ後の時間フレームの時間的に連続する3つの時間フレームの優先度情報に基づいて、MDCT係数の出力先を切り替える。換言すれば、連続する3つの時間フレームの優先度情報に基づいて、符号化データの復号を行うか否かが選択される。
具体的には、出力選択部199は、処理対象のオブジェクトについて、次式(1)に示す条件式が満たされる場合、そのオブジェクトの時間フレーム(n)のMDCT係数をIMDCT部201に供給する。
式(1)において、object_priority[q](但し、q=n-1,n,n+1)は各時間フレーム(q)の優先度情報を示しており、threは閾値Qを示している。
したがって、現時間フレームと、現時間フレームの前後の時間フレームとの合計3つの連続する時間フレームにおいて、1つでも優先度情報が閾値Q以上となる時間フレームがある場合、MDCT係数の供給先としてIMDCT部201が選択される。この場合、符号化データの復号、より詳細にはMDCT係数に対するIMDCTが行われる。これに対して、それらの3つの時間フレームの優先度情報が全て閾値Q未満である場合、MDCT係数が0とされて0値出力部200に出力される。この場合、符号化データの復号、より詳細にはMDCT係数に対するIMDCTは実質的に行われない。
これにより、図18に示すようにIMDCT信号からオーディオ信号が完全再構成され、聴感上の音質の劣化が抑制される。なお、図18において、図16における場合と対応する部分には同一の文字等を記してあり、その説明は省略する。
図18の上側に示す例では、各時間フレームの優先度情報の値が図17に示した例と同じとなっている。例えば閾値Q=4であるとすると、図中、上側に示す例では時間フレーム(n-1)の優先度情報は閾値Q以上であるが、時間フレーム(n)乃至時間フレーム(n+2)では、優先度情報が閾値Q未満となっている。
そのため、式(1)に示した条件式から、時間フレーム(n-1)と時間フレーム(n)のMDCT係数に対してIMDCTが行われ、それぞれIMDCT信号OPS31とIMDCT信号OPS32が得られる。これに対して、条件式が満たされない時間フレーム(n+1)では、MDCT係数に対するIMDCTが行われず、0データがIMDCT信号OPS33とされる。
したがって、図17の例では完全再構成されなかった時間フレーム(n)のオーディオ信号が、図18の上側に示す例では完全再構成されるようになり、聴感上の音質の劣化が抑制される。但し、この例では、その次の時間フレーム(n+1)でオーディオ信号が完全再構成されないため、時間フレーム(n)と時間フレーム(n+1)で後述するフェードアウト処理が行われ、聴感上の音質の劣化が抑制される。
また、図中、下側に示す例では、時間フレーム(n-1)乃至時間フレーム(n+1)で優先度情報が閾値Q未満となっており、時間フレーム(n+2)で優先度情報は閾値Q以上となっている。
そのため、式(1)に示した条件式から、条件式が満たされない時間フレーム(n)ではMDCT係数に対するIMDCTが行われず、0データがIMDCT信号OPS41とされる。これに対して、時間フレーム(n+1)および時間フレーム(n+2)のMDCT係数に対してIMDCTが行われ、それぞれIMDCT信号OPS42とIMDCT信号OPS43が得られる。
この例では、優先度情報が閾値Q未満の値から閾値Q以上の値へと切り替わった時間フレーム(n+2)で、オーディオ信号を完全再構成することができるため、聴感上の音質の劣化を抑制することができる。但し、この場合においても、その直前の時間フレーム(n+1)でオーディオ信号が完全再構成されないため、時間フレーム(n+1)と時間フレーム(n+2)で後述するフェードイン処理が行われ、聴感上の音質の劣化が抑制される。
なお、ここでは、1時間フレーム分だけ優先度情報の先読みを行って、連続する3時間フレームの優先度情報からMDCT係数の出力先が選択されている。そのため、図中、上側で示した例の時間フレーム(n)と時間フレーム(n+1)でフェードアウト処理が行われ、図中、下側で示した例の時間フレーム(n+1)と時間フレーム(n+2)でフェードイン処理が行われる。
しかし、2時間フレーム分の優先度情報の先読みを行うことができる場合には、図中、上側で示した例の時間フレーム(n+1)と時間フレーム(n+2)でフェードアウト処理が行われ、図中、下側で示した例の時間フレーム(n)と時間フレーム(n+1)でフェードイン処理が行われるようにしてもよい。
〈フェードイン処理とフェードアウト処理について〉
次に、オーディオ信号に対するフェードイン処理とフェードアウト処理について説明する。なお、ここでもオブジェクトのオーディオ信号を例として説明するが、各チャネルのオーディオ信号についても同様である。また、フェードイン処理とフェードアウト処理は、オブジェクトごと、およびチャネルごとに行われる。
本技術では、例えば図18に示した例のように、IMDCTにより得られたIMDCT信号と0データであるIMDCT信号とがオーバーラップ加算される時間フレームとその前または後の時間フレームにおいて、フェードイン処理またはフェードアウト処理が行われる。
フェードイン処理では、その時間フレームのオーディオ信号の振幅(大きさ)が時間とともに大きくなるように、オーディオ信号に対するゲイン調整が行われる。逆にフェードアウト処理では、その時間フレームのオーディオ信号の振幅が時間とともに小さくなるように、オーディオ信号に対するゲイン調整が行われる。
これにより、IMDCTにより得られたIMDCT信号と、0データとされたIMDCT信号との接続部分が不連続となる場合でも聴感上の音質の劣化を抑制することができる。なお、以下、このようなゲイン調整時にオーディオ信号に対して乗算されるゲイン値を、特にフェーディング信号ゲインとも称することとする。
さらに、本技術では、IMDCTにより得られたIMDCT信号と0データであるIMDCT信号との接続部分について、SBRにおいてもフェードイン処理またはフェードアウト処理が行われる。
すなわち、SBRではタイムスロットごとに高域の各サブバンドのパワー値が用いられるが、本技術では、フェードイン処理用またはフェードアウト処理用にタイムスロットごとに定められたゲイン値が、高域の各サブバンドのパワー値に乗算されてSBRが行われる。つまり、高域のパワー値のゲイン調整が行われる。
なお、以下、高域のパワー値に乗算される、タイムスロットごとに定められたゲイン値を、特にフェーディングSBRゲインとも称することとする。
具体的には、フェードイン処理用のフェーディングSBRゲインは、そのゲイン値が時間とともに大きくなるように、つまり時間的に後方のタイムスロットのフェーディングSBRゲインほど、その値が大きくなるように定められている。逆に、フェードアウト処理用のフェーディングSBRゲインは、時間的に後方のタイムスロットのフェーディングSBRゲインほど、その値が小さくなるように定められている。
このように、SBR時にもフェードイン処理やフェードアウト処理を行うことで、高域が不連続となるときでも聴感上の音質の劣化を抑制することができる。
このようなオーディオ信号および高域のパワー値に対するフェードイン処理やフェードアウト処理といったゲイン調整として、具体的には、例えば図19や図20に示す処理が行われることになる。なお、図19および図20において、図18における場合と対応する部分には同一の文字や符号等を記してあり、その説明は省略する。
図19に示す例は、図18における図中、上側に示した場合の例である。この例では、時間フレーム(n)および時間フレーム(n+1)のオーディオ信号に対して、折れ線GN11に示されるフェーディング信号ゲインが乗算されることになる。
折れ線GN11に示されるフェーディング信号ゲインの値は、時間フレーム(n)の部分では時間とともに「1」から「0」まで線形に変化し、時間フレーム(n+1)の部分では継続して「0」となっている。したがって、フェーディング信号ゲインによるオーディオ信号のゲイン調整によって、オーディオ信号は徐々に0データへと変化していくので、聴感上の音質の劣化を抑制することができる。
また、この例では時間フレーム(n)の各タイムスロットの高域のパワー値に対して、矢印GN12に示されるフェーディングSBRゲインが乗算されることになる。
矢印GN12に示されるフェーディングSBRゲインの値は、時間的に後方のタイムスロットほど小さくなるように、「1」から「0」まで変化している。したがって、フェーディングSBRゲインによる高域のゲイン調整によって、オーディオ信号の高域成分は徐々に0データへと変化していくので、聴感上の音質の劣化を抑制することができる。
これに対して、図20に示す例は、図18における図中、下側に示した場合の例である。この例では、時間フレーム(n+1)および時間フレーム(n+2)のオーディオ信号に対して、折れ線GN21に示されるフェーディング信号ゲインが乗算されることになる。
折れ線GN21に示されるフェーディング信号ゲインの値は、時間フレーム(n+1)の部分では継続して「0」となっており、時間フレーム(n+2)の部分では時間とともに「0」から「1」まで線形に変化している。したがって、フェーディング信号ゲインによるオーディオ信号のゲイン調整によって、オーディオ信号は徐々に0データから本来の信号へと変化していくので、聴感上の音質の劣化を抑制することができる。
また、この例では時間フレーム(n+2)の各タイムスロットの高域のパワー値に対して、矢印GN22に示されるフェーディングSBRゲインが乗算されることになる。
矢印GN22に示されるフェーディングSBRゲインの値は、時間的に後方のタイムスロットほど大きくなるように、「0」から「1」まで変化している。したがって、フェーディングSBRゲインによる高域のゲイン調整によって、オーディオ信号の高域成分は徐々に0データから本来の信号へと変化していくので、聴感上の音質の劣化を抑制することができる。
〈アンパッキング/復号部の構成例〉
以上において説明したMDCT係数の出力先の選択と、フェードイン処理やフェードアウト処理といったゲイン調整とが行われる場合、アンパッキング/復号部161は、例えば図21に示すように構成される。なお、図21において、図10における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図21に示すアンパッキング/復号部161は優先度情報取得部191、チャネルオーディオ信号取得部192、チャネルオーディオ信号復号部193、出力選択部194、0値出力部195、IMDCT部196、オーバーラップ加算部271、ゲイン調整部272、SBR処理部273、オブジェクトオーディオ信号取得部197、オブジェクトオーディオ信号復号部198、出力選択部199、0値出力部200、IMDCT部201、オーバーラップ加算部274、ゲイン調整部275、およびSBR処理部276から構成される。
図21に示すアンパッキング/復号部161の構成は、図10に示したアンパッキング/復号部161の構成に、さらにオーバーラップ加算部271乃至SBR処理部276が設けられた構成となっている。
オーバーラップ加算部271は、0値出力部195またはIMDCT部196から供給されたIMDCT信号(オーディオ信号)をオーバーラップ加算することにより、各時間フレームのオーディオ信号を生成し、ゲイン調整部272に供給する。
ゲイン調整部272は、優先度情報取得部191から供給された優先度情報に基づいて、オーバーラップ加算部271から供給されたオーディオ信号をゲイン調整し、SBR処理部273に供給する。
SBR処理部273は、優先度情報取得部191からタイムスロットごとの高域の各サブバンドのパワー値を取得するとともに、優先度情報取得部191から供給された優先度情報に基づいて高域のパワー値をゲイン調整する。また、SBR処理部273は、ゲイン調整された高域のパワー値を用いて、ゲイン調整部272から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をミキシング部163に供給する。
オーバーラップ加算部274は、0値出力部200またはIMDCT部201から供給されたIMDCT信号(オーディオ信号)をオーバーラップ加算することにより、各時間フレームのオーディオ信号を生成し、ゲイン調整部275に供給する。
ゲイン調整部275は、優先度情報取得部191から供給された優先度情報に基づいて、オーバーラップ加算部274から供給されたオーディオ信号をゲイン調整し、SBR処理部276に供給する。
SBR処理部276は、優先度情報取得部191からタイムスロットごとの高域の各サブバンドのパワー値を取得するとともに、優先度情報取得部191から供給された優先度情報に基づいて高域のパワー値をゲイン調整する。また、SBR処理部276は、ゲイン調整された高域のパワー値を用いて、ゲイン調整部275から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をレンダリング部162に供給する。
〈選択復号処理の説明〉
続いて、アンパッキング/復号部161が図21に示した構成とされる場合における復号装置151の動作について説明する。この場合、復号装置151は、図11を参照して説明した復号処理を行う。但し、ステップS52の選択復号処理として、図22に示す処理を行う。
以下、図22のフローチャートを参照して、図11のステップS52の処理に対応する選択復号処理について説明する。
ステップS181において、優先度情報取得部191は、供給されたビットストリームから、各チャネルのオーディオ信号の高域のパワー値を取得してSBR処理部273に供給するとともに、ビットストリームから、各オブジェクトのオーディオ信号の高域のパワー値を取得してSBR処理部276に供給する。
高域のパワー値が取得されると、その後ステップS182乃至ステップS187の処理が行われて処理対象のチャネルのオーディオ信号(IMDCT信号)が生成されるが、これらの処理は図12のステップS81乃至ステップS86の処理と同様であるので、その説明は省略する。
但し、ステップS186では、上述した式(1)と同様の条件式が満たされる場合、すなわち処理対象のチャネルの現時間フレームの優先度情報、およびその現時間フレームの直前および直後の各時間フレームの優先度情報のうちの1つでも閾値P以上である場合、優先度情報が閾値P以上であると判定される。また、0値出力部195またはIMDCT部196で生成されたIMDCT信号は、オーバーラップ加算部271に出力される。
ステップS186において優先度情報が閾値P以上であると判定されなかったか、またはステップS187においてIMDCT信号が生成されると、ステップS188の処理が行われる。
ステップS188において、オーバーラップ加算部271は、0値出力部195またはIMDCT部196から供給されたIMDCT信号のオーバーラップ加算を行い、その結果得られた現時間フレームのオーディオ信号をゲイン調整部272に供給する。
具体的には、例えば図18を参照して説明したように、現時間フレームのIMDCT信号の前半部分と、直前の時間フレームのIMDCT信号の後半部分とが足し合わされて現時間フレームのオーディオ信号とされる。
ステップS189において、ゲイン調整部272は、優先度情報取得部191から供給された処理対象のチャネルの優先度情報に基づいて、オーバーラップ加算部271から供給されたオーディオ信号をゲイン調整し、SBR処理部273に供給する。
具体的にはゲイン調整部272は、現時間フレームの直前の時間フレームの優先度情報が閾値P以上であり、かつ現時間フレームの優先度情報と、現時間フレームの直後の時間フレームの優先度情報が閾値P未満である場合、図19の折れ線GN11に示されるフェーディング信号ゲインでオーディオ信号のゲインを調整する。この場合、図19における時間フレーム(n)が現時間フレームに対応し、現時間フレームの直後の時間フレームでは、折れ線GN11に示されるように、フェーディング信号ゲイン=0でのゲイン調整が行われる。
また、ゲイン調整部272は、現時間フレームの優先度情報が閾値P以上であり、現時間フレームの直前の2時間フレームの優先度情報がともに閾値P未満である場合、図20の折れ線GN21に示されるフェーディング信号ゲインでオーディオ信号のゲインを調整する。この場合、図20における時間フレーム(n+2)が現時間フレームに対応し、現時間フレームの直前の時間フレームでは、折れ線GN21に示されるように、フェーディング信号ゲイン=0でのゲイン調整が行われる。
なお、ゲイン調整部272は、これらの2つの例の場合のみゲイン調整を行い、それ以外の場合にはゲイン調整を行わず、オーディオ信号をそのままSBR処理部273に供給する。
ステップS190において、SBR処理部273は、優先度情報取得部191から供給された、処理対象のチャネルの高域のパワー値および優先度情報に基づいて、ゲイン調整部272から供給されたオーディオ信号に対してSBRを行う。
具体的には、SBR処理部273は、現時間フレームの直前の時間フレームの優先度情報が閾値P以上であり、かつ現時間フレームの優先度情報と、現時間フレームの直後の時間フレームの優先度情報が閾値P未満である場合、図19の矢印GN12に示されるフェーディングSBRゲインで高域のパワー値をゲイン調整する。すなわち、高域のパワー値にフェーディングSBRゲインが乗算される。
そして、SBR処理部273は、ゲイン調整された高域のパワー値を用いてSBRを行い、その結果得られたオーディオ信号をミキシング部163に供給する。この場合、図19における時間フレーム(n)が現時間フレームに対応する。
また、SBR処理部273は、現時間フレームの優先度情報が閾値P以上であり、現時間フレームの直前の2時間フレームの優先度情報がともに閾値P未満である場合、図20の矢印GN22に示されるフェーディングSBRゲインで高域のパワー値をゲイン調整する。そして、SBR処理部273は、ゲイン調整された高域のパワー値を用いてSBRを行い、その結果得られたオーディオ信号をミキシング部163に供給する。この場合、図20における時間フレーム(n+2)が現時間フレームに対応する。
なお、SBR処理部273は、これらの2つの例の場合のみ高域のパワー値のゲイン調整を行い、それ以外の場合にはゲイン調整を行わずに、取得された高域のパワー値をそのまま用いてSBRを行い、その結果得られたオーディオ信号をミキシング部163に供給する。
SBRが行われて現時間フレームのオーディオ信号が得られると、その後、ステップS191乃至ステップS196の処理が行われるが、これらの処理は図12のステップS87乃至ステップS92の処理と同様であるので、その説明は省略する。
但し、ステップS195では、上述した式(1)の条件式が満たされる場合、優先度情報が閾値Q以上であると判定される。また、0値出力部200またはIMDCT部201で生成されたIMDCT信号(オーディオ信号)は、オーバーラップ加算部274に出力される。
このようにして現時間フレームのIMDCT信号が得られると、ステップS197乃至ステップS199の処理が行われて現時間フレームのオーディオ信号が生成されるが、これらの処理はステップS188乃至ステップS190の処理と同様であるので、その説明は省略する。
ステップS200において、オブジェクトオーディオ信号取得部197がオブジェクト番号に1を加えると、処理はステップS193に戻る。そして、ステップS193においてオブジェクト番号がN未満ではないと判定されると、選択復号処理は終了し、その後、処理は図11のステップS53へと進む。
以上のようにしてアンパッキング/復号部161は、現時間フレームとその前後の時間フレームの優先度情報に応じて、MDCT係数の出力先を選択する。これにより、優先度情報が閾値以上である時間フレームと、優先度情報が閾値未満である時間フレームとの切り替わり部分においてオーディオ信号が完全再構成されるようになり、聴感上の音質の劣化を抑制することができる。
また、アンパッキング/復号部161は、連続する3時間フレームの優先度情報に基づいて、オーバーラップ加算後のオーディオ信号や、高域のパワー値をゲイン調整する。すなわち、適宜、フェードイン処理やフェードアウト処理が行われる。これにより、グリッチノイズの発生を抑制し、聴感上の音質の劣化を抑制することができる。
〈第5の実施の形態〉
〈フェードイン処理とフェードアウト処理について〉
なお、第4の実施の形態では、オーバーラップ加算後のオーディオ信号に対してゲイン調整を行い、さらにSBR時に高域のパワー値に対するゲイン調整を行うと説明した。この場合、最終的なオーディオ信号の低域成分と高域成分とで別々にゲイン調整、つまりフェードイン処理やフェードアウト処理が行われることになる。
そこで、より少ない処理でこれらのフェードイン処理やフェードアウト処理を実現することができるように、オーバーラップ加算直後およびSBR時にはゲイン調整を行わず、SBRにより得られたオーディオ信号に対してゲイン調整を行うようにしてもよい。
そのような場合、例えば図23や図24に示すようにゲイン調整が行われる。なお、図23および図24において、図19および図20における場合と対応する部分には同一の文字等を記してあり、その説明は省略する。
図23に示す例は、優先度情報の変化が図19に示した場合と同じである例である。この例では、閾値Q=4であるとすると、時間フレーム(n-1)の優先度情報は閾値Q以上であるが、時間フレーム(n)乃至時間フレーム(n+2)では、優先度情報が閾値Q未満となっている。
このような場合、時間フレーム(n)および時間フレーム(n+1)における、SBRにより得られたオーディオ信号に対して、折れ線GN31に示されるフェーディング信号ゲインが乗算されてゲイン調整されることになる。
この折れ線GN31に示されるフェーディング信号ゲインは、図19の折れ線GN11に示されるフェーディング信号ゲインと同じものとなっている。但し、図23の例の場合には、ゲイン調整の対象となるオーディオ信号は、低域成分も高域成分も含まれたものとなっているので、それらの低域成分と高域成分のゲイン調整を1つのフェーディング信号ゲインで行うことができる。
このようなフェーディング信号ゲインによるオーディオ信号のゲイン調整によって、IMDCTにより得られたIMDCT信号と、0データとされたIMDCT信号とがオーバーラップ加算される部分とその直前の部分で、オーディオ信号が徐々に0データへと変化していくようになる。これにより、聴感上の音質の劣化を抑制することができる。
これに対して、図24に示す例は、優先度情報の変化が図20に示した場合と同じである例である。この例では、閾値Q=4であるとすると、時間フレーム(n)および時間フレーム(n+1)では優先度情報が閾値Q未満であるが、時間フレーム(n+2)の優先度情報は閾値Q以上となっている。
このような場合、時間フレーム(n+1)および時間フレーム(n+2)における、SBRにより得られたオーディオ信号に対して、折れ線GN41に示されるフェーディング信号ゲインが乗算されてゲイン調整されることになる。
この折れ線GN41に示されるフェーディング信号ゲインは、図20の折れ線GN21に示されるフェーディング信号ゲインと同じものとなっている。但し、図24の例の場合には、ゲイン調整の対象となるオーディオ信号は、低域成分も高域成分も含まれたものとなっているので、それらの低域成分と高域成分のゲイン調整を1つのフェーディング信号ゲインで行うことができる。
このようなフェーディング信号ゲインによるオーディオ信号のゲイン調整によって、IMDCTにより得られたIMDCT信号と、0データとされたIMDCT信号とがオーバーラップ加算される部分とその直後の部分で、オーディオ信号が0データから本来の信号へと徐々に変化していくようになる。これにより、聴感上の音質の劣化を抑制することができる。
〈アンパッキング/復号部の構成例〉
図23および図24を参照して説明したフェードイン処理やフェードアウト処理によるゲイン調整が行われる場合、アンパッキング/復号部161は、例えば図25に示すように構成される。なお、図25において、図21における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図25に示すアンパッキング/復号部161は優先度情報取得部191、チャネルオーディオ信号取得部192、チャネルオーディオ信号復号部193、出力選択部194、0値出力部195、IMDCT部196、オーバーラップ加算部271、SBR処理部273、ゲイン調整部272、オブジェクトオーディオ信号取得部197、オブジェクトオーディオ信号復号部198、出力選択部199、0値出力部200、IMDCT部201、オーバーラップ加算部274、SBR処理部276、およびゲイン調整部275から構成される。
図25に示すアンパッキング/復号部161の構成は、ゲイン調整部272およびゲイン調整部275が、それぞれSBR処理部273およびSBR処理部276の後段に配置されている点で、図21に示したアンパッキング/復号部161の構成と異なる。
図25に示すアンパッキング/復号部161では、SBR処理部273は、優先度情報取得部191から供給された高域のパワー値に基づいて、オーバーラップ加算部271から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をゲイン調整部272に供給する。この場合、SBR処理部273では、高域のパワー値のゲイン調整は行われない。
ゲイン調整部272は、優先度情報取得部191から供給された優先度情報に基づいて、SBR処理部273から供給されたオーディオ信号をゲイン調整し、ミキシング部163に供給する。
SBR処理部276は、優先度情報取得部191から供給された高域のパワー値に基づいて、オーバーラップ加算部274から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をゲイン調整部275に供給する。この場合、SBR処理部276では、高域のパワー値のゲイン調整は行われない。
ゲイン調整部275は、優先度情報取得部191から供給された優先度情報に基づいて、SBR処理部276から供給されたオーディオ信号をゲイン調整し、レンダリング部162に供給する。
〈選択復号処理の説明〉
続いて、アンパッキング/復号部161が図25に示した構成とされる場合における復号装置151の動作について説明する。この場合、復号装置151は、図11を参照して説明した復号処理を行う。但し、ステップS52の選択復号処理として、図26に示す処理を行う。
以下、図26のフローチャートを参照して、図11のステップS52の処理に対応する選択復号処理について説明する。なお、ステップS231乃至ステップS238の処理は、図22のステップS181乃至ステップS188の処理と同様であるので、その説明は省略する。但し、ステップS232では、SBR処理部273およびSBR処理部276には、優先度情報は供給されない。
ステップS239において、SBR処理部273は、優先度情報取得部191から供給された高域のパワー値に基づいて、オーバーラップ加算部271から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をゲイン調整部272に供給する。
ステップS240において、ゲイン調整部272は、優先度情報取得部191から供給された処理対象のチャネルの優先度情報に基づいて、SBR処理部273から供給されたオーディオ信号をゲイン調整し、ミキシング部163に供給する。
具体的にはゲイン調整部272は、現時間フレームの直前の時間フレームの優先度情報が閾値P以上であり、かつ現時間フレームの優先度情報と、現時間フレームの直後の時間フレームの優先度情報が閾値P未満である場合、図23の折れ線GN31に示されるフェーディング信号ゲインでオーディオ信号のゲインを調整する。この場合、図23における時間フレーム(n)が現時間フレームに対応し、現時間フレームの直後の時間フレームでは、折れ線GN31に示されるように、フェーディング信号ゲイン=0でのゲイン調整が行われる。
また、ゲイン調整部272は、現時間フレームの優先度情報が閾値P以上であり、現時間フレームの直前の2時間フレームの優先度情報がともに閾値P未満である場合、図24の折れ線GN41に示されるフェーディング信号ゲインでオーディオ信号のゲインを調整する。この場合、図24における時間フレーム(n+2)が現時間フレームに対応し、現時間フレームの直前の時間フレームでは、折れ線GN41に示されるように、フェーディング信号ゲイン=0でのゲイン調整が行われる。
なお、ゲイン調整部272は、これらの2つの例の場合のみゲイン調整を行い、それ以外の場合にはゲイン調整を行わず、オーディオ信号をそのままミキシング部163に供給する。
オーディオ信号のゲイン調整が行われると、その後、ステップS241乃至ステップS247の処理が行われるが、これらの処理は図22のステップS191乃至ステップS197の処理と同様であるので、その説明は省略する。
このようにして処理対象のオブジェクトの現時間フレームのオーディオ信号が得られると、ステップS248およびステップS249の処理が行われて最終的な現時間フレームのオーディオ信号が生成されるが、これらの処理はステップS239およびステップS240の処理と同様であるので、その説明は省略する。
ステップS250において、オブジェクトオーディオ信号取得部197がオブジェクト番号に1を加えると、処理はステップS243に戻る。そして、ステップS243においてオブジェクト番号がN未満ではないと判定されると、選択復号処理は終了し、その後、処理は図11のステップS53へと進む。
以上のようにしてアンパッキング/復号部161は、連続する3時間フレームの優先度情報に基づいて、SBRにより得られたオーディオ信号をゲイン調整する。これにより、より簡単にグリッチノイズの発生を抑制し、聴感上の音質の劣化を抑制することができる。
なお、この実施の形態では、3時間フレーム分の優先度情報を用いたMDCT係数の出力先の選択と、フェーディング信号ゲインによるゲイン調整とを行う例について説明したが、フェーディング信号ゲインによるゲイン調整のみが行われるようにしてもよい。
そのような場合、出力選択部194や出力選択部199では、第1の実施の形態における場合と同様の処理により、MDCT係数の出力先が選択される。そして、ゲイン調整部272およびゲイン調整部275では、現時間フレームの優先度情報が閾値未満である場合、現時間フレームのフェーディング信号ゲインを線形に増加または減少させることで、フェードイン処理やフェードアウト処理を行う。ここで、フェードイン処理とするか、またはフェードアウト処理とするかは、現時間フレームの優先度情報と、その前後の時間フレームの優先度情報とから定めればよい。
〈第6の実施の形態〉
〈フェードイン処理とフェードアウト処理について〉
ところで、レンダリング部162では、例えばVBAPが行われて各オブジェクトのオーディオ信号から、各オブジェクトの音声を再生するための各チャネルのオーディオ信号が生成される。
具体的には、VBAPではチャネルごと、つまり音声を出力するスピーカごとに、各オブジェクトについて、オーディオ信号のゲイン値(以下、VBAPゲインとも称する)が時間フレームごとに算出される。そして、同じチャネル(スピーカ)についてのVBAPゲインが乗算された各オブジェクトのオーディオ信号の和が、そのチャネルのオーディオ信号とされる。換言すれば、各オブジェクトについて、オブジェクトのオーディオ信号がチャネルごとに算出されたVBAPゲインで、それらの各チャネルに割り当てられる。
そこで、オブジェクトのオーディオ信号については、オブジェクトのオーディオ信号や高域のパワー値のゲイン調整をするのではなく、VBAPゲインを適切に調整することにより、グリッチノイズの発生を抑制して聴感上の音質の劣化を抑制するようにしてもよい。
そのような場合、例えば各時間フレームのVBAPゲインに対して線形補間等が行われ、各時間フレーム内のオーディオ信号のサンプルごとのVBAPゲインが算出され、得られたVBAPゲインにより各チャネルのオーディオ信号が生成される。
例えば、処理対象の時間フレームの先頭サンプルのVBAPゲインの値は、処理対象の時間フレームの直前の時間フレームの末尾のサンプルのVBAPゲインの値とされる。また、処理対象の時間フレームの末尾のサンプルのVBAPゲインの値は、その処理対象の時間フレームに対する通常のVBAPにより算出されたVBAPゲインの値とされる。
そして、処理対象の時間フレームでは、先頭サンプルから末尾のサンプルまでVBAPゲインが線形に変化するように、先頭サンプルと末尾のサンプルとの間の各サンプルのVBAPゲインの値が定められる。
但し、処理対象の時間フレームの優先度情報が閾値未満である場合には、VBAPの計算は行われず、その処理対象の時間フレームの末尾のサンプルのVBAPゲインの値は、0とされる。そして、処理対象の時間フレームの先頭サンプルから、末尾のサンプルまでVBAPゲインが線形に変化するように、各サンプルのVBAPゲインが定められる。
このようにしてVBAPゲインにより各オブジェクトのオーディオ信号のゲイン調整を行うことで、低域成分と高域成分のゲイン調整を1度に行うことができ、より少ない処理量でグリッチノイズの発生を抑制し、聴感上の音質の劣化を抑制することができる。
このようにサンプルごとにVBAPゲインを定める場合、各時間フレームのサンプルごとのVBAPゲインは例えば図27や図28に示すようになる。
なお、図27および図28において、図19および図20における場合と対応する部分には同一の文字等を記してあり、その説明は省略する。また、図27および図28において、「VBAP_gain[q][s]」(但し、q=n-1,n,n+1,n+2)は、所定のチャネルに対応するスピーカを特定するスピーカインデックスがsである、処理対象のオブジェクトの時間フレーム(q)のVBAPゲインを示している。
図27に示す例は、優先度情報の変化が図19に示した場合と同じである例である。この例では、閾値Q=4であるとすると、時間フレーム(n-1)の優先度情報は閾値Q以上であるが、時間フレーム(n)乃至時間フレーム(n+2)では、優先度情報が閾値Q未満となっている。
このような場合、時間フレーム(n-1)乃至時間フレーム(n+1)のVBAPゲインは、例えば折れ線GN51に示されるゲインとされる。
この例では、時間フレーム(n-1)の優先度情報は閾値Q以上であるので、通常のVBAPにより算出されたVBAPゲインに基づいて、各サンプルのVBAPゲインが定められる。
すなわち、時間フレーム(n-1)の先頭のサンプルのVBAPゲインの値は、時間フレーム(n-2)の末尾のサンプルのVBAPゲインの値と同じとされている。また、時間フレーム(n-1)の末尾のサンプルのVBAPゲインの値は、処理対象となっているオブジェクトについて、時間フレーム(n-1)に対する通常のVBAPにより算出された、スピーカsに対応するチャネルのVBAPゲインの値とされている。そして、時間フレーム(n-1)の各サンプルのVBAPゲインの値は、先頭のサンプルから末尾のサンプルまで線形に変化するように定められている。
また、時間フレーム(n)の優先度情報は閾値Q未満であるので、時間フレーム(n)の末尾のサンプルのVBAPゲインの値は0とされる。
すなわち、時間フレーム(n)の先頭のサンプルのVBAPゲインの値は、時間フレーム(n-1)の末尾のサンプルのVBAPゲインの値と同じとされ、時間フレーム(n)の末尾のサンプルのVBAPゲインの値は0とされる。そして、時間フレーム(n)の各サンプルのVBAPゲインの値が、先頭のサンプルから末尾のサンプルまで線形に変化するように定められる。
さらに、時間フレーム(n+1)の優先度情報は閾値Q未満であるので、時間フレーム(n+1)の末尾のサンプルのVBAPゲインの値は0とされ、結果として時間フレーム(n+1)の全サンプルのVBAPゲインの値は0となる。
このように、優先度情報が閾値Q未満である時間フレームの末尾のサンプルのVBAPゲインの値を0とすることで、図23の例と等価なフェードアウト処理が可能となる。
これに対して、図28に示す例は、優先度情報の変化が図24に示した場合と同じである例である。この例では、閾値Q=4であるとすると、時間フレーム(n-1)乃至時間フレーム(n+1)では優先度情報が閾値Q未満であるが、時間フレーム(n+2)の優先度情報は閾値Q以上となっている。
このような場合、時間フレーム(n-1)乃至時間フレーム(n+2)のVBAPゲインは、例えば折れ線GN61に示されるゲインとされる。
この例では、時間フレーム(n)の優先度情報も時間フレーム(n+1)の優先度情報もともに閾値Q未満であるので、時間フレーム(n+1)の全サンプルのVBAPゲインは0となる。
また、時間フレーム(n+2)の優先度情報は閾値Q以上であるので、処理対象となっているオブジェクトについて、通常のVBAPにより算出されたスピーカsに対応するチャネルのVBAPゲインに基づいて、各サンプルのVBAPゲインが定められる。
すなわち、時間フレーム(n+2)の先頭のサンプルのVBAPゲインの値は、時間フレーム(n+1)の末尾のサンプルのVBAPゲインの値である0とされ、時間フレーム(n+2)の末尾のサンプルのVBAPゲインの値は、時間フレーム(n+2)に対する通常のVBAPにより算出されたVBAPゲインの値とされている。そして、時間フレーム(n+2)の各サンプルのVBAPゲインの値は、先頭のサンプルから末尾のサンプルまで線形に変化するように定められている。
このように、優先度情報が閾値Q未満である時間フレームの末尾のサンプルのVBAPゲインの値を0とすることで、図24の例と等価なフェードイン処理が可能となる。
〈アンパッキング/復号部の構成例〉
図27および図28を参照して説明したフェードイン処理やフェードアウト処理によるゲイン調整が行われる場合、アンパッキング/復号部161は、例えば図29に示すように構成される。なお、図29において、図25における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図29に示すアンパッキング/復号部161は優先度情報取得部191、チャネルオーディオ信号取得部192、チャネルオーディオ信号復号部193、出力選択部194、0値出力部195、IMDCT部196、オーバーラップ加算部271、SBR処理部273、ゲイン調整部272、オブジェクトオーディオ信号取得部197、オブジェクトオーディオ信号復号部198、出力選択部199、0値出力部200、IMDCT部201、オーバーラップ加算部274、およびSBR処理部276から構成される。
図29に示すアンパッキング/復号部161の構成は、ゲイン調整部275が設けられていない点で、図25に示したアンパッキング/復号部161の構成と異なり、その他の点では同じ構成となっている。
図29に示すアンパッキング/復号部161では、SBR処理部276は、優先度情報取得部191から供給された高域のパワー値に基づいて、オーバーラップ加算部274から供給されたオーディオ信号に対してSBRを行い、その結果得られたオーディオ信号をレンダリング部162に供給する。
また、優先度情報取得部191は、供給されたビットストリームから各オブジェクトのメタデータと優先度情報を取得してレンダリング部162に供給する。なお、各オブジェクトの優先度情報は、出力選択部199にも供給される。
〈復号処理の説明〉
続いて、アンパッキング/復号部161が図29に示した構成とされる場合における復号装置151の動作について説明する。
この場合、復号装置151は、図30に示す復号処理を行う。以下、図30のフローチャートを参照して、復号装置151により行われる復号処理について説明する。但し、ステップS281では、図11のステップS51の処理と同様の処理が行われるので、その説明は省略する。
ステップS282において、アンパッキング/復号部161は選択復号処理を行う。
ここで、図31のフローチャートを参照して、図30のステップS282の処理に対応する選択復号処理について説明する。
なお、ステップS311乃至ステップS328の処理は、図26のステップS231乃至ステップS248の処理と同様であるので、その説明は省略する。但し、ステップS312では、優先度情報取得部191は、ビットストリームから取得された優先度情報をレンダリング部162にも供給する。
ステップS329において、オブジェクトオーディオ信号取得部197がオブジェクト番号に1を加えると、処理はステップS323に戻る。そして、ステップS323においてオブジェクト番号がN未満ではないと判定されると、選択復号処理は終了し、その後、処理は図30のステップS283へと進む。
したがって、図31に示した選択復号処理では、各チャネルのオーディオ信号については、第5の実施の形態における場合と同様にフェーディング信号ゲインによるゲイン調整が行われ、各オブジェクトについては、ゲイン調整は行われず、SBRにより得られたオーディオ信号がそのままレンダリング部162に出力される。
図30の復号処理の説明に戻り、ステップS283において、レンダリング部162は、SBR処理部276から供給された各オブジェクトのオーディオ信号と、優先度情報取得部191から供給された各オブジェクトのメタデータとしての位置情報、および各オブジェクトの現時間フレームの優先度情報とに基づいて、各オブジェクトのオーディオ信号のレンダリングを行う。
例えばレンダリング部162は、図27や図28を参照して説明したように、オブジェクトごとに、各チャネルについて現時間フレームの優先度情報と、現時間フレームの直前の時間フレームの末尾のサンプルのVBAPゲインに基づいて、現時間フレームの各サンプルのVBAPゲインを算出する。このときレンダリング部162は、適宜、位置情報に基づいてVBAPによりVBAPゲインを算出する。
そして、レンダリング部162は、各オブジェクトについて算出した各チャネルのサンプルごとのVBAPゲインと、各オブジェクトのオーディオ信号とに基づいて、各チャネルのオーディオ信号を生成し、ミキシング部163に供給する。
なお、ここでは時間フレーム内の各サンプルのVBAPゲインが線形に変化するように各サンプルのVBAPゲインを算出する例について説明したが、VBAPゲインが非線形に変化するようにしてもよい。また、VBAPにより各チャネルのオーディオ信号が生成される例について説明したが、他の方法により各チャネルのオーディオ信号を生成する場合でも、VBAPにおける場合と同様の処理により、各オブジェクトのオーディオ信号のゲインを調整することが可能である。
各チャネルのオーディオ信号が生成されると、その後、ステップS284の処理が行われて復号処理は終了するが、ステップS284の処理は図11のステップS54の処理と同様であるので、その説明は省略する。
このようにして復号装置151は、各オブジェクトについて、優先度情報に基づいてサンプルごとにVBAPゲインを算出し、各チャネルのオーディオ信号の生成時に、VBAPゲインによりオブジェクトのオーディオ信号のゲイン調整を行う。これにより、より少ない処理量でグリッチノイズの発生を抑制し、聴感上の音質の劣化を抑制することができる。
なお、第4の実施の形態乃至第6の実施の形態では、現時間フレームの直前および直後の時間フレームの優先度情報を利用してMDCT係数の出力先を選択したり、フェーディング信号ゲイン等によるゲイン調整を行ったりすると説明した。しかし、これに限らず、現時間フレームの優先度情報と、現時間フレームの所定時間フレームだけ前の時間フレームの優先度情報や、現時間フレームの所定時間フレームだけ後の時間フレームの優先度情報とが用いられるようにしてもよい。
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のコンピュータなどが含まれる。
図32は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、およびドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505およびバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
また、本明細書中に記載された効果はあくまで例示であって限定されるものではなく、他の効果があってもよい。
さらに、本技術は、以下の構成とすることも可能である。
(1)
複数のチャネルまたは複数のオブジェクトの符号化されたオーディオ信号、および所定の時間における各前記オーディオ信号の優先度情報を取得する取得部と、
前記優先度情報に基づいて、前記優先度情報に応じた所定の数のチャネルまたはオブジェクトの前記符号化されたオーディオ信号を復号するオーディオ信号復号部と
を備える復号装置。
(2)
前記オーディオ信号復号部は、前記優先度情報により示される優先度合いが所定の度合い以上である、前記符号化されたオーディオ信号を復号する
(1)に記載の復号装置。
(3)
前記取得部は、前記所定の時間における前記複数のチャネルまたは前記複数のオブジェクトのオーディオ信号の前記優先度情報に基づいて、前記所定の度合いを変更する
(2)に記載の復号装置。
(4)
前記取得部は、前記オーディオ信号ごとに複数の前記優先度情報を取得し、
前記オーディオ信号復号部は、前記複数の前記優先度情報のなかから選択された1つの前記優先度情報に基づいて、前記符号化されたオーディオ信号を復号する
(1)乃至(3)の何れか一項に記載の復号装置。
(5)
前記複数の前記優先度情報は、前記符号化されたオーディオ信号の復号側の計算能力に応じて、前記計算能力ごとに生成されたものである
(4)に記載の復号装置。
(6)
前記符号化されたオーディオ信号に基づいて、前記優先度情報を生成する優先度情報生成部をさらに備える
(1)乃至(5)の何れか一項に記載の復号装置。
(7)
前記優先度情報生成部は、前記符号化されたオーディオ信号から得られる、オーディオ信号の音圧またはスペクトル形状に基づいて前記優先度情報を生成する
(6)に記載の復号装置。
(8)
前記オーディオ信号復号部は、チャネルごとまたはオブジェクトごとに、前記所定の時間の前記優先度情報と、前記所定の時間よりも前または後の時間の前記優先度情報とに基づいて、前記所定の時間の前記符号化されたオーディオ信号を復号するかを選択する
(1)に記載の復号装置。
(9)
前記復号が行われた場合、前記復号により得られた信号を出力信号とし、前記復号が行われなかった場合、0データを出力信号として、チャネルごとまたはオブジェクトごとに、前記所定の時間の前記出力信号と、前記所定の時間よりも前または後の時間の前記出力信号とを加算して前記所定の時間のオーディオ信号を生成する加算部と、
チャネルごとまたはオブジェクトごとに、前記所定の時間の前記優先度情報と、前記所定の時間よりも前または後の時間の前記優先度情報とに基づいて、前記所定の時間のオーディオ信号のゲイン調整を行うゲイン調整部と
をさらに備える(1)に記載の復号装置。
(10)
チャネルごとまたはオブジェクトごとに、前記所定の時間の前記優先度情報と、前記所定の時間よりも前または後の時間の前記優先度情報とに基づいて、高域のパワー値をゲイン調整するとともに、ゲイン調整された前記パワー値と、前記所定の時間のオーディオ信号とに基づいて、前記所定の時間のオーディオ信号の高域成分を生成する高域生成部をさらに備える
(9)に記載の復号装置。
(11)
チャネルごとまたはオブジェクトごとに、高域のパワー値と、前記所定の時間のオーディオ信号とに基づいて、高域成分が含まれる前記所定の時間のオーディオ信号を生成する高域生成部をさらに備え、
前記ゲイン調整部は、高域成分が含まれる前記所定の時間のオーディオ信号のゲイン調整を行う
(9)に記載の復号装置。
(12)
前記所定の時間の前記優先度情報に基づいて、オブジェクトのオーディオ信号を複数の各チャネルに所定のゲイン値で割り当てて、前記複数の各チャネルのオーディオ信号を生成するレンダリング部をさらに備える
(1)に記載の復号装置。
(13)
複数のチャネルまたは複数のオブジェクトの符号化されたオーディオ信号、および所定の時間における各前記オーディオ信号の優先度情報を取得し、
前記優先度情報に基づいて、前記優先度情報に応じた所定の数のチャネルまたはオブジェクトの前記符号化されたオーディオ信号を復号する
ステップを含む復号方法。
(14)
複数のチャネルまたは複数のオブジェクトの符号化されたオーディオ信号、および所定の時間における各前記オーディオ信号の優先度情報を取得し、
前記優先度情報に基づいて、前記優先度情報に応じた所定の数のチャネルまたはオブジェクトの前記符号化されたオーディオ信号を復号する
ステップを含む処理をコンピュータに実行させるプログラム。
(15)
複数のチャネルまたは複数のオブジェクトのオーディオ信号の所定の時間における優先度情報を生成する優先度情報生成部と、
前記優先度情報をビットストリームに格納するパッキング部と
を備える符号化装置。
(16)
前記優先度情報生成部は、前記オーディオ信号ごとに複数の前記優先度情報を生成する
(15)に記載の符号化装置。
(17)
前記優先度情報生成部は、符号化された前記オーディオ信号の復号側の計算能力に応じて、前記計算能力ごとに前記優先度情報を生成する
(16)に記載の符号化装置。
(18)
前記優先度情報生成部は、前記オーディオ信号の音圧またはスペクトル形状に基づいて前記優先度情報を生成する
(15)乃至(17)の何れか一項に記載の符号化装置。
(19)
前記複数のチャネルまたは前記複数のオブジェクトのオーディオ信号を符号化する符号化部をさらに備え、
前記パッキング部は、前記優先度情報と符号化された前記オーディオ信号とを前記ビットストリームに格納する
(15)乃至(18)の何れか一項に記載の符号化装置。
(20)
複数のチャネルまたは複数のオブジェクトのオーディオ信号の所定の時間における優先度情報を生成し、
前記優先度情報をビットストリームに格納する
ステップを含む符号化方法。
(21)
複数のチャネルまたは複数のオブジェクトのオーディオ信号の所定の時間における優先度情報を生成し、
前記優先度情報をビットストリームに格納する
ステップを含む処理をコンピュータに実行させるプログラム。