JP7459913B2

JP7459913B2 - 信号処理装置および方法、並びにプログラム

Info

Publication number: JP7459913B2
Application number: JP2022164511A
Authority: JP
Inventors: 優樹山本; 徹知念; 実辻
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2017-04-26
Filing date: 2022-10-13
Publication date: 2024-04-02
Anticipated expiration: 2038-04-12
Also published as: US20230154477A1; US11574644B2; CN110537220A; JP7160032B2; EP3618067A1; WO2018198789A1; RU2019132898A; EP4358085A3; JPWO2018198789A1; KR20190141669A; JP2022188258A; CN110537220B; US20210118466A1; EP3618067B1; EP4358085A2; BR112019021904A2; EP3618067A4; US20240153516A1; JP2024075675A; CN118248153A

Description

本技術は、信号処理装置および方法、並びにプログラムに関し、特に、低コストで復号の計算量を低減させることができるようにした信号処理装置および方法、並びにプログラムに関する。

従来、オブジェクトオーディオを扱える符号化方式として、例えば国際標準規格であるMPEG（Moving Picture Experts Group）-H Part 3:3D audio規格などが知られている（例えば、非特許文献１参照）。

このような符号化方式では、各オーディオオブジェクトの優先度を示す優先度情報を復号装置側に伝送することで、復号時の計算量の低減が実現されている。

例えば、オーディオオブジェクト数が多い場合には、優先度情報に基づいて優先度の高いオーディオオブジェクトのみ復号を行うようにすれば、少ない計算量でも十分な品質でコンテンツを再生することが可能である。

INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio

しかしながら、優先度情報を時間ごとやオーディオオブジェクトごとに人手で付与するのはコストが高い。例えば、映画コンテンツでは多くのオーディオオブジェクトを長時間にわたり扱うため、人手によるコストは特に高くなるといえる。

また、優先度情報が付与されていないコンテンツも数多く存在する。例えば、上述したMPEG-H Part 3:3D audio規格では、優先度情報を符号化データに含めるか否かをヘッダ部のフラグにより切り替えることができる。すなわち、優先度情報が付与されていない符号化データの存在も許容されている。さらに、そもそも優先度情報が符号化データに含まれないオブジェクトオーディオの符号化方式も存在する。

このような背景から、優先度情報が付与されていない符号化データが数多く存在し、その結果、それらの符号化データについては復号の計算量を低減させることができなかった。

本技術は、このような状況に鑑みてなされたものであり、低コストで復号の計算量を低減させることができるようにするものである。

本技術の一側面の信号処理装置は、オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信する優先度情報受信部と、受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行う復号部とを備え、前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報であり、前記優先度情報は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて生成された、前記処理対象の単位時間の前記優先度情報である。

本技術の一側面の信号処理方法またはプログラムは、オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信し、受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行うステップを含み、前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報であり、前記優先度情報は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて生成された、前記処理対象の単位時間の前記優先度情報である。

本技術の一側面においては、オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報が受信され、受信された前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号が行われる。また、前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報とされ、前記優先度情報は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて生成された、前記処理対象の単位時間の前記優先度情報とされる。

本技術の一側面によれば、低コストで復号の計算量を低減させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

符号化装置の構成例を示す図である。オブジェクトオーディオ符号化部の構成例を示す図である。符号化処理を説明するフローチャートである。復号装置の構成例を示す図である。アンパッキング／復号部の構成例を示す図である。復号処理を説明するフローチャートである。選択復号処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈符号化装置の構成例〉
本技術は、オーディオオブジェクトのメタデータや、コンテンツ情報、オーディオオブジェクトのオーディオ信号などのオーディオオブジェクトの特徴を表す要素に基づいて、オーディオオブジェクトの優先度情報を生成することで、低コストで復号の計算量を低減させることができるようにするものである。

以下では、マルチチャネルのオーディオ信号およびオーディオオブジェクトのオーディオ信号が所定の規格等に従って符号化されるものとして説明を行う。また、以下ではオーディオオブジェクトを単にオブジェクトとも称することとする。

例えば、各チャネルや各オブジェクトのオーディオ信号はフレームごとに符号化されて伝送される。

すなわち、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント（ビットストリームエレメント）に格納され、それらのエレメントからなるビットストリームが符号化側から復号側に伝送される。

具体的には、例えば１フレーム分のビットストリームには、先頭から順番に複数個のエレメントが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子が配置される。

そして、先頭に配置されたエレメントは、DSE（Data Stream Element）と呼ばれるアンシラリデータ領域とされ、DSEにはオーディオ信号のダウンミックスに関する情報や識別情報など、複数の各チャネルに関する情報が記述される。

また、DSEの後に続く各エレメントには、符号化されたオーディオ信号が格納される。特に、シングルチャネルのオーディオ信号が格納されているエレメントはSCE（Single Channel Element）と呼ばれており、ペアとなる２つのチャネルのオーディオ信号が格納されているエレメントはCPE（Coupling Channel Element）と呼ばれている。各オブジェクトのオーディオ信号はSCEに格納される。

本技術では、各オブジェクトのオーディオ信号の優先度情報が生成されてDSEに格納される。

ここでは、優先度情報はオブジェクトの優先度を示す情報であり、特に優先度情報により示される優先度の値、つまり優先度合いを示す数値が大きいほど、オブジェクトの優先度は高く、重要なオブジェクトであることを示している。

本技術を適用した符号化装置では、オブジェクトのメタデータ等に基づいて、各オブジェクトの優先度情報が生成される。これにより、コンテンツに対して優先度情報が付与されていない場合であっても、復号の計算量を低減させることができる。換言すれば、人手による優先度情報の付与を行うことなく、低コストで復号の計算量を低減させることができる。

次に、本技術を適用した符号化装置の具体的な実施の形態について説明する。

図１は、本技術を適用した符号化装置の構成例を示す図である。

図１に示す符号化装置１１は、チャネルオーディオ符号化部２１、オブジェクトオーディオ符号化部２２、メタデータ入力部２３、およびパッキング部２４を有している。

チャネルオーディオ符号化部２１には、チャネル数がＭであるマルチチャネルの各チャネルのオーディオ信号が供給される。例えば各チャネルのオーディオ信号は、それらのチャネルに対応するマイクロフォンから供給される。図１では、文字「＃０」乃至「＃Ｍ－１」は、各チャネルのチャネル番号を表している。

チャネルオーディオ符号化部２１は、供給された各チャネルのオーディオ信号を符号化し、符号化により得られた符号化データをパッキング部２４に供給する。

オブジェクトオーディオ符号化部２２には、Ｎ個の各オブジェクトのオーディオ信号が供給される。例えば各オブジェクトのオーディオ信号は、それらのオブジェクトに取り付けられたマイクロフォンから供給される。図１では、文字「＃０」乃至「＃Ｎ－１」は、各オブジェクトのオブジェクト番号を表している。

オブジェクトオーディオ符号化部２２は、供給された各オブジェクトのオーディオ信号を符号化する。また、オブジェクトオーディオ符号化部２２は、供給されたオーディオ信号、メタデータ入力部２３から供給されたメタデータやコンテンツ情報等に基づいて優先度情報を生成し、符号化により得られた符号化データと、優先度情報とをパッキング部２４に供給する。

メタデータ入力部２３は、各オブジェクトのメタデータやコンテンツ情報をオブジェクトオーディオ符号化部２２およびパッキング部２４に供給する。

例えばオブジェクトのメタデータには、空間上におけるオブジェクトの位置を示すオブジェクト位置情報、オブジェクトの音像の大きさの範囲を示すスプレッド情報、オブジェクトのオーディオ信号のゲインを示すゲイン情報などが含まれている。また、コンテンツ情報は、コンテンツにおける各オブジェクトの音の属性に関する情報が含まれている。

パッキング部２４は、チャネルオーディオ符号化部２１から供給された符号化データ、オブジェクトオーディオ符号化部２２から供給された符号化データと優先度情報、およびメタデータ入力部２３から供給されたメタデータとコンテンツ情報をパッキングしてビットストリームを生成し、出力する。

このようにして得られるビットストリームには、フレームごとに各チャネルの符号化データ、各オブジェクトの符号化データ、各オブジェクトの優先度情報、および各オブジェクトのメタデータとコンテンツ情報が含まれている。

ここで、１フレーム分のビットストリームに格納されるＭ個の各チャネルのオーディオ信号、およびＮ個の各オブジェクトのオーディオ信号は、同時に再生されるべき同一フレームのオーディオ信号である。

なお、ここでは、各オブジェクトのオーディオ信号の優先度情報として、１フレームごとに各オーディオ信号に対して優先度情報が生成される例について説明するが、任意の所定の時間を単位として、例えば数フレーム分のオーディオ信号に対して１つの優先度情報が生成されるようにしてもよい。

〈オブジェクトオーディオ符号化部の構成例〉
また、図１のオブジェクトオーディオ符号化部２２は、より詳細には例えば図２に示すように構成される。

図２に示すオブジェクトオーディオ符号化部２２は、符号化部５１および優先度情報生成部５２を備えている。

符号化部５１はMDCT（Modified Discrete Cosine Transform）部６１を備えており、符号化部５１は外部から供給された各オブジェクトのオーディオ信号を符号化する。

すなわち、MDCT部６１は、外部から供給された各オブジェクトのオーディオ信号に対してMDCT（修正離散コサイン変換）を行う。符号化部５１は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データ、つまり符号化されたオーディオ信号をパッキング部２４に供給する。

また、優先度情報生成部５２は、外部から供給された各オブジェクトのオーディオ信号、メタデータ入力部２３から供給されたメタデータ、およびメタデータ入力部２３から供給されたコンテンツ情報の少なくとも何れかに基づいて各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部２４に供給する。

換言すれば、優先度情報生成部５２は、オーディオ信号やメタデータ、コンテンツ情報など、オブジェクトの特徴を表す１または複数の要素に基づいて、そのオブジェクトの優先度情報を生成する。例えばオーディオ信号はオブジェクトの音に関する特徴を表す要素であり、メタデータはオブジェクトの位置や音像の広がり度合い、ゲインなどといった特徴を表す要素であり、コンテンツ情報はオブジェクトの音の属性に関する特徴を表す要素である。

〈優先度情報の生成について〉
ここで、優先度情報生成部５２において生成されるオブジェクトの優先度情報について説明する。

例えば、オブジェクトのオーディオ信号の音圧のみに基づいて優先度情報を生成することも考えられる。

しかし、オブジェクトのメタデータにはゲイン情報が格納されており、このゲイン情報が乗算されたオーディオ信号が最終的なオブジェクトのオーディオ信号として用いられることになるので、ゲイン情報の乗算の前後でオーディオ信号の音圧は変化してしまう。

したがって、オーディオ信号の音圧のみに基づいて優先度情報を生成しても、必ずしも適切な優先度情報が得られるとはいえない。そこで、優先度情報生成部５２では、少なくともオーディオ信号の音圧以外の情報が用いられて優先度情報が生成される。これにより、適切な優先度情報を得ることができる。

具体的には、以下の（１）乃至（４）に示す方法の少なくとも何れかにより優先度情報が生成される。

（１）オブジェクトのメタデータに基づいて優先度情報を生成する
（２）メタデータ以外の他の情報に基づいて優先度情報を生成する
（３）複数の方法により得られた優先度情報を組み合わせて１つの優先度情報を生成する（４）優先度情報を時間方向に平滑化して最終的な１つの優先度情報を生成する

まず、オブジェクトのメタデータに基づく優先度情報の生成について説明する。

上述したように、オブジェクトのメタデータにはオブジェクト位置情報、スプレッド情報、およびゲイン情報が含まれている。そこで、これらのオブジェクト位置情報や、スプレッド情報、ゲイン情報を利用して優先度情報を生成することが考えられる。

（１－１）オブジェクト位置情報に基づく優先度情報の生成について
まず、オブジェクト位置情報に基づいて優先度情報を生成する例について説明する。

オブジェクト位置情報は、３次元空間におけるオブジェクトの位置を示す情報であり、例えば基準位置（原点）から見たオブジェクトの位置を示す水平方向角度ａ、垂直方向角度ｅ、および半径ｒからなる座標情報とされる。

水平方向角度ａは、ユーザがいる位置である基準位置から見たオブジェクトの水平方向の位置を示す水平方向の角度（方位角）、つまり水平方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。

ここでは、水平方向角度ａが０度であるときには、オブジェクトはユーザの真正面に位置しており、水平方向角度ａが９０度や－９０度であるときには、オブジェクトはユーザの真横に位置していることになる。また、水平方向角度ａが１８０度または－１８０度であるときには、オブジェクトはユーザの真後ろに位置していることになる。

同様に垂直方向角度ｅは、基準位置から見たオブジェクトの垂直方向の位置を示す垂直方向の角度（仰角）、つまり垂直方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。

また、半径ｒは基準位置からオブジェクトの位置までの距離である。

例えばユーザの位置である原点（基準位置）からの距離が短いオブジェクト、つまり半径ｒが小さく、原点から近い位置にあるオブジェクトは、原点から遠い位置にあるオブジェクトよりも重要であると考えられる。そこで、半径ｒが小さいほど優先度情報により示される優先度が高くなるようにすることができる。

この場合、例えば優先度情報生成部５２は、オブジェクトの半径ｒに基づいて次式（１）を計算することで、そのオブジェクトの優先度情報を生成する。なお、以下では優先度情報をpriorityとも記すこととする。

式（１）に示す例では、半径ｒが小さいほど優先度情報priorityの値が大きくなり、優先度が高くなる。

また、人間の聴覚は後方よりも前方に対する感度が高いことが知られている。そのため、ユーザの後方にあるオブジェクトについては、優先度を低くして本来行うものとは異なる復号処理を行ってもユーザの聴覚に与える影響は小さいと考えられる。

そこで、ユーザの後方にあるオブジェクトほど、つまりユーザの真後ろに近い位置にあるオブジェクトほど優先度情報により示される優先度が低くなるようにすることができる。この場合、例えば優先度情報生成部５２は、オブジェクトの水平方向角度ａに基づいて次式（２）を計算することで、そのオブジェクトの優先度情報を生成する。但し、水平方向角度ａが１度未満である場合には、オブジェクトの優先度情報priorityの値は１とされる。

なお、式（２）においてabs(a)は水平方向角度ａの絶対値を示している。したがって、この例では水平方向角度ａが小さく、オブジェクトの位置がユーザから見て真正面の方向の位置に近いほど優先度情報priorityの値が大きくなる。

さらに、オブジェクト位置情報の時間変化が大きいオブジェクト、すなわち速い速度で移動するオブジェクトは、コンテンツ内で重要なオブジェクトである可能性が高いと考えられる。そこで、オブジェクト位置情報の時間変化量が大きいほど、つまりオブジェクトの移動速度が速いほど優先度情報により示される優先度が高くなるようにすることができる。

この場合、例えば優先度情報生成部５２は、オブジェクトのオブジェクト位置情報に含まれる水平方向角度ａ、垂直方向角度ｅ、および半径ｒに基づいて次式（３）を計算することで、そのオブジェクトの移動速度に応じた優先度情報を生成する。

なお、式（３）においてａ（ｉ）、ｅ（ｉ）、およびｒ（ｉ）は、それぞれ処理対象となる現フレームにおける、オブジェクトの水平方向角度ａ、垂直方向角度ｅ、および半径ｒを示している。また、ａ（ｉ－１）、ｅ（ｉ－１）、およびｒ（ｉ－１）は、それぞれ処理対象となる現フレームの時間的に１つ前のフレームにおける、オブジェクトの水平方向角度ａ、垂直方向角度ｅ、および半径ｒを示している。

したがって、例えば（ａ（ｉ）－ａ（ｉ－１））は、オブジェクトの水平方向の速度を示しており、式（３）の右辺はオブジェクト全体の速度に対応する。すなわち、式（３）により示される優先度情報priorityの値は、オブジェクトの速度が速いほど大きくなる。

（１－２）ゲイン情報に基づく優先度情報の生成について
次に、ゲイン情報に基づいて優先度情報を生成する例について説明する。

例えばオブジェクトのメタデータには、復号時にオブジェクトのオーディオ信号に対して乗算される係数値がゲイン情報として含まれている。

ゲイン情報の値、すなわちゲイン情報としての係数値が大きいほど、係数値乗算後の最終的なオブジェクトのオーディオ信号の音圧が大きくなり、これによりオブジェクトの音が人間に知覚され易くなると考えられる。また、大きなゲイン情報を付与して音圧を大きくするオブジェクトは、コンテンツ内で重要なオブジェクトであると考えられる。

そこで、ゲイン情報の値が大きいほど、オブジェクトの優先度情報により示される優先度が高くなるようにすることができる。

そのような場合、例えば優先度情報生成部５２は、オブジェクトのゲイン情報、すなわちゲイン情報により示されるゲインである係数値ｇに基づいて次式（４）を計算することで、そのオブジェクトの優先度情報を生成する。

式（４）に示す例では、ゲイン情報である係数値ｇそのものが優先度情報priorityとされている。

また、１つのオブジェクトの複数のフレームのゲイン情報（係数値ｇ）の時間平均値を時間平均値ｇ_aveと記すこととする。例えば時間平均値ｇ_aveは、処理対象のフレームよりも過去の連続する複数のフレームのゲイン情報の時間平均値などとされる。

例えばゲイン情報と時間平均値ｇ_aveとの差分が大きいフレーム、より詳細には係数値ｇが時間平均値ｇ_aveよりも大幅に大きいフレームでは、係数値ｇと時間平均値ｇ_aveとの差分が小さいフレームと比較してオブジェクトの重要性は高いと考えられる。換言すれば、急激に係数値ｇが大きくなったフレームでは、オブジェクトの重要性は高いと考えられる。

そこで、ゲイン情報と時間平均値ｇ_aveとの差分が大きいフレームほど、オブジェクトの優先度情報により示される優先度が高くなるようにすることができる。

そのような場合、例えば優先度情報生成部５２は、オブジェクトのゲイン情報、すなわち係数値ｇと、時間平均値ｇ_aveとに基づいて次式（５）を計算することで、そのオブジェクトの優先度情報を生成する。換言すれば、現フレームの係数値ｇと、時間平均値ｇ_aveとの差分に基づいて優先度情報が生成される。

式（５）においてｇ（ｉ）は現フレームの係数値ｇを示している。したがって、この例では、現フレームの係数値ｇ（ｉ）が時間平均値ｇ_aveよりも大きいほど、優先度情報priorityの値は大きくなる。すなわち、式（５）に示す例では、ゲイン情報が急激に大きくなったフレームではオブジェクトの重要度が高いとされ、優先度情報により示される優先度も高くなる。

なお、時間平均値ｇ_aveは、オブジェクトの過去の複数のフレームのゲイン情報（係数値ｇ）に基づく指数平均値や、コンテンツ全体にわたるオブジェクトのゲイン情報の平均値でもよい。

（１－３）スプレッド情報に基づく優先度情報の生成について
続いて、スプレッド情報に基づいて優先度情報を生成する例について説明する。

スプレッド情報は、オブジェクトの音像の大きさの範囲を示す角度情報、すなわちオブジェクトの音の音像の広がり度合いを示す角度情報である。換言すれば、スプレッド情報は、オブジェクトの領域の大きさを示す情報であるともいうことができる。以下、スプレッド情報により示される、オブジェクトの音像の大きさの範囲を示す角度をスプレッド角度と称することとする。

スプレッド角度が大きいオブジェクトは、画面内において大きく映っているオブジェクトである。したがって、スプレッド角度が大きいオブジェクトは、スプレッド角度が小さいオブジェクトに比べてコンテンツ内で重要なオブジェクトである可能性が高いと考えられる。そこで、スプレッド情報により示されるスプレッド角度が大きいオブジェクトほど優先度情報により示される優先度が高くなるようにすることができる。

そのような場合、例えば優先度情報生成部５２は、オブジェクトのスプレッド情報に基づいて次式（６）を計算することで、そのオブジェクトの優先度情報を生成する。

なお、式（６）においてｓはスプレッド情報により示されるスプレッド角度を示している。この例ではオブジェクトの領域の面積、つまり音像の範囲の広さを優先度情報priorityの値に反映させるため、スプレッド角度ｓの二乗値が優先度情報priorityの値とされている。したがって、式（６）の計算により、オブジェクトの領域の面積、つまりオブジェクトの音の音像の領域の面積に応じた優先度情報が生成されることになる。

また、スプレッド情報として互いに異なる方向、つまり互いに垂直な水平方向と垂直方向のスプレッド角度が与えられることがある。

例えばスプレッド情報として、水平方向のスプレッド角度ｓ_widthと垂直方向のスプレッド角度ｓ_heightとが含まれているとする。この場合、スプレッド情報によって水平方向と垂直方向とで大きさが異なる、つまり広がり具合が異なるオブジェクトを表現することができる。

このようにスプレッド情報としてスプレッド角度ｓ_widthおよびスプレッド角度ｓ_heightが含まれる場合には、優先度情報生成部５２は、オブジェクトのスプレッド情報に基づいて次式（７）を計算することで、そのオブジェクトの優先度情報を生成する。

式（７）では、スプレッド角度ｓ_widthおよびスプレッド角度ｓ_heightの積が優先度情報priorityとされている。式（７）により優先度情報を生成することで、式（６）における場合と同様に、スプレッド角度が大きいオブジェクトほど、すなわちオブジェクトの領域が大きいほど、優先度情報により示される優先度が高くなるようにすることができる。

さらに、以上においては、オブジェクト位置情報、スプレッド情報、およびゲイン情報というオブジェクトのメタデータに基づいて優先度情報を生成する例について説明した。しかし、メタデータ以外の他の情報に基づいて優先度情報を生成することも可能である。

（２－１）コンテンツ情報に基づく優先度情報の生成について
まず、メタデータ以外の情報に基づく優先度情報の生成例として、コンテンツ情報を用いて優先度情報を生成する例について説明する。

例えば、いくつかのオブジェクトオーディオの符号化方式では、各オブジェクトに関する情報としてコンテンツ情報が含まれているものがある。例えばコンテンツ情報によりオブジェクトの音の属性が特定される。すなわち、コンテンツ情報にはオブジェクトの音の属性を示す情報が含まれている。

具体的には、例えばコンテンツ情報によりオブジェクトの音が言語に依存しているか否か、オブジェクトの音の言語の種類、オブジェクトの音が音声であるか否か、およびオブジェクトの音が環境音であるか否かを特定することができる。

例えばオブジェクトの音が音声である場合、そのオブジェクトは他の環境音などのオブジェクトと比べて、より重要であると考えられる。これは、映画やニュース等のコンテンツにおいては、音声による情報量は他の音による情報量と比べて大きく、また、人間の聴覚は音声に対してより敏感であるからである。

そこで、音声であるオブジェクトの優先度が、他の属性のオブジェクトの優先度よりも高くなるようにすることができる。

この場合、例えば優先度情報生成部５２は、オブジェクトのコンテンツ情報に基づいて次式（８）の演算により、そのオブジェクトの優先度情報を生成する。

なお、式（８）においてobject_classは、コンテンツ情報により示されるオブジェクトの音の属性を示している。式（８）では、コンテンツ情報により示されるオブジェクトの音の属性が音声（speech）である場合、優先度情報の値は１０とされ、コンテンツ情報により示されるオブジェクトの音の属性が音声ではない場合、すなわち例えば環境音などである場合には優先度情報の値は１とされる。

（２－２）オーディオ信号に基づく優先度情報の生成について
また、各オブジェクトが音声であるか否かはVAD（Voice Activity Detection）技術を用いることで識別することができる。

そこで、例えばオブジェクトのオーディオ信号に対してVAD、すなわち音声区間検出処理を行い、その検出結果（処理結果）に基づいてオブジェクトの優先度情報を生成するようにしてもよい。

この場合においてもコンテンツ情報を利用する場合と同様に、音声区間検出処理の結果として、オブジェクトの音が音声である旨の検出結果が得られたときに、他の検出結果が得られたときよりも、優先度情報により示される優先度がより高くなるようにされる。

具体的には、例えば優先度情報生成部５２は、オブジェクトのオーディオ信号に対して音声区間検出処理を行い、その検出結果に基づいて次式（９）の演算によりオブジェクトの優先度情報を生成する。

なお、式（９）においてobject_class_vadは、音声区間検出処理の結果として得られたオブジェクトの音の属性を示している。式（９）では、オブジェクトの音の属性が音声であるとき、すなわち音声区間検出処理により検出結果としてオブジェクトの音が音声（speech）である旨の検出結果が得られたとき、優先度情報の値は１０とされる。また、式（９）では、オブジェクトの音の属性が音声でないとき、すなわち音声区間検出処理による検出結果としてオブジェクトの音が音声である旨の検出結果が得られなかったとき、優先度情報の値は１とされる。

また、音声区間検出処理の結果として音声区間らしさの値が得られるときには、その音声区間らしさの値に基づいて優先度情報が生成されてもよい。そのような場合、オブジェクトの現フレームが音声区間らしいほど優先度が高くなるようにされる。

（２－３）オーディオ信号とゲイン情報に基づく優先度情報の生成について
さらに、例えば上述したように、オブジェクトのオーディオ信号の音圧のみに基づいて優先度情報を生成することも考えられる。しかし、復号側では、オブジェクトのメタデータに含まれるゲイン情報がオーディオ信号に乗算されるため、ゲイン情報の乗算前後ではオーディオ信号の音圧が変化する。

そのため、ゲイン情報乗算前のオーディオ信号の音圧に基づいて優先度情報を生成しても、適切な優先度情報が得られないことがある。そこで、オブジェクトのオーディオ信号にゲイン情報を乗算して得られた信号の音圧に基づいて、優先度情報を生成するようにしてもよい。すなわち、ゲイン情報とオーディオ信号に基づいて優先度情報を生成してもよい。

この場合、例えば優先度情報生成部５２は、オブジェクトのオーディオ信号に対してゲイン情報を乗算し、ゲイン情報乗算後のオーディオ信号の音圧を求める。そして、優先度情報生成部５２は、得られた音圧に基づいて優先度情報を生成する。このとき、例えば音圧が大きいほど、優先度が高くなるように優先度情報が生成される。

以上においては、オブジェクトのメタデータやコンテンツ情報、オーディオ信号など、オブジェクトの特徴を表す要素に基づいて優先度情報を生成する例について説明した。しかし、上述した例に限らず、例えば式（１）等の計算により得られた値など、算出した優先度情報に対して、さらに所定の係数を乗算したり、所定の定数を加算したりしたものを最終的な優先度情報としてもよい。

（３－１）オブジェクト位置情報とスプレッド情報に基づく優先度情報の生成について
また、互いに異なる複数の方法により求めた優先度情報のそれぞれを線形結合や非線形結合などにより結合（合成）し、最終的な１つの優先度情報とするようにしてもよい。換言すれば、オブジェクトの特徴を表す複数の要素に基づいて優先度情報を生成してもよい。

複数の優先度情報を結合することで、すなわち複数の優先度情報を組み合わせることで、より適切な優先度情報を得ることができる。

ここでは、まずオブジェクト位置情報に基づいて算出した優先度情報と、スプレッド情報に基づいて算出した優先度情報を線形結合して最終的な１つの優先度情報とする例について説明する。

例えばオブジェクトがユーザに知覚されにくいユーザ後方にある場合でも、オブジェクトの音像の大きさが大きいときには、そのオブジェクトは重要なオブジェクトであると考えられる。それとは逆に、オブジェクトがユーザの前方にある場合でも、オブジェクトの音像の大きさが小さいときには、そのオブジェクトは重要なオブジェクトではないと考えられる。

そこで、例えばオブジェクト位置情報に基づいて求められた優先度情報と、スプレッド情報に基づいて求められた優先度情報との線形和により、最終的な優先度情報を求めるようにしてもよい。

この場合、優先度情報生成部５２は、例えば次式（１０）を計算することで複数の優先度情報を線形結合し、オブジェクトについて最終的な１つの優先度情報を生成する。

なお、式（１０）において、priority(position)はオブジェクト位置情報に基づいて求められた優先度情報を示しており、priority(spread)はスプレッド情報に基づいて求められた優先度情報を示している。

具体的には、priority(position)は、例えば式（１）や式（２）、式（３）などにより求められた優先度情報を示している。priority(spread)は、例えば式（６）や式（７）により求められた優先度情報を示している。

また、式（１０）においてＡおよびＢは線形和の係数を示している。換言すればＡおよびＢは、優先度情報を生成するのに用いられる重み係数を示しているということができる。

例えば、これらのＡおよびＢという重み係数の設定方法として、以下の２つの設定方法が考えられる。

すなわち、１つ目の設定方法として、線形結合される優先度情報の生成式による値域に応じて等しい重みに設定する方法（以下、設定方法１とも称する）が考えられる。また、２つ目の設定方法として、ケースに報じて重み係数を変化させる方法（以下、設定方法２とも称する）が考えられる。

ここでは、設定方法１により重み係数Ａおよび重み係数Ｂを設定する例について具体的に説明する。

例えば、上述した式（２）により求まる優先度情報がpriority(position)とされ、上述した式（６）により求まる優先度情報がpriority(spread)とされるとする。

この場合、優先度情報priority(position)の値域は１／πから１となり、優先度情報priority(spread)の値域は０からπ²となる。

そのため、式（１０）では優先度情報priority(spread)の値が支配的になってしまい、最終的に得られる優先度情報priorityの値は、優先度情報priority(position)の値に殆ど依存しないものとなってしまう。

そこで、優先度情報priority(position)と優先度情報priority(spread)の両方の値域を考慮して、例えば重み係数Ａと重み係数Ｂの比率をπ：１とすれば、より等しい重みで最終的な優先度情報priorityを生成することができる。

この場合、重み係数Ａはπ／（π＋１）となり、重み係数Ｂは１／（π＋１）となる。

（３－２）コンテンツ情報とその他の情報に基づく優先度情報の生成について
さらに、互いに異なる複数の方法により求めた優先度情報のそれぞれを非線形結合して、最終的な１つの優先度情報とする例について説明する。

ここでは、例えばコンテンツ情報に基づいて算出した優先度情報と、コンテンツ情報以外の情報に基づいて算出した優先度情報とを非線形結合して最終的な１つの優先度情報とする例について説明する。

例えばコンテンツ情報を参照すれば、オブジェクトの音が音声であるか否かを特定することができる。オブジェクトの音が音声である場合、優先度情報の生成に用いるコンテンツ情報以外の他の情報がどのような情報であっても、最終的に得られる優先度情報の値は大きいことが望ましい。これは、一般的に音声のオブジェクトは他のオブジェクトよりも情報量が多く、より重要なオブジェクトであると考えられるからである。

そこで、コンテンツ情報に基づいて算出した優先度情報と、コンテンツ情報以外の情報に基づいて算出した優先度情報とを結合して最終的な優先度情報とする場合、例えば優先度情報生成部５２は、上述した設定方法２により定まる重み係数を用いて次式（１１）を計算し、最終的な１つの優先度情報を生成する。

なお、式（１１）において、priority(object_class)はコンテンツ情報に基づいて求められた優先度情報、例えば上述した式（８）により求められた優先度情報を示している。また、priority(others)はコンテンツ情報以外の情報、例えばオブジェクト位置情報やゲイン情報、スプレッド情報、オブジェクトのオーディオ信号等に基づいて求められた優先度情報を示している。

さらに、式（１１）においてＡおよびＢは非線形和のべき乗の値であるが、これらのＡおよびＢは、優先度情報を生成するのに用いられる重み係数を示しているということができる。

例えば設定方法２により、重み係数Ａ＝2.0および重み係数Ｂ＝1.0などとすれば、オブジェクトの音が音声である場合には、最終的な優先度情報priorityの値は十分大きくなり、音声でないオブジェクトよりも優先度情報が小さくなることはない。一方で、音声である２つのオブジェクトの優先度情報の大小関係は、式（１１）の第二項であるpriority(others)^Bの値により定まることになる。

以上のように、互いに異なる複数の方法により求めた、複数の優先度情報を線形結合または非線形結合により結合することで、より適切な優先度情報を得ることができる。なお、これに限らず、複数の優先度情報の条件式により最終的な１つの優先度情報を生成するようにしてもよい。

（４）優先度情報の時間方向の平滑化
また、以上においては、オブジェクトのメタデータやコンテンツ情報などから優先度情報を生成したり、複数の優先度情報を結合して最終的な１つの優先度情報を生成する例について説明した。しかし、短い期間の間に複数のオブジェクトの優先度情報の大小関係が何度も変化することは望ましくない。

例えば復号側において、優先度情報に基づいて各オブジェクトについての復号処理の有無を切り替える場合には、複数のオブジェクトの優先度情報の大小関係の変化によって短い時間ごとにオブジェクトの音が聞こえたり聞こえなくなったりすることになる。このようなことが生じると、聴感上の劣化が生じてしまう。

このような優先度情報の大小関係の変化（切り替わり）はオブジェクトの数が多くなるほど、また、優先度情報の生成手法がより複雑になればなるほど生じる可能性が高くなる。

そこで、優先度情報生成部５２において、例えば次式（１２）に示す計算を行って指数平均により優先度情報を時間方向に平滑化すれば、短い時間でオブジェクトの優先度情報の大小関係が切り替わることを抑制することができる。

なお、式（１２）においてｉは現フレームを示すインデックスを示しており、ｉ－１は現フレームの時間的に１つ前のフレームを示すインデックスを示している。

priority(i)は現フレームについて得られた平滑化前の優先度情報を示しており、priority(i)は、例えば上述した式（１）乃至式（１１）のうちの何れかの式などにより求められた優先度情報である。

また、priority_smooth(i)は現フレームの平滑化後の優先度情報、すなわち最終的な優先度情報を示しており、priority_smooth(i-1)は現フレームの１つ前のフレームの平滑化後の優先度情報を示している。さらに式（１２）においてαは指数平均の平滑化係数を示しており、平滑化係数αは０から１の間の値とされる。

平滑化係数αが乗算された優先度情報priority(i)から、（１－α）が乗算された優先度情報priority_smooth(i-1)を減算して得られる値を、最終的な優先度情報priority_smooth(i)とすることで優先度情報の平滑化が行われている。

すなわち、生成された現フレームの優先度情報priority(i)に対して時間方向の平滑化を行うことで、現フレームの最終的な優先度情報priority_smooth(i)が生成される。

この例では、平滑化係数αの値を小さくすればするほど、現フレームの平滑化前の優先度情報priority(i)の値の重みが小さくなり、その結果、より平滑化が行われて優先度情報の大小関係の切り替わりが抑制されるようになる。

なお、優先度情報の平滑化の例として、指数平均による平滑化について説明したが、これに限らず、単純移動平均や加重移動平均、低域通過フィルタを利用した平滑化など、他のどのような平滑化手法により優先度情報を平滑化してもよい。

以上において説明した本技術によれば、メタデータ等に基づいてオブジェクトの優先度情報を生成するので、人手によるオブジェクトの優先度情報の付与コストを削減することができる。また、オブジェクトの優先度情報が全ての時間（フレーム）について適切に付与されていない符号化データであっても、適切に優先度情報を付与することができ、その結果、復号の計算量を低減させることができる。

〈符号化処理の説明〉
次に、符号化装置１１により行われる処理について説明する。

符号化装置１１は、同時に再生される、複数の各チャネルのオーディオ信号および複数の各オブジェクトのオーディオ信号が１フレーム分だけ供給されると、符号化処理を行って、符号化されたオーディオ信号が含まれるビットストリームを出力する。

以下、図３のフローチャートを参照して、符号化装置１１による符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。

ステップＳ１１において、オブジェクトオーディオ符号化部２２の優先度情報生成部５２は、供給された各オブジェクトのオーディオ信号の優先度情報を生成し、パッキング部２４に供給する。

例えばメタデータ入力部２３はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、各オブジェクトのメタデータおよびコンテンツ情報を取得し、優先度情報生成部５２およびパッキング部２４に供給する。

優先度情報生成部５２は、オブジェクトごとに、供給されたオーディオ信号、メタデータ入力部２３から供給されたメタデータ、およびメタデータ入力部２３から供給されたコンテンツ情報の少なくとも何れか１つに基づいてオブジェクトの優先度情報を生成する。

具体的には、例えば優先度情報生成部５２は、上述した式（１）乃至式（９）の何れかや、オブジェクトのオーディオ信号とゲイン情報に基づいて優先度情報を生成する方法、式（１０）や式（１１）、式（１２）などにより各オブジェクトの優先度情報を生成する。

ステップＳ１２において、パッキング部２４は優先度情報生成部５２から供給された各オブジェクトのオーディオ信号の優先度情報をビットストリームのDSEに格納する。

ステップＳ１３において、パッキング部２４は、メタデータ入力部２３から供給された各オブジェクトのメタデータおよびコンテンツ情報をビットストリームのDSEに格納する。以上の処理により、ビットストリームのDSEには、全オブジェクトのオーディオ信号の優先度情報と、全オブジェクトのメタデータおよびコンテンツ情報とが格納されたことになる。

ステップＳ１４において、チャネルオーディオ符号化部２１は、供給された各チャネルのオーディオ信号を符号化する。

より具体的には、チャネルオーディオ符号化部２１は各チャネルのオーディオ信号に対してMDCTを行うとともに、MDCTにより得られた各チャネルのMDCT係数を符号化し、その結果得られた各チャネルの符号化データをパッキング部２４に供給する。

ステップＳ１５において、パッキング部２４はチャネルオーディオ符号化部２１から供給された各チャネルのオーディオ信号の符号化データを、ビットストリームのSCEまたはCPEに格納する。すなわち、ビットストリームにおいてDSEに続いて配置されている各エレメントに符号化データが格納される。

ステップＳ１６において、オブジェクトオーディオ符号化部２２の符号化部５１は、供給された各オブジェクトのオーディオ信号を符号化する。

より具体的には、MDCT部６１は各オブジェクトのオーディオ信号に対してMDCTを行い、符号化部５１は、MDCTにより得られた各オブジェクトのMDCT係数を符号化し、その結果得られた各オブジェクトの符号化データをパッキング部２４に供給する。

ステップＳ１７において、パッキング部２４は符号化部５１から供給された各オブジェクトのオーディオ信号の符号化データを、ビットストリームのSCEに格納する。すなわち、ビットストリームにおいてDSEよりも後に配置されているいくつかのエレメントに符号化データが格納される。

以上の処理により、処理対象となっているフレームについて、全チャネルのオーディオ信号の符号化データ、全オブジェクトのオーディオ信号の優先度情報と符号化データ、および全オブジェクトのメタデータとコンテンツ情報が格納されたビットストリームが得られる。

ステップＳ１８において、パッキング部２４は、得られたビットストリームを出力し、符号化処理は終了する。

以上のようにして符号化装置１１は、各オブジェクトのオーディオ信号の優先度情報を生成してビットストリームに格納し、出力する。したがって、復号側において、どのオーディオ信号がより優先度合いの高いものであるかを簡単に把握することができるようになる。

これにより、復号側では、優先度情報に応じて、符号化されたオーディオ信号の復号を選択的に行うことができる。その結果、オーディオ信号により再生される音の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。

特に、各オブジェクトのオーディオ信号の優先度情報をビットストリームに格納しておくことで、復号側において、復号の計算量を低減できるだけでなく、その後のレンダリング等の処理の計算量も低減させることができる。

また、符号化装置１１では、オブジェクトのメタデータや、コンテンツ情報、オブジェクトのオーディオ信号などに基づいてオブジェクトの優先度情報を生成することで、低コストでより適切な優先度情報を得ることができる。

〈第２の実施の形態〉
〈復号装置の構成例〉
なお、以上においては、符号化装置１１から出力されるビットストリームに優先度情報が含まれている例について説明したが、符号化装置によっては、ビットストリームに優先度情報が含まれていないこともあり得る。

そこで、復号装置において優先度情報を生成するようにしてもよい。そのような場合、符号化装置から出力されたビットストリームを入力とし、ビットストリームに含まれる符号化データを復号する復号装置は、例えば図４に示すように構成される。

図４に示す復号装置１０１は、アンパッキング／復号部１１１、レンダリング部１１２、およびミキシング部１１３を有している。

アンパッキング／復号部１１１は、符号化装置から出力されたビットストリームを取得するとともに、ビットストリームのアンパッキングおよび復号を行う。

アンパッキング／復号部１１１は、アンパッキングおよび復号により得られた各オブジェクトのオーディオ信号と、各オブジェクトのメタデータとをレンダリング部１１２に供給する。このとき、アンパッキング／復号部１１１は、オブジェクトのメタデータやコンテンツ情報に基づいて各オブジェクトの優先度情報を生成し、得られた優先度情報に応じて各オブジェクトの符号化データの復号を行う。

また、アンパッキング／復号部１１１は、アンパッキングおよび復号により得られた各チャネルのオーディオ信号をミキシング部１１３に供給する。

レンダリング部１１２は、アンパッキング／復号部１１１から供給された各オブジェクトのオーディオ信号、および各オブジェクトのメタデータに含まれるオブジェクト位置情報に基づいてＭチャネルのオーディオ信号を生成し、ミキシング部１１３に供給する。このときレンダリング部１１２は、各オブジェクトの音像が、それらのオブジェクトのオブジェクト位置情報により示される位置に定位するようにＭ個の各チャネルのオーディオ信号を生成する。

ミキシング部１１３は、アンパッキング／復号部１１１から供給された各チャネルのオーディオ信号と、レンダリング部１１２から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、最終的な各チャネルのオーディオ信号を生成する。ミキシング部１１３は、このようにして得られた最終的な各チャネルのオーディオ信号を、外部の各チャネルに対応するスピーカに供給し、音を再生させる。

〈アンパッキング／復号部の構成例〉
また、図４に示した復号装置１０１のアンパッキング／復号部１１１は、より詳細には例えば図５に示すように構成される。

図５に示すアンパッキング／復号部１１１は、チャネルオーディオ信号取得部１４１、チャネルオーディオ信号復号部１４２、IMDCT（Inverse Modified Discrete Cosine Transform）部１４３、オブジェクトオーディオ信号取得部１４４、オブジェクトオーディオ信号復号部１４５、優先度情報生成部１４６、出力選択部１４７、０値出力部１４８、およびIMDCT部１４９を有している。

チャネルオーディオ信号取得部１４１は、供給されたビットストームから各チャネルの符号化データを取得して、チャネルオーディオ信号復号部１４２に供給する。

チャネルオーディオ信号復号部１４２は、チャネルオーディオ信号取得部１４１から供給された各チャネルの符号化データを復号し、その結果得られたMDCT係数をIMDCT部１４３に供給する。

IMDCT部１４３は、チャネルオーディオ信号復号部１４２から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、ミキシング部１１３に供給する。

IMDCT部１４３では、MDCT係数に対してIMDCT（逆修正離散コサイン変換）が行われ、オーディオ信号が生成される。

オブジェクトオーディオ信号取得部１４４は、供給されたビットストリームから各オブジェクトの符号化データを取得して、オブジェクトオーディオ信号復号部１４５に供給する。また、オブジェクトオーディオ信号取得部１４４は、供給されたビットストリームから各オブジェクトのメタデータおよびコンテンツ情報を取得して、メタデータおよびコンテンツ情報を優先度情報生成部１４６に供給するとともに、メタデータをレンダリング部１１２に供給する。

オブジェクトオーディオ信号復号部１４５は、オブジェクトオーディオ信号取得部１４４から供給された各オブジェクトの符号化データを復号し、その結果得られたMDCT係数を出力選択部１４７および優先度情報生成部１４６に供給する。

優先度情報生成部１４６は、オブジェクトオーディオ信号取得部１４４から供給されたメタデータ、オブジェクトオーディオ信号取得部１４４から供給されたコンテンツ情報、およびオブジェクトオーディオ信号復号部１４５から供給されたMDCT係数の少なくとも何れかに基づいて各オブジェクトの優先度情報を生成し、出力選択部１４７に供給する。

出力選択部１４７は、優先度情報生成部１４６から供給された各オブジェクトの優先度情報に基づいて、オブジェクトオーディオ信号復号部１４５から供給された各オブジェクトのMDCT係数の出力先を選択的に切り替える。

すなわち、出力選択部１４７は、所定のオブジェクトについての優先度情報が所定の閾値Ｑ未満である場合、そのオブジェクトのMDCT係数を０として０値出力部１４８に供給する。また、出力選択部１４７は、所定のオブジェクトについての優先度情報が所定の閾値Ｑ以上である場合、オブジェクトオーディオ信号復号部１４５から供給された、そのオブジェクトのMDCT係数をIMDCT部１４９に供給する。

なお、閾値Ｑの値は、例えば復号装置１０１の計算能力等に応じて適切に定められる。閾値Ｑを適切に定めることにより、オーディオ信号の復号の計算量を、復号装置１０１がリアルタイムに復号することが可能な範囲内の計算量まで低減させることができる。

０値出力部１４８は、出力選択部１４７から供給されたMDCT係数に基づいてオーディオ信号を生成し、レンダリング部１１２に供給する。この場合、MDCT係数は０であるので、無音のオーディオ信号が生成される。

IMDCT部１４９は、出力選択部１４７から供給されたMDCT係数に基づいてIMDCTを行ってオーディオ信号を生成し、レンダリング部１１２に供給する。

〈復号処理の説明〉
次に、復号装置１０１の動作について説明する。

復号装置１０１は、符号化装置から１フレーム分のビットストリームが供給されると、復号処理を行ってオーディオ信号を生成し、スピーカへと出力する。以下、図６のフローチャートを参照して、復号装置１０１により行われる復号処理について説明する。

ステップＳ５１において、アンパッキング／復号部１１１は、符号化装置から送信されてきたビットストリームを取得する。すなわち、ビットストリームが受信される。

ステップＳ５２において、アンパッキング／復号部１１１は選択復号処理を行う。

なお、選択復号処理の詳細は後述するが、選択復号処理では各チャネルの符号化データが復号されるとともに、各オブジェクトについて優先度情報が生成され、オブジェクトの符号化データが優先度情報に基づいて選択的に復号される。

そして、各チャネルのオーディオ信号がミキシング部１１３に供給され、各オブジェクトのオーディオ信号がレンダリング部１１２に供給される。また、ビットストリームから取得された各オブジェクトのメタデータがレンダリング部１１２に供給される。

ステップＳ５３において、レンダリング部１１２は、アンパッキング／復号部１１１から供給されたオブジェクトのオーディオ信号、およびオブジェクトのメタデータに含まれるオブジェクト位置情報に基づいてオブジェクトのオーディオ信号のレンダリングを行う。

例えばレンダリング部１１２は、オブジェクト位置情報に基づいてVBAP（Vector Base Amplitude Pannning）により、オブジェクトの音像がオブジェクト位置情報により示される位置に定位するように各チャネルのオーディオ信号を生成し、ミキシング部１１３に供給する。なお、メタデータにスプレッド情報が含まれている場合には、レンダリング時にスプレッド情報に基づいてスプレッド処理も行われ、オブジェクトの音像が広げられる。

ステップＳ５４において、ミキシング部１１３は、アンパッキング／復号部１１１から供給された各チャネルのオーディオ信号と、レンダリング部１１２から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、外部のスピーカに供給する。これにより、各スピーカには、それらのスピーカに対応するチャネルのオーディオ信号が供給されるので、各スピーカは供給されたオーディオ信号に基づいて音を再生する。

各チャネルのオーディオ信号がスピーカに供給されると、復号処理は終了する。

以上のようにして、復号装置１０１は、優先度情報を生成して、その優先度情報に応じて各オブジェクトの符号化データを復号する。

〈選択復号処理の説明〉
続いて、図７のフローチャートを参照して、図６のステップＳ５２の処理に対応する選択復号処理について説明する。

ステップＳ８１において、チャネルオーディオ信号取得部１４１は、処理対象とするチャネルのチャネル番号に０を設定し、保持する。

ステップＳ８２において、チャネルオーディオ信号取得部１４１は、保持しているチャネル番号がチャネル数Ｍ未満であるか否かを判定する。

ステップＳ８２において、チャネル番号がＭ未満であると判定された場合、ステップＳ８３において、チャネルオーディオ信号復号部１４２は、処理対象のチャネルのオーディオ信号の符号化データを復号する。

すなわち、チャネルオーディオ信号取得部１４１は、供給されたビットストリームから、処理対象のチャネルの符号化データを取得してチャネルオーディオ信号復号部１４２に供給する。すると、チャネルオーディオ信号復号部１４２は、チャネルオーディオ信号取得部１４１から供給された符号化データを復号し、その結果得られたMDCT係数をIMDCT部１４３に供給する。

ステップＳ８４において、IMDCT部１４３は、チャネルオーディオ信号復号部１４２から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のチャネルのオーディオ信号を生成し、ミキシング部１１３に供給する。

ステップＳ８５において、チャネルオーディオ信号取得部１４１は、保持しているチャネル番号に１を加え、処理対象のチャネルのチャネル番号を更新する。

チャネル番号が更新されると、その後、処理はステップＳ８２に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のチャネルのオーディオ信号が生成される。

また、ステップＳ８２において、処理対象のチャネルのチャネル番号がＭ未満ではないと判定された場合、全てのチャネルについてオーディオ信号が得られたので、処理はステップＳ８６へと進む。

ステップＳ８６において、オブジェクトオーディオ信号取得部１４４は、処理対象とするオブジェクトのオブジェクト番号に０を設定し、保持する。

ステップＳ８７において、オブジェクトオーディオ信号取得部１４４は、保持しているオブジェクト番号がオブジェクト数Ｎ未満であるか否かを判定する。

ステップＳ８７において、オブジェクト番号がＮ未満であると判定された場合、ステップＳ８８において、オブジェクトオーディオ信号復号部１４５は、処理対象のオブジェクトのオーディオ信号の符号化データを復号する。

すなわち、オブジェクトオーディオ信号取得部１４４は、供給されたビットストリームから、処理対象のオブジェクトの符号化データを取得してオブジェクトオーディオ信号復号部１４５に供給する。すると、オブジェクトオーディオ信号復号部１４５は、オブジェクトオーディオ信号取得部１４４から供給された符号化データを復号し、その結果得られたMDCT係数を優先度情報生成部１４６および出力選択部１４７に供給する。

また、オブジェクトオーディオ信号取得部１４４は、供給されたビットストリームから処理対象のオブジェクトのメタデータおよびコンテンツ情報を取得して、メタデータおよびコンテンツ情報を優先度情報生成部１４６に供給するとともに、メタデータをレンダリング部１１２に供給する。

ステップＳ８９において、優先度情報生成部１４６は、処理対象のオブジェクトのオーディオ信号の優先度情報を生成し、出力選択部１４７に供給する。

すなわち、優先度情報生成部１４６は、オブジェクトオーディオ信号取得部１４４から供給されたメタデータ、オブジェクトオーディオ信号取得部１４４から供給されたコンテンツ情報、およびオブジェクトオーディオ信号復号部１４５から供給されたMDCT係数のうちの少なくとも何れか１つに基づいて優先度情報を生成する。

ステップＳ８９では、図３のステップＳ１１と同様の処理が行われて優先度情報が生成される。具体的には、例えば優先度情報生成部１４６は、上述した式（１）乃至式（９）の何れかや、オブジェクトのオーディオ信号の音圧とゲイン情報に基づいて優先度情報を生成する方法、式（１０）や式（１１）、式（１２）などによりオブジェクトの優先度情報を生成する。例えば優先度情報の生成に、オーディオ信号の音圧が用いられる場合には、優先度情報生成部１４６は、オブジェクトオーディオ信号復号部１４５から供給されたMDCT係数の二乗和をオーディオ信号の音圧として用いる。

ステップＳ９０において、出力選択部１４７は、優先度情報生成部１４６から供給された処理対象のオブジェクトの優先度情報が、図示せぬ上位の制御装置等により指定された閾値Ｑ以上であるか否かを判定する。ここで閾値Ｑは、例えば復号装置１０１の計算能力等に応じて定められる。

ステップＳ９０において、優先度情報が閾値Ｑ以上であると判定された場合、出力選択部１４７は、オブジェクトオーディオ信号復号部１４５から供給された、処理対象のオブジェクトのMDCT係数をIMDCT部１４９に供給し、処理はステップＳ９１に進む。この場合、処理対象のオブジェクトについての復号、より詳細にはIMDCTが行われる。

ステップＳ９１において、IMDCT部１４９は、出力選択部１４７から供給されたMDCT係数に基づいてIMDCTを行って、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部１１２に供給する。オーディオ信号が生成されると、その後、処理はステップＳ９２へと進む。

これに対して、ステップＳ９０において、優先度情報が閾値Ｑ未満であると判定された場合、出力選択部１４７は、MDCT係数を０として０値出力部１４８に供給する。

０値出力部１４８は、出力選択部１４７から供給された０であるMDCT係数から、処理対象のオブジェクトのオーディオ信号を生成し、レンダリング部１１２に供給する。したがって、０値出力部１４８では、実質的にはIMDCTなどのオーディオ信号を生成するための処理は何も行われない。換言すれば、符号化データの復号、より詳細にはMDCT係数に対するIMDCTは実質的に行われない。

なお、０値出力部１４８により生成されるオーディオ信号は無音信号である。オーディオ信号が生成されると、その後、処理はステップＳ９２へと進む。

ステップＳ９０において優先度情報が閾値Ｑ未満であると判定されたか、またはステップＳ９１においてオーディオ信号が生成されると、ステップＳ９２において、オブジェクトオーディオ信号取得部１４４は、保持しているオブジェクト番号に１を加え、処理対象のオブジェクトのオブジェクト番号を更新する。

オブジェクト番号が更新されると、その後、処理はステップＳ８７に戻り、上述した処理が繰り返し行われる。すなわち、新たな処理対象のオブジェクトのオーディオ信号が生成される。

また、ステップＳ８７において、処理対象のオブジェクトのオブジェクト番号がＮ未満ではないと判定された場合、全チャネルおよび必要なオブジェクトについてオーディオ信号が得られたので選択復号処理は終了し、その後、処理は図６のステップＳ５３に進む。

以上のようにして、復号装置１０１は各オブジェクトについて優先度情報を生成し、優先度情報と閾値とを比較して符号化されたオーディオ信号の復号を行うか否かを判定しながら、符号化されたオーディオ信号を復号する。

これにより、再生環境に合わせて優先度合いの高いオーディオ信号のみを選択的に復号することができ、オーディオ信号により再生される音の音質の劣化を最小限に抑えつつ、復号の計算量を低減させることができる。

しかも、各オブジェクトのオーディオ信号の優先度情報に基づいて、符号化されたオーディオ信号の復号を行うことで、オーディオ信号の復号の計算量だけでなく、レンダリング部１１２等における処理など、その後の処理の計算量も低減させることができる。

また、オブジェクトのメタデータや、コンテンツ情報、オブジェクトのMDCT係数などに基づいてオブジェクトの優先度情報を生成することで、ビットストリームに優先度情報が含まれていない場合でも低コストで適切な優先度情報を得ることができる。特に、復号装置１０１で優先度情報を生成する場合には、ビットストリームに優先度情報を格納する必要がないので、ビットストリームのビットレートも低減させることができる。

〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図８は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する優先度情報生成部を備える
信号処理装置。
（２）
前記要素は前記オーディオオブジェクトのメタデータである
（１）に記載の信号処理装置。
（３）
前記要素は空間上における前記オーディオオブジェクトの位置である
（１）または（２）に記載の信号処理装置。
（４）
前記要素は前記空間上における基準位置から前記オーディオオブジェクトまでの距離である
（３）に記載の信号処理装置。
（５）
前記要素は前記空間上における前記オーディオオブジェクトの水平方向の位置を示す水平方向角度である
（３）に記載の信号処理装置。
（６）
前記優先度情報生成部は、前記メタデータに基づいて前記オーディオオブジェクトの移動速度に応じた前記優先度情報を生成する
（２）乃至（５）の何れか一項に記載の信号処理装置。
（７）
前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報である
（１）乃至（６）の何れか一項に記載の信号処理装置。
（８）
前記優先度情報生成部は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて、前記処理対象の単位時間の前記優先度情報を生成する
（７）に記載の信号処理装置。
（９）
前記優先度情報生成部は、前記ゲイン情報が乗算された前記オーディオ信号の音圧に基づいて前記優先度情報を生成する
（７）に記載の信号処理装置。
（１０）
前記要素はスプレッド情報である
（１）乃至（９）の何れか一項に記載の信号処理装置。
（１１）
前記優先度情報生成部は、前記スプレッド情報に基づいて、前記オーディオオブジェクトの領域の面積に応じた前記優先度情報を生成する
（１０）に記載の信号処理装置。
（１２）
前記要素は前記オーディオオブジェクトの音の属性を示す情報である
（１）乃至（１１）の何れか一項に記載の信号処理装置。
（１３）
前記要素は前記オーディオオブジェクトのオーディオ信号である
（１）乃至（１２）の何れか一項に記載の信号処理装置。
（１４）
前記優先度情報生成部は、前記オーディオ信号に対する音声区間検出処理の結果に基づいて前記優先度情報を生成する
（１３）に記載の信号処理装置。
（１５）
前記優先度情報生成部は、生成した前記優先度情報に対して時間方向の平滑化を行い、最終的な前記優先度情報とする
（１）乃至（１４）の何れか一項に記載の信号処理装置。
（１６）
オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
ステップを含む信号処理方法。
（１７）
オーディオオブジェクトの特徴を表す複数の要素に基づいて、前記オーディオオブジェクトの優先度情報を生成する
ステップを含む処理をコンピュータに実行させるプログラム。

１１符号化装置，２２オブジェクトオーディオ符号化部，２３メタデータ入力部，５１符号化部，５２優先度情報生成部，１０１復号装置，１１１アンパッキング／復号部，１４４オブジェクトオーディオ信号取得部，１４５オブジェクトオーディオ信号復号部，１４６優先度情報生成部，１４７出力選択部

Claims

オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信する優先度情報受信部と、
受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行う復号部と
を備え、
前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報であり、
前記優先度情報は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて生成された、前記処理対象の単位時間の前記優先度情報である
信号処理装置。
前記要素は前記オーディオオブジェクトのメタデータである
請求項１に記載の信号処理装置。
前記要素は空間上における前記オーディオオブジェクトの位置である
請求項１に記載の信号処理装置。
前記要素は前記空間上における基準位置から前記オーディオオブジェクトまでの距離である
請求項３に記載の信号処理装置。
前記要素は前記空間上における前記オーディオオブジェクトの水平方向の位置を示す水平方向角度である
請求項３に記載の信号処理装置。
前記優先度情報は、前記メタデータに基づいて前記オーディオオブジェクトの移動速度に応じて生成された前記優先度情報である
請求項２に記載の信号処理装置。
前記優先度情報は、前記ゲイン情報が乗算された前記オーディオ信号の音圧に基づいて生成された前記優先度情報である
請求項１に記載の信号処理装置。
前記要素はスプレッド情報である
請求項１に記載の信号処理装置。
前記優先度情報は、前記スプレッド情報に基づいて、前記オーディオオブジェクトの領域の面積に応じて生成された前記優先度情報である
請求項８に記載の信号処理装置。
前記要素は前記オーディオオブジェクトの音の属性を示す情報である
請求項１に記載の信号処理装置。
前記要素は前記オーディオオブジェクトのオーディオ信号である
請求項１に記載の信号処理装置。
前記優先度情報は、前記オーディオ信号に対する音声区間検出処理の結果に基づいて生成された前記優先度情報である
請求項１１に記載の信号処理装置。
前記優先度情報は、生成した前記優先度情報に対して時間方向の平滑化を行うことで得られたものである
請求項１に記載の信号処理装置。
オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信し、
受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行う
ステップを含み、
前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報であり、
前記優先度情報は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて生成された、前記処理対象の単位時間の前記優先度情報である
信号処理方法。
オーディオオブジェクトの特徴を表す複数の要素に基づいた、前記オーディオオブジェクトの優先度情報を受信し、
受信した前記優先度情報に基づいて、優先度の高い前記オーディオオブジェクトのみ復号を行う
ステップを含む処理をコンピュータに実行させ、
前記要素は前記オーディオオブジェクトのオーディオ信号に乗算されるゲイン情報であり、
前記優先度情報は、処理対象の単位時間の前記ゲイン情報と、複数の単位時間の前記ゲイン情報の平均値との差分に基づいて生成された、前記処理対象の単位時間の前記優先度情報である
プログラム。