JP6915536B2

JP6915536B2 - 符号化装置および方法、復号装置および方法、並びにプログラム

Info

Publication number: JP6915536B2
Application number: JP2017524823A
Authority: JP
Inventors: 優樹山本; 徹知念; 辻　実; 実辻
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2015-06-19
Filing date: 2016-06-03
Publication date: 2021-08-04
Anticipated expiration: 2036-06-03
Also published as: KR20170141276A; BR112017026743B1; JP2023025251A; RU2017143404A; CN107637097B; EP3316599A1; KR102140388B1; EP3316599B1; HK1244384A1; TW201717663A; US20190304479A1; RU2720439C2; RU2017143404A3; CA3232321A1; CA2989099C; TWI607655B; EP3316599A4; BR112017026743A2; JP7509190B2; WO2016203994A1

Description

本技術は符号化装置および方法、復号装置および方法、並びにプログラムに関し、特に、より高音質な音声を得ることができるようにした符号化装置および方法、復号装置および方法、並びにプログラムに関する。

従来、オーディオオブジェクトのオーディオ信号と、そのオーディオオブジェクトの位置情報などのメタデータとを圧縮（符号化）するMPEG(Moving Picture Experts Group)-H 3D Audio規格が知られている（例えば、非特許文献１参照）。

この技術では、オーディオオブジェクトのオーディオ信号とメタデータがフレームごとに符号化されて伝送される。このとき、オーディオオブジェクトのオーディオ信号の１フレームにつき、最大で１つのメタデータが符号化されて伝送される。つまり、フレームによっては、メタデータがない場合もある。

また、符号化されたオーディオ信号とメタデータは、復号装置において復号され、復号により得られたオーディオ信号とメタデータに基づいてレンダリングが行われる。

すなわち、復号装置では、まずオーディオ信号とメタデータが復号される。復号の結果、オーディオ信号については、フレーム内のサンプルごとのPCM（Pulse Code Modulation）サンプル値が得られる。つまり、オーディオ信号としてPCMデータが得られる。

一方、メタデータについては、フレーム内の代表サンプルのメタデータ、具体的にはフレーム内の最後のサンプルのメタデータが得られる。

このようにしてオーディオ信号とメタデータが得られると、復号装置内のレンダラは、フレーム内の代表サンプルのメタデータとしての位置情報に基づいて、その位置情報により示される位置にオーディオオブジェクトの音像が定位するように、VBAP（Vector Base Amplitude Panning）によりVBAPゲインを算出する。このVBAPゲインは、再生側のスピーカごとに算出される。

但し、オーディオオブジェクトのメタデータは、上述したようにフレーム内の代表サンプル、つまりフレーム内の最後のサンプルのメタデータである。したがって、レンダラで算出されたVBAPゲインはフレーム内の最後のサンプルのゲインであり、フレーム内のそれ以外のサンプルのVBAPゲインは求められていない。そのため、オーディオオブジェクトの音声を再生するには、オーディオ信号の代表サンプル以外のサンプルのVBAPゲインも算出する必要がある。

そこで、レンダラでは補間処理により各サンプルのVBAPゲインが算出される。具体的には、スピーカごとに、現フレームの最後のサンプルのVBAPゲインと、その現フレームの直前のフレームの最後のサンプルのVBAPゲインとから、それらのサンプルの間にある現フレームのサンプルのVBAPゲインが線形補間により算出される。

このようにして、オーディオオブジェクトのオーディオ信号に乗算される各サンプルのVBAPゲインがスピーカごとに得られると、オーディオオブジェクトの音声を再生することができるようになる。

すなわち、復号装置では、スピーカごとに算出されたVBAPゲインが、そのオーディオオブジェクトのオーディオ信号に乗算されて各スピーカに供給され、音声が再生される。

ISO/IEC JTC1/SC29/WG11 N14747, August 2014, Sapporo, Japan, "Text of ISO/IEC 23008-3/DIS, 3D Audio"

しかしながら、上述した技術では、十分に高音質な音声を得ることが困難であった。

例えばVBAPでは、算出された各スピーカのVBAPゲインの２乗和が１となるように正規化が行われる。このような正規化により、音像の定位位置は、再生空間において所定の基準点、例えば音声付の動画像や楽曲などのコンテンツを視聴する仮想のユーザの頭部位置を中心とする、半径が１の球の表面上に位置するようになる。

しかし、フレーム内の代表サンプル以外のサンプルのVBAPゲインは補間処理により算出されるため、そのようなサンプルの各スピーカのVBAPゲインの２乗和は１とはならない。そのため、補間処理によりVBAPゲインを算出したサンプルについては、音声の再生時に音像の位置が仮想のユーザから見て、上述した球面の法線方向や、球の表面上の上下左右方向にずれてしまうことになる。そうすると、音声再生時において、１フレームの期間内でオーディオオブジェクトの音像位置がゆらいだりして定位感が悪化し、音声の音質が劣化してしまう。

特に、１フレームを構成するサンプル数が多くなればなるほど、現フレームの最後のサンプル位置と、その現フレームの直前のフレームの最後のサンプル位置との間の長さが長くなる。そうすると、補間処理により算出された各スピーカのVBAPゲインの２乗和と１との差が大きくなり、音質の劣化が大きくなる。

また、代表サンプル以外のサンプルのVBAPゲインを補間処理により算出する場合、オーディオオブジェクトの動きが速いときほど、現フレームの最後のサンプルのVBAPゲインと、その現フレームの直前のフレームの最後のサンプルのVBAPゲインとの差が大きくなる。そうすると、オーディオオブジェクトの動きを正確にレンダリングすることができなくなり、音質が劣化してしまう。

さらに、スポーツや映画などの実際のコンテンツでは、シーンが不連続に切り替わる。そのような場合、シーンの切り替わり部分では、オーディオオブジェクトが不連続に移動することになる。しかし、上述したように補間処理によりVBAPゲインを算出すると、補間処理によりVBAPゲインを算出したサンプルの区間、つまり現フレームの最後のサンプルと、その現フレームの直前のフレームの最後のサンプルとの間では、音声についてはオーディオオブジェクトが連続的に移動していることになってしまう。そうすると、オーディオオブジェクトの不連続な移動をレンダリングにより表現することができなくなってしまい、その結果、音声の音質が劣化してしまう。

本技術は、このような状況に鑑みてなされたものであり、より高音質な音声を得ることができるようにするものである。

本技術の第１の側面の復号装置は、オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化して得られた符号化オーディオデータと、前記フレームの複数のメタデータとを取得する取得部と、前記符号化オーディオデータを復号する復号部と、前記復号により得られたオーディオ信号と、前記複数のメタデータとに基づいてレンダリングを行うレンダリング部とを備え、前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである。

前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれているようにすることができる。

前記複数のメタデータには、メタデータに基づいて算出される前記オーディオ信号のサンプルのゲインの補間処理を行うためのメタデータが含まれているようにすることができる。

本技術の第１の側面の復号方法またはプログラムは、オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化して得られた符号化オーディオデータと、前記フレームの複数のメタデータとを取得し、前記符号化オーディオデータを復号し、前記復号により得られたオーディオ信号と、前記複数のメタデータとに基づいてレンダリングを行うステップを含み、前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである。

本技術の第１の側面においては、オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化して得られた符号化オーディオデータと、前記フレームの複数のメタデータとが取得され、前記符号化オーディオデータが復号され、前記復号により得られたオーディオ信号と、前記複数のメタデータとに基づいてレンダリングが行われる。また、前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである。

本技術の第２の側面の符号化装置は、オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化する符号化部と、前記符号化により得られた符号化オーディオデータと、前記フレームの複数のメタデータとが含まれたビットストリームを生成する生成部とを備え、前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである。

符号化装置には、メタデータに対する補間処理を行う補間処理部をさらに設けることができる。

本技術の第２の側面の符号化方法またはプログラムは、オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化し、前記符号化により得られた符号化オーディオデータと、前記フレームの複数のメタデータとが含まれたビットストリームを生成するステップを含み、前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである。

本技術の第２の側面においては、オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号が符号化され、前記符号化により得られた符号化オーディオデータと、前記フレームの複数のメタデータとが含まれたビットストリームが生成される。また、前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである。

本技術の第１の側面および第２の側面によれば、より高音質な音声を得ることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

ビットストリームについて説明する図である。符号化装置の構成例を示す図である。符号化処理を説明するフローチャートである。復号装置の構成例を示す図である。復号処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術の概要について〉
本技術は、オーディオオブジェクトのオーディオ信号と、そのオーディオオブジェクトの位置情報などのメタデータとを符号化して伝送したり、復号側においてそれらのオーディオ信号とメタデータを復号して音声を再生したりする場合に、より高音質な音声を得ることができるようにするものである。なお、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。

本技術では、１フレームのオーディオ信号について複数のメタデータ、すなわち２以上のメタデータを符号化して送信するようにした。

ここで、メタデータは、オーディオ信号のフレーム内のサンプルのメタデータ、つまりサンプルに対して与えられたメタデータである。例えばメタデータとしての位置情報により示される空間内のオーディオオブジェクトの位置は、そのメタデータが与えられたサンプルに基づく音声の再生タイミングにおける位置を示している。

また、メタデータを送信する方法として以下に示す３つの方法、すなわち個数指定方式、サンプル指定方式、および自動切り替え方式による送信方法のうちの何れかの方法によりメタデータを送信することができる。また、メタデータ送信時には、所定時間間隔の区間であるフレームごとやオブジェクトごとに、それらの３つの方式を切り替えながらメタデータを送信することができる。

（個数指定方式）
まず、個数指定方式について説明する。

個数指定方式は、１フレームに対して送信されるメタデータの数を示すメタデータ個数情報をビットストリームシンタックスに含め、指定された個数のメタデータを送信する方式である。なお、１フレームを構成するサンプルの数を示す情報は、ビットストリームのヘッダ内に格納されている。

また、送信される各メタデータが、１フレーム内のどのサンプルのメタデータであるかは、１フレームを等分したときの位置など、予め定められているようにすればよい。

例えば、１フレームを構成するサンプルの数が2048サンプルであり、１フレームにつき４つのメタデータを送信するとする。このとき、１フレームの区間を、送信するメタデータの数で等分し、分割された区間境界のサンプル位置のメタデータを送るものとする。すなわち、１フレームのサンプル数をメタデータ数で除算して得られるサンプル数の間隔で並ぶフレーム内のサンプルのメタデータを送信するとする。

この場合、フレーム先頭から、それぞれ512個目のサンプル、1024個目のサンプル、1536個目のサンプル、および2048個目のサンプルについてメタデータが送信される。

その他、１フレームを構成するサンプルの数をSとし、１フレームにつき送信されるメタデータの数をAとしたときに、S/2^(A-1)により定まるサンプル位置のメタデータが送信されるようにしてもよい。すなわち、フレーム内においてS/2^(A-1)サンプル間隔で並ぶサンプルの一部または全部のメタデータを送信してもよい。この場合、例えばメタデータ数A＝1であるときには、フレーム内の最後のサンプルのメタデータが送信されることになる。

また、所定間隔で並ぶサンプルごと、つまり所定サンプル数ごとにメタデータを送信するようにしてもよい。

（サンプル指定方式）
次に、サンプル指定方式について説明する。

サンプル指定方式では、上述した個数指定方式において送信されるメタデータ個数情報に加えて、さらに各メタデータのサンプル位置を示すサンプルインデックスもビットストリームに格納されて送信される。

例えば１フレームを構成するサンプルの数が2048サンプルであり、１フレームにつき４つのメタデータを送信するとする。また、フレーム先頭から、それぞれ128個目のサンプル、512個目のサンプル、1536個目のサンプル、および2048個目のサンプルについてメタデータを送信するとする。

この場合、ビットストリームには、１フレームにつき送信されるメタデータの個数「４」を示すメタデータ個数情報と、フレーム先頭から128個目のサンプル、512個目のサンプル、1536個目のサンプル、および2048個目のサンプルのそれぞれのサンプルの位置を示すサンプルインデックスのそれぞれとが格納される。例えばフレーム先頭から128個目のサンプルの位置を示すサンプルインデックスの値は、128などとされる。

サンプル指定方式では、フレームごとに任意のサンプルのメタデータを送信することが可能となるため、例えばシーンの切り替わり位置の前後のサンプルのメタデータを送信することができる。この場合、レンダリングによりオブジェクトの不連続な移動を表現することができ、高音質な音声を得ることができる。

（自動切り替え方式）
さらに、自動切り替え方式について説明する。

自動切り替え方式では、１フレームを構成するサンプルの数、つまり１フレームのサンプル数に応じて、各フレームにつき送信されるメタデータの数が自動的に切り替えられる。

例えば１フレームのサンプル数が1024サンプルである場合には、フレーム内において256サンプル間隔で並ぶ各サンプルのメタデータが送信される。この例では、フレーム先頭から、それぞれ256個目のサンプル、512個目のサンプル、768個目のサンプル、および1024個目のサンプルについて、合計４個のメタデータが送信される。

また、例えば１フレームのサンプル数が2048サンプルである場合には、フレーム内において256サンプル間隔で並ぶ各サンプルのメタデータが送信される。この例では、合計８個のメタデータが送信されることになる。

このように個数指定方式、サンプル指定方式、および自動切り替え方式の各方式で１フレームにつき２以上のメタデータを送信すれば、フレームを構成するサンプルの数が多い場合などに、より多くのメタデータを送信することができる。

これにより、線形補間によりVBAPゲインが算出されるサンプルが連続して並ぶ区間の長さがより短くなり、より高音質な音声を得ることができるようになる。

例えば線形補間によりVBAPゲインが算出されるサンプルが連続して並ぶ区間の長さがより短くなれば、各スピーカのVBAPゲインの２乗和と１との差も小さくなるので、オブジェクトの音像の定位感を向上させることができる。

また、メタデータを有するサンプル間の距離も短くなるので、それらのサンプルにおけるVBAPゲインの差も小さくなり、オブジェクトの動きをより正確にレンダリングすることができる。さらにメタデータを有するサンプル間の距離が短くなると、シーンの切り替わり部分など、本来オブジェクトが不連続に移動する期間において、音声についてオブジェクトが連続的に移動しているかのようになってしまう期間をより短くすることができる。特に、サンプル指定方式では、適切なサンプル位置のメタデータを送信することで、オブジェクトの不連続な移動を表現することができる。

なお、以上において説明した個数指定方式、サンプル指定方式、および自動切り替え方式の３つの方式の何れか１つのみを用いてメタデータを送信するようにしてもよいが、それらの３つの方式のうちの２以上の方式をフレームごとやオブジェクトごとに切り替えるようにしてもよい。

例えば個数指定方式、サンプル指定方式、および自動切り替え方式の３つの方式をフレームごとやオブジェクトごとに切り替える場合には、ビットストリームに、何れの方式によりメタデータが送信されたかを示す切り替えインデックスを格納するようにすればよい。

この場合、例えば切り替えインデックスの値が０のときは個数指定方式が選択されたこと、つまり個数指定方式によりメタデータが送信されたことを示しており、切り替えインデックスの値が１のときはサンプル指定方式が選択されたことを示しており、切り替えインデックスの値が２のときは自動切り替え方式が選択されたことを示しているなどとされる。以下では、これらの個数指定方式、サンプル指定方式、および自動切り替え方式が、フレームごとやオブジェクトごとに切り替えられるものとして説明を続ける。

また、上述したMPEG-H 3D Audio規格で定められているオーディオ信号とメタデータの送信方法では、フレーム内の最後のサンプルのメタデータのみが送信される。そのため、補間処理により各サンプルのVBAPゲインを算出する場合には、現フレームよりも前のフレームの最後のサンプルのVBAPゲインが必要となる。

したがって、例えば再生側（復号側）において、任意のフレームのオーディオ信号から再生を開始するランダムアクセスをしようとしても、そのランダムアクセスしたフレームよりも前のフレームのVBAPゲインは算出されていないので、VBAPゲインの補間処理を行うことができない。このような理由から、MPEG-H 3D Audio規格ではランダムアクセスを行うことができなかった。

そこで、本技術では、各フレームや任意の間隔のフレーム等において、それらのフレームのメタデータとともに、補間処理を行うために必要となるメタデータも送信することで、現フレームよりも前のフレームのサンプル、または現フレームの先頭のサンプルのVBAPゲインを算出できるようにした。これにより、ランダムアクセスが可能となる。なお、以下では、通常のメタデータとともに送信される、補間処理を行うためのメタデータを特に追加メタデータとも称することとする。

ここで、現フレームのメタデータとともに送信される追加メタデータは、例えば現フレームの直前のフレームの最後のサンプルのメタデータ、または現フレームの先頭のサンプルのメタデータなどとされる。

また、フレームごとに追加メタデータがあるか否かを容易に特定することができるように、ビットストリーム内に各オブジェクトについて、フレームごとに追加メタデータの有無を示す追加メタデータフラグが格納される。例えば所定のフレームの追加メタデータフラグの値が１である場合、そのフレームには追加メタデータが存在し、追加メタデータフラグの値が０である場合には、そのフレームには追加メタデータは存在しないなどとされる。

なお、基本的には、同一フレームの全てのオブジェクトの追加メタデータフラグの値は同じ値とされる。

このようにフレームごとに追加メタデータフラグを送信するとともに、必要に応じて追加メタデータを送信することで、追加メタデータのあるフレームについては、ランダムアクセスを行うことができるようになる。

なお、ランダムアクセスのアクセス先として指定されたフレームに追加メタデータがないときには、そのフレームに時間的に最も近い、追加メタデータのあるフレームをランダムアクセスのアクセス先とすればよい。したがって、適切なフレーム間隔等で追加メタデータを送信することで、ユーザに不自然さを感じさせることなくランダムアクセスを実現することが可能となる。

以上、追加メタデータの説明を行ったが、ランダムアクセスのアクセス先として指定されたフレームにおいて、追加メタデータを用いずに、VBAPゲインの補間処理を行うようにしても良い。この場合、追加メタデータを格納することによるビットストリームのデータ量（ビットレート）の増大を抑えつつ、ランダムアクセスが可能となる。

具体的には、ランダムアクセスのアクセス先として指定されたフレームにおいて、現フレームよりも前のフレームのVBAPゲインの値を０として、現フレームで算出されるVBAPゲインの値との補間処理を行う。なお、この方法に限らず、現フレームの各サンプルのVBAPゲインの値が、すべて、現フレームで算出されるVBAPゲインと同一の値となるように補間処理を行うようにしても良い。一方、ランダムアクセスのアクセス先として指定されないフレームにおいては、従来通り、現フレームよりも前のフレームのVBAPゲインを用いた補間処理が行われる。

このように、ランダムアクセスのアクセス先として指定されたか否かに基づいてVBAPゲインの補間処理の切り替えを行うことにより、追加メタデータを用いずに、ランダムアクセスをすることが可能となる。

なお、上述したMPEG-H 3D Audio規格では、フレームごとに、現フレームが、ビットストリーム内の現フレームのみのデータを用いて復号およびレンダリングできるフレーム（独立フレームと称する）であるか否かを示す、独立フラグ（indepFlagとも称する）がビットストリーム内に格納されている。独立フラグの値が１である場合、復号側では、ビットストリーム内の、現フレームよりも前のフレームのデータ、及びそのデータの復号により得られるいかなる情報も用いることなく復号およびレンダリングを行うことができるとされている。

したがって、独立フラグの値が１である場合、現フレームよりも前のフレームのVBAPゲインを用いずに復号およびレンダリングを行うことが必要となる。

そこで、独立フラグの値が１であるフレームにおいて、上述の追加メタデータをビットストリームに格納するようにしても良いし、上述の補間処理の切り替えを行っても良い。

このように、独立フラグの値に応じて、ビットストリーム内に追加メタデータを格納するか否かの切り替えや、VBAPゲインの補間処理の切り替えを行うことで、独立フラグの値が１である場合に、現フレームよりも前のフレームのVBAPゲインを用いずに復号およびレンダリングを行うことが可能となる。

さらに、上述したMPEG-H 3D Audio規格では、復号により得られるメタデータは、フレーム内の代表サンプル、つまり最後のサンプルのメタデータのみであると説明した。しかし、そもそもオーディオ信号とメタデータの符号化側においては、符号化装置に入力される圧縮（符号化）前のメタデータもフレーム内の全サンプルについて定義されているものは殆どない。つまり、オーディオ信号のフレーム内のサンプルには、符号化前の状態からメタデータのないサンプルも多い。

現状では、例えば0番目のサンプル、1024番目のサンプル、2048番目のサンプルなどの等間隔で並ぶサンプルのみメタデータを有していたり、0番目のサンプル、138番目のサンプル、2044番目のサンプルなどの不等間隔で並ぶサンプルのみメタデータを有していたりすることが殆どである。

このような場合、フレームによってはメタデータを有するサンプルが１つも存在しないこともあり、そのようなフレームについてはメタデータが送信されないことになる。そうすると、復号側において、メタデータを有するサンプルが１つもないフレームについて、各サンプルのVBAPゲインを算出するには、そのフレーム以降のメタデータのあるフレームのVBAPゲインの算出を行わなければならなくなる。その結果、メタデータの復号とレンダリングに遅延が発生し、リアルタイムで復号およびレンダリングを行うことができなくなってしまう。

そこで、本技術では、符号化側において、必要に応じてメタデータを有するサンプル間の各サンプルについて、補間処理（サンプル補間）によりそれらのサンプルのメタデータを求め、復号側においてリアルタイムで復号およびレンダリングを行うことができるようにした。特に、ビデオゲームなどにおいては、オーディオ再生の遅延をできるだけ小さくしたいという要求がある。そのため、本技術により復号およびレンダリングの遅延を小さくすること、つまりゲーム操作等に対するインタラクティブ性を向上させることができるようにすることの意義は大きい。

なお、メタデータの補間処理は、例えば線形補間、高次関数を用いた非線形補間など、どのような処理であってもよい。

〈ビットストリームについて〉
次に、以上において説明した本技術を適用した、より具体的な実施の形態について説明する。

各オブジェクトのオーディオ信号とメタデータを符号化する符号化装置からは、例えば図１に示すビットストリームが出力される。

図１に示すビットストリームでは、先頭にヘッダが配置されており、そのヘッダ内には、各オブジェクトのオーディオ信号の１フレームを構成するサンプルの数、すなわち１フレームのサンプル数を示す情報（以下、サンプル数情報とも称する）が格納されている。

そして、ビットストリームにおいてヘッダの後ろには、フレームごとのデータが配置される。具体的には、領域Ｒ１０の部分には、現フレームが、独立フレームであるか否かを示す、独立フラグが配置されている。そして、領域Ｒ１１の部分には、同一フレームの各オブジェクトのオーディオ信号を符号化して得られた符号化オーディオデータが配置されている。

また、領域Ｒ１１に続く領域Ｒ１２の部分には、同一フレームの各オブジェクトのメタデータ等を符号化して得られた符号化メタデータが配置されている。

例えば領域Ｒ１２内の領域Ｒ２１の部分には、１つのオブジェクトの１フレーム分の符号化メタデータが配置されている。

この例では、符号化メタデータの先頭には、追加メタデータフラグが配置されており、その追加メタデータフラグに続いて、切り替えインデックスが配置されている。

さらに、切り替えインデックスの次にはメタデータ個数情報とサンプルインデックスが配置されている。なお、ここではサンプルインデックスが１つだけ描かれているが、より詳細には、サンプルインデックスは、符号化メタデータに格納されるメタデータの数だけ、その符号化メタデータ内に格納される。

符号化メタデータでは、切り替えインデックスにより示される方式が個数指定方式である場合には、切り替えインデックスに続いてメタデータ個数情報は配置されるが、サンプルインデックスは配置されない。

また、切り替えインデックスにより示される方式がサンプル指定方式である場合には、切り替えインデックスに続いてメタデータ個数情報およびサンプルインデックスが配置される。さらに、切り替えインデックスにより示される方式が自動切り替え方式である場合には、切り替えインデックスに続いてメタデータ個数情報もサンプルインデックスも配置されない。

必要に応じて配置されるメタデータ個数情報やサンプルインデックスに続く位置には、追加メタデータが配置され、さらにその追加メタデータに続いて各サンプルのメタデータが定義された個数分だけ配置される。

ここで、追加メタデータは、追加メタデータフラグの値が１である場合にのみ配置され、追加メタデータフラグの値が０である場合には配置されない。

領域Ｒ１２の部分には、領域Ｒ２１の部分に配置された符号化メタデータと同様の符号化メタデータがオブジェクトごとに並べられて配置されている。

ビットストリームでは、領域Ｒ１０の部分に配置された独立フラグと、領域Ｒ１１の部分に配置された各オブジェクトの符号化オーディオデータと、領域Ｒ１２の部分に配置された各オブジェクトの符号化メタデータとから、１フレーム分のデータが構成される。

〈符号化装置の構成例〉
次に、図１に示したビットストリームを出力する符号化装置の構成について説明する。図２は、本技術を適用した符号化装置の構成例を示す図である。

符号化装置１１は、オーディオ信号取得部２１、オーディオ信号符号化部２２、メタデータ取得部２３、補間処理部２４、関連情報取得部２５、メタデータ符号化部２６、多重化部２７、および出力部２８を有している。

オーディオ信号取得部２１は、各オブジェクトのオーディオ信号を取得してオーディオ信号符号化部２２に供給する。オーディオ信号符号化部２２は、オーディオ信号取得部２１から供給されたオーディオ信号をフレーム単位で符号化し、その結果得られた各オブジェクトのフレームごとの符号化オーディオデータを多重化部２７に供給する。

メタデータ取得部２３は、各オブジェクトのフレームごとのメタデータ、より詳細にはフレーム内の各サンプルのメタデータを取得して補間処理部２４に供給する。ここで、メタデータには、例えば空間内におけるオブジェクトの位置を示す位置情報、オブジェクトの重要度を示す重要度情報、オブジェクトの音像の広がり度合いを示す情報などが含まれている。メタデータ取得部２３では、各オブジェクトのオーディオ信号の所定サンプル（PCMサンプル）のメタデータが取得される。

補間処理部２４は、メタデータ取得部２３から供給されたメタデータに対する補間処理を行って、オーディオ信号のメタデータのないサンプルのうちの、全てのサンプルまたは一部の特定のサンプルのメタデータを生成する。補間処理部２４では、１つのオブジェクトの１フレームのオーディオ信号が複数のメタデータを有するように、つまり１フレーム内の複数のサンプルがメタデータを有するように、補間処理によりフレーム内のサンプルのメタデータが生成される。

補間処理部２４は、補間処理により得られた、各オブジェクトのフレームごとのメタデータをメタデータ符号化部２６に供給する。

関連情報取得部２５は、フレームごとに、現フレームを、独立フレームにするかを示す情報（独立フレーム情報と称する）や、各オブジェクトについて、オーディオ信号のフレームごとに、サンプル数情報や、何れの方式でメタデータを送信するかを示す情報、追加メタデータを送信するかを示す情報、どのサンプルのメタデータを送信するかを示す情報など、メタデータに関連する情報を関連情報として取得する。また、関連情報取得部２５は、取得した関連情報に基づいて、各オブジェクトについて、フレームごとに追加メタデータフラグ、切り替えインデックス、メタデータ個数情報、およびサンプルインデックスのうちの必要な情報を生成し、メタデータ符号化部２６に供給する。

メタデータ符号化部２６は、関連情報取得部２５から供給された情報に基づいて、補間処理部２４から供給されたメタデータの符号化を行い、その結果得られた各オブジェクトのフレームごとの符号化メタデータと、関連情報取得部２５から供給された情報に含まれる独立フレーム情報とを多重化部２７に供給する。

多重化部２７は、オーディオ信号符号化部２２から供給された符号化オーディオデータと、メタデータ符号化部２６から供給された符号化メタデータと、メタデータ符号化部２６から供給された独立フレーム情報に基づき得られる独立フラグとを多重化してビットストリームを生成し、出力部２８に供給する。出力部２８は、多重化部２７から供給されたビットストリームを出力する。すなわち、ビットストリームが送信される。

〈符号化処理の説明〉
符号化装置１１は、外部からオブジェクトのオーディオ信号が供給されると、符号化処理を行ってビットストリームを出力する。以下、図３のフローチャートを参照して、符号化装置１１による符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。

ステップＳ１１において、オーディオ信号取得部２１は、各オブジェクトのオーディオ信号を１フレーム分だけ取得してオーディオ信号符号化部２２に供給する。

ステップＳ１２において、オーディオ信号符号化部２２は、オーディオ信号取得部２１から供給されたオーディオ信号を符号化し、その結果得られた各オブジェクトの１フレーム分の符号化オーディオデータを多重化部２７に供給する。

例えばオーディオ信号符号化部２２は、オーディオ信号に対してMDCT（Modified Discrete Cosine Transform）等を行うことで、オーディオ信号を時間信号から周波数信号に変換する。そして、オーディオ信号符号化部２２は、MDCTにより得られたMDCT係数を符号化し、その結果得られたスケールファクタ、サイド情報、および量子化スペクトルを、オーディオ信号を符号化して得られた符号化オーディオデータとする。

これにより、例えば図１に示したビットストリームの領域Ｒ１１の部分に格納される各オブジェクトの符号化オーディオデータが得られる。

ステップＳ１３において、メタデータ取得部２３は、各オブジェクトについて、オーディオ信号のフレームごとのメタデータを取得して補間処理部２４に供給する。

ステップＳ１４において、補間処理部２４は、メタデータ取得部２３から供給されたメタデータに対する補間処理を行って、メタデータ符号化部２６に供給する。

例えば補間処理部２４は、１つのオーディオ信号について、所定のサンプルのメタデータとしての位置情報と、その所定のサンプルの時間的に前に位置する他のサンプルのメタデータとしての位置情報とに基づいて、線形補間によりそれらの２つのサンプルの間に位置する各サンプルの位置情報を算出する。同様に、メタデータとしての重要度情報や音像の広がり度合いを示す情報などについても線形補間等の補間処理が行われ、各サンプルのメタデータが生成される。

なお、メタデータの補間処理では、オブジェクトの１フレームのオーディオ信号の全サンプルがメタデータ有するようにメタデータが算出されてもよいし、全サンプルのうちの必要なサンプルのみメタデータを有するようにメタデータが算出されてもよい。また、補間処理は線形補間に限らず、非線形補間であってもよい。

ステップＳ１５において、関連情報取得部２５は、各オブジェクトのオーディオ信号のフレームについて、メタデータに関連する関連情報を取得する。

そして、関連情報取得部２５は、取得した関連情報に基づいて、オブジェクトごとに追加メタデータフラグ、切り替えインデックス、メタデータ個数情報、およびサンプルインデックスのうちの必要な情報を生成し、メタデータ符号化部２６に供給する。

なお、関連情報取得部２５が追加メタデータフラグや切り替えインデックスなどを生成するのではなく、関連情報取得部２５が追加メタデータフラグや切り替えインデックスなどを外部から取得するようにしてもよい。

ステップＳ１６において、メタデータ符号化部２６は、関連情報取得部２５から供給された追加メタデータフラグや、切り替えインデックス、メタデータ個数情報、サンプルインデックスなどに基づいて、補間処理部２４から供給されたメタデータを符号化する。

メタデータの符号化にあたっては、各オブジェクトについて、オーディオ信号のフレーム内の各サンプルのメタデータのうち、サンプル数情報や、切り替えインデックスにより示される方式、メタデータ個数情報、サンプルインデックスなどにより定まるサンプル位置のメタデータのみが送信されるように、符号化メタデータが生成される。また、フレームの先頭サンプルのメタデータ、または保持されていた直前のフレームの最後のサンプルのメタデータが、必要に応じて追加メタデータとされる。

符号化メタデータには、メタデータの他、追加メタデータフラグおよび切り替えインデックスが含まれ、かつ必要に応じてメタデータ個数情報やサンプルインデックス、追加メタデータなどが含まれるようにされる。

これにより、例えば図１に示したビットストリームの領域Ｒ１２に格納される各オブジェクトの符号化メタデータが得られる。例えば領域Ｒ２１に格納されている符号化メタデータが、１つのオブジェクトの１フレーム分の符号化メタデータである。

この場合、例えばオブジェクトの処理対象となっているフレームで個数指定方式が選択され、かつ追加メタデータが送信されるときには、追加メタデータフラグ、切り替えインデックス、メタデータ個数情報、追加メタデータ、およびメタデータからなる符号化メタデータが生成される。

また、例えばオブジェクトの処理対象となっているフレームでサンプル指定方式が選択され、かつ追加メタデータが送信されないときには、追加メタデータフラグ、切り替えインデックス、メタデータ個数情報、サンプルインデックス、およびメタデータからなる符号化メタデータが生成される。

さらに、例えばオブジェクトの処理対象となっているフレームで自動切り替え方式が選択され、かつ追加メタデータが送信されるときには、追加メタデータフラグ、切り替えインデックス、追加メタデータ、およびメタデータからなる符号化メタデータが生成される。

メタデータ符号化部２６は、メタデータの符号化により得られた各オブジェクトの符号化メタデータと、関連情報取得部２５から供給された情報に含まれる独立フレーム情報とを多重化部２７に供給する。

ステップＳ１７において、多重化部２７は、オーディオ信号符号化部２２から供給された符号化オーディオデータと、メタデータ符号化部２６から供給された符号化メタデータと、メタデータ符号化部２６から供給された独立フレーム情報に基づき得られる独立フラグとを多重化してビットストリームを生成し、出力部２８に供給する。

これにより、１フレーム分のビットストリームとして、例えば図１に示したビットストリームの領域Ｒ１０乃至領域Ｒ１２の部分からなるビットストリームが生成される。

ステップＳ１８において、出力部２８は、多重化部２７から供給されたビットストリームを出力し、符号化処理は終了する。なお、ビットストリームの先頭部分が出力される場合には、図１に示したように、サンプル数情報等が含まれるヘッダも出力される。

以上のようにして符号化装置１１は、オーディオ信号を符号化するとともに、メタデータを符号化し、その結果得られた符号化オーディオデータと符号化メタデータとからなるビットストリームを出力する。

このとき、１フレームに対して複数のメタデータが送信されるようにすることで、復号側において、補間処理によりVBAPゲインが算出されるサンプルの並ぶ区間の長さをより短くすることができ、より高音質な音声を得ることができるようになる。

また、メタデータに対して補間処理を行うことで、必ず１フレームで１以上のメタデータを送信することができ、復号側においてリアルタイムで復号およびレンダリングを行うことができるようになる。さらに、必要に応じて追加メタデータを送信することで、ランダムアクセスを実現することができる。

〈復号装置の構成例〉
続いて、符号化装置１１から出力されたビットストリームを受信（取得）して復号を行う復号装置について説明する。例えば本技術を適用した復号装置は、図４に示すように構成される。

この復号装置５１には、再生空間に配置された複数のスピーカからなるスピーカシステム５２が接続されている。復号装置５１は、復号およびレンダリングにより得られた各チャンネルのオーディオ信号を、スピーカシステム５２を構成する各チャンネルのスピーカに供給し、音声を再生させる。

復号装置５１は、取得部６１、分離部６２、オーディオ信号復号部６３、メタデータ復号部６４、ゲイン算出部６５、およびオーディオ信号生成部６６を有している。

取得部６１は、符号化装置１１から出力されたビットストリームを取得して分離部６２に供給する。分離部６２は、取得部６１から供給されたビットストリームを、独立フラグと符号化オーディオデータと符号化メタデータとに分離させ、符号化オーディオデータをオーディオ信号復号部６３に供給するとともに、独立フラグと符号化メタデータとをメタデータ復号部６４に供給する。

なお、分離部６２は、必要に応じて、ビットストリームのヘッダからサンプル数情報などの各種の情報を読み出して、オーディオ信号復号部６３やメタデータ復号部６４に供給する。

オーディオ信号復号部６３は、分離部６２から供給された符号化オーディオデータを復号し、その結果得られた各オブジェクトのオーディオ信号をオーディオ信号生成部６６に供給する。

メタデータ復号部６４は、分離部６２から供給された符号化メタデータを復号し、その結果得られたオブジェクトごとのオーディオ信号の各フレームのメタデータと、分離部６２から供給された独立フラグとをゲイン算出部６５に供給する。

メタデータ復号部６４は、符号化メタデータから追加メタデータフラグを読み出す追加メタデータフラグ読み出し部７１と、符号化メタデータから切り替えインデックスを読み出す切り替えインデックス読み出し部７２を有している。

ゲイン算出部６５は、予め保持しているスピーカシステム５２を構成する各スピーカの空間上の配置位置を示す配置位置情報と、メタデータ復号部６４から供給された各オブジェクトのフレームごとのメタデータと独立フラグとに基づいて、各オブジェクトについて、オーディオ信号のフレーム内のサンプルのVBAPゲインを算出する。

また、ゲイン算出部６５は、所定のサンプルのVBAPゲインに基づいて、補間処理により他のサンプルのVBAPゲインを算出する補間処理部７３を有している。

ゲイン算出部６５は、各オブジェクトについて、オーディオ信号のフレーム内のサンプルごとに算出されたVBAPゲインをオーディオ信号生成部６６に供給する。

オーディオ信号生成部６６は、オーディオ信号復号部６３から供給された各オブジェクトのオーディオ信号と、ゲイン算出部６５から供給された各オブジェクトのサンプルごとのVBAPゲインとに基づいて、各チャンネルのオーディオ信号、すなわち各チャンネルのスピーカに供給するオーディオ信号を生成する。

オーディオ信号生成部６６は、生成したオーディオ信号をスピーカシステム５２を構成する各スピーカに供給し、オーディオ信号に基づく音声を出力させる。

復号装置５１では、ゲイン算出部６５およびオーディオ信号生成部６６からなるブロックが、復号により得られたオーディオ信号とメタデータに基づいてレンダリングを行うレンダラ（レンダリング部）として機能する。

〈復号処理の説明〉
復号装置５１は、符号化装置１１からビットストリームが送信されてくると、そのビットストリームを受信（取得）して復号する復号処理を行う。以下、図５のフローチャートを参照して、復号装置５１による復号処理について説明する。なお、この復号処理はオーディオ信号のフレームごとに行われる。

ステップＳ４１において、取得部６１は、符号化装置１１から出力されたビットストリームを１フレーム分だけ取得して分離部６２に供給する。

ステップＳ４２において、分離部６２は、取得部６１から供給されたビットストリームを、独立フラグと符号化オーディオデータと符号化メタデータとに分離させ、符号化オーディオデータをオーディオ信号復号部６３に供給するとともに、独立フラグと符号化メタデータをメタデータ復号部６４に供給する。

このとき、分離部６２は、ビットストリームのヘッダから読み出したサンプル数情報をメタデータ復号部６４に供給する。なお、サンプル数情報の供給タイミングは、ビットストリームのヘッダが取得されたタイミングとすればよい。

ステップＳ４３において、オーディオ信号復号部６３は、分離部６２から供給された符号化オーディオデータを復号し、その結果得られた各オブジェクトの１フレーム分のオーディオ信号をオーディオ信号生成部６６に供給する。

例えばオーディオ信号復号部６３は、符号化オーディオデータを復号してMDCT係数を求める。具体的には、オーディオ信号復号部６３は符号化オーディオデータとして供給されたスケールファクタ、サイド情報、および量子化スペクトルに基づいてMDCT係数を算出する。

また、オーディオ信号復号部６３はMDCT係数に基づいて、IMDCT（Inverse Modified Discrete Cosine Transform）を行い、その結果得られたPCMデータをオーディオ信号としてオーディオ信号生成部６６に供給する。

符号化オーディオデータの復号が行われると、その後、符号化メタデータの復号が行われる。すなわち、ステップＳ４４において、メタデータ復号部６４の追加メタデータフラグ読み出し部７１は、分離部６２から供給された符号化メタデータから追加メタデータフラグを読み出す。

例えばメタデータ復号部６４は、分離部６２から順次供給されてくる符号化メタデータに対応するオブジェクトを順番に処理対象のオブジェクトとする。追加メタデータフラグ読み出し部７１は、処理対象とされたオブジェクトの符号化メタデータから追加メタデータフラグを読み出す。

ステップＳ４５において、メタデータ復号部６４の切り替えインデックス読み出し部７２は、分離部６２から供給された、処理対象のオブジェクトの符号化メタデータから切り替えインデックスを読み出す。

ステップＳ４６において、切り替えインデックス読み出し部７２は、ステップＳ４５で読み出した切り替えインデックスにより示される方式が個数指定方式であるか否かを判定する。

ステップＳ４６において個数指定方式であると判定された場合、ステップＳ４７において、メタデータ復号部６４は、分離部６２から供給された、処理対象のオブジェクトの符号化メタデータからメタデータ個数情報を読み出す。

処理対象のオブジェクトの符号化メタデータには、このようにして読み出されたメタデータ個数情報により示される数だけ、メタデータが格納されている。

ステップＳ４８において、メタデータ復号部６４は、ステップＳ４７で読み出したメタデータ個数情報と、分離部６２から供給されたサンプル数情報とに基づいて、処理対象のオブジェクトのオーディオ信号のフレームにおける、送信されてきたメタデータのサンプル位置を特定する。

例えばサンプル数情報により示される数のサンプルからなる１フレームの区間が、メタデータ個数情報により示されるメタデータ数の区間に等分され、等分された各区間の最後のサンプル位置がメタデータのサンプル位置、つまりメタデータを有するサンプルの位置とされる。このようにして求められたサンプル位置が、符号化メタデータに含まれる各メタデータのサンプル位置、つまりそれらのメタデータを有するサンプルとされる。

なお、ここでは１フレームの区間が等分されて、それらの等分された区間の最後のサンプルのメタデータが送信される場合について説明したが、どのサンプルのメタデータを送信するかに応じて、サンプル数情報とメタデータ個数情報から各メタデータのサンプル位置が算出される。

このようにして処理対象のオブジェクトの符号化メタデータに含まれているメタデータの個数と、各メタデータのサンプル位置が特定されると、その後、処理はステップＳ５３へと進む。

一方、ステップＳ４６において個数指定方式でないと判定された場合、ステップＳ４９において、切り替えインデックス読み出し部７２は、ステップＳ４５で読み出した切り替えインデックスにより示される方式がサンプル指定方式であるか否かを判定する。

ステップＳ４９においてサンプル指定方式であると判定された場合、ステップＳ５０において、メタデータ復号部６４は、分離部６２から供給された、処理対象のオブジェクトの符号化メタデータからメタデータ個数情報を読み出す。

ステップＳ５１において、メタデータ復号部６４は、分離部６２から供給された、処理対象のオブジェクトの符号化メタデータからサンプルインデックスを読み出す。このとき、メタデータ個数情報により示される個数だけ、サンプルインデックスが読み出される。

このようにして読み出されたメタデータ個数情報とサンプルインデックスから、処理対象のオブジェクトの符号化メタデータに格納されているメタデータの個数と、それらのメタデータのサンプル位置とを特定することができる。

処理対象のオブジェクトの符号化メタデータに含まれているメタデータの個数と、各メタデータのサンプル位置が特定されると、その後、処理はステップＳ５３へと進む。

また、ステップＳ４９においてサンプル指定方式でないと判定された場合、すなわち切り替えインデックスにより示される方式が自動切り替え方式である場合、処理はステップＳ５２へと進む。

ステップＳ５２において、メタデータ復号部６４は、分離部６２から供給されたサンプル数情報に基づいて、処理対象のオブジェクトの符号化メタデータに含まれているメタデータの個数と、各メタデータのサンプル位置を特定し、処理はステップＳ５３へと進む。

例えば自動切り替え方式では、１フレームを構成するサンプルの数に対して、送信されるメタデータの個数と、各メタデータのサンプル位置、つまりどのサンプルのメタデータを送信するかとが予め定められている。

そのため、メタデータ復号部６４は、サンプル数情報から、処理対象のオブジェクトの符号化メタデータに格納されているメタデータの個数と、それらのメタデータのサンプル位置とを特定することができる。

ステップＳ４８、ステップＳ５１、またはステップＳ５２の処理が行われると、ステップＳ５３において、メタデータ復号部６４は、ステップＳ４４で読み出された追加メタデータフラグの値に基づいて、追加メタデータがあるか否かを判定する。

ステップＳ５３において、追加メタデータがあると判定された場合、ステップＳ５４において、メタデータ復号部６４は、処理対象のオブジェクトの符号化メタデータから、追加メタデータを読み出す。追加メタデータが読み出されると、その後、処理はステップＳ５５へと進む。

これに対して、ステップＳ５３において追加メタデータがないと判定された場合、ステップＳ５４の処理はスキップされて、処理はステップＳ５５へと進む。

ステップＳ５４で追加メタデータが読み出されたか、またはステップＳ５３において追加メタデータがないと判定されると、ステップＳ５５において、メタデータ復号部６４は、処理対象のオブジェクトの符号化メタデータからメタデータを読み出す。

このとき、符号化メタデータからは、上述した処理により特定された個数だけ、メタデータが読み出されることになる。

以上の処理により、処理対象のオブジェクトの１フレーム分のオーディオ信号について、メタデータと追加メタデータの読み出しが行われたことになる。

メタデータ復号部６４は、読み出した各メタデータをゲイン算出部６５に供給する。その際、ゲイン算出部６５は、どのメタデータが、どのオブジェクトのどのサンプルのメタデータであるかを特定できるようにメタデータの供給を行う。また、追加メタデータが読み出されたときには、メタデータ復号部６４は、読み出した追加メタデータもゲイン算出部６５に供給する。

ステップＳ５６において、メタデータ復号部６４は、全てのオブジェクトについて、メタデータの読み出しを行ったか否かを判定する。

ステップＳ５６において、まだ全てのオブジェクトについて、メタデータの読み出しを行っていないと判定された場合、処理はステップＳ４４に戻り、上述した処理が繰り返し行われる。この場合、まだ処理対象とされていないオブジェクトが、新たな処理対象のオブジェクトとされて、そのオブジェクトの符号化メタデータからメタデータ等が読み出される。

これに対して、ステップＳ５６において全てのオブジェクトについてメタデータの読み出しを行ったと判定された場合、メタデータ復号部６４は、分離部６２から供給された独立フラグをゲイン算出部６５に供給し、その後、処理はステップＳ５７に進み、レンダリングが開始される。

すなわち、ステップＳ５７において、ゲイン算出部６５は、メタデータ復号部６４から供給されたメタデータや追加メタデータや独立フラグに基づいて、VBAPゲインを算出する。

例えばゲイン算出部６５は、各オブジェクトを順番に処理対象のオブジェクトとして選択していき、さらにその処理対象のオブジェクトのオーディオ信号のフレーム内にある、メタデータのあるサンプルを、順番に処理対象のサンプルとして選択する。

ゲイン算出部６５は、処理対象のサンプルについて、そのサンプルのメタデータとしての位置情報により示される空間上のオブジェクトの位置と、配置位置情報により示されるスピーカシステム５２の各スピーカの空間上の位置とに基づいて、VBAPにより処理対象のサンプルの各チャンネル、すなわち各チャンネルのスピーカのVBAPゲインを算出する。

VBAPでは、オブジェクトの周囲にある３つまたは２つのスピーカから、所定のゲインで音声を出力することで、そのオブジェクトの位置に音像を定位させることができる。なお、VBAPについては、例えば「Ville Pulkki, “Virtual Sound Source Positioning Using Vector Base Amplitude Panning”, Journal of AES, vol.45, no.6, pp.456-466, 1997」などに詳細に記載されている。

ステップＳ５８において、補間処理部７３は補間処理を行って、メタデータのないサンプルの各スピーカのVBAPゲインを算出する。

例えば補間処理では、直前のステップＳ５７で算出した処理対象のサンプルのVBAPゲインと、その処理対象のサンプルよりも時間的に前にある、処理対象のオブジェクトの同じフレームまたは直前のフレームのメタデータのあるサンプル（以下、参照サンプルとも称する）のVBAPゲインとが用いられる。すなわち、スピーカシステム５２を構成するスピーカ（チャンネル）ごとに、処理対象のサンプルのVBAPゲインと、参照サンプルのVBAPゲインとが用いられて、それらの処理対象のサンプルと、参照サンプルとの間にある各サンプルのVBAPゲインが線形補間等により算出される。

なお、例えばランダムアクセスが指示された場合、もしくは、メタデータ復号部６４から供給された独立フラグの値が１である場合で、追加メタデータがある場合には、ゲイン算出部６５は追加メタデータを用いてVBAPゲインの算出を行う。

具体的には、例えば処理対象のオブジェクトのオーディオ信号のフレーム内において、最もフレーム先頭側にある、メタデータを有するサンプルが処理対象のサンプルとされて、そのサンプルのVBAPゲインが算出されたとする。この場合、このフレームよりも前のフレームについてはVBAPゲインが算出されていないので、ゲイン算出部６５は、追加メタデータを用いて、そのフレームの先頭サンプルまたはそのフレームの直前のフレームの最後のサンプルを参照サンプルとして、その参照サンプルのVBAPゲインを算出する。

そして、補間処理部７３は、処理対象のサンプルのVBAPゲインと、参照サンプルのVBAPゲインとから、それらの処理対象のサンプルと参照サンプルの間にある各サンプルのVBAPゲインを補間処理により算出する。

一方、例えばランダムアクセスが指示された場合、もしくは、メタデータ復号部６４から供給された独立フラグの値が１である場合で、追加メタデータがない場合には、追加メタデータを用いたVBAPゲインの算出は行われず、補間処理の切り替えが行われる。

具体的には、例えば処理対象のオブジェクトのオーディオ信号のフレーム内において、最もフレーム先頭側にある、メタデータを有するサンプルが処理対象のサンプルとされて、そのサンプルのVBAPゲインが算出されたとする。この場合、このフレームよりも前のフレームについてはVBAPゲインが算出されていないので、ゲイン算出部６５は、そのフレームの先頭サンプルまたはそのフレームの直前のフレームの最後のサンプルを参照サンプルとして、その参照サンプルのVBAPゲインを０として算出する。

なお、この方法に限らず、例えば、補間される各サンプルのVBAPゲインを、すべて、処理対象のサンプルのVBAPゲインと同一の値にするように補間処理を行っても良い。

このように、VBAPゲインの補間処理を切り替えることにより、追加メタデータがないフレームにおいても、ランダムアクセスや、独立フレームにおける復号およびレンダリングが可能となる。

また、ここではメタデータのないサンプルのVBAPゲインが補間処理により求められる例について説明したが、メタデータ復号部６４において、メタデータのないサンプルについて、補間処理によりサンプルのメタデータが求められるようにしてもよい。この場合、オーディオ信号の全てのサンプルのメタデータが得られるので、補間処理部７３ではVBAPゲインの補間処理は行われない。

ステップＳ５９において、ゲイン算出部６５は、処理対象のオブジェクトのオーディオ信号のフレーム内の全サンプルのVBAPゲインを算出したか否かを判定する。

ステップＳ５９において、まだ全サンプルのVBAPゲインを算出していないと判定された場合、処理はステップＳ５７に戻り、上述した処理が繰り返し行われる。すなわち、メタデータを有する次のサンプルが処理対象のサンプルとして選択され、VBAPゲインが算出される。

これに対して、ステップＳ５９において全サンプルのVBAPゲインを算出したと判定された場合、ステップＳ６０において、ゲイン算出部６５は、全オブジェクトのVBAPゲインを算出したか否かを判定する。

例えば全てのオブジェクトが処理対象のオブジェクトとされて、それらのオブジェクトについて、スピーカごとの各サンプルのVBAPゲインが算出された場合、全オブジェクトのVBAPゲインを算出したと判定される。

ステップＳ６０において、まだ全オブジェクトのVBAPゲインを算出していないと判定された場合、処理はステップＳ５７に戻り、上述した処理が繰り返し行われる。

これに対して、ステップＳ６０において全オブジェクトのVBAPゲインを算出したと判定された場合、ゲイン算出部６５は算出したVBAPゲインをオーディオ信号生成部６６に供給し、処理はステップＳ６１へと進む。この場合、スピーカごとに算出された、各オブジェクトのオーディオ信号のフレーム内の各サンプルのVBAPゲインがオーディオ信号生成部６６へと供給される。

ステップＳ６１において、オーディオ信号生成部６６は、オーディオ信号復号部６３から供給された各オブジェクトのオーディオ信号と、ゲイン算出部６５から供給された各オブジェクトのサンプルごとのVBAPゲインとに基づいて、各スピーカのオーディオ信号を生成する。

例えばオーディオ信号生成部６６は、各オブジェクトのオーディオ信号のそれぞれに対して、それらのオブジェクトごとに得られた同じスピーカのVBAPゲインのそれぞれをサンプルごとに乗算して得られた信号を加算することで、そのスピーカのオーディオ信号を生成する。

具体的には、例えばオブジェクトとしてオブジェクトOB1乃至オブジェクトOB3の３つのオブジェクトがあり、それらのオブジェクトのスピーカシステム５２を構成する所定のスピーカSP1のVBAPゲインとして、VBAPゲインG1乃至VBAPゲインG3が得られているとする。この場合、VBAPゲインG1が乗算されたオブジェクトOB1のオーディオ信号、VBAPゲインG2が乗算されたオブジェクトOB2のオーディオ信号、およびVBAPゲインG3が乗算されたオブジェクトOB3のオーディオ信号が加算され、その結果得られたオーディオ信号が、スピーカSP1に供給されるオーディオ信号とされる。

ステップＳ６２において、オーディオ信号生成部６６は、ステップＳ６１の処理で得られた各スピーカのオーディオ信号をスピーカシステム５２の各スピーカに供給し、それらのオーディオ信号に基づいて音声を再生させ、復号処理は終了する。これにより、スピーカシステム５２によって、各オブジェクトの音声が再生される。

以上のようにして復号装置５１は、符号化オーディオデータおよび符号化メタデータを復号し、復号により得られたオーディオ信号およびメタデータに基づいてレンダリングを行い、各スピーカのオーディオ信号を生成する。

復号装置５１では、レンダリングを行うにあたり、オブジェクトのオーディオ信号のフレームに対して複数のメタデータが得られるので、補間処理によりVBAPゲインが算出されるサンプルの並ぶ区間の長さをより短くすることができる。これにより、より高音質な音声を得ることができるだけでなく、リアルタイムで復号とレンダリングを行うことができる。また、フレームによっては追加メタデータが符号化メタデータに含まれているので、ランダムアクセスや独立フレームにおける復号及びレンダリングを実現することもできる。また、追加メタデータが含まれないフレームにおいても、VBAPゲインの補間処理を切り替えることにより、ランダムアクセスや独立フレームにおける復号及びレンダリングを実現することもできる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図６は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化して得られた符号化オーディオデータと、前記フレームの複数のメタデータとを取得する取得部と、
前記符号化オーディオデータを復号する復号部と、
前記復号により得られたオーディオ信号と、前記複数のメタデータとに基づいてレンダリングを行うレンダリング部と
を備える復号装置。
（２）
前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
（１）に記載の復号装置。
（３）
前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレーム内の複数のサンプルのそれぞれのメタデータである
（１）または（２）に記載の復号装置。
（４）
前記複数のメタデータのそれぞれは、前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ複数のサンプルのそれぞれのメタデータである
（３）に記載の復号装置。
（５）
前記複数のメタデータのそれぞれは、複数のサンプルインデックスのそれぞれにより示される複数のサンプルのそれぞれのメタデータである
（３）に記載の復号装置。
（６）
前記複数のメタデータのそれぞれは、前記フレーム内の所定サンプル数間隔で並ぶ複数のサンプルのそれぞれのメタデータである
（３）に記載の復号装置。
（７）
前記複数のメタデータには、メタデータに基づいて算出される前記オーディオ信号のサンプルのゲインの補間処理を行うためのメタデータが含まれている
（１）乃至（６）の何れか一項に記載の復号装置。
（８）
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化して得られた符号化オーディオデータと、前記フレームの複数のメタデータとを取得し、
前記符号化オーディオデータを復号し、
前記復号により得られたオーディオ信号と、前記複数のメタデータとに基づいてレンダリングを行う
ステップを含む復号方法。
（９）
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化して得られた符号化オーディオデータと、前記フレームの複数のメタデータとを取得し、
前記符号化オーディオデータを復号し、
前記復号により得られたオーディオ信号と、前記複数のメタデータとに基づいてレンダリングを行う
ステップを含む処理をコンピュータに実行させるプログラム。
（１０）
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化する符号化部と、
前記符号化により得られた符号化オーディオデータと、前記フレームの複数のメタデータとが含まれたビットストリームを生成する生成部と
を備える符号化装置。
（１１）
前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
（１０）に記載の符号化装置。
（１２）
前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレーム内の複数のサンプルのそれぞれのメタデータである
（１０）または（１１）に記載の符号化装置。
（１３）
前記複数のメタデータのそれぞれは、前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ複数のサンプルのそれぞれのメタデータである
（１２）に記載の符号化装置。
（１４）
前記複数のメタデータのそれぞれは、複数のサンプルインデックスのそれぞれにより示される複数のサンプルのそれぞれのメタデータである
（１２）に記載の符号化装置。
（１５）
前記複数のメタデータのそれぞれは、前記フレーム内の所定サンプル数間隔で並ぶ複数のサンプルのそれぞれのメタデータである
（１２）に記載の符号化装置。
（１６）
前記複数のメタデータには、メタデータに基づいて算出される前記オーディオ信号のサンプルのゲインの補間処理を行うためのメタデータが含まれている
（１０）乃至（１５）の何れか一項に記載の符号化装置。
（１７）
メタデータに対する補間処理を行う補間処理部をさらに備える
（１０）乃至（１６）の何れか一項に記載の符号化装置。
（１８）
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化し、
前記符号化により得られた符号化オーディオデータと、前記フレームの複数のメタデータとが含まれたビットストリームを生成する
ステップを含む符号化方法。
（１９）
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化し、
前記符号化により得られた符号化オーディオデータと、前記フレームの複数のメタデータとが含まれたビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。

１１符号化装置，２２オーディオ信号符号化部，２４補間処理部，２５関連情報取得部，２６メタデータ符号化部，２７多重化部，２８出力部，５１復号装置，６２分離部，６３オーディオ信号復号部，６４メタデータ復号部，６５ゲイン算出部，６６オーディオ信号生成部，７１追加メタデータフラグ読み出し部，７２切り替えインデックス読み出し部，７３補間処理部

Claims

オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化して得られた符号化オーディオデータと、前記フレームの複数のメタデータとを取得する取得部と、
前記符号化オーディオデータを復号する復号部と、
前記復号により得られたオーディオ信号と、前記複数のメタデータとに基づいてレンダリングを行うレンダリング部と
を備え、
前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである
復号装置。
前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
請求項１に記載の復号装置。
前記複数のメタデータには、メタデータに基づいて算出される前記オーディオ信号のサンプルのゲインの補間処理を行うためのメタデータが含まれている
請求項１または請求項２に記載の復号装置。
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化して得られた符号化オーディオデータと、前記フレームの複数のメタデータとを取得し、
前記符号化オーディオデータを復号し、
前記復号により得られたオーディオ信号と、前記複数のメタデータとに基づいてレンダリングを行う
ステップを含み、
前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである
復号方法。
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化して得られた符号化オーディオデータと、前記フレームの複数のメタデータとを取得し、
前記符号化オーディオデータを復号し、
前記復号により得られたオーディオ信号と、前記複数のメタデータとに基づいてレンダリングを行う
ステップを含む処理をコンピュータに実行させ、
前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである
プログラム。
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化する符号化部と、
前記符号化により得られた符号化オーディオデータと、前記フレームの複数のメタデータとが含まれたビットストリームを生成する生成部と
を備え、
前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである
符号化装置。
前記メタデータには、前記オーディオオブジェクトの位置を示す位置情報が含まれている
請求項６に記載の符号化装置。
前記複数のメタデータには、メタデータに基づいて算出される前記オーディオ信号のサンプルのゲインの補間処理を行うためのメタデータが含まれている
請求項６または請求項７に記載の符号化装置。
メタデータに対する補間処理を行う補間処理部をさらに備える
請求項６乃至請求項８の何れか一項に記載の符号化装置。
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化し、
前記符号化により得られた符号化オーディオデータと、前記フレームの複数のメタデータとが含まれたビットストリームを生成する
ステップを含み、
前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである
符号化方法。
オーディオオブジェクトの所定時間間隔のフレームのオーディオ信号を符号化し、
前記符号化により得られた符号化オーディオデータと、前記フレームの複数のメタデータとが含まれたビットストリームを生成する
ステップを含む処理をコンピュータに実行させ、
前記複数のメタデータのそれぞれは、前記オーディオ信号の前記フレームを構成するサンプルの数を前記複数のメタデータの数で除算して得られるサンプル数の間隔で並ぶ、前記フレーム内の複数のサンプルのそれぞれのメタデータである
プログラム。