JP2021124719A

JP2021124719A - 音声符号化装置および音声復号装置、ならびにプログラム

Info

Publication number: JP2021124719A
Application number: JP2020187368A
Authority: JP
Inventors: 岳大杉本; Takehiro Sugimoto; 知美小倉; Tomomi Ogura; 陽佐々木; Akira Sasaki; 弘樹久保; Hiroki Kubo; 敦郎伊藤; Atsuro Ito; 周北島; Shu Kitajima; 光太郎木下; Kotaro Kinoshita; 敏行西口; Toshiyuki Nishiguchi; 靖茂中山; Yasushige Nakayama
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2020-02-07
Filing date: 2020-11-10
Publication date: 2021-08-30

Abstract

【課題】再生音のカスタマイズが許容される範囲内においては音質の劣化を起こさない音声符号化装置や音声復号装置を提供する。【解決手段】音響メタデータ取得部は、音声信号が優先信号であるか非優先信号であるかを少なくとも表す音響メタデータを取得する。分類部は、前記音響メタデータを参照することによって、入力される複数の音声信号が、優先信号であるか非優先信号であるかを分類する。分配部は、ビットレートを前記音声信号に分配する分配部であって、指定された全ビットレートのうち前記優先信号に対応する優先ビットレートを前記優先信号に分配し、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果に基づく余剰ビットレートを前記非優先信号に分配する。音声信号符号化部は、前記分配部が分配した前記ビットレートにしたがって、前記音声信号のそれぞれを符号化する。【選択図】図１

Description

本発明は、音声符号化装置および音声復号装置、ならびにプログラムに関する。

２０１８年１２月に日本で放送が開始された２２．２ｃｈ音響などの、従来のマルチチャンネル音響システムは、チャンネルベース音響システムである。一方、近年、音声信号と音響メタデータとを組み合わせたオブジェクトベース音響システムやＡＲ／ＶＲ音響の実用化が進められている。オブジェクトベース音響やＡＲ／ＶＲ音響は、多数の音声信号を提供することで、リスナーの好みに合わせた音の調節・カスタマイズ・レンダリングを実現する仕組みであるが、必然的に伝送するデータ量が大きくなってしまう。そこで、最新の音声符号化方式では、多数の音声信号間の重要度を予め定められた指標（例えば、レベルやラウドネス値、レンダリング時の優先順位）に基づいて決定し、その重要度に応じてビットレートを分配することで、番組全体の所要ビットレートを抑制する技術が採用されている。

非特許文献１、２、および３には、オブジェクトベース音響システムについて記載されている。これらの文献には、所定の指標に基づいて音声信号の重要度を予め定め、その重要度に応じてビットレートを分配する技術が記載されている。

ＶＲ音響に関しては、The Moving Picture Experts Group（ＭＰＥＧ）が、標準規格として、ISO/IEC 23090-4:202X，「MPEG-I Immersive Audio Coding（仮称）」を策定中である（参考ＵＲＬは、https://mpeg.chiariglione.org/sites/default/files/files/meetings/docs/w17904.docx）。

また、非特許文献４、５、および６には、放送番組の制作におけるマルチチャンネル音響方式の技術が記載されている。

ISO/IEC 23008-3:2019，Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, Second edition，International Organization for Standardization，2019年2月． ETSI TS 103 190-2 V1.2.1 (2018-02)，TECHNICAL SPECIFICATION，Digital Audio Compression (AC-4) Standard; Part 2: Immersive and personalized audio，ETSI，2018年2月． ATSC Standard: A/342 Part 3, MPEG-H System，2017年3月3日． ARIB標準規格STD-B59 2.0版，三次元マルチチャンネル音響方式スタジオ規格，ARIB、2016年7月． Recommendation ITU-R BS.2051-2，「Advanced sound system for programme production」，ITU-R、2018年7月． SMPTE STANDARD SMPTE 2036-2-2008，「Ultra High Definition Television-Audio Characteristics and Audio Channel Mapping for Program Production」，SMPTE，2008年7月9日．

しかしながら、上記の従来技術では、番組としての音声信号の初期状態、初期値に合わせてビットレートの分配を最適化するアルゴリズムを用いる。つまり、従来技術では、リスナーがカスタマイズした後の番組音の状態に対しても、分配されたビットレートが最適である保証がない。換言すると、リスナーによるカスタマイズの中身によっては、番組制作者の想定を超える音質劣化が起こりうる可能性がある。例えば、複数の音声信号を取り扱う番組において、ビットレートの分配量が最も少ない音声信号（劣化の大きい音声信号）のみをリスナーが取り出して聴取する場合、番組の初期状態においては音質劣化が他の音声信号によってマスクされていたにも関わらず、リスナーのカスタマイズによって音質劣化が著しく表面化することになる。

つまり、リスナー側で再生音をカスタマイズすることができる音響システム（例えば、オブジェクトベース音響や、ＡＲ／ＶＲ音響など）において、許容されるカスタマイズの範囲内では、音質劣化を顕在化させないような音声符号化および復号の方式が必要とされる。つまり、許容されるカスタマイズの範囲内では音質を劣化させないようなビットレートの適切な分配が必要である。

本発明は、上記の課題認識に基づいて行なわれたものであり、再生音のカスタマイズが許容される範囲内においては音質の劣化を起こさない音声符号化装置および音声復号装置、ならびにプログラムを提供しようとするものである。

［１］上記の課題を解決するため、本発明の一態様による音声符号化装置は、音声信号が優先信号であるか非優先信号であるかを少なくとも表す音響メタデータを取得する音響メタデータ取得部と、前記音響メタデータを参照することによって、入力される複数の音声信号が、優先信号であるか非優先信号であるかを分類する分類部と、ビットレートを前記音声信号に分配する分配部であって、指定された全ビットレートのうち前記優先信号に対応する優先ビットレートを前記優先信号に分配し、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果に基づく余剰ビットレートを前記非優先信号に分配する分配部と、前記分配部が分配した前記ビットレートにしたがって、前記音声信号のそれぞれを符号化する音声信号符号化部とを備える。

［２］また、本発明の一態様は、上記の音声符号化装置において、前記分配部は、前記優先信号のうちの特定の優先信号が無音であると判断できる場合、前記特定の優先信号への前記優先ビットレートの分配を取りやめて他の音声信号への分配に回す、ものである。

［３］また、本発明の一態様は、上記の音声符号化装置において、前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記非優先信号に分配する、ものである。

［４］また、本発明の一態様は、上記の音声符号化装置において、前記分配部は、前記余剰ビットレートを、前記優先信号にも分配するものである。

［５］また、本発明の一態様は、上記の音声符号化装置において、前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記優先信号に分配する、ものである。

［６］また、本発明の一態様は、前記分配部は、前記余剰ビットレートを、前記非優先信号にも分配するものである。

［７］また、本発明の一態様は、上記の音声符号化装置において、前記音響メタデータと前記複数の音声信号とを含んだ入力信号を取得し、前記入力信号を前記音響メタデータと前記音声信号とに分離し、分離した前記音声信号を前記分類部に渡す分離部、をさらに備えるものである。

［８］また、本発明の一態様は、上記の音声符号化装置において、取得された前記音響メタデータを符号化する音響メタデータ符号化部と、前記音声信号符号化部が出力する符号化された音声信号と、前記音響メタデータ符号化部が出力する符号化された音響メタデータとを、多重化して出力する多重化部と、をさらに備える。

［９］また、本発明の一態様は、上記の音声符号化装置において、前記優先信号は、音声オブジェクトの音声信号であり、前記非優先信号は、２２．２ｃｈ音響等の音声フォーマットであるチャンネルベース音響の音声信号である、というものである。

［１０］また、本発明の一態様は、上記の音声符号化装置において、前記優先信号の１チャンネルあたりの前記優先ビットレートは、前記音声信号符号化部が実行する符号化の方式に応じた固定値であって、３２キロビット毎秒、３３キロビット毎秒、３４キロビット毎秒、３５キロビット毎秒、３６キロビット毎秒、３７キロビット毎秒、３８キロビット毎秒、３９キロビット毎秒、４０キロビット毎秒、４１キロビット毎秒、４２キロビット毎秒、４３キロビット毎秒、４４キロビット毎秒、４５キロビット毎秒、４６キロビット毎秒、４７キロビット毎秒、４８キロビット毎秒、４９キロビット毎秒、５０キロビット毎秒、５１キロビット毎秒、５２キロビット毎秒、５３キロビット毎秒、５４キロビット毎秒、５５キロビット毎秒、５６キロビット毎秒、５７キロビット毎秒、５８キロビット毎秒、５９キロビット毎秒、６０キロビット毎秒、６１キロビット毎秒、６２キロビット毎秒、６３キロビット毎秒、または６４キロビット毎秒のいずれかである、というものである。

［１１］また、本発明の一態様は、コンピューターを、上記［１］から［１０］までいずれかに記載の音声符号化装置、として機能させるためのプログラムである。

［１２］また、本発明の一態様による音声復号装置は、ビットストリームを取得して、前記ビットストリームを、符号化された音声信号と、符号化された音響メタデータと、に分離する分離部と、前記符号化された音響メタデータを復号する音響メタデータ復号部と、前記符号化された音声信号を復号する音声信号復号部と、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、前記音声信号復号部によって復号された音声信号をオーディオレンダリングし、再生音として出力するオーディオレンダリング部と、を備えるものである。

［１３］また、本発明の一態様は、上記の音声復号装置において、音声信号復号部は、前記符号化された音声信号に含まれる優先信号と非優先信号とをそれぞれ復号し、前記オーディオレンダリング部は、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、復号された前記優先信号と非優先信号とをそれぞれオーディオレンダリングし、前記優先信号のオーディオレンダリング結果と前記非優先信号のオーディオレンダリング結果とを組み合わせて前記再生音として出力する、ものである。

［１４］また、本発明の一態様は、上記の音声復号装置において、ユーザーの操作に基づく指示情報を生成する操作部、をさらに備え、前記オーディオレンダリング部は、前記操作部からの前記指示情報にも基づいて、前記復号された音声信号をオーディオレンダリングする、ものである。

［１５］また、本発明の一態様は、コンピューターを、上記［１２］から［１４］までのいずれかに記載の音声復号装置、として機能させるためのプログラムである。

本発明によれば、複数の音声信号で構成される音声のコンテンツ等を符号化する際に、音質劣化が許容されない音声信号に優先的に伝送容量（あるいは記録容量）を割り当てることができる。これにより、コンテンツ等の制作者の意図に沿って、コンテンツ等の総合的な品質を維持できる。

本発明の第１実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。第１実施形態が用いる多チャンネル音響の各チャンネルの再生位置の配置の例を示す概略図である。第１実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図である。第１実施形態による音声復号装置の概略機能構成の第１例を示す機能ブロック図である。第１実施形態による音声復号装置の概略機能構成の第２例を示す機能ブロック図である。第２実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。第２実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図である。第２実施形態による音声復号装置の概略機能構成を示す機能ブロック図である。第３実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。第３実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図（１／２）である。第３実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図（２／２）である。第３実施形態の音声符号化装置による符号化処理の手順を示すフローチャート（１／２）である。第３実施形態の音声符号化装置による符号化処理の手順を示すフローチャート（２／２）である。第４実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。第４実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図（１／２）である。第４実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図（２／２）である。

次に、図面を参照しながら、本発明の複数の実施形態について、説明する。各実施形態においては、音声信号を、優先信号と非優先信号とに分類して処理する。
優先信号には、所定のビットレート（例えば、符号化方式等に応じて固定のビットレート）が分配される。これにより、優先信号を符号化したときに、その音声の品質は保証される。優先信号に割り当てられるビットレートを、優先ビットレートと呼ぶ。優先ビットレートを、必須ビットレート、音声オブジェクト用ビットレート、保証ビットレート、固定ビットレート等と呼んでもよい。
非優先信号には、優先ビットレートを分配した後に残るビットレートが、適宜、分配される。非優先信号に割り当てられるビットレートを、非優先ビットレートと呼ぶ。非優先ビットレートを、任意ビットレート、最適ビットレート、背景音用ビットレート、非制約ビットレート、非保証ビットレート等と呼んでもよい。
また、余剰のビットレートも、適宜、分配される。

また、以下で説明する複数の実施形態では、音響メタデータを用いる。音響メタデータは、制約ビットレート音声信号の選別情報（どのチャンネルの音声信号が優先信号で、どのチャンネルの音声信号が非優先信号か、を表す情報）、必須ビットレート、任意ビットレート音声信号の選別情報、最適ビットレート、余剰ビットレート、全ビットレートに関する情報を含んでよい。
つまり、音響メタデータは、各チャンネルが、制約ビットレート音声信号のチャンネルであるか、任意ビットレート音声信号のチャンネルであるかを区別する情報を含む。また、音響メタデータは、制約ビットレート音声信号のチャンネルについて、その制約の内容に関する情報を含む。具体例として、音響メタデータは、チャンネルごとの必須ビットレートの情報を含んでもよい。つまり、音響メタデータは、制約ビットレート音声信号のチャンネルに関して、必須ビットレートの値を表す情報を持ってもよい。音響メタデータは、さらに、再生位置や、再生音量に関する情報を持ってもよい。

既存技術における音響メタデータは、例えば、下記の文献に記載されている。
文献：Recommendation ITU-R BS.2076-1，「Audio Definition Model」，ITU-R，2019年10月承認．
文献：Recommendation ITU-R BS.2125-0，「A serial representation of the Audio Definition Model」，ITU-R，2019年1月21日承認．

［第１実施形態］
音声符号化装置１には、音声信号が入力される。この音声信号は、例えば、放送番組の音声信号である。つまり、音声符号化装置１は、放送番組の制作に用いられる音響機器から出力される音声を取得し、符号化する。音声符号化装置１に入力される音声信号は、その一部に音響メタデータを含むものであってもよい。なお、音声信号が放送番組の音声以外のものであってもよい。

図１は、本実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。図示するように、音声符号化装置１は、分離部２１と、分類部２２と、音響メタデータ符号化部２４と、音声信号符号化部３１と、多重化部２５と、音響メタデータ取得部９０とを含んで構成される。また、音声信号符号化部３１は、必須ビットレート分配部３３と、余剰ビットレート分配部３４と、符号化部３６と、符号化部３７と、結合部３８とを含んで構成される。これらの各機能部は、例えば、電子回路を用いて実現される。また、各機能部は、必要に応じて、半導体メモリーや磁気ハードディスク装置などといった記憶手段を内部に備えてよい。また、各機能を、コンピューターおよびソフトウェアによって実現するようにしてもよい。各機能部の概要について、次に説明する。

分離部２１は、音声符号化装置１に入力された音声信号（例えば、番組の音声信号）を取得し、音響メタデータと、音声信号とに分離する。分離部２１は、分離して得られた音響メタデータを、分類部２２や、音声信号符号化部３１や、音響メタデータ符号化部２４に渡す。また、分離部２１は、分離して得られた音声信号を、分類部２２に渡す。なお、分離部２１は、外部から音響メタデータを取得するものであり、音響メタデータ取得部の機能を持つものと捉えることもできる。

なお、音響メタデータは、入力される音声信号から分離されるものではなく、別途、音声符号化装置１に与えられるものであってもよい。この場合にも、入力された音響メタデータは、分類部２２や、音声信号符号化部３１や、音響メタデータ符号化部２４に渡される。

分類部２２は、上記の分離部２１から渡された音声信号を、制約ビットレート音声信号と、任意ビットレート音声信号とに分類する。具体的には、分類部２２は、渡される音響メタデータを参照することによって、どのチャンネルの音声信号が制約ビットレート音声信号で、どのチャンネルの音声信号が任意ビットレート音声信号であるかの情報を得る。つまり、分類部２２は、参照した音響メタデータにしたがって、入力された音声信号を、制約ビットレート音声信号と任意ビットレート音声信号に分類する。分類部２２は、複数のチャンネル分の制約ビットレート音声信号を出力してよい。また、分類部２２は、複数のチャンネル分の任意ビットレート音声信号を出力してよい。

音響メタデータ符号化部２４は、渡される音響メタデータを、伝送のために符号化する。音響メタデータ符号化部２４は、符号化された音響メタデータを、多重化部２５に渡す。

音声信号符号化部３１は、分類部２２から渡される音声信号を符号化して、出力するものである。音声信号符号化部３１は、制約ビットレート音声信号と、任意ビットレート音声信号とを、それぞれ符号化する。音声信号符号化部３１は、符号化された音声信号を、多重化部２５に渡す。音声信号符号化部３１は、前述の通りの構成を持つ。音声信号符号化部３１の、より詳細な単位での機能構成については、後述する。

多重化部２５は、音響メタデータ符号化部２４から出力される符号化された音響メタデータと、音声信号符号化部３１から出力される符号化された音声データとを、時間窓（フレーム）ごとに多重化する。多重化部２５は、上記のように多重化して得られる１本のビットストリームを、外部に出力する。多重化部２５が出力するビットストリームは、適宜、伝送媒体を用いて伝送され、後述する音声復号装置によって受信される。

音声信号符号化部３１内のより詳細な機能構成は、次の通りである。音声信号符号化部３１は、符号化のために、受け取った制約ビットレート音声信号および任意ビットレート音声信号を、それぞれ、予め定められた時間窓（フレーム）によって切り出す。

必須ビットレート分配部３３は、受け取った音響メタデータを参照することによって、制約ビットレート音声信号に必須ビットレートを分配する。必須ビットレート分配部３３は、分配したビットレートの情報を、符号化部３６に渡す。
余剰ビットレート分配部３４は、同様に音響メタデータを参照しながら、任意ビットレート音声信号に余剰ビットレートを分配する。余剰ビットレートは、後述するように、制約ビットレート音声信号への必須ビットレートの分配の後の余剰分のビットレートである。余剰ビットレート分配部３４は、分配したビットレートの情報を、符号化部３７に渡す。
なお、必須ビットレート分配部３３および余剰ビットレート分配部３４によるビットレートの分配のしかたについては、後でも、別の図を参照しながら説明する。

符号化部３６は、分類部２２によって分類された制約ビットレート音声信号を符号化し、符号列を出力する。符号化部３６は、非可逆符号化を行うものであり、出力する符号のビットレート（単位時間当たりのビット数）を適切に調整することができる。なお、符号化部３６は、必須ビットレート分配部３３から渡されたチャンネルごとのビットレート（分配されたビットレート）の情報にしたがって、チャンネルごとに符号化を行うものである。なお、符号化部３６は、ＭＰＥＧ−２ＡＡＣ（ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ），ＭＰＥＧ−４ＡＡＣ、ＭＰＥＧ−ＤＵＳＡＣ（ＵｎｉｆｉｅｄＳｐｅｅｃｈａｎｄＡｕｄｉｏＣｏｄｉｎｇ）、ＭＰＥＧ−Ｈ３ＤＡｕｄｉｏ（３ＤＡ）、ＭＰＥＧ−I ＩＡＣ（ＩｍｍｅｒｓｉｖｅＡｕｄｉｏＣｏｄｉｎｇ）、ＡＣ−３、ＡＣ−４など任意の符号化方式を用いて、符号化を行ってよい。

符号化部３７は、分類部２２によって分類された任意ビットレート音声信号を符号化し、符号列を出力する。符号化部３７は、非可逆符号化を行うものであり、出力する符号のビットレートを適切に調整することができる。なお、符号化部３７は、余剰ビットレート分配部３４から渡されたチャンネルごとのビットレート（分配されたビットレート）の情報にしたがって、チャンネルごとに符号化を行うものである。なお、符号化部３７は、ＭＰＥＧ−２ＡＡＣ，ＭＰＥＧ−４ＡＡＣ、ＭＰＥＧ−ＤＵＳＡＣ、ＭＰＥＧ−Ｈ３ＤＡ、ＭＰＥＧ−I ＩＡＣ、ＡＣ−３、ＡＣ−４など任意の符号化方式を用いて、符号化を行ってよい。

結合部３８は、符号化部３６から出力される符号化された制約ビットレート音声信号（複数チャンネル分であってもよい）と、符号化部３７から出力される符号化された任意ビットレート音声信号（複数チャンネル分であってもよい）とを結合して、一本化する。ここでは、結合のしかたは、任意である。結合部３８は、結合した音声信号（複数チャンネル分）を、出力する。つまり、結合部３８は、結合した音声信号（複数チャンネル分）を、多重化部２５に渡す。

音響メタデータ取得部９０は、外部から、音響メタデータを取得する。言い換えれば、音響メタデータ取得部９０は、分離部２１が取得する入力信号以外のルートで、音響メタデータを取得することができるものである。音響メタデータ取得部９０は、得られた音響メタデータを、分類部２２や、音声信号符号化部３１や、音響メタデータ符号化部２４に渡す。

図２は、本実施形態が用いる音声信号の一例を表すものあり、音声信号が含むチャンネルの配置を示す概略図である。図示する例では、音声信号は、２２．２ｃｈ音響（非特許文献４、５、６）の音声フォーマットによる２４チャンネルの音声と、追加の４個の音声オブジェクト（４チャンネル）とを含む。つまり、この音声信号は、全２８チャンネルの音声を使用する放送番組の音声信号である。

同図（ａ）、（ｂ）、および（ｃ）は、２２．２ｃｈ音響の、それぞれ、上層、中層、下層のチャンネルの配置を示す。また、同図（ｄ）は、追加の４個の音声オブジェクト（オブジェクトＡからＤまで）を示す。

２２．２ｃｈ音響のフォーマットの場合、各チャンネルの音声信号の、空間内での再生位置が規定される。同図（ａ）、（ｂ）、および（ｃ）に示すように、各チャンネルの位置は、例えば、極座標で表わされる。例えば、上層の仰角は３０度、中層の仰角は０度、下層の仰角は−３０度（俯角３０度）である。ただし、各チャンネルの方位角および仰角・俯角については、各種規格（非特許文献４、５）が許容範囲を規定している。

上層（同図（ａ））において、各チャンネルの名称と方位角の例は次の通りである。ただし、方位角は、正面を０度として、左側が正の方向、右側が負の方向である。ＴｐＦＣ（Top Front Center）の方位角は０度、ＴｐＦＬ（Top Front Left）の方位角は４５度、ＴｐＳｉＬ（Top Side Left）の方位角は９０度、ＴｐＢＬ（Top Back Left）の方位角は１３５度、ＴｐＢＣ（Top Back Center）の方位角は１８０度、ＴｐＦＲ（Top Front Right）の方位角は−４５度、ＴｐＳｉＲ（Top Side Right）の方位角は−９０度、ＴｐＢＲ（Top Back Right）の方位角は−１３５度である。ＴｐＣ（Top Center）の位置は、上層内において、平面視したときの中心点の位置である。

中層（同図（ｂ））において、各チャンネルの名称と方位角の例は次の通りである。ＦＣ（Front Center）の方位角は０度、ＦＬｃ（Front Left Center）の方位角は３０度、ＦＬ（Front Left）の方位角は６０度、ＳｉＬ（Side Left）の方位角は９０度、ＢＬ（Back Left）の方位角は１３５度、ＢＣ（Back Center）の方位角は１８０度、ＦＲｃ（Front Right Center）の方位角は−３０度、ＦＲ（Front Right）の方位角は−６０度、ＳｉＲ（Side Rightの方位角は−９０度、ＢＲ（Back Right）の方位角は−１３５度である。

下層（同図（ｃ））において、各チャンネルの名称と方位角の例は次の通りである。ＢｔＦＣ（Bottom Front Center）の方位角は０度、ＢｔＦＬ（Bottom Front Left）の方位角は４５度、ＢｔＦＲ（Bottom Front Right）の方位角は−４５度である。また、ＬＦＥ１（Low Frequency Effects-1）およびＬＦＥ２（Low Frequency Effects-2）の方位角については、それぞれ４５度、−４５度である。

一方、同図（ｄ）に記載する音声オブジェクト（オブジェクトＡからＤまで）の再生位置は、音響メタデータによって任意に規定されるものである。つまり、個々の音声オブジェクトの再生位置は、必ずしも音声フォーマット内に含まれるチャンネルの位置とは一致しない。音声オブジェクトの再生位置は、例えば、音声フォーマット内のチャンネルとチャンネルとの間の中間的な位置に配置されるものであってもよい。

なお、図２に示したチャンネルの構成や、チャンネルの再生位置の配置は、単なる例である。本実施形態において、音声信号が含むチャンネル数（音声フォーマットとして位置が定められたチャンネルの数や、位置を任意に規定することのできる音声オブジェクトの数）や、その配置は、図２に示したもの以外であってもよい。

図３は、音声符号化装置１がビットレートを分配する際のルールおよび手順を示す概略図である。ここで前提とする音声信号の構成は、図２に示した構成例である。つまり、符号化対象の音声信号は、２２．２ｃｈ音声信号（２４個のチャンネル）と、４個の音声オブジェクト（４個のチャンネル）とを持つ。図３に示す例では、４個の音声オブジェクトのうちの、３個の音声オブジェクトが制約ビットレート音声信号であり、１個の音声オブジェクトが任意ビットレート音声信号である。具体的には、音声オブジェクトＡ，Ｂ，およびＤが制約ビットレート音声信号であり、音声オブジェクトＣが任意ビットレート音声信号である。また、２２．２ｃｈ音声信号に含まれるチャンネルに関してはすべてが任意ビットレート音声信号である。

図３（ａ）は、ビットレートをチャンネルに分配する前の状況を示す。同図（ｂ）は、まず必須ビットレートをチャンネルに分配したときの状況を示す。また、同図（ｃ）は、さらに余剰ビットレートをチャンネルに分配した後の状況を示す。なお、図において、２２．２ｃｈ音響が持つ２４個の枠（点線）、および音声オブジェクトが持つ４個の枠（点線）は、それぞれのチャンネルに割り当てるビットレートに対応する。また、「全ビットレート」という枠は、ある番組の音声信号を伝送するために伝送媒体が使用する全体的な伝送容量を表す。

図３（ａ）の状況では、全ビットレートは、まだどこにも分配されていない。即ち、２２．２ｃｈ音響が持つ枠も、音声オブジェクトが持つ枠も、いずれもビットレートがゼロであることを表している。

図３（ｂ）に示す状況では、必須ビットレートのみが、制約ビットレート音声信号のチャンネルのみに分配されている。つまり、４つの音声オブジェクトのうちの、制約ビットレート音声信号である音声オブジェクトＡ，Ｂ，およびＤには、必須ビットレートの割り当てが行われている。音声オブジェクトＡ，Ｂ，およびＤのそれぞれの枠の、ハッチングで表わした部分が、割り当てられた必須ビットレートに対応する。そして、任意ビットレート音声信号である音声オブジェクトＣには、ビットレートの分配が行われていない。また、２２．２ｃｈ音響の各チャンネルにも、ビットレートの分配が行われていない。具体的な数値の例は、次の通りである。即ち、音声符号化方式がＭＰＥＧ−Ｈ３ＤＡである場合には、１つの音声オブジェクトあたりの必須ビットレートは、例えば、４０ｋｂｉｔ／ｓ（キロビット毎秒）あるいは４８ｋｂｉｔ／ｓである。音声符号化方式がＭＰＥＧ−４ＡＡＣまたはＭＰＥＧ−２ＡＡＣである場合には、１つの音声オブジェクトあたりの必須ビットレートは、例えば、６４ｋｂｉｔ／ｓである。なお、この「ＡＡＣ」は、「Advanced Audio Coding」の略である。この図３（ｂ）では、音声オブジェクトＡ，Ｂ，およびＤにそれぞれ分配された必須ビットレートの合計が、予め設定されていた全ビットレートから減じられている（全ビットレートの枠（点線）の中の白の部分が、減じられた分）。この状態において残っているビットレートが、次（図３（ｃ））に分配される余剰ビットレートである。

なお、１チャンネルあたりの必須ビットレート（優先信号の１チャンネルあたりの優先ビットレート）は、音声信号符号化部３１が実行する符号化の方式に応じた固定値としてよい。例えば、１チャンネルあたりの必須ビットレートを３２キロビット毎秒以上且つ６４キロビット毎秒以下の固定値とすることは妥当である。また、必須ビットレートの値を、例えば、３２キロビット毎秒、３３キロビット毎秒、３４キロビット毎秒、３５キロビット毎秒、３６キロビット毎秒、３７キロビット毎秒、３８キロビット毎秒、３９キロビット毎秒、４０キロビット毎秒、４１キロビット毎秒、４２キロビット毎秒、４３キロビット毎秒、４４キロビット毎秒、４５キロビット毎秒、４６キロビット毎秒、４７キロビット毎秒、４８キロビット毎秒、４９キロビット毎秒、５０キロビット毎秒、５１キロビット毎秒、５２キロビット毎秒、５３キロビット毎秒、５４キロビット毎秒、５５キロビット毎秒、５６キロビット毎秒、５７キロビット毎秒、５８キロビット毎秒、５９キロビット毎秒、６０キロビット毎秒、６１キロビット毎秒、６２キロビット毎秒、６３キロビット毎秒、または６４キロビット毎秒のいずれかとしてよい。また、必須ビットレートの値を、その他の値としてもよい。

図３（ｃ）に示す状況では、図３（ｂ）の状態の後に、任意ビットレート音声信号に、余剰ビットレートが分配されている。つまり、音声オブジェクトＣや、２２．２ｃｈ音声信号の各チャンネルに、余剰ビットレートが分配されている。また、その結果として、全ビットレートの枠には、ビットレートが残っていない。ここに示した例では、任意ビットレート音声信号のチャンネルごとに、分配されるビットレートは異なっている。しかしながら、任意ビットレート音声信号へのビットレートの分配則は、用いる音声符号化方式に応じて異なっていてよい。一例として、すべての任意ビットレート音声信号の各チャンネルに、同量のビットレートが分配されるようにしてもよい。

図４は、本実施形態による音声復号装置の概略機能構成の第１例を示す機能ブロック図である。この音声復号装置５１は、音声符号化装置１が出力するビットストリームに対応可能な機能を持つものである。音声復号装置５１は、音声符号化装置１から出力されたビットストリームを受けて、符号化されている音声の復号を行う。図示するように、音声復号装置５１は、分離部７１と、音響メタデータ復号部７２と、音声信号復号部７５と、操作部８１と、オーディオレンダリング部８２とを含んで構成される。音声復号装置５１が持つ各機能部も、例えば、電子回路を用いて実現される。また、各機能部は、必要に応じて、半導体メモリーや磁気ハードディスク装置などといった記憶手段を内部に備えてよい。また、各機能を、コンピューターおよびソフトウェアによって実現するようにしてもよい。音声復号装置５１は、専用のテレビ受像機やオーディオ再生機器の一部として実現されてもよい。また、音声復号装置５１は、パーソナルコンピューターや、スマートフォンや、その他の情報端末機器を用いて実現されてもよい。上記の構成を持つ音声復号装置５１は、入力としてビットストリームを取得し、そのビットストリームを基に音声信号を復号し、音声信号をレンダリングして、再生音を出力する。各機能部の機能は、次に説明する通りである。

分離部７１は、音声復号装置５１に入力されたビットストリームを取得し、このビットストリームを分離する。具体的には、分離部７１は、ビットストリームを、符号化された音声信号と、符号化された音響メタデータとに分離する。分離部７１は、分離後の符号化された音声信号を音声信号復号部７５に渡し、符号化された音響メタデータを音響メタデータ復号部７２に渡す。

音響メタデータ復号部７２は、上記の符号化された音響メタデータを復号し、復号結果である音響メタデータを、オーディオレンダリング部８２に渡す。

音声信号復号部７５は、上記の符号化された音声信号を復号し、復号結果である音声信号を、オーディオレンダリング部８２に渡す。

操作部８１は、オーディオレンダリング部８２に対して、レンダリングに関する指示情報を送信する。この指示は、例えば、ユーザーの操作（例えば、各チャンネル（音声オブジェクトである場合を含む）の音声信号の出力音量や、再生位置等に関する操作）に基づくものである。

オーディオレンダリング部８２は、音響メタデータ復号部７２から受け取る音響メタデータおよび操作部８１から受け取る指示情報にしたがって、音声信号復号部７５から渡される音声信号をレンダリングする。ここで、オーディオレンダリングとは、各チャンネルの音声が、所定の音量で、且つ所定の再生位置で再生されるように、実際の出力環境（スピーカー等の構成や配置）に対して出力する音声信号を調整する処理である。オーディオレンダリング部８２は、レンダリングの結果である再生音を、外部に出力する。

図５に示す音声復号装置を構成してもよい。図５は、本実施形態による音声復号装置の概略機能構成の第２例を示す機能ブロック図である。この音声復号装置５２は、音声符号化装置１が出力するビットストリームに対応可能な機能を持つものである。音声復号装置５２は、分離部７１と、音響メタデータ復号部７３と、音声信号復号部７６と、操作部８１と、オーディオレンダリング部８３とを含んで構成される。これらの各機能部もまた、電子回路等によって実現される。各機能部がコンピューターとプログラムとによって実現されてもよい。上記の構成を持つ音声復号装置５２は、入力としてビットストリームを取得し、そのビットストリームを基に音声信号を復号し、音声信号をレンダリングして、再生音を出力する。各機能部の機能は、次に説明する通りである。

分離部７１は、図４の第１例と同様に、ビットストリームを、符号化された音声信号と、符号化された音響メタデータとに分離する。

音響メタデータ復号部７３は、符号化された音響メタデータを復号する。なお、音響メタデータ復号部７３は、入力される符号列の符号化方式に応じた方法で、復号を行う。音響メタデータ復号部７３は、復号結果である音響メタデータを、オーディオレンダリング部８３に渡す。また、音響メタデータ復号部７３は、復号結果である音響メタデータのちの少なくとも一部を、音声信号復号部７６に渡す。

音声信号復号部７６は、符号化された音声信号を復号する。なお、音声信号復号部７６は、入力される符号列の符号化方式に応じた方法で、復号を行う。より具体的には、音声信号復号部７６は、音響メタデータ復号部７３から渡される音響メタデータを参照して、符号化された制約ビットレート音声信号と、符号化された任意ビットレート音声信号とを、それぞれ復号する。音声信号復号部７６は、復号結果である制約ビットレート音声信号と任意ビットレート音声信号とを、オーディオレンダリング部８３に渡す。

操作部８１は、図４の第１例と同様に、オーディオレンダリング部８３に対して、レンダリングに関する指示情報を送信する。

オーディオレンダリング部８３は、音響メタデータ復号部７３から渡される音響メタデータと、操作部８１から渡される指示情報（ユーザーの操作による指示）とにしたがって、音声信号をレンダリングする。具体的には、オーディオレンダリング部８３は、制約ビットレート音声信号と、任意ビットレート音声信号とを用いて、レンダリングする。制約ビットレート音声信号と、任意ビットレート音声信号の各レンダリング結果を組み合わせて、オーディオレンダリング部８３は、再生音を外部に出力する。

［第２実施形態］
次に、本発明の第２実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。この第２実施形態では、符号化対象の音声は、背景音（「ベッズ」（beds）とも呼ばれる）と、音声オブジェクトとで構成された音声である。背景音としては、例えば、２２．２ｃｈ音響を背景音の音声フォーマットとして用いてよい。

図６は、本実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。図示するように、音声符号化装置２は、分離部２１と、分類部２３と、音響メタデータ符号化部２４と、音声信号符号化部４１と、多重化部２５と、音響メタデータ取得部９０とを含んで構成される。また、音声信号符号化部４１は、音声オブジェクト用ビットレート分配部４３と、背景音用ビットレート分配部４４と、符号化部４６と、符号化部４７と、結合部４８とを含んで構成される。各機能部の機能は、次に説明する通りである。

分離部２１は、第１実施形態の場合と同様に、入力される音声信号を、音響メタデータと音声信号とに分離する。分離部２１は、分離後の音声信号を、分類部２３に渡す。また、分離部２１は、分離後の音響メタデータを、分類部２３や、音声信号符号化部４１や、音響メタデータ符号化部２４に渡す。なお、分離部２１は、外部から音響メタデータを取得するものであり、音響メタデータ取得部の機能を持つものと捉えることもできる。

分類部２３は、渡される音響メタデータを参照しながら、分離部２１から渡された音声信号に含まれる個別のチャンネルの音声信号を、音声オブジェクトの音声信号と、背景音の音声信号とに分類する。分類部２３は、これらの音声信号を、音声信号符号化部４１に渡す。具体的には、分類部２３は、各々の音声オブジェクトの音声信号を符号化部４６に渡し、背景音の各々のチャンネルの音声信号を符号化部４７に渡す。

音響メタデータ符号化部２４は、第１実施形態の場合と同様に、音響メタデータを、伝送のために符号化する。音響メタデータ符号化部２４は、符号化された音響メタデータを、多重化部２５に渡す。

音声信号符号化部４１は、分類部２３から渡される音声信号を符号化して、出力するものである。音声信号符号化部４１は、音声オブジェクトの音声信号と、背景音の音声信号とを、それぞれ符号化する。音声信号符号化部４１は、符号化された音声信号を、多重化部２５に渡す。音声信号符号化部４１の、より詳細な単位での機能構成については、後述する。

多重化部２５は、第１実施形態の場合と同様に、音響メタデータ符号化部２４から出力される符号化された音響メタデータと、音声信号符号化部４１から出力される符号化された音声データとを、時間窓（フレーム）ごとに多重化する。多重化部２５は、多重化して得られた１本のビットストリームを、外部に出力する。

音響メタデータ取得部９０は、外部から、音響メタデータを取得する。言い換えれば、音響メタデータ取得部９０は、分離部２１が取得する入力信号以外のルートで、音響メタデータを取得することができるものである。音響メタデータ取得部９０は、得られた音響メタデータを、分類部２３や、音声信号符号化部４１や、音響メタデータ符号化部２４に渡す。

音声信号符号化部４１内のより詳細な機能構成は、次の通りである。音声信号符号化部４１は、符号化のために、受け取った音声オブジェクトの音声信号および背景音の音声信号を、それぞれ、予め定められた時間窓（フレーム）によって切り出す。

音声オブジェクト用ビットレート分配部４３は、受け取った音響メタデータを参照することによって、音声オブジェクトの各々の音声信号に音声オブジェクト用ビットレートを分配する。音声オブジェクト用ビットレート分配部４３は、分配したビットレートの情報を、符号化部４６に渡す。
背景音用ビットレート分配部４４は、同様に音響メタデータを参照しながら、背景音の音声信号に背景音用ビットレートを分配する。背景音用ビットレートは、後述（図７）するように、音声オブジェクトの音声信号への音声オブジェクト用ビットレートの分配の後の余剰のビットレートを分配するものである。背景音用ビットレート分配部４４は、分配したビットレートの情報を、符号化部４７に渡す。
なお、音声オブジェクト用ビットレート分配部４３および背景音用ビットレート分配部４４によるビットレートの分配のしかたについては、後で、図７を参照しながら説明する。

符号化部４６は、分類部２３によって分類された音声オブジェクトの音声信号を符号化し、符号列を出力する。符号化部４６は、非可逆符号化を行うものであり、出力する符号のビットレートを適切に調整することができる。なお、符号化部４６は、音声オブジェクト用ビットレート分配部４３から渡されたチャンネルごとのビットレートの情報にしたがって、チャンネルごとに符号化を行うものである。なお、符号化部４６は、ＭＰＥＧ−２ＡＡＣ，ＭＰＥＧ−４ＡＡＣ、ＭＰＥＧ−ＤＵＳＡＣ、ＭＰＥＧ−Ｈ３ＤＡ、ＭＰＥＧ−I ＩＡＣ、ＡＣ−３、ＡＣ−４など任意の符号化方式を用いて、符号化を行ってよい。

符号化部４７は、分類部２３によって分類された背景音の音声信号を符号化し、符号列を出力する。符号化部４７は、非可逆符号化を行うものであり、出力する符号のビットレートを適切に調整することができる。なお、符号化部４７は、背景音用ビットレート分配部４４から渡されたチャンネルごとのビットレートの情報にしたがって、チャンネルごとに符号化を行うものである。なお、符号化部４７は、ＭＰＥＧ−２ＡＡＣ，ＭＰＥＧ−４ＡＡＣ、ＭＰＥＧ−ＤＵＳＡＣ、ＭＰＥＧ−Ｈ３ＤＡ、ＭＰＥＧ−I ＩＡＣ、ＡＣ−３、ＡＣ−４など任意の符号化方式を用いて、符号化を行ってよい。

結合部４８は、第１実施形態における結合部３８と同様に、符号化部４６から出力される符号化された音声オブジェクトの音声信号と、符号化部４７から出力される符号化された背景音の音声信号とを結合して、一本化する。ここでも結合のしかたは、任意である。結合部４８は、結合した音声信号を、出力する。つまり、結合部４８は、結合した音声信号を、多重化部２５に渡す。

図７は、音声符号化装置２がビットレートを分配する際のルールおよび手順を示す概略図である。本実施形態におけるビットレートの分配は、第１実施形態における分配（図３）と類似である。ただし、本実施形態（図７）では、音声オブジェクト用ビットレート分配部４３が、音声オブジェクト用のビットレートを分配する。また、背景音用ビットレート分配部４４が、背景音用（２２．２ｃｈ背景音）のビットレートを分配する。ここで前提とする音声信号の構成は、次の通りである。即ち、符号化対象の音声信号は、背景音の２２．２ｃｈ音声信号（２４個のチャンネル）と、４個の音声オブジェクト（４個のチャンネル）とを持つ。

図７（ａ）は、ビットレートをチャンネルに分配する前の状況を示す。同図（ｂ）は、まず音声オブジェクト用ビットレートを４つの音声オブジェクトの各々に分配したときの状況を示す。また、同図（ｃ）は、その後に、２２．２ｃｈ背景音（２４個のチャンネル）に背景音用ビットレートを分配した状態を示している。なお、図７においても、２２．２ｃｈ背景音が持つ２４個の枠（点線）、および音声オブジェクトが持つ４個の枠（点線）は、それぞれのチャンネルに割り当てるビットレートに対応する。また、「全ビットレート」という枠は、ある番組の音声信号を伝送するために伝送媒体が使用する全体的な伝送容量に対応する。

図７（ａ）の状況では、全ビットレートは、まだどこにも分配されていない。即ち、２２．２ｃｈ背景音が持つ枠も、音声オブジェクトが持つ枠も、いずれもビットレートがゼロであることを表している。

図７（ｂ）に示す状況では、音声オブジェクト用ビットレートのみが、音声オブジェクトのチャンネルに分配されている。つまり、４つの音声オブジェクト（オブジェクトＡからＤまで）の各々に、音声オブジェクト用ビットレートが分配されている。音声オブジェクトＡ，Ｂ，Ｃ，およびＤのそれぞれの枠の、ハッチングで表わした部分が、割り当てられた音声オブジェクト用ビットレートに対応する。そして、２２．２ｃｈ背景音の各チャンネルには、ビットレートの分配が行われていない。なお、音声符号化方式（音声符号化方式がＭＰＥＧ−Ｈ３ＤＡや、ＭＰＥＧ−４ＡＡＣまたはＭＰＥＧ−２ＡＡＣなど）に応じた、１音声オブジェクトあたりのビットレート（音声オブジェクト用ビットレート）の具体的数値の例は、第１実施形態の図３の説明において示したとおりである。この図７（ｂ）では、音声オブジェクトＡ，Ｂ，Ｃ，およびＤに分配された音声オブジェクト用ビットレートの合計が、予め設定されていた全ビットレートから減じられている（全ビットレートの枠（点線）の中の白の部分が、減じられた分）。この状態において残っているビットレートが、次（図７（ｃ））に分配される背景音用ビットレートである。

図７（ｃ）に示す状況では、図７（ｂ）の状態の後に、背景音の音声信号に、背景音用ビットレートが分配されている。つまり、２２．２ｃｈ背景音の各チャンネルに、背景音用ビットレートが分配されている。また、その結果として、全ビットレートの枠には、ビットレートが残っていない。ここに示した例では、背景音の音声信号のチャンネルごとに、分配されるビットレートは異なっている。しかしながら、背景音の音声信号へのビットレートの分配則は、用いる音声符号化方式に応じて異なっていてよい。一例として、すべての背景音の音声信号のチャンネルに、同量のビットレートが分配されるようにしてもよい。

図８は、本実施形態による音声復号装置の概略機能構成を示す機能ブロック図である。音声復号装置６１は、本実施形態の音声符号化装置２が出力するビットストリームを対象として、復号処理を行う装置である。音声復号装置６１は、分離部７１と、音響メタデータ復号部７４と、音声信号復号部７７と、操作部８１と、オーディオレンダリング部８４とを含んで構成される。

分離部７１は、第１実施形態の場合と同様に、音声復号装置６１に入力されたビットストリームを、符号化された音響メタデータと、符号化された音声信号とに分離する。分離部７１は、分離して得られた、符号化された音響メタデータを、音響メタデータ復号部７４に渡す。また、分離部７１は、分離して得られた、符号化された音声信号を、音声信号復号部７７に渡す。

音響メタデータ復号部７４は、第１実施形態における音響メタデータ復号部７３と同様に、符号化された音響メタデータを復号する。音響メタデータ復号部７４は、復号結果である音響メタデータを、オーディオレンダリング部８４に渡す。また、音響メタデータ復号部７４は、音響メタデータを、音声信号復号部７７にも渡す。

音声信号復号部７７は、音響メタデータ復号部７４によって復号された音響メタデータを参照しながら、音声信号を復号する。具体的には、音声信号復号部７７は、音声オブジェクトおよび背景音の各チャンネルの音声信号を復号する。音声信号復号部７７は、復号された音声オブジェクトおよび背景音の各チャンネルの音声信号を、オーディオレンダリング部８４に渡す。

操作部８１は、第１実施形態と同様に、レンダリングに関する指示情報を、オーディオレンダリング部８４に送信する。

オーディオレンダリング部８４は、第１実施形態のオーディオレンダリング部８２や８３と同様に、音響メタデータ復号部７４から受け取る音響メタデータおよび操作部８１から受け取る指示情報にしたがって、音声信号復号部７７から渡される音声信号（音声オブジェクトと背景音）をレンダリングする。オーディオレンダリング部８４は、音声オブジェクトと、背景音の各レンダリング結果を組み合わせて、再生音を外部に出力する。

［第３実施形態］
次に、本発明の第３実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。

第３実施形態では、第１実施形態の音声符号化装置が行っていたビットレートの分配の方法を変形した方法を採用する。第１実施形態においては、必須ビットレート分配部３３が必須ビットレートを分配した後の、余剰のビットレートのすべてを、余剰ビットレート分配部３４が、任意ビットレート音声信号に分配していた。第３実施形態においては、必須ビットレート分配部３３が必須ビットレートを分配した後に残るビットレート（便宜的に、減算後ビットレートと呼ぶ）のうちの最適量を、最適ビットレート分配部３５が任意ビットレート音声信号に分配する。そして、さらにその余剰である余剰ビットレートを、余剰ビットレート分配部３４が任意ビットレート音声信号に分配する。なお、余剰ビットレート分配部３４は、余剰ビットレートを、任意ビットレート音声信号だけではなく、必須ビットレート音声信号にも分配してよい。

図９は、本実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。図示するように、音声符号化装置３は、分離部２１と、分類部２２と、音響メタデータ符号化部２４と、音声信号符号化部３２と、多重化部２５と、音響メタデータ取得部９０とを含んで構成される。分離部２１と、分類部２２と、音響メタデータ符号化部２４と、多重化部２５と、音響メタデータ取得部９０の、各部の機能は、第１実施形態において説明したものと同様である。よって、ここでは、本実施形態に特有の機能を持つ音声信号符号化部３２を中心に説明する。

音声信号符号化部３２は、必須ビットレート分配部３３と、余剰ビットレート分配部３４と、最適ビットレート分配部３５と、符号化部３６と、符号化部３７と、結合部３８とを含んで構成される。音声信号符号化部３２は、制約ビットレート音声信号および任意ビットレート音声信号を予め定められた時間窓（フレーム）によって切り出し、符号化するものである。音声信号符号化部３２を構成する各機能部の機能は、次に説明する通りである。

必須ビットレート分配部３３は、音響メタデータを参照しながら、制約ビットレート音声信号に必須ビットレートを分配する。必須ビットレート分配部３３が制約ビットレート音声信号に分配する必須ビットレートの量については、第１実施形態ですでに説明した通りである。必須ビットレート分配部３３は、分配したビットレートの情報を、チャンネルごとに、符号化部３６に伝える。

最適ビットレート分配部３５は、任意ビットレート音声信号に最適ビットレートを分配する。最適ビットレート分配部３５が分配する最適ビットレートの量については、後で図１１を参照しながら説明する。最適ビットレート分配部３５は、分配したビットレートの情報を、チャンネルごとに、符号化部３７に伝える。

余剰ビットレート分配部３４は、余剰ビットレートを、制約ビットレート音声信号および任意ビットレート音声信号の各チャンネル（音声オブジェクトを含む）に分配する。本実施形態における余剰ビットレートとは、全ビットレートから、必須ビットレート分配部３３が分配したビットレートの合計と、最適ビットレート分配部３５が分配したビットレートの合計とを減じた後に残る余剰分である。なお、この減算の結果がゼロである場合には、分配すべき余剰ビットレートはない。余剰ビットレート分配部３４は、一例として、余剰ビットレートをすべてのチャンネル（音声オブジェクトを含む）に均等に分配してよい。また、他の分配方法の例として、余剰ビットレート分配部３４は、既に分配されているビットレートが少ないチャンネル（音声オブジェクトを含む）から、重点的に多く、余剰ビットレートを分配してもよい。また、さらに別のルールにしたがって、余剰ビットレート分配部３４が余剰ビットレートを分配するようにしてもよい。余剰ビットレート分配部３４は、分配したビットレートの情報を、チャンネルごとに、符号化部３６および符号化部３７に伝える。

符号化部３６は、分配されたビットレートにしたがって、チャンネルごとに、制約ビットレート音声信号を符号化し、符号列を出力する。制約ビットレート音声信号を符号化する際には、符号化部３６は、チャンネルごとに、必須ビットレート分配部３３によって分配されたビットレートと、余剰ビットレート分配部３４によって分配されたビットレートとの和を求め、そのビットレートでの符号を生成するようにする。

符号化部３７は、分配されたビットレートにしたがって、チャンネルごとに、任意ビットレート音声信号を符号化し、符号列を出力する。任意ビットレート音声信号を符号化する際には、符号化部３７は、チャンネルごとに、最適ビットレート分配部３５によって分配されたビットレートと、余剰ビットレート分配部３４によって分配されたビットレートとの和を求め、そのビットレートでの符号を生成するようにする。

結合部３８は、第１実施形態と同様に、符号化部３６から出力される符号化された制約ビットレート音声信号と、符号化部３７から出力される符号化された任意ビットレート音声信号とを結合して、一本化する。

図１０および図１１は、本実施形態の音声符号化装置３がビットレートを分配する際のルールおよび手順を示す概略図である。ここで前提とする音声信号の構成は、第１実施形態の場合と同様である。つまり、符号化対象の音声信号は、２２．２ｃｈ音声信号（２４個のチャンネル）と、４個の音声オブジェクト（４個のチャンネル）とを持つ。また、４個の音声オブジェクトのうちの、３個の音声オブジェクトが制約ビットレート音声信号であり、１個の音声オブジェクトが任意ビットレート音声信号である。つまり、音声オブジェクトＡ，Ｂ，およびＤが制約ビットレート音声信号であり、音声オブジェクトＣが任意ビットレート音声信号である。また、２２．２ｃｈ音声信号に含まれるチャンネルに関してはすべてが任意ビットレート音声信号である。

図１０（ａ）は、ビットレートをチャンネルに分配する前の状況を示す。図１０（ｂ）は、まず必須ビットレートをチャンネルに分配したときの状況を示す。図１１（ｃ）は、さらに最適ビットレートをチャンネルに分配したときの状況を示す。そして、図１１（ｄ）は、さらに余剰ビットレートをチャンネルに分配したときの状況を示す。なお、図において、２２．２ｃｈ音響が持つ２４個の枠（点線）、および音声オブジェクトが持つ４個の枠（点線）は、それぞれのチャンネルに割り当てるビットレートに対応する。また、「全ビットレート」という枠は、ある番組の音声信号を伝送するために伝送媒体が使用する全体的な伝送容量を表す。

図１０（ａ）の状況では、全ビットレートは、まだどこにも分配されていない。即ち、２２．２ｃｈ音響が持つ枠も、音声オブジェクトが持つ枠も、いずれもビットレートがゼロであることを表している。

図１０（ｂ）に示す状況では、必須ビットレートのみが、制約ビットレート音声信号のチャンネルのみに分配されている。つまり、４つの音声オブジェクトのうちの、制約ビットレート音声信号である音声オブジェクトＡ，Ｂ，およびＤには、必須ビットレートの割り当てが行われている。そして、任意ビットレート音声信号である音声オブジェクトＣには、ビットレートの分配が行われていない。また、２２．２ｃｈ音響の各チャンネルにも、ビットレートの分配が行われていない。ここまでのビットレートの分配は、第１実施形態における必須ビットレートの分配が済んだ時点のもの、即ち図３（ｂ）の状態と同様である。

次に、図１１（ｃ）に示す状況では、図１０（ｂ）の状態の後に、任意ビットレート音声信号に、最適ビットレートが分配されている。つまり、音声オブジェクトＣや、２２．２ｃｈ音声信号の各チャンネルに、最適ビットレートが分配されている。この第３実施形態では、第１実施形態の場合と異なり、必須ビットレートの分配の後のすべての余剰ビットレートをこの段階で任意ビットレート音声信号に分配することは行われない。最適ビットレートとして任意ビットレート音声信号に分配されるビットレートの量（伝送容量）は、各々のチャンネルの任意ビットレート音声信号に応じて、適宜定められる。最適ビットレートの量の決め方は、例えば、各チャンネルの性質に応じて所定の計算手順で算出されるものであってもよいし、各チャンネルの設定値としてパラメーターファイル等に設定されているものであってもよいし、その他の方法によって決定されるものであってもよい。また、任意ビットレート音声信号のチャンネルごとに分配されたビットレートが互いに異なっていてもよいし、同一であってもよい。使用する音声符号化方式に応じて、最適ビットレートのチャンネルごとの値を決めてもよい。この図１１（ｃ）の状態では、最適ビットレートとして分配された量が、全ビットレートの量から減じられている。ただし、この状態において、全ビットレートの量はまだゼロにはなっておらず、さらなる余剰が残っている。

最後に、図１１（ｄ）に示す状況では、図１１（ｃ）の状態の後に、さらに、すべてのチャンネルの音声信号に、余剰ビットレートが分配されている。図１１（ｄ）の状態では、制約ビットレート音声信号および任意ビットレート音声信号のそれぞれに、余剰ビットレート（図１１（ｃ）の段階では未分配で残っていたビットレート）が、均等に分配されている。また、全ビットレートは全て分配された状態を示している。分配された余剰ビットレートは、図１１（ｄ）内の、実線の小さな矢印線で示されている分である。また、余剰ビットレートを分配した結果として、全ビットレートの枠には、ビットレートが残っていない。

なお、図１１（ｄ）に示した例では余剰ビットレートは各チャンネルに均等に分配されていたが、余剰ビットレートを分配する際に、チャンネルごとに分配量が異なっていてもよい。例えば、既に分配されたビットレートが少ないチャンネルから重点的に多くのビットレートを分配するなど、別の分配則を設定しても構わない。

図１２および図１３は、本実施形態による音声符号化装置による符号化処理の手順を示すフローチャートである。図１２と図１３とは、フローチャートの結合子によって結合されている。以下、このフローチャートに沿って説明する。

まず図１２のステップＳ１１において、音声符号化装置３は、番組音声信号を取得する。この番組音声信号は、音響メタデータを含んでいてもよい。この番組音声信号が、音響メタデータを含まない場合もある。

次に、ステップＳ１２において、分離部２１は、ステップＳ１１で取得した番組音声信号から、音響メタデータの信号と、音声信号とを分離する。分離部２１は、分離した音声信号を、さらに、分類部２２に渡す。

次に、ステップＳ１３において、音声符号化装置３は、ステップＳ１１で取得した信号に音響メタデータが含まれているか否かを判定する。音響メタデータが含まれていた場合（ステップＳ１３：ＹＥＳ）には、ステップＳ１４に進む。音響メタデータが含まれていなかった場合（ステップＳ１３：ＮＯ）には、ステップＳ１５に進む。

ステップＳ１４に進んだ場合、同ステップにおいて、音声符号化装置３は、ステップＳ１１で取得した信号から、音響メタデータを取得する。この音響メタデータは、分類部２２と、音声信号符号化部３１と、音響メタデータ符号化部２４とに渡される。本ステップの処理が終了すると、ステップＳ１６に移る。

ステップＳ１５に進んだ場合、同ステップにおいて、音声符号化装置３は、外部（音声符号化装置３の外）から与えられる音響メタデータを取得する。この音響メタデータは、分類部２２と、音声信号符号化部３１と、音響メタデータ符号化部２４とに渡される。本ステップの処理が終了すると、ステップＳ１６に移る。

本フローチャートでは、ステップＳ１３において、ステップＳ１４またはＳ１５のいずれか一方に分岐している。これにより、音声符号化装置３は、ステップＳ１１で取得した信号から抽出した音響メタデータ、または、外部から与えられた音響メタデータのいずれか一方を使用する。ただし、音声符号化装置３が、これら両方の手段で取得した音響メタデータを併用してもよい。

次に、ステップＳ１６に進み、分類部２２が、分離部２１から渡される音声信号を分類する。具体的には、分類部２２は、渡された音声信号を、制約ビットレートの音声信号と、任意ビットレートの音声信号とに分類する。分類部２２は、制約ビットレートの音声信号と、任意ビットレートの音声信号とを、ともに、音声信号符号化部３２に渡す。より詳細には、分類部２２は、制約ビットレートの音声信号を、音声信号符号化部３２内の符号化部３６に渡す。また、分類部２２は、任意ビットレートの音声信号を、音声信号符号化部３２内の符号化部３７に渡す。

次に、ステップＳ１７において、必須ビットレート分配部３３は、制約ビットレート音声信号のためのビットレート（必須ビットレート）を分配する。必須ビットレートについては、既に説明した通りである。

次に、ステップＳ１８において、最適ビットレート分配部３５は、任意ビットレート音声信号のためのビットレート（最適ビットレート）を分配する。最適ビットレートについては、既に説明した通りである。

次に、ステップＳ１９において、余剰ビットレート分配部３４は、余剰ビットレートがあるか否かを判定する。余剰ビットレートがある場合（ステップＳ１９：ＹＥＳ）には、余剰ビットレートを分配する処理を実行するために、次のステップＳ２０に進む。また、余剰ビットレートがない場合（ステップＳ１９：ＮＯ）には、ステップＳ２０とＳ２１とを飛ばして、ステップＳ２２に進む。なお、余剰ビットレートについては、既に説明した通りである。

以後は、図１３に示されているステップである。
次に、ステップＳ２０に進んだ場合、同ステップにおいて、余剰ビットレート分配部３４は、制約ビットレート音声信号に、余剰ビットレートを分配する。
そして、ステップＳ２１において、余剰ビットレート分配部３４は、任意ビットレート音声信号に、余剰ビットレートを分配する。

なお、ステップＳ２１の処理とステップＳ２２の処理の順序を逆にしてもよい。
また、余剰ビットレートを制約ビットレート音声信号に先に分配する場合（ステップＳ２０を先に実行する場合）において、余剰ビットレートを制約ビットレート音声信号に分配したことによって任意ビットレート音声信号に分配できる余剰ビットレートがなくなった場合には、任意ビットレート音声信号への余剰ビットレートの分配を取りやめてもよい。
逆に、余剰ビットレートを任意ビットレート音声信号に先に分配する場合（ステップＳ２１を先に実行する場合）において、余剰ビットレートを任意ビットレート音声信号に分配したことによって制約ビットレート音声信号に分配できる余剰ビットレートがなくなった場合には、制約ビットレート音声信号への余剰ビットレートの分配を取りやめてもよい。
また、余剰ビットレートを制約ビットレート音声信号に先に分配する場合（ステップＳ２０を先に実行する場合）においても、任意ビットレート音声信号に分配できる十分な量の余剰ビットレートがある場合に限って、余剰ビットレートを制約ビットレート音声信号に分配するようにしてもよい。
逆に、余剰ビットレートを任意ビットレート音声信号に先に分配する場合（ステップＳ２１を先に実行する場合）においても、制約ビットレート音声信号に分配できる十分な量の余剰ビットレートがある場合に限って、余剰ビットレートを任意ビットレート音声信号に分配するようにしてもよい。

上記のステップＳ２０およびＳ２１の処理を実行した場合も、これらの処理をスキップした場合も、ステップＳ２２の処理の直前の時点までに、制約ビットレート音声信号および任意ビットレート音声信号の、それぞれのビットレートは決定されている。

そして、ステップＳ２２において、符号化部３６は、上で分配されたビットレート（制約ビットレート音声信号に与えられたビットレート）にしたがって、制約ビットレート音声信号の符号化を行う。

そして、ステップＳ２３において、符号化部３７は、上で分配されたビットレート（任意ビットレート音声信号に与えられたビットレート）にしたがって、任意ビットレート音声信号の符号化を行う。

次に、ステップＳ２４において、結合部３８は、符号化された制約ビットレート音声信号（ステップＳ２２の処理の結果）と、符号化された任意ビットレート音声信号（ステップＳ２３の処理の結果）とを、結合し、一本化する。

そして、ステップＳ２５において、音響メタデータ符号化部２４は、音響メタデータを符号化する。

次に、ステップＳ２６において、多重化部２５は、符号化された音声信号（ステップＳ２４における結合の結果）と、符号化された音響メタデータ（ステップＳ２５における処理の結果）とを、多重化する。

そして、ステップＳ２７において、多重化部２５は、ステップＳ２６での多重化の結果として得られるビットストリームを外部に出力する。このビットストリームは、必要に応じて伝送媒体（放送信号や、通信信号等）等を通じて、伝送され得る。

なお、本実施形態に用いる音声復号装置は、第１実施形態で説明した音声復号装置５１（図４）または音声復号装置５２（図５）であってよい。

［第４実施形態］
次に、本発明の第４実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。

第４実施形態では、第２実施形態の音声符号化装置が行っていたビットレートの分配の方法を変形した方法を採用する。第２実施形態においては、音声オブジェクト用ビットレート分配部４３が音声オブジェクト用ビットレートを分配した後の、余剰のビットレートのすべてを、背景音用ビットレート分配部４４が、背景音の音声信号に分配していた。第４実施形態においては、音声オブジェクト用ビットレート分配部４３が音声オブジェクト用ビットレートを分配した後に残るビットレート（便宜的に、減算後ビットレートと呼ぶ）のうちの最適量を、背景音用ビットレート分配部４４が背景音の音声信号に分配する。そして、さらにその余剰である余剰ビットレートを、余剰ビットレート分配部４５が背景音の音声信号に分配する。なお、余剰ビットレート分配部４５は、余剰ビットレートを、背景音の音声信号だけではなく、音声オブジェクトの音声信号にも分配してよい。

図１４は、本実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。図示するように、音声符号化装置４は、分離部２１と、分類部２３と、音響メタデータ符号化部２４と、音声信号符号化部４２と、多重化部２５と、音響メタデータ取得部９０とを含んで構成される。分離部２１と、分類部２３と、音響メタデータ符号化部２４と、多重化部２５と、音響メタデータ取得部９０の、各部の機能は、第２実施形態において説明したものと同様である。よって、ここでは、本実施形態に特有の機能を持つ音声信号符号化部４２を中心に説明する。

音声信号符号化部４２は、音声オブジェクト用ビットレート分配部４３と、背景音用ビットレート分配部４４と、余剰ビットレート分配部４５と、符号化部４６と、符号化部４７と、結合部４８とを含んで構成される。音声信号符号化部４２は、各音声オブジェクトの音声信号および２２．２ｃｈ背景音の各チャンネルの音声信号を、予め定められた時間窓（フレーム）によって切り出し、符号化するものである。音声信号符号化部４２を構成する各機能部の機能は、次に説明する通りである。

音声オブジェクト用ビットレート分配部４３は、音響メタデータを参照しながら、音声オブジェクトの音声信号に必須ビットレートを分配する。音声オブジェクト用ビットレート分配部４３が制約ビットレート音声信号に分配する必須ビットレートの量については、第２実施形態ですでに説明した通りである。音声オブジェクト用ビットレート分配部４３は、分配したビットレートの情報を、チャンネルごとに、符号化部４６に伝える。

背景音用ビットレート分配部４４は、背景音の各チャンネルの音声信号に背景音用ビットレートを分配する。背景音用ビットレート分配部４４が分配する背景音用ビットレートの量については、後で図１６を参照しながら説明する。背景音用ビットレート分配部４４は、分配したビットレートの情報を、チャンネルごとに、符号化部４７に伝える。

余剰ビットレート分配部４５は、余剰ビットレートを、音声オブジェクトおよび背景音のそれぞれの音声信号に分配する。本実施形態における余剰ビットレートとは、全ビットレートから、音声オブジェクト用ビットレート分配部４３が分配したビットレートの合計と、背景音用ビットレート分配部４４が分配したビットレートの合計とを減じた後に残る余剰分である。なお、この減算の結果がゼロである場合には、余剰ビットレート分配部４５が分配すべき余剰ビットレートはない。余剰ビットレート分配部４５は、一例として、余剰ビットレートをすべてのチャンネル（音声オブジェクトを含む）に均等に分配してよい。また、他の分配方法の例として、余剰ビットレート分配部４５は、既に分配されているビットレートが少ないチャンネル（音声オブジェクトを含む）から、重点的に多く、余剰ビットレートを分配してもよい。また、さらに別のルールにしたがって、余剰ビットレート分配部４５が余剰ビットレートを分配するようにしてもよい。余剰ビットレート分配部４５は、分配したビットレートの情報を、チャンネルごとに、符号化部４６および符号化部４７に伝える。

符号化部４６は、分配されたビットレートにしたがって、チャンネルごとに、音声オブジェクトの音声信号を符号化し、符号列を出力する。音声オブジェクトの音声信号を符号化する際には、符号化部４６は、チャンネルごとに、音声オブジェクト用ビットレート分配部４３によって分配されたビットレートと、余剰ビットレート分配部４５によって分配されたビットレートとの和を求め、そのビットレートでの符号を生成するようにする。

符号化部４７は、分配されたビットレートにしたがって、チャンネルごとに、背景音の音声信号を符号化し、符号列を出力する。背景音の音声信号を符号化する際には、符号化部３７は、チャンネルごとに、背景音用ビットレート分配部４４によって分配されたビットレートと、余剰ビットレート分配部４５によって分配されたビットレートとの和を求め、そのビットレートでの符号を生成するようにする。

結合部４８は、第２実施形態と同様に、符号化部４６から出力される符号化された制約ビットレート音声信号と、符号化部４７から出力される符号化された任意ビットレート音声信号とを結合して、一本化する。

図１５および図１６は、本実施形態の音声符号化装置４がビットレートを分配する際のルールおよび手順を示す概略図である。ここで前提とする音声信号の構成は、第２実施形態の場合と同様である。つまり、符号化対象の音声信号は、２２．２ｃｈ背景音（２４個のチャンネル）と、４個の音声オブジェクト（４個のチャンネル）とを持つ。

図１５（ａ）は、ビットレートをチャンネルに分配する前の状況を示す。図１５（ｂ）は、まず音声オブジェクト用ビットレートを４つの音声オブジェクトに分配したときの状況を示す。図１６（ｃ）は、さらに背景音用ビットレートを２２．２ｃｈ背景音のチャンネルに分配したときの状況を示す。そして、図１６（ｄ）は、さらに余剰ビットレートをチャンネルに分配したときの状況を示す。なお、図において、２２．２ｃｈ音響が持つ２４個の枠（点線）、および音声オブジェクトが持つ４個の枠（点線）は、それぞれのチャンネルに割り当てるビットレートに対応する。また、「全ビットレート」という枠は、ある番組の音声信号を伝送するために伝送媒体が使用する全体的な伝送容量を表す。

図１５（ａ）の状況では、全ビットレートは、まだどこにも分配されていない。即ち、２２．２ｃｈ背景音が持つ枠も、音声オブジェクトが持つ枠も、いずれもビットレートがゼロであることを表している。

図１５（ｂ）に示す状況では、音声オブジェクト用ビットレートのみが、音声オブジェクトに分配されている。つまり、４つの音声オブジェクトの各々に、音声オブジェクト用ビットレートの割り当てが行われている。なお、２２．２ｃｈ背景音の各チャンネルには、この段階では、ビットレートの分配が行われていない。この図１５（ｂ）までのビットレートの分配は、第２実施形態における音声オブジェクト用ビットレートの分配が済んだ時点のもの、即ち図７（ｂ）の状態と同様である。

次に、図１６（ｃ）に示す状況では、図１５（ｂ）の状態の後に、２２．２ｃｈ背景音の各チャンネルの音声信号に、背景音用ビットレートが分配されている。この第４実施形態では、第２実施形態の場合と異なり、音声オブジェクト用ビットレートの分配の後のすべての余剰分をこの段階で２２．２ｃｈ背景音の音声信号に分配することは行われない。背景音用ビットレートとして２２．２ｃｈ背景音の各チャンネルに分配されるビットレートの量（伝送容量）は、各チャンネルの音声信号に応じて、適宜定められる。背景音用ビットレートの決め方は、例えば、各チャンネルの性質に応じて所定の計算手順で算出されるものであってもよいし、各チャンネルの設定値としてパラメーターファイル等に設定されているものであってもよいし、その他の方法によって決定されるものであってもよい。また、２２．２ｃｈ背景音のチャンネルごとに分配されたビットレートが互いに異なっていてもよいし、同一であってもよい。使用する音声符号化方式に応じて、チャンネルごとの値を決めてもよい。この図１６（ｃ）の状態では、背景音用ビットレートとして分配された量が、全ビットレートの量から減じられている。ただし、この状態において、全ビットレートの量はまだゼロにはなっておらず、さらなる余剰が残っている。

最後に、図１６（ｄ）に示す状況では、図１６（ｃ）の状態の後に、さらに、すべてのチャンネル（音声オブジェクト用および背景音用）の音声信号に、余剰ビットレートが分配されている。図１６（ｄ）の状態では、すべてのチャンネルのそれぞれに、余剰ビットレート（図１６（ｃ）の段階では未分配で残っていたビットレート）が、均等に分配されている。分配された余剰ビットレートは、図１６（ｄ）内の、実線の小さな矢印線で示されている分である。また、余剰ビットレートを分配した結果として、全ビットレートの枠には、ビットレートが残っていない。

なお、図１６（ｄ）に示した例では余剰ビットレートは各チャンネルに均等に分配されていたが、余剰ビットレートを分配する際に、チャンネルごとに分配量が異なっていてもよい。例えば、既に分配されたビットレートが少ないチャンネルから重点的に多くのビットレートを分配するなど、別の分配則を設定しても構わない。

なお、本実施形態に用いる音声復号装置は、第２実施形態で説明した音声復号装置６１（図８）であってよい。

なお、第３実施形態においては、音声符号化装置の処理手順を、フローチャート（図１２、図１３）を参照しながら説明した。他の実施形態における、音声符号化装置の処理手順は、次の通りである。
第１実施形態における音声符号化装置の処理手順は、第３実施形態のそれと類似である。ただし、第１実施形態では、必須ビットレートを分配した後、余剰ビットレートのすべてを、任意ビットレート音声信号に割り当てる。
第４実施形態における音声符号化装置の処理手順は、第３実施形態のそれと類似である。ただし、第４実施形態に関しては、次の通り読み替えを行う。制約ビットレート音声信号を、音声オブジェクトの音声信号に読み替える。任意ビットレート音声信号を、背景音の音声信号に読み替える。必須ビットレートを、音声オブジェクト用ビットレートに読み替える。最適ビットレートを、背景音用ビットレートに読み替える。
第２実施形態における音声符号化装置の処理手順は、上記の第４実施形態のそれと類似である。ただし、第２実施形態では、音声オブジェクト用ビットレートを分配した後、余剰のビットレートのすべて（背景音用ビットレート）を、背景音のビットレート音声信号に割り当てる。

以上、説明した、第１実施形態から第４実施形態までの音声符号化装置に共通する構成は、次の通りである。

分離部２１は、入力される信号（例えば、放送番組の番組音声信号）を、音声信号（Ｎ個）と音響メタデータとに分離する。分離部２１は音響メタデータ取得部としても機能する。
音響メタデータ符号化部２４は、音響メタデータを符号化する。これにより、音響メタデータは符号化される。つまり、音響メタデータは、符号化された音声信号とともに、伝送したり記録したりすることが可能となる。
分類部（２２，２３）は、音響メタデータを参照し、優先ビットレート（必須ビットレート）（ｐキロビット毎秒）の制約を設ける音声信号（優先信号、制約ビットレート音声信号、音声オブジェクトの音声信号）（ｌ個）と、それ以外の音声信号（非優先信号，任意ビットレート音声信号、背景音の音声信号）（ｍ個）とに分類（グループ分け）する（合計Ｎ個；Ｎ＝ｌ＋ｍ）。
音声信号符号化部（３１，３２，４１，４２）は、音声信号を符号化する。
分配部（必須ビットレート分配部、音声オブジェクト用ビットレート分配部）は、予め指定された全ビットレート（Ｔキロビット毎秒）から、優先信号に対して、予め定められた優先ビットレート（必須ビットレート、音声オブジェクト用ビットレート）（ｌ個、各ｐキロビット毎秒、合計（ｐ＊ｌ）キロビット毎秒）を分配する。
分配部（最適ビットレート分配部）は、全ビットレートから、上記優先ビットレートを減じた残りのビットレート（減算後ビットレート）（Ｔ−ｐ＊ｌ［キロビット毎秒］）を、非優先信号に分配する。
（１）Ｔ−ｐｌ≦ｑの場合には、非優先信号に、Ｔ−ｐｌを分配する。各チャンネルへの分配法は、規格等に依る。ただしqは、入力された背景音（ｍ個の音声信号）に対して符号化法ごとに予め定められた最適ビットレートである。
（２−１）Ｔ−ｐｌ＞ｑの場合には、非優先信号に、ｑを分配する。
そして、分配部（余剰ビットレート分配部）は、さらに残されたビットレート（余剰）であるＴ−ｐｌ−ｑを、音声信号に分配する。例えば、均等に分配するなら、（Ｔ−ｐｌ−ｑ）／Ｎずつ分配する。
（２−２）Ｔ−ｐｌ＞ｑの場合に、Ｔ−ｐｌを、非優先信号以外に優先信号に分配してもよい。
多重化部２５は、符号化した音声信号と符号化した音響メタデータとを多重化して、ビットストリームとして出力する。

音声復号装置（５１，５２，６１）の構成は次の通りである。
分離部７１は、取得したビットストリームを、符号化された音声信号と符号化された音響メタデータとに分離する。
音響メタデータ復号部は、音響メタデータを復号して出力する。
音声信号復号部は、復号された音響メタデータを参照しながら、音声信号を復号して出力する。
オーディオレンダリング部は、音響メタデータを参照し、また操作部８１からの指示情報を参照し、復号された優先信号および復号された非優先信号を、適切にオーディオレンダリングし、再生音を出力する。

その他のオプション（実施形態として説明した特徴も含む）は、次の通りである。
（１）音声符号化装置に入力される音響メタデータは、必ずしも音声信号に多重化した状態で入力されるものでなくてもよい。音声信号と音響メタデータとを、異なる経路で（例えば、放送波、運行装置、番組情報、インターネット、ユーザーインターフェースを介したマニュアル入力、音声符号化装置内の記録媒体等を介して）取得されてもよい。
（２）音響メタデータは、制約ビットレート音声信号の選別情報（どのチャンネルの音声信号が優先信号で、どのチャンネルの音声が非優先信号か、を表す情報）、必須ビットレート、任意ビットレート音声信号の選別情報、最適ビットレート、余剰ビットレート、全ビットレートに関する情報を含んでよい。
（３）優先信号（制約ビットレート音声信号）の中の、特定のチャンネルが特定のフレームにおいて無音と判断できる場合、そのチャンネルへの必須ビットレート分配をとりやめて、最適ビットレートや余剰ビットレートや優先信号の中の上記特定のチャンネル以外のチャンネル（無音ではないチャンネル）への分配に回すことも可能である。例えば、図３（ｂ）等のオブジェクトＣが、無音と判断されたために優先ビットレートを割り当てない、という状況も起こり得る。
（４）全ビットレートから必須ビットレートを差し引いた残りのビットレートについては、任意ビットレート音声信号に、予め定められた分配法に基づいて、場合分けなし（判定せずに）に全て分配してもよい。
（５）必須ビットレートや最適ビットレートは、符号化方式や音声フォーマットごとに予め数値を指定してもよい。例えば、MPEG-H 3D AudioやAC-4の場合、必須ビットレートは1音声信号あたり３２キロビット毎秒、３３キロビット毎秒、３４キロビット毎秒、３５キロビット毎秒、３６キロビット毎秒、３７キロビット毎秒、３８キロビット毎秒、３９キロビット毎秒、４０キロビット毎秒、４１キロビット毎秒、４２キロビット毎秒、４３キロビット毎秒、４４キロビット毎秒、４５キロビット毎秒、４６キロビット毎秒、４７キロビット毎秒、４８キロビット毎秒、４９キロビット毎秒、５０キロビット毎秒、５１キロビット毎秒、５２キロビット毎秒、５３キロビット毎秒、５４キロビット毎秒、５５キロビット毎秒、５６キロビット毎秒、５７キロビット毎秒、５８キロビット毎秒、５９キロビット毎秒、６０キロビット毎秒、６１キロビット毎秒、６２キロビット毎秒、６３キロビット毎秒、または６４キロビット毎秒で、最適ビットレートは22.2chで528または768kbit/s、5.1サラウンドで192または180kbit/s、ステレオで80または96kbit/s、7.1.4chで288または384kbit/sとなる。
（６）音声復号装置において、制約ビットレート音声信号や任意ビットレート音声信号を区別して復号およびレンダリングしてもよいし、区別せずにまとめて復号およびレンダリングしてもよい。

上の（３）において、優先信号（制約ビットレート音声信号）の中の、特定のチャンネルが特定のフレームにおいて無音と判断できる場合、そのチャンネルへの必須ビットレート分配をとりやめとするオプションを記載した。このオプションを実現するために、音声符号化装置を次のように構成してもよい。

例えば、音声符号化装置は、特定のチャンネル（オブジェクトであってもよい）が特定のフレームにおいて無音であるか否かを判定するために、チャンネルの信号レベルが予め定められた閾値以下であるか否かの判定を行う。つまり、音声符号化装置は、あるチャンネルの信号レベルが予め定められた閾値以下であるならば、そのチャンネルは無音であると判定してよい。

あるいは、音声符号化装置は、特定のチャンネル（オブジェクトであってもよい）が特定のフレームにおいて無音であるか否かを判定するために、チャンネルの信号レベルに、デコーダー側（あるいはデコーダーを含む受信機側）でのレベル増幅量の最大値を加算した値が、予め定められた閾値以下であるか否かの判断を行ってもよい。この「レベル増幅量」は、例えばデシベル（ｄB）の単位で表わされる値である。また、チャンネルの信号の振幅に、デコーダー側での振幅増幅率の最大値を乗じた値が、予め定められた閾値以下であるか否かの判断を行ってもよい。ここで増幅率とは、増幅後の信号の振幅を増幅前の信号の振幅で除した値である。なお、音声符号化装置は、適切な手段によりデコーダー側での増幅量または増幅率の最大値の情報を、符号化を実行する時点までに取得しておく。つまり、音声符号化装置は、あるチャンネルの信号レベルに上記増幅量または増幅率の最大値を加算または乗じた値が予め定められた閾値以下であるならば、そのチャンネルは無音であると判定してよい。

上記において、音声符号化装置は、特定のチャンネル（オブジェクトであってもよい）の信号レベルに応じて、そのチャンネルに割り当てるビットレートを段階的に減じていくようにしてもよい。つまり、音声符号化装置は、信号レベルＳの閾値を、Ｓ０、Ｓ１、Ｓ２、・・・、Ｓｎと複数個予め設定しておくことができる（ｎ≧０）。そして、音声符号化装置は、そのチャンネルに割り当てるビットレートＲを、Ｓの値に応じて次のように決定する。即ち、
Ｓ≦Ｓ０のときには、Ｒ＝０とする、
Ｓ０＜Ｓ≦Ｓ１のときには、Ｒ＝Ｒ１とする、
Ｓ１＜Ｓ≦Ｓ２のときには、Ｒ＝Ｒ２とする、
以下同様にして、
Ｓｎ＜Ｓのときには、Ｒ＝Ｒｎとする。
但し、原則として、０≦Ｒ１≦Ｒ２≦・・・≦Ｒｎである。なお、特に、０＜Ｒ１＜Ｒ２＜・・・＜Ｒｎとしてもよい。なお、Ｓ０は、上で説明した、無音であるか否かを判定するための閾値である。当該チャンネルが無音と判定される場合以外でも、音声符号化装置は、Ｒ＝Ｒ１、Ｒ２、・・・、Ｒ（ｎ−１）のいずれかに決定する場合には、その余った分（Ｒｎからの差分）のビットレートを、他の音声信号に分配するために回すことができる。ここで、Ｓは、符号化対象のチャンネルの信号レベルとしたが、上で説明した、信号の振幅でもよいし、信号の振幅にデコーダー側の増幅率の最大値を乗じたもの、または信号レベルにデコーダー側の増幅量の最大値を加算したものとしてもよい。

あるいは、音声符号化装置は、特定のチャンネル（オブジェクトであってもよい）が特定のフレームにおいて無音であるか否かを判定するために、外部からの制御信号を受け取って、その制御信号にしたがってもよい。つまり、音声符号化装置は外部からの制御信号を受け取るものであり、その制御信号は特定のチャンネルが無音であるか否かを表す信号である。音声符号化装置は、あるチャンネルに関して受け取った上記制御信号が、当該チャンネルは無音であることを表しているならば、そのチャンネルは無音であると判定してよい。なお、音声符号化装置は、上記制御信号がそのチャンネルが無音であることを表しているならば、実際のそのチャンネルの信号レベルの大小の度合いに関わらず、そのチャンネルは無音であると判定してよい。

音声符号化装置は、上で説明したいずれかの判定方法によってあるチャンネル（オブジェクトであってもよい）の特定のフレームが無音であると判定した場合に、そのチャンネルのそのフレームの音声信号を無音の信号に差替えてもよい。つまり、その場合には、音声符号化装置が出力するそのチャンネルのそのフレームにおける音声信号のレベルは最低値（−∞）、つまり無音となる。

あるいは、音声符号化装置は、特定のチャンネルが特定のフレームにおいて無音であると判定した場合に、そのチャンネルが当該フレームにおいて無音であることを示すフラグ情報（例えば、「無音フラグ」と呼んでもよい）を出力（送出）するようにしてもよい。また、音声符号化装置が上記のフラグ情報を出力する場合、対する音声復号装置を次のように構成してもよい。つまり、音声復号装置は、あるチャンネル（オブジェクト）が例えば特定のフレームにおいて無音であることを示すフラグ情報（無音フラグ）を受信した場合、そのチャンネル（オブジェクト）の音声信号の復号および再生の処理をとりやめるようにしてよい。あるいは、音声復号装置は、あるチャンネル（オブジェクト）が例えば特定のフレームにおいて無音であることを示すフラグ情報（無音フラグ）を受信した場合、そのチャンネル（オブジェクト）として無音の音声信号を出力し、再生するようにしてもよい。

さらに、各実施形態における構成を整理すると、次の通りである。

音声符号化装置（１，２，３，４）は、次のように構成される。
音響メタデータ取得部（音響メタデータ取得部）は、音声信号が優先信号であるか非優先信号であるかを少なくとも表す音響メタデータを取得する。
分類部（２２，２３）は、音響メタデータを参照することによって、入力される複数の（チャンネルの）音声信号が、優先信号（制約ビットレート音声信号、音声オブジェクトの音声信号）であるか非優先信号（任意ビットレート音声信号、背景音の音声信号）であるかを分類する。
分配部（必須ビットレート分配部３３、余剰ビットレート分配部３４、最適ビットレート分配部３５、音声オブジェクト用ビットレート分配部４３、背景音用ビットレート分配部４４、余剰ビットレート分配部４５）は、ビットレートを前記音声信号に分配する分配部である。この分配部は、指定された全ビットレートのうち前記優先信号に対応する優先ビットレートを前記優先信号に分配し、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果に基づく余剰ビットレートを前記非優先信号に分配する。
音声信号符号化部は、前記分配部が分配した前記ビットレートにしたがって、前記音声信号のそれぞれを符号化する。

第３実施形態あるは第４実施形態においては、次の通りである。
前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記非優先信号に分配する。

第３実施形態あるは第４実施形態において、次のようにしてもよい。
前記分配部は、前記余剰ビットレートを、前記優先信号にも分配する。

分離部２１は、前記メタデータと前記複数の音声信号とを含んだ入力信号を取得し、前記入力信号を前記メタデータと前記音声信号とに分離し、分離した前記音声信号を前記分類部に渡す。
ただし、音声符号化装置（１，２，３，４）が、分離部２１を持たないように構成してもよい。

音響メタデータ符号化部（音響メタデータ符号化部２４）は、取得された前記音響メタデータを符号化する。
多重化部２５は、前記音声信号符号化部が出力する符号化された音声信号と、前記音響メタデータ符号化部が出力する符号化された音響メタデータとを、多重化して出力する。
ただし、音声符号化装置（１，２，３，４）が、上記の、音響メタデータ符号化部や、多重化部２５を持たないように構成してもよい。

優先信号は、音声オブジェクトの音声信号としてよい。
非優先信号は、２２．２ｃｈ音響等の音声フォーマットであるチャンネルベース音響の音声信号としてよい。このチャンネルベース音響の音声フォーマットは、例えば、先行技術文献として挙げた非特許文献４、５、および６に記載されているものである。即ち、次の文献に記載されているものである。
文献：ARIB標準規格STD-B59 2.0版，三次元マルチチャンネル音響方式スタジオ規格，ARIB、2016年7月．
文献：Recommendation ITU-R BS.2051-2，「Advanced sound system for programme production」，ITU-R、2018年7月．
文献：SMPTE STANDARD SMPTE 2036-2-2008，「Ultra High Definition Television-Audio Characteristics and Audio Channel Mapping for Program Production」，SMPTE，2008年7月9日．

優先信号の１チャンネルあたりの前記優先ビットレートは、前記音声信号符号化部が実行する符号化の方式に応じた固定値であって、３２キロビット毎秒、３３キロビット毎秒、３４キロビット毎秒、３５キロビット毎秒、３６キロビット毎秒、３７キロビット毎秒、３８キロビット毎秒、３９キロビット毎秒、４０キロビット毎秒、４１キロビット毎秒、４２キロビット毎秒、４３キロビット毎秒、４４キロビット毎秒、４５キロビット毎秒、４６キロビット毎秒、４７キロビット毎秒、４８キロビット毎秒、４９キロビット毎秒、５０キロビット毎秒、５１キロビット毎秒、５２キロビット毎秒、５３キロビット毎秒、５４キロビット毎秒、５５キロビット毎秒、５６キロビット毎秒、５７キロビット毎秒、５８キロビット毎秒、５９キロビット毎秒、６０キロビット毎秒、６１キロビット毎秒、６２キロビット毎秒、６３キロビット毎秒、または６４キロビット毎秒のいずれかとしてよい。また、この優先ビットレートは、他の値であってもよい。

音声復号装置（５１，５２，６１）は、次のように構成される。
分離部は、ビットストリームを取得して、前記ビットストリームを、符号化された音声信号と、符号化された音響メタデータと、に分離する。
音響メタデータ復号部は、前記符号化された音響メタデータを復号する。
音声信号復号部は、前記符号化された音声信号を復号する。
オーディオレンダリング部は、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、前記音声信号復号部によって復号された音声信号をオーディオレンダリングし、再生音として出力する。

なお、音声信号復号部は、前記符号化された音声信号に含まれる優先信号と非優先信号とをそれぞれ復号してもよい。この場合にオーディオレンダリング部は、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、復号された前記優先信号と非優先信号とをそれぞれオーディオレンダリングし、前記優先信号のオーディオレンダリング結果と前記非優先信号のオーディオレンダリング結果とを組み合わせて前記再生音として出力する。
また、さらに、音声復号装置（５１，５２，６１）が、ユーザーの操作に基づく指示情報を生成する操作部８１をさらに備え、前記オーディオレンダリング部は、前記操作部からの前記指示情報にも基づいて、前記復号された音声信号をオーディオレンダリングするようにしてもよい。
音声復号装置（５１，５２，６１）が、操作部８１を持たないように構成してもよい。

なお、上述した各実施形態における音声符号化装置や音声復号装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ＵＳＢメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。

音声符号化装置が出力したビットストリームを、伝送して音声復号装置に渡す代わりに、記録媒体（ＣＤや、ＤＶＤや、ブルーレイディスクや、ハードディスク装置や、半導体メモリー等）に書き込んでもよい。音声復号装置は、その記録媒体から、ビットストリームを取得できる。

実施形態に記載した手法は、例示した２２．２ｃｈ音響以外のマルチチャンネル音響方式や、オブジェクトベース音響方式、ＡＲ／ＶＲ音響にも適用してよい。

以上説明した複数の実施形態（および変形例）の少なくともいずれかによれば、複数の音声信号で構成される音声のコンテンツ等を符号化する際に、音質劣化が許容されない音声信号に優先的に伝送容量（あるいは記録容量）を割り当てることができる。これにより、コンテンツ等の制作者の意図に沿って、コンテンツ等の総合的な品質を維持できる。また、その形態での実施のために、既存の音声符号化規格のビットストリームシンタックスを変更する必要がない。

以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。

本発明は、例えば、音声のコンテンツの放送、配信、記録、流通等のために利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。

１，２，３，４音声符号化装置
２１分離部（音響メタデータ取得部）
２２，２３分類部
２４音響メタデータ符号化部
２５多重化部
３１，３２音声信号符号化部
３３必須ビットレート分配部
３４余剰ビットレート分配部
３５最適ビットレート分配部
３６，３７符号化部
３７符号化部
３８結合部
４１，４２音声信号符号化部
４３音声オブジェクト用ビットレート分配部
４４背景音用ビットレート分配部
４５余剰ビットレート分配部
４６，４７符号化部
４８結合部
５１，５２，６１音声復号装置
７１分離部
７２，７３，７４音響メタデータ復号部
７５，７６，７７音声信号復号部
８１操作部
８２，８３，８４オーディオレンダリング部
９０音響メタデータ取得部

Claims

音声信号が優先信号であるか非優先信号であるかを少なくとも表す音響メタデータを取得する音響メタデータ取得部と、
前記音響メタデータを参照することによって、入力される複数の音声信号が、優先信号であるか非優先信号であるかを分類する分類部と、
ビットレートを前記音声信号に分配する分配部であって、指定された全ビットレートのうち前記優先信号に対応する優先ビットレートを前記優先信号に分配し、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果に基づく余剰ビットレートを前記非優先信号に分配する分配部と、
前記分配部が分配した前記ビットレートにしたがって、前記音声信号のそれぞれを符号化する音声信号符号化部と、
を備える音声符号化装置。
前記分配部は、前記優先信号のうちの特定の優先信号が無音であると判断できる場合、前記特定の優先信号への前記優先ビットレートの分配を取りやめて他の音声信号への分配に回す、
請求項１に記載の音声符号化装置。
前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記非優先信号に分配する、
請求項１または請求項２に記載の音声符号化装置。
前記分配部は、前記余剰ビットレートを、前記優先信号にも分配する、
請求項３に記載の音声符号化装置。
前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記優先信号に分配する、
請求項１または請求項２に記載の音声符号化装置。
前記分配部は、前記余剰ビットレートを、前記非優先信号にも分配する、
請求項５に記載の音声符号化装置。
前記音響メタデータと前記複数の音声信号とを含んだ入力信号を取得し、前記入力信号を前記音響メタデータと前記音声信号とに分離し、分離した前記音声信号を前記分類部に渡す分離部、
をさらに備える請求項１から６までのいずれか一項に記載の音声符号化装置。
取得された前記音響メタデータを符号化する音響メタデータ符号化部と、
前記音声信号符号化部が出力する符号化された音声信号と、前記音響メタデータ符号化部が出力する符号化された音響メタデータとを、多重化して出力する多重化部と、
をさらに備える請求項１から７までのいずれか一項に記載の音声符号化装置。
前記優先信号は、音声オブジェクトの音声信号であり、
前記非優先信号は、チャンネルベース音響の音声信号である、
請求項１から８までのいずれか一項に記載の音声符号化装置。
前記優先信号の１チャンネルあたりの前記優先ビットレートは、前記音声信号符号化部が実行する符号化の方式に応じた固定値であって、３２キロビット毎秒、３３キロビット毎秒、３４キロビット毎秒、３５キロビット毎秒、３６キロビット毎秒、３７キロビット毎秒、３８キロビット毎秒、３９キロビット毎秒、４０キロビット毎秒、４１キロビット毎秒、４２キロビット毎秒、４３キロビット毎秒、４４キロビット毎秒、４５キロビット毎秒、４６キロビット毎秒、４７キロビット毎秒、４８キロビット毎秒、４９キロビット毎秒、５０キロビット毎秒、５１キロビット毎秒、５２キロビット毎秒、５３キロビット毎秒、５４キロビット毎秒、５５キロビット毎秒、５６キロビット毎秒、５７キロビット毎秒、５８キロビット毎秒、５９キロビット毎秒、６０キロビット毎秒、６１キロビット毎秒、６２キロビット毎秒、６３キロビット毎秒、または６４キロビット毎秒のいずれかである、
請求項１から９までのいずれか一項に記載の音声符号化装置。
コンピューターを、
請求項１から１０までのいずれか一項に記載の音声符号化装置、
として機能させるためのプログラム。
ビットストリームを取得して、前記ビットストリームを、符号化された音声信号と、符号化された音響メタデータと、に分離する分離部と、
前記符号化された音響メタデータを復号する音響メタデータ復号部と、
前記符号化された音声信号を復号する音声信号復号部と、
前記音響メタデータ復号部によって復号された音響メタデータに基づいて、前記音声信号復号部によって復号された音声信号をオーディオレンダリングし、再生音として出力するオーディオレンダリング部と、
を備える音声復号装置。
音声信号復号部は、前記符号化された音声信号に含まれる優先信号と非優先信号とをそれぞれ復号し、
前記オーディオレンダリング部は、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、復号された前記優先信号と非優先信号とをそれぞれオーディオレンダリングし、前記優先信号のオーディオレンダリング結果と前記非優先信号のオーディオレンダリング結果とを組み合わせて前記再生音として出力する、
請求項１２に記載の音声復号装置。
ユーザーの操作に基づく指示情報を生成する操作部、
をさらに備え、
前記オーディオレンダリング部は、前記操作部からの前記指示情報にも基づいて、前記復号された音声信号をオーディオレンダリングする、
請求項１２または請求項１３に記載の音声復号装置。
コンピューターを、
請求項１２から１４までのいずれか一項に記載の音声復号装置、
として機能させるためのプログラム。