JP2021124719A - 音声符号化装置および音声復号装置、ならびにプログラム - Google Patents

音声符号化装置および音声復号装置、ならびにプログラム Download PDF

Info

Publication number
JP2021124719A
JP2021124719A JP2020187368A JP2020187368A JP2021124719A JP 2021124719 A JP2021124719 A JP 2021124719A JP 2020187368 A JP2020187368 A JP 2020187368A JP 2020187368 A JP2020187368 A JP 2020187368A JP 2021124719 A JP2021124719 A JP 2021124719A
Authority
JP
Japan
Prior art keywords
bit rate
unit
signal
priority
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020187368A
Other languages
English (en)
Inventor
岳大 杉本
Takehiro Sugimoto
岳大 杉本
知美 小倉
Tomomi Ogura
知美 小倉
陽 佐々木
Akira Sasaki
陽 佐々木
弘樹 久保
Hiroki Kubo
弘樹 久保
敦郎 伊藤
Atsuro Ito
敦郎 伊藤
周 北島
Shu Kitajima
周 北島
光太郎 木下
Kotaro Kinoshita
光太郎 木下
敏行 西口
Toshiyuki Nishiguchi
敏行 西口
靖茂 中山
Yasushige Nakayama
靖茂 中山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Publication of JP2021124719A publication Critical patent/JP2021124719A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

【課題】再生音のカスタマイズが許容される範囲内においては音質の劣化を起こさない音声符号化装置や音声復号装置を提供する。【解決手段】音響メタデータ取得部は、音声信号が優先信号であるか非優先信号であるかを少なくとも表す音響メタデータを取得する。分類部は、前記音響メタデータを参照することによって、入力される複数の音声信号が、優先信号であるか非優先信号であるかを分類する。分配部は、ビットレートを前記音声信号に分配する分配部であって、指定された全ビットレートのうち前記優先信号に対応する優先ビットレートを前記優先信号に分配し、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果に基づく余剰ビットレートを前記非優先信号に分配する。音声信号符号化部は、前記分配部が分配した前記ビットレートにしたがって、前記音声信号のそれぞれを符号化する。【選択図】図1

Description

本発明は、音声符号化装置および音声復号装置、ならびにプログラムに関する。
2018年12月に日本で放送が開始された22.2ch音響などの、従来のマルチチャンネル音響システムは、チャンネルベース音響システムである。一方、近年、音声信号と音響メタデータとを組み合わせたオブジェクトベース音響システムやAR/VR音響の実用化が進められている。オブジェクトベース音響やAR/VR音響は、多数の音声信号を提供することで、リスナーの好みに合わせた音の調節・カスタマイズ・レンダリングを実現する仕組みであるが、必然的に伝送するデータ量が大きくなってしまう。そこで、最新の音声符号化方式では、多数の音声信号間の重要度を予め定められた指標(例えば、レベルやラウドネス値、レンダリング時の優先順位)に基づいて決定し、その重要度に応じてビットレートを分配することで、番組全体の所要ビットレートを抑制する技術が採用されている。
非特許文献1、2、および3には、オブジェクトベース音響システムについて記載されている。これらの文献には、所定の指標に基づいて音声信号の重要度を予め定め、その重要度に応じてビットレートを分配する技術が記載されている。
VR音響に関しては、The Moving Picture Experts Group(MPEG)が、標準規格として、ISO/IEC 23090-4:202X,「MPEG-I Immersive Audio Coding(仮称)」を策定中である(参考URLは、https://mpeg.chiariglione.org/sites/default/files/files/meetings/docs/w17904.docx)。
また、非特許文献4、5、および6には、放送番組の制作におけるマルチチャンネル音響方式の技術が記載されている。
ISO/IEC 23008-3:2019,Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio, Second edition,International Organization for Standardization,2019年2月. ETSI TS 103 190-2 V1.2.1 (2018-02),TECHNICAL SPECIFICATION,Digital Audio Compression (AC-4) Standard; Part 2: Immersive and personalized audio,ETSI,2018年2月. ATSC Standard: A/342 Part 3, MPEG-H System,2017年3月3日. ARIB標準規格STD-B59 2.0版,三次元マルチチャンネル音響方式スタジオ規格,ARIB、2016年7月. Recommendation ITU-R BS.2051-2,「Advanced sound system for programme production」,ITU-R、2018年7月. SMPTE STANDARD SMPTE 2036-2-2008,「Ultra High Definition Television-Audio Characteristics and Audio Channel Mapping for Program Production」,SMPTE,2008年7月9日.
しかしながら、上記の従来技術では、番組としての音声信号の初期状態、初期値に合わせてビットレートの分配を最適化するアルゴリズムを用いる。つまり、従来技術では、リスナーがカスタマイズした後の番組音の状態に対しても、分配されたビットレートが最適である保証がない。換言すると、リスナーによるカスタマイズの中身によっては、番組制作者の想定を超える音質劣化が起こりうる可能性がある。例えば、複数の音声信号を取り扱う番組において、ビットレートの分配量が最も少ない音声信号(劣化の大きい音声信号)のみをリスナーが取り出して聴取する場合、番組の初期状態においては音質劣化が他の音声信号によってマスクされていたにも関わらず、リスナーのカスタマイズによって音質劣化が著しく表面化することになる。
つまり、リスナー側で再生音をカスタマイズすることができる音響システム(例えば、オブジェクトベース音響や、AR/VR音響など)において、許容されるカスタマイズの範囲内では、音質劣化を顕在化させないような音声符号化および復号の方式が必要とされる。つまり、許容されるカスタマイズの範囲内では音質を劣化させないようなビットレートの適切な分配が必要である。
本発明は、上記の課題認識に基づいて行なわれたものであり、再生音のカスタマイズが許容される範囲内においては音質の劣化を起こさない音声符号化装置および音声復号装置、ならびにプログラムを提供しようとするものである。
[1]上記の課題を解決するため、本発明の一態様による音声符号化装置は、音声信号が優先信号であるか非優先信号であるかを少なくとも表す音響メタデータを取得する音響メタデータ取得部と、前記音響メタデータを参照することによって、入力される複数の音声信号が、優先信号であるか非優先信号であるかを分類する分類部と、ビットレートを前記音声信号に分配する分配部であって、指定された全ビットレートのうち前記優先信号に対応する優先ビットレートを前記優先信号に分配し、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果に基づく余剰ビットレートを前記非優先信号に分配する分配部と、前記分配部が分配した前記ビットレートにしたがって、前記音声信号のそれぞれを符号化する音声信号符号化部とを備える。
[2]また、本発明の一態様は、上記の音声符号化装置において、前記分配部は、前記優先信号のうちの特定の優先信号が無音であると判断できる場合、前記特定の優先信号への前記優先ビットレートの分配を取りやめて他の音声信号への分配に回す、ものである。
[3]また、本発明の一態様は、上記の音声符号化装置において、前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記非優先信号に分配する、ものである。
[4]また、本発明の一態様は、上記の音声符号化装置において、前記分配部は、前記余剰ビットレートを、前記優先信号にも分配するものである。
[5]また、本発明の一態様は、上記の音声符号化装置において、前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記優先信号に分配する、ものである。
[6]また、本発明の一態様は、前記分配部は、前記余剰ビットレートを、前記非優先信号にも分配するものである。
[7]また、本発明の一態様は、上記の音声符号化装置において、前記音響メタデータと前記複数の音声信号とを含んだ入力信号を取得し、前記入力信号を前記音響メタデータと前記音声信号とに分離し、分離した前記音声信号を前記分類部に渡す分離部、をさらに備えるものである。
[8]また、本発明の一態様は、上記の音声符号化装置において、取得された前記音響メタデータを符号化する音響メタデータ符号化部と、前記音声信号符号化部が出力する符号化された音声信号と、前記音響メタデータ符号化部が出力する符号化された音響メタデータとを、多重化して出力する多重化部と、をさらに備える。
[9]また、本発明の一態様は、上記の音声符号化装置において、前記優先信号は、音声オブジェクトの音声信号であり、前記非優先信号は、22.2ch音響等の音声フォーマットであるチャンネルベース音響の音声信号である、というものである。
[10]また、本発明の一態様は、上記の音声符号化装置において、前記優先信号の1チャンネルあたりの前記優先ビットレートは、前記音声信号符号化部が実行する符号化の方式に応じた固定値であって、32キロビット毎秒、33キロビット毎秒、34キロビット毎秒、35キロビット毎秒、36キロビット毎秒、37キロビット毎秒、38キロビット毎秒、39キロビット毎秒、40キロビット毎秒、41キロビット毎秒、42キロビット毎秒、43キロビット毎秒、44キロビット毎秒、45キロビット毎秒、46キロビット毎秒、47キロビット毎秒、48キロビット毎秒、49キロビット毎秒、50キロビット毎秒、51キロビット毎秒、52キロビット毎秒、53キロビット毎秒、54キロビット毎秒、55キロビット毎秒、56キロビット毎秒、57キロビット毎秒、58キロビット毎秒、59キロビット毎秒、60キロビット毎秒、61キロビット毎秒、62キロビット毎秒、63キロビット毎秒、または64キロビット毎秒のいずれかである、というものである。
[11]また、本発明の一態様は、コンピューターを、上記[1]から[10]までいずれかに記載の音声符号化装置、として機能させるためのプログラムである。
[12]また、本発明の一態様による音声復号装置は、ビットストリームを取得して、前記ビットストリームを、符号化された音声信号と、符号化された音響メタデータと、に分離する分離部と、前記符号化された音響メタデータを復号する音響メタデータ復号部と、前記符号化された音声信号を復号する音声信号復号部と、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、前記音声信号復号部によって復号された音声信号をオーディオレンダリングし、再生音として出力するオーディオレンダリング部と、を備えるものである。
[13]また、本発明の一態様は、上記の音声復号装置において、音声信号復号部は、前記符号化された音声信号に含まれる優先信号と非優先信号とをそれぞれ復号し、前記オーディオレンダリング部は、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、復号された前記優先信号と非優先信号とをそれぞれオーディオレンダリングし、前記優先信号のオーディオレンダリング結果と前記非優先信号のオーディオレンダリング結果とを組み合わせて前記再生音として出力する、ものである。
[14]また、本発明の一態様は、上記の音声復号装置において、ユーザーの操作に基づく指示情報を生成する操作部、をさらに備え、前記オーディオレンダリング部は、前記操作部からの前記指示情報にも基づいて、前記復号された音声信号をオーディオレンダリングする、ものである。
[15]また、本発明の一態様は、コンピューターを、上記[12]から[14]までのいずれかに記載の音声復号装置、として機能させるためのプログラムである。
本発明によれば、複数の音声信号で構成される音声のコンテンツ等を符号化する際に、音質劣化が許容されない音声信号に優先的に伝送容量(あるいは記録容量)を割り当てることができる。これにより、コンテンツ等の制作者の意図に沿って、コンテンツ等の総合的な品質を維持できる。
本発明の第1実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。 第1実施形態が用いる多チャンネル音響の各チャンネルの再生位置の配置の例を示す概略図である。 第1実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図である。 第1実施形態による音声復号装置の概略機能構成の第1例を示す機能ブロック図である。 第1実施形態による音声復号装置の概略機能構成の第2例を示す機能ブロック図である。 第2実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。 第2実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図である。 第2実施形態による音声復号装置の概略機能構成を示す機能ブロック図である。 第3実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。 第3実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図(1/2)である。 第3実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図(2/2)である。 第3実施形態の音声符号化装置による符号化処理の手順を示すフローチャート(1/2)である。 第3実施形態の音声符号化装置による符号化処理の手順を示すフローチャート(2/2)である。 第4実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。 第4実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図(1/2)である。 第4実施形態による音声符号化装置がビットレートを分配する際のルールおよび手順を示す概略図(2/2)である。
次に、図面を参照しながら、本発明の複数の実施形態について、説明する。各実施形態においては、音声信号を、優先信号と非優先信号とに分類して処理する。
優先信号には、所定のビットレート(例えば、符号化方式等に応じて固定のビットレート)が分配される。これにより、優先信号を符号化したときに、その音声の品質は保証される。優先信号に割り当てられるビットレートを、優先ビットレートと呼ぶ。優先ビットレートを、必須ビットレート、音声オブジェクト用ビットレート、保証ビットレート、固定ビットレート等と呼んでもよい。
非優先信号には、優先ビットレートを分配した後に残るビットレートが、適宜、分配される。非優先信号に割り当てられるビットレートを、非優先ビットレートと呼ぶ。非優先ビットレートを、任意ビットレート、最適ビットレート、背景音用ビットレート、非制約ビットレート、非保証ビットレート等と呼んでもよい。
また、余剰のビットレートも、適宜、分配される。
また、以下で説明する複数の実施形態では、音響メタデータを用いる。音響メタデータは、制約ビットレート音声信号の選別情報(どのチャンネルの音声信号が優先信号で、どのチャンネルの音声信号が非優先信号か、を表す情報)、必須ビットレート、任意ビットレート音声信号の選別情報、最適ビットレート、余剰ビットレート、全ビットレートに関する情報を含んでよい。
つまり、音響メタデータは、各チャンネルが、制約ビットレート音声信号のチャンネルであるか、任意ビットレート音声信号のチャンネルであるかを区別する情報を含む。また、音響メタデータは、制約ビットレート音声信号のチャンネルについて、その制約の内容に関する情報を含む。具体例として、音響メタデータは、チャンネルごとの必須ビットレートの情報を含んでもよい。つまり、音響メタデータは、制約ビットレート音声信号のチャンネルに関して、必須ビットレートの値を表す情報を持ってもよい。音響メタデータは、さらに、再生位置や、再生音量に関する情報を持ってもよい。
既存技術における音響メタデータは、例えば、下記の文献に記載されている。
文献:Recommendation ITU-R BS.2076-1,「Audio Definition Model」,ITU-R,2019年10月承認.
文献:Recommendation ITU-R BS.2125-0,「A serial representation of the Audio Definition Model」,ITU-R,2019年1月21日承認.
[第1実施形態]
音声符号化装置1には、音声信号が入力される。この音声信号は、例えば、放送番組の音声信号である。つまり、音声符号化装置1は、放送番組の制作に用いられる音響機器から出力される音声を取得し、符号化する。音声符号化装置1に入力される音声信号は、その一部に音響メタデータを含むものであってもよい。なお、音声信号が放送番組の音声以外のものであってもよい。
図1は、本実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。図示するように、音声符号化装置1は、分離部21と、分類部22と、音響メタデータ符号化部24と、音声信号符号化部31と、多重化部25と、音響メタデータ取得部90とを含んで構成される。また、音声信号符号化部31は、必須ビットレート分配部33と、余剰ビットレート分配部34と、符号化部36と、符号化部37と、結合部38とを含んで構成される。これらの各機能部は、例えば、電子回路を用いて実現される。また、各機能部は、必要に応じて、半導体メモリーや磁気ハードディスク装置などといった記憶手段を内部に備えてよい。また、各機能を、コンピューターおよびソフトウェアによって実現するようにしてもよい。各機能部の概要について、次に説明する。
分離部21は、音声符号化装置1に入力された音声信号(例えば、番組の音声信号)を取得し、音響メタデータと、音声信号とに分離する。分離部21は、分離して得られた音響メタデータを、分類部22や、音声信号符号化部31や、音響メタデータ符号化部24に渡す。また、分離部21は、分離して得られた音声信号を、分類部22に渡す。なお、分離部21は、外部から音響メタデータを取得するものであり、音響メタデータ取得部の機能を持つものと捉えることもできる。
なお、音響メタデータは、入力される音声信号から分離されるものではなく、別途、音声符号化装置1に与えられるものであってもよい。この場合にも、入力された音響メタデータは、分類部22や、音声信号符号化部31や、音響メタデータ符号化部24に渡される。
分類部22は、上記の分離部21から渡された音声信号を、制約ビットレート音声信号と、任意ビットレート音声信号とに分類する。具体的には、分類部22は、渡される音響メタデータを参照することによって、どのチャンネルの音声信号が制約ビットレート音声信号で、どのチャンネルの音声信号が任意ビットレート音声信号であるかの情報を得る。つまり、分類部22は、参照した音響メタデータにしたがって、入力された音声信号を、制約ビットレート音声信号と任意ビットレート音声信号に分類する。分類部22は、複数のチャンネル分の制約ビットレート音声信号を出力してよい。また、分類部22は、複数のチャンネル分の任意ビットレート音声信号を出力してよい。
音響メタデータ符号化部24は、渡される音響メタデータを、伝送のために符号化する。音響メタデータ符号化部24は、符号化された音響メタデータを、多重化部25に渡す。
音声信号符号化部31は、分類部22から渡される音声信号を符号化して、出力するものである。音声信号符号化部31は、制約ビットレート音声信号と、任意ビットレート音声信号とを、それぞれ符号化する。音声信号符号化部31は、符号化された音声信号を、多重化部25に渡す。音声信号符号化部31は、前述の通りの構成を持つ。音声信号符号化部31の、より詳細な単位での機能構成については、後述する。
多重化部25は、音響メタデータ符号化部24から出力される符号化された音響メタデータと、音声信号符号化部31から出力される符号化された音声データとを、時間窓(フレーム)ごとに多重化する。多重化部25は、上記のように多重化して得られる1本のビットストリームを、外部に出力する。多重化部25が出力するビットストリームは、適宜、伝送媒体を用いて伝送され、後述する音声復号装置によって受信される。
音声信号符号化部31内のより詳細な機能構成は、次の通りである。音声信号符号化部31は、符号化のために、受け取った制約ビットレート音声信号および任意ビットレート音声信号を、それぞれ、予め定められた時間窓(フレーム)によって切り出す。
必須ビットレート分配部33は、受け取った音響メタデータを参照することによって、制約ビットレート音声信号に必須ビットレートを分配する。必須ビットレート分配部33は、分配したビットレートの情報を、符号化部36に渡す。
余剰ビットレート分配部34は、同様に音響メタデータを参照しながら、任意ビットレート音声信号に余剰ビットレートを分配する。余剰ビットレートは、後述するように、制約ビットレート音声信号への必須ビットレートの分配の後の余剰分のビットレートである。余剰ビットレート分配部34は、分配したビットレートの情報を、符号化部37に渡す。
なお、必須ビットレート分配部33および余剰ビットレート分配部34によるビットレートの分配のしかたについては、後でも、別の図を参照しながら説明する。
符号化部36は、分類部22によって分類された制約ビットレート音声信号を符号化し、符号列を出力する。符号化部36は、非可逆符号化を行うものであり、出力する符号のビットレート(単位時間当たりのビット数)を適切に調整することができる。なお、符号化部36は、必須ビットレート分配部33から渡されたチャンネルごとのビットレート(分配されたビットレート)の情報にしたがって、チャンネルごとに符号化を行うものである。なお、符号化部36は、MPEG−2 AAC(Advanced Audio Coding),MPEG−4 AAC、MPEG−D USAC(Unified Speech and Audio Coding)、MPEG−H 3D Audio(3DA)、MPEG−I IAC(Immersive Audio Coding)、AC−3、AC−4など任意の符号化方式を用いて、符号化を行ってよい。
符号化部37は、分類部22によって分類された任意ビットレート音声信号を符号化し、符号列を出力する。符号化部37は、非可逆符号化を行うものであり、出力する符号のビットレートを適切に調整することができる。なお、符号化部37は、余剰ビットレート分配部34から渡されたチャンネルごとのビットレート(分配されたビットレート)の情報にしたがって、チャンネルごとに符号化を行うものである。なお、符号化部37は、MPEG−2 AAC,MPEG−4 AAC、MPEG−D USAC、MPEG−H 3DA、MPEG−I IAC、AC−3、AC−4など任意の符号化方式を用いて、符号化を行ってよい。
結合部38は、符号化部36から出力される符号化された制約ビットレート音声信号(複数チャンネル分であってもよい)と、符号化部37から出力される符号化された任意ビットレート音声信号(複数チャンネル分であってもよい)とを結合して、一本化する。ここでは、結合のしかたは、任意である。結合部38は、結合した音声信号(複数チャンネル分)を、出力する。つまり、結合部38は、結合した音声信号(複数チャンネル分)を、多重化部25に渡す。
音響メタデータ取得部90は、外部から、音響メタデータを取得する。言い換えれば、音響メタデータ取得部90は、分離部21が取得する入力信号以外のルートで、音響メタデータを取得することができるものである。音響メタデータ取得部90は、得られた音響メタデータを、分類部22や、音声信号符号化部31や、音響メタデータ符号化部24に渡す。
図2は、本実施形態が用いる音声信号の一例を表すものあり、音声信号が含むチャンネルの配置を示す概略図である。図示する例では、音声信号は、22.2ch音響(非特許文献4、5、6)の音声フォーマットによる24チャンネルの音声と、追加の4個の音声オブジェクト(4チャンネル)とを含む。つまり、この音声信号は、全28チャンネルの音声を使用する放送番組の音声信号である。
同図(a)、(b)、および(c)は、22.2ch音響の、それぞれ、上層、中層、下層のチャンネルの配置を示す。また、同図(d)は、追加の4個の音声オブジェクト(オブジェクトAからDまで)を示す。
22.2ch音響のフォーマットの場合、各チャンネルの音声信号の、空間内での再生位置が規定される。同図(a)、(b)、および(c)に示すように、各チャンネルの位置は、例えば、極座標で表わされる。例えば、上層の仰角は30度、中層の仰角は0度、下層の仰角は−30度(俯角30度)である。ただし、各チャンネルの方位角および仰角・俯角については、各種規格(非特許文献4、5)が許容範囲を規定している。
上層(同図(a))において、各チャンネルの名称と方位角の例は次の通りである。ただし、方位角は、正面を0度として、左側が正の方向、右側が負の方向である。TpFC(Top Front Center)の方位角は0度、TpFL(Top Front Left)の方位角は45度、TpSiL(Top Side Left)の方位角は90度、TpBL(Top Back Left)の方位角は135度、TpBC(Top Back Center)の方位角は180度、TpFR(Top Front Right)の方位角は−45度、TpSiR(Top Side Right)の方位角は−90度、TpBR(Top Back Right)の方位角は−135度である。TpC(Top Center)の位置は、上層内において、平面視したときの中心点の位置である。
中層(同図(b))において、各チャンネルの名称と方位角の例は次の通りである。FC(Front Center)の方位角は0度、FLc(Front Left Center)の方位角は30度、FL(Front Left)の方位角は60度、SiL(Side Left)の方位角は90度、BL(Back Left)の方位角は135度、BC(Back Center)の方位角は180度、FRc(Front Right Center)の方位角は−30度、FR(Front Right)の方位角は−60度、SiR(Side Rightの方位角は−90度、BR(Back Right)の方位角は−135度である。
下層(同図(c))において、各チャンネルの名称と方位角の例は次の通りである。BtFC(Bottom Front Center)の方位角は0度、BtFL(Bottom Front Left)の方位角は45度、BtFR(Bottom Front Right)の方位角は−45度である。また、LFE1(Low Frequency Effects-1)およびLFE2(Low Frequency Effects-2)の方位角については、それぞれ45度、−45度である。
一方、同図(d)に記載する音声オブジェクト(オブジェクトAからDまで)の再生位置は、音響メタデータによって任意に規定されるものである。つまり、個々の音声オブジェクトの再生位置は、必ずしも音声フォーマット内に含まれるチャンネルの位置とは一致しない。音声オブジェクトの再生位置は、例えば、音声フォーマット内のチャンネルとチャンネルとの間の中間的な位置に配置されるものであってもよい。
なお、図2に示したチャンネルの構成や、チャンネルの再生位置の配置は、単なる例である。本実施形態において、音声信号が含むチャンネル数(音声フォーマットとして位置が定められたチャンネルの数や、位置を任意に規定することのできる音声オブジェクトの数)や、その配置は、図2に示したもの以外であってもよい。
図3は、音声符号化装置1がビットレートを分配する際のルールおよび手順を示す概略図である。ここで前提とする音声信号の構成は、図2に示した構成例である。つまり、符号化対象の音声信号は、22.2ch音声信号(24個のチャンネル)と、4個の音声オブジェクト(4個のチャンネル)とを持つ。図3に示す例では、4個の音声オブジェクトのうちの、3個の音声オブジェクトが制約ビットレート音声信号であり、1個の音声オブジェクトが任意ビットレート音声信号である。具体的には、音声オブジェクトA,B,およびDが制約ビットレート音声信号であり、音声オブジェクトCが任意ビットレート音声信号である。また、22.2ch音声信号に含まれるチャンネルに関してはすべてが任意ビットレート音声信号である。
図3(a)は、ビットレートをチャンネルに分配する前の状況を示す。同図(b)は、まず必須ビットレートをチャンネルに分配したときの状況を示す。また、同図(c)は、さらに余剰ビットレートをチャンネルに分配した後の状況を示す。なお、図において、22.2ch音響が持つ24個の枠(点線)、および音声オブジェクトが持つ4個の枠(点線)は、それぞれのチャンネルに割り当てるビットレートに対応する。また、「全ビットレート」という枠は、ある番組の音声信号を伝送するために伝送媒体が使用する全体的な伝送容量を表す。
図3(a)の状況では、全ビットレートは、まだどこにも分配されていない。即ち、22.2ch音響が持つ枠も、音声オブジェクトが持つ枠も、いずれもビットレートがゼロであることを表している。
図3(b)に示す状況では、必須ビットレートのみが、制約ビットレート音声信号のチャンネルのみに分配されている。つまり、4つの音声オブジェクトのうちの、制約ビットレート音声信号である音声オブジェクトA,B,およびDには、必須ビットレートの割り当てが行われている。音声オブジェクトA,B,およびDのそれぞれの枠の、ハッチングで表わした部分が、割り当てられた必須ビットレートに対応する。そして、任意ビットレート音声信号である音声オブジェクトCには、ビットレートの分配が行われていない。また、22.2ch音響の各チャンネルにも、ビットレートの分配が行われていない。具体的な数値の例は、次の通りである。即ち、音声符号化方式がMPEG−H 3DAである場合には、1つの音声オブジェクトあたりの必須ビットレートは、例えば、40kbit/s(キロビット毎秒)あるいは48kbit/sである。音声符号化方式がMPEG−4 AACまたはMPEG−2 AACである場合には、1つの音声オブジェクトあたりの必須ビットレートは、例えば、64kbit/sである。なお、この「AAC」は、「Advanced Audio Coding」の略である。この図3(b)では、音声オブジェクトA,B,およびDにそれぞれ分配された必須ビットレートの合計が、予め設定されていた全ビットレートから減じられている(全ビットレートの枠(点線)の中の白の部分が、減じられた分)。この状態において残っているビットレートが、次(図3(c))に分配される余剰ビットレートである。
なお、1チャンネルあたりの必須ビットレート(優先信号の1チャンネルあたりの優先ビットレート)は、音声信号符号化部31が実行する符号化の方式に応じた固定値としてよい。例えば、1チャンネルあたりの必須ビットレートを32キロビット毎秒以上且つ64キロビット毎秒以下の固定値とすることは妥当である。また、必須ビットレートの値を、例えば、32キロビット毎秒、33キロビット毎秒、34キロビット毎秒、35キロビット毎秒、36キロビット毎秒、37キロビット毎秒、38キロビット毎秒、39キロビット毎秒、40キロビット毎秒、41キロビット毎秒、42キロビット毎秒、43キロビット毎秒、44キロビット毎秒、45キロビット毎秒、46キロビット毎秒、47キロビット毎秒、48キロビット毎秒、49キロビット毎秒、50キロビット毎秒、51キロビット毎秒、52キロビット毎秒、53キロビット毎秒、54キロビット毎秒、55キロビット毎秒、56キロビット毎秒、57キロビット毎秒、58キロビット毎秒、59キロビット毎秒、60キロビット毎秒、61キロビット毎秒、62キロビット毎秒、63キロビット毎秒、または64キロビット毎秒のいずれかとしてよい。また、必須ビットレートの値を、その他の値としてもよい。
図3(c)に示す状況では、図3(b)の状態の後に、任意ビットレート音声信号に、余剰ビットレートが分配されている。つまり、音声オブジェクトCや、22.2ch音声信号の各チャンネルに、余剰ビットレートが分配されている。また、その結果として、全ビットレートの枠には、ビットレートが残っていない。ここに示した例では、任意ビットレート音声信号のチャンネルごとに、分配されるビットレートは異なっている。しかしながら、任意ビットレート音声信号へのビットレートの分配則は、用いる音声符号化方式に応じて異なっていてよい。一例として、すべての任意ビットレート音声信号の各チャンネルに、同量のビットレートが分配されるようにしてもよい。
図4は、本実施形態による音声復号装置の概略機能構成の第1例を示す機能ブロック図である。この音声復号装置51は、音声符号化装置1が出力するビットストリームに対応可能な機能を持つものである。音声復号装置51は、音声符号化装置1から出力されたビットストリームを受けて、符号化されている音声の復号を行う。図示するように、音声復号装置51は、分離部71と、音響メタデータ復号部72と、音声信号復号部75と、操作部81と、オーディオレンダリング部82とを含んで構成される。音声復号装置51が持つ各機能部も、例えば、電子回路を用いて実現される。また、各機能部は、必要に応じて、半導体メモリーや磁気ハードディスク装置などといった記憶手段を内部に備えてよい。また、各機能を、コンピューターおよびソフトウェアによって実現するようにしてもよい。音声復号装置51は、専用のテレビ受像機やオーディオ再生機器の一部として実現されてもよい。また、音声復号装置51は、パーソナルコンピューターや、スマートフォンや、その他の情報端末機器を用いて実現されてもよい。上記の構成を持つ音声復号装置51は、入力としてビットストリームを取得し、そのビットストリームを基に音声信号を復号し、音声信号をレンダリングして、再生音を出力する。各機能部の機能は、次に説明する通りである。
分離部71は、音声復号装置51に入力されたビットストリームを取得し、このビットストリームを分離する。具体的には、分離部71は、ビットストリームを、符号化された音声信号と、符号化された音響メタデータとに分離する。分離部71は、分離後の符号化された音声信号を音声信号復号部75に渡し、符号化された音響メタデータを音響メタデータ復号部72に渡す。
音響メタデータ復号部72は、上記の符号化された音響メタデータを復号し、復号結果である音響メタデータを、オーディオレンダリング部82に渡す。
音声信号復号部75は、上記の符号化された音声信号を復号し、復号結果である音声信号を、オーディオレンダリング部82に渡す。
操作部81は、オーディオレンダリング部82に対して、レンダリングに関する指示情報を送信する。この指示は、例えば、ユーザーの操作(例えば、各チャンネル(音声オブジェクトである場合を含む)の音声信号の出力音量や、再生位置等に関する操作)に基づくものである。
オーディオレンダリング部82は、音響メタデータ復号部72から受け取る音響メタデータおよび操作部81から受け取る指示情報にしたがって、音声信号復号部75から渡される音声信号をレンダリングする。ここで、オーディオレンダリングとは、各チャンネルの音声が、所定の音量で、且つ所定の再生位置で再生されるように、実際の出力環境(スピーカー等の構成や配置)に対して出力する音声信号を調整する処理である。オーディオレンダリング部82は、レンダリングの結果である再生音を、外部に出力する。
図5に示す音声復号装置を構成してもよい。図5は、本実施形態による音声復号装置の概略機能構成の第2例を示す機能ブロック図である。この音声復号装置52は、音声符号化装置1が出力するビットストリームに対応可能な機能を持つものである。音声復号装置52は、分離部71と、音響メタデータ復号部73と、音声信号復号部76と、操作部81と、オーディオレンダリング部83とを含んで構成される。これらの各機能部もまた、電子回路等によって実現される。各機能部がコンピューターとプログラムとによって実現されてもよい。上記の構成を持つ音声復号装置52は、入力としてビットストリームを取得し、そのビットストリームを基に音声信号を復号し、音声信号をレンダリングして、再生音を出力する。各機能部の機能は、次に説明する通りである。
分離部71は、図4の第1例と同様に、ビットストリームを、符号化された音声信号と、符号化された音響メタデータとに分離する。
音響メタデータ復号部73は、符号化された音響メタデータを復号する。なお、音響メタデータ復号部73は、入力される符号列の符号化方式に応じた方法で、復号を行う。音響メタデータ復号部73は、復号結果である音響メタデータを、オーディオレンダリング部83に渡す。また、音響メタデータ復号部73は、復号結果である音響メタデータのちの少なくとも一部を、音声信号復号部76に渡す。
音声信号復号部76は、符号化された音声信号を復号する。なお、音声信号復号部76は、入力される符号列の符号化方式に応じた方法で、復号を行う。より具体的には、音声信号復号部76は、音響メタデータ復号部73から渡される音響メタデータを参照して、符号化された制約ビットレート音声信号と、符号化された任意ビットレート音声信号とを、それぞれ復号する。音声信号復号部76は、復号結果である制約ビットレート音声信号と任意ビットレート音声信号とを、オーディオレンダリング部83に渡す。
操作部81は、図4の第1例と同様に、オーディオレンダリング部83に対して、レンダリングに関する指示情報を送信する。
オーディオレンダリング部83は、音響メタデータ復号部73から渡される音響メタデータと、操作部81から渡される指示情報(ユーザーの操作による指示)とにしたがって、音声信号をレンダリングする。具体的には、オーディオレンダリング部83は、制約ビットレート音声信号と、任意ビットレート音声信号とを用いて、レンダリングする。制約ビットレート音声信号と、任意ビットレート音声信号の各レンダリング結果を組み合わせて、オーディオレンダリング部83は、再生音を外部に出力する。
[第2実施形態]
次に、本発明の第2実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。この第2実施形態では、符号化対象の音声は、背景音(「ベッズ」(beds)とも呼ばれる)と、音声オブジェクトとで構成された音声である。背景音としては、例えば、22.2ch音響を背景音の音声フォーマットとして用いてよい。
図6は、本実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。図示するように、音声符号化装置2は、分離部21と、分類部23と、音響メタデータ符号化部24と、音声信号符号化部41と、多重化部25と、音響メタデータ取得部90とを含んで構成される。また、音声信号符号化部41は、音声オブジェクト用ビットレート分配部43と、背景音用ビットレート分配部44と、符号化部46と、符号化部47と、結合部48とを含んで構成される。各機能部の機能は、次に説明する通りである。
分離部21は、第1実施形態の場合と同様に、入力される音声信号を、音響メタデータと音声信号とに分離する。分離部21は、分離後の音声信号を、分類部23に渡す。また、分離部21は、分離後の音響メタデータを、分類部23や、音声信号符号化部41や、音響メタデータ符号化部24に渡す。なお、分離部21は、外部から音響メタデータを取得するものであり、音響メタデータ取得部の機能を持つものと捉えることもできる。
分類部23は、渡される音響メタデータを参照しながら、分離部21から渡された音声信号に含まれる個別のチャンネルの音声信号を、音声オブジェクトの音声信号と、背景音の音声信号とに分類する。分類部23は、これらの音声信号を、音声信号符号化部41に渡す。具体的には、分類部23は、各々の音声オブジェクトの音声信号を符号化部46に渡し、背景音の各々のチャンネルの音声信号を符号化部47に渡す。
音響メタデータ符号化部24は、第1実施形態の場合と同様に、音響メタデータを、伝送のために符号化する。音響メタデータ符号化部24は、符号化された音響メタデータを、多重化部25に渡す。
音声信号符号化部41は、分類部23から渡される音声信号を符号化して、出力するものである。音声信号符号化部41は、音声オブジェクトの音声信号と、背景音の音声信号とを、それぞれ符号化する。音声信号符号化部41は、符号化された音声信号を、多重化部25に渡す。音声信号符号化部41の、より詳細な単位での機能構成については、後述する。
多重化部25は、第1実施形態の場合と同様に、音響メタデータ符号化部24から出力される符号化された音響メタデータと、音声信号符号化部41から出力される符号化された音声データとを、時間窓(フレーム)ごとに多重化する。多重化部25は、多重化して得られた1本のビットストリームを、外部に出力する。
音響メタデータ取得部90は、外部から、音響メタデータを取得する。言い換えれば、音響メタデータ取得部90は、分離部21が取得する入力信号以外のルートで、音響メタデータを取得することができるものである。音響メタデータ取得部90は、得られた音響メタデータを、分類部23や、音声信号符号化部41や、音響メタデータ符号化部24に渡す。
音声信号符号化部41内のより詳細な機能構成は、次の通りである。音声信号符号化部41は、符号化のために、受け取った音声オブジェクトの音声信号および背景音の音声信号を、それぞれ、予め定められた時間窓(フレーム)によって切り出す。
音声オブジェクト用ビットレート分配部43は、受け取った音響メタデータを参照することによって、音声オブジェクトの各々の音声信号に音声オブジェクト用ビットレートを分配する。音声オブジェクト用ビットレート分配部43は、分配したビットレートの情報を、符号化部46に渡す。
背景音用ビットレート分配部44は、同様に音響メタデータを参照しながら、背景音の音声信号に背景音用ビットレートを分配する。背景音用ビットレートは、後述(図7)するように、音声オブジェクトの音声信号への音声オブジェクト用ビットレートの分配の後の余剰のビットレートを分配するものである。背景音用ビットレート分配部44は、分配したビットレートの情報を、符号化部47に渡す。
なお、音声オブジェクト用ビットレート分配部43および背景音用ビットレート分配部44によるビットレートの分配のしかたについては、後で、図7を参照しながら説明する。
符号化部46は、分類部23によって分類された音声オブジェクトの音声信号を符号化し、符号列を出力する。符号化部46は、非可逆符号化を行うものであり、出力する符号のビットレートを適切に調整することができる。なお、符号化部46は、音声オブジェクト用ビットレート分配部43から渡されたチャンネルごとのビットレートの情報にしたがって、チャンネルごとに符号化を行うものである。なお、符号化部46は、MPEG−2 AAC,MPEG−4 AAC、MPEG−D USAC、MPEG−H 3DA、MPEG−I IAC、AC−3、AC−4など任意の符号化方式を用いて、符号化を行ってよい。
符号化部47は、分類部23によって分類された背景音の音声信号を符号化し、符号列を出力する。符号化部47は、非可逆符号化を行うものであり、出力する符号のビットレートを適切に調整することができる。なお、符号化部47は、背景音用ビットレート分配部44から渡されたチャンネルごとのビットレートの情報にしたがって、チャンネルごとに符号化を行うものである。なお、符号化部47は、MPEG−2 AAC,MPEG−4 AAC、MPEG−D USAC、MPEG−H 3DA、MPEG−I IAC、AC−3、AC−4など任意の符号化方式を用いて、符号化を行ってよい。
結合部48は、第1実施形態における結合部38と同様に、符号化部46から出力される符号化された音声オブジェクトの音声信号と、符号化部47から出力される符号化された背景音の音声信号とを結合して、一本化する。ここでも結合のしかたは、任意である。結合部48は、結合した音声信号を、出力する。つまり、結合部48は、結合した音声信号を、多重化部25に渡す。
図7は、音声符号化装置2がビットレートを分配する際のルールおよび手順を示す概略図である。本実施形態におけるビットレートの分配は、第1実施形態における分配(図3)と類似である。ただし、本実施形態(図7)では、音声オブジェクト用ビットレート分配部43が、音声オブジェクト用のビットレートを分配する。また、背景音用ビットレート分配部44が、背景音用(22.2ch背景音)のビットレートを分配する。ここで前提とする音声信号の構成は、次の通りである。即ち、符号化対象の音声信号は、背景音の22.2ch音声信号(24個のチャンネル)と、4個の音声オブジェクト(4個のチャンネル)とを持つ。
図7(a)は、ビットレートをチャンネルに分配する前の状況を示す。同図(b)は、まず音声オブジェクト用ビットレートを4つの音声オブジェクトの各々に分配したときの状況を示す。また、同図(c)は、その後に、22.2ch背景音(24個のチャンネル)に背景音用ビットレートを分配した状態を示している。なお、図7においても、22.2ch背景音が持つ24個の枠(点線)、および音声オブジェクトが持つ4個の枠(点線)は、それぞれのチャンネルに割り当てるビットレートに対応する。また、「全ビットレート」という枠は、ある番組の音声信号を伝送するために伝送媒体が使用する全体的な伝送容量に対応する。
図7(a)の状況では、全ビットレートは、まだどこにも分配されていない。即ち、22.2ch背景音が持つ枠も、音声オブジェクトが持つ枠も、いずれもビットレートがゼロであることを表している。
図7(b)に示す状況では、音声オブジェクト用ビットレートのみが、音声オブジェクトのチャンネルに分配されている。つまり、4つの音声オブジェクト(オブジェクトAからDまで)の各々に、音声オブジェクト用ビットレートが分配されている。音声オブジェクトA,B,C,およびDのそれぞれの枠の、ハッチングで表わした部分が、割り当てられた音声オブジェクト用ビットレートに対応する。そして、22.2ch背景音の各チャンネルには、ビットレートの分配が行われていない。なお、音声符号化方式(音声符号化方式がMPEG−H 3DAや、MPEG−4 AACまたはMPEG−2 AACなど)に応じた、1音声オブジェクトあたりのビットレート(音声オブジェクト用ビットレート)の具体的数値の例は、第1実施形態の図3の説明において示したとおりである。この図7(b)では、音声オブジェクトA,B,C,およびDに分配された音声オブジェクト用ビットレートの合計が、予め設定されていた全ビットレートから減じられている(全ビットレートの枠(点線)の中の白の部分が、減じられた分)。この状態において残っているビットレートが、次(図7(c))に分配される背景音用ビットレートである。
図7(c)に示す状況では、図7(b)の状態の後に、背景音の音声信号に、背景音用ビットレートが分配されている。つまり、22.2ch背景音の各チャンネルに、背景音用ビットレートが分配されている。また、その結果として、全ビットレートの枠には、ビットレートが残っていない。ここに示した例では、背景音の音声信号のチャンネルごとに、分配されるビットレートは異なっている。しかしながら、背景音の音声信号へのビットレートの分配則は、用いる音声符号化方式に応じて異なっていてよい。一例として、すべての背景音の音声信号のチャンネルに、同量のビットレートが分配されるようにしてもよい。
図8は、本実施形態による音声復号装置の概略機能構成を示す機能ブロック図である。音声復号装置61は、本実施形態の音声符号化装置2が出力するビットストリームを対象として、復号処理を行う装置である。音声復号装置61は、分離部71と、音響メタデータ復号部74と、音声信号復号部77と、操作部81と、オーディオレンダリング部84とを含んで構成される。
分離部71は、第1実施形態の場合と同様に、音声復号装置61に入力されたビットストリームを、符号化された音響メタデータと、符号化された音声信号とに分離する。分離部71は、分離して得られた、符号化された音響メタデータを、音響メタデータ復号部74に渡す。また、分離部71は、分離して得られた、符号化された音声信号を、音声信号復号部77に渡す。
音響メタデータ復号部74は、第1実施形態における音響メタデータ復号部73と同様に、符号化された音響メタデータを復号する。音響メタデータ復号部74は、復号結果である音響メタデータを、オーディオレンダリング部84に渡す。また、音響メタデータ復号部74は、音響メタデータを、音声信号復号部77にも渡す。
音声信号復号部77は、音響メタデータ復号部74によって復号された音響メタデータを参照しながら、音声信号を復号する。具体的には、音声信号復号部77は、音声オブジェクトおよび背景音の各チャンネルの音声信号を復号する。音声信号復号部77は、復号された音声オブジェクトおよび背景音の各チャンネルの音声信号を、オーディオレンダリング部84に渡す。
操作部81は、第1実施形態と同様に、レンダリングに関する指示情報を、オーディオレンダリング部84に送信する。
オーディオレンダリング部84は、第1実施形態のオーディオレンダリング部82や83と同様に、音響メタデータ復号部74から受け取る音響メタデータおよび操作部81から受け取る指示情報にしたがって、音声信号復号部77から渡される音声信号(音声オブジェクトと背景音)をレンダリングする。オーディオレンダリング部84は、音声オブジェクトと、背景音の各レンダリング結果を組み合わせて、再生音を外部に出力する。
[第3実施形態]
次に、本発明の第3実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
第3実施形態では、第1実施形態の音声符号化装置が行っていたビットレートの分配の方法を変形した方法を採用する。第1実施形態においては、必須ビットレート分配部33が必須ビットレートを分配した後の、余剰のビットレートのすべてを、余剰ビットレート分配部34が、任意ビットレート音声信号に分配していた。第3実施形態においては、必須ビットレート分配部33が必須ビットレートを分配した後に残るビットレート(便宜的に、減算後ビットレートと呼ぶ)のうちの最適量を、最適ビットレート分配部35が任意ビットレート音声信号に分配する。そして、さらにその余剰である余剰ビットレートを、余剰ビットレート分配部34が任意ビットレート音声信号に分配する。なお、余剰ビットレート分配部34は、余剰ビットレートを、任意ビットレート音声信号だけではなく、必須ビットレート音声信号にも分配してよい。
図9は、本実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。図示するように、音声符号化装置3は、分離部21と、分類部22と、音響メタデータ符号化部24と、音声信号符号化部32と、多重化部25と、音響メタデータ取得部90とを含んで構成される。分離部21と、分類部22と、音響メタデータ符号化部24と、多重化部25と、音響メタデータ取得部90の、各部の機能は、第1実施形態において説明したものと同様である。よって、ここでは、本実施形態に特有の機能を持つ音声信号符号化部32を中心に説明する。
音声信号符号化部32は、必須ビットレート分配部33と、余剰ビットレート分配部34と、最適ビットレート分配部35と、符号化部36と、符号化部37と、結合部38とを含んで構成される。音声信号符号化部32は、制約ビットレート音声信号および任意ビットレート音声信号を予め定められた時間窓(フレーム)によって切り出し、符号化するものである。音声信号符号化部32を構成する各機能部の機能は、次に説明する通りである。
必須ビットレート分配部33は、音響メタデータを参照しながら、制約ビットレート音声信号に必須ビットレートを分配する。必須ビットレート分配部33が制約ビットレート音声信号に分配する必須ビットレートの量については、第1実施形態ですでに説明した通りである。必須ビットレート分配部33は、分配したビットレートの情報を、チャンネルごとに、符号化部36に伝える。
最適ビットレート分配部35は、任意ビットレート音声信号に最適ビットレートを分配する。最適ビットレート分配部35が分配する最適ビットレートの量については、後で図11を参照しながら説明する。最適ビットレート分配部35は、分配したビットレートの情報を、チャンネルごとに、符号化部37に伝える。
余剰ビットレート分配部34は、余剰ビットレートを、制約ビットレート音声信号および任意ビットレート音声信号の各チャンネル(音声オブジェクトを含む)に分配する。本実施形態における余剰ビットレートとは、全ビットレートから、必須ビットレート分配部33が分配したビットレートの合計と、最適ビットレート分配部35が分配したビットレートの合計とを減じた後に残る余剰分である。なお、この減算の結果がゼロである場合には、分配すべき余剰ビットレートはない。余剰ビットレート分配部34は、一例として、余剰ビットレートをすべてのチャンネル(音声オブジェクトを含む)に均等に分配してよい。また、他の分配方法の例として、余剰ビットレート分配部34は、既に分配されているビットレートが少ないチャンネル(音声オブジェクトを含む)から、重点的に多く、余剰ビットレートを分配してもよい。また、さらに別のルールにしたがって、余剰ビットレート分配部34が余剰ビットレートを分配するようにしてもよい。余剰ビットレート分配部34は、分配したビットレートの情報を、チャンネルごとに、符号化部36および符号化部37に伝える。
符号化部36は、分配されたビットレートにしたがって、チャンネルごとに、制約ビットレート音声信号を符号化し、符号列を出力する。制約ビットレート音声信号を符号化する際には、符号化部36は、チャンネルごとに、必須ビットレート分配部33によって分配されたビットレートと、余剰ビットレート分配部34によって分配されたビットレートとの和を求め、そのビットレートでの符号を生成するようにする。
符号化部37は、分配されたビットレートにしたがって、チャンネルごとに、任意ビットレート音声信号を符号化し、符号列を出力する。任意ビットレート音声信号を符号化する際には、符号化部37は、チャンネルごとに、最適ビットレート分配部35によって分配されたビットレートと、余剰ビットレート分配部34によって分配されたビットレートとの和を求め、そのビットレートでの符号を生成するようにする。
結合部38は、第1実施形態と同様に、符号化部36から出力される符号化された制約ビットレート音声信号と、符号化部37から出力される符号化された任意ビットレート音声信号とを結合して、一本化する。
図10および図11は、本実施形態の音声符号化装置3がビットレートを分配する際のルールおよび手順を示す概略図である。ここで前提とする音声信号の構成は、第1実施形態の場合と同様である。つまり、符号化対象の音声信号は、22.2ch音声信号(24個のチャンネル)と、4個の音声オブジェクト(4個のチャンネル)とを持つ。また、4個の音声オブジェクトのうちの、3個の音声オブジェクトが制約ビットレート音声信号であり、1個の音声オブジェクトが任意ビットレート音声信号である。つまり、音声オブジェクトA,B,およびDが制約ビットレート音声信号であり、音声オブジェクトCが任意ビットレート音声信号である。また、22.2ch音声信号に含まれるチャンネルに関してはすべてが任意ビットレート音声信号である。
図10(a)は、ビットレートをチャンネルに分配する前の状況を示す。図10(b)は、まず必須ビットレートをチャンネルに分配したときの状況を示す。図11(c)は、さらに最適ビットレートをチャンネルに分配したときの状況を示す。そして、図11(d)は、さらに余剰ビットレートをチャンネルに分配したときの状況を示す。なお、図において、22.2ch音響が持つ24個の枠(点線)、および音声オブジェクトが持つ4個の枠(点線)は、それぞれのチャンネルに割り当てるビットレートに対応する。また、「全ビットレート」という枠は、ある番組の音声信号を伝送するために伝送媒体が使用する全体的な伝送容量を表す。
図10(a)の状況では、全ビットレートは、まだどこにも分配されていない。即ち、22.2ch音響が持つ枠も、音声オブジェクトが持つ枠も、いずれもビットレートがゼロであることを表している。
図10(b)に示す状況では、必須ビットレートのみが、制約ビットレート音声信号のチャンネルのみに分配されている。つまり、4つの音声オブジェクトのうちの、制約ビットレート音声信号である音声オブジェクトA,B,およびDには、必須ビットレートの割り当てが行われている。そして、任意ビットレート音声信号である音声オブジェクトCには、ビットレートの分配が行われていない。また、22.2ch音響の各チャンネルにも、ビットレートの分配が行われていない。ここまでのビットレートの分配は、第1実施形態における必須ビットレートの分配が済んだ時点のもの、即ち図3(b)の状態と同様である。
次に、図11(c)に示す状況では、図10(b)の状態の後に、任意ビットレート音声信号に、最適ビットレートが分配されている。つまり、音声オブジェクトCや、22.2ch音声信号の各チャンネルに、最適ビットレートが分配されている。この第3実施形態では、第1実施形態の場合と異なり、必須ビットレートの分配の後のすべての余剰ビットレートをこの段階で任意ビットレート音声信号に分配することは行われない。最適ビットレートとして任意ビットレート音声信号に分配されるビットレートの量(伝送容量)は、各々のチャンネルの任意ビットレート音声信号に応じて、適宜定められる。最適ビットレートの量の決め方は、例えば、各チャンネルの性質に応じて所定の計算手順で算出されるものであってもよいし、各チャンネルの設定値としてパラメーターファイル等に設定されているものであってもよいし、その他の方法によって決定されるものであってもよい。また、任意ビットレート音声信号のチャンネルごとに分配されたビットレートが互いに異なっていてもよいし、同一であってもよい。使用する音声符号化方式に応じて、最適ビットレートのチャンネルごとの値を決めてもよい。この図11(c)の状態では、最適ビットレートとして分配された量が、全ビットレートの量から減じられている。ただし、この状態において、全ビットレートの量はまだゼロにはなっておらず、さらなる余剰が残っている。
最後に、図11(d)に示す状況では、図11(c)の状態の後に、さらに、すべてのチャンネルの音声信号に、余剰ビットレートが分配されている。図11(d)の状態では、制約ビットレート音声信号および任意ビットレート音声信号のそれぞれに、余剰ビットレート(図11(c)の段階では未分配で残っていたビットレート)が、均等に分配されている。また、全ビットレートは全て分配された状態を示している。分配された余剰ビットレートは、図11(d)内の、実線の小さな矢印線で示されている分である。また、余剰ビットレートを分配した結果として、全ビットレートの枠には、ビットレートが残っていない。
なお、図11(d)に示した例では余剰ビットレートは各チャンネルに均等に分配されていたが、余剰ビットレートを分配する際に、チャンネルごとに分配量が異なっていてもよい。例えば、既に分配されたビットレートが少ないチャンネルから重点的に多くのビットレートを分配するなど、別の分配則を設定しても構わない。
図12および図13は、本実施形態による音声符号化装置による符号化処理の手順を示すフローチャートである。図12と図13とは、フローチャートの結合子によって結合されている。以下、このフローチャートに沿って説明する。
まず図12のステップS11において、音声符号化装置3は、番組音声信号を取得する。この番組音声信号は、音響メタデータを含んでいてもよい。この番組音声信号が、音響メタデータを含まない場合もある。
次に、ステップS12において、分離部21は、ステップS11で取得した番組音声信号から、音響メタデータの信号と、音声信号とを分離する。分離部21は、分離した音声信号を、さらに、分類部22に渡す。
次に、ステップS13において、音声符号化装置3は、ステップS11で取得した信号に音響メタデータが含まれているか否かを判定する。音響メタデータが含まれていた場合(ステップS13:YES)には、ステップS14に進む。音響メタデータが含まれていなかった場合(ステップS13:NO)には、ステップS15に進む。
ステップS14に進んだ場合、同ステップにおいて、音声符号化装置3は、ステップS11で取得した信号から、音響メタデータを取得する。この音響メタデータは、分類部22と、音声信号符号化部31と、音響メタデータ符号化部24とに渡される。本ステップの処理が終了すると、ステップS16に移る。
ステップS15に進んだ場合、同ステップにおいて、音声符号化装置3は、外部(音声符号化装置3の外)から与えられる音響メタデータを取得する。この音響メタデータは、分類部22と、音声信号符号化部31と、音響メタデータ符号化部24とに渡される。本ステップの処理が終了すると、ステップS16に移る。
本フローチャートでは、ステップS13において、ステップS14またはS15のいずれか一方に分岐している。これにより、音声符号化装置3は、ステップS11で取得した信号から抽出した音響メタデータ、または、外部から与えられた音響メタデータのいずれか一方を使用する。ただし、音声符号化装置3が、これら両方の手段で取得した音響メタデータを併用してもよい。
次に、ステップS16に進み、分類部22が、分離部21から渡される音声信号を分類する。具体的には、分類部22は、渡された音声信号を、制約ビットレートの音声信号と、任意ビットレートの音声信号とに分類する。分類部22は、制約ビットレートの音声信号と、任意ビットレートの音声信号とを、ともに、音声信号符号化部32に渡す。より詳細には、分類部22は、制約ビットレートの音声信号を、音声信号符号化部32内の符号化部36に渡す。また、分類部22は、任意ビットレートの音声信号を、音声信号符号化部32内の符号化部37に渡す。
次に、ステップS17において、必須ビットレート分配部33は、制約ビットレート音声信号のためのビットレート(必須ビットレート)を分配する。必須ビットレートについては、既に説明した通りである。
次に、ステップS18において、最適ビットレート分配部35は、任意ビットレート音声信号のためのビットレート(最適ビットレート)を分配する。最適ビットレートについては、既に説明した通りである。
次に、ステップS19において、余剰ビットレート分配部34は、余剰ビットレートがあるか否かを判定する。余剰ビットレートがある場合(ステップS19:YES)には、余剰ビットレートを分配する処理を実行するために、次のステップS20に進む。また、余剰ビットレートがない場合(ステップS19:NO)には、ステップS20とS21とを飛ばして、ステップS22に進む。なお、余剰ビットレートについては、既に説明した通りである。
以後は、図13に示されているステップである。
次に、ステップS20に進んだ場合、同ステップにおいて、余剰ビットレート分配部34は、制約ビットレート音声信号に、余剰ビットレートを分配する。
そして、ステップS21において、余剰ビットレート分配部34は、任意ビットレート音声信号に、余剰ビットレートを分配する。
なお、ステップS21の処理とステップS22の処理の順序を逆にしてもよい。
また、余剰ビットレートを制約ビットレート音声信号に先に分配する場合(ステップS20を先に実行する場合)において、余剰ビットレートを制約ビットレート音声信号に分配したことによって任意ビットレート音声信号に分配できる余剰ビットレートがなくなった場合には、任意ビットレート音声信号への余剰ビットレートの分配を取りやめてもよい。
逆に、余剰ビットレートを任意ビットレート音声信号に先に分配する場合(ステップS21を先に実行する場合)において、余剰ビットレートを任意ビットレート音声信号に分配したことによって制約ビットレート音声信号に分配できる余剰ビットレートがなくなった場合には、制約ビットレート音声信号への余剰ビットレートの分配を取りやめてもよい。
また、余剰ビットレートを制約ビットレート音声信号に先に分配する場合(ステップS20を先に実行する場合)においても、任意ビットレート音声信号に分配できる十分な量の余剰ビットレートがある場合に限って、余剰ビットレートを制約ビットレート音声信号に分配するようにしてもよい。
逆に、余剰ビットレートを任意ビットレート音声信号に先に分配する場合(ステップS21を先に実行する場合)においても、制約ビットレート音声信号に分配できる十分な量の余剰ビットレートがある場合に限って、余剰ビットレートを任意ビットレート音声信号に分配するようにしてもよい。
上記のステップS20およびS21の処理を実行した場合も、これらの処理をスキップした場合も、ステップS22の処理の直前の時点までに、制約ビットレート音声信号および任意ビットレート音声信号の、それぞれのビットレートは決定されている。
そして、ステップS22において、符号化部36は、上で分配されたビットレート(制約ビットレート音声信号に与えられたビットレート)にしたがって、制約ビットレート音声信号の符号化を行う。
そして、ステップS23において、符号化部37は、上で分配されたビットレート(任意ビットレート音声信号に与えられたビットレート)にしたがって、任意ビットレート音声信号の符号化を行う。
次に、ステップS24において、結合部38は、符号化された制約ビットレート音声信号(ステップS22の処理の結果)と、符号化された任意ビットレート音声信号(ステップS23の処理の結果)とを、結合し、一本化する。
そして、ステップS25において、音響メタデータ符号化部24は、音響メタデータを符号化する。
次に、ステップS26において、多重化部25は、符号化された音声信号(ステップS24における結合の結果)と、符号化された音響メタデータ(ステップS25における処理の結果)とを、多重化する。
そして、ステップS27において、多重化部25は、ステップS26での多重化の結果として得られるビットストリームを外部に出力する。このビットストリームは、必要に応じて伝送媒体(放送信号や、通信信号等)等を通じて、伝送され得る。
なお、本実施形態に用いる音声復号装置は、第1実施形態で説明した音声復号装置51(図4)または音声復号装置52(図5)であってよい。
[第4実施形態]
次に、本発明の第4実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
第4実施形態では、第2実施形態の音声符号化装置が行っていたビットレートの分配の方法を変形した方法を採用する。第2実施形態においては、音声オブジェクト用ビットレート分配部43が音声オブジェクト用ビットレートを分配した後の、余剰のビットレートのすべてを、背景音用ビットレート分配部44が、背景音の音声信号に分配していた。第4実施形態においては、音声オブジェクト用ビットレート分配部43が音声オブジェクト用ビットレートを分配した後に残るビットレート(便宜的に、減算後ビットレートと呼ぶ)のうちの最適量を、背景音用ビットレート分配部44が背景音の音声信号に分配する。そして、さらにその余剰である余剰ビットレートを、余剰ビットレート分配部45が背景音の音声信号に分配する。なお、余剰ビットレート分配部45は、余剰ビットレートを、背景音の音声信号だけではなく、音声オブジェクトの音声信号にも分配してよい。
図14は、本実施形態による音声符号化装置の概略機能構成を示す機能ブロック図である。図示するように、音声符号化装置4は、分離部21と、分類部23と、音響メタデータ符号化部24と、音声信号符号化部42と、多重化部25と、音響メタデータ取得部90とを含んで構成される。分離部21と、分類部23と、音響メタデータ符号化部24と、多重化部25と、音響メタデータ取得部90の、各部の機能は、第2実施形態において説明したものと同様である。よって、ここでは、本実施形態に特有の機能を持つ音声信号符号化部42を中心に説明する。
音声信号符号化部42は、音声オブジェクト用ビットレート分配部43と、背景音用ビットレート分配部44と、余剰ビットレート分配部45と、符号化部46と、符号化部47と、結合部48とを含んで構成される。音声信号符号化部42は、各音声オブジェクトの音声信号および22.2ch背景音の各チャンネルの音声信号を、予め定められた時間窓(フレーム)によって切り出し、符号化するものである。音声信号符号化部42を構成する各機能部の機能は、次に説明する通りである。
音声オブジェクト用ビットレート分配部43は、音響メタデータを参照しながら、音声オブジェクトの音声信号に必須ビットレートを分配する。音声オブジェクト用ビットレート分配部43が制約ビットレート音声信号に分配する必須ビットレートの量については、第2実施形態ですでに説明した通りである。音声オブジェクト用ビットレート分配部43は、分配したビットレートの情報を、チャンネルごとに、符号化部46に伝える。
背景音用ビットレート分配部44は、背景音の各チャンネルの音声信号に背景音用ビットレートを分配する。背景音用ビットレート分配部44が分配する背景音用ビットレートの量については、後で図16を参照しながら説明する。背景音用ビットレート分配部44は、分配したビットレートの情報を、チャンネルごとに、符号化部47に伝える。
余剰ビットレート分配部45は、余剰ビットレートを、音声オブジェクトおよび背景音のそれぞれの音声信号に分配する。本実施形態における余剰ビットレートとは、全ビットレートから、音声オブジェクト用ビットレート分配部43が分配したビットレートの合計と、背景音用ビットレート分配部44が分配したビットレートの合計とを減じた後に残る余剰分である。なお、この減算の結果がゼロである場合には、余剰ビットレート分配部45が分配すべき余剰ビットレートはない。余剰ビットレート分配部45は、一例として、余剰ビットレートをすべてのチャンネル(音声オブジェクトを含む)に均等に分配してよい。また、他の分配方法の例として、余剰ビットレート分配部45は、既に分配されているビットレートが少ないチャンネル(音声オブジェクトを含む)から、重点的に多く、余剰ビットレートを分配してもよい。また、さらに別のルールにしたがって、余剰ビットレート分配部45が余剰ビットレートを分配するようにしてもよい。余剰ビットレート分配部45は、分配したビットレートの情報を、チャンネルごとに、符号化部46および符号化部47に伝える。
符号化部46は、分配されたビットレートにしたがって、チャンネルごとに、音声オブジェクトの音声信号を符号化し、符号列を出力する。音声オブジェクトの音声信号を符号化する際には、符号化部46は、チャンネルごとに、音声オブジェクト用ビットレート分配部43によって分配されたビットレートと、余剰ビットレート分配部45によって分配されたビットレートとの和を求め、そのビットレートでの符号を生成するようにする。
符号化部47は、分配されたビットレートにしたがって、チャンネルごとに、背景音の音声信号を符号化し、符号列を出力する。背景音の音声信号を符号化する際には、符号化部37は、チャンネルごとに、背景音用ビットレート分配部44によって分配されたビットレートと、余剰ビットレート分配部45によって分配されたビットレートとの和を求め、そのビットレートでの符号を生成するようにする。
結合部48は、第2実施形態と同様に、符号化部46から出力される符号化された制約ビットレート音声信号と、符号化部47から出力される符号化された任意ビットレート音声信号とを結合して、一本化する。
図15および図16は、本実施形態の音声符号化装置4がビットレートを分配する際のルールおよび手順を示す概略図である。ここで前提とする音声信号の構成は、第2実施形態の場合と同様である。つまり、符号化対象の音声信号は、22.2ch背景音(24個のチャンネル)と、4個の音声オブジェクト(4個のチャンネル)とを持つ。
図15(a)は、ビットレートをチャンネルに分配する前の状況を示す。図15(b)は、まず音声オブジェクト用ビットレートを4つの音声オブジェクトに分配したときの状況を示す。図16(c)は、さらに背景音用ビットレートを22.2ch背景音のチャンネルに分配したときの状況を示す。そして、図16(d)は、さらに余剰ビットレートをチャンネルに分配したときの状況を示す。なお、図において、22.2ch音響が持つ24個の枠(点線)、および音声オブジェクトが持つ4個の枠(点線)は、それぞれのチャンネルに割り当てるビットレートに対応する。また、「全ビットレート」という枠は、ある番組の音声信号を伝送するために伝送媒体が使用する全体的な伝送容量を表す。
図15(a)の状況では、全ビットレートは、まだどこにも分配されていない。即ち、22.2ch背景音が持つ枠も、音声オブジェクトが持つ枠も、いずれもビットレートがゼロであることを表している。
図15(b)に示す状況では、音声オブジェクト用ビットレートのみが、音声オブジェクトに分配されている。つまり、4つの音声オブジェクトの各々に、音声オブジェクト用ビットレートの割り当てが行われている。なお、22.2ch背景音の各チャンネルには、この段階では、ビットレートの分配が行われていない。この図15(b)までのビットレートの分配は、第2実施形態における音声オブジェクト用ビットレートの分配が済んだ時点のもの、即ち図7(b)の状態と同様である。
次に、図16(c)に示す状況では、図15(b)の状態の後に、22.2ch背景音の各チャンネルの音声信号に、背景音用ビットレートが分配されている。この第4実施形態では、第2実施形態の場合と異なり、音声オブジェクト用ビットレートの分配の後のすべての余剰分をこの段階で22.2ch背景音の音声信号に分配することは行われない。背景音用ビットレートとして22.2ch背景音の各チャンネルに分配されるビットレートの量(伝送容量)は、各チャンネルの音声信号に応じて、適宜定められる。背景音用ビットレートの決め方は、例えば、各チャンネルの性質に応じて所定の計算手順で算出されるものであってもよいし、各チャンネルの設定値としてパラメーターファイル等に設定されているものであってもよいし、その他の方法によって決定されるものであってもよい。また、22.2ch背景音のチャンネルごとに分配されたビットレートが互いに異なっていてもよいし、同一であってもよい。使用する音声符号化方式に応じて、チャンネルごとの値を決めてもよい。この図16(c)の状態では、背景音用ビットレートとして分配された量が、全ビットレートの量から減じられている。ただし、この状態において、全ビットレートの量はまだゼロにはなっておらず、さらなる余剰が残っている。
最後に、図16(d)に示す状況では、図16(c)の状態の後に、さらに、すべてのチャンネル(音声オブジェクト用および背景音用)の音声信号に、余剰ビットレートが分配されている。図16(d)の状態では、すべてのチャンネルのそれぞれに、余剰ビットレート(図16(c)の段階では未分配で残っていたビットレート)が、均等に分配されている。分配された余剰ビットレートは、図16(d)内の、実線の小さな矢印線で示されている分である。また、余剰ビットレートを分配した結果として、全ビットレートの枠には、ビットレートが残っていない。
なお、図16(d)に示した例では余剰ビットレートは各チャンネルに均等に分配されていたが、余剰ビットレートを分配する際に、チャンネルごとに分配量が異なっていてもよい。例えば、既に分配されたビットレートが少ないチャンネルから重点的に多くのビットレートを分配するなど、別の分配則を設定しても構わない。
なお、本実施形態に用いる音声復号装置は、第2実施形態で説明した音声復号装置61(図8)であってよい。
なお、第3実施形態においては、音声符号化装置の処理手順を、フローチャート(図12、図13)を参照しながら説明した。他の実施形態における、音声符号化装置の処理手順は、次の通りである。
第1実施形態における音声符号化装置の処理手順は、第3実施形態のそれと類似である。ただし、第1実施形態では、必須ビットレートを分配した後、余剰ビットレートのすべてを、任意ビットレート音声信号に割り当てる。
第4実施形態における音声符号化装置の処理手順は、第3実施形態のそれと類似である。ただし、第4実施形態に関しては、次の通り読み替えを行う。制約ビットレート音声信号を、音声オブジェクトの音声信号に読み替える。任意ビットレート音声信号を、背景音の音声信号に読み替える。必須ビットレートを、音声オブジェクト用ビットレートに読み替える。最適ビットレートを、背景音用ビットレートに読み替える。
第2実施形態における音声符号化装置の処理手順は、上記の第4実施形態のそれと類似である。ただし、第2実施形態では、音声オブジェクト用ビットレートを分配した後、余剰のビットレートのすべて(背景音用ビットレート)を、背景音のビットレート音声信号に割り当てる。
以上、説明した、第1実施形態から第4実施形態までの音声符号化装置に共通する構成は、次の通りである。
分離部21は、入力される信号(例えば、放送番組の番組音声信号)を、音声信号(N個)と音響メタデータとに分離する。分離部21は音響メタデータ取得部としても機能する。
音響メタデータ符号化部24は、音響メタデータを符号化する。これにより、音響メタデータは符号化される。つまり、音響メタデータは、符号化された音声信号とともに、伝送したり記録したりすることが可能となる。
分類部(22,23)は、音響メタデータを参照し、優先ビットレート(必須ビットレート)(pキロビット毎秒)の制約を設ける音声信号(優先信号、制約ビットレート音声信号、音声オブジェクトの音声信号)(l個)と、それ以外の音声信号(非優先信号,任意ビットレート音声信号、背景音の音声信号)(m個)とに分類(グループ分け)する(合計N個;N=l+m)。
音声信号符号化部(31,32,41,42)は、音声信号を符号化する。
分配部(必須ビットレート分配部、音声オブジェクト用ビットレート分配部)は、予め指定された全ビットレート(Tキロビット毎秒)から、優先信号に対して、予め定められた優先ビットレート(必須ビットレート、音声オブジェクト用ビットレート)(l個、各pキロビット毎秒、合計(p*l)キロビット毎秒)を分配する。
分配部(最適ビットレート分配部)は、全ビットレートから、上記優先ビットレートを減じた残りのビットレート(減算後ビットレート)(T−p*l[キロビット毎秒])を、非優先信号に分配する。
(1)T−pl≦qの場合には、非優先信号に、T−plを分配する。各チャンネルへの分配法は、規格等に依る。ただしqは、入力された背景音(m個の音声信号)に対して符号化法ごとに予め定められた最適ビットレートである。
(2−1)T−pl>qの場合には、非優先信号に、qを分配する。
そして、分配部(余剰ビットレート分配部)は、さらに残されたビットレート(余剰)であるT−pl−qを、音声信号に分配する。例えば、均等に分配するなら、(T−pl−q)/Nずつ分配する。
(2−2)T−pl>qの場合に、T−plを、非優先信号以外に優先信号に分配してもよい。
多重化部25は、符号化した音声信号と符号化した音響メタデータとを多重化して、ビットストリームとして出力する。
音声復号装置(51,52,61)の構成は次の通りである。
分離部71は、取得したビットストリームを、符号化された音声信号と符号化された音響メタデータとに分離する。
音響メタデータ復号部は、音響メタデータを復号して出力する。
音声信号復号部は、復号された音響メタデータを参照しながら、音声信号を復号して出力する。
オーディオレンダリング部は、音響メタデータを参照し、また操作部81からの指示情報を参照し、復号された優先信号および復号された非優先信号を、適切にオーディオレンダリングし、再生音を出力する。
その他のオプション(実施形態として説明した特徴も含む)は、次の通りである。
(1)音声符号化装置に入力される音響メタデータは、必ずしも音声信号に多重化した状態で入力されるものでなくてもよい。音声信号と音響メタデータとを、異なる経路で(例えば、放送波、運行装置、番組情報、インターネット、ユーザーインターフェースを介したマニュアル入力、音声符号化装置内の記録媒体等を介して)取得されてもよい。
(2)音響メタデータは、制約ビットレート音声信号の選別情報(どのチャンネルの音声信号が優先信号で、どのチャンネルの音声が非優先信号か、を表す情報)、必須ビットレート、任意ビットレート音声信号の選別情報、最適ビットレート、余剰ビットレート、全ビットレートに関する情報を含んでよい。
(3)優先信号(制約ビットレート音声信号)の中の、特定のチャンネルが特定のフレームにおいて無音と判断できる場合、そのチャンネルへの必須ビットレート分配をとりやめて、最適ビットレートや余剰ビットレートや優先信号の中の上記特定のチャンネル以外のチャンネル(無音ではないチャンネル)への分配に回すことも可能である。例えば、図3(b)等のオブジェクトCが、無音と判断されたために優先ビットレートを割り当てない、という状況も起こり得る。
(4)全ビットレートから必須ビットレートを差し引いた残りのビットレートについては、任意ビットレート音声信号に、予め定められた分配法に基づいて、場合分けなし(判定せずに)に全て分配してもよい。
(5)必須ビットレートや最適ビットレートは、符号化方式や音声フォーマットごとに予め数値を指定してもよい。例えば、MPEG-H 3D AudioやAC-4の場合、必須ビットレートは1音声信号あたり32キロビット毎秒、33キロビット毎秒、34キロビット毎秒、35キロビット毎秒、36キロビット毎秒、37キロビット毎秒、38キロビット毎秒、39キロビット毎秒、40キロビット毎秒、41キロビット毎秒、42キロビット毎秒、43キロビット毎秒、44キロビット毎秒、45キロビット毎秒、46キロビット毎秒、47キロビット毎秒、48キロビット毎秒、49キロビット毎秒、50キロビット毎秒、51キロビット毎秒、52キロビット毎秒、53キロビット毎秒、54キロビット毎秒、55キロビット毎秒、56キロビット毎秒、57キロビット毎秒、58キロビット毎秒、59キロビット毎秒、60キロビット毎秒、61キロビット毎秒、62キロビット毎秒、63キロビット毎秒、または64キロビット毎秒で、最適ビットレートは22.2chで528または768kbit/s、5.1サラウンドで192または180kbit/s、ステレオで80または96kbit/s、7.1.4chで288または384kbit/sとなる。
(6)音声復号装置において、制約ビットレート音声信号や任意ビットレート音声信号を区別して復号およびレンダリングしてもよいし、区別せずにまとめて復号およびレンダリングしてもよい。
上の(3)において、優先信号(制約ビットレート音声信号)の中の、特定のチャンネルが特定のフレームにおいて無音と判断できる場合、そのチャンネルへの必須ビットレート分配をとりやめとするオプションを記載した。このオプションを実現するために、音声符号化装置を次のように構成してもよい。
例えば、音声符号化装置は、特定のチャンネル(オブジェクトであってもよい)が特定のフレームにおいて無音であるか否かを判定するために、チャンネルの信号レベルが予め定められた閾値以下であるか否かの判定を行う。つまり、音声符号化装置は、あるチャンネルの信号レベルが予め定められた閾値以下であるならば、そのチャンネルは無音であると判定してよい。
あるいは、音声符号化装置は、特定のチャンネル(オブジェクトであってもよい)が特定のフレームにおいて無音であるか否かを判定するために、チャンネルの信号レベルに、デコーダー側(あるいはデコーダーを含む受信機側)でのレベル増幅量の最大値を加算した値が、予め定められた閾値以下であるか否かの判断を行ってもよい。この「レベル増幅量」は、例えばデシベル(dB)の単位で表わされる値である。また、チャンネルの信号の振幅に、デコーダー側での振幅増幅率の最大値を乗じた値が、予め定められた閾値以下であるか否かの判断を行ってもよい。ここで増幅率とは、増幅後の信号の振幅を増幅前の信号の振幅で除した値である。なお、音声符号化装置は、適切な手段によりデコーダー側での増幅量または増幅率の最大値の情報を、符号化を実行する時点までに取得しておく。つまり、音声符号化装置は、あるチャンネルの信号レベルに上記増幅量または増幅率の最大値を加算または乗じた値が予め定められた閾値以下であるならば、そのチャンネルは無音であると判定してよい。
上記において、音声符号化装置は、特定のチャンネル(オブジェクトであってもよい)の信号レベルに応じて、そのチャンネルに割り当てるビットレートを段階的に減じていくようにしてもよい。つまり、音声符号化装置は、信号レベルSの閾値を、S0、S1、S2、・・・、Snと複数個予め設定しておくことができる(n≧0)。そして、音声符号化装置は、そのチャンネルに割り当てるビットレートRを、Sの値に応じて次のように決定する。即ち、
S≦S0のときには、R=0とする、
S0<S≦S1のときには、R=R1とする、
S1<S≦S2のときには、R=R2とする、
以下同様にして、
Sn<Sのときには、R=Rnとする。
但し、原則として、0≦R1≦R2≦・・・≦Rnである。なお、特に、0<R1<R2<・・・<Rnとしてもよい。なお、S0は、上で説明した、無音であるか否かを判定するための閾値である。当該チャンネルが無音と判定される場合以外でも、音声符号化装置は、R=R1、R2、・・・、R(n−1)のいずれかに決定する場合には、その余った分(Rnからの差分)のビットレートを、他の音声信号に分配するために回すことができる。ここで、Sは、符号化対象のチャンネルの信号レベルとしたが、上で説明した、信号の振幅でもよいし、信号の振幅にデコーダー側の増幅率の最大値を乗じたもの、または信号レベルにデコーダー側の増幅量の最大値を加算したものとしてもよい。
あるいは、音声符号化装置は、特定のチャンネル(オブジェクトであってもよい)が特定のフレームにおいて無音であるか否かを判定するために、外部からの制御信号を受け取って、その制御信号にしたがってもよい。つまり、音声符号化装置は外部からの制御信号を受け取るものであり、その制御信号は特定のチャンネルが無音であるか否かを表す信号である。音声符号化装置は、あるチャンネルに関して受け取った上記制御信号が、当該チャンネルは無音であることを表しているならば、そのチャンネルは無音であると判定してよい。なお、音声符号化装置は、上記制御信号がそのチャンネルが無音であることを表しているならば、実際のそのチャンネルの信号レベルの大小の度合いに関わらず、そのチャンネルは無音であると判定してよい。
音声符号化装置は、上で説明したいずれかの判定方法によってあるチャンネル(オブジェクトであってもよい)の特定のフレームが無音であると判定した場合に、そのチャンネルのそのフレームの音声信号を無音の信号に差替えてもよい。つまり、その場合には、音声符号化装置が出力するそのチャンネルのそのフレームにおける音声信号のレベルは最低値(−∞)、つまり無音となる。
あるいは、音声符号化装置は、特定のチャンネルが特定のフレームにおいて無音であると判定した場合に、そのチャンネルが当該フレームにおいて無音であることを示すフラグ情報(例えば、「無音フラグ」と呼んでもよい)を出力(送出)するようにしてもよい。また、音声符号化装置が上記のフラグ情報を出力する場合、対する音声復号装置を次のように構成してもよい。つまり、音声復号装置は、あるチャンネル(オブジェクト)が例えば特定のフレームにおいて無音であることを示すフラグ情報(無音フラグ)を受信した場合、そのチャンネル(オブジェクト)の音声信号の復号および再生の処理をとりやめるようにしてよい。あるいは、音声復号装置は、あるチャンネル(オブジェクト)が例えば特定のフレームにおいて無音であることを示すフラグ情報(無音フラグ)を受信した場合、そのチャンネル(オブジェクト)として無音の音声信号を出力し、再生するようにしてもよい。
さらに、各実施形態における構成を整理すると、次の通りである。
音声符号化装置(1,2,3,4)は、次のように構成される。
音響メタデータ取得部(音響メタデータ取得部)は、音声信号が優先信号であるか非優先信号であるかを少なくとも表す音響メタデータを取得する。
分類部(22,23)は、音響メタデータを参照することによって、入力される複数の(チャンネルの)音声信号が、優先信号(制約ビットレート音声信号、音声オブジェクトの音声信号)であるか非優先信号(任意ビットレート音声信号、背景音の音声信号)であるかを分類する。
分配部(必須ビットレート分配部33、余剰ビットレート分配部34、最適ビットレート分配部35、音声オブジェクト用ビットレート分配部43、背景音用ビットレート分配部44、余剰ビットレート分配部45)は、ビットレートを前記音声信号に分配する分配部である。この分配部は、指定された全ビットレートのうち前記優先信号に対応する優先ビットレートを前記優先信号に分配し、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果に基づく余剰ビットレートを前記非優先信号に分配する。
音声信号符号化部は、前記分配部が分配した前記ビットレートにしたがって、前記音声信号のそれぞれを符号化する。
第3実施形態あるは第4実施形態においては、次の通りである。
前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記非優先信号に分配する。
第3実施形態あるは第4実施形態において、次のようにしてもよい。
前記分配部は、前記余剰ビットレートを、前記優先信号にも分配する。
分離部21は、前記メタデータと前記複数の音声信号とを含んだ入力信号を取得し、前記入力信号を前記メタデータと前記音声信号とに分離し、分離した前記音声信号を前記分類部に渡す。
ただし、音声符号化装置(1,2,3,4)が、分離部21を持たないように構成してもよい。
音響メタデータ符号化部(音響メタデータ符号化部24)は、取得された前記音響メタデータを符号化する。
多重化部25は、前記音声信号符号化部が出力する符号化された音声信号と、前記音響メタデータ符号化部が出力する符号化された音響メタデータとを、多重化して出力する。
ただし、音声符号化装置(1,2,3,4)が、上記の、音響メタデータ符号化部や、多重化部25を持たないように構成してもよい。
優先信号は、音声オブジェクトの音声信号としてよい。
非優先信号は、22.2ch音響等の音声フォーマットであるチャンネルベース音響の音声信号としてよい。このチャンネルベース音響の音声フォーマットは、例えば、先行技術文献として挙げた非特許文献4、5、および6に記載されているものである。即ち、次の文献に記載されているものである。
文献:ARIB標準規格STD-B59 2.0版,三次元マルチチャンネル音響方式スタジオ規格,ARIB、2016年7月.
文献:Recommendation ITU-R BS.2051-2,「Advanced sound system for programme production」,ITU-R、2018年7月.
文献:SMPTE STANDARD SMPTE 2036-2-2008,「Ultra High Definition Television-Audio Characteristics and Audio Channel Mapping for Program Production」,SMPTE,2008年7月9日.
優先信号の1チャンネルあたりの前記優先ビットレートは、前記音声信号符号化部が実行する符号化の方式に応じた固定値であって、32キロビット毎秒、33キロビット毎秒、34キロビット毎秒、35キロビット毎秒、36キロビット毎秒、37キロビット毎秒、38キロビット毎秒、39キロビット毎秒、40キロビット毎秒、41キロビット毎秒、42キロビット毎秒、43キロビット毎秒、44キロビット毎秒、45キロビット毎秒、46キロビット毎秒、47キロビット毎秒、48キロビット毎秒、49キロビット毎秒、50キロビット毎秒、51キロビット毎秒、52キロビット毎秒、53キロビット毎秒、54キロビット毎秒、55キロビット毎秒、56キロビット毎秒、57キロビット毎秒、58キロビット毎秒、59キロビット毎秒、60キロビット毎秒、61キロビット毎秒、62キロビット毎秒、63キロビット毎秒、または64キロビット毎秒のいずれかとしてよい。また、この優先ビットレートは、他の値であってもよい。
音声復号装置(51,52,61)は、次のように構成される。
分離部は、ビットストリームを取得して、前記ビットストリームを、符号化された音声信号と、符号化された音響メタデータと、に分離する。
音響メタデータ復号部は、前記符号化された音響メタデータを復号する。
音声信号復号部は、前記符号化された音声信号を復号する。
オーディオレンダリング部は、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、前記音声信号復号部によって復号された音声信号をオーディオレンダリングし、再生音として出力する。
なお、音声信号復号部は、前記符号化された音声信号に含まれる優先信号と非優先信号とをそれぞれ復号してもよい。この場合にオーディオレンダリング部は、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、復号された前記優先信号と非優先信号とをそれぞれオーディオレンダリングし、前記優先信号のオーディオレンダリング結果と前記非優先信号のオーディオレンダリング結果とを組み合わせて前記再生音として出力する。
また、さらに、音声復号装置(51,52,61)が、ユーザーの操作に基づく指示情報を生成する操作部81をさらに備え、前記オーディオレンダリング部は、前記操作部からの前記指示情報にも基づいて、前記復号された音声信号をオーディオレンダリングするようにしてもよい。
音声復号装置(51,52,61)が、操作部81を持たないように構成してもよい。
なお、上述した各実施形態における音声符号化装置や音声復号装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM、DVD−ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
音声符号化装置が出力したビットストリームを、伝送して音声復号装置に渡す代わりに、記録媒体(CDや、DVDや、ブルーレイディスクや、ハードディスク装置や、半導体メモリー等)に書き込んでもよい。音声復号装置は、その記録媒体から、ビットストリームを取得できる。
実施形態に記載した手法は、例示した22.2ch音響以外のマルチチャンネル音響方式や、オブジェクトベース音響方式、AR/VR音響にも適用してよい。
以上説明した複数の実施形態(および変形例)の少なくともいずれかによれば、複数の音声信号で構成される音声のコンテンツ等を符号化する際に、音質劣化が許容されない音声信号に優先的に伝送容量(あるいは記録容量)を割り当てることができる。これにより、コンテンツ等の制作者の意図に沿って、コンテンツ等の総合的な品質を維持できる。また、その形態での実施のために、既存の音声符号化規格のビットストリームシンタックスを変更する必要がない。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、例えば、音声のコンテンツの放送、配信、記録、流通等のために利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
1,2,3,4 音声符号化装置
21 分離部(音響メタデータ取得部)
22,23 分類部
24 音響メタデータ符号化部
25 多重化部
31,32 音声信号符号化部
33 必須ビットレート分配部
34 余剰ビットレート分配部
35 最適ビットレート分配部
36,37 符号化部
37 符号化部
38 結合部
41,42 音声信号符号化部
43 音声オブジェクト用ビットレート分配部
44 背景音用ビットレート分配部
45 余剰ビットレート分配部
46,47 符号化部
48 結合部
51,52,61 音声復号装置
71 分離部
72,73,74 音響メタデータ復号部
75,76,77 音声信号復号部
81 操作部
82,83,84 オーディオレンダリング部
90 音響メタデータ取得部

Claims (15)

  1. 音声信号が優先信号であるか非優先信号であるかを少なくとも表す音響メタデータを取得する音響メタデータ取得部と、
    前記音響メタデータを参照することによって、入力される複数の音声信号が、優先信号であるか非優先信号であるかを分類する分類部と、
    ビットレートを前記音声信号に分配する分配部であって、指定された全ビットレートのうち前記優先信号に対応する優先ビットレートを前記優先信号に分配し、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果に基づく余剰ビットレートを前記非優先信号に分配する分配部と、
    前記分配部が分配した前記ビットレートにしたがって、前記音声信号のそれぞれを符号化する音声信号符号化部と、
    を備える音声符号化装置。
  2. 前記分配部は、前記優先信号のうちの特定の優先信号が無音であると判断できる場合、前記特定の優先信号への前記優先ビットレートの分配を取りやめて他の音声信号への分配に回す、
    請求項1に記載の音声符号化装置。
  3. 前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記非優先信号に分配する、
    請求項1または請求項2に記載の音声符号化装置。
  4. 前記分配部は、前記余剰ビットレートを、前記優先信号にも分配する、
    請求項3に記載の音声符号化装置。
  5. 前記分配部は、前記優先ビットレートを前記優先信号に分配した後、全ビットレートから前記優先信号に分配した前記優先ビットレートの合計を減じた結果である減算後ビットレートのうち、前記非優先信号に応じた非優先ビットレートを前記非優先信号に分配し、前記減算後ビットレートから前記非優先信号に分配した前記非優先ビットレートの合計を減じた結果である前記余剰ビットレートを、前記優先信号に分配する、
    請求項1または請求項2に記載の音声符号化装置。
  6. 前記分配部は、前記余剰ビットレートを、前記非優先信号にも分配する、
    請求項5に記載の音声符号化装置。
  7. 前記音響メタデータと前記複数の音声信号とを含んだ入力信号を取得し、前記入力信号を前記音響メタデータと前記音声信号とに分離し、分離した前記音声信号を前記分類部に渡す分離部、
    をさらに備える請求項1から6までのいずれか一項に記載の音声符号化装置。
  8. 取得された前記音響メタデータを符号化する音響メタデータ符号化部と、
    前記音声信号符号化部が出力する符号化された音声信号と、前記音響メタデータ符号化部が出力する符号化された音響メタデータとを、多重化して出力する多重化部と、
    をさらに備える請求項1から7までのいずれか一項に記載の音声符号化装置。
  9. 前記優先信号は、音声オブジェクトの音声信号であり、
    前記非優先信号は、チャンネルベース音響の音声信号である、
    請求項1から8までのいずれか一項に記載の音声符号化装置。
  10. 前記優先信号の1チャンネルあたりの前記優先ビットレートは、前記音声信号符号化部が実行する符号化の方式に応じた固定値であって、32キロビット毎秒、33キロビット毎秒、34キロビット毎秒、35キロビット毎秒、36キロビット毎秒、37キロビット毎秒、38キロビット毎秒、39キロビット毎秒、40キロビット毎秒、41キロビット毎秒、42キロビット毎秒、43キロビット毎秒、44キロビット毎秒、45キロビット毎秒、46キロビット毎秒、47キロビット毎秒、48キロビット毎秒、49キロビット毎秒、50キロビット毎秒、51キロビット毎秒、52キロビット毎秒、53キロビット毎秒、54キロビット毎秒、55キロビット毎秒、56キロビット毎秒、57キロビット毎秒、58キロビット毎秒、59キロビット毎秒、60キロビット毎秒、61キロビット毎秒、62キロビット毎秒、63キロビット毎秒、または64キロビット毎秒のいずれかである、
    請求項1から9までのいずれか一項に記載の音声符号化装置。
  11. コンピューターを、
    請求項1から10までのいずれか一項に記載の音声符号化装置、
    として機能させるためのプログラム。
  12. ビットストリームを取得して、前記ビットストリームを、符号化された音声信号と、符号化された音響メタデータと、に分離する分離部と、
    前記符号化された音響メタデータを復号する音響メタデータ復号部と、
    前記符号化された音声信号を復号する音声信号復号部と、
    前記音響メタデータ復号部によって復号された音響メタデータに基づいて、前記音声信号復号部によって復号された音声信号をオーディオレンダリングし、再生音として出力するオーディオレンダリング部と、
    を備える音声復号装置。
  13. 音声信号復号部は、前記符号化された音声信号に含まれる優先信号と非優先信号とをそれぞれ復号し、
    前記オーディオレンダリング部は、前記音響メタデータ復号部によって復号された音響メタデータに基づいて、復号された前記優先信号と非優先信号とをそれぞれオーディオレンダリングし、前記優先信号のオーディオレンダリング結果と前記非優先信号のオーディオレンダリング結果とを組み合わせて前記再生音として出力する、
    請求項12に記載の音声復号装置。
  14. ユーザーの操作に基づく指示情報を生成する操作部、
    をさらに備え、
    前記オーディオレンダリング部は、前記操作部からの前記指示情報にも基づいて、前記復号された音声信号をオーディオレンダリングする、
    請求項12または請求項13に記載の音声復号装置。
  15. コンピューターを、
    請求項12から14までのいずれか一項に記載の音声復号装置、
    として機能させるためのプログラム。
JP2020187368A 2020-02-07 2020-11-10 音声符号化装置および音声復号装置、ならびにプログラム Pending JP2021124719A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020020149 2020-02-07
JP2020020149 2020-02-07

Publications (1)

Publication Number Publication Date
JP2021124719A true JP2021124719A (ja) 2021-08-30

Family

ID=77458760

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020187368A Pending JP2021124719A (ja) 2020-02-07 2020-11-10 音声符号化装置および音声復号装置、ならびにプログラム

Country Status (1)

Country Link
JP (1) JP2021124719A (ja)

Similar Documents

Publication Publication Date Title
US11501789B2 (en) Encoded audio metadata-based equalization
JP5129888B2 (ja) トランスコード方法、トランスコーディングシステム及びセットトップボックス
KR101849612B1 (ko) 새로운 미디어 장치 상에 내장된 라우드니스 메타데이터를 갖거나 또는 갖지 않고 미디어의 정규화된 오디오 재생을 위한 방법 및 장치
JP2693893B2 (ja) ステレオ音声符号化方法
EP1455345B1 (en) Method and apparatus for encoding and/or decoding digital data using bandwidth extension technology
KR100799155B1 (ko) 프라이머리와 세컨더리 오디오 시그널을 조정하기 위한시스템
US8374858B2 (en) Scalable lossless audio codec and authoring tool
CN103119846B (zh) 利用对白水平归一化对音频流进行混合
EP3329487A1 (en) Encoded audio extended metadata-based dynamic range control
US5845251A (en) Method, system and product for modifying the bandwidth of subband encoded audio data
KR20070001139A (ko) 오디오 분배 시스템, 오디오 인코더, 오디오 디코더 및이들의 동작 방법들
JP2004199075A (ja) ビット率調節可能なステレオオーディオ符号化・復号化方法及びその装置
JP2021124719A (ja) 音声符号化装置および音声復号装置、ならびにプログラム
US6516299B1 (en) Method, system and product for modifying the dynamic range of encoded audio signals
JP2002156998A (ja) オーディオ信号のビットストリーム処理方法、この処理方法を記録した記録媒体、及び処理装置
JP2008033211A (ja) 付加信号生成装置、信号変換された信号の復元装置、付加信号生成方法、信号変換された信号の復元方法および付加信号生成プログラム
JP3362476B2 (ja) 高能率符号化装置及びインタフェース装置
WO2024074282A1 (en) Method, apparatus, and medium for encoding and decoding of audio bitstreams
WO2024074285A1 (en) Method, apparatus, and medium for encoding and decoding of audio bitstreams with flexible block-based syntax
WO2024076830A1 (en) Method, apparatus, and medium for encoding and decoding of audio bitstreams and associated return channel information
JP2020101837A (ja) 音声信号処理装置
Series Low delay audio coding for broadcasting applications
Scovil Audio Codecs for Remote Radio Broadcasting
JP2003029797A (ja) 符号化装置、復号化装置および放送システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20231011