JP6868791B2

JP6868791B2 - テレビジョン受像機および信号処理方法、並びにプログラム

Info

Publication number: JP6868791B2
Application number: JP2019162280A
Authority: JP
Inventors: 光行畠中; 徹知念
Original assignee: Sony Corp; Sony Group Corp
Current assignee: Sony Corp; Sony Group Corp
Priority date: 2012-07-02
Filing date: 2019-09-05
Publication date: 2021-05-12
Anticipated expiration: 2033-06-24
Also published as: US20140214433A1; KR20150032650A; BR112014004128A2; RU2014106530A; JP6583485B2; US10304466B2; EP2743921A1; JP2018156103A; US20160343380A1; CA2843226A1; US10140995B2; WO2014007097A1; JP2020003814A; EP2743921A4; AU2013284705B2; JPWO2014007097A1; CN103765508B; CN103765508A; AU2013284705A1; RU2652468C2

Description

本技術はテレビジョン受像機および信号処理方法、並びにプログラムに関し、特に、より臨場感のある高品質な音声を得ることができるようにしたテレビジョン受像機および信号処理方法、並びにプログラムに関する。

近年、世界各国で動画像配信サービスやデジタルテレビジョン放送、次世代アーカイビングの導入が進み、音声部分では従来のステレオ放送に加え、5.1チャンネルのマルチチャンネルに対応したものが普及し始めている。

一方、さらなる高画質化に向け、より画素数を高めた次世代ハイビジョンの検討が進められており、これに伴い音声部分も5.1マルチチャンネルを超え、さらなる臨場感を実現するために平面方向および垂直方向でのチャンネル拡張が期待されている。

また、オーディオデータの符号化に関する技術として、異なるチャンネルからの複数のウィンドウをいくつかのタイルにグループ化することで、符号化効率を改善させる技術も提案されている（例えば、特許文献１参照）。

特開２０１０−２１７９００号公報

しかしながら、上述した技術では、臨場感のある高品質な音声を得ることは困難であった。

例えば、国際標準化規格であるMPEG(Moving Picture Experts Group)-2 AAC(Advanced Audio Coding)およびMPEG-4 AAC規格のマルチチャンネル符号化では、平面方向でのスピーカ配置の規定および5.1チャンネルからステレオチャンネルへのダウンミックス情報のみが規定されているだけである。そのため、水平面および垂直方向でのチャンネル拡張に充分に対応できていなかった。

本技術は、このような状況に鑑みてなされたものであり、より臨場感のある高品質な音声を得ることができるようにするものである。

本技術の一側面のテレビジョン受像機は、符号化ビットストリームに含まれているオーディオデータを復号する復号部と、符号化ビットストリームに含まれているオーディオデータを復号する復号部と、前記符号化ビットストリームに含まれる拡張情報に基づいて、復号された前記オーディオデータを5.1chのオーディオデータとしてダウンミックスする第１ダウンミックスの処理を行い、前記第１ダウンミックスにより得られた前記5.1chのオーディオデータをさらに2chのオーディオデータにダウンミックスする第２ダウンミックスの処理を行う処理部とを備える。

本技術の一側面の信号処理方法またはプログラムは、符号化ビットストリームに含まれているオーディオデータを復号し、前記符号化ビットストリームに含まれる拡張情報に基づいて、復号された前記オーディオデータを5.1chのオーディオデータとしてダウンミックスする第１ダウンミックスの処理を行い、前記第１ダウンミックスにより得られた前記5.1chのオーディオデータをさらに2chのオーディオデータにダウンミックスする第２ダウンミックスの処理を行うステップを含む。

本技術の一側面においては、符号化ビットストリームに含まれているオーディオデータが復号され、前記符号化ビットストリームに含まれる拡張情報に基づいて、復号された前記オーディオデータを5.1chのオーディオデータとしてダウンミックスする第１ダウンミックスの処理が行われ、前記第１ダウンミックスにより得られた前記5.1chのオーディオデータをさらに2chのオーディオデータにダウンミックスする第２ダウンミックスの処理が行われる。

本技術の一側面によれば、より臨場感のある高品質な音声を得ることができる。

スピーカ配置について説明する図である。スピーカマッピングの一例を示す図である。符号化ビットストリームについて説明する図である。 height_extension_elementのシンタックスを示す図である。スピーカの配置高さについて説明する図である。 MPEG4 ancillary dataのシンタックスを示す図である。 bs_info()のシンタックスを示す図である。 ancillary_data_status()のシンタックスを示す図である。 downmixing_levels_MPEG4()のシンタックスを示す図である。 audio_coding_mode()のシンタックスを示す図である。 MPEG4_ext_ancillary_data()のシンタックスを示す図である。 ext_ancillary_data_status()のシンタックスを示す図である。 ext_downmixing_levels()のシンタックスを示す図である。各係数の適用対象について説明する図である。 ext_downmixing_global_gains()のシンタックスを示す図である。 ext_downmixing_lfe_level()のシンタックスを示す図である。ダウンミックスについて説明する図である。 dmix_lfe_idxに対して定まる係数について説明する図である。 dmix_a_idxとdmix_b_idxに対して定まる係数について説明する図である。 drc_presentation_modeのシンタックスを示す図である。 drc_presentation_modeについて説明する図である。符号化装置の構成例を示す図である。符号化処理を説明するフローチャートである。復号装置の構成例を示す図である。復号処理を説明するフローチャートである。符号化装置の構成例を示す図である。符号化処理を説明するフローチャートである。復号装置の構成例を示す図である。ダウンミックス処理部の構成例を示す図である。ダウンミックス部の構成例を示す図である。ダウンミックス部の構成例を示す図である。ダウンミックス部の構成例を示す図である。ダウンミックス部の構成例を示す図である。ダウンミックス部の構成例を示す図である。ダウンミックス部の構成例を示す図である。復号処理を説明するフローチャートである。並び替え処理を説明するフローチャートである。並び替え処理を説明するフローチャートである。ダウンミックス処理を説明するフローチャートである。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
［本技術の概要について］
まず、本技術の概要について説明する。

本技術は、オーディオデータの符号化，復号に関するものである。例えば、MPEG-2 AACやMPEG-4 AAC規格のマルチチャンネル符号化では、水平面および垂直方向でのチャンネル拡張のための情報を持つことができない。

また、これらのマルチチャンネル符号化では、チャンネル拡張したコンテンツのダウンミックス情報も持たず、各チャンネルの適切な混合比が分からないため、再生チャンネル数が少ない携帯機器での再生音が聞きづらいものとなってしまう。

そこで、本技術では、以下の特徴（１）乃至（４）により、より臨場感のある高品質な音声を得ることができるようにする。

（１）既存のAAC規格で規定されているPCE（Program_config_element）内のコメント領域に垂直方向のスピーカ配置情報を記録する。
（２）特徴（１）の場合において、一般コメントと垂直方向のスピーカ配置情報を識別するために、符号化装置側で同期ワードとCRCチェックコードの２つの識別情報を符号化し、復号装置では、２つの識別情報の照合を行い、合致した場合にスピーカ配置情報を取得する。
（３）オーディオデータのダウンミックス情報をアンシラリデータ領域（DSE（data_stream_element））に記録する。
（４） 6.1チャンネルまたは7.1チャンネルから2チャンネルへのダウンミックスは、6.1チャンネルまたは7.1チャンネルから5.1チャンネルへのダウンミックスと、その後に行なわれる5.1チャンネルから2チャンネルへのダウンミックスとの２段階の処理とする。

このように垂直方向のスピーカ配置情報を用いることで、平面だけでなく、垂直方向の音像再現が可能になり、従来の平面マルチチャンネルでの再生よりも、より臨場感の高い再生が可能となる。

また、6.1チャンネルや7.1チャンネルから、5.1チャンネルや2チャンネルへのダウンミックス情報を伝送することで、ひとつの符号化データを用いても各々の再生環境に最適なチャンネル数でオーディオ再生が可能となる。なお、本技術に対応していない従来の復号装置では、垂直方向の情報は一般コメントとして無視されてオーディオデータの復号が行なわれるので、互換性が損なわれることはない。

［スピーカの配置について］
次にオーディオデータが再生されるときの各スピーカの配置について説明する。

例えば、図１に示すようにユーザがテレビジョン受像機などの表示装置の表示画面TVSを正面から観察するものとする。つまり、表示画面TVSの図中、手前側にユーザが位置しているものとする。

そのような場合、ユーザを囲むように１３個のスピーカLvh，Rvh，Lrs，Ls，L，Lc，C，Rc，R，Rs，Rrs，Cs，LFEが配置されているものとする。

以下では、これらのスピーカLvh，Rvh，Lrs，Ls，L，Lc，C，Rc，R，Rs，Rrs，Cs，LFEで再生されるオーディオデータ（音声）のチャンネルを、それぞれLvh，Rvh，Lrs，Ls，L，Lc，C，Rc，R，Rs，Rrs，Cs，LFEと称する。

図２に示すようにチャンネルLは「Front Left」であり、チャンネルRは「Front Right」であり、チャンネルCは「Front Center」である。

また、チャンネルLsは「Left Surround」であり、チャンネルRsは「Right Surround」であり、チャンネルLrsは「Left Rear」であり、チャンネルRrsは「Right Rear」であり、チャンネルCsは「Center Back」である。

さらに、チャンネルLvhは「Left High Front」であり、チャンネルRvhは「Right High Front」であり、チャンネルLFEは「Low-Frequency-Effect」である。

図１の説明に戻り、スピーカLvhおよびスピーカRvhは、それぞれユーザの前方上側の左右に配置されており、これらのスピーカRvh，Lvhが配置されるレイヤが「Top layer」である。

また、スピーカL，C，Rは、それぞれユーザの前方の左側，中央，右側に配置されており、スピーカLc，Rcが、それぞれスピーカLとCの間、およびスピーカRとCの間に配置されている。さらに、スピーカLs，Rsは、それぞれユーザの左右に配置されており、スピーカLrs，Rrs，Csは、それぞれユーザの後方左側、後方右側、および後方に配置されている。

これらのスピーカLrs，Ls，L，Lc，C，Rc，R，Rs，Rrs，Csは、およそユーザの耳の高さに位置する平面上で、ユーザを囲むように配置されており、これらのスピーカが配置されるレイヤが「Middle layer」である。

さらに、スピーカLFEは、ユーザの前方下側に配置されており、スピーカLFEが配置されるレイヤが「LFE layer」である。

［符号化ビットストリームについて］
これらの各チャンネルのオーディオデータを符号化すると、例えば図３に示す符号化ビットストリームが得られる。すなわち、図３は、AACフレームの符号化ビットストリームのシンタックスを示している。

図３の符号化ビットストリームは、「Header/sideinfo」、「PCE」、「SCE」、「CPE」、「LFE」、「DSE」、「FIL(DRC)」、および「FIL(END)」から構成されており、この例では符号化ビットストリームには、３つの「CPE」が含まれている。

例えば、「PCE」にはオーディオデータの各チャンネルに関する情報が含まれており、この例では、オーディオデータのミックスダウンに関する情報である「Matrix-mixdown」と、スピーカ配置（高さ情報）に関する情報である「Height Infomation」が含まれている。「PCE」には自由なコメントを格納できるコメント領域（コメントフィールド）である「comment_field_data」が含まれており、「comment_field_data」には拡張領域である「height_extension_element」が含まれている。コメント領域は、一般コメントなど、任意のデータを格納可能な領域である。この「height_extension_element」内に、スピーカ配置の高さに関する情報である「Height Infomation」が含まれている。

「SCE」には、シングルチャンネルのオーディオデータが含まれており、「CPE」にはチャンネルペア、つまり２つのチャンネルのオーディオデータが含まれており、「LFE」には、LFEチャンネルのオーディオデータが含まれている。例えば、「SCE」にはCやCsなどのチャンネルのオーディオデータが格納され、「CPE」にはLやR、LvhやRvhなどのチャンネルのオーディオデータが格納される。

また、「DSE」はアンシラリデータ領域であり、「DSE」には、自由なデータが格納される。この例では、「DSE」にはオーディオデータのダウンミックスに関する情報として「Downmix 5.1ch to 2ch」、「Dynamic Range Control」、「DRC Presentation Mode」、「Downmix 6.1ch and 7.1ch to 5.1ch」、「global gain downmixing」、および「LFE downmixing」が含まれている。

さらに「FIL(DRC)」には音声のダイナミックレンジ制御に関する情報が含まれており、例えば「FIL(DRC)」には「Program Reference Level」および「Dynamic Range Control」が含まれている。

［コメントフィールドについて］
上述したように「PCE」の「comment_field_data」には「height_extension_element」が含まれており、これにより垂直方向のスピーカ配置情報によるマルチチャンネル再生が実現される。つまり、「Top layer」や「Middle layer」など各高さのレイヤに配置されたスピーカにより、より臨場感のある高品質な音声再生ができるようになる。

このような「height_extension_element」には、例えば図４に示すように他の一般コメントとの識別を行なうための同期ワードなどが含まれている。すなわち、図４は「height_extension_element」のシンタックスを示す図である。

図４では、「PCE_HEIGHT_EXTENSION_SYNC」は同期ワードを示している。

また、「front_element_height_info[i]」、「side_element_height_info[i]」、および「back_element_height_info[i]」は、それぞれ視聴者からみて前方、側方、および後方に位置する各スピーカの高さ、つまりレイヤを示している。

さらに「byte_alignment()」はバイトアラインメントを行なうことを示しており、「height_info_crc_check」は識別情報として用いられるCRCチェックコードを示している。また、「PCE_HEIGHT_EXTENSION_SYNC」から「byte_alignment()」までの間に読み込まれた情報、つまり同期ワード、各スピーカの配置情報（各チャンネルの情報）、バイトアラインメントに基づいて、CRCチェックコードが算出される。そして、算出されたCRCチェックコードと、「height_info_crc_check」により示されるCRCチェックコードとが一致するか否かが判定され、それらが一致する場合、各スピーカの配置に関する情報が正しく読み込めたとされる。「crc_cal()!=height_info_crc_check」は上述したCRCチェックコードの照合を行なうことを示している。

なお、音源の位置、つまりスピーカの配置（高さ）に関する情報である「front_element_height_info[i]」、「side_element_height_info[i]」、および「back_element_height_info[i]」は、例えば図５に示すように定められる。

すなわち、「front_element_height_info[i]」、「side_element_height_info[i]」、および「back_element_height_info[i]」の各情報が「０」、「１」、「２」であれば、そのスピーカの高さは「Normal height」、「Top speaker」、「Bottom Speaker」とされる。つまり、「Middle layer」、「Top layer」、および「LFE layer」である。

［DSEについて］
次に、「DSE」、つまり「data_stream_element()」の「data_stream_byte[]」に含まれるアンシラリデータ領域である「MPEG4 ancillary data」について説明する。この「MPEG4 ancillary data」によって、オーディオデータの6.1チャンネルまたは7.1チャンネルから、5.1チャンネルや2チャンネルへのダウンミックスDRC制御が可能となる。

図６は、「MPEG4 ancillary data」のシンタックスを示す図である。「MPEG4 ancillary data」には、「bs_info()」、「ancillary_data_status()」、「downmixing_levels_MPEG4()」、「audio_coding_mode()」、「Compression_value」、および「MPEG4_ext_ancillary_data()」が含まれている。

ここで、「Compression_value」は、図３の「Dynamic Range Control」に対応している。また、「bs_info()」、「ancillary_data_status()」、「downmixing_levels_MPEG4()」、「audio_coding_mode()」、および「MPEG4_ext_ancillary_data()」のシンタックスは、それぞれ図７乃至図１１に示すようになっている。

例えば、「bs_info()」には図７に示すように、「mpeg_audio_type」、「dolby_surround_mode」、「drc_presentation_mode」、および「pseudo_surround_enable」が含まれている。

「drc_presentation_mode」は、図３に示した「DRC Presentation Mode」に対応する。
また、「pseudo_surround_enable」には、5.1チャンネルから2チャンネルへのダウンミックスの処理手順を示す情報、つまり複数のダウンミックス処理手法のうちの何れの手法によりダウンミックスを行なうかを示す情報が含まれている。

さらに例えば図８に示す「ancillary_data_status()」に含まれている「ancillary_data_extension_status」が０であるかまたは１であるかに応じて、異なる処理が行なわれる。「ancillary_data_extension_status」が１である場合には、図６の「MPEG4 ancillary data」における「MPEG4_ext_ancillary_data()」へのアクセスが行なわれて、ダウンミックスDRC制御が行なわれる。これに対して、「ancillary_data_extension_status」が０である場合には、従来通りの処理が行なわれる。これにより、既存の規格との互換性を確保することができる。

図８の「ancillary_data_status()」に含まれている「downmixing_levels_MPEG4_status」は、5.1チャンネルから2チャンネルへのダウンミックスに用いられる係数（混合比）を指定するための情報である。すなわち、「downmixing_levels_MPEG4_status」が1である場合には、図９に示す「downmixing_levels_MPEG4()」に格納されている情報により定まる係数が用いられて、ダウンミックスが行なわれる。

図９の「downmixing_levels_MPEG4()」には、ダウンミックスの係数を特定するための情報として、「center_mix_level_value」と「surround_mix_level_value」が含まれている。これらの「center_mix_level_value」と「surround_mix_level_value」に対応する係数の値は、例えば後述する図１９のテーブルにより定められる。

なお、図９の「downmixing_levels_MPEG4()」は、図３の「Downmix 5.1ch to 2ch」に対応している。

また、図１１の「MPEG4_ext_ancillary_data()」には、「ext_ancillary_data_status()」、「ext_downmixing_levels()」、「ext_downmixing_global_gains()」、および「ext_downmixing_lfe_level()」が含まれている。

「MPEG4_ext_ancillary_data()」には、これまで5.1チャンネルのオーディオデータを扱っていたのを、7.1または6.1チャンネルのオーディオデータまで扱えるようにチャンネル数を拡張する場合に必要となる情報が格納されている。

具体的には、「ext_ancillary_data_status()」には、5.1チャンネルより多いチャンネルから5.1チャンネルへのダウンミックスを行なうか否かを示す情報（フラグ）、ダウンミックスの際にゲイン制御を行なうかを示す情報、ダウンミックスにLFEチャンネルを利用するかを示す情報が含まれている。

「ext_downmixing_levels()」には、ダウンミックスを行なう場合に用いられる係数（混合比）を特定するための情報が格納されており、「ext_downmixing_global_gains()」には、ゲイン調整時のゲインに関する情報が含まれている。また、「ext_downmixing_lfe_level()」には、ダウンミックスを行なう場合に用いられるLEFチャンネルの係数（混合比）を特定するための情報が格納されている。

より詳細には例えば「ext_ancillary_data_status()」のシンタックスは、図１２に示すようになっている。「ext_ancillary_data_status()」において「ext_downmixing_levels_status」は、6.1チャンネルや7.1チャンネルから5.1チャンネルにダウンミックスするか否かを示している。すなわち、「ext_downmixing_levels()」があるか否かを示している。この「ext_downmixing_levels_status」は、図３の「Downmix 6.1ch and 7.1ch to 5.1ch」に対応する。

また、「ext_downmixing_global_gains_status」は、グローバルゲイン制御をするか否かを示しており、図３の「global gain downmixing」に対応している。すなわち、「ext_downmixing_global_gains()」があるか否かを示している。「ext_downmixing_lfe_level_status」は、5.1チャンネルから2チャンネルにダウンミックスするときに、LFEチャンネルを用いるか否かを示しており、図３の「LFE downmixing」に対応している。

さらに、図１１の「MPEG4_ext_ancillary_data()」における「ext_downmixing_levels()」のシンタックスは図１３に示すようになっており、図１３に示す「dmix_a_idx」および「dmix_b_idx」は、ダウンミックス時の混合比（係数）を示す情報である。

また、「ext_downmixing_levels()」で定まる「dmix_a_idx」および「dmix_b_idx」と、7.1チャンネルのオーディオデータをダウンミックスするときに、それらの「dmix_a_idx」および「dmix_b_idx」が適用される成分との対応は、図１４に示すようになっている。

図１１の「MPEG4_ext_ancillary_data()」における「ext_downmixing_global_gains()」、および「ext_downmixing_lfe_level()」のシンタックスは図１５および図１６に示すようになっている。

例えば、図１５の「ext_downmixing_global_gains()」には、5.1チャンネルへのダウンミックスを行なうときのゲインの符号を示す「dmx_gain_5_sign」と、そのゲイン「dmx_gain_5_idx」、2チャンネルへのダウンミックスを行なうときのゲインの符号を示す「dmx_gain_2_sign」と、そのゲイン「dmx_gain_2_idx」が含まれている。

さらに、図１６の「ext_downmixing_lfe_level()」には、「dmix_lfe_idx」が含まれており、この「dmix_lfe_idx」は、ダウンミックス時のLFEチャンネルの混合比（係数）を示す情報である。

［ダウンミックスについて］
また、図７に示した「bs_info()」のシンタックスにおける「pseudo_surround_enable」は、ダウンミックスの処理手順を示しており、その処理手順は図１７に示す通りである。ここでは、「pseudo_surround_enable」が0である場合と1である場合の２通りの処理手順が示されている。

ここで、オーディオデータのダウンミックス処理について説明する。

まず、5.1チャンネルから2チャンネルへのダウンミックスについて説明する。この場合、ダウンミックス後のＬチャンネルおよびＲチャンネルを、それぞれＬ’チャンネルおよびＲ’チャンネルとすると、次の処理が行なわれる。

すなわち、「pseudo_surround_enable」が０である場合、次式（１）の計算が行なわれて、Ｌ’チャンネルおよびＲ’チャンネルのオーディオデータが求められる。

Ｌ’＝Ｌ+Ｃ×ｂ+Ｌｓ×ａ+ＬＦＥ×ｃ
Ｒ’＝Ｒ+Ｃ×ｂ+Ｒｓ×ａ+ＬＦＥ×ｃ・・・（１）

これに対して、「pseudo_surround_enable」が１である場合、次式（２）の計算が行なわれて、Ｌ’チャンネルおよびＲ’チャンネルのオーディオデータが求められる。

Ｌ’＝Ｌ+Ｃ×ｂ−ａ×（Ｌｓ+Ｒｓ）+ＬＦＥ×ｃ
Ｒ’＝Ｒ+Ｃ×ｂ+ａ×（Ｌｓ+Ｒｓ）+ＬＦＥ×ｃ・・・（２）

なお、式（１）および式（２）においてＬ、Ｒ、Ｃ、Ｌｓ、Ｒｓ、およびＬＦＥは、5.1チャンネルを構成する各チャンネルであり、それぞれ図１および図２を参照して説明したＬ、Ｒ、Ｃ、Ｌｓ、Ｒｓ、およびＬＦＥの各チャンネルを示している。

また、式（１）および式（２）において、ｃは図１６で示した「ext_downmixing_lfe_level()」に含まれている「dmix_lfe_idx」の値により定まる定数であり、例えば「dmix_lfe_idx」の各値に対する定数ｃの値は、図１８に示す通りである。なお、より詳細には図１２の「ext_ancillary_data_status()」における「ext_downmixing_lfe_level_status」が０である場合、ＬＦＥチャンネルは、式（１）および式（２）の計算には用いられない。一方、「ext_downmixing_lfe_level_status」が１である場合には、ＬＦＥチャンネルに乗算される定数ｃの値が図１８に示すテーブルに基づいて定められる。

さらに、式（１）および式（２）において、ａおよびｂは図１３で示した「ext_downmixing_levels()」に含まれている「dmix_a_idx」および「dmix_b_idx」の値により定まる定数である。なお、式（１）および式（２）におけるａおよびｂが、図９に示した「downmixing_levels_MPEG4()」における「center_mix_level_value」および「surround_mix_level_value」の値により定まる定数とされてもよい。

例えば「dmix_a_idx」および「dmix_b_idx」、または「center_mix_level_value」および「surround_mix_level_value」の各値に対する定数ａおよびｂの値は、図１９に示す通りである。この例では、「dmix_a_idx」および「dmix_b_idx」と、「center_mix_level_value」および「surround_mix_level_value」とで、同じテーブルが参照されるので、ダウンミックスのための定数（係数）であるａおよびｂの値は同じとなる。

続いて、7.1チャンネルまたは6.1チャンネルから、5.1チャンネルへのダウンミックスについて説明する。

ユーザからみて後方にあるスピーカLrs，Rrsのチャンネルを含む、チャンネルC，L，R，Ls，Rs，Lrs，Rrs，LFEのオーディオデータが、C’，L’，R’，Ls’，Rs’，LFE’からなる5.1チャンネルのオーディオデータに変換される場合、次式（３）の計算が行なわれる。ここで、チャンネルC’，L’，R’，Ls’，Rs’，LFE’は、ダウンミックス後のチャンネルC，L，R，Ls，Rs，LFEを示している。また、式（３）において、C，L，R，Ls，Rs，Lrs，Rrs，LFEは、チャンネルC，L，R，Ls，Rs，Lrs，Rrs，LFEのオーディオデータを示している。

C’＝C
L’＝L
R’＝R
Ls’＝Ls×ｄ１＋ Lrs×ｄ２
Rs’＝Rs×ｄ１＋ Rrs×ｄ２
LFE’＝LFE ・・・（３）

なお、式（３）において、ｄ１およびｄ２は定数であり、これらの定数ｄ１およびｄ２は、例えば図１９に示した、「dmix_a_idx」および「dmix_b_idx」の各値に対して定まる定数などとされる。

また、ユーザからみて前方にあるスピーカLc，Rcのチャンネルを含む、チャンネルC，L，R，Lc，Rc，Ls，Rs，LFEのオーディオデータが、C’，L’，R’，Ls’，Rs’，LFE’からなる5.1チャンネルのオーディオデータに変換される場合、次式（４）の計算が行なわれる。ここで、チャンネルC’，L’，R’，Ls’，Rs’，LFE’は、ダウンミックス後のチャンネルC，L，R，Ls，Rs，LFEを示している。また、式（４）において、C，L，R，Lc，Rc，Ls，Rs，LFEは、チャンネルC，L，R，Lc，Rc，Ls，Rs，LFEのオーディオデータを示している。

C’＝C＋ｅ１×（Lc＋Rc）
L’＝L＋Lc×ｅ２
R’＝R＋Rc×ｅ２
Ls’＝Ls
Rs’＝Rs
LFE’＝LFE ・・・（４）

なお、式（４）において、ｅ１およびｅ２は定数であり、これらの定数ｅ１およびｅ２は、例えば図１９に示した、「dmix_a_idx」および「dmix_b_idx」の各値に対して定まる定数などとされる。

さらに、ユーザからみて前方上側にあるスピーカRvh，Lvhのチャンネルを含む、チャンネルC，L，R，Lvh，Rvh，Ls，Rs，LFEのオーディオデータが、C’，L’，R’，Ls’，Rs’，LFE’からなる5.1チャンネルのオーディオデータに変換される場合、次式（５）の計算が行なわれる。ここで、チャンネルC’，L’，R’，Ls’，Rs’，LFE’は、ダウンミックス後のチャンネルC，L，R，Ls，Rs，LFEを示している。また、式（５）において、C，L，R，Lvh，Rvh，Ls，Rs，LFEは、チャンネルC，L，R，Lvh，Rvh，Ls，Rs，LFEのオーディオデータを示している。

C’＝C
L’＝L×ｆ１＋Lvh×ｆ２
R’＝R×ｆ１＋Rvh×ｆ２
Ls’＝Ls
Rs’＝Rs
LFE’＝LFE ・・・（５）

なお、式（５）において、ｆ１およびｆ２は定数であり、これらの定数ｆ１およびｆ２は、例えば図１９に示した、「dmix_a_idx」および「dmix_b_idx」の各値に対して定まる定数などとされる。

また、6.1チャンネルから5.1チャンネルへのダウンミックスを行なう場合には、次のようになる。すなわち、チャンネルC，L，R，Ls，Rs，Cs，LFEのオーディオデータから、C’，L’，R’，Ls’，Rs’，LFE’からなる5.1チャンネルのオーディオデータに変換される場合、次式（６）の計算が行なわれる。ここで、チャンネルC’，L’，R’，Ls’，Rs’，LFE’は、ダウンミックス後のチャンネルC，L，R，Ls，Rs，LFEを示している。また、式（６）において、C，L，R，Ls，Rs，Cs，LFEは、チャンネルC，L，R，Ls，Rs，Cs，LFEのオーディオデータを示している。

C’＝C
L’＝L
R’＝R
Ls’＝Ls×ｇ１＋Cs×ｇ２
Rs’＝Rs×ｇ１＋Cs×ｇ２
LFE’＝LFE ・・・（６）

なお、式（６）において、ｇ１およびｇ２は定数であり、これらの定数ｇ１およびｇ２は、例えば図１９に示した、「dmix_a_idx」および「dmix_b_idx」の各値に対して定まる定数などとされる。

さらに、ダウンミックスの音量補正に対するグローバルゲインについて説明する。

グローバルダウンミックスゲインは、ダウンミックスによって、大きくなったり小さくなったりしてしまった音声の音量を補正するために用いられる。dmx_gain5は、7.1チャンネルや6.1チャンネルから5.1チャンネルへのダウンミックスの補正値を示しており、dmx_gain2は、5.1チャンネルから２チャンネルへのダウンミックスの補正値を示している。また、dmx_gain2は7.1チャンネルに対応していない復号装置やビットストリームもサポートするものである。

さらに、そのアプリケーションと動作は、DRC heavy compressionと類似している。また、符号化装置が、適宜、オーディオフレームの長い期間またはごく短い期間について選択的に評価し、グローバルダウンミックスゲインを定めることができる。

7.1チャンネルから2チャンネルへのダウンミックスの場合、ゲインは結合されたもの、つまり（dmx_gain5＋dmx_gain2）が適用される。dmx_gain5とdmx_gain2は、6ビットの符号なしの整数が用いられて、0.25dBきざみで量子化される。

したがって、dmx_gain5とdmx_gain2を結合したものは、±15.75dBの範囲の値となる。
これらは、復号された現フレームのオーディオデータのサンプルに対して適用されるゲイン値である。

具体的には、5.1チャンネルへのダウンミックスを行なう場合には、次のようになる。
すなわち、ダウンミックスにより得られたチャンネルC’，L’，R’，Ls’，Rs’，LFE’のオーディオデータに対してゲイン補正を行なって、C’’，L’’，R’’，Ls’’，Rs’’，LFE’’の各チャンネルのオーディオデータとする場合、次式（７）の計算が行なわれる。

L’’＝L’×dmx_gain5
R’’＝R’×dmx_gain5
C’’＝C’×dmx_gain5
Ls’’＝Ls’×dmx_gain5
Rs’’＝Rs’×dmx_gain5
LFE’’＝LFE’×dmx_gain5 ・・・（７）

ここで、dmx_gain5はスカラ値であり、図１５に示した「dmx_gain_5_sign」と「dmx_gain_5_idx」から、次式（８）により求まるゲイン値である。

dmx_gain5＝10^{(dmx_gain_5_idx/20)} if dmx_gain_5_sign==1
dmx_gain5＝10^{(-dmx_gain_5_idx/20)} if dmx_gain_5_sign==0 ・・・（８）

同様に、2チャンネルへのダウンミックスを行なう場合には、次のようになる。すなわち、ダウンミックスにより得られたチャンネルL’，R’のオーディオデータに対してゲイン補正を行なって、L’’，R’’の各チャンネルのオーディオデータとする場合、次式（９）の計算が行なわれる。

L’’＝L’×dmx_gain2
R’’＝R’×dmx_gain2 ・・・（９）

ここで、dmx_gain2はスカラ値であり、図１５に示した「dmx_gain_2_sign」と「dmx_gain_2_idx」から、次式（１０）により求まるゲイン値である。

dmx_gain2＝10^{(dmx_gain_2_idx/20)} if dmx_gain_2_sign==1
dmx_gain2＝10^{(-dmx_gain_2_idx/20)} if dmx_gain_2_sign==0 ・・・（１０）

なお、7.1チャンネルから2チャンネルにダウンミックスする場合には、7.1チャンネルから5.1チャンネル、5.1チャンネルから2チャンネルへのダウンミックスが行なわれた後に、得られた信号（データ）に対してゲイン調整が行なわれてもよい。そのような場合、オーディオデータに適用されるゲイン値dmx_gain_7to2は、次式（１１）に示すように、dmx_gain5とdmx_gain2を結合することにより得ることができる。

dmx_gain_7to2＝dmx_gain_2×dmx_gain_5 ・・・（１１）

また、6.1チャンネルから2チャンネルにダウンミックスする場合においても、7.1チャンネルから2チャンネルにダウンミックスする場合と同様である。

さらに、例えば7.1チャンネルから2チャンネルにダウンミックスする場合に、式（７）や式（９）の計算を行って、２段階でゲイン補正を行なう場合には、5.1チャンネルのオーディオデータと、2チャンネルのオーディオデータの出力が可能になる。

［DRC Presentation modeについて］
また、図７に示した「bs_info()」に含まれている「drc_presentation_mode」は図２０に示すようになっている。すなわち、図２０は、「drc_presentation_mode」のシンタックスを示す図である。

「drc_presentation_mode」が「01」である場合には、「DRC presentation mode 1」とされ、「drc_presentation_mode」が「10」である場合には、「DRC presentation mode 2」とされる。そして、「DRC presentation mode 1」および「DRC presentation mode 2」では、図２１に示すようにゲインコントロールが行なわれる。

［符号化装置の構成例］
次に、本技術を適用した具体的な実施の形態について説明する。

図２２は、本技術を適用した符号化装置の一実施の形態の構成例を示す図である。符号化装置１１は、入力部２１、符号化部２２、およびパッキング部２３から構成される。

入力部２１は、外部から、オーディオデータと、そのオーディオデータに関する情報を取得して符号化部２２に供給する。例えば、オーディオデータに関する情報として、スピーカの配置（配置高さ）に関する情報などが取得される。

符号化部２２は、入力部２１から供給されたオーディオデータと、オーディオデータに関する情報とを符号化してパッキング部２３に供給する。パッキング部２３は、符号化部２２から供給されたオーディオデータやオーディオデータに関する情報をパッキングして、図３に示した符号化ビットストリームを生成し、出力する。

［符号化処理の説明］
さらに、図２３のフローチャートを参照して、符号化装置１１による符号化処理について説明する。

ステップＳ１１において、入力部２１は、オーディオデータと、そのオーディオデータに関する情報を取得して符号化部２２に供給する。例えば、7.1チャンネルの各チャンネルのオーディオデータと、図４に示した「height_extension_element」に格納されるスピーカの配置に関する情報（以下、スピーカ配置情報と称する）などが取得される。

ステップＳ１２において、符号化部２２は、入力部２１から供給された各チャンネルのオーディオデータを符号化する。

ステップＳ１３において、符号化部２２は、入力部２１から供給されたスピーカ配置情報を符号化する。このとき、符号化部２２は、図４の「height_extension_element」に含まれる「PCE_HEIGHT_EXTENSION_SYNC」に格納される同期ワードを生成したり、「height_info_crc_check」に格納される識別情報であるCRCチェックコードを生成したりして、これらの同期ワードやCRCチェックコードを、符号化したスピーカ配置情報とともにパッキング部２３に供給する。

また、符号化部２２は、符号化ビットストリームの生成に必要な情報を生成し、符号化されたオーディオデータやスピーカ配置情報とともにパッキング部２３に供給する。

ステップＳ１４において、パッキング部２３は、符号化部２２から供給されたオーディオデータやスピーカ配置情報をビットパッキングして図３の符号化ビットストリームを生成し、出力する。このときパッキング部２３は、スピーカ配置情報や同期ワード、CRCチェックコードなどを「PCE」に格納し、オーディオデータを「SCE」や「CPE」に格納する。

符号化ビットストリームが出力されると、符号化処理は終了する。

以上のようにして、符号化装置１１は、各レイヤにおけるスピーカ配置に関する情報であるスピーカ配置情報を符号化ビットストリームに含めて、符号化されたオーディオデータを出力する。このように垂直方向のスピーカ配置情報を用いることで、平面だけでなく、垂直方向の音像再現が可能になり、より臨場感の高い音声再生が可能となる。

［復号装置の構成例］
次に、符号化装置１１から出力された符号化ビットストリームを受信して復号する復号装置について説明する。

図２４は、そのような復号装置の構成例を示す図である。復号装置５１は、分離部６１、復号部６２、および出力部６３から構成される。

分離部６１は、符号化装置１１から送信されてきた符号化ビットストリームを受信するとともに、符号化ビットストリームをビットアンパッキングして復号部６２に供給する。

復号部６２は、分離部６１から供給された符号化ビットストリーム、つまり各チャンネルのオーディオデータやスピーカ配置情報などを復号し、それらの復号により得られたオーディオデータを出力部６３に供給する。復号部６２は、必要に応じてオーディオデータのダウンミックスなども行なう。

出力部６３は、復号部６２から供給されたオーディオデータを、復号部６２により指示されたスピーカ配置（スピーカマッピング）に応じて出力する。出力部６３から出力された各チャンネルのオーディオデータは、各チャンネルのスピーカに供給されて再生される。

［復号処理の説明］
続いて、図２５のフローチャートを参照して、復号装置５１により行なわれる復号処理について説明する。

ステップＳ４１において、復号部６２は、オーディオデータを復号する。

すなわち、分離部６１は、符号化装置１１から送信されてきた符号化ビットストリームを受信するとともに、符号化ビットストリームをビットアンパッキングする。そして、分離部６１は、ビットアンパッキングにより得られたオーディオデータと、スピーカ配置情報などの各種の情報とを復号部６２に供給する。復号部６２は、分離部６１から供給されたオーディオデータを復号し、出力部６３に供給する。

ステップＳ４２において、復号部６２は、分離部６１から供給された情報から、同期ワードを検出する。具体的には、図４の「height_extension_element」から同期ワードが検出される。

ステップＳ４３において、復号部６２は同期ワードが検出されたか否かを判定する。ステップＳ４３において、同期ワードが検出されたと判定された場合、ステップＳ４４において、復号部６２はスピーカ配置情報を復号する。

すなわち、復号部６２は、図４に示した「height_extension_element」から、「front_element_height_info[i]」、「side_element_height_info[i]」、「back_element_height_info[i]」などの情報を読み込んでいく。これにより、各オーディオデータを、どの位置（チャンネル）のスピーカで再生すればよいかが分かる。

ステップＳ４５において、復号部６２は識別情報を生成する。すなわち、復号部６２は、「height_extension_element」の「PCE_HEIGHT_EXTENSION_SYNC」から「byte_alignment()」までの間に読み込まれた情報、つまり同期ワード、スピーカ配置情報、およびバイトアラインメントに基づいて、CRCチェックコードを算出し、識別情報とする。

ステップＳ４６において、復号部６２はステップＳ４５で生成した識別情報と、図４に示した「height_extension_element」の「height_info_crc_check」に含まれている識別情報とを比較して、それらの識別情報が一致したか否かを判定する。

ステップＳ４６において識別情報が一致したと判定された場合、復号部６２は、復号により得られたオーディオデータを出力部６３に供給するとともに、得られたスピーカ配置情報に基づいて、オーディオデータの出力を指示し、処理はステップＳ４７に進む。

ステップＳ４７において、出力部６３は、復号部６２から供給されたオーディオデータを、復号部６２により指示されたスピーカ配置（スピーカマッピング）に応じて出力し、復号処理は終了する。

これに対して、ステップＳ４３において同期ワードが検出されなかったと判定されたか、またはステップＳ４６において識別情報が一致しないと判定された場合、ステップＳ４８において、出力部６３は、予め定めたスピーカ配置でオーディオデータを出力する。

すなわち、ステップＳ４８の処理が行なわれるのは、「height_extension_element」から正しくスピーカ配置情報が読み出せなかった場合である。このような場合、復号部６２は、オーディオデータを出力部６３に供給するとともに、各チャンネルのオーディオデータが、予め定められた各チャンネルのスピーカで再生されるように、オーディオデータの出力を指示する。すると、出力部６３は、復号部６２の指示にしたがってオーディオデータを出力し、復号処理は終了する。

以上のようにして、復号装置５１は、符号化ビットストリームに含まれるオーディオデータやスピーカ配置情報を復号し、スピーカ配置情報に基づいてオーディオデータを出力する。スピーカ配置情報には、垂直方向のスピーカの配置に関する情報が含まれているので、平面だけでなく、垂直方向の音像再現が可能になり、より臨場感の高い音声再生が可能となる。

なお、より詳細には、オーディオデータの復号時には、必要に応じてオーディオデータのダウンミックスなどの処理も行なわれる。

この場合、例えば復号部６２は、図６に示した「MPEG4 ancillary data」における「ancillary_data_status()」内の「ancillary_data_extension_status」が「１」であれば、「MPEG4_ext_ancillary_data()」を読み込む。そして、復号部６２は、図１１に示した「MPEG4_ext_ancillary_data()」に含まれている各情報を読み込んで、オーディオデータのダウンミックスやゲイン補正を行なう。

例えば、復号部６２は、7.1チャンネルや6.1チャンネルのオーディオデータを、5.1チャンネルのオーディオデータにダウンミックスしたり、さらに5.1チャンネルのオーディオデータを2チャンネルのオーディオデータにダウンミックスしたりする。

また、このとき、復号部６２は必要に応じてLFEチャンネルのオーディオデータを、ダウンミックスに用いる。なお、各チャンネルに乗算される係数は、図１３に示した「ext_downmixing_levels()」や図１６に示した「ext_downmixing_lfe_level()」が参照されて定められる。さらに、ダウンミックス時のゲイン補正には、図１５に示した「ext_downmixing_global_gains()」が参照される。

［符号化装置の構成例］
次に、以上において説明した符号化装置と復号装置のより詳細な構成例と、それらの装置のより詳細な動作について説明する。

図２６は、符号化装置のより詳細な構成例を示す図である。

符号化装置９１は、入力部２１、符号化部２２、およびパッキング部２３から構成される。なお、図２６において、図２２における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

符号化部２２は、PCE符号化部１０１、DSE符号化部１０２、およびオーディオエレメント符号化部１０３を備えている。

PCE符号化部１０１は、入力部２１から供給された情報に基づいてPCEの符号化を行なう。すなわち、PCE符号化部１０１は、必要に応じて各情報の符号化を行いながら、PCEに格納される各情報を生成する。PCE符号化部１０１は、同期ワード符号化部１１１、配置情報符号化部１１２、および識別情報符号化部１１３を備えている。

同期ワード符号化部１１１は同期ワードを符号化し、符号化された同期ワードをPCEのコメント領域に含まれる拡張領域に格納される情報とする。配置情報符号化部１１２は、入力部２１から供給された、各オーディオデータについてのスピーカの高さ（レイヤ）を示すスピーカ配置情報を符号化し、コメント領域内の拡張領域に格納される情報とする。

識別情報符号化部１１３は、識別情報の符号化を行なう。例えば、識別情報符号化部１１３は、必要に応じて同期ワードおよびスピーカ配置情報に基づいて識別情報としてCRCチェックコードを生成し、コメント領域内の拡張領域に格納される情報とする。

DSE符号化部１０２は、入力部２１から供給された情報に基づいてDSEの符号化を行なう。すなわち、DSE符号化部１０２は、必要に応じて各情報の符号化を行いながら、DSEに格納される各情報を生成する。DSE符号化部１０２は、拡張情報符号化部１１４およびダウンミックス情報符号化部１１５を備えている。

拡張情報符号化部１１４は、DSEの拡張領域である「MPEG4_ext_ancillary_data()」に拡張情報が含まれているか否かを示す情報（フラグ）を符号化する。ダウンミックス情報符号化部１１５は、オーディオデータのダウンミックスに関する情報を符号化する。オーディオエレメント符号化部１０３は、入力部２１から供給されたオーディオデータを符号化する。

符号化部２２は、各種のデータの符号化により得られた、各エレメントに格納される情報をパッキング部２３に供給する。

［符号化処理の説明］
ここで、図２７のフローチャートを参照して、符号化装置９１により行なわれる符号化処理について説明する。なお、この符号化処理は、図２３のフローチャートを参照して説明した処理のより詳細な処理である。

ステップＳ７１において、入力部２１は、オーディオデータと、そのオーディオデータの符号化に必要な情報を取得して符号化部２２に供給する。

例えば、入力部２１は、オーディオデータとして各チャンネルのPCM（Pulse Code Modulation）データ、各チャンネルのスピーカ配置を示す情報、ダウンミックス係数を特定するための情報、および符号化ビットストリームのビットレートを示す情報を取得する。ここで、ダウンミックス係数を特定するための情報とは、7.1または6.1チャンネルから5.1チャンネルへのダウンミックス、および5.1チャンネルから2チャンネルへのダウンミックスを行なうときに各チャンネルのオーディオデータに乗算される係数を示す情報である。

また、入力部２１は、これから得ようとする符号化ビットストリームのファイル名を取得する。このファイル名は適宜、符号化側の装置で用いられる。

ステップＳ７２において、オーディオエレメント符号化部１０３は、入力部２１から供給されたオーディオデータを符号化し、SCE、CPE、およびLFEの各エレメントに格納されるデータとする。このとき、オーディオデータは、入力部２１から符号化部２２に供給されたビットレートと、オーディオデータ以外の他の情報の符号量とから定まるビットレートで符号化される。

また、例えばCチャンネルやCsチャンネルのオーディオデータが符号化され、SCEに格納されるデータとされ、LチャンネルやRチャンネルのオーディオデータが符号化され、CPEに格納されるデータとされる。さらに、LFEチャンネルのオーディオデータが符号化され、LFEに格納されるデータとされる。

ステップＳ７３において、同期ワード符号化部１１１は入力部２１から供給された情報に基づいて同期ワードを符号化し、符号化された同期ワードを図４に示した「height_extension_element」に含まれる「PCE_HEIGHT_EXTENSION_SYNC」に格納される情報とする。

ステップＳ７４において、配置情報符号化部１１２は、入力部２１から供給された、各オーディオデータのスピーカ配置情報を符号化する。

符号化されたスピーカ配置情報は、パッキング部２３において音源位置、つまりスピーカ配置に応じた順番で「height_extension_element」内に格納される。すなわち、ユーザからみて前方に配置されるスピーカで再生される各チャンネルのスピーカ高さ（音源の高さ）を示すスピーカ配置情報は、「front_element_height_info[i]」として「height_extension_element」内に格納される。

「front_element_height_info[i]」に続いて、ユーザからみて側方に配置されるスピーカで再生される各チャンネルのスピーカ高さを示すスピーカ配置情報が、「side_element_height_info[i]」として「height_extension_element」内に格納される。さらに、その後には、ユーザからみて後方に配置されるスピーカで再生される各チャンネルのスピーカ高さを示すスピーカ配置情報が、「back_element_height_info[i]」として「height_extension_element」内に格納される。

ステップＳ７５において、識別情報符号化部１１３は、識別情報の符号化を行なう。例えば、識別情報符号化部１１３は、必要に応じて同期ワードおよびスピーカ配置情報に基づいて識別情報としてCRCチェックコードを生成し、「height_extension_element」の「height_info_crc_check」に格納される情報とする。同期ワードとCRCチェックコードは、符号化ビットストリームにおけるスピーカ配置情報の有無を識別するための情報である。

また、識別情報符号化部１１３は、バイトアラインメントの実行を指示する情報を「height_extension_element」の「byte_alignment()」に格納される情報として生成する。さらに、識別情報符号化部１１３は、識別情報の照合を指示する情報を「height_extension_element」における「if(crc_cal()!=height_info_crc_check)」に格納される情報として生成する。

以上のステップＳ７３乃至ステップＳ７５の処理によって、PCEのコメント領域に含まれる拡張領域、つまり「height_extension_element」に格納すべき情報が生成される。

ステップＳ７６において、PCE符号化部１０１は、入力部２１から供給された情報や、これまでに生成された拡張領域の情報などに基づいてPCEの符号化を行なう。

例えば、PCE符号化部１０１は、前方、側方、および後方のそれぞれに配置されるスピーカで再生される各チャンネルの数や、各オーディオデータがC，L，Rなどのチャンネルのうちの何れのチャンネルのデータであるかを示す情報などを、PCEに格納される情報として生成する。

ステップＳ７７において、拡張情報符号化部１１４は、入力部２１から供給された情報に基づいて、DSEの拡張領域に拡張情報が含まれているか否かを示す情報を符号化し、図８の「ancillary_data_status()」の「ancillary_data_extension_status」に格納される情報とする。例えば、「ancillary_data_extension_status」には、拡張情報が含まれているか否かを示す情報、つまり拡張情報の有無を示す情報として「０」または「１」が格納される。

ステップＳ７８において、ダウンミックス情報符号化部１１５は、入力部２１から供給された情報に基づいて、オーディオデータのダウンミックスに関する情報を符号化する。

例えば、ダウンミックス情報符号化部１１５は、入力部２１から供給されたダウンミックス係数を特定するための情報の符号化を行なう。具体的には、ダウンミックス情報符号化部１１５は、5.1チャンネルから2チャンネルへのダウンミックスを行なうときに各チャンネルのオーディオデータに乗算される係数を示す情報を符号化し、図９の「downmixing_levels_MPEG4()」に格納される「center_mix_level_value」および「surround_mix_level_value」とする。

また、ダウンミックス情報符号化部１１５は、5.1チャンネルから2チャンネルへのダウンミックスを行なうときにLFEチャンネルのオーディオデータに乗算される係数を示す情報を符号化し、図１６の「ext_downmixing_lfe_level()」に格納される「dmix_lfe_idx」とする。同時に、ダウンミックス情報符号化部１１５は、入力部２１から供給された、2チャンネルへのダウンミックスの処理手順を示す情報を符号化し、図７の「bs_info()」に格納される「pseudo_surround_enable」とする。

さらに、ダウンミックス情報符号化部１１５は、7.1または6.1チャンネルから5.1チャンネルへのダウンミックスを行なうときに各チャンネルのオーディオデータに乗算される係数を示す情報を符号化し、図１３の「ext_downmixing_levels」に格納される「dmix_a_idx」および「dmix_b_idx」とする。

また、ダウンミックス情報符号化部１１５は、5.1チャンネルから2チャンネルへのダウンミックスでLFEチャンネルを用いるかを示す情報を符号化し、拡張領域である図１１の「ext_ancillary_data_status()」内にある、図１２の「ext_downmixing_lfe_level_status」に格納される情報とする。

さらに、ダウンミックス情報符号化部１１５は、ダウンミックス時のゲイン調整を行なうのに必要な情報を符号化して図１１の「MPEG4_ext_ancillary_data()」内の「ext_downmixing_global_gains」に格納される情報とする。

ステップＳ７９において、DSE符号化部１０２は、入力部２１から供給された情報や、これまでに生成されたダウンミックスに関する情報などに基づいてDSEの符号化を行なう。

以上の処理により、PCE、SCE、CPE、LFE、およびDSEの各エレメントに格納すべき情報が得られる。符号化部２２は、これらの各エレメントに格納すべき情報をパッキング部２３に供給する。また、符号化部２２は、必要に応じて「Header/Sideinfo」や「FIL(DRC)」、「FIL(END)」などのエレメントを生成し、パッキング部２３に供給する。

ステップＳ８０において、パッキング部２３は、符号化部２２から供給されたオーディオデータやスピーカ配置情報などをビットパッキングして図３の符号化ビットストリームを生成し、出力する。例えばパッキング部２３は、PCEやDSEに符号化部２２から供給された情報を格納することで、符号化ビットストリームを生成する。符号化ビットストリームが出力されると、符号化処理は終了する。

以上のようにして符号化装置９１は、スピーカ配置情報や、ダウンミックスに関する情報、拡張領域に拡張情報が含まれているかを示す情報などを符号化ビットストリームに含めて、符号化されたオーディオデータを出力する。このようにスピーカ配置情報や、ダウンミックスに関する情報などを符号化ビットストリームに格納することで、符号化ビットストリームの復号側では、より臨場感のある高品質な音声を得ることができるようになる。

例えば、符号化ビットストリームに垂直方向のスピーカ配置情報を格納することで、復号側では、平面だけでなく、垂直方向の音像再現が可能になり、より臨場感の高い音声再生が可能となる。

しかも、符号化ビットストリームには、コメント領域内の拡張領域に格納されている情報が、スピーカ配置情報であるか、他のコメント等のテキスト情報であるかを識別するために、スピーカ配置情報を識別する複数の識別情報（識別コード）が含まれている。ここでは、識別情報として、スピーカ配置情報の直前に配置される同期ワードと、スピーカ配置情報などの格納された情報内容により定まるCRCチェックコードとが符号化ビットストリームに含まれている。

これらの２つの識別情報を符号化ビットストリームに含めることで、符号化ビットストリームに含まれている情報がスピーカ配置情報であるかをより確実に特定することができるようになる。その結果、得られたスピーカ配置情報を用いて、より臨場感のある高品質な音声を得ることができる。

また、符号化ビットストリームには、オーディオデータのダウンミックスのための情報として、DSEに「pseudo_surround_enable」が含まれている。この情報によれば、5.1チャンネルから2チャンネルへのダウンミックス処理の方法として、複数の方法のうちの何れかを指定することが可能となるので、オーディオデータの復号側の自由度をより高めることができる。

具体的には、この実施の形態では、5.1チャンネルから2チャンネルへのダウンミックス処理の方法として、上述した式（１）を計算する方法と、式（２）を計算する方法がある。例えば、復号側において、ダウンミックスにより得られた2チャンネルのオーディオデータが、さらに再生装置に転送され、再生装置において2チャンネルのオーディオデータが、5.1チャンネルのオーディオデータへと変換されて再生されるとする。

そのような場合、式（１）による方法と式（２）による方法とでは、何れかの方法で得られたオーディオデータについては、最終的に得られる5.1チャンネルのオーディオデータを再生したときに予め想定した適切な音響効果が得られなくなってしまう可能性もある。

しかし、符号化装置９１で得られる符号化ビットストリームでは、復号側で想定した音響効果を得ることができるダウンミックス方法を「pseudo_surround_enable」により指定することができるので、復号側ではより臨場感のある高品質な音声を得ることができる。

さらに、符号化ビットストリームには、拡張情報が含まれているかを示す情報（フラグ）が「ancillary_data_extension_status」に格納されている。したがって、この情報を参照すれば、拡張領域である「MPEG4_ext_ancillary_data()」に拡張情報が含まれているかを特定することができる。

例えば、この例では拡張情報として、「ext_ancillary_data_status()」、「ext_downmixing_levels()」、「ext_downmixing_global_gains」、および「ext_downmixing_lfe_level()」が必要に応じて拡張領域に格納されている。

このような拡張情報を得ることができれば、より高い自由度でオーディオデータをダウンミックスすることができ、多様なオーディオデータを復号側で得ることができる。その結果、より臨場感のある高品質な音声を得ることができるようになる。

［復号装置の構成例］
続いて、復号装置のより詳細な構成について説明する。

図２８は、復号装置のより詳細な構成例を示す図である。なお、図２８において、図２４における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

復号装置１４１は、分離部６１、復号部６２、切替部１５１、ダウンミックス処理部１５２、および出力部６３から構成される。

分離部６１は、符号化装置９１から出力された符号化ビットストリームを受信してアンパッキングし、復号部６２に供給するとともに、ダウンミックス形式パラメータとオーディオデータのファイル名を取得する。

ここで、ダウンミックス形式パラメータは、復号装置１４１において、符号化ビットストリームに含まれているオーディオデータのダウンミックスの形式を示す情報である。例えば、ダウンミックス形式パラメータとして、7.1チャンネル若しくは6.1チャンネルから5.1チャンネルへのダウンミックスを行なう旨の情報、7.1チャンネル若しくは6.1チャンネルから2チャンネルへのダウンミックスを行なう旨の情報、5.1チャンネルから2チャンネルへのダウンミックスを行なう旨の情報、またはダウンミックスを行なわない旨の情報が含まれている。

分離部６１により取得されたダウンミックス形式パラメータは、切替部１５１およびダウンミックス処理部１５２に供給される。また、分離部６１により取得されたファイル名は、適宜、復号装置１４１において使用される。

復号部６２は、分離部６１から供給された符号化ビットストリームの復号を行なう。復号部６２は、PCE復号部１６１、DSE復号部１６２、およびオーディオエレメント復号部１６３から構成される。

PCE復号部１６１は、符号化ビットストリームに含まれるPCEを復号し、その結果得られた情報をダウンミックス処理部１５２および出力部６３に供給する。PCE復号部１６１には、同期ワード検出部１７１と識別情報算出部１７２が設けられている。

同期ワード検出部１７１は、PCEのコメント領域内にある拡張領域から同期ワードを検出し、同期ワードを読み出す。また、識別情報算出部１７２は、PCEのコメント領域内にある拡張領域から読み出された情報に基づいて識別情報を算出する。

DSE復号部１６２は、符号化ビットストリームに含まれるDSEを復号し、その結果得られた情報をダウンミックス処理部１５２に供給する。DSE復号部１６２には、拡張検出部１７３とダウンミックス情報復号部１７４が設けられている。

拡張検出部１７３は、DSEの「MPEG4_ancillary_data()」に、拡張情報が含まれているか否かを検出する。ダウンミックス情報復号部１７４は、DSEに含まれているダウンミックスに関する情報の復号を行なう。

オーディオエレメント復号部１６３は、符号化ビットストリームに含まれているオーディオデータを復号し、切替部１５１に供給する。

切替部１５１は、分離部６１から供給されたダウンミックス形式パラメータに基づいて、復号部６２から供給されたオーディオデータの出力先を、ダウンミックス処理部１５２または出力部６３の何れかに切り替える。

ダウンミックス処理部１５２は、分離部６１からのダウンミックス形式パラメータ、および復号部６２からの情報に基づいて、切替部１５１から供給されたオーディオデータをダウンミックスし、その結果得られたオーディオデータを出力部６３に供給する。

出力部６３は、復号部６２から供給された情報に基づいて、切替部１５１またはダウンミックス処理部１５２から供給されたオーディオデータを、出力する。出力部６３は、並び替え処理部１８１を備えている。並び替え処理部１８１は、PCE復号部１６１から供給された情報に基づいて、切替部１５１から供給されたオーディオデータを並び替えて、出力する。

［ダウンミックス処理部の構成例］
また、図２８のダウンミックス処理部１５２は、より詳細には図２９に示すように構成される。すなわち、ダウンミックス処理部１５２は、切替部２１１、切替部２１２、ダウンミックス部２１３−１乃至ダウンミックス部２１３−４、切替部２１４、ゲイン調整部２１５、切替部２１６、ダウンミックス部２１７−１、ダウンミックス部２１７−２、およびゲイン調整部２１８から構成される。

切替部２１１は、切替部１５１から供給されたオーディオデータを、切替部２１２または切替部２１６の何れかに供給する。例えば、オーディオデータの出力先は、オーディオデータが7.1チャンネルまたは6.1チャンネルのデータである場合、切替部２１２とされ、オーディオデータが5.1チャンネルのデータである場合、切替部２１６とされる。

切替部２１２は、切替部２１１から供給されたオーディオデータを、ダウンミックス部２１３−１乃至ダウンミックス部２１３−４の何れかに供給する。例えば、切替部２１２によるオーディオデータの出力先は、オーディオデータが6.1チャンネルのデータである場合、ダウンミックス部２１３−１とされる。

また、オーディオデータが、L，Lc，C，Rc，R，Ls，Rs，LFEの各チャンネルのデータである場合、切替部２１２は切替部２１１からのオーディオデータをダウンミックス部２１３−２に供給する。オーディオデータが、L，R，C，Ls，Rs，Lrs，Rrs，LFEの各チャンネルのデータである場合、切替部２１２は切替部２１１からのオーディオデータをダウンミックス部２１３−３に供給する。

さらに、オーディオデータが、L，R，C，Ls，Rs，Lvh，Rvh，LFEの各チャンネルのデータである場合、切替部２１２は切替部２１１からのオーディオデータをダウンミックス部２１３−４に供給する。

ダウンミックス部２１３−１乃至ダウンミックス部２１３−４は、切替部２１２から供給されたオーディオデータを5.1チャンネルのオーディオデータにダウンミックスし、切替部２１４に供給する。なお、以下、ダウンミックス部２１３−１乃至ダウンミックス部２１３−４を特に区別する必要のない場合、単にダウンミックス部２１３とも称する。

切替部２１４は、ダウンミックス部２１３から供給されたオーディオデータを、ゲイン調整部２１５または切替部２１６の何れかに供給する。例えば、符号化ビットストリームに含まれているオーディオデータが、5.1チャンネルにダウンミックスされる場合には、切替部２１４はゲイン調整部２１５にオーディオデータを供給する。これに対して、符号化ビットストリームに含まれているオーディオデータが、2チャンネルにダウンミックスされる場合には、切替部２１４は切替部２１６にオーディオデータを供給する。

ゲイン調整部２１５は、切替部２１４から供給されたオーディオデータのゲインを調整し、出力部６３に供給する。

切替部２１６は、切替部２１１または切替部２１４から供給されたオーディオデータを、ダウンミックス部２１７−１またはダウンミックス部２１７−２に供給する。例えば、符号化ビットストリームのDSEに含まれる「pseudo_surround_enable」の値に応じて、切替部２１６によるオーディオデータの出力先が切り替えられる。

ダウンミックス部２１７−１およびダウンミックス部２１７−２は、切替部２１６から供給されたオーディオデータを2チャンネルのデータにダウンミックスし、ゲイン調整部２１８に供給する。なお、以下、ダウンミックス部２１７−１およびダウンミックス部２１７−２を特に区別する必要のない場合、単にダウンミックス部２１７とも称する。

ゲイン調整部２１８は、ダウンミックス部２１７から供給されたオーディオデータのゲインを調整し、出力部６３に供給する。

［ダウンミックス部の構成例］
さらに、図２９のダウンミックス部２１３およびダウンミックス部２１７のより詳細な構成例について説明する。

図３０は、図２９のダウンミックス部２１３−１の構成例を示す図である。

ダウンミックス部２１３−１は、入力端子２４１−１乃至入力端子２４１−７、乗算部２４２乃至乗算部２４４、加算部２４５、加算部２４６、および出力端子２４７−１乃至出力端子２４７−６から構成される。

入力端子２４１−１乃至入力端子２４１−７には、それぞれ切替部２１２から、L，R，C，Ls，Rs，Cs，LFEの各チャンネルのオーディオデータが供給される。

入力端子２４１−１乃至入力端子２４１−３は、切替部２１２から供給されたオーディオデータを、出力端子２４７−１乃至出力端子２４７−３を介して、そのまま切替部２１４に供給する。すなわち、ダウンミックス部２１３−１に供給されたL，R，Cの各チャンネルのオーディオデータは、そのままダウンミックス後のL，R，Cの各チャンネルのオーディオデータとして後段に出力される。

入力端子２４１−４乃至入力端子２４１−６は、切替部２１２から供給されたオーディオデータを乗算部２４２乃至乗算部２４４に供給する。乗算部２４２は、入力端子２４１−４から供給されたオーディオデータに、ダウンミックスのための係数を乗算し、加算部２４５に供給する。

乗算部２４３は、入力端子２４１−５から供給されたオーディオデータに、ダウンミックスのための係数を乗算し、加算部２４６に供給する。乗算部２４４は、入力端子２４１−６から供給されたオーディオデータに、ダウンミックスのための係数を乗算し、加算部２４５および加算部２４６に供給する。

加算部２４５は、乗算部２４２から供給されたオーディオデータと、乗算部２４４から供給されたオーディオデータとを加算して、出力端子２４７−４に供給する。出力端子２４７−４は、加算部２４５から供給されたオーディオデータを、ダウンミックス後のLsチャンネルのオーディオデータとして切替部２１４に供給する。

加算部２４６は、乗算部２４３から供給されたオーディオデータと、乗算部２４４から供給されたオーディオデータとを加算して、出力端子２４７−５に供給する。出力端子２４７−５は、加算部２４６から供給されたオーディオデータを、ダウンミックス後のRsチャンネルのオーディオデータとして切替部２１４に供給する。

入力端子２４１−７は、切替部２１２から供給されたオーディオデータを、出力端子２４７−６を介して、そのまま切替部２１４に供給する。すなわち、ダウンミックス部２１３−１に供給されたLFEチャンネルのオーディオデータは、そのままダウンミックス後のLFEチャンネルのオーディオデータとして後段に出力される。

なお、以下、入力端子２４１−１乃至入力端子２４１−７を特に区別する必要のない場合、単に入力端子２４１とも称し、出力端子２４７−１乃至出力端子２４７−６を特に区別する必要のない場合、単に出力端子２４７とも称することとする。

このように、ダウンミックス部２１３−１では、上述した式（６）の計算に相当する処理が行なわれる。

図３１は、図２９のダウンミックス部２１３−２の構成例を示す図である。

ダウンミックス部２１３−２は、入力端子２７１−１乃至入力端子２７１−８、乗算部２７２乃至乗算部２７５、加算部２７６、加算部２７７、加算部２７８、および出力端子２７９−１乃至出力端子２７９−６から構成される。

入力端子２７１−１乃至入力端子２７１−８には、それぞれ切替部２１２から、L，Lc，C，Rc，R，Ls，Rs，LFEの各チャンネルのオーディオデータが供給される。

入力端子２７１−１乃至入力端子２７１−５は、切替部２１２から供給されたオーディオデータを、それぞれ加算部２７６、乗算部２７２および乗算部２７３、加算部２７７、乗算部２７４および乗算部２７５、並びに加算部２７８に供給する。

乗算部２７２および乗算部２７３は、入力端子２７１−２から供給されたオーディオデータに、ダウンミックスのための係数を乗算し、加算部２７６および加算部２７７に供給する。また、乗算部２７４および乗算部２７５は、入力端子２７１−４から供給されたオーディオデータに、ダウンミックスのための係数を乗算し、加算部２７７および加算部２７８に供給する。

加算部２７６は、入力端子２７１−１から供給されたオーディオデータと、乗算部２７２から供給されたオーディオデータとを加算して、出力端子２７９−１に供給する。出力端子２７９−１は、加算部２７６から供給されたオーディオデータを、ダウンミックス後のLチャンネルのオーディオデータとして切替部２１４に供給する。

加算部２７７は、入力端子２７１−３から供給されたオーディオデータ、乗算部２７３から供給されたオーディオデータ、および乗算部２７４から供給されたオーディオデータを加算して、出力端子２７９−２に供給する。出力端子２７９−２は、加算部２７７から供給されたオーディオデータを、ダウンミックス後のCチャンネルのオーディオデータとして切替部２１４に供給する。

加算部２７８は、入力端子２７１−５から供給されたオーディオデータと、乗算部２７５から供給されたオーディオデータとを加算して、出力端子２７９−３に供給する。出力端子２７９−３は、加算部２７８から供給されたオーディオデータを、ダウンミックス後のRチャンネルのオーディオデータとして切替部２１４に供給する。

入力端子２７１−６乃至入力端子２７１−８は、切替部２１２から供給されたオーディオデータを、出力端子２７９−４乃至出力端子２７９−６を介して、そのまま切替部２１４に供給する。すなわち、ダウンミックス部２１３−２に供給されたLs，Rs，LFEの各チャンネルのオーディオデータは、そのままダウンミックス後のLs，Rs，LFEの各チャンネルのオーディオデータとして後段に出力される。

なお、以下、入力端子２７１−１乃至入力端子２７１−８を特に区別する必要のない場合、単に入力端子２７１とも称し、出力端子２７９−１乃至出力端子２７９−６を特に区別する必要のない場合、単に出力端子２７９とも称することとする。

このように、ダウンミックス部２１３−２では、上述した式（４）の計算に相当する処理が行なわれる。

さらに、図３２は、図２９のダウンミックス部２１３−３の構成例を示す図である。

ダウンミックス部２１３−３は、入力端子３０１−１乃至入力端子３０１−８、乗算部３０２乃至乗算部３０５、加算部３０６、加算部３０７、および出力端子３０８−１乃至出力端子３０８−６から構成される。

入力端子３０１−１乃至入力端子３０１−８には、それぞれ切替部２１２から、L，R，C，Ls，Rs，Lrs，Rrs，LFEの各チャンネルのオーディオデータが供給される。

入力端子３０１−１乃至入力端子３０１−３は、切替部２１２から供給されたオーディオデータを、出力端子３０８−１乃至出力端子３０８−３を介して、そのまま切替部２１４に供給する。すなわち、ダウンミックス部２１３−３に供給されたL，R，Cの各チャンネルのオーディオデータは、そのままダウンミックス後のL，R，Cの各チャンネルのオーディオデータとして後段に出力される。

入力端子３０１−４乃至入力端子３０１−７は、切替部２１２から供給されたオーディオデータを乗算部３０２乃至乗算部３０５に供給する。乗算部３０２乃至乗算部３０５は、入力端子３０１−４乃至入力端子３０１−７から供給されたオーディオデータに、ダウンミックスのための係数を乗算し、加算部３０６、加算部３０７、加算部３０６、および加算部３０７に供給する。

加算部３０６は、乗算部３０２から供給されたオーディオデータと、乗算部３０４から供給されたオーディオデータとを加算して、出力端子３０８−４に供給する。出力端子３０８−４は、加算部３０６から供給されたオーディオデータを、ダウンミックス後のLsチャンネルのオーディオデータとして切替部２１４に供給する。

加算部３０７は、乗算部３０３から供給されたオーディオデータと、乗算部３０５から供給されたオーディオデータとを加算して、出力端子３０８−５に供給する。出力端子３０８−５は、加算部３０７から供給されたオーディオデータを、ダウンミックス後のRsチャンネルのオーディオデータとして切替部２１４に供給する。

入力端子３０１−８は、切替部２１２から供給されたオーディオデータを、出力端子３０８−６を介して、そのまま切替部２１４に供給する。すなわち、ダウンミックス部２１３−３に供給されたLFEチャンネルのオーディオデータは、そのままダウンミックス後のLFEチャンネルのオーディオデータとして後段に出力される。

なお、以下、入力端子３０１−１乃至入力端子３０１−８を特に区別する必要のない場合、単に入力端子３０１とも称し、出力端子３０８−１乃至出力端子３０８−６を特に区別する必要のない場合、単に出力端子３０８とも称することとする。

このように、ダウンミックス部２１３−３では、上述した式（３）の計算に相当する処理が行なわれる。

図３３は、図２９のダウンミックス部２１３−４の構成例を示す図である。

ダウンミックス部２１３−４は、入力端子３３１−１乃至入力端子３３１−８、乗算部３３２乃至乗算部３３５、加算部３３６、加算部３３７、および出力端子３３８−１乃至出力端子３３８−６から構成される。

入力端子３３１−１乃至入力端子３３１−８には、それぞれ切替部２１２から、L，R，C，Ls，Rs，Lvh，Rvh，LFEの各チャンネルのオーディオデータが供給される。

入力端子３３１−１および入力端子３３１−２は、切替部２１２から供給されたオーディオデータを、それぞれ乗算部３３２および乗算部３３３に供給する。また、入力端子３３１−６および入力端子３３１−７は、切替部２１２から供給されたオーディオデータを、それぞれ乗算部３３４および乗算部３３５に供給する。

乗算部３３２乃至乗算部３３５は、入力端子３３１−１、入力端子３３１−２、入力端子３３１−６、および入力端子３３１−７から供給されたオーディオデータに、ダウンミックスのための係数を乗算し、加算部３３６、加算部３３７、加算部３３６、および加算部３３７に供給する。

加算部３３６は、乗算部３３２から供給されたオーディオデータと、乗算部３３４から供給されたオーディオデータとを加算して、出力端子３３８−１に供給する。出力端子３３８−１は、加算部３３６から供給されたオーディオデータを、ダウンミックス後のLチャンネルのオーディオデータとして切替部２１４に供給する。

加算部３３７は、乗算部３３３から供給されたオーディオデータと、乗算部３３５から供給されたオーディオデータとを加算して、出力端子３３８−２に供給する。出力端子３３８−２は、加算部３３７から供給されたオーディオデータを、ダウンミックス後のRチャンネルのオーディオデータとして切替部２１４に供給する。

入力端子３３１−３乃至入力端子３３１−５、および入力端子３３１−８は、切替部２１２から供給されたオーディオデータを、出力端子３３８−３乃至出力端子３３８−５、および出力端子３３８−６を介して、そのまま切替部２１４に供給する。すなわち、ダウンミックス部２１３−４に供給されたC，Ls，Rs，LFEの各チャンネルのオーディオデータは、そのままダウンミックス後のC，Ls，Rs，LFEの各チャンネルのオーディオデータとして後段に出力される。

なお、以下、入力端子３３１−１乃至入力端子３３１−８を特に区別する必要のない場合、単に入力端子３３１とも称し、出力端子３３８−１乃至出力端子３３８−６を特に区別する必要のない場合、単に出力端子３３８とも称することとする。

このように、ダウンミックス部２１３−４では、上述した式（５）の計算に相当する処理が行なわれる。

続いて、図２９のダウンミックス部２１７のより詳細な構成例について説明する。

図３４は、図２９のダウンミックス部２１７−１の構成例を示す図である。

ダウンミックス部２１７−１は、入力端子３６１−１乃至入力端子３６１−６、乗算部３６２乃至乗算部３６５、加算部３６６乃至加算部３７１、出力端子３７２−１、および出力端子３７２−２から構成される。

入力端子３６１−１乃至入力端子３６１−６には、それぞれ切替部２１６から、L，R，C，Ls，Rs，LFEの各チャンネルのオーディオデータが供給される。

入力端子３６１−１乃至入力端子３６１−６は、それぞれ切替部２１６から供給されたオーディオデータを、加算部３６６、加算部３６９、および乗算部３６２乃至乗算部３６５に供給する。

乗算部３６２乃至乗算部３６５は、入力端子３６１−３乃至入力端子３６１−６から供給されたオーディオデータに、ダウンミックスのための係数を乗算し、加算部３６６および加算部３６９、加算部３６７、加算部３７０、並びに加算部３６８および加算部３７１に供給する。

加算部３６６は、入力端子３６１−１から供給されたオーディオデータと、乗算部３６２から供給されたオーディオデータとを加算して、加算部３６７に供給する。加算部３６７は、加算部３６６から供給されたオーディオデータと、乗算部３６３から供給されたオーディオデータとを加算して、加算部３６８に供給する。

加算部３６８は、加算部３６７から供給されたオーディオデータと、乗算部３６５から供給されたオーディオデータとを加算して、出力端子３７２−１に供給する。出力端子３７２−１は、加算部３６８から供給されたオーディオデータを、ダウンミックス後のLチャンネルのオーディオデータとしてゲイン調整部２１８に供給する。

加算部３６９は、入力端子３６１−２から供給されたオーディオデータと、乗算部３６２から供給されたオーディオデータとを加算して、加算部３７０に供給する。加算部３７０は、加算部３６９から供給されたオーディオデータと、乗算部３６４から供給されたオーディオデータとを加算して、加算部３７１に供給する。

加算部３７１は、加算部３７０から供給されたオーディオデータと、乗算部３６５から供給されたオーディオデータとを加算して、出力端子３７２−２に供給する。出力端子３７２−２は、加算部３７１から供給されたオーディオデータを、ダウンミックス後のRチャンネルのオーディオデータとしてゲイン調整部２１８に供給する。

なお、以下、入力端子３６１−１乃至入力端子３６１−６を特に区別する必要のない場合、単に入力端子３６１とも称し、出力端子３７２−１および出力端子３７２−２を特に区別する必要のない場合、単に出力端子３７２とも称することとする。

このように、ダウンミックス部２１７−１では、上述した式（１）の計算に相当する処理が行なわれる。

また、図３５は、図２９のダウンミックス部２１７−２の構成例を示す図である。

ダウンミックス部２１７−２は、入力端子４０１−１乃至入力端子４０１−６、乗算部４０２乃至乗算部４０５、加算部４０６、減算部４０７、減算部４０８、加算部４０９乃至加算部４１３、出力端子４１４−１、および出力端子４１４−２から構成される。

入力端子４０１−１乃至入力端子４０１−６には、それぞれ切替部２１６から、L，R，C，Ls，Rs，LFEの各チャンネルのオーディオデータが供給される。

入力端子４０１−１乃至入力端子４０１−６は、それぞれ切替部２１６から供給されたオーディオデータを、加算部４０６、加算部４１０、および乗算部４０２乃至乗算部４０５に供給する。

乗算部４０２乃至乗算部４０５は、入力端子４０１−３乃至入力端子４０１−６から供給されたオーディオデータに、ダウンミックスのための係数を乗算し、加算部４０６および加算部４１０、減算部４０７および加算部４１１、減算部４０８および加算部４１２、並びに加算部４０９および加算部４１３に供給する。

加算部４０６は、入力端子４０１−１から供給されたオーディオデータと、乗算部４０２から供給されたオーディオデータとを加算して、減算部４０７に供給する。減算部４０７は、加算部４０６から供給されたオーディオデータから、乗算部４０３から供給されたオーディオデータを減算して、減算部４０８に供給する。

減算部４０８は、減算部４０７から供給されたオーディオデータから、乗算部４０４から供給されたオーディオデータを減算して、加算部４０９に供給する。加算部４０９は、減算部４０８から供給されたオーディオデータと、乗算部４０５から供給されたオーディオデータとを加算して、出力端子４１４−１に供給する。出力端子４１４−１は、加算部４０９から供給されたオーディオデータを、ダウンミックス後のLチャンネルのオーディオデータとしてゲイン調整部２１８に供給する。

加算部４１０は、入力端子４０１−２から供給されたオーディオデータと、乗算部４０２から供給されたオーディオデータとを加算して、加算部４１１に供給する。加算部４１１は、加算部４１０から供給されたオーディオデータと、乗算部４０３から供給されたオーディオデータとを加算して、加算部４１２に供給する。

加算部４１２は、加算部４１１から供給されたオーディオデータと、乗算部４０４から供給されたオーディオデータとを加算して、加算部４１３に供給する。加算部４１３は、加算部４１２から供給されたオーディオデータと、乗算部４０５から供給されたオーディオデータとを加算して、出力端子４１４−２に供給する。出力端子４１４−２は、加算部４１３から供給されたオーディオデータを、ダウンミックス後のRチャンネルのオーディオデータとしてゲイン調整部２１８に供給する。

なお、以下、入力端子４０１−１乃至入力端子４０１−６を特に区別する必要のない場合、単に入力端子４０１とも称し、出力端子４１４−１および出力端子４１４−２を特に区別する必要のない場合、単に出力端子４１４とも称することとする。

このように、ダウンミックス部２１７−２では、上述した式（２）の計算に相当する処理が行なわれる。

［復号処理の説明］
次に、図３６のフローチャートを参照して、復号装置１４１により行なわれる復号処理について説明する。

ステップＳ１１１において、分離部６１は、符号化装置９１から出力された符号化ビットストリームと、ダウンミックス形式パラメータを取得する。例えば、ダウンミックス形式パラメータは、復号装置が設けられている情報処理装置から取得される。

また、分離部６１は、取得したダウンミックス形式パラメータを切替部１５１およびダウンミックス処理部１５２に供給するとともに、必要に応じてオーディオデータの出力ファイル名を取得して適宜使用する。

ステップＳ１１２において、分離部６１は、符号化ビットストリームをアンパッキングし、その結果得られた各エレメントを復号部６２に供給する。

ステップＳ１１３において、PCE復号部１６１は、分離部６１から供給されたPCEを復号する。例えばPCE復号部１６１は、PCEのコメント領域から拡張領域である「height_extension_element」を読み出したり、PCEからスピーカ配置に関する情報を読み出したりする。ここで、スピーカ配置に関する情報として、例えばユーザの前方、側方、および後方のそれぞれに配置されるスピーカで再生される各チャンネルの数や、各オーディオデータがC，L，Rなどの何れのチャンネルのデータであるかを示す情報が読み出される。

ステップＳ１１４において、DSE復号部１６２は、分離部６１から供給されたDSEを復号する。例えばDSE復号部１６２は、DSEから「MPEG4 ancillary data」を読み出したり、さらに「MPEG4 ancillary data」から必要な情報を読み出したりする。

具体的には、例えば、DSE復号部１６２のダウンミックス情報復号部１７４は、図９に示した「downmixing_levels_MPEG4()」から、ダウンミックスに用いる係数を特定する情報として「center_mix_level_value」や「surround_mix_level_value」を読み出して、ダウンミックス処理部１５２に供給する。

ステップＳ１１５において、オーディオエレメント復号部１６３は、分離部６１から供給されたSCE、CPE、およびLFEの各エレメントに格納されているオーディオデータの復号を行なう。これにより、各チャンネルのPCMデータがオーディオデータとして得られる。

復号されたオーディオデータのチャンネル、つまり水平面上の配置位置などは、そのオーディオデータが格納されていたSCEなどのエレメントや、DSEの復号により得られたスピーカ配置に関する情報によって、特定することができる。但し、この時点では、スピーカ配置の高さに関する情報であるスピーカ配置情報が読み出されていないので、各チャンネルの高さ（レイヤ）については特定されていない状態となっている。

オーディオエレメント復号部１６３は、復号により得られたオーディオデータを切替部１５１に供給する。

ステップＳ１１６において、切替部１５１は、分離部６１から供給されたダウンミックス形式パラメータに基づいて、オーディオデータのダウンミックスを行なうか否かを判定する。例えばダウンミックス形式パラメータが、ダウンミックスを行なわないことを示している場合、ダウンミックスを行なわないと判定される。

ステップＳ１１６において、ダウンミックスを行なわないと判定された場合、切替部１５１は、復号部６２から供給されたオーディオデータを並び替え処理部１８１に供給し、処理はステップＳ１１７に進む。

ステップＳ１１７において、復号装置１４１は並び替え処理を行なって、各オーディオデータをスピーカ配置にしたがって並び替え、出力する。そして、オーディオデータが出力されると、復号処理は終了する。なお、並び替え処理の詳細は後述する。

これに対して、ステップＳ１１６においてダウンミックスを行なうと判定された場合、切替部１５１は、復号部６２から供給されたオーディオデータをダウンミックス処理部１５２の切替部２１１に供給し、処理はステップＳ１１８に進む。

ステップＳ１１８において、復号装置１４１はダウンミックス処理を行なって、各オーディオデータを、ダウンミックス形式パラメータにより示されるチャンネル数のオーディオデータにダウンミックスし、出力する。そして、オーディオデータが出力されると、復号処理は終了する。なお、ダウンミックス処理の詳細は後述する。

以上のようにして、復号装置１４１は符号化ビットストリームを復号し、オーディオデータを出力する。

［並び替え処理の説明］
続いて、図３７および図３８のフローチャートを参照して、図３６のステップＳ１１７の処理に対応する並び替え処理について説明する。

ステップＳ１４１において、同期ワード検出部１７１は、PCEのコメント領域（拡張領域）から同期ワードを読み出すためのパラメータcmt_byteを、cmt_byte＝PCEのコメント領域のバイト数とする。すなわち、パラメータcmt_byteの値としてコメント領域のバイト数がセットされる。

ステップＳ１４２において、同期ワード検出部１７１はPCEのコメント領域から、予め定められた同期ワードのデータ量分だけデータの読み出しを行なう。例えば図４の例では、同期ワードである「PCE_HEIGHT_EXTENSION_SYNC」は8ビット、つまり1バイトであるので、PCEのコメント領域の先頭から1バイト分のデータが読み出される。

ステップＳ１４３において、PCE復号部１６１は、ステップＳ１４２で読み出したデータが同期ワードと一致したか否かを判定する。つまり、読み出されたデータが同期ワードであるか否かが判定される。

ステップＳ１４３において、同期ワードと一致しないと判定された場合、ステップＳ１４４において、同期ワード検出部１７１は、パラメータcmt_byteの値を、読み出したデータ量分だけ減少させる。この場合、パラメータcmt_byteの値が1バイトだけ減少する。

ステップＳ１４５において、同期ワード検出部１７１は、パラメータcmt_byte＞0であるか否かを判定する。すなわち、パラメータcmt_byteが0よりも大きいか否か、換言すればコメント領域のデータが全て読み出されたか否かが判定される。

ステップＳ１４５においてパラメータcmt_byte＞0であると判定された場合、まだコメント領域から全てのデータが読み出されていないので、処理はステップＳ１４２に戻り、上述した処理が繰り返される。すなわち、コメント領域のこれまで読み出されたデータに続く、同期ワードのデータ量分のデータが読み出され、同期ワードとの照合が行なわれる。

これに対して、ステップＳ１４５において、パラメータcmt_byte＞0でないと判定された場合、処理はステップＳ１４６へと進む。このようにステップＳ１４６へと処理が進むのは、コメント領域の全てのデータが読み出されたが、コメント領域からは同期ワードが検出されなかった場合である。

ステップＳ１４６において、PCE復号部１６１は、スピーカ配置情報はないとして、その旨の情報を並び替え処理部１８１に供給し、処理はステップＳ１６４へと進む。このように、「height_extension_element」において、同期ワードをスピーカ配置情報の直前に配置することで、コメント領域に含まれる情報が、スピーカ配置情報であるか否かをより簡単かつ確実に特定することができるようになる。

また、ステップＳ１４３において、コメント領域から読み出したデータが同期ワードと一致したと判定された場合、同期ワードが検出されたので、同期ワードの直後に続くスピーカ配置情報を読み出すために、処理はステップＳ１４７に進む。

ステップＳ１４７において、PCE復号部１６１は、ユーザから見て前方に配置されるスピーカで再生されるオーディオデータのスピーカ配置情報を読み出すためのパラメータnum_fr_elemの値を、前方に属すエレメント数とする。

ここで、前方に属すエレメント数とは、ユーザの前方に配置されるスピーカで再生されるオーディオデータの数（チャンネル数）であり、このエレメント数はPCEに格納されている。したがって、パラメータnum_fr_elemの値は、「height_extension_element」から読み出されるべき、前方に配置されたスピーカで再生されるオーディオデータのスピーカ配置情報の数となる。

ステップＳ１４８において、PCE復号部１６１はパラメータnum_fr_elem＞0であるか否かを判定する。

ステップＳ１４８において、パラメータnum_fr_elemが0より大きいと判定された場合、まだ読み出すべきスピーカ配置情報があるので、処理はステップＳ１４９へと進む。

ステップＳ１４９において、PCE復号部１６１は、コメント領域の同期ワードに続いて配置されている、１エレメント分のスピーカ配置情報を読み出す。図４の例では、１つのスピーカ配置情報は2ビットとなっているので、コメント領域のこれまで読み出されたデータの直後に配置されている2ビットのデータが、１つのスピーカ配置情報として読み出される。

なお、「height_extension_element」におけるスピーカ配置情報の配置位置や、オーディオデータがSCE等のどのエレメントに格納されているかなどから、各スピーカ配置情報がどのオーディオデータについての情報であるかが特定できるようになされている。

ステップＳ１５０において、PCE復号部１６１は、スピーカ配置情報を１つ読み出したので、パラメータnum_fr_elemの値を１デクリメントする。パラメータnum_fr_elemが更新されると、その後、処理はステップＳ１４８に戻り、上述した処理が繰り返される。すなわち、次のスピーカ配置情報が読み出される。

また、ステップＳ１４８において、パラメータnum_fr_elem＞0でないと判定された場合、前方のエレメントのスピーカ配置情報は全て読み出されたので、処理はステップＳ１５１に進む。

ステップＳ１５１において、PCE復号部１６１は、ユーザから見て側方に配置されるスピーカで再生されるオーディオデータのスピーカ配置情報を読み出すためのパラメータnum_side_elemの値を、側方に属すエレメント数とする。

ここで、側方に属すエレメント数とは、ユーザ側方に配置されるスピーカで再生されるオーディオデータの数であり、このエレメント数はPCEに格納されている。

ステップＳ１５２において、PCE復号部１６１はパラメータnum_side_elem＞0であるか否かを判定する。

ステップＳ１５２において、パラメータnum_side_elemが0より大きいと判定された場合、ステップＳ１５３において、PCE復号部１６１は、コメント領域のこれまで読み出したデータに続いて配置されている、１エレメント分のスピーカ配置情報を読み出す。ステップＳ１５３で読み出されたスピーカ配置情報は、ユーザ側方のチャンネルのスピーカ配置情報、つまり「side_element_height_info[i]」である。

ステップＳ１５４において、PCE復号部１６１は、パラメータnum_side_elemの値を１デクリメントする。パラメータnum_side_elemが更新されると、その後、処理はステップＳ１５２に戻り、上述した処理が繰り返される。

また、ステップＳ１５２において、パラメータnum_side_elem＞0でないと判定された場合、側方のエレメントのスピーカ配置情報は全て読み出されたので、処理はステップＳ１５５に進む。

ステップＳ１５５において、PCE復号部１６１は、ユーザから見て後方に配置されるスピーカで再生されるオーディオデータのスピーカ配置情報を読み出すためのパラメータnum_back_elemの値を、後方に属すエレメント数とする。

ここで、後方に属すエレメント数とは、ユーザ後方に配置されるスピーカで再生されるオーディオデータの数であり、このエレメント数はPCEに格納されている。

ステップＳ１５６において、PCE復号部１６１はパラメータnum_back_elem＞0であるか否かを判定する。

ステップＳ１５６において、パラメータnum_back_elemが0より大きいと判定された場合、ステップＳ１５７において、PCE復号部１６１は、コメント領域のこれまで読み出したデータに続いて配置されている、１エレメント分のスピーカ配置情報を読み出す。ステップＳ１５７で読み出されたスピーカ配置情報は、ユーザ後方のチャンネルのスピーカ配置情報、つまり「back_element_height_info[i]」である。

ステップＳ１５８において、PCE復号部１６１は、パラメータnum_back_elemの値を１デクリメントする。パラメータnum_back_elemが更新されると、その後、処理はステップＳ１５６に戻り、上述した処理が繰り返される。

また、ステップＳ１５６において、パラメータnum_back_elem＞0でないと判定された場合、後方のエレメントのスピーカ配置情報は全て読み出されたので、処理はステップＳ１５９に進む。

ステップＳ１５９において、識別情報算出部１７２は、バイトアラインメントを行なう。

例えば、図４の「height_extension_element」では、スピーカ配置情報に続いて、バイトアラインメントの実行を指示する情報「byte_alignment()」が格納されているので、識別情報算出部１７２は、この情報を読み出すと、バイトアラインメントを実行する。

具体的には、識別情報算出部１７２は「height_extension_element」における「PCE_HEIGHT_EXTENSION_SYNC」から「byte_alignment()」の直前までの間に読み込まれた情報のデータ量が、8ビットの整数倍のデータ量となるように、それらの情報の直後に所定のデータを付加する。つまり、読み出された同期ワード、スピーカ配置情報、および付加されたデータの合計のデータ量が8ビットの整数倍となるように、バイトアラインメントが行なわれる。

この例では、オーディオデータのチャンネル数、つまり符号化ビットストリームに含まれるスピーカ配置情報の数は、予め定められた所定範囲内の数となる。そのため、バイトアラインメントにより得られたデータ、つまり同期ワード、スピーカ配置情報、および付加されたデータからなる１つのデータ（以下、アラインメントデータとも称する）が必ず所定のデータ量のデータとなるようになされている。

換言すれば、アラインメントデータのデータ量が、「height_extension_element」に含まれているスピーカ配置情報の数、つまりオーディオデータのチャンネル数によらず、必ず所定のデータ量となるようになっている。そのため、PCE復号部１６１は、アラインメントデータが生成された時点で、アラインメントデータが所定のデータ量となっていない場合には、これまでに読み出したスピーカ配置情報は、正しいスピーカ配置情報ではない、つまり無効であるとする。

ステップＳ１６０において、識別情報算出部１７２は、「height_extension_element」において、ステップＳ１５９で読み出した「byte_alignment()」に続く識別情報、すなわち「height_info_crc_check」に格納されている情報を読み出す。ここでは、例えば識別情報としてCRCチェックコードが読み出される。

ステップＳ１６１において、識別情報算出部１７２は、ステップＳ１５９で求めたアラインメントデータに基づいて識別情報を算出する。例えば、識別情報としてCRCチェックコードが算出される。

ステップＳ１６２において、PCE復号部１６１は、ステップＳ１６０で読み出した識別情報と、ステップＳ１６１で算出した識別情報とが一致するか否かを判定する。

なお、PCE復号部１６１は、アラインメントデータが所定のデータ量となっていない場合には、ステップＳ１６０およびステップＳ１６１の処理を行なわずに、ステップＳ１６２において、識別情報が一致しないと判定する。

ステップＳ１６２において、識別情報が一致しないと判定された場合、ステップＳ１６３において、PCE復号部１６１は、読み出したスピーカ配置情報を無効とし、その旨の情報を並び替え処理部１８１およびダウンミックス処理部１５２に供給する。そして、その後、処理はステップＳ１６４へと進む。

ステップＳ１６３の処理が行なわれるか、またはステップＳ１４６の処理が行なわれると、ステップＳ１６４において、並び替え処理部１８１は、予め定めたスピーカ配置で、切替部１５１から供給されたオーディオデータを出力する。

このとき、例えば並び替え処理部１８１は、PCE復号部１６１から供給された、PCEから読み出されたスピーカ配置に関する情報などに基づいて、各オーディオデータのスピーカ配置を定める。なお、スピーカ配置を定める際に並び替え処理部１８１が利用する情報の参照先は、オーディオデータを利用するサービスやアプリケーションに依存し、オーディオデータのチャンネル数等に応じて事前に定められているものとする。

ステップＳ１６４の処理が行なわれると並び替え処理は終了し、これにより図３６のステップＳ１１７の処理も終了するので、復号処理は終了する。

一方、ステップＳ１６２において、識別情報が一致したと判定された場合、ステップＳ１６５において、PCE復号部１６１は、読み出したスピーカ配置情報を有効とし、スピーカ配置情報を並び替え処理部１８１およびダウンミックス処理部１５２に供給する。また、このとき、PCE復号部１６１は、PCEから読み出されたスピーカ配置に関する情報も並び替え処理部１８１およびダウンミックス処理部１５２に供給する。

ステップＳ１６６において、並び替え処理部１８１は、PCE復号部１６１から供給されたスピーカ配置情報などから定まるスピーカ配置で、切替部１５１から供給されたオーディオデータを出力する。すなわち、各チャンネルのオーディオデータが、スピーカ配置情報などにより定まる順番に並び替えられて、後段に出力される。ステップＳ１６６の処理が行なわれると並び替え処理は終了し、これにより図３６のステップＳ１１７の処理も終了するので、復号処理は終了する。

以上のようにして、復号装置１４１は、PCEのコメント領域から同期ワードやCRCチェックコードの照合を行なってスピーカ配置情報を読み出して、スピーカ配置情報に応じた配置で、復号されたオーディオデータを出力する。

このように、スピーカ配置情報を読み出してスピーカ配置（音源位置）を定めることで、垂直方向の音像再現が可能となり、より臨場感のある高品質な音声を得ることができる。

また、同期ワードとCRCチェックコードを用いてスピーカ配置情報を読み出すことで、他のテキスト情報などが格納されている可能性のあるコメント領域から、より確実にスピーカ配置情報を読み出すことができる。つまり、スピーカ配置情報とその他の情報とをより確実に識別することができる。

特に、復号装置１４１では、同期ワードの一致、CRCチェックコードの一致、およびアラインメントデータのデータ量の一致という３つの要素によりスピーカ配置情報と他の情報との識別が行なわれるので、スピーカ配置情報の誤検出を抑制することができる。このようにスピーカ配置情報の誤検出を抑制することで、正しいスピーカ配置でオーディオデータを再生することができるようになり、より臨場感のある高品質な音声を得ることができる。

［ダウンミックス処理の説明］
さらに、図３９のフローチャートを参照して、図３６のステップＳ１１８の処理に対応するダウンミックス処理について説明する。この場合、切替部１５１からダウンミックス処理部１５２の切替部２１１に各チャンネルのオーディオデータが供給される。

ステップＳ１９１において、DSE復号部１６２の拡張検出部１７３は、DSEの「MPEG4_ancillary_data()」内にある「ancillary_data_status()」から「ancillary_data_extension_status」を読み出す。

ステップＳ１９２において、拡張検出部１７３は、読み出した「ancillary_data_extension_status」が1であるか否かを判定する。

ステップＳ１９２において、「ancillary_data_extension_status」が1でない場合、つまり0であると判定された場合、ステップＳ１９３において、ダウンミックス処理部１５２は、予め定められた方法により、オーディオデータのダウンミックスを行なう。

例えばダウンミックス処理部１５２は、ダウンミックス情報復号部１７４から供給された「center_mix_level_value」や「surround_mix_level_value」により定まる係数を用いて、切替部１５１からのオーディオデータをダウンミックスし、出力部６３に供給する。

なお、「ancillary_data_extension_status」が0である場合、どのようにしてダウンミックス処理が行なわれるようにしてもよい。

ステップＳ１９４において、出力部６３は、ダウンミックス処理部１５２から供給されたオーディオデータを、そのまま後段に出力し、ダウンミックス処理は終了する。これにより、図３６のステップＳ１１８の処理が終了するので、復号処理も終了する。

これに対して、ステップＳ１９２において、「ancillary_data_extension_status」が1であると判定された場合、処理はステップＳ１９５へと進む。

ステップＳ１９５において、ダウンミックス情報復号部１７４は、図１１に示した「MPEG4_ext_ancillary_data()」の「ext_downmixing_levels()」内の情報を読み出して、ダウンミックス処理部１５２に供給する。これにより、例えば図１３の「dmix_a_idx」および「dmix_b_idx」が読み出される。

なお、「MPEG4_ext_ancillary_data()」に含まれている、図１２に示した「ext_downmixing_levels_status」が0である場合には、「dmix_a_idx」および「dmix_b_idx」の読み出しは行なわれない。

ステップＳ１９６において、ダウンミックス情報復号部１７４は、「MPEG4_ext_ancillary_data()」の「ext_downmixing_global_gains()」内の情報を読み出して、ダウンミックス処理部１５２に供給する。これにより、例えば図１５に示した情報、つまり「dmx_gain_5_sign」、「dmx_gain_5_idx」、「dmx_gain_2_sign」、および「dmx_gain_2_idx」が読み出される。

なお、これらの情報の読み出しは、「MPEG4_ext_ancillary_data()」に含まれている、図１２に示した「ext_downmixing_global_gains_status」が0である場合には行なわれない。

ステップＳ１９７において、ダウンミックス情報復号部１７４は、「MPEG4_ext_ancillary_data()」の「ext_downmixing_lfe_level()」内の情報を読み出して、ダウンミックス処理部１５２に供給する。これにより、例えば図１６に示した「dmix_lfe_idx」が読み出される。

なお、より詳細には、ダウンミックス情報復号部１７４は、図１２に示した「ext_downmixing_lfe_level_status」を読み出し、「ext_downmixing_lfe_level_status」の値に応じて「dmix_lfe_idx」の読み出しを行なう。

すなわち、「dmix_lfe_idx」の読み出しは、「MPEG4_ext_ancillary_data()」に含まれている、「ext_downmixing_lfe_level_status」が0である場合には行なわれない。この場合、以下において説明するオーディオデータの5.1チャンネルから2チャンネルへのダウンミックスにおいて、LFEチャンネルのオーディオデータは用いられない。つまり、LFEチャンネルのオーディオデータに乗算される係数は0とされる。

ステップＳ１９８において、ダウンミックス情報復号部１７４は、図７に示した「MPEG4 ancillary data」の「bs_info()」から、「pseudo_surround_enable」内に格納されている情報を読み出してダウンミックス処理部１５２に供給する。

ステップＳ１９９において、ダウンミックス処理部１５２は、分離部６１から供給されたダウンミックス形式パラメータに基づいて、オーディオデータは2チャンネルの出力であるか否かを判定する。

例えば、ダウンミックス形式パラメータが、7.1チャンネル若しくは6.1チャンネルから2チャンネルへのダウンミックス、または5.1チャンネルから2チャンネルへのダウンミックスを行なうことを示している場合、2チャンネルの出力であると判定される。

ステップＳ１９９において、2チャンネルの出力であると判定された場合、処理はステップＳ２００に進む。この場合、切替部２１４の出力先は、切替部２１６へと切り替えられる。

ステップＳ２００において、ダウンミックス処理部１５２は、分離部６１からのダウンミックス形式パラメータに基づいて、オーディオデータの入力は5.1チャンネルであるか否かを判定する。例えば、ダウンミックス形式パラメータが、5.1チャンネルから2チャンネルへのダウンミックスを行なうことを示している場合、入力は5.1チャンネルであると判定される。

ステップＳ２００において、入力は5.1チャンネルではないと判定された場合、処理はステップＳ２０１へと進み、7.1チャンネルまたは6.1チャンネルから2チャンネルへのダウンミックスが行なわれる。

この場合、切替部２１１は、切替部１５１から供給されたオーディオデータを、切替部２１２に供給する。また、切替部２１２は、PCE復号部１６１から供給されたスピーカ配置に関する情報に基づいて、切替部２１１から供給されたオーディオデータを、ダウンミックス部２１３−１乃至ダウンミックス部２１３−４の何れかに供給する。例えば、オーディオデータが、6.1チャンネルのデータである場合には、各チャンネルのオーディオデータは、ダウンミックス部２１３−１に供給される。

ステップＳ２０１において、ダウンミックス部２１３は、ダウンミックス情報復号部１７４から供給された、「ext_downmixing_levels()」から読み出された「dmix_a_idx」および「dmix_b_idx」に基づいて、5.1チャンネルへのダウンミックス処理を行なう。

例えば、オーディオデータがダウンミックス部２１３−１に供給された場合、ダウンミックス部２１３−１は、図１９に示したテーブルを参照して、「dmix_a_idx」および「dmix_b_idx」の値に対して定まる定数を、それぞれ定数ｇ１およびｇ２とする。そして、ダウンミックス部２１３−１は定数ｇ１およびｇ２を、それぞれ乗算部２４２と乗算部２４３、および乗算部２４４において用いられる係数とすることで、式（６）の演算を行い、5.1チャンネルのオーディオデータを生成し、切替部２１４に供給する。

同様に、オーディオデータがダウンミックス部２１３−２に供給された場合、ダウンミックス部２１３−２は、「dmix_a_idx」および「dmix_b_idx」の値に対して定まる定数を、それぞれ定数ｅ１およびｅ２とする。そして、ダウンミックス部２１３−２は定数ｅ１およびｅ２を、それぞれ乗算部２７３と乗算部２７４、および乗算部２７２と乗算部２７５において用いられる係数とすることで式（４）の演算を行い、得られた5.1チャンネルのオーディオデータを切替部２１４に供給する。

また、オーディオデータがダウンミックス部２１３−３に供給された場合、ダウンミックス部２１３−３は、「dmix_a_idx」および「dmix_b_idx」の値に対して定まる定数を、それぞれ定数ｄ１およびｄ２とする。そして、ダウンミックス部２１３−３は定数ｄ１およびｄ２を、それぞれ乗算部３０２と乗算部３０３、および乗算部３０４と乗算部３０５において用いられる係数とすることで式（３）の演算を行い、得られたオーディオデータを切替部２１４に供給する。

さらに、オーディオデータがダウンミックス部２１３−４に供給された場合、ダウンミックス部２１３−４は、「dmix_a_idx」および「dmix_b_idx」の値に対して定まる定数を、それぞれ定数ｆ１およびｆ２とする。そして、ダウンミックス部２１３−４は定数ｆ１およびｆ２を、それぞれ乗算部３３２と乗算部３３３、および乗算部３３４と乗算部３３５において用いられる係数とすることで式（５）の演算を行い、得られたオーディオデータを切替部２１４に供給する。

5.1チャンネルのオーディオデータが切替部２１４に供給されると、切替部２１４は、ダウンミックス部２１３からのオーディオデータを、切替部２１６に供給する。さらに、切替部２１６は、ダウンミックス情報復号部１７４から供給された「pseudo_surround_enable」の値に応じて、切替部２１４からのオーディオデータを、ダウンミックス部２１７−１またはダウンミックス部２１７−２に供給する。

例えば、「pseudo_surround_enable」の値が0である場合、オーディオデータはダウンミックス部２１７−１に供給され、「pseudo_surround_enable」の値が1である場合、オーディオデータはダウンミックス部２１７−２に供給される。

ステップＳ２０２において、ダウンミックス部２１７は、ダウンミックス情報復号部１７４から供給されたダウンミックスに関する情報に基づいて、切替部２１６から供給されたオーディオデータの2チャンネルへのダウンミックス処理を行なう。すなわち、「downmixing_levels_MPEG4()」内の情報と、「ext_ downmixing_lfe_level()」内の情報とに基づいて、2チャンネルへのダウンミックス処理が行なわれる。

例えば、オーディオデータがダウンミックス部２１７−１に供給された場合、ダウンミックス部２１７−１は、図１９のテーブルを参照し、「center_mix_level_value」および「surround_mix_level_value」の値に対して定まる定数を、それぞれ定数ａおよびｂとする。また、ダウンミックス部２１７−１は、図１８に示したテーブルを参照して、「dmix_lfe_idx」の値に対して定まる定数を定数ｃとする。

そしてダウンミックス部２１７−１は定数ａ、ｂ、およびｃを乗算部３６３と乗算部３６４、乗算部３６２、および乗算部３６５で用いられる係数とすることで式（１）の演算を行い、得られた2チャンネルのオーディオデータをゲイン調整部２１８に供給する。

また、オーディオデータがダウンミックス部２１７−２に供給された場合、ダウンミックス部２１７−２は、ダウンミックス部２１７−１における場合と同様にして定数ａ、ｂ、およびｃを定める。そしてダウンミックス部２１７−２は定数ａ、ｂ、およびｃを乗算部４０３と乗算部４０４、乗算部４０２、および乗算部４０５で用いられる係数とすることで式（２）の演算を行い、得られたオーディオデータをゲイン調整部２１８に供給する。

ステップＳ２０３において、ゲイン調整部２１８は、ダウンミックス情報復号部１７４から供給された、「ext_downmixing_global_gains()」から読み出された情報に基づいて、ダウンミックス部２１７からのオーディオデータのゲイン調整を行なう。

具体的には、ゲイン調整部２１８は「ext_downmixing_global_gains()」から読み出された「dmx_gain_5_sign」、「dmx_gain_5_idx」、「dmx_gain_2_sign」、および「dmx_gain_2_idx」に基づいて式（１１）を計算し、ゲイン値dmx_gain_7to2を算出する。そして、ゲイン調整部２１８は、各チャンネルのオーディオデータにゲイン値dmx_gain_7to2を乗算し、出力部６３に供給する。

ステップＳ２０４において、出力部６３は、ゲイン調整部２１８から供給されたオーディオデータをそのまま後段に出力し、ダウンミックス処理は終了する。これにより、図３６のステップＳ１１８の処理が終了するので、復号処理も終了する。

なお、出力部６３からオーディオデータが出力される場合には、並び替え処理部１８１からオーディオデータが出力される場合と、ダウンミックス処理部１５２からのオーディオデータがそのまま出力される場合とがある。出力部６３の後段では、これらのオーディオデータの２通りの出力のうちの何れを用いるかを予め定めておくことができる。

また、ステップＳ２００において、入力が5.1チャンネルであると判定された場合、処理はステップＳ２０５へと進み、5.1チャンネルから2チャンネルへのダウンミックスが行なわれる。

この場合、切替部２１１は、切替部１５１から供給されたオーディオデータを、切替部２１６に供給する。また、切替部２１６は、ダウンミックス情報復号部１７４から供給された「pseudo_surround_enable」の値に応じて、切替部２１１からのオーディオデータを、ダウンミックス部２１７−１またはダウンミックス部２１７−２に供給する。

ステップＳ２０５において、ダウンミックス部２１７は、ダウンミックス情報復号部１７４から供給されたダウンミックスに関する情報に基づいて、切替部２１６から供給されたオーディオデータの2チャンネルへのダウンミックス処理を行なう。なお、ステップＳ２０５では、ステップＳ２０２と同様の処理が行なわれる。

ステップＳ２０６において、ゲイン調整部２１８は、ダウンミックス情報復号部１７４から供給された、「ext_downmixing_global_gains()」から読み出された情報に基づいて、ダウンミックス部２１７からのオーディオデータのゲイン調整を行なう。

具体的には、ゲイン調整部２１８は「ext_downmixing_global_gains()」から読み出された「dmx_gain_2_sign」および「dmx_gain_2_idx」に基づいて式（９）を計算し、その結果得られたオーディオデータを出力部６３に供給する。

ステップＳ２０７において、出力部６３は、ゲイン調整部２１８から供給されたオーディオデータをそのまま後段に出力し、ダウンミックス処理は終了する。これにより、図３６のステップＳ１１８の処理が終了するので、復号処理も終了する。

さらに、ステップＳ１９９において、2チャンネルの出力でない、つまり5.1チャンネルの出力であると判定された場合、処理はステップＳ２０８へと進み、7.1チャンネルまたは6.1チャンネルから5.1チャンネルへのダウンミックスが行なわれる。

この場合、切替部２１１は、切替部１５１から供給されたオーディオデータを、切替部２１２に供給する。また、切替部２１２は、PCE復号部１６１から供給されたスピーカ配置に関する情報に基づいて、切替部２１１から供給されたオーディオデータを、ダウンミックス部２１３−１乃至ダウンミックス部２１３−４の何れかに供給する。さらに、切替部２１４の出力先は、ゲイン調整部２１５とされる。

ステップＳ２０８において、ダウンミックス部２１３は、ダウンミックス情報復号部１７４から供給された、「ext_downmixing_levels()」から読み出された「dmix_a_idx」および「dmix_b_idx」に基づいて、5.1チャンネルへのダウンミックス処理を行なう。なお、ステップＳ２０８では、ステップＳ２０１と同様の処理が行なわれる。

5.1チャンネルへのダウンミックス処理が行なわれて、オーディオデータがダウンミックス部２１３から切替部２１４へと供給されると、切替部２１４は、供給されたオーディオデータを、ゲイン調整部２１５に供給する。

ステップＳ２０９において、ゲイン調整部２１５は、ダウンミックス情報復号部１７４から供給された、「ext_downmixing_global_gains()」から読み出された情報に基づいて、切替部２１４からのオーディオデータのゲイン調整を行なう。

具体的には、ゲイン調整部２１５は「ext_downmixing_global_gains()」から読み出された「dmx_gain_5_sign」および「dmx_gain_5_idx」に基づいて式（７）を計算し、その結果得られたオーディオデータを出力部６３に供給する。

ステップＳ２１０において、出力部６３は、ゲイン調整部２１５から供給されたオーディオデータをそのまま後段に出力し、ダウンミックス処理は終了する。これにより、図３６のステップＳ１１８の処理が終了するので、復号処理も終了する。

以上のようにして、復号装置１４１は、符号化ビットストリームから読み出した情報に基づいて、オーディオデータのダウンミックスを行なう。

例えば、符号化ビットストリームでは、DSEに「pseudo_surround_enable」が含まれているので、複数の方法のうち、オーディオデータに最適な方法で5.1チャンネルから2チャンネルへのダウンミックス処理を行なうことができる。これにより、復号側において、より臨場感のある高品質な音声を得ることができるようになる。

また、符号化ビットストリームには、拡張情報が含まれているかを示す情報が「ancillary_data_extension_status」に格納されている。したがって、この情報を参照すれば、拡張領域に拡張情報が含まれているかを特定することができる。このような拡張情報を得ることができれば、より高い自由度でオーディオデータをダウンミックスすることができるので、より臨場感のある高品質な音声を得ることができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図４０は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

［１］
符号化ビットストリームに含まれているオーディオデータを復号する復号部と、
前記符号化ビットストリームに含まれる拡張情報の有無を示す情報を、前記符号化ビットストリームから読み出すとともに、読み出した前記情報に応じて前記拡張情報を読み出す読み出し部と、
前記拡張情報に基づいて、復号された前記オーディオデータに対する処理を実行する処理部と
を備える復号装置。
［２］
前記拡張情報は、ダウンミックスに関する情報であり、
前記処理部は、前記拡張情報に基づいて、復号された複数チャンネルの前記オーディオデータをダウンミックスする
［１］に記載の復号装置。
［３］
前記処理部は、前記拡張情報に基づいてダウンミックスされた前記オーディオデータを、前記符号化ビットストリームに含まれる前記拡張情報とは異なる情報に基づいて、さらにダウンミックスする
［２］に記載の復号装置。
［４］
前記拡張情報は、前記オーディオデータのダウンミックスに用いる係数を得るための情報である
［２］または［３］に記載の復号装置。
［５］
前記拡張情報は、ダウンミックスされた前記オーディオデータのゲイン調整に用いるゲイン値を得るための情報であり、
前記処理部は、前記ゲイン値に基づいて、ダウンミックスされた前記オーディオデータのゲイン調整を行なう
［２］乃至［４］の何れかに記載の復号装置。
［６］
前記拡張情報は、特定チャンネルの前記オーディオデータをダウンミックスに用いるか否かを示す情報である
［２］乃至［５］の何れかに記載の復号装置。
［７］
符号化ビットストリームに含まれているオーディオデータを復号し、
前記符号化ビットストリームに含まれる拡張情報の有無を示す情報を、前記符号化ビットストリームから読み出すとともに、読み出した前記情報に応じて前記拡張情報を読み出し、
前記拡張情報に基づいて、復号された前記オーディオデータに対する処理を実行する
ステップを含む復号方法。
［８］
符号化ビットストリームに含まれているオーディオデータを復号し、
前記符号化ビットストリームに含まれる拡張情報の有無を示す情報を、前記符号化ビットストリームから読み出すとともに、読み出した前記情報に応じて前記拡張情報を読み出し、
前記拡張情報に基づいて、復号された前記オーディオデータに対する処理を実行する
ステップを含む処理をコンピュータに実行させるプログラム。
［９］
オーディオデータ、拡張情報の有無を示す情報、および前記拡張情報を符号化する符号化部と、
符号化された前記オーディオデータ、前記拡張情報の有無を示す情報、および前記拡張情報を所定の領域に格納して符号化ビットストリームを生成するパッキング部と
を備える符号化装置。
［１０］
前記拡張情報は、ダウンミックスに関する情報であり、前記拡張情報に基づいて、復号された複数チャンネルの前記オーディオデータがダウンミックスされる
［９］に記載の符号化装置。
［１１］
前記拡張情報に基づいてダウンミックスされた前記オーディオデータが、前記符号化ビットストリームに含まれる前記拡張情報とは異なる情報に基づいて、さらにダウンミックスされる
［１０］に記載の符号化装置。
［１２］
前記拡張情報は、前記オーディオデータのダウンミックスに用いる係数を得るための情報である
［１０］または［１１］に記載の符号化装置。
［１３］
前記拡張情報は、ダウンミックスされた前記オーディオデータのゲイン調整に用いるゲイン値を得るための情報であり、前記ゲイン値に基づいて、ダウンミックスされた前記オーディオデータのゲイン調整が行なわれる
［１０］乃至［１２］の何れかに記載の符号化装置。
［１４］
前記拡張情報は、特定チャンネルの前記オーディオデータをダウンミックスに用いるか否かを示す情報である
［１０］乃至［１３］の何れかに記載の符号化装置。
［１５］
オーディオデータ、拡張情報の有無を示す情報、および前記拡張情報を符号化し、
符号化された前記オーディオデータ、前記拡張情報の有無を示す情報、および前記拡張情報を所定の領域に格納して符号化ビットストリームを生成する
ステップを含む符号化方法。
［１６］
オーディオデータ、拡張情報の有無を示す情報、および前記拡張情報を符号化し、
符号化された前記オーディオデータ、前記拡張情報の有無を示す情報、および前記拡張情報を所定の領域に格納して符号化ビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。

１１符号化装置，２１入力部，２２符号化部，２３パッキング部，５１復号装置，６１分離部，６２復号部，６３出力部，９１符号化装置，１０１ PCE符号化部，１０２ DSE符号化部，１０３オーディオエレメント符号化部，１１１同期ワード符号化部，１１２配置情報符号化部，１１３識別情報符号化部，１１４拡張情報符号化部，１１５ダウンミックス情報符号化部，１４１復号装置，１５２ダウンミックス処理部，１６１ PCE復号部，１６２ DSE復号部，１６３オーディオエレメント復号部，１７１同期ワード検出部，１７２識別情報算出部，１７３拡張検出部，１７４ダウンミックス情報復号部，１８１並び替え処理部

Claims

テレビジョン受像機であって、
符号化ビットストリームに含まれているオーディオデータを復号する復号部と、
前記符号化ビットストリームに含まれる拡張情報に基づいて、復号された前記オーディオデータを5.1chのオーディオデータとしてダウンミックスする第１ダウンミックスの処理を行い、前記第１ダウンミックスにより得られた前記5.1chのオーディオデータをさらに2chのオーディオデータにダウンミックスする第２ダウンミックスの処理を行う処理部と
を備えるテレビジョン受像機。
前記拡張情報は、前記第１ダウンミックスに関する情報である
請求項１に記載のテレビジョン受像機。
前記処理部は、前記拡張情報とは異なる情報であって前記符号化ビットストリームに含まれる情報に基づいて、前記第２ダウンミックスの処理を行なう
請求項１または請求項２に記載のテレビジョン受像機。
前記拡張情報は、前記オーディオデータの前記第１ダウンミックスに用いる係数を得るための情報である
請求項１乃至請求項３の何れか一項に記載のテレビジョン受像機。
前記拡張情報には、前記第２ダウンミックスによりダウンミックスされた前記オーディオデータのゲイン調整に用いるゲイン値を得るための情報が含まれており、
前記処理部は、前記ゲイン値に基づいて、前記第２ダウンミックスによりダウンミックスされた前記オーディオデータのゲイン調整を行なう
請求項１乃至請求項４の何れか一項に記載のテレビジョン受像機。
前記拡張情報には、特定チャンネルの前記オーディオデータを前記第２ダウンミックスに用いるか否かを示す情報が含まれている
請求項１乃至請求項５の何れか一項に記載のテレビジョン受像機。
テレビジョン受像機が、
符号化ビットストリームに含まれているオーディオデータを復号し、
前記符号化ビットストリームに含まれる拡張情報に基づいて、復号された前記オーディオデータを5.1chのオーディオデータとしてダウンミックスする第１ダウンミックスの処理を行い、前記第１ダウンミックスにより得られた前記5.1chのオーディオデータをさらに2chのオーディオデータにダウンミックスする第２ダウンミックスの処理を行う
信号処理方法。
テレビジョン受像機を制御するコンピュータに、
符号化ビットストリームに含まれているオーディオデータを復号し、
前記符号化ビットストリームに含まれる拡張情報に基づいて、復号された前記オーディオデータを5.1chのオーディオデータとしてダウンミックスする第１ダウンミックスの処理を行い、前記第１ダウンミックスにより得られた前記5.1chのオーディオデータをさらに2chのオーディオデータにダウンミックスする第２ダウンミックスの処理を行う
ステップを含む処理を実行させるプログラム。