JP6520937B2

JP6520937B2 - オーディオ信号処理装置および方法、符号化装置および方法、並びにプログラム

Info

Publication number: JP6520937B2
Application number: JP2016525768A
Authority: JP
Inventors: 光行畠中; 徹知念; 辻　実; 実辻; 本間　弘幸; 弘幸本間
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-06-06
Filing date: 2015-05-22
Publication date: 2019-05-29
Anticipated expiration: 2035-05-22
Also published as: CN106465028A; US10621994B2; CN106465028B; WO2015186535A1; EP3154279A4; US20170194009A1; JPWO2015186535A1; KR20170017873A; EP3154279A1

Description

本技術はオーディオ信号処理装置および方法、符号化装置および方法、並びにプログラムに関し、特に、より高品質な音声を得ることができるようにしたオーディオ信号処理装置および方法、符号化装置および方法、並びにプログラムに関する。

従来、マルチチャンネルデータのオーディオ再生において、実際の再生環境が元のコンテンツが必要とする再生環境と同等以上ではない場合には、一般的にダウンミックス処理によって、より少ないチャンネル構成のオーディオ信号への変換が行われ、再生される方法が用いられている（例えば、非特許文献１参照）。

ISO/IEC 14496-3:2009/AMD 4:2013 Information technology-Coding of audio-visual objects-Part 3: Audio

そうしたマルチチャンネルデータには、主に人の声からなる音声であるダイアログ音声など、他の背景音に対して支配的で、かつ重要な意味を持つチャンネルが含まれる場合があるが、ダウンミックス処理によりダイアログ音声のチャンネルの信号はダウンミックス後のいくつかのチャンネルに分散される。また、ダウンミックス処理における複数チャンネルの信号の加算に起因するクリップを抑制するためのゲイン抑制補正により、加算前の各チャンネルの信号のゲインが小さくなってしまう。

これらの原因により、ダウンミックス処理後のダイアログ音声の音像定位がはっきりしなくなったり、ダイアログ音声の再生音量も小さくなったりして、結果としてダイアログ音声が聞き取りづらくなってしまう。

以上のように、上述した技術ではマルチチャンネルデータのオーディオ再生時にダウンミックス処理を行うと、ダイアログ音声が聞き取りづらくなり、再生音声の品質が低下してしまう。

本技術は、このような状況に鑑みてなされたものであり、より高品質な音声を得ることができるようにするものである。

本技術の第１の側面のオーディオ信号処理装置は、マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択する選択部と、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を１または複数のチャンネルのオーディオ信号にダウンミックスするダウンミックス部と、前記ダウンミックスにより得られた１または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する加算部とを備える。

前記加算部には、前記ダイアログ音声のチャンネルのオーディオ信号の加算先を示す加算先情報により指定されたチャンネルを前記所定のチャンネルとして、前記ダイアログ音声のチャンネルのオーディオ信号の加算を行わせることができる。

前記ダイアログ音声のチャンネルのオーディオ信号の前記所定のチャンネルのオーディオ信号への加算時のゲインを示すゲイン情報に基づいて、前記ダイアログ音声のチャンネルのオーディオ信号をゲイン補正するゲイン補正部をさらに設け、前記加算部には、前記ゲイン補正部によりゲイン補正されたオーディオ信号を、前記所定のチャンネルのオーディオ信号に加算させることができる。

オーディオ信号処理装置には、ビットストリームから前記各チャンネルに関する情報、前記加算先情報、および前記ゲイン情報を抽出する抽出部をさらに設けることができる。

前記抽出部には、前記ビットストリームから符号化された前記マルチチャンネルのオーディオ信号をさらに抽出させ、前記符号化された前記マルチチャンネルのオーディオ信号を復号して前記選択部に出力する復号部をさらに設けることができる。

前記ダウンミックス部には、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号に対して多段階のダウンミックスを行わせ、前記加算部には、前記多段階のダウンミックスにより得られた前記１または複数のチャンネルのオーディオ信号のうちの前記所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算させることができる。

本技術の第１の側面のオーディオ信号処理方法またはプログラムは、マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を１または複数のチャンネルのオーディオ信号にダウンミックスし、前記ダウンミックスにより得られた１または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算するステップを含む。

本技術の第１の側面においては、マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とが選択され、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号が１または複数のチャンネルのオーディオ信号にダウンミックスされ、前記ダウンミックスにより得られた１または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号が加算される。

本技術の第２の側面の符号化装置は、マルチチャンネルのオーディオ信号を符号化する符号化部と、前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成する生成部と、符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成するパッキング部とを備える。

前記生成部には、前記マルチチャンネルのオーディオ信号がダウンミックスされた場合に、前記ダウンミックスにより得られる１または複数のチャンネルのオーディオ信号のうちの、前記ダイアログ音声のチャンネルのオーディオ信号の加算先となるオーディオ信号のチャンネルを示す加算先情報をさらに生成させ、前記パッキング部には、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、および前記加算先情報を含む前記ビットストリームを生成させることができる。

前記生成部には、前記ダイアログ音声のチャンネルのオーディオ信号の前記加算先情報により示されるチャンネルへの加算時のゲイン情報をさらに生成させ、前記パッキング部には、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、前記加算先情報、および前記ゲイン情報を含む前記ビットストリームを生成させることができる。

本技術の第２の側面の符号化方法またはプログラムは、マルチチャンネルのオーディオ信号を符号化し、前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成するステップを含む。

本技術の第２の側面においては、マルチチャンネルのオーディオ信号が符号化され、前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報が生成され、符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームが生成される。

本技術の第１の側面および第２の側面によれば、より高品質な音声を得ることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。

ビットストリームについて説明する図である。ダイアログチャンネル情報について説明する図である。各チャンネルのマッピングについて説明する図である。ゲイン係数について説明する図である。エンコーダの構成例を示す図である。ダイアログチャンネル情報の符号化について説明する図である。符号化処理を説明するフローチャートである。デコーダの構成例を示す図である。ダウンミックス処理部の構成例を示す図である。ダウンミックス処理部のより具体的な構成例を示す図である。復号処理を説明するフローチャートである。ダウンミックス処理を説明するフローチャートである。ダウンミックス処理部のより具体的な構成例を示す図である。コンピュータの構成例を示す図である。

以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術の概要について〉
本技術は、マルチチャンネルのオーディオ信号においてダイアログ音声が含まれるチャンネルのオーディオ信号はダウンミックス処理の対象とせずに別途指定したチャンネルから出力することで、ダイアログ音声が聞き取りづらくなることを防止し、より高品質な音声を得ることができるようにするものである。また、本技術によれば、複数のダイアログ音声が含まれるマルチチャンネルのオーディオ信号において、複数のダイアログ音声のチャンネルを識別することで、選択的にダイアログ音声を再生することができる。

なお、ここではダウンミックス処理の対象外とするチャンネルがダイアログ音声のチャンネルである場合を例として説明するが、ダイアログ音声に限らず、背景音等に対して支配的で、重要な意味を持つ他の音声のチャンネルがダウンミックスの対象外とされ、ダウンミックス後の所定のチャンネルに加算されてもよい。また、以下では、マルチチャンネルのオーディオ信号がAAC（Advanced Audio Coding）規格に従って符号化される場合について説明するが、他の方式で符号化される場合にも同様の処理が行なわれる。

例えば、マルチチャンネルのオーディオ信号がAAC規格に従って符号化され、伝送される場合、各チャンネルのオーディオ信号がフレームごとに符号化されて伝送される。

具体的には図１に示すように、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント（ビットストリームエレメント）に格納され、それらのエレメントからなるビットストリームが伝送されることになる。

この例では、１フレーム分のビットストリームには、先頭から順番にｎ個のエレメントＥＬ１乃至エレメントＥＬｎが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子ＴＥＲＭが配置されている。

例えば、先頭に配置されたエレメントＥＬ１は、DSE（Data Stream Element）と呼ばれるアンシラリデータ領域であり、DSEにはオーディオ信号のダウンミックスに関する情報や、ダイアログ音声に関する情報であるダイアログチャンネル情報など、複数の各チャンネルに関する情報が記述される。

エレメントＥＬ１の後に続くエレメントＥＬ２乃至エレメントＥＬｎには、符号化されたオーディオ信号が格納される。特に、シングルチャンネルのオーディオ信号が格納されているエレメントはSCEと呼ばれており、ペアとなる２つのチャンネルのオーディオ信号が格納されているエレメントはCPEと呼ばれている。

本技術では、マルチチャンネルのオーディオ信号がダウンミックスされる場合、ダイアログ音声のチャンネルのオーディオ信号はダウンミックスの対象外とされる。そこで、本技術では、ビットストリームの受信側において簡単にダイアログ音声のチャンネルを特定することができるように、ダイアログチャンネル情報が生成されてDSEに格納される。

このようなダイアログチャンネル情報のシンタックスは、例えば図２に示すものとされる。

図２において「ext_diag_status」は、このext_diag_status以下において、ダイアログ音声に関する情報が存在するか否かを示すフラグである。具体的にはext_diag_statusの値が「１」である場合、ダイアログ音声に関する情報が存在し、ext_diag_statusの値が「０」である場合には、ダイアログ音声に関する情報は存在しない。ext_diag_statusの値が「０」である場合には、ext_diag_status以下には「0000000」がセットされる。

また、「get_main_audio_chans()」は、ビットストリームに含まれるオーディオチャンネル数を取得するための補助関数であり、この補助関数を用いた演算により得られるチャンネル数分の情報がget_main_audio_chans()以下に格納されている。

但し、get_main_audio_chans()による演算では、LFEチャンネルを除くチャンネル数、つまりメインオーディオチャンネルの数が演算結果として得られるようになされている。これは、ダイアログチャンネル情報にはLFEチャンネルに関する情報が格納されないからである。

「init_data(chans)」は、オーディオ信号の再生側において、すなわちビットストリームの復号側において引数で指定されたチャンネル数「chans」分のダイアログ音声チャンネルに関する各種のパラメータを初期化させるための補助関数である。具体的には、補助関数の演算により「diag_tag_idx[i]」、「num_of_dest_chans5[i]」、「diag_dest5[i][j-1]」、「diag_mix_gain5[i][j-1]」、「num_of_dest_chans2[i]」、「diag_dest2[i][j-1]」、「diag_mix_gain2[i][j-1]」、「num_of_dest_chans1[i]」、および「diag_mix_gain1[i]」の合計９個の情報の値が０とされる。

「ceil(log(chans+1)/log(2))」は、引数で与えられた小数値よりも大きい、最も小さい整数値を出力として返す補助関数であり、この補助関数によりダイアログ音声のチャンネルの属性、つまり後述するdiag_tag_idx[i]を表現するのに何ビット必要であるかが計算される。

「diag_present_flag[i]」は、ビットストリームに含まれる複数のチャンネルのうちのインデックスｉ（但し0≦ｉ≦chans-1）で示されるチャンネル、つまりチャンネル番号ｉのチャンネルがダイアログ音声のチャンネルであるか否かを示す識別情報である。

具体的にはdiag_present_flag[i]の値が「１」である場合、チャンネル番号ｉのチャンネルがダイアログ音声のチャンネルであることを示しており、diag_present_flag[i]の値が「０」である場合、チャンネル番号ｉのチャンネルはダイアログ音声のチャンネルではないことを示している。なお、この例ではget_main_audio_chans()により得られたチャンネル数分だけ、diag_present_flag[i]を持つものとなっているが、ダイアログ音声のチャンネルの数の情報と、それらのダイアログ音声のチャンネルの数の分の各ダイアログ音声のチャンネルが対応するスピーカマッピングを示す識別情報とを伝送するという方法が用いられてもよい。

また、オーディオチャンネルのスピーカマッピング、つまり各チャンネル番号ｉがどのスピーカに対応するチャンネルとされるかのマッピングは、例えば図３に示すように符号化モードごとに定義されたものが用いられる。

図３では図中、左側の欄は符号化モード、つまりスピーカシステムが何チャンネルの構成となっているかを示しており、図中、右側の欄は対応する符号化モードの各チャンネルに対して付されたチャンネル番号を示している。

なお、図３で示されるチャンネル番号とスピーカに対応するチャンネルとのマッピングは、ビットストリームに格納されているマルチチャンネルのオーディオ信号に対してだけでなく、ビットストリームの受信側でのダウンミックス後のオーディオ信号に対しても同じものが用いられる。すなわち、図３に示すマッピングは、チャンネル番号ｉ、後述するdiag_dest5[i][j-1]により示されるチャンネル番号、または後述するdiag_dest2[i][j-1]により示されるチャンネル番号とスピーカに対応するチャンネルとの対応関係を示している。

例えば２チャンネル（ステレオ）の符号化モードでは、チャンネル番号０はＦＬチャンネルを示しており、チャンネル番号１はＦＲチャンネルを示している。

また、例えば5.1チャンネルの符号化モードでは、チャンネル番号0,1,2,3,4は、それぞれＦＣチャンネル、ＦＬチャンネル、ＦＲチャンネル、ＬＳチャンネル、およびＲＳチャンネルを示している。

したがって、例えばget_main_audio_chans()により求まるチャンネル数、つまりビットストリームに格納されているオーディオ信号のチャンネル数が2チャンネルである場合、チャンネル番号ｉ＝１は、ＦＲチャンネルを示していることになる。なお、以下、チャンネル番号ｉのチャンネルを単にチャンネルｉとも称することとする。

図２の説明に戻り、diag_present_flag[i]によりダイアログ音声のチャンネルであるとされているチャンネルｉについては、diag_present_flag[i]以降に、「diag_tag_idx[i]」、「num_of_dest_chans5[i]」、「diag_dest5[i][j-1]」、「diag_mix_gain5[i][j-1]」、「num_of_dest_chans2[i]」、「diag_dest2[i][j-1]」、「diag_mix_gain2[i][j-1]」、「num_of_dest_chans1[i]」、および「diag_mix_gain1[i]」の合計９個の情報が格納されている。

「diag_tag_idx[i]」は、チャンネルｉの属性を識別する情報である。すなわち、チャンネルｉの音声が、複数のダイアログ音声のなかのどのようなものであるかを示している。

具体的には、例えばチャンネルｉが日本語音声のチャンネルであるか、英語音声のチャンネルであるかなどの属性を示している。なお、ダイアログ音声の属性は、言語などに限らず、演者を識別するものやオブジェクトを識別するものなど、どのようなものであってもよい。本技術では、各ダイアログ音声のチャンネルをdiag_tag_idx[i]により識別することで、例えばオーディオ信号の再生時に特定の属性のダイアログ音声のチャンネルのオーディオ信号を選択して再生するなど、より自由度の高いオーディオ再生を実現することができる。

「num_of_dest_chans5[i]」は、オーディオ信号が5.1チャンネル（以下、5.1chとも称する）にダウンミックスされたときに、チャンネルｉのオーディオ信号が加算される、ダウンミックス後のチャンネルの数を示している。

「diag_dest5[i][j-1]」には、5.1chへのダウンミックス後に、ダイアログ音声であるチャンネルｉのオーディオ信号が加算されるチャンネルを示すチャンネル情報が格納される。例えばdiag_dest5[i][j-1]＝2である場合には、図３に示したマッピングから、ダウンミックス後のＦＲチャンネルがチャンネルｉのオーディオ信号の加算先となることが分かる。

「diag_mix_gain5[i][j-1]」には、diag_dest5[i][j-1]に格納されている情報（チャンネル番号）により特定（指定）されるチャンネルへとチャンネルｉのオーディオ信号を加算するときのゲイン係数を示すインデックスが格納される。

これらのdiag_dest5[i][j-1]とdiag_mix_gain5[i][j-1]は、num_of_dest_chans5[i]により示される数だけダイアログチャンネル情報に格納される。なお、diag_dest5[i][j-1]およびdiag_mix_gain5[i][j-1]における変数ｊは、１からnum_of_dest_chans5[i]までの値をとる。

diag_mix_gain5[i][j-1]の値により定まるゲイン係数は、例えば図４に示すように関数facが適用されて求められる。すなわち、図４では図中、左側の欄にdiag_mix_gain5[i][j-1]の値が示されており、図中、右側の欄にはdiag_mix_gain5[i][j-1]の値に対して予め定められたゲイン係数（ゲイン値）が示されている。例えばdiag_mix_gain5[i][j-1]の値が「000」である場合には、ゲイン係数は「1.0」（0dB）とされる。

図２の説明に戻り、「num_of_dest_chans2[i]」は、オーディオ信号が２チャンネル（2ch）にダウンミックスされたときに、チャンネルｉのオーディオ信号が加算される、ダウンミックス後のチャンネルの数を示している。

「diag_dest2[i][j-1]」には、2chへのダウンミックス後に、ダイアログ音声であるチャンネルｉのオーディオ信号が加算されるチャンネルを示すチャンネル情報（チャンネル番号）が格納される。また、「diag_mix_gain2[i][j-1]」には、diag_dest2[i][j-1]に格納されている情報により特定されるチャンネルへとチャンネルｉのオーディオ信号を加算するときのゲイン係数を示すインデックスが格納される。なお、diag_mix_gain2[i][j-1]の値とゲイン係数との対応関係は、図４に示した関係となる。

また、diag_dest2[i][j-1]とdiag_mix_gain2[i][j-1]のセットは、num_of_dest_chans2[i]により示される数だけダイアログチャンネル情報に格納される。なお、diag_dest2[i][j-1]およびdiag_mix_gain2[i][j-1]における変数ｊは、１からnum_of_dest_chans2[i]までの値をとる。

「num_of_dest_chans1[i]」は、オーディオ信号がモノラルチャンネル、つまり１チャンネル（1ch）にダウンミックスされたときに、チャンネルｉのオーディオ信号が加算される、ダウンミックス後のチャンネルの数を示している。「diag_mix_gain1[i]」には、ダウンミックス後のオーディオ信号へとチャンネルｉのオーディオ信号を加算するときのゲイン係数を示すインデックスが格納される。なお、diag_mix_gain1[i]の値とゲイン係数との対応関係は、図４に示した関係となる。

〈エンコーダの構成例〉
次に、本技術を適用したエンコーダの具体的な実施の形態について説明する。

図５は、本技術を適用したエンコーダの構成例を示す図である。

エンコーダ１１は、ダイアログチャンネル情報生成部２１、符号化部２２、パッキング部２３、および出力部２４から構成される。

ダイアログチャンネル情報生成部２１は、外部から供給されたマルチチャンネルのオーディオ信号、およびダイアログ音声に関する各種の情報に基づいてダイアログチャンネル情報を生成し、パッキング部２３に供給する。

符号化部２２は、外部から供給されたマルチチャンネルのオーディオ信号を符号化し、符号化されたオーディオ信号（以下、符号化データとも称する）をパッキング部２３に供給する。また、符号化部２２は、オーディオ信号を時間周波数変換する時間周波数変換部３１を備えている。

パッキング部２３は、ダイアログチャンネル情報生成部２１から供給されたダイアログチャンネル情報と、符号化部２２から供給された符号化データとをパッキングしてビットストリームを生成し、出力部２４に供給する。出力部２４は、パッキング部２３から供給されたビットストリームをデコーダに出力する。

〈符号化処理の説明〉
続いて、エンコーダ１１の動作について説明する。

エンコーダ１１では、外部からマルチチャンネルのオーディオ信号が供給されると、オーディオ信号のフレームごとに符号化を行い、ビットストリームを出力する。その際、例えば図６に示すようにマルチチャンネルを構成する各チャンネルについて、フレームごとにダイアログ音声チャンネルの識別情報としてdiag_present_flag[i]が生成され、符号化される。

この例ではＦＣ、ＦＬ、ＦＲ、ＬＳ、ＲＳ、ＴｐＦＬ、ＴｐＦＲは、7.1chを構成するＦＣチャンネル、ＦＬチャンネル、ＦＲチャンネル、ＬＳチャンネル、ＲＳチャンネル、ＴｐＦＬチャンネル、およびＴｐＦＲチャンネルを表しており、それらのチャンネルごとに識別情報が生成されている。

ここでは、各四角形が各フレームにおける各チャンネルの識別情報を表しており、それらの四角形内の数値「１」または「０」は識別情報の値を示している。したがって、この例ではＦＣチャンネルとＬＳチャンネルがダイアログ音声のチャンネルであり、他のチャンネルはダイアログ音声ではないチャンネルであることが分かる。

エンコーダ１１は、オーディオ信号のフレームごとに、各チャンネルの識別情報を含むダイアログチャンネル情報を生成し、ダイアログチャンネル情報と符号化データとを含むビットストリームを出力する。

以下、図７のフローチャートを参照して、エンコーダ１１がオーディオ信号を符号化してビットストリームを出力する処理である符号化処理について説明する。なお、この符号化処理はオーディオ信号のフレームごとに行われる。

ステップＳ１１において、ダイアログチャンネル情報生成部２１は、外部から供給されたマルチチャンネルのオーディオ信号に基づいて、マルチチャンネルを構成する各チャンネルがダイアログ音声のチャンネルであるか否かを判定し、その判定結果から識別情報を生成する。

例えばダイアログチャンネル情報生成部２１は、所定のチャンネルのオーディオ信号として供給されたPCM（Pulse Code Modulation）データから特徴量を抽出し、その特徴量に基づいて、そのチャンネルのオーディオ信号がダイアログ音声の信号であるか否かを判定する。そして、ダイアログチャンネル情報生成部２１は、その判定結果に基づいて識別情報を生成する。これにより、識別情報として図２に示したdiag_present_flag[i]が得られる。

なお、各チャンネルがダイアログ音声のチャンネルであるか否かを示す情報が外部からダイアログチャンネル情報生成部２１に供給されるようにしてもよい。

ステップＳ１２において、ダイアログチャンネル情報生成部２１は、外部から供給されたダイアログ音声に関する情報と、ステップＳ１１で生成した識別情報とに基づいて、ダイアログチャンネル情報を生成し、パッキング部２３に供給する。すなわち、ダイアログチャンネル情報生成部２１は、外部から供給されたダイアログ音声に関する情報に基づいて、ダイアログ音声のチャンネルの加算先を示す情報であるdiag_dest5[i][j-1]や、ダイアログ音声のチャンネルの加算時のゲインを示すゲイン情報であるdiag_mix_gain5[i][j-1]などを生成する。そして、ダイアログチャンネル情報生成部２１は、それらの情報と識別情報とを符号化してダイアログチャンネル情報を得る。これにより、例えば図２に示したダイアログチャンネル情報が得られる。

ステップＳ１３において、符号化部２２は、外部から供給されたマルチチャンネルのオーディオ信号を符号化する。

具体的には、時間周波数変換部３１は、オーディオ信号に対してMDCT（Modified Discrete Cosine Transform）（修正離散コサイン変換）を行なうことで、オーディオ信号を時間信号から周波数信号に変換する。

また、符号化部２２は、オーディオ信号に対するMDCTにより得られたMDCT係数を符号化し、スケールファクタ、サイド情報、および量子化スペクトルを得る。そして、符号化部２２は、得られたスケールファクタ、サイド情報、および量子化スペクトルを、オーディオ信号を符号化して得られた符号化データとしてパッキング部２３に供給する。

ステップＳ１４において、パッキング部２３は、ダイアログチャンネル情報生成部２１から供給されたダイアログチャンネル情報と、符号化部２２から供給された符号化データとのパッキングを行い、ビットストリームを生成する。

すなわち、パッキング部２３は、処理対象となっているフレームについて、符号化データが格納されたSCEおよびCPEと、ダイアログチャンネル情報等が含まれたDSEとからなるビットストリームを生成し、出力部２４に供給する。

ステップＳ１５において、出力部２４は、パッキング部２３から供給されたビットストリームをデコーダに出力し、符号化処理は終了する。そして、その後、次のフレームの符号化が行われる。

以上のようにしてエンコーダ１１は、オーディオ信号の符号化時に、オーディオ信号に基づいて識別情報を生成するとともに、その識別情報を含むダイアログチャンネル情報を生成し、ビットストリームに格納する。これにより、ビットストリームの受信側では、どのチャンネルのオーディオ信号がダイアログ音声のオーディオ信号であるかを特定することができる。その結果、ダイアログ音声のオーディオ信号をダウンミックス処理から除外して、ダウンミックス後の信号に足し込むことができ、高品質な音声を得ることができるようになる。

〈デコーダの構成例〉
次に、エンコーダ１１から出力されたビットストリームを受信してオーディオ信号の復号を行なうデコーダについて説明する。

図８は、本技術を適用したデコーダの構成例を示す図である。

図８のデコーダ５１は、取得部６１、抽出部６２、復号部６３、ダウンミックス処理部６４、および出力部６５から構成される。

取得部６１は、エンコーダ１１からビットストリームを取得して抽出部６２に供給する。抽出部６２は、取得部６１から供給されたビットストリームからダイアログチャンネル情報を抽出してダウンミックス処理部６４に供給するとともに、ビットストリームから符号化データを抽出して復号部６３に供給する。

復号部６３は、抽出部６２から供給された符号化データを復号する。また、復号部６３は周波数時間変換部７１を備えている。周波数時間変換部７１は、復号部６３が符号化データを復号して得られたMDCT係数に基づいて、IMDCT（Inverse Modified Discrete Cosine Transform）（逆修正離散コサイン変換）を行なう。復号部６３は、IMDCTにより得られたオーディオ信号であるPCMデータをダウンミックス処理部６４に供給する。

ダウンミックス処理部６４は、抽出部６２から供給されたダイアログチャンネル情報に基づいて、復号部６３から供給されたオーディオ信号のなかから、ダウンミックス処理の対象とするオーディオ信号と、ダウンミックス処理の対象としないオーディオ信号とを選択する。また、ダウンミックス処理部６４は、選択したオーディオ信号に対してダウンミックス処理を行う。

さらにダウンミックス処理部６４は、ダウンミックス処理で得られた所定チャンネル数のオーディオ信号のうちの、ダイアログチャンネル情報により指定されたチャンネルのオーディオ信号に対して、ダウンミックス処理の対象としなかったオーディオ信号を加算して、最終的なマルチチャンネルまたはモノラルチャンネルのオーディオ信号を得る。ダウンミックス処理部６４は、得られたオーディオ信号を出力部６５に供給する。

出力部６５は、ダウンミックス処理部６４から供給された各フレームのオーディオ信号を、図示せぬ後段の再生装置等に出力する。

〈ダウンミックス処理部の構成例〉
また、図８に示したダウンミックス処理部６４は、例えば図９に示すように構成される。

図９に示すダウンミックス処理部６４は、選択部１１１、ダウンミックス部１１２、ゲイン補正部１１３、および加算部１１４を有している。

このダウンミックス処理部６４では、ダウンミックス処理部６４が抽出部６２から供給されたダイアログチャンネル情報から各種の情報を読み出して、ダウンミックス処理部６４の各部に適宜、供給する。

選択部１１１は、ダイアログチャンネル情報から読み出された識別情報であるdiag_present_flag[i]に基づいて、復号部６３から供給された各チャンネルｉのオーディオ信号からダウンミックスの対象とするものと、ダウンミックスの対象としないものとを選択する。すなわち、マルチチャンネルのオーディオ信号が、ダイアログ音声のオーディオ信号と、ダイアログ音声ではないオーディオ信号とに選別され、その選別結果に応じてオーディオ信号の供給先が定められる。

具体的には選択部１１１は、diag_present_flag[i]が１であるオーディオ信号、つまりダイアログ音声のオーディオ信号を、ダウンミックスの対象外としてゲイン補正部１１３に供給する。これに対して、選択部１１１はdiag_present_flag[i]が０であるオーディオ信号、つまりダイアログ音声でないオーディオ信号をダウンミックスの対象としてダウンミックス部１１２に供給する。なお、より詳細にはダイアログ音声のオーディオ信号は、その信号値が０とされてダウンミックス部１１２にも供給される。

ダウンミックス部１１２は、選択部１１１から供給されたオーディオ信号に対してダウンミックス処理を行い、選択部１１１から入力されたマルチチャンネルのオーディオ信号を、より少ないチャンネル構成のオーディオ信号へと変換し、加算部１１４に供給する。なお、ダウンミックス処理にあたっては、適宜、ビットストリームから読み出されたダウンミックス係数が用いられる。

ゲイン補正部１１３は、選択部１１１から供給されたダイアログ音声のオーディオ信号に対して、ダイアログチャンネル情報から読み出されたdiag_mix_gain5[i][j-1]、diag_mix_gain2[i][j-1]、またはdiag_mix_gain1[i]から定まるゲイン係数を乗算することでゲイン補正を行い、ゲイン補正されたオーディオ信号を加算部１１４に供給する。

加算部１１４は、ダウンミックス部１１２から供給されたオーディオ信号のうちの所定のチャンネルに、ゲイン補正部１１３から供給されたダイアログ音声のオーディオ信号を加算し、その結果得られたオーディオ信号を出力部６５に供給する。

このときダイアログ音声のオーディオ信号の加算先のチャンネルは、ダイアログチャンネル情報から読み出されたdiag_dest5[i][j-1]やdiag_dest2[i][j-1]により特定される。

ところで、ダウンミックス処理部６４への入力が7.1chのオーディオ信号であり、ダウンミックス処理部６４からの出力が5.1chのオーディオ信号である場合、つまり7.1chから5.1chへのダウンミックスが行われる場合、ダウンミックス処理部６４は、より具体的には例えば図１０に示す構成とされる。なお、図１０において図９における場合と対応する部分には同一の符号を付してあり、その説明は省略する。

図１０では、図９に示したダウンミックス処理部６４の各部のより詳細な構成が示されている。

すなわち、選択部１１１には、出力選択部１４１およびスイッチ処理部１４２−１乃至スイッチ処理部１４２−７が設けられている。

出力選択部１４１には、スイッチ１５１−１乃至スイッチ１５１−７が設けられており、これらのスイッチ１５１−１乃至スイッチ１５１−７には、それぞれ復号部６３からＦＣチャンネル、ＦＬチャンネル、ＦＲチャンネル、ＬＳチャンネル、ＲＳチャンネル、ＴｐＦＬチャンネル、およびＴｐＦＲチャンネルのオーディオ信号が供給される。

ここでは、チャンネル番号ｉ＝０乃至６のそれぞれがＦＣ、ＦＬ、ＦＲ、ＬＳ、ＲＳ、ＴｐＦＬ、およびＴｐＦＲの各チャンネルに対応している。

スイッチ１５１−Ｉ（但しＩ＝1,2,…,7）は、出力端子１５２−Ｉ（但しＩ＝1,2,…,7）および出力端子１５３−Ｉ（但しＩ＝1,2,…,7）を有しており、復号部６３から供給されたオーディオ信号を出力端子１５２−Ｉまたは出力端子１５３−Ｉの何れかへと供給する。

具体的には、スイッチ１５１−Ｉ（Ｉ＝ｉ＋１）は識別情報であるdiag_present_flag[i]の値が０である場合、供給されたオーディオ信号を、出力端子１５２−Ｉを介してダウンミックス部１１２に供給する。

また、スイッチ１５１−Ｉはdiag_present_flag[i]の値が１である場合、供給されたオーディオ信号を出力端子１５３−Ｉに出力する。出力端子１５３−Ｉから出力されたオーディオ信号は２つに分岐され、一方のオーディオ信号はそのままスイッチ処理部１４２−Ｉに供給され、他方のオーディオ信号は、その値が０とされてダウンミックス部１１２に供給される。これにより、実質的にダイアログ音声のオーディオ信号はダウンミックス部１１２には供給されないことになる。

なお、オーディオ信号の値を０とする手法は、どのような手法であってもよく、例えばオーディオ信号の値を０に書き換えるようにしてもよいし、０倍のゲイン値を掛け合わせるようにしてもよい。

また、以下、スイッチ１５１−１乃至スイッチ１５１−７を特に区別する必要のない場合、単にスイッチ１５１とも称する。同様に以下、出力端子１５２−１乃至出力端子１５２−７を特に区別する必要のない場合、単に出力端子１５２とも称し、出力端子１５３−１乃至出力端子１５３−７を特に区別する必要のない場合、単に出力端子１５３とも称することとする。

スイッチ処理部１４２−Ｉ（但しＩ＝1,2,…,7）は、diag_dest5[i][j-1]によって入り切りが制御されるスイッチ１６１−Ｉ−１乃至スイッチ１６１−Ｉ−５（但しＩ＝1,2,…,7）を有している。スイッチ処理部１４２−Ｉは、スイッチ１５１−Ｉから供給されたオーディオ信号を、スイッチ１６１−Ｉ−１乃至スイッチ１６１−Ｉ−５（但しＩ＝1,2,…,7）を介して、適宜、ゲイン補正部１１３を構成する乗算部１７１−Ｉ−１乃至乗算部１７１−Ｉ−５（但しＩ＝1,2,…,7）に供給する。

具体的にはdiag_dest5[i][j-1]によって、チャンネル番号ｉのオーディオ信号の加算先のチャンネルとしてＦＣ、ＦＬ、ＦＲ、ＬＳ、ＲＳのそれぞれが指定された場合、スイッチ１６１−Ｉ−１乃至スイッチ１６１−Ｉ−５（但しＩ＝ｉ＋１）のそれぞれがオンされ、オーディオ信号が乗算部１７１−Ｉ−１乃至乗算部１７１−Ｉ−５（但しＩ＝ｉ＋１）に供給される。

例えばdiag_dest5[i][j-1]によって、チャンネル番号ｉ＝０であるＦＣチャンネルのオーディオ信号の加算先のチャンネルとして、ダウンミックス後のＦＣチャンネルが指定された場合、スイッチ１６１−１−１がオンされ、出力端子１５３−１からのオーディオ信号が乗算部１７１−１−１に供給される。

なお、以下、スイッチ処理部１４２−１乃至スイッチ処理部１４２−７を特に区別する必要のない場合、単にスイッチ処理部１４２とも称することとする。

また以下、スイッチ１６１−Ｉ−１乃至スイッチ１６１−Ｉ−５（但しＩ＝1,2,…,7）を特に区別する必要のない場合、単にスイッチ１６１−Ｉとも称し、スイッチ１６１−１乃至スイッチ１６１−７を特に区別する必要のない場合、単にスイッチ１６１とも称する。

さらに以下、乗算部１７１−Ｉ−１乃至乗算部１７１−Ｉ−５（但しＩ＝1,2,…,7）を特に区別する必要のない場合、単に乗算部１７１−Ｉとも称し、乗算部１７１−１乃至乗算部１７１−７を特に区別する必要のない場合、単に乗算部１７１とも称する。

ゲイン補正部１１３は、乗算部１７１−１−１乃至乗算部１７１−７−５を有しており、これらの乗算部１７１には、diag_mix_gain5[i][j-1]によって定まるゲイン係数がセットされる。

具体的にはdiag_dest5[i][j-1]により、チャンネル番号ｉのオーディオ信号の加算先のチャンネルとしてＦＣ、ＦＬ、ＦＲ、ＬＳ、ＲＳのそれぞれが指定された場合、乗算部１７１−Ｉ−１乃至乗算部１７１−Ｉ−５（但しＩ＝ｉ＋１）のそれぞれにdiag_mix_gain5[i][j-1]によって定まるゲイン係数がセットされる。

乗算部１７１−Ｉ−１乃至乗算部１７１−Ｉ−５（但しＩ＝1,2,…,7）は、スイッチ１６１−Ｉ−１乃至スイッチ１６１−Ｉ−５から供給されたオーディオ信号に対して、セットされたゲイン係数を乗算し、加算部１１４の加算器１８１−１乃至加算器１８１−５に供給する。これにより、ダウンミックスの対象外とされた、ダイアログ音声の各チャンネルｉのオーディオ信号がゲイン補正され、加算部１１４に供給されることになる。

加算部１１４は加算器１８１−１乃至加算器１８１−５を有しており、これらの加算器１８１−１乃至加算器１８１−５のそれぞれには、ダウンミックス部１１２からダウンミックス後のＦＣ、ＦＬ、ＦＲ、ＬＳ、ＲＳの各チャンネルのそれぞれのオーディオ信号が供給される。

加算器１８１−１乃至加算器１８１−５は、ダウンミックス部１１２から供給されたオーディオ信号に対して、乗算部１７１から供給されたダイアログ音声のオーディオ信号を加算して出力部６５に供給する。

なお、以下、加算器１８１−１乃至加算器１８１−５を特に区別する必要のない場合、単に加算器１８１とも称することとする。

〈復号処理の説明〉
次に、デコーダ５１の動作について説明する。なお、以下では、ダウンミックス処理部６４の構成が図１０に示した構成であり、オーディオ信号が7.1chから5.1chへとダウンミックスされるものとして説明を続ける。

デコーダ５１は、エンコーダ１１からビットストリームが送信されてくると、そのビットストリームを受信して復号する復号処理を開始する。

以下、図１１のフローチャートを参照して、デコーダ５１により行なわれる復号処理について説明する。この復号処理はオーディオ信号のフレームごとに行われる。

ステップＳ４１において、取得部６１はエンコーダ１１から送信されてきたビットストリームを受信して抽出部６２に供給する。

ステップＳ４２において、抽出部６２は、取得部６１から供給されたビットストリームのDSEからダイアログチャンネル情報を抽出してダウンミックス処理部６４に供給する。また、抽出部６２は、必要に応じてDSEからダウンミックス係数等の情報も適宜抽出して、ダウンミックス処理部６４に供給する。

ステップＳ４３において、抽出部６２は、取得部６１から供給されたビットストリームから各チャンネルの符号化データを抽出して、復号部６３に供給する。

ステップＳ４４において、復号部６３は、抽出部６２から供給された各チャンネルの符号化データを復号する。

すなわち、復号部６３は符号化データを復号してMDCT係数を求める。具体的には、復号部６３は符号化データとして供給されたスケールファクタ、サイド情報、および量子化スペクトルに基づいてMDCT係数を算出する。そして、周波数時間変換部７１は、MDCT係数に基づいてIMDCT処理を行い、その結果得られたオーディオ信号をダウンミックス処理部６４のスイッチ１５１に供給する。すなわち、オーディオ信号の周波数時間変換が行なわれて、時間信号であるオーディオ信号が得られる。

ステップＳ４５において、ダウンミックス処理部６４は、復号部６３から供給されたオーディオ信号、および抽出部６２から供給されたダイアログチャンネル情報に基づいてダウンミックス処理を行い、その結果得られたオーディオ信号を出力部６５に供給する。出力部６５は、ダウンミックス処理部６４から供給されたオーディオ信号を後段の再生装置等に出力し、復号処理は終了する。

なお、ダウンミックス処理の詳細は後述するが、ダウンミックス処理においては、ダイアログ音声ではないオーディオ信号のみがダウンミックスされ、ダウンミックス後のオーディオ信号に対して、ダイアログ音声のオーディオ信号が加算される。また、出力部６５から出力されたオーディオ信号は、再生装置等により各チャンネルに対応するスピーカに供給されて音声が再生される。

以上のようにしてデコーダ５１は、符号化データを復号してオーディオ信号を得るとともに、ダイアログチャンネル情報を用いてダイアログ音声ではないオーディオ信号のみをダウンミックスし、ダウンミックス後のオーディオ信号にダイアログ音声のオーディオ信号を加算する。これにより、ダイアログ音声が聞き取りづらくなることを防止し、より高品質な音声を得ることができる。

〈ダウンミックス処理の説明〉
続いて、図１２のフローチャートを参照して、図１１のステップＳ４５の処理に対応するダウンミックス処理について説明する。

ステップＳ７１においてダウンミックス処理部６４は、抽出部６２から供給されたダイアログチャンネル情報からget_main_audio_chans()を読み出して演算を行い、ビットストリームに格納されているオーディオ信号のチャンネル数を求める。

また、ダウンミックス処理部６４は、ダイアログチャンネル情報からinit_data(chans)も読み出して演算を行い、パラメータとして保持しているdiag_tag_idx[i]等の値を初期化する。つまり、各チャンネルｉのdiag_tag_idx[i]等の値を０とする。

ステップＳ７２において、ダウンミックス処理部６４は、処理対象とするチャンネルのチャンネル番号を示すカウンタの値、すなわちカウンタにより示されるチャンネルｉの値をｉ＝０とする。以下、処理対象のチャンネル番号を示すカウンタをカウンタｉとも称することとする。

ステップＳ７３において、ダウンミックス処理部６４は、カウンタｉの値が、ステップＳ７１で求めたチャンネル数未満であるか否かを判定する。すなわち、全てのチャンネルを処理対象のチャンネルとして処理したか否かを判定する。

ステップＳ７３においてカウンタｉの値がチャンネル数未満であると判定された場合、ダウンミックス処理部６４はダイアログチャンネル情報から、処理対象のチャンネルｉの識別情報であるdiag_present_flag[i]を読み出して出力選択部１４１に供給し、処理はステップＳ７４へと進む。

ステップＳ７４において、出力選択部１４１は、処理対象のチャンネルｉがダイアログ音声のチャンネルであるか否かを判定する。例えば、出力選択部１４１は処理対象のチャンネルｉのdiag_present_flag[i]の値が１である場合、ダイアログ音声のチャンネルであると判定する。

ステップＳ７４においてダイアログ音声のチャンネルではないと判定された場合、ステップＳ７５において、出力選択部１４１は、復号部６３から供給されるチャンネルｉのオーディオ信号がそのままダウンミックス部１１２に供給されるようにする。すなわち、出力選択部１４１は、チャンネルｉに対応するスイッチ１５１を制御して、そのスイッチ１５１の入力端子を出力端子１５２に接続する。これにより、チャンネルｉのオーディオ信号がそのままダウンミックス部１１２へと供給されるようになる。

スイッチ１５１の制御によりオーディオ信号の供給先が選択されると、ダウンミックス処理部６４は、保持しているカウンタｉの値を１だけインクリメントする。そして処理はステップＳ７３へと戻り、上述した処理が繰り返し行われる。

一方、ステップＳ７４においてダイアログ音声のチャンネルであると判定された場合、ステップＳ７６において、出力選択部１４１は、復号部６３から供給されたチャンネルｉのオーディオ信号がそのままスイッチ処理部１４２に供給されるとともに、復号部６３から供給されたオーディオ信号が０値とされてダウンミックス部１１２に供給されるようにする。

すなわち、出力選択部１４１は、チャンネルｉに対応するスイッチ１５１を制御して、そのスイッチ１５１の入力端子を出力端子１５３に接続する。すると、復号部６３からのオーディオ信号は、出力端子１５３から出力された後に２つに分岐され、一方のオーディオ信号は、その信号値（振幅）が０とされてダウンミックス部１１２へと供給されるようになる。つまり、ダウンミックス部１１２へは実質的にオーディオ信号が供給されないようになる。また、分岐された他方のオーディオ信号は、チャンネルｉに対応するスイッチ処理部１４２へとそのまま供給されるようになる。

ステップＳ７７においてダウンミックス処理部６４は、処理対象のチャンネルｉについてゲイン係数をセットする。

すなわち、ダウンミックス処理部６４は、ダイアログチャンネル情報に格納されているnum_of_dest_chans5[i]に示される数だけ、ダイアログチャンネル情報から処理対象のチャンネルｉのdiag_dest5[i][j-1]およびdiag_mix_gain5[i][j-1]を読み出す。

そして選択部１１１は、各diag_dest5[i][j-1]の値から、ダウンミックス後のオーディオ信号に対する処理対象のチャンネルｉのオーディオ信号の加算先を特定し、その特定結果に応じてスイッチ処理部１４２の動作を制御する。

具体的には、選択部１１１はチャンネルｉのオーディオ信号が供給されるスイッチ処理部１４２−（ｉ＋１）を制御し、５つのスイッチ１６１−（ｉ＋１）のうち、チャンネルｉのオーディオ信号の加算先に対応するスイッチ１６１−（ｉ＋１）のみオンさせ、他のスイッチ１６１−（ｉ＋１）はオフさせる。

このようにしてスイッチ処理部１４２を制御することにより、処理対象のチャンネルｉのオーディオ信号が、そのオーディオ信号の加算先のチャンネルに対応する乗算部１７１へと供給されるようになる。

また、ダウンミックス処理部６４は、ダイアログチャンネル情報から読み出したdiag_mix_gain5[i][j-1]に基づいて、チャンネルｉのオーディオ信号の加算先のチャンネルごとのゲイン係数を取得し、ゲイン補正部１１３に供給する。具体的には、例えばダウンミックス処理部６４は関数fac、つまりfac[diag_mix_gain5[i][j-1]]を演算することでゲイン係数を得る。

ゲイン補正部１１３は、５つの乗算部１７１−（ｉ＋１）のうちのチャンネルｉのオーディオ信号の加算先に対応する乗算部１７１−（ｉ＋１）へとゲイン係数を供給し、セットする。

例えば各diag_dest5[0][j-1]の値から、チャンネルｉ＝０であるＦＣチャンネルのオーディオ信号の加算先が、ダウンミックス後のチャンネルＦＣ、ＦＬ、ＦＲであると特定された場合、スイッチ１６１−１−１乃至スイッチ１６１−１−３がオンされ、残りのスイッチ１６１−１−４とスイッチ１６１−１−５はオフされる。

そしてdiag_mix_gain5[0][j-1]に基づいて、ダウンミックス前のＦＣチャンネルのダウンミックス後のチャンネルＦＣ、ＦＬ、ＦＲの各チャンネルへの加算時のゲイン係数が読み出され、それらのゲイン係数が乗算部１７１−１−１乃至乗算部１７１−１−３に供給されてセットされる。なお、乗算部１７１−１−４と乗算部１７１−１−５にはオーディオ信号は供給されないので、ゲイン係数はセットされない。

このようにしてスイッチ処理部１４２によるオーディオ信号の出力先の選択とゲイン係数のセットとが行われると、ダウンミックス処理部６４は、保持しているカウンタｉの値を１だけインクリメントする。そして処理はステップＳ７３へと戻り、上述した処理が繰り返し行われる。

また、ステップＳ７３においてカウンタｉの値が、ステップＳ７１で求めたチャンネル数未満でないと判定された場合、つまり全てのチャンネルを処理した場合、ダウンミックス処理部６４は、復号部６３から供給されたオーディオ信号をスイッチ１５１へと入力し、処理はステップＳ７８へと進む。これにより、ダイアログ音声ではないオーディオ信号がダウンミックス部１１２へと供給され、ダイアログ音声のオーディオ信号がスイッチ１６１を介して乗算部１７１に供給されることになる。

ステップＳ７８において、ダウンミックス部１１２は、出力選択部１４１のスイッチ１５１から供給された7.1chのオーディオ信号に対してダウンミックス処理を行い、その結果得られた5.1chの各チャンネルのオーディオ信号を加算器１８１に供給する。このとき、ダウンミックス処理部６４は、必要に応じてDSE等からインデックスを取得してダウンミックス係数を得てダウンミックス部１１２に供給し、ダウンミックス部１１２では、供給されたダウンミックス係数が用いられてダウンミックスが行われる。

ステップＳ７９において、ゲイン補正部１１３はスイッチ１６１から供給された、ダイアログ音声のオーディオ信号のゲイン補正を行い、加算器１８１に供給する。すなわち、スイッチ１６１からオーディオ信号が供給された各乗算部１７１は、そのオーディオ信号に、セットされたゲイン係数を乗算してゲイン補正を行い、ゲイン補正されたオーディオ信号を加算器１８１に供給する。

ステップＳ８０において、加算器１８１は、ダウンミックス部１１２から供給されたオーディオ信号に対して、乗算部１７１から供給されたダイアログ音声のオーディオ信号を加算し、出力部６５に供給する。出力部６５によりオーディオ信号が出力されると、ダウンミックス処理は終了し、これにより図１１の復号処理も終了する。

以上のようにしてダウンミックス処理部６４は、識別情報としてのdiag_present_flag[i]に基づいて、各チャンネルのオーディオ信号がダイアログ音声の信号であるか否かを特定し、ダイアログ音声のオーディオ信号をダウンミックス処理の対象から除外して、ダウンミックス後のオーディオ信号に加算する。

これにより、より高品質な音声を得ることができる。すなわち、ダイアログ音声のオーディオ信号を含む全チャンネルのオーディオ信号をダウンミックスすると、ダイアログ音声はダウンミックス後のチャンネル全体に広がり、ゲインも小さくなってダイアログ音声が聞き取りづらくなってしまう。これに対して、デコーダ５１によれば、ダイアログ音声はダウンミックスの影響を受けることなく、所望のチャンネルで再生されるようになるので、ダイアログ音声をより聞き取りやすくすることができる。

ここで、図１２を参照して説明したダウンミックス処理で行われる計算の具体的な例について説明する。ここでは、num_of_dest_chans5[0]＝1、num_of_dest_chans5[1]＝1であり、diag_dest5[0][0]＝0、diag_dest5[1][0]＝0であるとする。

すなわち、ダウンミックス前のＦＣチャンネルおよびＦＬチャンネルがダイアログ音声のチャンネルであり、それらのダイアログ音声のダウンミックス後の加算先がＦＣチャンネルであるとする。

そのような場合、出力選択部１４１は、次式（１）を計算することでダウンミックスの入力とする信号を求める。

なお、式（１）においてＦＣ、ＦＬ、ＦＲ、ＬＳ、ＲＳ、ＴｐＦＬ、およびＴｐＦＲは、復号部６３から供給されたＦＣ、ＦＬ、ＦＲ、ＬＳ、ＲＳ、ＴｐＦＬ、およびＴｐＦＲの各チャンネルのオーディオ信号の値を示している。また、inv()は、inv(1)＝0，inv(0)＝１とする関数、つまり入力値を反転させる関数である。

さらに、式（１）においてFC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin、およびTpFR_dminは、それぞれダウンミックス部１１２への入力とされるＦＣ、ＦＬ、ＦＲ、ＬＳ、ＲＳ、ＴｐＦＬ、およびＴｐＦＲの各チャンネルのオーディオ信号を示している。

したがって式（１）の計算では、復号部６３から供給された各チャンネルのオーディオ信号がdiag_present_flag[i]の値に応じてそのままの値とされるか、または０とされてダウンミックス部１１２への入力とされる。

また、ダウンミックス部１１２は、入力とされたFC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin、およびTpFR_dminに基づいて次式（２）の計算を行い、加算器１８１への入力とする、ダウンミックス後のＦＣ、ＦＬ、ＦＲ、ＬＳ、およびＲＳの各チャンネルのオーディオ信号を得る。

なお、式（２）においてＦＣ’、ＦＬ’、ＦＲ’、ＬＳ’、およびＲＳ’は、それぞれ加算器１８１−１乃至加算器１８１−５への入力とされるＦＣ、ＦＬ、ＦＲ、ＬＳ、およびＲＳの各チャンネルのオーディオ信号を示している。また、dmx_f1およびdmx_f2はダウンミックス係数を示している。

さらに、乗算部１７１および加算器１８１により、最終的なＦＣ、ＦＬ、ＦＲ、ＬＳ、およびＲＳの各チャンネルのオーディオ信号が得られる。この例ではＦＬ、ＦＲ、ＬＳ、およびＲＳの各チャンネルについては、ダイアログ音声の加算が行われないのでＦＬ’、ＦＲ’、ＬＳ’、およびＲＳ’がそのまま出力部６５へと出力される。

これに対してＦＣチャンネルに対しては次式（３）の計算が行われ、その結果得られたＦＣ’’が最終的なＦＣチャンネルのオーディオ信号とされて出力される。

なお、式（３）において、ＦＣおよびＦＬは出力選択部１４１を介して乗算部１７１に供給されたＦＣチャンネルおよびＦＬチャンネルのオーディオ信号を示している。また、fac[diag_mix_gain5[0][0]]は関数facにdiag_mix_gain5[0][0]を代入して得られるゲイン係数を示しており、fac[diag_mix_gain5[1][0]]は関数facにdiag_mix_gain5[1][0]を代入して得られるゲイン係数を示している。

〈ダウンミックス処理部の他の構成例〉
なお、以上においては、オーディオ信号が7.1chから5.1chにダウンミックスされる場合を例として説明したが、ダウンミックス前後のオーディオ信号のチャンネル構成はどのような構成であってもよい。

例えばオーディオ信号が7.1chから2chにダウンミックスされる場合、図９に示したダウンミックス処理部６４の各部は、より詳細には例えば図１３に示すように構成される。なお、図１３において図９または図１０における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

図１３に示すダウンミックス処理部６４では、選択部１１１には、出力選択部１４１およびスイッチ処理部２１１−１乃至スイッチ処理部２１１−７が設けられている。

出力選択部１４１には、図１０における場合と同様にスイッチ１５１−１乃至スイッチ１５１−７が設けられており、スイッチ処理部２１１−Ｉ（但しＩ＝1,2,…,7）には、スイッチ２２１−Ｉ−１とスイッチ２２１−Ｉ−２（但しＩ＝1,2,…,7）が設けられている。

また、ダウンミックス部１１２には、ダウンミックス部２３１およびダウンミックス部２３２が設けられており、ゲイン補正部１１３には、乗算部２４１−１−１乃至乗算部２４１−７−２が設けられている。さらに加算部１１４には、加算器２５１−１および加算器２５１−２が設けられている。

この例では、スイッチ１５１−１乃至スイッチ１５１−７には、それぞれ復号部６３からＦＣチャンネル、ＦＬチャンネル、ＦＲチャンネル、ＬＳチャンネル、ＲＳチャンネル、ＴｐＦＬチャンネル、およびＴｐＦＲチャンネルのオーディオ信号が供給される。

スイッチ１５１−Ｉ（但しＩ＝ｉ＋１）は識別情報であるdiag_present_flag[i]の値が０である場合、供給されたオーディオ信号を、出力端子１５２−Ｉを介してダウンミックス部２３１に供給する。

また、スイッチ１５１−Ｉはdiag_present_flag[i]の値が１である場合、供給されたオーディオ信号を出力端子１５３−Ｉに出力する。出力端子１５３−Ｉから出力されたオーディオ信号は２つに分岐され、一方のオーディオ信号はそのままスイッチ処理部２１１−Ｉに供給され、他方のオーディオ信号は、その値が０とされてダウンミックス部２３１に供給される。

スイッチ処理部２１１−Ｉ（但しＩ＝1,2,…,7）は、スイッチ１５１−Ｉから供給されたオーディオ信号を、スイッチ２２１−Ｉ−１およびスイッチ２２１−Ｉ−２（但しＩ＝1,2,…,7）を介して、適宜、ゲイン補正部１１３を構成する乗算部２４１−Ｉ−１および乗算部２４１−Ｉ−２（但しＩ＝1,2,…,7）に供給する。

具体的にはdiag_dest2[i][j-1]によって、チャンネル番号ｉのオーディオ信号の加算先のチャンネルとしてＦＬおよびＦＲのそれぞれが指定された場合、スイッチ２２１−Ｉ−１およびスイッチ２２１−Ｉ−２（但しＩ＝ｉ＋１）のそれぞれがオンされ、オーディオ信号が乗算部２４１−Ｉ−１および乗算部２４１−Ｉ−２（但しＩ＝ｉ＋１）に供給される。

なお、以下、スイッチ処理部２１１−１乃至スイッチ処理部２１１−７を特に区別する必要のない場合、単にスイッチ処理部２１１とも称することとする。

また以下、スイッチ２２１−Ｉ−１およびスイッチ２２１−Ｉ−２（但しＩ＝1,2,…,7）を特に区別する必要のない場合、単にスイッチ２２１−Ｉとも称し、スイッチ２２１−１乃至スイッチ２２１−７を特に区別する必要のない場合、単にスイッチ２２１とも称する。

さらに以下、乗算部２４１−Ｉ−１および乗算部２４１−Ｉ−２（但しＩ＝1,2,…,7）を特に区別する必要のない場合、単に乗算部２４１−Ｉとも称し、乗算部２４１−１乃至乗算部２４１−７を特に区別する必要のない場合、単に乗算部２４１とも称する。

ゲイン補正部１１３では、diag_dest2[i][j-1]により、チャンネル番号ｉのオーディオ信号の加算先のチャンネルとしてＦＬおよびＦＲのそれぞれが指定された場合、乗算部２４１−Ｉ−１および乗算部２４１−Ｉ−２（但しＩ＝ｉ＋１）のそれぞれにdiag_mix_gain2[i][j-1]によって定まるゲイン係数がセットされる。

乗算部２４１−Ｉ−１および乗算部２４１−Ｉ−２（但しＩ＝1,2,…,7）は、スイッチ２２１−Ｉ−１およびスイッチ２２１−Ｉ−２から供給されたオーディオ信号に対して、セットされたゲイン係数を乗算し、加算部１１４の加算器２５１−１および加算器２５１−２に供給する。これにより、ダウンミックスの対象外とされた各チャンネルｉのオーディオ信号がゲイン補正され、加算部１１４に供給されることになる。

ダウンミックス部２３１は、出力選択部１４１から供給された7.1chのオーディオ信号を5.1chのオーディオ信号へとダウンミックスし、ダウンミックス部２３２に供給する。ダウンミックス部２３１から出力される5.1chのオーディオ信号はＦＣ、ＦＬ、ＦＲ、ＬＳ、およびＲＳの各チャンネルからなる。

ダウンミックス部２３２は、ダウンミックス部２３１から供給された5.1chのオーディオ信号を、さらに2chのオーディオ信号へとダウンミックスし、加算部１１４に供給する。ダウンミックス部２３２から出力される2chのオーディオ信号はＦＬおよびＦＲの各チャンネルからなる。

加算部１１４の加算器２５１−１および加算器２５１−２のそれぞれには、ダウンミックス部２３２からダウンミックス後のＦＬおよびＦＲの各チャンネルのそれぞれのオーディオ信号が供給される。

加算器２５１−１および加算器２５１−２は、ダウンミックス部２３２から供給されたオーディオ信号に対して、乗算部２４１から供給されたダイアログ音声のオーディオ信号を加算して出力部６５に供給する。

なお、以下、加算器２５１−１および加算器２５１−２を特に区別する必要のない場合、単に加算器２５１とも称することとする。

図１３に示すダウンミックス処理部６４では、7.1chから5.1chへ、さらには5.1chから2chへと多段階のダウンミックスが行われる。このような図１３に示すダウンミックス処理部６４で7.1chから2chへのダウンミックスが行われる場合、例えば以下のような計算が行われる。

ここでは、num_of_dest_chans2[0]＝2、num_of_dest_chans2[1]＝2であり、diag_dest2[0][0]＝0、diag_dest2[0][1]＝1、diag_dest2[1][0]＝0、diag_dest2[1][1]＝1であるとする。

すなわち、ダウンミックス前のＦＣチャンネルおよびＦＬチャンネルがダイアログ音声のチャンネルであり、それらのダイアログ音声のダウンミックス後の加算先がＦＬチャンネルおよびＦＲチャンネルであるとする。

そのような場合、出力選択部１４１は、次式（４）を計算することでダウンミックスの入力とする信号を求める。

すなわち、式（４）では上述した式（１）と同様の計算が行われる。

また、ダウンミックス部２３１は、入力とされたFC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin、およびTpFR_dminに基づいて次式（５）の計算を行い、ダウンミックス部２３２への入力とする、ダウンミックス後のＦＣ、ＦＬ、ＦＲ、ＬＳ、およびＲＳの各チャンネルのオーディオ信号を得る。

すなわち、式（５）では上述した式（２）と同様の計算が行われる。

さらに、ダウンミックス部２３２は、入力とされたＦＣ’、ＦＬ’、ＦＲ’、ＬＳ’、およびＲＳ’と、ＬＦＥチャンネルのオーディオ信号であるＬＦＥ’とに基づいて、次式（６）の計算を行い、加算部１１４への入力とする、ダウンミックス後のＦＬおよびＦＲの各チャンネルのオーディオ信号を得る。

なお、式（６）においてＦＬ’’およびＦＲ’’は、それぞれ加算器２５１−１および加算器２５１−２への入力とされるＦＬおよびＦＲの各チャンネルのオーディオ信号を示している。またdmx_a、dmx_b、およびdmx_cはダウンミックス係数を示している。

さらに、乗算部２４１および加算器２５１により、最終的なＦＬおよびＦＲの各チャンネルのオーディオ信号が得られる。この例では次式（７）の計算によりＦＬ’’およびＦＲ’’に対してダイアログ音声が加算されて、加算器２５１の最終的な出力であるＦＬチャンネルおよびＦＲチャンネルのオーディオ信号とされる。

なお、式（７）において、ＦＬ’’’およびＦＲ’’’は加算器２５１の最終的な出力であるＦＬチャンネルおよびＦＲチャンネルのオーディオ信号を示している。また、diag_mix1およびdiag_mix2は、次式（８）により得られるものとされる。

なお、式（８）において、ＦＣおよびＦＬは出力選択部１４１を介して乗算部２４１に供給されたＦＣチャンネルおよびＦＬチャンネルのオーディオ信号を示している。

また、fac[diag_mix_gain2[0][0]]は関数facにdiag_mix_gain2[0][0]を代入して得られるゲイン係数を示しており、fac[diag_mix_gain2[1][0]]は関数facにdiag_mix_gain2[1][0]を代入して得られるゲイン係数を示している。同様に、fac[diag_mix_gain2[0][1]]は関数facにdiag_mix_gain2[0][1]を代入して得られるゲイン係数を示しており、fac[diag_mix_gain2[1][1]]は関数facにdiag_mix_gain2[1][1]を代入して得られるゲイン係数を示している。

また、ダウンミックス処理部６４において、7.1chから5.1chへのダウンミックスが行われ、さらに5.1chから2chへのダウンミックスが行われた後、2chから1chへのダウンミックスが行われるようにしてもよい。そのような場合、例えば以下のような計算が行われる。

なお、ここでは、num_of_dest_chans1[0]＝1、num_of_dest_chans1[1]＝1であるとする。すなわち、ダウンミックス前のＦＣチャンネルおよびＦＬチャンネルがダイアログ音声のチャンネルであり、それらのダイアログ音声のダウンミックス後の加算先がＦＣチャンネルであるとする。

そのような場合、選択部１１１は、次式（９）を計算することでダウンミックスの入力とする信号を求める。

すなわち、式（９）では上述した式（１）と同様の計算が行われる。

また、ダウンミックス部１１２は、入力とされたFC_dmin、FL_dmin、FR_dmin、LS_dmin、RS_dmin、TpFL_dmin、およびTpFR_dminに基づいて次式（１０）の計算を行うことで、7.1chから5.1chへのダウンミックスを行う。

すなわち、式（１０）では上述した式（２）と同様の計算が行われる。

さらに、ダウンミックス部１１２はＦＣ’、ＦＬ’、ＦＲ’、ＬＳ’、およびＲＳ’と、ＬＦＥチャンネルのオーディオ信号であるＬＦＥ’とに基づいて、次式（１１）の計算を行うことで、5.1chから2chへのダウンミックスを行う。

すなわち、式（１１）では上述した式（６）と同様の計算が行われる。

最後に、ゲイン補正部１１３と加算部１１４により次式（１２）の計算が行われて、最終的なＦＣチャンネルのオーディオ信号が得られる。

なお、式（１２）においてＦＣ’’’は最終的なＦＣチャンネルのオーディオ信号を示しており、diag_mixは、次式（１３）により得られるものとされる。

式（１３）において、ＦＣおよびＦＬは選択部１１１を介してゲイン補正部１１３に供給されたＦＣチャンネルおよびＦＬチャンネルのオーディオ信号を示している。

また、fac[diag_mix_gain1[0]]は関数facにdiag_mix_gain1[0]を代入して得られるゲイン係数を示しており、fac[diag_mix_gain1[1]]は関数facにdiag_mix_gain1[1]を代入して得られるゲイン係数を示している。

なお、以上においてはダイアログ音声のチャンネルをダウンミックス処理に使用しない（対象としない）という目的のために、ダウンミックスの入力とする、ダイアログ音声のオーディオ信号を０値化する例について説明したが、ダウンミックス係数が０とされるようにしてもよい。そのような場合、ダウンミックス処理部６４は、diag_present_flag[i]の値が１であるチャンネルｉのダウンミックス係数を０とする。これにより、実質的にダイアログ音声のチャンネルがダウンミックス処理の対象外となる。

さらに、ダイアログチャンネル情報にはダイアログ音声のチャンネルの属性を示すdiag_tag_idx[i]が含まれているので、このdiag_tag_idx[i]を利用して複数のダイアログ音声のなかから、いくつかの適切なダイアログ音声のみを選択して再生させることもできる。

具体的には、複数のダイアログ音声が切り替え用途で利用される場合、ダウンミックス処理部６４の選択部１１１は、diag_tag_idx[i]に基づいて、複数のダイアログ音声のチャンネルのなかから、上位の装置等から指定された１または複数のダイアログ音声のチャンネルを選択し、ダウンミックス部１１２およびゲイン補正部１１３に供給する。このとき、ダウンミックス部１１２に供給されるダイアログ音声のチャンネルのオーディオ信号は０値化される。また、選択部１１１は、選択されなかった他のダイアログ音声のチャンネルについては、それらのチャンネルのオーディオ信号を破棄する。これにより、言語などの切り替えを容易に行うことができる。

ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

図１４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブルメディア５１１を駆動する。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

さらに、本技術は、以下の構成とすることも可能である。

（１）
マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択する選択部と、
前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を１または複数のチャンネルのオーディオ信号にダウンミックスするダウンミックス部と、
前記ダウンミックスにより得られた１または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する加算部と
を備えるオーディオ信号処理装置。
（２）
前記加算部は、前記ダイアログ音声のチャンネルのオーディオ信号の加算先を示す加算先情報により指定されたチャンネルを前記所定のチャンネルとして、前記ダイアログ音声のチャンネルのオーディオ信号の加算を行う
（１）に記載のオーディオ信号処理装置。
（３）
前記ダイアログ音声のチャンネルのオーディオ信号の前記所定のチャンネルのオーディオ信号への加算時のゲインを示すゲイン情報に基づいて、前記ダイアログ音声のチャンネルのオーディオ信号をゲイン補正するゲイン補正部をさらに備え、
前記加算部は、前記ゲイン補正部によりゲイン補正されたオーディオ信号を、前記所定のチャンネルのオーディオ信号に加算する
（２）に記載のオーディオ信号処理装置。
（４）
ビットストリームから前記各チャンネルに関する情報、前記加算先情報、および前記ゲイン情報を抽出する抽出部をさらに備える
（３）に記載のオーディオ信号処理装置。
（５）
前記抽出部は、前記ビットストリームから符号化された前記マルチチャンネルのオーディオ信号をさらに抽出し、
前記符号化された前記マルチチャンネルのオーディオ信号を復号して前記選択部に出力する復号部をさらに備える
（４）に記載のオーディオ信号処理装置。
（６）
前記ダウンミックス部は、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号に対して多段階のダウンミックスを行い、
前記加算部は、前記多段階のダウンミックスにより得られた前記１または複数のチャンネルのオーディオ信号のうちの前記所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
（１）乃至（５）の何れか一項に記載のオーディオ信号処理装置。
（７）
マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、
前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を１または複数のチャンネルのオーディオ信号にダウンミックスし、
前記ダウンミックスにより得られた１または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
ステップを含むオーディオ信号処理方法。
（８）
マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、
前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を１または複数のチャンネルのオーディオ信号にダウンミックスし、
前記ダウンミックスにより得られた１または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
ステップを含む処理をコンピュータに実行させるプログラム。
（９）
マルチチャンネルのオーディオ信号を符号化する符号化部と、
前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成する生成部と、
符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成するパッキング部と
を備える符号化装置。
（１０）
前記生成部は、前記マルチチャンネルのオーディオ信号がダウンミックスされた場合に、前記ダウンミックスにより得られる１または複数のチャンネルのオーディオ信号のうちの、前記ダイアログ音声のチャンネルのオーディオ信号の加算先となるオーディオ信号のチャンネルを示す加算先情報をさらに生成し、
前記パッキング部は、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、および前記加算先情報を含む前記ビットストリームを生成する
（９）に記載の符号化装置。
（１１）
前記生成部は、前記ダイアログ音声のチャンネルのオーディオ信号の前記加算先情報により示されるチャンネルへの加算時のゲイン情報をさらに生成し、
前記パッキング部は、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、前記加算先情報、および前記ゲイン情報を含む前記ビットストリームを生成する
（１０）に記載の符号化装置。
（１２）
マルチチャンネルのオーディオ信号を符号化し、
前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、
符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成する
ステップを含む符号化方法。
（１３）
マルチチャンネルのオーディオ信号を符号化し、
前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、
符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。

１１エンコーダ，２１ダイアログチャンネル情報生成部，２２符号化部，２３パッキング部，５１デコーダ，６３復号部，６４ダウンミックス処理部，１１１選択部，１１２ダウンミックス部，１１３ゲイン補正部，１１４加算部

Claims

マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択する選択部と、
前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を１または複数のチャンネルのオーディオ信号にダウンミックスするダウンミックス部と、
前記ダウンミックスにより得られた１または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する加算部と
を備えるオーディオ信号処理装置。
前記加算部は、前記ダイアログ音声のチャンネルのオーディオ信号の加算先を示す加算先情報により指定されたチャンネルを前記所定のチャンネルとして、前記ダイアログ音声のチャンネルのオーディオ信号の加算を行う
請求項１に記載のオーディオ信号処理装置。
前記ダイアログ音声のチャンネルのオーディオ信号の前記所定のチャンネルのオーディオ信号への加算時のゲインを示すゲイン情報に基づいて、前記ダイアログ音声のチャンネルのオーディオ信号をゲイン補正するゲイン補正部をさらに備え、
前記加算部は、前記ゲイン補正部によりゲイン補正されたオーディオ信号を、前記所定のチャンネルのオーディオ信号に加算する
請求項２に記載のオーディオ信号処理装置。
ビットストリームから前記各チャンネルに関する情報、前記加算先情報、および前記ゲイン情報を抽出する抽出部をさらに備える
請求項３に記載のオーディオ信号処理装置。
前記抽出部は、前記ビットストリームから符号化された前記マルチチャンネルのオーディオ信号をさらに抽出し、
前記符号化された前記マルチチャンネルのオーディオ信号を復号して前記選択部に出力する復号部をさらに備える
請求項４に記載のオーディオ信号処理装置。
前記ダウンミックス部は、前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号に対して多段階のダウンミックスを行い、
前記加算部は、前記多段階のダウンミックスにより得られた前記１または複数のチャンネルのオーディオ信号のうちの前記所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
請求項１乃至請求項５の何れか一項に記載のオーディオ信号処理装置。
マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、
前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を１または複数のチャンネルのオーディオ信号にダウンミックスし、
前記ダウンミックスにより得られた１または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
ステップを含むオーディオ信号処理方法。
マルチチャンネルのオーディオ信号の各チャンネルに関する情報に基づいて、前記マルチチャンネルのオーディオ信号のなかから、ダイアログ音声のチャンネルのオーディオ信号と、ダウンミックス対象の複数のチャンネルのオーディオ信号とを選択し、
前記ダウンミックス対象とされた複数のチャンネルのオーディオ信号を１または複数のチャンネルのオーディオ信号にダウンミックスし、
前記ダウンミックスにより得られた１または複数のチャンネルのオーディオ信号のうちの所定のチャンネルのオーディオ信号に、前記ダイアログ音声のチャンネルのオーディオ信号を加算する
ステップを含む処理をコンピュータに実行させるプログラム。
マルチチャンネルのオーディオ信号を符号化する符号化部と、
前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成する生成部と、
符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成するパッキング部と
を備える符号化装置。
前記生成部は、前記マルチチャンネルのオーディオ信号がダウンミックスされた場合に、前記ダウンミックスにより得られる１または複数のチャンネルのオーディオ信号のうちの、前記ダイアログ音声のチャンネルのオーディオ信号の加算先となるオーディオ信号のチャンネルを示す加算先情報をさらに生成し、
前記パッキング部は、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、および前記加算先情報を含む前記ビットストリームを生成する
請求項９に記載の符号化装置。
前記生成部は、前記ダイアログ音声のチャンネルのオーディオ信号の前記加算先情報により示されるチャンネルへの加算時のゲイン情報をさらに生成し、
前記パッキング部は、符号化された前記マルチチャンネルのオーディオ信号、前記識別情報、前記加算先情報、および前記ゲイン情報を含む前記ビットストリームを生成する
請求項１０に記載の符号化装置。
マルチチャンネルのオーディオ信号を符号化し、
前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、
符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成する
ステップを含む符号化方法。
マルチチャンネルのオーディオ信号を符号化し、
前記マルチチャンネルのオーディオ信号の各チャンネルが、ダイアログ音声のチャンネルであるか否かを示す識別情報を生成し、
符号化された前記マルチチャンネルのオーディオ信号と、前記識別情報とを含むビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。