以下に、一つの実施形態によるオーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム、ならびにオーディオ復号装置の実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。
(実施例1)
図1は、一つの実施形態によるオーディオ符号化装置1の機能ブロック図である。図1に示す様に、オーディオ符号化装置1は、時間周波数変換部11、第1ダウンミックス部12、第2ダウンミックス部13、空間情報符号化部14、算出部15、周波数時間変換部16、判定部17、変換部18、多重化部19を有する。
オーディオ符号化装置1が有するこれらの各部は、例えば、ワイヤードロジックによるハードウェア回路としてそれぞれ別個の回路として形成される。あるいはオーディオ符号化装置1が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ符号化装置1に実装されてもよい。なお、集積回路は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路であれば良い。更に、オーディオ符号化装置1が有するこれらの各部は、オーディオ符号化装置1が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
時間周波数変換部11は、オーディオ符号化装置1に入力されたマルチチャネルオーディオ信号の時間領域の各チャネルの信号(例えば、5.1chの信号)をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する。実施例1では、時間周波数変換部11は、次式のQuadrature Mirror Filter(QMF)フィルタバンクを用いて、各チャネルの信号を周波数信号に変換する。
(数1)
ここでnは時間を表す変数であり、1フレームのオーディオ信号を時間方向に128等分したときのn番目の時間を表す。なお、フレーム長は、例えば、10〜80 msecの何れかとすることができる。またkは周波数帯域を表す変数であり、周波数信号が有する周波数帯域を64等分したときのk番目の周波数帯域を表す。またQMF(k,n)は、時間n、周波数kの周波数信号を出力するためのQMFである。時間周波数変換部11は、QMF(k,n)を入力されたチャネルの1フレーム分のオーディオ信号に乗じることにより、そのチャネルの周波数信号を生成する。なお、時間周波数変換部11は、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いて、各チャネルの信号をそれぞれ周波数信号に変換してもよい。
時間周波数変換部11は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号(例えば、左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n)、中央チャネルの周波数信号C(k,n)、重低音チャネルの周波数信号LFE(k,n)を第1ダウンミックス部12と算出部15へ出力する。
第1ダウンミックス部12は、各チャネルの周波数信号を時間周波数変換部11から受け取る度に、それら各チャネルの周波数信号をダウンミックスすることにより、左チャネル、中央チャネル及び右チャネルの周波数信号を生成する。換言すると、第1ダウンミックス部12は、オーディオ信号に含まれる複数のチャネルに含まれる第1の数の信号を第2の数のダウンミックス信号として混合する。具体的には、第1ダウンミックス部12は、次式に従って、例えば、以下の3個のチャネルの周波数信号を算出する。
(数2)
上述の(数2)において、LRe(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの実数部を表し、LIm(k,n)は、左前方チャネルの周波数信号L(k,n)のうちの虚数部を表す。またSLRe(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの実数部を表し、SLIm(k,n)は、左後方チャネルの周波数信号SL(k,n)のうちの虚数部を表す。そしてLin(k,n)は、ダウンミックスにより生成される左チャネルの周波数信号である。なお、LinRe(k,n)は、左チャネルの周波数信号のうちの実数部を表し、LinIm(k,n)は、左チャネルの周波数信号のうちの虚数部を表す。
同様に、RRe(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの実数部を表し、RIm(k,n)は、右前方チャネルの周波数信号R(k,n)のうちの虚数部を表す。またSRRe(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの実数部を表し、SRIm(k,n)は、右後方チャネルの周波数信号SR(k,n)のうちの虚数部を表す。そしてRin(k,n)は、ダウンミックスにより生成される右チャネルの周波数信号である。なお、RinRe(k,n)は、右チャネルの周波数信号のうちの実数部を表し、RinIm(k,n)は、右チャネルの周波数信号のうちの虚数部を表す。
さらに、CRe(k,n)は、中央チャネルの周波数信号C(k,n)のうちの実数部を表し、CIm(k,n)は、中央チャネルの周波数信号C(k,n)のうちの虚数部を表す。またLFERe(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの実数部を表し、LFEIm(k,n)は、重低音チャネルの周波数信号LFE(k,n)のうちの虚数部を表す。そしてCin(k,n)は、ダウンミックスにより生成される中央チャネルの周波数信号である。なお、CinRe(k,n)は、中央チャネルの周波数信号Cin(k,n)のうちの実数部を表し、CinIm(k,n)は、中央チャネルの周波数信号Cin(k,n)のうちの虚数部を表す。
また、第1ダウンミックス部12は、ダウンミックスされる二つのチャネルの周波数信号間の空間情報として、音の定位を表す情報であるその周波数信号間の強度差と、音の広がりを表す情報となる当該周波数信号間の類似度を周波数帯域ごとに算出する。第1ダウンミックス部12が算出するこれらの空間情報は、3チャネル空間情報の一例である。実施例1では、第1ダウンミックス部12は、次式に従って、例えば、左チャネルについての周波数帯域kの強度差CLDL(k)と類似度ICCL(k)を算出する。
(数3)
(数4)
ここで、Nは、1フレームに含まれる時間方向のサンプル点数であり、実施例1では、Nは128である。また、eL(k)は、左前方チャネルの周波数信号L(k,n)の自己相関値であり、eSL(k)は、左後方チャネルの周波数信号SL(k,n)の自己相関値である。またeLSL(k)は、左前方チャネルの周波数信号L(k,n)と左後方チャネルの周波数信号SL(k,n)との相互相関値である。
同様に、第1ダウンミックス部12は、次式に従って右チャネルについての周波数帯域kの強度差CLDR(k)と類似度ICCR(k)を算出する。
(数5)
(数6)
ここで、eR(k)は、右前方チャネルの周波数信号R(k,n)の自己相関値であり、eSR(k)は、右後方チャネルの周波数信号SR(k,n)の自己相関値である。またeRSR(k)は、右前方チャネルの周波数信号R(k,n)と右後方チャネルの周波数信号SR(k,n)との相互相関値である。
さらに、第1ダウンミックス部12は、次式に従って中央チャネルについての周波数帯域kの強度差CLDc(k)を算出する。
(数7)
ここで、eC(k)は、中央チャネルの周波数信号C(k,n)の自己相関値であり、eLFE(k)は、重低音チャネルの周波数信号LFE(k,n)の自己相関値である。なお、第1ダウンミックス部12が算出する、強度差CLDL(k)、CLDR(k)、CLDc(k)と類似度ICCL(k)、ICCR(k)を
便宜上、纏めて第1空間情報SAC(k)と称しても良い。第1ダウンミックス部12は、ダウンミックスにより生成した左チャネルの周波数信号Lin(k,n)、右チャネルの周波数信号Rin(k,n)、中央チャネルの周波数信号Cin(k,n)を、第2ダウンミックス部13に出力し、第1空間情報SAC(k)を空間情報符号化部14と算出部15へ出力する。
第2ダウンミックス部13は、第1ダウンミックス部12によりそれぞれ生成される左チャネルの周波数信号Lin(k,n)、右チャネルの周波数信号Rin(k,n)、中央チャネルの周波数信号Cin(k,n)の3チャネルの周波数信号を受け取る。第2ダウンミックス部13は、当該3チャネルの周波数信号から、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号を生成する。更に、第2ダウンミックス部13は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号を生成する。第2ダウンミックス部13は、例えば、次式に従ってステレオ周波数信号の左側周波数信号L0(k,n)及び右側周波数信号R0(k,n)を生成する。さらに第1ダウンミックス部12は、例えば、符号帳に含まれる予測係数を選択する為に利用される中央チャネルの信号C0(k,n)を次式に従って算出する。
(数8)
上述の(数8)において、Lin(k,n)、Rin(k,n)、Cin(k,n)は、それぞれ、第1ダウンミックス部12により生成された左チャネル、右チャネル及び中央チャネルの周波数信号である。左側周波数信号L0(k,n)は、元のマルチチャネルオーディオ信号の左前方チャネル、左後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。同様に、右側周波数信号R0(k,n)は、元のマルチチャネルオーディオ信号の右前方チャネル、右後方チャネル、中央チャネル及び重低音チャネルの周波数信号が合成されたものとなる。なお、上述の(数8)の左側周波数信号L0(k,n)と、右側周波数信号R0(k,n)を展開すると次式の通りとなる。
(数9)
第2ダウンミックス部13は、必要に応じて、第2ダウンミックス部13においてダウンミックスされる二つのチャネルの周波数信号についての予測係数を符号帳から選択する。例えば、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)とから、中央チャネルの信号C0(k,n)の予測符号化を行う場合は、第2ダウンミックス部13は、右側周波数信号R0(k,n)と左側周波数信号L0(k,n)をダウンミックスすることにより、2チャネルのステレオ周波数信号を生成することになる。第2ダウンミックス部13は、予測符号化を行う場合、周波数帯域ごとに、C0(k,n)と、L0(k,n)、R0(k,n)から次式で定義される予測符号化前と予測符号化後の周波数信号の誤差d(k,n)が最小となる予測係数c1(k)とc2(k)を符号帳から選択する。この様にして第2ダウンミックス部13は、予測符号化後の中央チャネルの信号C'0(k,n)を予測符号化することが出来る。
(数10)
また、上述の(数10)は、実数部と虚数部を用いると次式の通りに表現できる。
(数11)
なお、L0Re(k,n)はL0(k,n)の実数部、L0Im(k,n)はL0(k,n)の虚数部、R0Re(k,n)はR0(k,n)の実数部、R0Im(k,n)はR0(k,n)の虚数部を表す。
第2ダウンミックス部13は、上述の通り、予測符号化前の中央チャネルの信号C0(k,n)と予測符号化後の中央チャネルの信号C'0(k,n)の周波数信号の誤差d(k,n)が最小となる予測係数c1(k)とc2(k)を符号帳から選択することで、中央チャネルの信号C0(k,n)を予測符号化することが可能となる。なお、この概念を数式で表現したものが上述の(数10)である。
第2ダウンミックス部13は、符号帳に含まれる予測係数c1(k)、c2(k)を用いて、第2ダウンミックス部13が有する予測係数c1(k)、c2(k)の代表値とインデックス値との対応関係を示した量子化テーブル(符号帳)を参照する。そして、第2ダウンミックス部13は、量子化テーブルを参照することにより、各周波数帯域についての予測係数c1(k)、c2(k)に対して、最も値が近いインデックス値を決定する。ここで、具体例について説明する。図2は、予測係数に対する量子化テーブル(符号帳)の一例を示す図である。図2に示す量子化テーブル200において、行201、203、205、207及び209の各欄はインデックス値を表す。一方、行202、204、206、208及び210の各欄は、それぞれ、同じ列の行201、203、205、207及び209の各欄に示されたインデックス値に対応する予測係数の代表値を表す。例えば、第2ダウンミックス部13は、周波数帯域kに対する予測係数c1(k)が1.2である場合、予測係数c1(k)に対するインデックス値を12に設定する。
次に、第2ダウンミックス部13は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が2であり、周波数帯域(k-1)に対するインデックス値が4であれば、第2ダウンミックス部13は、周波数帯域kに対するインデックスの差分値を−2とする。
次に、第2ダウンミックス部13は、インデックス間の差分値と予測係数符号の対応を示した符号化テーブルを参照する。そして第2ダウンミックス部13は、符号化テーブルを参照することにより、予測係数cm(k)(m=1,2)の各周波数帯域kの差分値に対する予測係数符号idxcm(k)(m=1,2)を決定する。予測係数符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。なお、量子化テーブル及び符号化テーブルは、予め、第2ダウンミックス部13が有する図示しないメモリに格納される。図1において、第2ダウンミックス部13は、予測係数符号idxcm(k) (m=1,2)を空間情報符号化部14へ出力する。なお、予測係数符号idxcm(k)(m=1,2)を第2空間情報と称しても良い。
第2ダウンミックス部13は、上述の予測係数に基づく予測符号化に代えて、エネルギー比に基づく予測符号化を行っても良い。第2ダウンミックス部13は、次式に基づいて、第1ダウンミックス部12によりそれぞれ生成される左チャネルの周波数信号Lin(k,n)、右チャネルの周波数信号Rin(k,n)、中央チャネルの周波数信号Cin(k,n)の3チャネルの周波数信号に関する強度差CLD1(k), CLD2(k)を次式に基づいてそれぞれ算出する。
(数12)
第2ダウンミックス部13は、3チャネルの周波数信号に関する強度差CLD1(k), CLD2(k)を空間情報符号化部14へ出力する。なお、強度差CLD1(k), CLD2(k)を予測係数符号idxcm(k)(m=1,2)の代わりに第2空間情報と称しても良い。また、第2ダウンミックス部13は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)を周波数時間変換部16へ出力する。なお、換言すると、オーディオ信号に含まれる複数のチャネル(5.1ch)に含まれる任意の2つの第1チャネル信号と第2チャネル信号が、ダウンミックス信号として第1ダウンミックス部12または、第2ダウンミックス部13によって混合される。
空間情報符号化部14は、第1ダウンミックス部12から受け取った第1空間情報と、第2ダウンミックス部14から受け取った第2空間情報からMPEG Surround符号(以下、空間情報符号と称する)を生成する。
空間情報符号化部14は、第1空間情報と第2空間情報中の類似度の値とインデックス値の対応を示した量子化テーブルを参照する。そして空間情報符号化部14は、量子化テーブルを参照することにより、各周波数帯域についてそれぞれの類似度ICCi(k)(i=L,R)と最も値が近いインデックス値を決定する。なお、量子化テーブルは、予め、空間情報符号化部14が有する図示しないメモリ等に格納されれば良い。
図3は、類似度に対する量子化テーブルの一例を示す図である。図3に示す量子化テーブル300において、上段の行310の各欄はインデックス値を表し、下段の行320の各欄は、同じ列のインデックス値に対応する類似度の代表値を表す。また、類似度が取りうる値の範囲は−0.99〜+1である。例えば、周波数帯域kに対する類似度が0.6である場合、量子化テーブル300では、インデックス値3に対応する類似度の代表値が、周波数帯域kに対する類似度に最も近い。そこで、空間情報符号化部14は、周波数帯域kに対するインデックス値を3に設定する。
次に、空間情報符号化部14は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が3であり、周波数帯域(k-1)に対するインデックス値が0であれば、空間情報符号化部14は、周波数帯域kに対するインデックスの差分値を3とする。
空間情報符号化部14は、インデックス値の差分値と類似度符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部14は、符号化テーブルを参照することにより、類似度ICCi(k)(i=L,R)の各周波数についてインデックス間の差分値に対する類似度符号idxicci(k)(i=L,R)を決定する。なお、符号化テーブルは、予め、空間情報符号化部14が有するメモリ等に格納される。また、類似度符号は、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。
図4は、インデックスの差分値と類似度符号の関係を示すテーブルの一例を示す図である。図4に示す例では、類似度符号はハフマン符号である。図4に示す符号化テーブル400において、左側の列の各欄はインデックスの差分値を表し、右側の列の各欄は、同じ行のインデックスの差分値に対応する類似度符号を表す。例えば、周波数帯域kの類似度ICCL(k)に対するインデックスの差分値が3である場合、空間情報符号化部14は、符号化テーブル400を参照することにより、周波数帯域kの類似度ICCL(k)に対する類似度符号idxiccL(k)を"111110"に設定する。
空間情報符号化部14は、強度差の値とインデックス値との対応関係を示した量子化テーブルを参照する。そして空間情報符号化部14は、量子化テーブルを参照することにより、各周波数についての強度差CLDj(k)(j=L,R,C,1,2)と最も値が近いインデックス値を決定する。空間情報符号化部14は、各周波数帯域について、周波数方向に沿ってインデックス間の差分値を求める。例えば、周波数帯域kに対するインデックス値が2であり、周波数帯域(k-1)に対するインデックス値が4であれば、空間情報符号化部14は、周波数帯域kに対するインデックスの差分値を−2とする。
空間情報符号化部14は、インデックス間の差分値と強度差符号の対応を示した符号化テーブルを参照する。そして空間情報符号化部14は、符号化テーブルを参照することにより、強度差CLDj(k)の各周波数帯域kの差分値に対する強度差符号idxcldj(k)(j=L,R,C,1,2)を決定する。強度差符号は、類似度符号と同様に、例えば、ハフマン符号あるいは算術符号など、出現頻度が高い差分値ほど符号長が短くなる可変長符号とすることができる。なお、量子化テーブル及び符号化テーブルは、予め空間情報符号化部14が有するメモリに格納されれば良い。
図5は、強度差に対する量子化テーブルの一例を示す図である。図5に示す量子化テーブル500において、行510、530及び550の各欄はインデックス値を表し、行520、540及び560の各欄は、それぞれ、同じ列の行510、530及び550の各欄に示されたインデックス値に対応する強度差の代表値を表す。例えば、周波数帯域kに対する強度差CLDL(k)が10.8dBである場合、量子化テーブル500では、インデックス値5に対応する強度差の代表値がCLDL(k)に最も近い。そこで、空間情報符号化部14は、CLDL(k)に対するインデックス値を5に設定する。
空間情報符号化部14は、類似度符号idxicci(k)、強度差符号idxcldj(k)及び、必要に応じて、予測係数符号idxcm(k)を用いて空間情報符号を生成する。例えば、空間情報符号化部14は、類似度符号idxicci(k)、強度差符号idxcldj(k)及び、必要に応じて予測係数符号idxcm(k)を所定の順序に従って配列することにより、空間情報符号を生成する。この所定の順序については、例えば、ISO/IEC23003−1:2007に記述されている。空間情報符号化部14は、生成した空間情報符号を多重化部19へ出力する。
算出部15は、時間周波数変換部11から各チャネルの周波数信号(左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n))を受け取る。また、算出部15は、第1ダウンミックス部12から第1空間情報SAC(k)を受け取る。算出部15は、左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、ならびに第1空間情報SAC(k)から、例えば、左チャネルの残差信号resL(k,n)を次式に従って算出する。
(数13)
上述の(数13)において、CLCpL,ICCpLは次式に基づいて算出することが出来る。
(数14)
CLDp(n) = (1-γ(n) )×CLDL-prev(k) + γ(n)×CLDL-cur(k)
ICCp(n) = (1-γ(n) )×ICCL-prev(k) + γ(n)×ICCL-cur(k)
γ(n) = (n+1) / M = (n+1)/31
但し、上述の(数14)において、nは時間であり、Mはフレーム内の時間サンプル数である。CLDL-curは、現フレームの左チャネルについての周波数帯域kの強度差CLDL(k)であり、CLDL-prevは、現フレームより1フレーム前のフレームの左チャネルについての周波数帯域kの強度差CLDL(k)である。また、ICCL-curは、現フレームの左チャネルについての周波数帯域kの類似度ICCL(k)であり、ICCL-prevは、現フレームより1フレーム前のフレームの左チャネルについての周波数帯域kの類似度ICCL(k)である。
次に、算出部15は、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n)、ならびに第1空間情報から右チャネルの残差信号resR(k,n)を、上述の左チャネルの残差信号resL(k,n)と同様の方法で算出する。算出部15は、算出した左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)を周波数時間変換部16へ出力する。なお、上述の(数14)において、γ(n)は線形補間を意味し、当該線形補間により0.5フレーム時間分の遅延が発生する。この理由は以下の通りである。残差信号(左チャネルの残差信号resL(k,n)または右チャネルの残差信号resR(k,n))は、上述の(数13)、(数14)から理解出来る通り、入力信号と復号時に用いられる第1空間情報から計算される。復号時に用いられる第1空間情報は、オーディオ符号化装置1から出力されるNフレーム目の第1空間情報とN−1フレーム目の第1空間情報を線形補間することで算出される。ここで、オーディオ符号化装置1から出力される第1空間情報は、1フレーム1バンド(周波数帯域)毎に1つの値しか有さない。この為、第1空間情報は、計算範囲(フレーム)の中心の時間位置として扱われるため、線形補間により0.5フレームの遅延が発生する。この様に、復号時の第1空間情報の取り扱いにおいて0.5フレーム時間分の遅延が発生する為、算出部15による残差信号の算出においても同様に0.5フレーム時間分の遅延が発生することになる。なお、換言すると、算出部15は、オーディオ信号に含まれる複数のチャネル(5.1ch)に含まれる任意の2つの第1チャネル信号と第2チャネル信号の残差信号を算出する。
周波数時間変換部16は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)を第2ダウンミックス部13から受け取る。また、周波数時間変換部16は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)を算出部15から受け取る。周波数時間変換部16は、(残差信号を含む)各周波数信号を受け取る度に、周波数信号を時間領域の信号に変換する。例えば、時間周波数変換部11がQMFフィルタバンクを用いる場合、周波数時間変換部16は、次式に示す複素型のQMFフィルタバンクを用いて周波数信号を周波数時間変換する。
(数15)
ここでIQMF(k,n)は、時間n、周波数kを変数とする複素型のQMFである。なお、時間周波数変換部11が、高速フーリエ変換、離散コサイン変換、修正離散コサイン変換など、他の時間周波数変換処理を用いている場合、周波数時間変換部16は、その時間周波数変換処理の逆変換を使用する。周波数時間変換部16は、周波数時間変換することにより得られた左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を判定部17と変換部18に出力する。また、周波数時間変換部16は、周波数時間変換することにより得られた左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を変換部18に出力する。
判定部17は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を周波数時間変換部16から受け取る。判定部17は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号から窓長を判定する。具体的には、判定部17は、先ず、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号から心理聴覚エントロピー(PE;Perceptual Entropy)を算出する。なお、PEは、リスナー(ユーザ)が雑音を知覚することがない様に、フレームのセグメントを量子化するために必要な情報量を表す。
上述のPEは、例えば、打楽器が発する音のようなアタック音など、信号レベルが短時間で急峻に変化する音に対して大きな値となる特性を有する。換言すると、判定部17は、ダウンミックス信号にアタック音が含まれている場合は窓長を短窓長と判定し、ダウンミックス信号にアタック音が含まれていない場合は窓長を長窓長と判定することが出来る。そこで、判定部17は、PEの値が比較的大きくなるフレームのセグメント(アタック音が含まれるセグメント)に対しては、窓長を短くし(周波数分解能に対して時間分解能を高くする)。また、判定部17は、PEの値が比較的小さくなるセグメント(アタック音が含まれないセグメント)に対しては、窓長を長くする(時間分解能に対して周波数分解能を高くする)。例えば、短窓長は、128個のサンプルを含み、長窓長は、1024個のサンプルを含む。判定部17は、窓長の判定として以下の判定式を用いて短窓長か長窓長を判定することが出来る。
(数16)
δPow > Th , then short (短窓長)
δPow <= Th , then long (長窓長)
上述の(数16)において、Thは、時間信号の電力(振幅)に対する任意の閾値(例えば、時間信号の平均電力の70%)である。δPowは、例えば、同一フレーム内における隣接するセグメントの電力差である。なお、判定部17は、例えば、特開平7−66733に開示される窓長の判定方法を適用しても良い。判定部17は、判定した窓長を変換部18へ出力する。
変換部18は、窓長を判定部17から受け取り、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を周波数時間変換部16から受け取る。また、変換部18は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を周波数時間変換部16から受け取る。
先ず、変換部18は、判定部17によって判定された窓長を用いて左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号に対して、直交変換の一例である修正離散コサイン変換(MDCT変換;Modified Discrete Cosine Transform)を実行することにより、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号をMDCT係数の組に変換する。更に、変換部18は、MDCT係数の組を量子化し、量子化されたMDCT係数の組を可変長符号化する。変換部18は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、例えば、ダウンミックス信号符号として多重化部19へ出力する。なお、変換部18は、例えば、次式に基づいて修正離散コサイン変換を行うことが出来る。
(数17)
なお、上述の(数17)において、MDCTkは、変換部18が出力する出力MCDT係数である。Wnは、窓係数である。また、Innは、入力時間信号であり、左側周波数信号L0(k,n)または右側周波数信号R0(k,n)の時間信号である。nは、時間であり、kは、周波数帯域である。Nは、窓長に2を乗じた定数である。更に、N0は、(N/2+1)/2で表現される定数である。なお、上述の窓係数Wnは、変換対象となる現フレームの窓長と、当該現フレームよりも1フレーム分先の(未来の)フレームの窓長の組み合わせで規定される4種類の窓(1.長窓長→長窓長、2.長窓長→短窓長、3.短窓長→短窓長、4.短窓長→長窓長)に応じた係数である。なお、変換部18の直交変換においては、上述の通り、窓係数Wnの選定において、現フレームよりも1フレーム分先の(未来の)フレーム窓長の情報が必要となる為、1フレーム時間分の遅延が発生することになる。
次に、変換部18は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を判定部17によって判定された窓長を、そのまま用いて時間信号に対して、直交変換の一例である修正離散コサイン変換(MDCT変換)を実行することにより、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号をMDCT係数の組に変換する。更に、変換部18は、MDCT係数の組を量子化し、量子化されたMDCT係数の組を可変長符号化する。変換部18は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、例えば、残差信号符号として多重化部19へ出力する。なお、変換部18は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の修正離散コサイン変換を、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号と同様に上述の(数17)を用いて、行うことが出来る。なお、この場合、入力時間信号Innは、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号となる。更に、窓係数Wnは、左側周波数信号L0(k,n)または右側周波数信号R0(k,n)の修正離散コサイン変換で用いた窓係数Wnをそのまま用いる。この為、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の直交変換においては、現フレームよりも1フレーム分先の(未来の)フレーム窓長の情報を必要としない為、1フレーム時間分の遅延は発生しないことになる。
変換部18は、ダウンミックス信号符号と残差信号符号へ変換する際、ダウンミックス信号符号と残差信号符号の遅延量が同期する様に、遅延量を合わせた上で直交変換を行う。この理由は以下の通りである。ダウンミックス信号符号と残差信号符号の遅延量が、オーディオ符号化装置1側で同期されなかった場合には、オーディオ復号装置にダウンミックス信号符号と残差信号符の遅延量が同期されないまま出力されることになる。通常のオーディオ復号装置では、時間位置の補正は実施しない。この為、本来の音源とは異なる時間位置のダウンミックス信号符号と残差信号符号を用いて復号される為、本来の音源を復号することが出来ない。この為、ダウンミックス信号符号と残差信号符号の遅延量をオーディオ符号化装置1側で同期させる必要がある。なお、ダウンミックス信号符号と残差信号符号の遅延量の同期は、変換部18がダウンミックス信号符号と残差信号符号を多重化部19に出力する際に同期させても良い。また、多重化部19が後述する多重化を行う際に同期させても良い。更に、変換部18は、ダウンミックス信号符号と残差信号符号の遅延量を同期させる為に、図示しないキャッシュやメモリなどのバッファを有しても良い。
多重化部19は、ダウンミックス信号符号、残差信号符号を変換部18から受け取る。また、多重化部19は、空間情報符号を空間情報符号化部14から受け取る。
多重化部19は、ダウンミックス信号符号、空間情報符号、ならびに残差信号符号を所定の順序に従って配列することにより多重化する。そして多重化部19は、多重化により生成された符号化オーディオ信号を出力する。図6は、符号化されたオーディオ信号が格納されたデータ形式の一例を示す図である。図6の例では、符号化オーディオ信号は、MPEG-4 ADTS(Audio Data Transport Stream)形式に従って作成される。図6に示される符号化データ列600において、データブロック610にダウンミックス信号符号が格納される。またADTS形式のFILLエレメントが格納されるブロック620の一部領域に空間情報符号、ならびに残差信号符号が格納される。
ここで、実施例1における技術的意義の一例について説明する。後述する比較例にて詳細に説明を行うが、通常、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号から、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の窓長を上述の(数16)を用いて算出する必要がある。更に、当該窓長を用いて、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の直交変換(例えば、修正離散コサイン変換)を、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号と同様に上述の(数17)を用いて行う必要がある。よって、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の直交変換では、窓係数Wnの選定において、現フレームよりも1フレーム分先の(未来の)フレーム窓長の情報が必要となる為、1フレーム時間分の遅延が発生することになる。
しかしながら、実施例1においては、上述の通り、変換部18は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の修正離散コサイン変換において、窓係数Wnを左側周波数信号L0(k,n)または右側周波数信号R0(k,n)の修正離散コサイン変換で用いた窓係数Wnをそのまま用いている。この為、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の直交変換においては、現フレームよりも1フレーム分先の(未来の)フレーム窓長の情報を必要としない為、1フレーム時間分の遅延が発生しない利点を有する。
次に、実施例1における変換部18が、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の修正離散コサイン変換において、窓係数Wnを左側周波数信号L0(k,n)または右側周波数信号R0(k,n)の修正離散コサイン変換で用いた窓係数Wnをそのまま用いることが可能である技術的理由について説明する。なお、当該技術的理由における知見は、本発明者らの鋭意検証の結果、新たに見出されたものである。図7(a)は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号の窓長判定結果を示す図である。図7(b)は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の窓長判定結果を示す図である。図7(a)、図7(b)は、上述の(数17)に基づく窓長の判定結果を示し、横軸は時間であり、縦軸は判定結果を示しており、0は長窓長判定、1は短窓長判定を示す。図7(a)、図7(b)において、各時刻における長窓長と短窓長の一致率を算出すると90%以上となり、強相関の関係を有することが新たに見出された。換言すると、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号の窓長と、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の窓長は強相関を有する為、一方が他方の窓長(ならびに窓係数Wn)を流用することが出来る。
上述の新たな知見における本発明者らによる技術的な考察を以下に記述する。左側周波数信号L0(k,n)と右側周波数信号R0(k,n)は、入力音源に対する直接波をモデル化した信号である。一方、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)は入力音源に対する反射波(残響音、例えば、屋内環境で反射する響き)をモデル化した信号である。双方共に、元は同一の入力音源である為、周波数信号(左側周波数信号L0(k,n)と右側周波数信号R0(k,n))と残差信号(左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n))には、位相差とパワー差は存在するものの、打楽器が発する音のようなアタック音など、信号レベルが短時間で急峻に変化する音に対して大きな値となる特性の音が双方に含まれ得る。この様な条件下において、上述の(数16)の様な閾値を用いる窓長判定を実施した場合、位相差とパワー差の影響は閾値により収束されて、強相関の関係が有することになるものと推察される。
(比較例1)
図8は、一つの実施形態(比較例)によるオーディオ符号化装置2の機能ブロック図である。図8のオーディオ符号化装置2は、実施例1に対応する比較例となる。図8に示す様に、オーディオ符号化装置2は,時間周波数変換部11、第1ダウンミックス部12、第2ダウンミックス部13、空間情報符号化部14、算出部15、周波数時間変換部16、判定部17、変換部18、多重化部19、残差信号窓長判定部20を有する。図8において、時間周波数変換部11、第1ダウンミックス部12、第2ダウンミックス部13、空間情報符号化部14、算出部15、判定部17、多重化部19の機能は図1と同様の為、詳細な説明は省略する。
図8において、周波数時間変換部16は、実施例1と同様の方法で周波数時間変換することにより得られた左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を判定部17と変換部18に出力する。周波数時間変換部16は、実施例1と同様の方法で周波数時間変換することにより得られた左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を変換部18と残差信号窓長判定部20に出力する。
残差信号窓長判定部20は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を周波数時間変換部16から受け取る。残差信号窓長判定部20は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号から、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の窓長を上述の(数16)を用いて算出する。残差信号窓長判定部20は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の窓長を変換部18に出力する。
変換部18は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号ならびに、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を周波数時間変換部16から受け取る。また、変換部18は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号の窓長を判定部17から受け取る。更に、変換部18は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の窓長を残差信号窓長判定部20から受け取る。
変換部18は、実施例1と同様の方法を用いて、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を、直交変換によりMDCT係数の組に変換する。更に、変換部18は、MDCT係数の組を量子化し、量子化されたMDCT係数の組を可変長符号化する。変換部18は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、例えば、ダウンミックス信号符号として多重化部19へ出力する。
変換部18は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を、直交変換によりMDCT係数の組に変換する。更に、変換部18は、MDCT係数の組を量子化し、量子化されたMDCT係数の組を可変長符号化する。変換部18は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、例えば、残差信号符号として多重化部19へ出力する。具体的には、変換部18は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の窓長を用いて、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の直交変換(例えば、修正離散コサイン変換)を、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号と同様に上述の(数17)を用いて行う必要がある。よって、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の直交変換においても、窓係数Wnの選定において、現フレームよりも1フレーム分先の(未来の)フレーム窓長の情報が必要となる為、1フレーム時間分の遅延が発生することになる。比較例1における変換部18は、実施例1と同様に、ダウンミックス信号符号と残差信号符号へ変換する際、ダウンミックス信号符号と残差信号符号の遅延量が同期する様に、遅延量を合わせた上で直交変換を行う必要がある。
ここで、比較例1と実施例1の遅延量を対比する。先ず、図1と図8の算出部15において、上述の通り0.5フレーム時間分の遅延が発生する(当該遅延量を第2遅延量と称しても良い)。なお、当該0.5フレーム時間分の遅延は、残差信号符号の遅延に該当する。次に、図1の変換部18においては、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を直交変換する際に、上述の通り、窓係数Wnの選定において1フレーム時間分の遅延が発生する(当該遅延量を第1遅延量と称しても良い)。なお、当該1フレーム時間分の遅延は、ダウンミックス信号符号の遅延に該当する。図8の変換部18においては、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を直交変換する際の1フレーム時間分の遅延が発生する。更に当該遅延に加えて、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を直交変換する際の1フレーム時間分の遅延が発生する。なお、当該1フレーム時間分の遅延は、残差信号符号の遅延に該当する。付言すると、比較例1における残差信号符号の全体の遅延量は、算出部15と変換部18の遅延量の合計となる為、1.5フレーム時間分となる。
ダウンミックス信号符号と残差信号符号の遅延量を同期させる為には、ダウンミックス信号符号と残差信号符号の遅い方に合わせる必要がある。この為、実施例1の遅延量は1フレーム時間分であり、比較例1の遅延量は1.5フレーム時間分となる。この為、実施例1におけるオーディオ符号化装置1は、遅延量を低減させることが可能となる。図9(a)は、実施例1におけるマルチチャネルオーディオ信号の遅延量の概念図である。図9(b)は、比較例1におけるマルチチャネルオーディオ信号の遅延量の概念図である。図9(a)、図9(b)のスペクトル図の縦軸は周波数を示し、横軸はサンプリング時間を示している。実施例1においては、比較例1よりも20 msの速さの遅延量の低減が確認された。
図10(a)は、実施例1の符号化を適用した復号後のマルチチャネルオーディオ信号のスペクトル図である。図10(b)は、比較例1の符号化を適用した復号後のマルチチャネルオーディオ信号のスペクトル図である。図10(a)、図10(b)のスペクトル図の縦軸は周波数を示し、横軸はサンプリング時間を示している。図10(a)と図10(b)をそれぞれ比較して理解出来る通り、実施例1を適用した符号化においては、比較例1のスペクトルとほぼ同様なオーディオ信号を再現(復号)出来ていることが確認された。この為、実施例1におけるオーディオ符号化装置1は、音質を低下させることなく、遅延量を低減させることが可能となる。更に、実施例1におけるオーディオ符号化装置1は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の窓長の算出処理が不要となる為、演算負荷を低減させることが出来る相乗的な効果も有する。
図11は、オーディオ符号化処理の動作フローチャートを示す。なお、図11に示されたフローチャートは、1フレーム分のマルチチャネルオーディオ信号に対する処理を表す。オーディオ符号化装置1は、マルチチャネルオーディオ信号を受信し続けている間、フレームごとに図11に示されたオーディオ符号化処理の手順を繰り返し実行する。
時間周波数変換部11は、オーディオ符号化装置1に入力されたマルチチャネルオーディオ信号の時間領域の各チャネルの信号(例えば、5.1chの信号)をそれぞれフレーム単位で時間周波数変換することにより、各チャネルの周波数信号に変換する(ステップS1101)。時間周波数変換部11は、フレーム単位で各チャネルの周波数信号を算出する度に、各チャネルの周波数信号(例えば、左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n)、中央チャネルの周波数信号C(k,n)、重低音チャネルの周波数信号LFE(k,n)を第1ダウンミックス部12と算出部15へ出力する。
第1ダウンミックス部12は、各チャネルの周波数信号を時間周波数変換部11から受け取る度に、それら各チャネルの周波数信号をダウンミックスすることにより、左チャネル、中央チャネル及び右チャネルの周波数信号を生成する。また、第1ダウンミックス部12は、ダウンミックスされる二つのチャネルの周波数信号間の空間情報として、音の定位を表す情報であるその周波数信号間の強度差と、音の広がりを表す情報となる当該周波数信号間の類似度(第1空間情報SAC(k)と称しても良い)を周波数帯域ごとに算出する(ステップS1102)。第1ダウンミックス部12が算出するこれらの空間情報は、3チャネル空間情報の一例である。実施例1では、第1ダウンミックス部12は、上述の(数3)〜(数7)に従って、第1空間情報SAC(k)を算出する。第1ダウンミックス部12は、ダウンミックスにより生成した左チャネルの周波数信号Lin(k,n)、右チャネルの周波数信号Rin(k,n)、中央チャネルの周波数信号Cin(k,n)を、第2ダウンミックス部13に出力し、第1空間情報SAC(k)を空間情報符号化部14と算出部15へ出力する。
第2ダウンミックス部13は、第1ダウンミックス部12によりそれぞれ生成される左チャネルの周波数信号Lin(k,n)、右チャネルの周波数信号Rin(k,n)、中央チャネルの周波数信号Cin(k,n)の3チャネルの周波数信号を受け取る。第2ダウンミックス部13は、当該3チャネルの周波数信号から、左チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの左側周波数信号L0(k,n)を生成する。更に、第2ダウンミックス部13は、右チャネルの周波数信号と中央チャネルの周波数信号をダウンミックスすることにより、ステレオ周波数信号のうちの右側周波数信号R0(k,n)を生成する(ステップS1103)。第2ダウンミックス部13は、例えば、次式(数8)に従ってステレオ周波数信号の左側周波数信号L0(k,n)及び右側周波数信号R0(k,n)を生成する。更に、第2ダウンミックス部は、第2空間情報として、予測係数符号idxcm(k)(m=1,2)または、強度差CLD1(k), CLD2(k)を上述の方法を用いて算出する(ステップS1104)。第2ダウンミックス部13は、第2空間情報を空間情報符号化部14へ出力する。また、第2ダウンミックス部13は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)を周波数時間変換部16へ出力する。
空間情報符号化部14は、第1ダウンミックス部12から受け取った第1空間情報と、第2ダウンミックス部14から受け取った第2空間情報から空間情報符号を生成する(ステップS1105)。空間情報符号化部14は、生成した空間情報符号を多重化部19へ出力する。
算出部15は、時間周波数変換部11から各チャネルの周波数信号(左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号SR(k,n))を受け取る。また、算出部15は、第1ダウンミックス部12から第1空間情報SAC(k)を受け取る。算出部15は、左前方チャネルの周波数信号L(k,n)、左後方チャネルの周波数信号SL(k,n)、ならびに第1空間情報SAC(k)から、例えば、左チャネルの残差信号resL(k,n)を上述の(数13)、(数14)に従って算出する。次に、算出部15は、右前方チャネルの周波数信号R(k,n)、右後方チャネルの周波数信号RL(k,n)、ならびに第1空間情報から右チャネルの残差信号resR(k,n)を、上述の左チャネルの残差信号resL(k,n)と同様の方法で算出する(ステップS1106)。算出部15は、算出した左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)を周波数時間変換部16へ出力する。
周波数時間変換部16は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)を第2ダウンミックス部13から受け取る。また、周波数時間変換部16は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)を算出部15から受け取る。周波数時間変換部16は、(残差信号を含む)各周波数信号を受け取る度に、周波数信号を時間領域の信号に変換する(ステップS1107)。周波数時間変換部16は、周波数時間変換することにより得られた左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を判定部17と変換部18に出力する。また、周波数時間変換部16は、周波数時間変換することにより得られた左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を変換部18に出力する。
判定部17は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を周波数時間変換部16から受け取る。判定部17は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号から窓長を判定する(ステップS1108)。判定部17は、判定した窓長を変換部18へ出力する。
変換部18は、窓長を判定部17から受け取り、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を周波数時間変換部16から受け取る。また、変換部18は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を周波数時間変換部16から受け取る。変換部18は、判定部17によって判定された窓長を用いて左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号に対して、直交変換の一例である修正離散コサイン変換(MDCT変換;Modified Discrete Cosine Transform)を実行することにより、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号をMDCT係数の組に変換する(ステップS1109)。更に、変換部18は、MDCT係数の組を量子化し、量子化されたMDCT係数の組を可変長符号化する。変換部18は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、例えば、ダウンミックス信号符号として多重化部19へ出力する。なお、変換部18は、例えば、次式(数17)に基づいて修正離散コサイン変換を行うことが出来る。
次に、変換部18は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号を判定部17によって判定された窓長を、そのまま用いて時間信号に対して、直交変換の一例である修正離散コサイン変換(MDCT変換)を実行することにより、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号をMDCT係数の組に変換する(ステップS1110)。更に、変換部18は、MDCT係数の組を量子化し、量子化されたMDCT係数の組を可変長符号化する。変換部18は、可変長符号化されたMDCT係数の組と、量子化係数など関連する情報を、例えば、残差信号符号として多重化部19へ出力する。なお、変換部18は、左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号の修正離散コサイン変換を、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号と同様に上述の(数17)を用いて、行うことが出来る。なお、変換部18は、ダウンミックス信号符号と残差信号符号へ変換する際、ダウンミックス信号符号と残差信号符号の遅延量が同期する様に、遅延量を合わせた上で直交変換を行う。
多重化部19は、ダウンミックス信号符号、残差信号符号を変換部18から受け取る。また、多重化部19は、空間情報符号を空間情報符号化部14から受け取る。
多重化部19は、ダウンミックス信号符号、空間情報符号、ならびに残差信号符号を所定の順序に従って配列することにより多重化する(ステップS1111)。そして多重化部19は、多重化により生成された符号化オーディオ信号を出力することで、オーディオ符号化装置1は、図11に示すオーディオ符号化処理の動作フローチャートを終了する。
(実施例2)
実施例1においては、周波数信号(左側周波数信号L0(k,n)と右側周波数信号R0(k,n))と残差信号(左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n))には強相関の関係が存在することを説明した。この技術的特徴を利用することで、オーディオ符号化装置の演算負荷を低減させることが出来る為、実施例2において説明する。図8において、判定部17を削除したオーディオ符号化装置が実施例2におけるオーディオ符号化装置の機能ブロックである為、図示は省略する。
変換部18は、残差信号窓長判定部20によって判定された窓長を用いて左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号に対して、直交変換の一例である修正離散コサイン変換(MDCT変換;Modified Discrete Cosine Transform)を実行することにより、チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n)の時間信号をMDCT係数の組に変換する。
次に、変換部18は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号を残差信号窓長判定部20によって判定された窓長を、そのまま用いて時間信号に対して、直交変換の一例である修正離散コサイン変換(MDCT変換)を実行することにより、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号をMDCT係数の組に変換する。これにより、判定部17における左側周波数信号L0(k,n)と右側周波数信号R0(k,n)の時間信号の窓長の判定処理が不要になり、オーディオ符号化装置の演算負荷を低減させることが出来る。
(実施例3)
図12は、一つの実施形態によるオーディオ復号装置3の機能ブロックを示す図である。図12に示す様に、オーディオ復号装置3は、分離部31、空間情報復号部32、ダウンミックス信号復号部33、時間周波数変換部34、予測復号部35、残差信号復号部36、アップミックス部37、周波数時間変換部38を含んでいる。
オーディオ復号装置3が有するこれらの各部は、例えば、ワイヤードロジックによるハードウェア回路としてそれぞれ別個の回路として形成される。あるいはオーディオ復号装置3が有するこれらの各部は、その各部に対応する回路が集積された一つの集積回路としてオーディオ復号装置3に実装されてもよい。なお、集積回路は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)などの集積回路であれば良い。更に、オーディオ復号装置3が有するこれらの各部は、オーディオ復号装置3が有するプロセッサ上で実行されるコンピュータプログラムにより実現される、機能モジュールであってもよい。
分離部31は、多重化された符号化オーディオ信号を外部から受け取る。分離部31は、符号化オーディオ信号に含まれる符号化された状態のダウンミックス信号符号、空間情報符号、ならびに残差信号符号を分離する。なお、分離部31は、分離方法として、例えば、ISO/IEC14496−3に記載の方法を用いることが出来る。分離部31は、分離した空間情報符号を空間情報復号部32へ、ダウンミックス信号符号をダウンミックス信号復号部33へ、残差信号符号を残差信号復号部36へ出力する。
空間情報復号部32は、分離部31から空間情報符号を受け取る。空間情報復号部32は、空間情報符号から図3に示す類似度に対する量子化テーブルの一例を用いて類似度ICCi(k)を復号し、アップミックス部37に出力する。また、空間情報復号部32は、図5に示す強度差に対する量子化テーブルの一例を用いて強度差CLDj(k)を復号し、予測復号部35または、アップミックス部37に出力する。換言すると、空間情報復号部32は、第1空間情報SAC(k)をアップミックス部37に出力し、強度差CLD1(k),CLD2(k)を第2空間情報として復号した場合は、強度差CLD1(k),CLD2(k)を予測復号部35へ出力する。また、空間情報復号部32は、予測係数符号idxcm(k)(m=1,2)を第2空間情報として分離部31から受け取った場合は、空間情報符号から図2に示す予測係数に対する量子化テーブルの一例を用いて予測係数を復号し、必要に応じて予測復号部35へ出力する。
ダウンミックス信号復号部33は、分離部31からダウンミックス信号符号を受け取り、各チャネルの信号(ダウンミックス信号)を、例えば、AAC復号方式に従って復号し、時間周波数変換部34へ出力する。なお、ダウンミックス信号復号部33は、AAC復号方法として、例えば、ISO/IEC 13818−7に記載の方法を用いることが出来る。
時間周波数変換部34は、ダウンミックス信号復号部33で復号された時間信号である各チャネルの信号を、例えば、ISO/IEC14496−3記載のQMFフィルタバンクを用いて周波数信号へ変換し、予測復号部35へ出力する。また、時間周波数変換部34は、次式に示す複素型のQMFフィルタバンクを用いて時間周波数変換しても良い。
(数18)
ここでQMF(k,n)は、時間n、周波数kを変数とする複素型のQMFである。時間周波数変換部34は、各チャネルの時間周波数信号を予測復号部35へ出力する。
予測復号部35は、空間情報復号部32から必要に応じて受け取る予測係数と、時間周波数変換部34から受け取る周波数信号から予測符号化された中央チャネル信号C0(k,n)の予測復号を行う。例えば、予測復号部35は、左側周波数信号L0(k,n)と右側周波数信号R0(k,n)のステレオ周波数信号と予測係数c1(k)、c2(k)から、中央チャネル信号C0(k,n)を、次式により予測復号することができる。
(数19)
また、予測復号部35は、空間情報復号部32から予測係数の代わりに、強度差CLD1(k),CLD2(k)を空間情報復号部32から受け取っている場合は、上述の(数19)を用いて中央チャネル信号C0(k,n)を予測復号することができる。予測復号部35は、左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネル信号C0(k,n)をアップミックス部37に出力する。
残差信号復号部36は、残差信号符号を分離部31から受け取る。残差信号復号部36は、残差信号符号を復号し、復号した残差信号(左チャネルの残差信号resL(k,n)と右チャネルの残差信号resR(k,n))をアップミックス部37に出力する。
アップミックス部37は、予測復号部35から受け取った左側周波数信号L0(k,n)、右側周波数信号R0(k,n)、中央チャネル信号C0(k,n)について、次式に従いマトリクス変換を行う。
(数20)
ここで、Lout(k,n)、Rout(k,n)、Cout(k,n)は、それぞれ、左チャネル、右チャネル及び中央チャネルの周波数信号である。アップミックス部37は、マトリクス変換した、左チャネルの周波数信号Lout(k,n)、右チャネルの周波数信号Rout(k,n)及び、中央チャネルの周波数信号Cout(k,n)と、空間情報復号部32から受け取る第1空間情報SAC(k)ならびに残差信号復号部36から受け取る残差信号(resL(k,n),resR(k,n))に基づいて、例えば、5.1chのオーディオ信号へアップミックスする。なお、アップミックス方法は、例えば、ISO/IEC23003―1に記載の方法を用いることが出来る。
周波数時間変換部38は、アップミックス部37から受け取る各信号を、次式に示すQMFフィルタバンクを用いて周波数信号から時間信号に変換する。
(数21)
この様に、実施例3に開示するオーディオ復号装置においては、遅延量を低減させた符号化オーディオ信号を、正確に復号することが出来る。
(実施例4)
図13は、一つの実施形態によるオーディオ符号化復号システム4の機能ブロックを示す図(その1)である。図14は、一つの実施形態によるオーディオ符号化復号システム4の機能ブロックを示す図(その2)である。図13と図14に示す様に、オーディオ符号化復号システム4は、時間周波数変換部11、第1ダウンミックス部12、第2ダウンミックス部13、空間情報符号化部14、算出部15、周波数時間変換部16、判定部17、変換部18、多重化部19を有する。また、オーディオ符号化復号システム4は、分離部31、空間情報復号部32、ダウンミックス信号復号部33、時間周波数変換部34、予測復号部35、残差信号復号部36、アップミックス部37、周波数時間変換部38を有する。なお、オーディオ符号化復号システム4が含む各機能は、図1ならびに図12に示す機能と同様となる為、詳細な説明は省略する。実施例4に開示するオーディオ符号化復号システム4においては、遅延量を低減させた符号化と復号が可能となる。
(実施例5)
図15は、一つの実施形態によるオーディオ符号化装置1またはオーディオ復号装置3として機能するコンピュータのハードウェア構成図である。図15に示す通り、オーディオ符号化装置1またはオーディオ復号装置3は、コンピュータ100、およびコンピュータ100に接続する入出力装置(周辺機器)を含んで構成される。
コンピュータ100は、プロセッサ101によって装置全体が制御されている。プロセッサ101には、バス109を介してRAM(Random Access Memory)102と複数の周辺機器が接続されている。なお、プロセッサ101は、マルチプロセッサであってもよい。また、プロセッサ101は、例えば、CPU、MPU(Micro Processing Unit)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、またはPLD(Programmable Logic Device)である。更に、プロセッサ101は、CPU、MPU、DSP、ASIC、PLDのうちの2以上の要素の組み合わせであってもよい。
なお、例えば、プロセッサ101は、図1に記載の時間周波数変換部11、第1ダウンミックス部12、第2ダウンミックス部13、空間情報符号化部14、算出部15、周波数時間変換部16、判定部17、変換部18、多重化部19等の機能ブロックの処理を実行することが出来る。更に、プロセッサ101は、図12に記載の分離部31、空間情報復号部32、ダウンミックス信号復号部33、時間周波数変換部34、予測復号部35、残差信号復号部36、アップミックス部37、周波数時間変換部38等の機能ブロックの処理を実行することが出来る。
RAM102は、コンピュータ100の主記憶装置として使用される。RAM102には、プロセッサ101に実行させるOS(Operating System)のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、RAM102には、プロセッサ101による処理に必要な各種データが格納される。
バス109に接続されている周辺機器としては、HDD(Hard Disk Drive)103、グラフィック処理装置104、入力インタフェース105、光学ドライブ装置106、機器接続インタフェース107およびネットワークインタフェース108がある。
HDD103は、内蔵したディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。HDD103は、例えば、コンピュータ100の補助記憶装置として使用される。HDD103には、OSのプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、フラッシュメモリなどの半導体記憶装置を使用することも出来る。
グラフィック処理装置104には、モニタ110が接続されている。グラフィック処理装置104は、プロセッサ101からの命令にしたがって、各種画像をモニタ110の画面に表示させる。モニタ110としては、CRT(Cathode Ray Tube)を用いた表示装置や液晶表示装置などがある。
入力インタフェース105には、キーボード111とマウス112とが接続されている。入力インタフェース105は、キーボード111やマウス112から送られてくる信号をプロセッサ101に送信する。なお、マウス112は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。
光学ドライブ装置106は、レーザ光などを利用して、光ディスク113に記録されたデータの読み取りを行う。光ディスク113は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク113には、DVD(Digital Versatile Disc)、DVD−RAM、CD−ROM(Compact Disc Read Only Memory)、CD−R(Recordable)/RW(ReWritable)などがある。可搬型の記録媒体となる光ディスク113に格納されたプログラムは光学ドライブ装置106を介してオーディオ符号化装置1またはオーディオ復号装置3にインストールされる。インストールされた所定のプログラムは、オーディオ符号化装置1またはオーディオ復号装置3より実行可能となる。
機器接続インタフェース107は、コンピュータ100に周辺機器を接続するための通信インタフェースである。例えば、機器接続インタフェース107には、メモリ装置114やメモリリーダライタ115を接続することが出来る。メモリ装置114は、機器接続インタフェース107との通信機能を搭載した記録媒体である。メモリリーダライタ115は、メモリカード116へのデータの書き込み、またはメモリカード116からのデータの読み出しを行う装置である。メモリカード116は、カード型の記録媒体である。
ネットワークインタフェース108は、ネットワーク117に接続されている。ネットワークインタフェース108は、ネットワーク117を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。
コンピュータ100は、たとえば、コンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、上述した画像処理機能を実現する。コンピュータ100に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことが出来る。上記プログラムは、1つのまたは複数の機能モジュールから構成することが出来る。例えば、図1に記載の時間周波数変換部11、第1ダウンミックス部12、第2ダウンミックス部13、空間情報符号化部14、算出部15、周波数時間変換部16、判定部17、変換部18、多重化部19等の処理を実現させた機能モジュールからプログラムを構成することが出来る。更に、図12に記載の分離部31、空間情報復号部32、ダウンミックス信号復号部33、時間周波数変換部34、予測復号部35、残差信号復号部36、アップミックス部37、周波数時間変換部38等の処理を実現させた機能モジュールからプログラムを構成することが出来る。なお、コンピュータ100に実行させるプログラムをHDD103に格納しておくことができる。プロセッサ101は、HDD103内のプログラムの少なくとも一部をRAM102にロードし、プログラムを実行する。また、コンピュータ100に実行させるプログラムを、光ディスク113、メモリ装置114、メモリカード116などの可搬型記録媒体に記録しておくことも出来る。可搬型記録媒体に格納されたプログラムは、例えば、プロセッサ101からの制御により、HDD103にインストールされた後、実行可能となる。またプロセッサ101が、可搬型記録媒体から直接プログラムを読み出して実行することも出来る。
また、上述の実施例において、図示した各装置の各構成要素は、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
さらに他の実施形態によれば、オーディオ符号化装置のチャネル信号符号化は、ステレオ周波数信号を他の符号化方式に従って符号化してもよい。また、符号化または復号の対象となるマルチチャネルオーディオ信号は、5.1chオーディオ信号に限られない。例えば、符号化または復号の対象となるオーディオ信号は、2ch、3ch、3.1chまたは7.1chなど、複数のチャネルを持つオーディオ信号であってもよい。この場合も、オーディオ符号化装置は、各チャネルのオーディオ信号を時間周波数変換することにより、各チャネルの周波数信号を算出する。そしてオーディオ符号化装置は、各チャネルの周波数信号をダウンミックスすることにより、元のオーディオ信号よりもチャネル数が少ない周波数信号を生成する。
また、上記の各実施形態におけるオーディオ符号化装置は、コンピュータ、ビデオ信号の録画機または映像伝送装置など、オーディオ信号を伝送または記録するために利用される各種の機器に実装させることが可能である。
ここに挙げられた全ての例及び特定の用語は、当業者が、本発明及び当該技術の促進に対する本発明者により寄与された概念を理解することを助ける、教示的な目的において意図されたものであり、本発明の優位性及び劣等性を示すことに関する、本明細書の如何なる例の構成、そのような特定の挙げられた例及び条件に限定しないように解釈されるべきものである。本発明の実施形態は詳細に説明されているが、本発明の範囲から外れることなく、様々な変更、置換及び修正をこれに加えることが可能であることを理解されたい。
以上説明した実施形態及びその変形例に関し、更に以下の付記を開示する。
(付記1)
オーディオ信号に含まれる複数のチャネルに含まれる第1の数のチャネル信号を第2の数のダウンミックス信号として混合するダウンミックス部と、
前記ダウンミックス信号と、前記第1の数のチャネル信号の誤差を表す残差信号を算出する算出部と、
前記ダウンミックス信号の窓長を判定する判定部と、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換する変換部)
を備えることを特徴とするオーディオ符号化装置。
(付記2)
前記変換部は、前記窓長の前記判定に基づく第1遅延量と前記残差信号の前記算出に基づく第2遅延量を同期して前記直交変換することを特徴とする付記1記載のオーディオ符号化装置。
(付記3)
前記判定部は、前記ダウンミックス信号にアタック音が含まれている場合は前記窓長を短窓長と判定し、前記ダウンミックス信号に前記アタック音が含まれていない場合は前記窓長を長窓長と判定することを特徴とする付記1または付記2記載のオーディオ符号化装置。
(付記4)
オーディオ信号に含まれる複数のチャネルに含まれる第1の数のチャネル信号を第2の数のダウンミックス信号として混合し、
前記ダウンミックス信号と、前記第1の数のチャネル信号の誤差を表す残差信号を算出し、
前記ダウンミックス信号の窓長を判定し、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換すること
を含むことを特徴とするオーディオ符号化方法。
(付記5)
前記変換することは、前記窓長の前記判定に基づく第1遅延量と前記残差信号の前記算出に基づく第2遅延量を同期して前記直交変換することを特徴とする付記4記載のオーディオ符号化方法。
(付記6)
前記判定することは、前記ダウンミックス信号にアタック音が含まれている場合は前記窓長を短窓長と判定し、前記ダウンミックス信号に前記アタック音が含まれていない場合は前記窓長を長窓長と判定することを特徴とする付記4または付記5記載のオーディオ符号化方法。
(付記7)
コンピュータに
オーディオ信号に含まれる複数のチャネルに含まれる第1の数のチャネル信号を第2の数のダウンミックス信号として混合し、
前記ダウンミックス信号と、前記第1の数のチャネル信号の誤差を表す残差信号を算出し、
前記ダウンミックス信号の窓長を判定し、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換すること
を実行させることを特徴とするオーディオ符号化プログラム。
(付記8)
前記変換することは、前記窓長の前記判定に基づく第1遅延量と前記残差信号の前記算出に基づく第2遅延量を同期して前記直交変換することを特徴とする付記7記載のオーディオ符号化プログラム。
(付記9)
前記判定することは、前記ダウンミックス信号にアタック音が含まれている場合は前記窓長を短窓長と判定し、前記ダウンミックス信号に前記アタック音が含まれていない場合は前記窓長を長窓長と判定することを特徴とする付記7または付記8記載のオーディオ符号化プログラム。
(付記10)
オーディオ信号に含まれる複数のチャネルに含まれる第1の数のチャネル信号を第2の数のダウンミックス信号として混合するダウンミックス部と、
前記ダウンミックス信号と、前記第1の数のチャネル信号の誤差を表す残差信号を算出する算出部と、
前記ダウンミックス信号か前記残差信号の何れか一方の窓長を判定する判定部と、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換する変換部
を備えることを特徴とするオーディオ符号化装置。
(付記11)
オーディオ信号に含まれる複数のチャネルに含まれる第1の数のチャネル信号が混合された第2の数のダウンミックス信号が、前記ダウンミックス信号の窓長に基づいて直交変換されたダウンミックス信号符号と、
前記ダウンミックス信号と、前記第1の数のチャネル信号の誤差を表す残差信号が、前記窓長に基づいて前記直交変換された残差信号符号と、
が多重化された入力信号を分離する分離部と、
復号された前記残差信号に基づいて、前記復号された前記ダウンミックス信号をアップミックスするアップミックス部
を備えることを特徴とするオーディオ復号装置。
(付記12)
オーディオ信号に含まれる複数のチャネルに含まれる第1の数のチャネル信号を第2の数のダウンミックス信号として混合するダウンミックス部と、
前記ダウンミックス信号と、前記第1の数のチャネル信号の誤差を表す残差信号を算出する算出部と、
前記ダウンミックス信号の窓長を判定する判定部と、
前記窓長に基づいて前記ダウンミックス信号と、前記残差信号を直交変換する変換部と、
前記変換部が変換するダウンミックス信号符号と残差信号符号を分離する分離部と、
復号された前記残差信号に基づいて、前記復号された前記ダウンミックス信号をアップミックスするアップミックス部
を備えることを特徴とするオーディオ符号化復号システム。