JP5328368B2

JP5328368B2 - 符号化装置、復号装置、およびこれらの方法

Info

Publication number: JP5328368B2
Application number: JP2008549342A
Authority: JP
Inventors: 智史山梨; 正浩押切
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-12-13
Filing date: 2007-12-12
Publication date: 2013-10-30
Anticipated expiration: 2027-12-12
Also published as: ES2474915T3; WO2008072670A1; KR20090087920A; JPWO2008072670A1; US8352258B2; AU2007332508A2; AU2007332508A1; US20100169081A1; CN101548316A; AU2007332508B2; BRPI0721079A2; CN101548316B; SG170078A1; KR101412255B1; EP2101318B1; EP2101318A4; EP2101318A1

Description

本発明は、信号を符号化して伝送し、受信して復号する通信システムに用いられる、符号化装置／復号装置および符号化方法／復号方法に関する。

移動通信システムまたはインターネット通信に代表されるパケット通信システムなどで音声・オーディオ信号を伝送する場合、音声・オーディオ信号の伝送効率を高めるため、圧縮・符号化技術がよく使われる。また、近年では、伝送中に伝送誤りが生じた場合でも、符号化情報の一部から品質の良い復号信号を得ることができるスケーラブル符号化／復号方式が開発されている。

上記のような圧縮・符号化技術として、音声信号及び／又はオーディオ信号（以下、音声・オーディオ信号と記す）が有する時間的な相関性を利用して圧縮効率を高める時間軸での予測符号化技術がある。例えば、特許文献１では、過去フレームの信号から現フレームの信号を予測し、その予測誤差に応じて予測符号化方法を切り替えている。また、非特許文献１では、ＬＳＦ(Line Spectral Frequency)などの音声パラメータの時間軸上での変化の程度およびフレームエラーの発生状態に応じて予測符号化方法を切り替えるという技術が挙げられている。
特開平８−２１１９００号公報 Thomas Eriksson, Jan Linden, and Jan Skoglund, "Exploiting Inter-frame Correlation In Spectral Quantization", "Acoustics, Speech, and Signal Processing", 1996. ICASSP-96. Conference Proceedings, 7-10 May 1996 Page(s):765 - 768 vol. 2

しかしながら、上記技術の何れにおいても、各フレーム毎に時間領域のパラメータに基づく予測符号化が行われ、周波数領域のパラメータのような非時間領域のパラメータに基づく予測符号化については言及されていない。上記のような時間領域のパラメータに基づく予測符号化の方法を単純に周波数領域パラメータの符号化に適用すると、過去のフレームと現フレームとにおいて量子化対象帯域が一致する場合には問題ないが、過去のフレームと現フレームとにおいて量子化対象帯域が異なる場合には符号化誤差および復号信号の音質劣化が大きく増加してしまい、音声・オーディオ信号を復号することができないおそれがある。

本発明の目的は、各フレームにおいて異なる帯域の周波数成分を量子化対象とする場合、音声・オーディオ信号の符号化情報量を低減するとともに、音声・オーディオ信号の符号化誤差および復号信号の音質劣化を低減することができる符号化装置などを提供することである。

本発明の符号化装置は、入力信号を周波数領域に変換し、周波数領域パラメータを得る変換手段と、前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成する選択手段と、前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るシェイプ量子化手段と、前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るゲイン量子化手段と、を具備する構成を採る。

本発明の復号装置は、入力信号の周波数領域を分割した複数のサブバンドの中から選択された量子化対象帯域を示す情報を受信する受信手段と、前記量子化対象帯域における周波数領域パラメータのシェイプが量子化されたシェイプ符号化情報を復号して復号シェイプを生成するシェイプ逆量子化手段と、前記量子化対象帯域における周波数領域パラメータのゲインが量子化されたゲイン符号化情報を復号して復号ゲインを生成し、前記復号シェイプと前記復号ゲインとを用いて周波数パラメータを復号して復号周波数パラメータを生成するゲイン逆量子化手段と、前記復号周波数領域パラメータを時間領域に変換して時間領域復号信号を得る時間領域変換手段と、を具備する構成を採る。

本発明の符号化方法は、入力信号を周波数領域に変換し、周波数領域パラメータを得るステップと、前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成するステップと、前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るステップと、を有するようにする。

本発明の復号方法は、入力信号の周波数領域を分割した複数のサブバンドの中から選択された量子化対象帯域を示す情報を受信するステップと、前記量子化対象帯域における周波数領域パラメータのシェイプが量子化されたシェイプ符号化情報を復号して復号シェイプを生成するステップと、前記量子化対象帯域における周波数領域パラメータのゲインが量子化されたゲイン符号化情報を復号して復号ゲインを生成し、前記復号シェイプと前記復号ゲインとを用いて周波数パラメータを復号して復号周波数パラメータを生成するステップと、前記復号周波数領域パラメータを時間領域に変換して時間領域復号信号を得るステップと、を有するようにする。

本発明によれば、音声・オーディオ信号等の符号化情報量を低減するとともに、復号信号や復号音声等の急激な品質劣化を防ぐことができ、音声・オーディオ信号等の符号化誤差および復号信号の品質劣化を低減することができる。

本発明の概略は、その一例としては、各フレームにおいて異なる帯域の周波数成分の量子化において、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通のサブバンドの数が所定値以上であると判定した場合には周波数領域のパラメータに対し予測符号化を行い、また、共通のサブバンドの数が所定値より小さいと判定した場合には周波数領域のパラメータを直接符号化するというものである。これにより、音声・オーディオ信号等の符号化情報量を低減するとともに、復号信号や復号音声等の急激な品質劣化を防ぐことができ、音声・オーディオ信号等の符号化誤差および復号信号の品質劣化、特に復号音声の音質劣化を低減することができる。

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。以下においては、本発明の符号化装置／復号装置の例として、音声符号化装置／音声復号装置を用いて説明する。

（実施の形態１）
図１は、本発明の実施の形態１に係る音声符号化装置１００の主要な構成を示すブロック図である。

この図において、音声符号化装置１００は、周波数領域変換部１０１、帯域選択部１０２、シェイプ量子化部１０３、予測符号化有無判定部１０４、ゲイン量子化部１０５、および多重化部１０６を備える。

周波数領域変換部１０１は、入力信号を用いて修正離散コサイン変換（ＭＤＣＴ：Modified Discrete Cosine Transform）を行い、周波数領域のパラメータであるＭＤＣＴ係数を算出して帯域選択部１０２に出力する。

帯域選択部１０２は、周波数領域変換部１０１から入力されるＭＤＣＴ係数を複数のサブバンドに分割し、複数のサブバンドから量子化対象となる帯域を選択し、選択した帯域を示す帯域情報をシェイプ量子化部１０３、予測符号化有無判定部１０４、多重化部１０６に出力する。また、帯域選択部１０２は、ＭＤＣＴ係数をシェイプ量子化部１０３に出力する。なお、シェイプ量子化部１０３へのＭＤＣＴ係数の入力は、周波数領域変換部１０１から帯域選択部１０２への入力とは別に、周波数領域変換部１０１から直接行っても良い。

シェイプ量子化部１０３は、帯域選択部１０２から入力されるＭＤＣＴ係数のうち、帯域選択部１０２から入力される帯域情報が示す帯域に対応するＭＤＣＴ係数を用いてシェイプ量子化を行い、得られるシェイプ符号化情報を多重化部１０６に出力する。また、シェイプ量子化部１０３は、シェイプ量子化の理想ゲイン値を求め、求められた理想ゲイン値をゲイン量子化部１０５に出力する。

予測符号化有無判定部１０４は、帯域選択部１０２から入力される帯域情報を用いて現フレームの量子化対象帯域と過去のフレームの量子化対象帯域との間で共通のサブバンドの数を求める。そして、予測符号化有無判定部１０４は、共通のサブバンドの数が所定値以上である場合には、帯域情報が示す量子化対象帯域のＭＤＣＴ係数に対して予測符号化を行うと判定し、共通のサブバンドの数が所定値より小さい場合には、帯域情報が示す量子化対象帯域のＭＤＣＴ係数に対して予測符号化を行わないと判定する。予測符号化有無判定部１０４は、判定結果をゲイン量子化部１０５に出力する。

ゲイン量子化部１０５は、予測符号化有無判定部１０４から入力される判定結果が予測符号化を行うという判定結果を示す場合には、内蔵のバッファに記憶されている過去のフレームの量子化ゲイン値および内蔵のゲインコードブックを用いて現フレームの量子化対象帯域のゲインの予測符号化を行ってゲイン符号化情報を得る。一方、ゲイン量子化部１０５は、予測符号化有無判定部１０４から入力される判定結果が予測符号化を行わないという判定結果を示す場合には、シェイプ量子化部１０３から入力される理想ゲイン値を直接量子化してゲイン符号化情報を得る。ゲイン量子化部１０５は、得られるゲイン符号化情報を多重化部１０６に出力する。

多重化部１０６は、帯域選択部１０２から入力される帯域情報、シェイプ量子化部１０３から入力されるシェイプ符号化情報、およびゲイン量子化部１０５から入力されるゲイン符号化情報を多重化し、得られるビットストリームを音声復号装置に送信する。

上記のような構成を有する音声符号化装置１００は、入力信号をＮ（Ｎは自然数）サンプルずつ区切り、Ｎサンプルずつを１フレームとしてフレーム毎に符号化を行う。以下、音声符号化装置１００の各部の動作について詳細に説明する。なお、以下の説明では、符号化の対象となるフレームの入力信号をｘ_ｎ（ｎ＝０、１、…、Ｎ−１）と表す。ここで、ｎは符号化の対象となるフレームにおける各サンプルのインデックスを示す。

周波数領域変換部１０１は、Ｎ個のバッファを内蔵し、まず、下記の式（１）に従い、「０」値を用いて各バッファを初期化する。

この式において、ｂｕｆ_n（ｎ＝０、…、Ｎ−１）は周波数領域変換部１０１が内蔵しているＮ個のバッファの中のｎ＋１番目を示す。

次いで、周波数領域変換部１０１は、下記の式（２）に従い、入力信号ｘ_nを修正離散コサイン変換（ＭＤＣＴ）してＭＤＣＴ係数Ｘ_kを求める。

この式において、ｋは１フレームにおける各サンプルのインデックスを示す。なお、ｘ’_nは、下記の式（３）に従い、入力信号ｘ_nとバッファｂｕｆ_nとを結合させたベクトルである。

次いで、周波数領域変換部１０１は、下記の式（４）に示すようにバッファｂｕｆ_n（ｎ＝０、…、Ｎ−１）を更新する。

次いで、周波数領域変換部１０１は、求められたＭＤＣＴ係数Ｘ_kを帯域選択部１０２に出力する。

帯域選択部１０２は、まず、ＭＤＣＴ係数Ｘ_kを複数のサブバンドに分割する。ここでは、ＭＤＣＴ係数Ｘ_kがＪ（Ｊは自然数）個のサブバンドに均等に分割される場合を例にあげ説明する。そして、帯域選択部１０２は、Ｊ個のサブバンドの中で連続するＬ（Ｌは自然数）個のサブバンドを選択し、Ｍ（Ｍは自然数）種類のサブバンドのグループを得る。以下、このＭ種類のサブバンドのグループをリージョンと呼ぶ。

図２は、帯域選択部１０２において得られるリージョンの構成を例示する図である。

この図において、サブバンドの数は１７個（Ｊ＝１７）であり、リージョンの種類は８種類（Ｍ＝８）であり、各リージョンは連続する５個（Ｌ＝５）のサブバンドで構成されている。そのうち、例えばリージョン４はサブバンド６〜１０からなる。

次いで、帯域選択部１０２は、下記の式（５）に従い、Ｍ種類の各リージョンの平均エ
ネルギＥ（ｍ）を算出する。

この式において、ｊは、Ｊ個の各サブバンドのインデックスを示し、ｍは、Ｍ種類の各リージョンのインデックスを示す。なお、Ｓ（ｍ）は、リージョンｍを構成するＬ個のサブバンドのインデックスのうちの最小値を示し、Ｂ（ｊ）は、サブバンドｊを構成する複数のＭＤＣＴ係数のインデックスのうちの最小値を示す。Ｗ（ｊ）は、サブバンドｊのバンド幅を示す。以下の説明では、Ｊ個の各サブバンドのバンド幅が全て等しい場合、すなわちＷ（ｊ）が定数である場合を例にとって説明する。

次いで、帯域選択部１０２は、平均エネルギＥ（ｍ）が最大となるリージョン、例えばサブバンドｊ”〜ｊ”＋Ｌ−１からなる帯域を量子化対象となる帯域（量子化対象帯域）として選択し、このリージョンを示すインデックスｍ＿ｍａｘを帯域情報としてシェイプ量子化部１０３、予測符号化有無判定部１０４、および多重化部１０６に出力する。また、帯域選択部１０２は、ＭＤＣＴ係数Ｘ_kをシェイプ量子化部１０３に出力する。なお、以下の説明では、帯域選択部１０２で選択した量子化対象帯域を示すバンドインデックスをｊ”〜ｊ”＋Ｌ−１とする。

シェイプ量子化部１０３は、帯域選択部１０２から入力される帯域情報ｍ＿ｍａｘが示す帯域に対応するＭＣＤＴ係数に対して、サブバンド毎にシェイプ量子化を行う。具体的には、シェイプ量子化部１０３はＬ個の各サブバンド毎に、ＳＱ個のシェイプコードベクトルからなる内蔵のシェイプコードブックを探索して下記の式（６）の結果が最大となるシェイプコードベクトルのインデックスを求める。

この式において、ＳＣ^ｉ _ｋはシェイプコードブックを構成するシェイプコードベクトルを示し、ｉはシェイプコードベクトルのインデックスを示し、ｋはシェイプコードベクトルの要素のインデックスを示す。

シェイプ量子化部１０３は、上記の式（６）の結果が最大となるシェイプコードベクトルのインデックスＳ＿ｍａｘをシェイプ符号化情報として多重化部１０６に出力する。また、シェイプ量子化部１０３は、下記の式（７）に従い、理想ゲイン値Ｇａｉｎ＿ｉ（ｊ）を算出してゲイン量子化部１０５に出力する。

予測符号化有無判定部１０４は、過去のフレームにおいて帯域選択部１０２から入力された帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している。ここでは、予測符号化有無判定部１０４が、過去の３フレーム分の帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している場合を例にあげ説明する。予測符号化有無判定部１０４は、まず、過去のフレームにおいてシェイプ量子化部１０３から入力された帯域情報ｍ＿ｍａｘおよび現フレームにおいてシェイプ量子化部１０３から入力される帯域情報ｍ＿ｍａｘを用いて、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通のサブバンドの数を求める。そして、予測符号化有無判定部１０４は、共通のサブバンドの数が所定値以上である場合は予測符号化を行うと判定し、共通のサブバンドの数が所定値より小さい場合は予測符号化を行わないと判定する。具体的には、時間的に１つ過去のフレームにおいて帯域選択部１０２から入力された帯域情報ｍ＿ｍａｘが示すＬ個のサブバンドと、現フレームにおいて帯域選択部１０２から入力される帯域情報ｍ＿ｍａｘが示すＬ個のサブバンドとを比較し、共通のサブバンドの数がＰ個以上である場合は予測符号化を行うと判定し、共通のサブバンドの数がＰ個未満である場合は予測符号化を行わないと判定する。予測符号化有無判定部１０４は、判定結果をゲイン量子化部１０５に出力する。次いで、予測符号化有無判定部１０４は、現フレームにおいて帯域選択部１０２から入力される帯域情報ｍ＿ｍａｘを用いて、帯域情報を記憶する内蔵のバッファを更新する。

ゲイン量子化部１０５は、過去のフレームにおいて得られた量子化ゲイン値を記憶するバッファを内蔵している。予測符号化有無判定部１０４から入力される判定結果が予測符号化を行うという判定結果を示す場合、ゲイン量子化部１０５は、内蔵のバッファに記憶されている過去フレームの量子化ゲイン値Ｃ^ｔ _ｊを用いて、現フレームのゲイン値を予測することにより量子化する。具体的には、ゲイン量子化部１０５は、Ｌ個の各サブバンド毎に、ＧＱ個のゲインコードベクトルからなる内蔵のゲインコードブックを探索して、下記の式（８）の結果が最小となるゲインコードベクトルのインデックスを求める。

この式において、ＧＣ^ｉ _ｊはゲインコードブックを構成するゲインコードベクトルを示し、ｉはゲインコードベクトルのインデックスを示し、ｊはゲインコードベクトルの要素のインデックスを示す。例えば、リージョンを構成するサブバンド数が５の場合（Ｌ＝５の場合）、ｊは０〜４の値を取る。ここで、Ｃ^ｔ _ｊは時間的にｔフレーム前のゲインの値を示し、例えばｔ＝１の場合、Ｃ^ｔ _ｊは時間的に１フレーム前のゲイン値を示す。またαは、ゲイン量子化部１０５に記憶されている４次の線形予測係数である。なお、ゲイン量子化部１０５は、１リージョン内のＬ個のサブバンドをＬ次元ベクトルとして扱い、ベクトル量子化を行う。

ゲイン量子化部１０５は、上記の式（８）の結果が最小となるゲインコードベクトルのインデックスＧ＿ｍｉｎをゲイン符号化情報として多重化部１０６に出力する。なお、内
蔵のバッファの中の過去フレームに対応するサブバンドのゲイン値が存在しない場合、ゲイン量子化部１０５は上記の式（８）において、内蔵のバッファの中の周波数的に最も近いサブバンドのゲインの値を代用する。

一方、予測符号化有無判定部１０４から入力される判定結果が予測符号化を行わないという判定結果を示す場合、ゲイン量子化部１０５は、下記の式（９）に従い、シェイプ量子化部１０３から入力される理想ゲイン値Ｇａｉｎ＿ｉ（ｊ）を直接量子化する。ここでも、ゲイン量子化部１０５は、理想ゲイン値をＬ次元ベクトルとして扱い、ベクトル量子化を行う。

ここでは、上記の式（９）を最小にするコードブックのインデックスをＧ＿ｍｉｎと記す。

ゲイン量子化部１０５は、Ｇ＿ｍｉｎをゲイン符号化情報として多重化部１０６に出力する。また、ゲイン量子化部１０５は、現フレームで得られたゲイン符号化情報Ｇ＿ｍｉｎおよび量子化ゲイン値Ｃ^ｔ _ｊを用いて、下記の式（１０）に従い、内蔵のバッファを更新する。

多重化部１０６は、帯域選択部１０２から入力される帯域情報ｍ＿ｍａｘ、シェイプ量子化部１０３から入力されるシェイプ符号化情報Ｓ＿ｍａｘ、およびゲイン量子化部１０５から入力されるゲイン符号化情報Ｇ＿ｍｉｎを多重化し、得られるビットストリームを音声復号装置に送信する。

図３は、本実施の形態に係る音声復号装置２００の主要な構成を示すブロック図である。

この図において、音声復号装置２００は、分離部２０１、シェイプ逆量子化部２０２、予測復号有無判定部２０３、ゲイン逆量子化部２０４、および時間領域変換部２０５を備える。

分離部２０１は、音声符号化装置１００から伝送されるビットストリームから帯域情報、シェイプ符号化情報、およびゲイン符号化情報を分離し、得られる帯域情報をシェイプ逆量子化部２０２および予測復号有無判定部２０３に出力し、シェイプ符号化情報をシェイプ逆量子化部２０２に出力し、ゲイン符号化情報をゲイン逆量子化部２０４に出力する。

シェイプ逆量子化部２０２は、分離部２０１から入力されるシェイプ符号化情報を逆量子化することにより、分離部２０１から入力される帯域情報が示す量子化対象帯域に対応
するＭＤＣＴ係数のシェイプの値を求め、求められたシェイプの値をゲイン逆量子化部２０４に出力する。

予測復号有無判定部２０３は、分離部２０１から入力される帯域情報を用いて現フレームの量子化対象帯域と過去のフレームの量子化対象帯域との間で共通のサブバンドの数を求める。そして、予測復号有無判定部２０３は、共通のサブバンドの数が所定値以上である場合は、帯域情報が示す量子化対象帯域のＭＤＣＴ係数に対して予測復号を行うと判定し、共通のサブバンドの数が所定値より小さい場合は、帯域情報が示す量子化対象帯域のＭＤＣＴ係数に対して予測復号を行わないと判定する。予測復号有無判定部２０３は、判定結果をゲイン逆量子化部２０４に出力する。

ゲイン逆量子化部２０４は、予測復号有無判定部２０３から入力される判定結果が予測復号を行うという判定結果を示す場合には、内蔵のバッファに記憶されている過去のフレームのゲイン値および内蔵のゲインコードブックを用いて、分離部２０１から入力されるゲイン符号化情報に対し予測復号を行ってゲイン値を得る。一方、ゲイン逆量子化部２０４は、予測復号有無判定部２０３から入力される判定結果が予測復号を行わないという判定結果を示す場合には、内蔵のゲインコードブックを用いて、分離部２０１から入力されるゲイン符号化情報を直接逆量子化してゲイン値を得る。ゲイン逆量子化部２０４は、得られるゲイン値を時間領域変換部２０５に出力する。またゲイン逆量子化部２０４は、得られるゲイン値、およびシェイプ逆量子化部２０２から入力されるシェイプの値を用いて量子化対象帯域のＭＤＣＴ係数を求め、復号ＭＤＣＴ係数として時間領域変換部２０５に出力する。

時間領域変換部２０５は、ゲイン逆量子化部２０４から入力される復号ＭＤＣＴ係数に対して修正離散コサイン逆変換（ＩＭＤＣＴ：Inverse Modified Discrete Cosine Transform）を行って時間領域の信号を生成し復号信号として出力する。

上記のような構成を有する音声復号装置２００は以下の動作を行う。

分離部２０１は、音声符号化装置１００から伝送されるビットストリームから帯域情報ｍ＿ｍａｘ、シェイプ符号化情報Ｓ＿ｍａｘ、およびゲイン符号化情報Ｇ＿ｍｉｎを分離し、得られる帯域情報ｍ＿ｍａｘをシェイプ逆量子化部２０２および予測復号有無判定部２０３に出力し、シェイプ符号化情報Ｓ＿ｍａｘをシェイプ逆量子化部２０２に出力し、ゲイン符号化情報Ｇ＿ｍｉｎをゲイン逆量子化部２０４に出力する。

シェイプ逆量子化部２０２は、音声符号化装置１００のシェイプ量子化部１０３が備えるシェイプコードブックと同様なシェイプコードブックを内蔵し、分離部２０１から入力されるシェイプ符号化情報Ｓ＿ｍａｘをインデックスとするシェイプコードベクトルを探索する。シェイプ逆量子化部２０２は、探索されたコードベクトルを、分離部２０１から入力される帯域情報ｍ＿ｍａｘが示す量子化対象帯域のＭＤＣＴ係数のシェイプの値としてゲイン逆量子化部２０４に出力する。ここでは、シェイプの値として探索されたシェイプコードベクトルをＳｈａｐｅ＿ｑ（ｋ）（ｋ＝Ｂ（ｊ”），…，Ｂ（ｊ”＋Ｌ）−１）と記す。

予測復号有無判定部２０３は、過去のフレームにおいて分離部２０１から入力された帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している。ここでは、予測復号有無判定部２０３が過去の３フレーム分の帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している場合を例にあげ説明する。予測復号有無判定部２０３は、まず、過去のフレームにおいて分離部２０１から入力された帯域情報ｍ＿ｍａｘおよび現フレームにおいて分離部２０１から入力される帯域情報ｍ＿ｍａｘを用いて、過去のフレームの量子化対象帯域と現フレーム
の量子化対象帯域との間で共通のサブバンドの数を求める。そして、予測復号有無判定部２０３は、共通のサブバンドの数が所定値以上である場合には予測復号を行うと判定し、共通のサブバンドの数が所定値より小さい場合には予測復号を行わないと判定する。具体的には、予測復号有無判定部２０３は、時間的に１つ過去のフレームにおいて分離部２０１から入力された帯域情報ｍ＿ｍａｘが示すＬ個のサブバンドと、現フレームにおいて分離部２０１から入力される帯域情報ｍ＿ｍａｘが示すＬ個のサブバンドとを比較し、共通のサブバンドの数がＰ個以上である場合は予測復号を行うと判定し、共通のサブバンドの数がＰ個未満である場合は予測復号を行わないと判定する。予測復号有無判定部２０３は、判定結果をゲイン逆量子化部２０４に出力する。次いで、予測復号有無判定部２０３は、現フレームにおいて分離部２０１から入力される帯域情報ｍ＿ｍａｘを用いて、帯域情報を記憶する内蔵のバッファを更新する。

ゲイン逆量子化部２０４は、過去のフレームにおいて得られたゲイン値を記憶するバッファを内蔵している。予測復号有無判定部２０３から入力される判定結果が予測復号を行うという判定結果を示す場合、ゲイン逆量子化部２０４は、内蔵のバッファに記憶されている過去のフレームのゲイン値を用いて、現フレームのゲイン値を予測することにより逆量子化を行う。具体的には、ゲイン逆量子化部２０４は、音声符号化装置１００のゲイン量子化部１０５と同様なゲインコードブックを内蔵しており、下記の式（１１）に従い、ゲインの逆量子化を行ってゲイン値Ｇａｉｎ＿ｑ’を得る。ここで、Ｃ”^ｔ _ｊは時間的にｔフレーム前のゲインの値を示し、例えばｔ＝１の場合、Ｃ”^ｔ _ｊは１フレーム前のゲイン値を示す。また、αはゲイン逆量子化部２０４に記憶されている４次の線形予測係数である。ゲイン逆量子化部２０４は、１リージョン内のＬ個のサブバンドをＬ次元ベクトルとして扱い、ベクトル逆量子化を行う。

なお、内蔵のバッファの中に過去フレームに対応するサブバンドのゲインの値が存在しない場合、ゲイン逆量子化部２０４は、上記の式（１１）において、内部バッファの中の周波数的に最も近いサブバンドのゲイン値を代用する。

一方、予測復号有無判定部２０３から入力される判定結果が予測復号を行わないという判定結果を示す場合、ゲイン逆量子化部２０４は、上記のゲインコードブックを用いて、下記の式（１２）に従いゲインの値を逆量子化する。ここでも、ゲイン値をＬ次元ベクトルとして扱い、ベクトル逆量子化が行われる。すなわち、予測復号を行わない場合は、ゲイン符号化情報Ｇ＿ｍｉｎに対応するゲインコードベクトルＧＣ_ｊ ^{Ｇ＿ｍｉｎ}を直接ゲイン値とする。

次いで、ゲイン逆量子化部２０４は、現フレームの逆量子化で得られるゲイン値、およびシェイプ逆量子化部２０２から入力されるシェイプの値を用いて、下記の式（１３）に従い復号ＭＤＣＴ係数を算出し、下記の式（１４）に従い内蔵のバッファを更新する。ここでは、算出された復号ＭＤＣＴ係数をＸ”_ｋと記す。また、ＭＤＣＴ係数の逆量子化において、ｋがＢ（ｊ”）〜Ｂ（ｊ”＋１）−１内に存在する場合、ゲイン値Ｇａｉｎ＿ｑ’（ｊ）はＧａｉｎ＿ｑ’（ｊ”）の値をとる。

ゲイン逆量子化部２０４は、上記の式（１３）に従い算出された復号ＭＤＣＴ係数Ｘ”_ｋを時間領域変換部２０５に出力する。

時間領域変換部２０５は、まず下記の式（１５）に従い内蔵のバッファｂｕｆ’_kを「０」値に初期化する。

次いで、時間領域変換部２０５は、ゲイン逆量子化部２０４から入力される復号ＭＤＣＴ係数Ｘ”_ｋを用いて、下記の式（１６）に従い復号信号Ｙ_ｎを求める。

この式において、Ｘ２”_kは、復号ＭＤＣＴ係数Ｘ”_ｋとバッファｂｕｆ’_kとを結合させたベクトルであり、下記の式（１７）を用いて求められる。

次いで、時間領域変換部２０５は、下記の式（１８）に従いバッファｂｕｆ’_kを更新する。

時間領域変換部２０５は、求められる復号信号Ｙ_ｎを出力信号として出力する。

このように、本実施の形態によれば、各フレームにおいてエネルギが大きい帯域を量子化対象帯域として選択し周波数領域パラメータを量子化するため、量子化されるゲインの値の分布に偏りを生じさせ、ベクトル量子化の性能を向上させることができる。

また、本実施の形態によれば、各フレームの異なる量子化対象帯域の周波数領域パラメータの量子化において、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通のサブバンドの数が所定値以上であると判定した場合には周波数領域のパラメータに対し予測符号化を行い、共通のサブバンドの数が所定値より小さいと判定した場合には周波数領域のパラメータを直接符号化する。そのため、音声符号化の符号化情報量を低減するとともに、急激な音声品質劣化を防ぐことができ、音声・オーディオ信号の符号化誤差および復号信号の音質劣化を低減することができる。

また、本実施の形態によれば、符号化側においては複数のサブバンドで構成されるリージョン単位で量子化対象帯域を決定し周波数領域パラメータの量子化を行い、どのリージョンの周波数領域パラメータが量子化対象となったかという情報を復号側に送信すれば良い。そのため、予測符号化を利用するか否かをサブバンド毎に決定しどのサブバンドが量子化対象となったかという情報を復号側に送信するよりも、量子化の効率を向上し復号側に送信する符号化情報量をさらに低減することができる。

なお、本実施の形態では、複数のサブバンドから構成されるリージョン単位でゲインの量子化を行う場合を例にとって説明したが、本発明はこれに限定されず、量子化対象をサブバンド毎に選択しても、すなわち予測量子化を行うか否かの判定をサブバンド毎に行っても良い。

また、本実施の形態では、ゲインの予測量子化方法として、同じ周波数帯域のゲインに対して時間軸上で線形予測を行う場合を例にとって説明したが、本発明はこれに限定されず、異なる周波数帯域のゲインに対して時間軸上で線形予測を行っても良い。

また、本実施の形態では量子化対象となる信号として、通常の音声・オーディオ信号を例にとって説明したが、本発明はこれに限定されず、音声・オーディオ信号をＬＰＣ（線形予測係数：LinearPrediction Coefficient)逆フィルタにより処理して得られる駆動音源信号を量子化対象としても良い。

また、本実施の形態では、量子化対象の帯域を選択する基準として、各リージョンのエネルギの大きさ、すなわち聴感的な重要度が最も高いリージョンを選択する場合を例にとって説明したが、本発明はこれに限定されず、聴感的な重要度に加え、過去フレームにおいて選択された帯域との周波数的な相関性をも同時に考慮しても良い。すなわち、過去に選択された量子化対象帯域との間で共通のサブバンドの数が所定値以上であってかつエネルギが所定値以上である候補帯域が存在する場合には、上記の候補帯域の中でエネルギが最も大きい帯域を前記量子化対象帯域として選択し、前記候補帯域が存在しない場合には、全周波数領域においてエネルギが最も大きい帯域を前記量子化対象帯域として選択しても良い。例えば、エネルギが最も大きいリージョンと過去フレームにおいて選択された帯域との間に共通のサブバンドが存在しなく、エネルギが二番目に大きいリージョンと過去フレームにおいて選択された帯域との間で共通のサブバンドの数が所定の閾値以上であり、かつエネルギが二番目に大きいリージョンのエネルギが所定の閾値以上である場合は、エネルギが最も大きいリージョンではなく、エネルギが二番目に大きいリージョンを選択する。また、本実施の形態に係る帯域選択部は、エネルギが所定値以上であるリージョンの中で、過去に選択された量子化対象帯域と最も近い
リージョンを量子化対象帯域として選択する。

また、本実施の形態では、過去フレームを用いて補間を行ってからＭＤＣＴ係数の量子化を行っても良い。例えば、過去フレームの量子化対象帯域がリージョン３（すなわちサブバンド５〜９）であり、現フレームの量子化対象帯域がリージョン４（すなわちサブバ
ンド６〜１０）であり、過去フレームの量子化結果を用いて現フレームの予測符号化を行う場合について、図２を参照しながら説明する。かかる場合、現フレームのサブバンド６〜９に対しては過去フレームのサブバンド６〜９を用いて予測符号化し、現フレームのサブバンド１０に対しては、過去フレームのサブバンド５〜９を用いて過去フレームのサブバンド１０を補間してから、補間により得られた過去フレームのサブバンド１０を用いて予測符号化する。

また、本実施の形態では、予測符号化を行うか否かに関わらず、同一のコードブックを用いて量子化を行う場合を例にとって説明したが、本発明はこれに限定されず、ゲインの量子化、およびシェイプの量子化のそれぞれにおいて、予測符号化を行う場合と行わない場合によって異なるコードブックを用いても良い。

また、本実施の形態では、全てのサブバンド幅が同一である場合を例にとって説明したが、本発明はこれに限定されず、各サブバンドのサブバンド幅をそれぞれ異なるようにしても良い。

また、本実施の形態では、ゲインの量子化、およびシェイプの量子化において、全てのサブバンドに対して同一のコードブックを用いる場合を例にとって説明したが、本発明はこれに限定されず、ゲインの量子化、およびシェイプの量子化それぞれにおいて、サブバンド毎に異なるコードブックを用いても良い。

また、本実施の形態では、量子化対象帯域として、連続するサブバンドを選択する場合を例にとって説明したが、本発明はこれに限定されず、連続しない複数のサブバンドを量子化対象帯域として選択しても良い。かかる場合、隣接するサブバンドの値を用いて、選択されなかったサブバンドの値を補間することにより、音声符号化の効率をさらに向上することができる。

また、本実施の形態では、音声符号化装置１００は予測符号化有無判定部１０４を具備する場合を例にとって説明したが、本発明に係る音声符号化装置はこれに限定されず、図４に示す音声符号化装置１００ａのように、予測符号化有無判定部１０４を具備せず、ゲイン量子化部１０５において常に予測量子化を行わないような構成にしても良い。この場合、図４に示すように、音声符号化装置１００ａは、周波数領域変換部１０１、帯域選択部１０２、シェイプ量子化部１０３、ゲイン量子化部１０５、および多重化部１０６を備える。なお、図５は、音声符号化装置１００ａに対応する音声復号装置２００ａの構成を示すブロック図であり、音声復号装置２００ａは、分離部２０１、シェイプ逆量子化部２０２、ゲイン逆量子化部２０４、および時間領域変換部２０５を備える。かかる場合、音声符号化装置１００ａは、全帯域の中から量子化する帯域を一部選択し、選択された帯域に対してさらに複数のサブバンドに分割し、各サブバンドのゲインを量子化する。これにより、全帯域の成分を量子化する方法と比較してより低いビットレートで量子化を行うことができ、符号化効率を向上させることができる。また、周波数軸でのゲインの相関を利用してゲインのベクトルを量子化することにより、符号化効率をさらに向上させることができる。

また、本発明に係る音声符号化装置は、図４に示す音声符号化装置１００ａのように、予測符号化有無判定部１０４を具備せず、ゲイン量子化部１０５において常に予測量子化を行うような構成にしても良い。このような音声符号化装置１００ａに対応する音声復号装置２００ａの構成は図５に示す通りである。かかる場合、音声符号化装置１００ａは、全帯域の中から量子化する帯域を一部選択し、選択された帯域に対してさらに複数のサブバンドに分割し、各サブバンドのゲインの量子化を行う。これにより、全帯域の成分を量子化する方法と比較してより低いビットレートで量子化を行うことができ、符号化効率を
向上させることができる。また、時間軸でのゲインの相関を利用してゲインのベクトルを予測量子化することにより、符号化効率をさらに向上させることができる。

なお、本実施の形態では、帯域選択部において、量子化対象帯域を選択する方法として、全帯域においてエネルギが最も大きいリージョンを選択する場合を例にとって説明したが、本発明はこれに限定されず、上記の判定基準に加えて、時間的に前のフレームで選択された帯域の情報を利用して選択しても良い。例えば、時間的に前のフレームで選択された帯域の近傍の帯域を含むリージョンが選択されやすくなるような重みを乗じた後に、量子化するリージョンを選択する方法が挙げられる。また、量子化する帯域を選択するレイヤが複数あった場合、下位レイヤで選択した帯域の情報を利用して、上位のレイヤで量子化する帯域を選択しても良い。例えば、下位のレイヤで選択された帯域の近傍の帯域を含むリージョンが選択されやすくなるような重みを乗じた後に、量子化するリージョンを選択する方法が挙げられる。

また、本実施の形態では、量子化対象帯域を選択する方法として、全帯域においてエネルギが最も大きいリージョンを選択する場合を例にとって説明したが、本発明はこれに限定されず、予めある帯域を予備的に選択し、予備的に選択された帯域において量子化対象帯域を最終的に選択しても良い。かかる場合、入力信号のサンプリングレート、あるいは符号化ビットレートなどによって予備的に選択される帯域を決定すれば良い。例えば、ビットレート、あるいはサンプリングレートが低い場合は、低域部を予備的に選択する方法などがある。

例えば、帯域選択部１０２においては、選択されうるリージョンの全候補の中から低域部分のリージョンに限定した後にリージョンのエネルギを算出して量子化するリージョンを決定するという方法を採ることも可能である。この例として、図２に示す全８候補のリージョンの中から、低域側から５候補までに限定し、その中で最もエネルギの大きいリージョンを選択するという方法が挙げられる。また、帯域選択部１０２は、低域側ほど選択されやすくなるようにエネルギに重みを乗じてからエネルギを比較してもよい。また、帯域選択部１０２は、低域側の固定のサブバンドを選択しても良い。音声信号には、低域側ほどハーモニクス構造が強いという特徴があり、その結果、低域側に強いピークが存在する。この強いピークはマスキングされにくいため、ノイズとして知覚されやすい。ここで、単純にエネルギの大きさだけでリージョンを選択するのではなく、低域側ほど選択されやすくすることによって、強いピークが含まれるリージョンが選択される可能性が高くなり、結果としてノイズ感が減少する。このように、選択するリージョンを低域側に限定する、あるいは低域側ほど選択されやすくなるような重みを乗じることにより、復号信号の品質を向上することができる。

また、本発明に係る音声符号化装置は、量子化する帯域の成分に対して、まずシェイプ（形状情報）の量子化を行い、次にゲイン（利得情報）の量子化を行うという構成について説明したが、本発明はこれに限定されず、まずゲインの量子化を行い、次にシェイプの量子化を行う構成にしても良い。

（実施の形態２）
図６は、本発明の実施の形態２に係る音声符号化装置３００の主要な構成を示すブロック図である。

この図において、音声符号化装置３００は、ダウンサンプリング部３０１、第１レイヤ符号化部３０２、第１レイヤ復号部３０３、アップサンプリング部３０４、第１周波数領域変換部３０５、遅延部３０６、第２周波数領域変換部３０７、第２レイヤ符号化部３０８、および多重化部３０９を備え、２レイヤからなるスケーラブルの構成をとる。なお、
第１レイヤではＣＥＬＰ（Code Exited LinearPrediction）方式の音声符号化方法を適用し、第２レイヤ符号化では本発明の実施の形態１において説明した音声符号化方法を適用する。

ダウンサンプリング部３０１は、入力される音声・オーディオ信号に対してダウンサンプリング処理を行い、音声・オーディオ信号のサンプリング周波数をＲａｔｅ１からＲａｔｅ２に変換し（Ｒａｔｅ１＞Ｒａｔｅ２）、第１レイヤ符号化部３０２に出力する。

第１レイヤ符号化部３０２は、ダウンサンプリング部３０１から入力されるダウンサンプリング後の音声・オーディオ信号に対してＣＥＬＰ方式の音声符号化を行い、得られる第１レイヤ符号化情報を第１レイヤ復号部３０３および多重化部３０９に出力する。具体的には、第１レイヤ符号化部３０２は、声道情報と音源情報とからなる音声信号を、声道情報についてはＬＰＣパラメータを求めることにより符号化し、音源情報については、予め記憶されている音声モデルの何れを用いるかを特定するインデックス、すなわち、適応符号帳および固定符号帳のどの音源ベクトルを生成するかを特定するインデックスを求めることにより符号化する。

第１レイヤ復号部３０３は、第１レイヤ符号化部３０２から入力される第１レイヤ符号化情報に対してＣＥＬＰ方式の音声復号を行い、得られる第１レイヤ復号信号をアップサンプリング部３０４に出力する。

アップサンプリング部３０４は、第１レイヤ復号部３０３から入力される第１レイヤ復号信号に対してアップサンプリング処理を行い、第１レイヤ復号信号のサンプリング周波数をＲａｔｅ２からＲａｔｅ１に変換して第１周波数領域変換部３０５に出力する。

第１周波数領域変換部３０５は、アップサンプリング部３０４から入力されるアップサンプリング後の第１レイヤ復号信号に対してＭＤＣＴを行い、周波数領域のパラメータとして得られる第１レイヤＭＤＣＴ係数を第２レイヤ符号化部３０８に出力する。ここで、第１周波数領域変換部３０５における具体的な変換方法は、本発明の実施の形態１に係る音声符号化装置１００の周波数領域変換部１０１における変換方法と同様であるため、その説明を省略する。

遅延部３０６は、入力される音声・オーディオ信号を内蔵のバッファに記憶して所定時間後に出力することにより、遅延された音声・オーディオ信号を第２周波数領域変換部３０７に出力する。ここで、遅延される所定時間は、ダウンサンプリング部３０１、第１レイヤ符号化部３０２、第１レイヤ復号部３０３、アップサンプリング部３０４、第１周波数領域変換部３０５、および第２周波数領域変換部３０７において生じるアルゴリズム遅延を考慮した時間である。

第２周波数領域変換部３０７は、遅延部３０６から入力される遅延された音声・オーディオ信号に対してＭＤＣＴを行い、周波数領域のパラメータとして得られる第２レイヤＭＤＣＴ係数を第２レイヤ符号化部３０８に出力する。ここで、第２周波数領域変換部３０７における具体的な変換方法は、実施の形態１に係る音声符号化装置１００の周波数領域変換部１０１における変換方法と同様であるため、その説明を省略する。

第２レイヤ符号化部３０８は、第１周波数領域変換部３０５から入力される第１レイヤＭＤＣＴ係数および第２周波数領域変換部３０７から入力される第２レイヤＭＤＣＴ係数を用いて第２レイヤ符号化を行い、得られる第２レイヤ符号化情報を多重化部３０９に出力する。第２レイヤ符号化部３０８の内部の主要な構成および具体的な動作については後述する。

多重化部３０９は、第１レイヤ符号化部３０２から入力される第１レイヤ符号化情報および第２レイヤ符号化部３０８から入力される第２レイヤ符号化情報を多重化し、得られるビットストリームを音声復号装置に送信する。

図７は、第２レイヤ符号化部３０８の内部の主要な構成を示すブロック図である。なお、第２レイヤ符号化部３０８は、実施の形態１に示した音声符号化装置１００（図１参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

第２レイヤ符号化部３０８は、周波数領域変換部１０１の代わりに残差ＭＤＣＴ係数算出部３８１を備える点において音声符号化装置１００と相違する。なお、多重化部１０６における処理は音声符号化装置１００の多重化部１０６における処理と同様であり、説明の便宜のため、本実施の形態に係る多重化部１０６から出力される信号の名称を第２レイヤ符号化情報と記す。

なお、帯域情報、シェイプ符号化情報、ゲイン符号化情報を、多重化部１０６を介さず、直接、多重化部３０９に入力して、第１レイヤ符号化情報と多重化しても良い。

残差ＭＤＣＴ係数算出部３８１は、第１周波数領域変換部３０５から入力される第１レイヤＭＤＣＴ係数と第２周波数領域変換部３０７から入力される第２レイヤＭＤＣＴ係数との残差を求め、残差ＭＤＣＴ係数として帯域選択部１０２に出力する。

図８は、本発明の実施の形態２に係る音声復号装置４００の主要な構成を示すブロック図である。

この図において、音声復号装置４００は、制御部４０１、第１レイヤ復号部４０２、アップサンプリング部４０３、周波数領域変換部４０４、第２レイヤ復号部４０５、時間領域変換部４０６、およびスイッチ４０７を備える。

制御部４０１は、音声符号化装置３００から伝送されるビットストリームの構成要素を分析し、このビットストリームの構成要素に応じて、適応的に第１レイヤ復号部４０２および第２レイヤ復号部４０５に適切な符号化情報を出力するとともに、制御情報をスイッチ４０７に出力する。具体的には、制御部４０１は、ビットストリームが第１レイヤ符号化情報および第２レイヤ符号化情報から構成されている場合には、第１レイヤ符号化情報を第１レイヤ復号部４０２に出力し、第２レイヤ符号化情報を第２レイヤ復号部４０５に出力する一方、ビットストリームが第１レイヤ符号化情報のみから構成されている場合には、第１レイヤ符号化情報を第１レイヤ復号部４０２に出力する。

第１レイヤ復号部４０２は、制御部４０１から入力される第１レイヤ符号化情報に対してＣＥＬＰ方式で復号し、得られる第１レイヤ復号信号をアップサンプリング部４０３およびスイッチ４０７に出力する。

アップサンプリング部４０３は、第１レイヤ復号部４０２から入力される第１レイヤ復号信号に対してアップサンプリング処理を行い、第１レイヤ復号信号のサンプリング周波数をＲａｔｅ２からＲａｔｅ１に変換し、周波数領域変換部４０４に出力する。

周波数領域変換部４０４は、アップサンプリング部４０３から入力されるアップサンプリング後の第１レイヤ復号信号に対してＭＤＣＴを行い、周波数領域のパラメータとして得られる第１レイヤ復号ＭＤＣＴ係数を第２レイヤ復号部４０５に出力する。ここで、周
波数領域変換部４０４における具体的な変換方法は、実施の形態１に係る音声符号化装置１００の周波数領域変換部１０１における変換方法と同様であるため、その説明を省略する。

第２レイヤ復号部４０５は、制御部４０１から入力される第２レイヤ符号化情報および周波数領域変換部４０４から入力される第１レイヤ復号ＭＤＣＴ係数を用いてゲインの逆量子化およびシェイプの逆量子化を行い、第２レイヤ復号ＭＤＣＴ係数を得る。第２レイヤ復号部４０５は、得られる第２レイヤ復号ＭＤＣＴ係数と第１レイヤ復号ＭＤＣＴ係数とを加算し、得られる加算結果を加算ＭＤＣＴ係数として時間領域変換部４０６に出力する。第２レイヤ復号部４０５の内部の主要な構成および具体的な動作については後述する。

時間領域変換部４０６は、第２レイヤ復号部４０５から入力される加算ＭＤＣＴ係数に対してＩＭＤＣＴを行い、時間領域成分として得られる第２レイヤ復号信号をスイッチ４０７に出力する。

スイッチ４０７は、制御部４０１から入力される制御情報に基づき、音声復号装置４００に入力されたビットストリームが第１レイヤ符号化情報および第２レイヤ符号化情報から構成されている場合には、時間領域変換部４０６から入力される第２レイヤ復号信号を出力信号として出力する一方、ビットストリームが第１レイヤ符号化情報のみから構成されている場合には、第１レイヤ復号部４０２から入力される第１レイヤ復号信号を出力信号として出力する。

図９は、第２レイヤ復号部４０５の内部の主要な構成を示すブロック図である。なお、第２レイヤ復号部４０５は、実施の形態１に示した音声復号装置２００（図３参照）と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

第２レイヤ復号部４０５は、加算ＭＤＣＴ係数算出部４５２をさらに具備する点において、音声復号装置２００と相違する。なお、第２レイヤ復号部４０５の分離部４５１と、音声復号装置２００の分離部２０１とは処理の一部に相違点があり、それを示すために異なる符号を付す。

分離部４５１は、制御部４０１から入力される第２レイヤ符号化情報から帯域情報、シェイプ符号化情報、およびゲイン符号化情報を分離し、得られる帯域情報をシェイプ逆量子化部２０２および予測復号有無判定部２０３に、シェイプ符号化情報をシェイプ逆量子化部２０２に、ゲイン符号化情報をゲイン逆量子化部２０４に出力する。

加算ＭＤＣＴ係数算出部４５２は、周波数領域変換部４０４から入力される第１レイヤ復号ＭＤＣＴ係数と、ゲイン逆量子化部２０４から入力される第２レイヤ復号ＭＤＣＴ係数とを加算し、得られる加算結果を加算ＭＤＣＴ係数として時間領域変換部４０６に出力する。

このように、本実施の形態によれば、各フレームにおいて異なる帯域の周波数成分を量子化対象とする場合、スケーラブル符号化を適用する上に非時間的なパラメータの予測符号化を適応的に行うため、音声符号化の符号化情報量を低減するとともに、音声・オーディオ信号の符号化誤差および復号信号の音質劣化をさらに低減することができる。

なお、本実施の形態では、第２レイヤ符号化部３０８は、第１レイヤＭＤＣＴ係数と第２レイヤＭＤＣＴ係数との差分成分を符号化対象とする場合を例にとって説明したが、本
発明はこれに限定されず、第２レイヤ符号化部３０８は、所定周波数以下の帯域に対しては第１レイヤＭＤＣＴ係数と第２レイヤＭＤＣＴ係数との差分成分を符号化対象とし、所定周波数より高い帯域に対しては入力信号のＭＤＣＴ係数そのものを符号化対象としても良い。すなわち、帯域に応じて差分成分を採用するか否かを切り替えても良い。

また、本実施の形態では、第２レイヤ符号化の量子化対象帯域を選択する方法として、第１レイヤＭＤＣＴ係数と第２レイヤＭＤＣＴ係数との残差成分のエネルギが最も大きいリージョンを選択する場合を例にとって説明したが、本発明はこれに限定されず、第１レイヤＭＤＣＴ係数のエネルギが最も大きいリージョンを選択してもよい。例えば、第１レイヤＭＤＣＴ係数のサブバンド毎のエネルギを算出し、さらにリージョン毎に各サブバンドのエネルギを加算し、エネルギが最も大きいリージョンを第２レイヤ符号化の量子化対象帯域として選択してもよい。また、復号装置側においては、第１レイヤ復号により得られた第１レイヤ復号ＭＤＣＴ係数の各リージョンの中からエネルギが最も大きいリージョンを第２レイヤ復号の逆量子化対象帯域と選択する。これにより、符号化装置側から第２レイヤ符号化の量子化帯域に関する帯域情報を送信することなく、符号化ビットレートを低減させることができる。

また、本実施の形態では、第２レイヤ符号化部３０８は、第１レイヤＭＤＣＴ係数と第２レイヤＭＤＣＴ係数との残差成分に対し、量子化対象帯域を選択し量子化を行う場合を例にとって説明したが、本発明はこれに限定されず、第２レイヤ符号化部３０８は、第１レイヤＭＤＣＴ係数から第２レイヤＭＤＣＴ係数を予測し、その予測されたＭＤＣＴ係数と実際の第２レイヤＭＤＣＴ係数との残差成分に対し、量子化対象帯域を選択し量子化を行っても良い。このようにすることで、第１レイヤＭＤＣＴ係数と第２レイヤＭＤＣＴ係数との相関性を利用し、符号化効率をさらに向上させることができる。

（実施の形態３）
図１０は、本発明の実施の形態３に係る音声符号化装置５００の主要な構成を示すブロック図である。なお、音声符号化装置５００は、図１に示した音声符号化装置１００と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声符号化装置５００は、補間値算出部５０４をさらに具備する点において音声符号化装置１００と相違する。なお、音声符号化装置５００のゲイン量子化部５０５と、音声符号化装置１００のゲイン量子化部１０５とは処理の一部に相違点があり、それを示すために異なる符号を付す。

補間値算出部５０４は、過去のフレームの量子化対象帯域を示す帯域情報を記憶するバッファを内蔵している。補間値算出部５０４は、ゲイン量子化部５０５から読み出す過去のフレームの量子化対象帯域の量子化ゲイン値を用いて、帯域選択部１０２から入力される帯域情報が示す現フレームの量子化対象帯域のうち、過去のフレームにおいて量子化されなかった帯域のゲインの値を補間する。補間値算出部５０４は、得られるゲイン補間値をゲイン量子化部５０５に出力する。

ゲイン量子化部５０５は、予測符号化を行う際に、内蔵のバッファに記憶している過去のフレームの量子化ゲイン値および内蔵のゲインコードブックのほかに、補間値算出部５０４から入力されるゲイン補間値をさらに用いる点において音声符号化装置１００のゲイン量子化部１０５と相違する。

以下、補間値算出部５０４が行うゲイン値の補間方法について、具体的に説明する。

補間値算出部５０４は、過去のフレームにおいて帯域選択部１０２から入力された帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している。ここでは過去の３フレーム分の帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している場合を例にあげ説明する。

補間値算出部５０４は、まず過去の３フレームについて、帯域情報ｍ＿ｍａｘが示す帯域以外のゲインの値を線形補間により算出する。帯域情報ｍ＿ｍａｘが示す帯域より低い帯域のゲインの値については式（１９）に従って補間値を算出し、帯域情報ｍ＿ｍａｘが示す帯域より高い帯域のゲインの値については式（２０）に従って補間値を算出する。

式（１９）および式（２０）において、β_ｉは補間係数を示し、ｑ_ｉは過去のフレームの帯域情報ｍ＿ｍａｘが示す量子化対象帯域のゲインの値を示し、ｇは過去のフレームの帯域情報ｍ＿ｍａｘが示す量子化対象帯域に隣接する量子化されなかった帯域のゲインの補間値を示す。ここで、ｉが小さいほど周波数のより低い帯域を示し、式（１９）においてｇは過去のフレームの帯域情報ｍ＿ｍａｘが示す量子化対象帯域の高域側の隣接帯域のゲインの補間値を示し、式（２０）においてｇは過去のフレームの帯域情報ｍ＿ｍａｘが示す量子化対象帯域の低域側の隣接帯域のゲインの補間値を示す。補間係数β_ｉは、式（１９）および（２０）を満たすように予め統計的に求められた値を用いるものとする。また、ここでは、式（１９）および式（２０）それぞれにおいて異なる補間係数β_ｉを用いる場合について説明したが、式（１９）および式（２０）において同様な１組の予測係数α_ｉを用いても良い。

式（１９）および式（２０）に示すように、補間値算出部５０４において過去のフレームの帯域情報ｍ＿ｍａｘが示す量子化対象帯域に隣接する高域側または低域側の１つの帯域のゲインの値を補間することが可能である。また、補間値算出部５０４は、式（１９）および（２０）により得られる結果を利用し、式（１９）および（２０）の演算を繰り返すことにより、次々と隣接の量子化されなかった帯域のゲインの値を補間する。

このように、補間値算出部５０４は、ゲイン量子化部５０５から読み出す過去の３フレーム分の量子化されたゲインの値を用いて、帯域選択部１０２から入力される帯域情報が示す現フレームの量子化対象帯域のうち、過去の３フレーム分の帯域情報ｍ＿ｍａｘが示す帯域以外の帯域のゲインの値を補間する。

次に、ゲイン量子化部５０５における予測符号化の動作について説明する。

ゲイン量子化部５０５は、記憶している過去フレームの量子化ゲイン値、補間値算出部５０４から入力されるゲイン補間値、および内蔵のゲインコードブックを用いて、現フレームのゲイン値を予測することにより量子化を行う。具体的には、ゲイン量子化部５０５は、Ｌ個の各サブバンド毎に、ＧＱ個のゲインコードベクトルからなる内蔵のゲインコードブックを探索して、下記の式（２１）の結果が最小となるゲインコードベクトルのインデックスを求める。

式（２１）において、ＧＣ^ｉ _ｊはゲインコードブックを構成するゲインコードベクトルを示し、ｉはゲインコードベクトルのインデックスを示し、ｊはゲインコードベクトルの要素のインデックスを示す。ここで、Ｃ^ｔ _ｊは時間的にｔフレーム前の量子化ゲイン値を示し、例えばｔ＝１の場合、Ｃ^ｔ _ｊは時間的に１フレーム前の量子化ゲイン値を示す。またαは、ゲイン量子化部５０５に記憶されている４次の線形予測係数である。また、過去の３フレームにおいて量子化対象として選択されなかった帯域のゲインの値は、補間値算出部５０４で式（１９）および式（２０）に従って算出されたゲインの補間値を利用する。なお、ゲイン量子化部５０５は、１リージョン内のＬ個のサブバンドをＬ次元ベクトルとして扱い、ベクトル量子化を行う。

ゲイン量子化部５０５は、上記の式（２１）の結果が最小となるゲインコードベクトルのインデックスＧ＿ｍｉｎをゲイン符号化情報として多重化部１０６に出力する。また、ゲイン量子化部５０５は、現フレームで得られたゲイン符号化情報Ｇ＿ｍｉｎおよび量子化ゲイン値Ｃ^ｔ _ｊを用いて、下記の式（２２）に従い、内蔵のバッファを更新する。

図１１は、本発明の実施の形態３に係る音声復号装置６００の主要な構成を示すブロック図である。なお、音声復号装置６００は、図３に示した音声復号装置２００と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声復号装置６００は、補間値算出部６０３をさらに具備する点において音声復号装置２００と相違する。なお、音声復号装置６００のゲイン逆量子化部６０４と、音声復号装置２００のゲイン逆量子化部２０４とは処理の一部に相違点があり、それを示すために異なる符号を付す。

補間値算出部６０３は、過去のフレームにおいて逆量子化された帯域情報を記憶するバッファを内蔵している。補間値算出部６０３は、ゲイン逆量子化部６０４から読み出す過去のフレームにおいて逆量子化された帯域のゲインの値を用いて、分離部２０１から入力される帯域情報が示す現フレームの量子化対象帯域のうち、過去のフレームにおいて逆量子化されなかった帯域のゲインの値を補間する。補間値算出部６０３は、得られるゲイン補間値をゲイン逆量子化部６０４に出力する。

ゲイン逆量子化部６０４は、予測復号を行う際に、記憶している過去のフレームの逆量子化されたゲインの値および内蔵のゲインコードブックのほかに、補間値算出部６０３から入力されるゲイン補間値をさらに用いる点において音声復号装置２００のゲイン逆量子化部２０４と相違する。

補間値算出部６０３におけるゲインの値の補間方法は、補間値算出部５０４におけるゲ
インの値の補間方法と同様であるため、詳細な説明は省略する。

以下、ゲイン逆量子化部６０４における予測復号の動作について説明する。

ゲイン逆量子化部６０４は、記憶している過去のフレームにおいて逆量子化されたゲインの値、補間値算出部６０３から入力される補間ゲインの値、および内蔵のゲインコードブックを用いて、現フレームのゲイン値を予測することにより逆量子化を行う。具体的には、ゲイン逆量子化部６０４は、下記の式（２３）に従い、ゲインの逆量子化を行ってゲイン値Ｇａｉｎ＿ｑ’を得る。

式（２３）において、Ｃ”^ｔ _ｊは時間的にｔフレーム前のゲインの値を示し、例えばｔ＝１の場合、Ｃ”^ｔ _ｊは１フレーム前のゲイン値を示す。また、αはゲイン逆量子化部６０４に記憶されている４次の線形予測係数である。また、過去の３フレームにおいて量子化対象として選択されなかった帯域のゲインの値は、補間値算出部６０３で算出されたゲインの補間値を利用する。ゲイン逆量子化部６０４は、１リージョン内のＬ個のサブバンドをＬ次元ベクトルとして扱い、ベクトル逆量子化を行う。

次いで、ゲイン逆量子化部６０４は、現フレームの逆量子化で得られるゲイン値、およびシェイプ逆量子化部２０２から入力されるシェイプの値を用いて、下記の式（２４）に従い復号ＭＤＣＴ係数を算出し、下記の式（２５）に従い内蔵のバッファを更新する。ここでは、算出された復号ＭＤＣＴ係数をＸ”ｋと記す。また、ＭＤＣＴ係数の逆量子化において、ｋがＢ（ｊ”）〜Ｂ（ｊ”＋１）−１内に存在する場合、ゲイン値Ｇａｉｎ＿ｑ’（ｊ）はＧａｉｎ＿ｑ’（ｊ”）の値をとる。

このように、本実施の形態によれば、各フレームの異なる量子化対象帯域の周波数領域パラメータを量子化する際、過去のフレームにおいて量子化された値から、次々と隣接の量子化されなかった帯域の値を補間し、補間された値も用いて予測量子化を行う。そのため、音声符号化の符号化精度をさらに向上することができる。

なお、本実施の形態では、ゲインの補間値を算出する際に、予め求めた固定な補間係数βを用いる場合を例にとって説明したが、本発明はこれに限らず、予め求めた補間係数βを調整してから補間を行っても良い。例えば、各フレームで量子化された帯域のゲインの分布に応じて予測係数を調整しても良い。具体的には、各フレームで量子化されたゲインのばらつきが大きい場合には予測係数を弱め、現フレームのゲインの重みを大きくするように調整することにより、音声符号化の符号化精度を向上することが可能である。

また、本実施の形態では、各フレームで量子化する帯域として連続する複数のバンド（１リージョン）を対象とする場合について説明したが、本発明はこれに限らず、複数のリージョンを量子化対象としても良い。かかる場合には、式（１９）および式（２０）による補間方法のほかに、選択されたリージョンの間の帯域に関してはそれぞれのリージョンの端値を線形補間する方法を採ることにより、音声符号化の符号化精度を向上することが可能である。

（実施の形態４）
図１２は、本発明の実施の形態４に係る音声符号化装置７００の主要な構成を示すブロック図である。なお、音声符号化装置７００は、図１に示した音声符号化装置１００と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声符号化装置７００は、予測係数決定部７０４をさらに具備する点において音声符号化装置１００と相違する。なお、音声符号化装置７００のゲイン量子化部７０５と、音声符号化装置１００のゲイン量子化部１０５とは処理の一部に相違点があり、それを示すために異なる符号を付す。

予測係数決定部７０４は、過去のフレームの量子化対象帯域を示す帯域情報を記憶するバッファを内蔵しており、過去のフレームの帯域情報に基づき、ゲイン量子化部７０５の量子化に用いる予測係数を決定し、決定した予測係数をゲイン量子化部７０５に出力する。

ゲイン量子化部７０５は、予測符号化を行う際に、予め決められた予測係数の代わりに、予測係数決定部７０４から入力される予測係数を用いる点において、音声符号化装置１００のゲイン量子化部１０５と相違する。

以下、予測係数決定部７０４における予測係数の決定動作について説明する。

予測係数決定部７０４は、過去のフレームにおいて帯域選択部１０２から入力された帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している。ここでは過去の３フレーム分の帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している場合を例にあげ説明する。

予測係数決定部７０４は、内蔵のバッファに記憶している帯域情報ｍ＿ｍａｘ、および現フレームにおいて帯域選択部１０２から入力された帯域情報ｍ＿ｍａｘを用いて、現フレームの量子化対象帯域と過去のフレームの量子化対象帯域との間で共通のサブバンドの数を求め、共通のサブバンドの数が所定値以上である場合には、予測係数をセットＡに決定しゲイン量子化部７０５に出力する。また、共通のサブバンドの数が所定値未満である場合には、予測係数をセットＢに決定しゲイン量子化部７０５に出力する。ここで、予測係数のセットＡは、予測係数のセットＢと比べ、より過去のフレームの値を重視し、過去のフレームのゲイン値の重みをより大きくしたパラメータセットである。例えば予測次数が４次である場合、セットＡは（αａ0=0.60、αａ1＝0.25、αａ2＝0.10、αａ3＝0.05）、セットＢは（αｂ0=0.80、αｂ1＝0.10、αｂ2＝0.05、αｂ3＝0.05）のように決めることが可能である。

次に、予測係数決定部７０４は、現フレームにおいて帯域選択部１０２から入力される帯域情報ｍ＿ｍａｘを用いて内蔵のバッファを更新する。

次に、ゲイン量子化部７０５における予測符号化の動作について説明する。

ゲイン量子化部７０５は、過去のフレームにおいて得られた量子化ゲイン値を記憶するバッファを内蔵している。ゲイン量子化部７０５は、予測係数決定部７０４から入力される予測係数と、内蔵のバッファに記憶されている過去フレームの量子化ゲイン値Ｃ^ｔ _ｊを用いて、現フレームのゲイン値を予測することにより量子化を行う。具体的には、ゲイン量子化部７０５は、Ｌ個の各サブバンド毎に、ＧＱ個のゲインコードベクトルからなる内蔵のゲインコードブックを探索して、予測係数がセットＡの場合は、下記の式（２６）の結果が最小となるゲインコードベクトルのインデックスを求め、予測係数がセットＢの場合には、下記の式（２７）の結果が最小となるゲインコードベクトルのインデックスを求める。

式（２６）および式（２７）において、ＧＣ^ｉ _ｊはゲインコードブックを構成するゲインコードベクトルを示し、ｉはゲインコードベクトルのインデックスを示し、ｊはゲインコードベクトルの要素のインデックスを示す。ここで、Ｃ^ｔ _ｊは時間的にｔフレーム前のゲインの値を示し、例えばｔ＝１の場合、Ｃ^ｔ _ｊは時間的に１フレーム前のゲイン値を示す。またαは、ゲイン量子化部７０５に記憶されている４次の線形予測係数である。なお、ゲイン量子化部７０５は、１リージョン内のＬ個のサブバンドをＬ次元ベクトルとして扱い、ベクトル量子化を行う。なお、ゲイン量子化部７０５は、内蔵のバッファの中の過去のフレームに対応するサブバンドのゲイン値が存在しない場合、ゲイン量子化部７０５は上記の式（２６）あるいは式（２７）において、内蔵のバッファの中の周波数的に最も近いサブバンドのゲインの値を代用する。

図１３は、本発明の実施の形態４に係る音声復号装置８００の主要な構成を示すブロック図である。なお、音声復号装置８００は、図３に示した音声復号装置２００と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声復号装置８００は、予測係数決定部８０３をさらに具備する点において音声復号装置２００と相違する。なお、音声復号装置８００のゲイン逆量子化部８０４と、音声復号装置２００のゲイン逆量子化部２０４とは処理の一部に相違点があり、それを示すために異なる符号を付す。

予測係数決定部８０３は、過去のフレームにおいて分離部２０１から入力される帯域情報を記憶するバッファを内蔵しており、過去のフレームの帯域情報に基づき、ゲイン逆量子化部８０４の量子化に用いる予測係数を決定し、決定した予測係数をゲイン逆量子化部８０４に出力する。

ゲイン逆量子化部８０４は、予測復号を行う際に、予め決められた予測係数の代わりに、予測係数決定部８０３から入力される予測係数を用いる点において、音声復号装置２００のゲイン逆量子化部２０４と相違する。

予測係数決定部８０３における予測係数の決定方法は、音声符号化装置７００の予測係数決定部７０４における予測係数の決定方法と同様であるため、予測係数決定部８０３の動作についての詳細な説明は省略する。

次に、ゲイン逆量子化部８０４における予測復号の動作について説明する。

ゲイン逆量子化部８０４は、過去のフレームにおいて得られたゲイン値を記憶するバッファを内蔵している。ゲイン逆量子化部８０４は、予測係数決定部８０３から入力される予測係数、および内蔵のバッファに記憶している過去のフレームのゲイン値を用いて、現フレームのゲイン値を予測することにより逆量子化を行う。具体的には、ゲイン逆量子化部８０４は、音声符号化装置７００のゲイン量子化部７０５と同様なゲインコードブックを内蔵しており、予測係数決定部８０３から入力される予測係数がセットＡの場合は下記の式（２８）に従い、また予測係数がセットＢの場合は下記の式（２９）に従い、ゲインの逆量子化を行ってゲイン値Ｇａｉｎ＿ｑ’を得る。

式（２８）および式（２９）において、Ｃ”^ｔ _ｊは時間的にｔフレーム前のゲインの値を示し、例えばｔ＝１の場合、Ｃ”^ｔ _ｊは１フレーム前のゲイン値を示す。また、αａ_ｉおよびαｂ_ｉは予測係数決定部８０３から入力される予測係数のセットＡ、セットＢを示す。ゲイン逆量子化部８０４は、１リージョン内のＬ個のサブバンドをＬ次元ベクトルとして扱い、ベクトル逆量子化を行う。

このように、本実施の形態によれば、各フレームの異なる量子化対象帯域の周波数領域パラメータを量子化する際、複数の予測係数のセットのうち、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間の共通のサブバンド数が大きいほど、過去のフレームのゲイン値の重みをより大きくする予測係数のセットを選択し予測符号化を行う。そのため、音声符号化の符号化精度をさらに向上することができる。

なお、本実施の形態では、予め２種類の予測係数のセットを用意しておいて、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通のサブバンド数に応じて、予測符号化に用いる予測係数を切り替える場合を例にとって説明したが、本発明はこれに限らず、３種類以上の予測係数を予め用意しておいても良い。

また、本実施の形態では、現フレームにおける量子化対象の帯域が、過去のフレームで量子化されなかった場合に対しては、過去のフレームにおいて最も近い帯域の値を代用する場合について説明したが、本発明はこれに限らず、現フレームにおける量子化対象帯域の値が過去のフレームで量子化されなかった場合には、該当する過去のフレームの予測係数をゼロとし、そのフレームの予測係数を現フレームの予測係数に加算し、新たな予測係数のセットを算出し、その予測係数を用いて予測符号化を行っても良い。これにより、予測符号化の効果をより柔軟に切り替えることができ、音声符号化の符号化精度をさらに向上することが可能である。

（実施の形態５）
図１４は、本発明の実施の形態５に係る音声符号化装置１０００の主要な構成を示すブロック図である。なお、音声符号化装置１０００は、図６に示した音声符号化装置３００と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声符号化装置１０００は、帯域拡張符号化部１００７をさらに具備する点において音声符号化装置３００と相違する。なお、音声符号化装置１０００の第２レイヤ符号化部１００８、多重化部１００９と、音声符号化装置３００の第２レイヤ符号化部３０８、多重化部３０９とは処理の一部に相違点があり、それを示すために異なる符号を付す。

帯域拡張符号化部１００７は、第１周波数領域変換部３０５から入力される第１レイヤＭＤＣＴ係数および第２周波数領域変換部３０７から入力される入力ＭＤＣＴ係数を用いて帯域拡張符号化を行い、得られる帯域拡張符号化情報を多重化部１００９に出力する。

多重化部１００９は、第１レイヤ符号化情報および第２レイヤ符号化情報のほかに、帯域拡張符号化情報をさらに多重化する点のみにおいて多重化部３０９と相違する。

図１５は、帯域拡張符号化部１００７の内部の主要な構成を示すブロック図である。

図１５において、帯域拡張符号化部１００７は、高域スペクトル推定部１０７１および補正スケールファクタ符号化部１０７２を備える。

高域スペクトル推定部１０７１は、第２周波数領域変換部３０７から入力される入力ＭＤＣＴ係数の信号帯域０〜ＦＬの低域スペクトルを利用して、信号帯域ＦＬ〜ＦＨの高域スペクトルを推定し、推定スペクトルを得る。推定スペクトルの導出方法は、高域スペクトルとの類似度が最大となるような推定スペクトルを、低域スペクトルを基に、この低域スペクトルを変形することにより求める。高域スペクトル推定部１０７１は、この推定スペクトルに関する情報（推定情報）を符号化し、得られる符号化パラメータを出力すると共に、推定スペクトル自体を補正スケールファクタ符号化部１０７２に与える。

以下の説明では、高域スペクトル推定部１０７１から出力される推定スペクトルのことを第１スペクトルと呼び、第１周波数領域変換部３０５から出力される第１レイヤＭＤＣＴ係数（高域スペクトル）のことを第２スペクトルと呼ぶこととする。

ここで、上記説明で現れた各種スペクトルをまとめて信号帯域と併せて示すと、以下のようになる。

狭帯域スペクトル（低域スペクトル）・・・０〜ＦＬ
広帯域スペクトル・・・０〜ＦＨ
第１スペクトル（推定スペクトル）・・・ＦＬ〜ＦＨ
第２スペクトル（高域スペクトル）・・・ＦＬ〜ＦＨ
補正スケールファクタ符号化部１０７２は、第１スペクトルのスケールファクタが第２スペクトルのスケールファクタに近づくように、第１スペクトルのスケールファクタを補正し、この補正スケールファクタに関する情報を符号化して出力する。

帯域拡張符号化部１００７から多重化部１００９に出力される帯域拡張符号化情報は、高域スペクトル推定部１０７１から出力される推定情報の符号化パラメータおよび補正スケールファクタ符号化部１０７２から出力される補正スケールファクタの符号化パラメー
タを含む。

図１６は、補正スケールファクタ符号化部１０７２の内部の主要な構成を示すブロック図である。

補正スケールファクタ符号化部１０７２は、スケールファクタ算出部１７２１、１７２２、補正スケールファクタ符号帳１７２３、乗算器１７２４、減算器１７２５、判定部１７２６、重み付き誤差算出部１７２７、および探索部１７２８を備え、各部は以下の動作を行う。

スケールファクタ算出部１７２１は、入力される第２スペクトルの信号帯域ＦＬ〜ＦＨを複数のサブバンドに分割し、各サブバンドに含まれるスペクトルの大きさを求め、減算器１７２５に出力する。具体的には、サブバンドへの分割は、臨界帯域に対応付けて行われ、バーク尺度で等間隔に分割される。また、スケールファクタ算出部１７２１は、各サブバンドに含まれるスペクトルの平均振幅を求め、これを第２スケールファクタＳＦ２（ｋ）｛０≦ｋ＜ＮＢ｝とする。ここでＮＢはサブバンド数を表す。なお、平均振幅の代わりに最大振幅値等を用いても良い。

スケールファクタ算出部１７２２は、入力される第１スペクトルの信号帯域ＦＬ〜ＦＨを複数のサブバンドに分割し、各サブバンドの第１スケールファクタＳＦ１（ｋ）｛０≦ｋ＜ＮＢ｝を算出し、乗算器１７２４に出力する。スケールファクタ算出部１７２１と同様に、平均振幅の代わりに最大振幅値等を用いても良い。

以降の処理においては、複数のサブバンドにおける各パラメータを１つのベクトル値にまとめる。例えば、ＮＢ個のスケールファクタを１つのベクトルとして表す。そして、このベクトル毎に各処理を行う場合、すなわち、ベクトル量子化を行う場合を例にとって説明を行う。

補正スケールファクタ符号帳１７２３は、補正スケールファクタの候補が複数格納されており、探索部１７２８からの指示に従い、格納されている補正スケールファクタの候補のうちの１つを乗算器１７２４に順次出力する。補正スケールファクタ符号帳１７２３に格納されている補正スケールファクタの複数の候補は、ベクトルで表される。

乗算器１７２４は、スケールファクタ算出部１７２２から出力される第１スケールファクタと、補正スケールファクタ符号帳１７２３から出力される補正スケールファクタの候補とを乗算し、乗算結果を減算器１７２５に与える。

減算器１７２５は、スケールファクタ算出部１７２１より出力される第２スケールファクタから、乗算器１７２４の出力、すなわち、第１スケールファクタおよび補正スケールファクタ候補の積を減じ、これにより得られる誤差信号を、重み付き誤差算出部１７２７および判定部１７２６に与える。

判定部１７２６は、減算器１７２５から与えられる誤差信号の符号に基づいて、重み付き誤差算出部１７２７に与える重みベクトルを決定する。具体的には、減算器１７２５から与えられる誤差信号ｄ（ｋ）は、以下の式（３０）によって表される。

ここで、ｖ_ｉ（ｋ）は、第ｉ番目の補正スケールファクタの候補を表す。判定部１７２６は、ｄ（ｋ）の符号を調べ、正である場合にはｗ_ｐｏｓ、負である場合にはｗ_ｎｅｇを重み（ウェイト）として選択し、これらから構成される重みベクトルｗ（ｋ）を、重み付き誤差算出部１７２７に出力する。これらの重みには、以下の式（３１）の大小関係がある。

例えば、サブバンド数ＮＢ＝４であり、ｄ（ｋ）の符号が｛＋，−，−，＋｝となる場合、重み付き誤差算出部１７２７に出力される重みベクトルｗ（ｋ）は、ｗ（ｋ）＝｛ｗ_ｐｏｓ，ｗ_ｎｅｇ，ｗ_ｎｅｇ，ｗ_ｐｏｓ｝と表される。

重み付き誤差算出部１７２７は、まず、減算器１７２５から与えられる誤差信号の２乗値を算出し、次に、判定部１７２６から与えられる重みベクトルｗ（ｋ）を誤差信号の２乗値に乗じて、重み付き２乗誤差Ｅを算出し、算出結果を探索部１７２８に与える。ここで、重み付き２乗誤差Ｅは以下の式（３２）のように表される。

探索部１７２８は、補正スケールファクタ符号帳１７２３を制御して、格納されている補正スケールファクタの候補を順次出力させ、閉ループ処理により、重み付き誤差算出部１７２７から出力される重み付き２乗誤差Ｅが最小となる補正スケールファクタの候補を求める。探索部１７２８は、求まった補正スケールファクタの候補のインデックスｉｏｐｔを符号化パラメータとして出力する。

上記のように、誤差信号の符号に応じて重み付き２乗誤差を算出するときの重みを設定し、かつその重みが式（３０）に示されるような関係がある場合、次のような作用が得られる。すなわち、誤差信号ｄ（ｋ）が正の場合とは、復号側で生成される復号値（符号化側で言うと、第１スケールファクタに補正スケールファクタ候補を乗じた値）が目標値である第２スケールファクタよりも小さくなる場合である。また、誤差信号ｄ（ｋ）が負の場合とは、復号側で生成される復号値が目標値である第２スケールファクタよりも大きくなる場合である。従って、誤差信号ｄ（ｋ）が正の場合の重みを、誤差信号ｄ（ｋ）が負の場合の重みよりも小さくなるように設定することにより、２乗誤差が同程度の値の場合、第２スケールファクタよりも小さい復号値を生成する補正スケールファクタ候補が選択されやすくなる。

帯域拡張符号化部１００７の処理により次のような改善効果が得られる。例えば、本実施の形態のように、低域スペクトルを利用して高域スペクトルを推定する場合、一般的には、低ビットレート化を実現することができる。しかし、低ビットレート化を実現する一方で、推定スペクトルの精度、すなわち、推定スペクトルと高域スペクトルとの類似性は、上述の通り、充分に高いとは言えない。かかる場合に、スケールファクタの復号値が目標値よりも大きくなり、量子化後のスケールファクタが推定スペクトルを強調する方向に作用すると、推定スペクトルの精度の低さが人間の耳に品質劣化として知覚されやすくなる。逆に、スケールファクタの復号値が目標値よりも小さくなり、量子化後のスケールファクタがこの推定スペクトルを減衰する方向に作用するときは、推定スペクトルの精度の
低さが目立たなくなり、復号信号の音質が改善するという効果が得られる。なお、この傾向は、計算機によるシミュレーションにおいても確認することができた。

図１７は、第２レイヤ符号化部１００８の内部の主要な構成を示すブロック図である。なお、第２レイヤ符号化部１００８は、図７に示した第２レイヤ符号化部３０８と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。第２レイヤ符号化部１００８の残差ＭＤＣＴ係数算出部１０８１と、第２レイヤ符号化部３０８の残差ＭＤＣＴ係数算出部３８１とは処理の一部に相違点があり、それを示すために異なる符号を付す。

残差ＭＤＣＴ係数算出部１０８１は、入力された入力ＭＤＣＴ係数と第１レイヤ拡張ＭＤＣＴ係数とから、第２レイヤ符号化部において量子化対象とする残差ＭＤＣＴを算出する。残差ＭＤＣＴ係数算出部１０８１は、帯域拡張符号化部１００７にて拡張されない帯域に対しては、入力ＭＤＣＴ係数と第１レイヤ拡張ＭＤＣＴ係数との残差を残差ＭＤＣＴ係数とし、帯域拡張符号化部１００７にて拡張された帯域に対しては残差ではなく、入力ＭＤＣＴ係数そのものを残差ＭＤＣＴ係数とするという点において、実施の形態２に係る残差ＭＤＣＴ係数算出部３８１とは異なる。

図１８は、本発明の実施の形態５に係る音声復号装置１０１０の主要な構成を示すブロック図である。なお、音声復号装置１０１０は、図８に示した音声復号装置４００と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

音声復号装置１０１０は、帯域拡張復号部１０１２および時間領域変換部１０１３をさらに具備する点において音声復号装置４００と相違する。なお、音声復号装置１０１０の制御部１０１１、第２レイヤ復号部１０１５、スイッチ１０１７と、音声復号装置４００の制御部４０１、第２レイヤ復号部４０５、スイッチ４０７とは処理の一部に相違点があり、それを示すために異なる符号を付す。

制御部１０１１は、音声符号化装置１０００から伝送されるビットストリームの構成要素を分析し、このビットストリームの構成要素に応じて、適応的に第１レイヤ復号部４０２、帯域拡張復号部１０１２、および第２レイヤ復号部１０１５に適切な符号化情報を出力するとともに、制御情報をスイッチ１０１７に出力する。具体的には、制御部１０１１は、ビットストリームが第１レイヤ符号化情報、帯域拡張符号化情報および第２レイヤ符号化情報から構成されている場合は、第１レイヤ符号化情報を第１レイヤ復号部４０２に出力し、帯域拡張符号化情報を帯域拡張復号部１０１２に出力し、第２レイヤ符号化情報を第２レイヤ復号部１０１５に出力する。また、制御部１０１１は、ビットストリームが第１レイヤ符号化情報、および帯域拡張符号化情報のみから構成されている場合は、第１レイヤ符号化情報を第１レイヤ復号部４０２に出力し、帯域拡張符号化情報を帯域拡張復号部１０１２に出力する。また、制御部１０１１は、ビットストリームが第１レイヤ符号化情報のみから構成されている場合は、第１レイヤ符号化情報を第１レイヤ復号部４０２に出力する。また、制御部１０１１は、スイッチ１０１７を制御する制御情報をスイッチ１０１７に出力する。

帯域拡張復号部１０１２は、制御部１０１１から入力される帯域拡張符号化情報および周波数領域変換部４０４から入力される第１レイヤ復号ＭＤＣＴ係数を用いて、帯域拡張処理を行い、第１レイヤ拡張ＭＤＣＴ係数を得る。そして、帯域拡張復号部１０１２は、得られた第１レイヤ拡張ＭＤＣＴ係数を時間領域変換部１０１３、および第２レイヤ復号部１０１５に出力する。帯域拡張復号部１０１２の内部の主要な構成および具体的な動作については後述する。

時間領域変換部１０１３は、帯域拡張復号部１０１２から入力される第１レイヤ拡張ＭＤＣＴ係数に対してＩＭＤＣＴを行い、時間領域成分として得られる第１レイヤ拡張復号信号をスイッチ１０１７に出力する。

第２レイヤ復号部１０１５は、制御部１０１１から入力される第２レイヤ符号化情報および帯域拡張復号部１０１２から入力される第１レイヤ拡張ＭＤＣＴ係数を用いてゲインの逆量子化およびシェイプの逆量子化を行い、第２レイヤ復号ＭＤＣＴ係数を得る。第２レイヤ復号部１０１５は、得られる第２レイヤ復号ＭＤＣＴ係数と第１レイヤ復号ＭＤＣＴ係数とを加算し、得られる加算結果を加算ＭＤＣＴ係数として時間領域変換部４０６に出力する。第２レイヤ復号部１０１５の内部の主要な構成および具体的な動作については後述する。

スイッチ１０１７は、制御部１０１１から入力される制御情報に基づき、音声復号装置１０１０に入力されたビットストリームが第１レイヤ符号化情報、帯域拡張符号化情報および第２レイヤ符号化情報から構成されている場合は、時間領域変換部４０６から入力される第２レイヤ復号信号を出力信号として出力する。また、スイッチ１０１７は、ビットストリームが第１レイヤ符号化情報、および帯域拡張符号化情報から構成されている場合は、時間領域変換部１０１３から入力される第１レイヤ拡張復号信号を出力信号として出力する。また、スイッチ１０１７は、ビットストリームが第１レイヤ符号化情報のみから構成されている場合は、第１レイヤ復号部４０２から入力される第１レイヤ復号信号を出力信号として出力する。

図１９は、帯域拡張復号部１０１２の内部の主要な構成を示すブロック図である。帯域拡張復号部１０１２は、高域スペクトル復号部１１２１、補正スケールファクタ復号部１１２２、乗算器１１２３、および連結部１１２４から構成される。

高域スペクトル復号部１１２１は、制御部１０１１から入力される帯域拡張符号化情報に含まれる推定情報の符号化パラメータと第１スペクトルとを用い、信号帯域ＦＬ〜ＦＨの推定スペクトル（微細スペクトル）を復号する。得られた推定スペクトルは乗算器１１２３に与えられる。

補正スケールファクタ復号部１１２２は、制御部１０１１から入力される帯域拡張符号化情報に含まれる補正スケールファクタの符号化パラメータを用いて補正スケールファクタを復号する。具体的には、内蔵の補正スケールファクタ符号帳（図示せず）を参照し、対応する補正スケールファクタを乗算器１１２３に出力する。

乗算器１１２３は、高域スペクトル復号部１１２１から出力される推定スペクトルに、補正スケールファクタ復号部１１２２から出力される補正スケールファクタを乗じ、乗算結果を連結部１１２４に出力する。

連結部１１２４は、第１スペクトルと乗算器１１２３から出力される推定スペクトルとを周波数軸上において連結し、信号帯域０〜ＦＨの広帯域の復号スペクトルを生成して、第１レイヤ拡張ＭＤＣＴ係数として時間領域変換部１０１３に出力する。

帯域拡張復号部１０１２により、高位レイヤの周波数領域での符号化において、入力信号を周波数領域の係数に変換してスケールファクタを量子化する際に、スケールファクタが小さくなる量子化候補が選択されやすくなる重み付き歪み尺度を用いてスケールファクタの量子化を行う。すなわち、量子化後のスケールファクタが量子化前のスケールファクタよりも小さいものが選ばれやすくなる。よって、スケールファクタの量子化に配分され
るビット数が充分でない場合でも、聴感的な主観品質の劣化を抑えることができる。

図２０は、第２レイヤ復号部１０１５の内部の主要な構成を示すブロック図である。なお、第２レイヤ復号部１０１５は、図９に示した第２レイヤ復号部４０５と同様の基本的構成を有しており、同一の構成要素には同一の符号を付し、その説明を省略する。

第２レイヤ復号部１０１５の加算ＭＤＣＴ係数算出部１１５１と、第２レイヤ復号部４０５の加算ＭＤＣＴ係数算出部４５２とは処理の一部に相違点があり、それを示すために異なる符号を付す。

加算ＭＤＣＴ係数算出部１１５１は、帯域拡張復号部１０１２から第１レイヤ拡張ＭＤＣＴ係数が入力され、ゲイン逆量子化部２０４から第２レイヤ復号ＭＤＣＴ係数が入力される。加算ＭＤＣＴ係数算出部１１５１は、第１レイヤ拡張ＭＤＣＴ係数と第２レイヤ復号ＭＤＣＴ係数を加算し、加算ＭＤＣＴ係数を算出する。ただし、加算ＭＤＣＴ係数１１５１は、第１レイヤ拡張ＭＤＣＴ係数のうち、帯域拡張された帯域に対しては、第１レイヤ拡張ＭＤＣＴ係数の値をゼロとして加算する。すなわち、帯域拡張された帯域に対しては、第２レイヤ復号ＭＤＣＴ係数の値を加算ＭＤＣＴ係数の値とする。

このように、本実施の形態によれば、各フレームにおいて異なる帯域の周波数成分を量子化対象とする場合、帯域拡張技術を利用するスケーラブル符号化を適用する上に非時間的なパラメータの予測符号化を適応的に行う。そのため、音声符号化の符号化情報量を低減するとともに、音声・オーディオ信号の符号化誤差および復号信号の音質劣化をさらに低減することができる。

また、帯域拡張符号化方法により拡張された帯域の成分に対しては残差を算出しないため、上位レイヤにおいて量子化対象成分のエネルギが増大することがなく、量子化効率を向上することができる。

なお、本実施の形態では、符号化装置において、第１レイヤ復号部にて復号した低域成分と、入力信号の高域成分との相関を利用して帯域拡張符号化情報を算出する方法を採用した場合を例にとって説明したが、本発明はこれに限らず、帯域拡張符号化情報を算出せずに、ＡＭＲ−ＷＢ（Adaptive MultiRate - WideBand）のように高域を雑音成分で擬似的に生成する方法を採用する構成においても同様に適用できる。または、本実施の形態で説明した帯域拡張符号化方法や、ＡＭＲ−ＷＢでも利用している高域成分生成方法を利用しないスケーラブル符号化／復号方法においても、本発明の帯域選択方法は同様に適用できる。

（実施の形態６）
図２１は、本発明の実施の形態６に係る音声符号化装置１１００の主要な構成を示すブロック図である。

この図において、音声符号化装置１１００は、ダウンサンプリング部３０１、第１レイヤ符号化部３０２、第１レイヤ復号部３０３、アップサンプリング部３０４、第１周波数領域変換部３０５、遅延部３０６、第２周波数領域変換部３０７、第２レイヤ符号化部１１０８、および多重化部３０９を備え、２レイヤからなるスケーラブルの構成をとる。なお、第１レイヤではＣＥＬＰ方式の音声符号化方法を適用し、第２レイヤ符号化では本発明の実施の形態１において説明した音声符号化方法を適用する。

なお、図２１に示す音声符号化装置１１００において第２レイヤ符号化部１１０８以外の構成要素は、図６に示した音声符号化装置３００の構成要素と同一であり、同一の構成
要素には同一の符号を付し、その説明を省略する。

図２２は、第２レイヤ符号化部１１０８の内部の主要な構成を示すブロック図である。第２レイヤ符号化部１１０８は、残差ＭＤＣＴ係数算出部３８１、帯域選択部１８０２、シェイプ量子化部１０３、予測符号化有無判定部１０４、ゲイン量子化部１８０５、および多重化部１０６とから主に構成される。なお、第２レイヤ符号化部１１０８において帯域選択部１８０２、およびゲイン量子化部１８０５以外の構成要素は、図７に示した第２レイヤ符号化部３０８の構成要素と同一であり、同一の構成要素には同一の符号を付し、その説明を省略する。

帯域選択部１８０２は、まず、残差ＭＤＣＴ係数Ｘ_ｋを複数のサブバンドに分割する。ここでは、Ｊ（Ｊは自然数）個のサブバンドに均等に分割する場合を例にあげ説明する。そして、帯域選択部１８０２は、Ｊ個のサブバンドの中でＬ（Ｌは自然数）個のサブバンドを選択し、Ｍ（Ｍは自然数）種類のリージョンを得る。

図２３は、帯域選択部１８０２において得られるリージョンの構成を例示する図である。

この図において、サブバンドの数は１７個（Ｊ＝１７）であり、リージョンの種類は８種類（Ｍ＝８）であり、各リージョンは２つのサブバンド群（この２つのサブバンド群を構成するバンド数はそれぞれ３と２とする）から構成される。ここで、２つのサブバンド群のうち、高域側に位置する２つのバンド数からなるサブバンド群は、全てのフレームを通じて固定であり、そのサブバンドのインデックスは例えば１５、１６である。例えば、リージョン４はサブバンド６〜８、１５、１６からなる。

次いで、帯域選択部１８０２は、下記の式（３３）に従い、Ｍ種類の各リージョンの平均エネルギＥ（ｍ）を算出する。

この式において、ｊ’はＪ個の各サブバンドのインデックスを示し、ｍは、Ｍ種類の各リージョンのインデックスを示す。なお、Ｒｅｇｉｏｎ（ｍ）は、リージョンｍを構成するＬ個のサブバンドのインデックスの集合を意味し、Ｂ（ｊ’）は、サブバンドｊ’を構成する複数のＭＤＣＴ係数のインデックスのうちの最小値を示す。Ｗ（ｊ’）は、サブバンドｊ’のバンド幅を示し、以下の説明では、Ｊ個の各サブバンドのバンド幅が全て等しい場合、すなわちＷ（ｊ’）が定数である場合を例にとって説明する。

次いで、帯域選択部１８０２は、平均エネルギＥ（ｍ）が最大となるリージョン、例えばリージョンｍ＿ｍａｘが選択された場合にはｊ’∈Ｒｅｇｉｏｎ（ｍ＿ｍａｘ）であるサブバンドからなる帯域を量子化対象帯域として選択し、このリージョンを示すインデックスｍ＿ｍａｘを帯域情報としてシェイプ量子化部１０３、予測符号化有無判定部１０４、および多重化部１０６に出力する。また、帯域選択部１８０２は、残差ＭＤＣＴ係数Ｘ_ｋをシェイプ量子化部１０３に出力する。

ゲイン量子化部１８０５は、過去のフレームにおいて得られた量子化ゲイン値を記憶するバッファを内蔵している。予測符号化有無判定部１０４から入力される判定結果が予測符号化を行うという判定結果を示す場合、ゲイン量子化部１８０５は、内蔵のバッファに記憶されている過去フレームの量子化ゲイン値Ｃ^ｔ _ｊ’を用いて、現フレームのゲイン値を予測することにより量子化する。具体的には、ゲイン量子化部１８０５は、Ｌ個の各サブバンド毎に、ＧＱ個のゲインコードベクトルからなる内蔵のゲインコードブックを探索して、下記の式（３４）の結果が最小となるゲインコードベクトルのインデックスを求める。

この式において、ＧＣ^ｉ _ｋはゲインコードブックを構成するゲインコードベクトルを示し、ｉはゲインコードベクトルのインデックスを示し、ｋはゲインコードベクトルの要素のインデックスを示す。例えば、リージョンを構成するサブバンド数が５の場合（Ｌ＝５の場合）、ｋは０〜４の値を取る。また、ここでは選択されたリージョンのサブバンドのゲインをサブバンドのインデックスが昇順になるように連結させ、連続したゲインを一つのＬ次元ゲインコードベクトルとして扱い、ベクトル量子化を行う。したがって、図２３を用いて説明すると、リージョン４の場合、サブバンドインデックス６、７、８、１５、１６のゲイン値を連結させて５次元のゲインコードベクトルとして扱う。また、ここで、Ｃ^ｔ _ｊ’は時間的にｔフレーム前のゲインの値を示し、例えばｔ＝１の場合、Ｃ^ｔ _ｊ’は時間的に１フレーム前のゲイン値を示す。またαは、ゲイン量子化部１８０５に記憶されている４次の線形予測係数である。

ゲイン量子化部１８０５は、上記の式（３４）の結果が最小となるゲインコードベクトルのインデックスＧ＿ｍｉｎをゲイン符号化情報として多重化部１０６に出力する。なお、内蔵のバッファの中の過去フレームに対応するサブバンドのゲイン値が存在しない場合、ゲイン量子化部１８０５は上記の式（３４）において、内蔵のバッファの中の周波数的に最も近いサブバンドのゲインの値を代用する。

一方、予測符号化有無判定部１０４から入力される判定結果が予測符号化を行わないという判定結果を示す場合、ゲイン量子化部１８０５は、下記の式（３５）に従い、シェイプ量子化部１０３から入力される理想ゲイン値Ｇａｉｎ＿ｉ（ｊ’）を直接量子化する。ここでも、ゲイン量子化部１８０５は、理想ゲイン値をＬ次元ベクトルとして扱い、ベクトル量子化を行う。

ここでは、上記の式（３５）を最小にするコードブックのインデックスをＧ＿ｍｉｎと記す。

ゲイン量子化部１８０５は、Ｇ＿ｍｉｎをゲイン符号化情報として多重化部１０６に出力する。また、ゲイン量子化部１８０５は、現フレームで得られたゲイン符号化情報Ｇ＿ｍｉｎおよび量子化ゲイン値Ｃ^ｔ _ｊ’を用いて、下記の式（３６）に従い、内蔵のバッファを更新する。すなわち、式（３６）においては、ゲインコードベクトルＧＣ^{Ｇ＿ｍｉｎ} _ｊの要素インデックスｊ、およびｊ’∈Ｒｅｇｉｏｎ（ｍ＿ｍａｘ）を満たすｊ’をそれぞれ昇順に対応させて、Ｃ¹ _ｊ’の値を更新する。

図２４は、本実施の形態に係る音声復号装置１２００の主要な構成を示すブロック図である。

この図において、音声復号装置１２００は、制御部４０１、第１レイヤ復号部４０２、アップサンプリング部４０３、周波数領域変換部４０４、第２レイヤ復号部１２０５、時間領域変換部４０６、およびスイッチ４０７を備える。

なお、図２４に示す音声復号装置１２００おいて、第２レイヤ復号部１２０５以外の構成要素は、図８に示した音声復号装置４００の構成要素と同一であり、同一の構成要素には同一の符号を付し、その説明を省略する。

図２５は、第２レイヤ復号部１２０５の内部の主要な構成を示すブロック図である。第２レイヤ復号部１２０５は、分離部４５１、シェイプ逆量子化部２０２、予測復号有無判定部２０３、ゲイン逆量子化部２５０４、および加算ＭＤＣＴ係数算出部４５２から主に構成される。なお、第２レイヤ復号部１２０５においてゲイン逆量子化部２５０４以外の構成要素は、図９に示した第２レイヤ復号部４０５の構成要素と同一であり、同一の構成要素には同一の符号を付し、その説明を省略する。

ゲイン逆量子化部２５０４は、過去のフレームにおいて得られたゲイン値を記憶するバッファを内蔵している。予測復号有無判定部２０３から入力される判定結果が予測復号を行うという判定結果を示す場合、ゲイン逆量子化部２５０４は、内蔵のバッファに記憶されている過去のフレームのゲイン値を用いて、現フレームのゲイン値を予測することにより逆量子化を行う。具体的には、ゲイン逆量子化部２５０４は、音声符号化装置１００のゲイン量子化部１０５と同様なゲインコードブック（ＧＣ^{Ｇ＿ｍｉｎ} _ｋ）（ｋは要素インデックスを示す）を内蔵しており、下記の式（３７）に従い、ゲインの逆量子化を行ってゲイン値Ｇａｉｎ＿ｑ’を得る。ここで、Ｃ”^ｔ _ｊ’は時間的にｔフレーム前のゲインの値を示し、例えばｔ＝１の場合、Ｃ”^ｔ _ｊ’は１フレーム前のゲイン値を示す。また、αはゲイン逆量子化部２５０４に記憶されている４次の線形予測係数である。ゲイン逆量子化部２５０４は、１リージョン内のＬ個のサブバンドをＬ次元ベクトルとして扱い、ベクトル逆量子化を行う。すなわち、式（３７）においては、ゲインコードベクトルＧＣ^{Ｇ＿ｍｉｎ} _ｋの要素インデックスｋ、およびｊ’∈Ｒｅｇｉｏｎ（ｍ＿ｍａｘ）を満たすｊ’をそれぞれ昇順に対応させて、Ｇａｉｎ＿ｑ’（ｊ’）の値を算出する。

なお、内蔵バッファの中に過去フレームに対応するサブバンドのゲインの値が存在しない場合、ゲイン逆量子化部２５０４は、上記の式（３７）において、内部バッファの中の周波数的に最も近いサブバンドのゲイン値を代用する。

一方、予測復号有無判定部２０３から入力される判定結果が予測復号を行わないという
判定結果を示す場合、ゲイン逆量子化部２５０４は、上記のゲインコードブックを用いて、下記の式（３８）に従いゲインの値を逆量子化する。ここでも、ゲイン値をＬ次元ベクトルとして扱い、ベクトル逆量子化を行う。すなわち、予測復号を行わない場合、ゲイン逆量子化部２５０４は、ゲイン符号化情報Ｇ＿ｍｉｎに対応するゲインコードベクトルＧＣ_ｋ ^{Ｇ＿ｍｉｎ}を直接ゲイン値とする。なお、式（３８）についても、式（３７）と同様に、ｋとｊ’とをそれぞれ昇順に従って対応させるものとする。

次いで、ゲイン逆量子化部２５０４は、現フレームの逆量子化で得られるゲイン値、およびシェイプ逆量子化部２０２から入力されるシェイプの値を用いて、下記の式（３９）に従い復号ＭＤＣＴ係数を算出し、下記の式（４０）に従い内蔵のバッファを更新する。ここで、式（４０）においては、逆量子化したゲインの値Ｇａｉｎ＿ｑ’（ｊ）のｊ、およびｊ’∈Ｒｅｇｉｏｎ（ｍ＿ｍａｘ）を満たすｊ’をそれぞれ昇順に対応させてＣ”¹ _ｊ’の値を更新する。また、ここでは、算出された復号ＭＤＣＴ係数をＸ”_ｋと記す。また、ＭＤＣＴ係数の逆量子化において、ｋがＢ（ｊ’）〜Ｂ（ｊ’＋１）−１内に存在する場合、ゲイン値はＧａｉｎ＿ｑ’（ｊ’）の値をとる。

ゲイン逆量子化部２５０４は、上記の式（３９）に従い算出された復号ＭＤＣＴ係数Ｘ”_ｋを加算ＭＤＣＴ係数算出部４５２に出力する。

このように、本実施の形態によれば、全帯域の中から隣接するサブバンドからなる１リージョンを量子化対象帯域として選択するのに比べ、音質を改善したい複数の帯域を広範囲に亘ってあらかじめ設定しておき、広範囲に亘って不連続な複数の帯域が量子化対象帯域として選択される。そのため、低域部と高域部の両者の品質改善を同時に図ることができる。

本実施の形態において、図２３に示すように常に量子化対象帯域に含まれるサブバンドを高域側に固定する理由は、スケーラブルコーデックの第１レイヤではまだ高域部について符号化歪みが大きいためである。従って、第２レイヤにおいては、聴感的に重要な低中域部を量子化対象として選択することに加え、第１レイヤによってあまり精度良く符号化されていない高域部も量子化対象として固定的に選択することにより、音質の向上を図る。

なお、本実施の形態では、全フレームを通じて高域の同一サブバンド（具体的にはサブ
バンドインデックス１５、１６）をリージョンに含ませることにより、高域部の量子化対象となる帯域を固定にする場合を例に挙げて説明したが、本発明はこれに限定されず、高域のサブバンドについても、低域のサブバンドと同様に、複数の量子化対象帯域の候補から量子化対象となる帯域を選択しても良い。かかる場合、高域のサブバンドほどより大きい重みを乗じてから選択を行っても良い。また、入力信号のサンプリング周波数、符号化ビットレート、第１レイヤ復号信号のスペクトル特性、または入力信号と第１レイヤ復号信号との差分信号のスペクトル特性などに応じて、候補となる帯域を適応的に変更することも可能である。例えば、入力信号と第１レイヤ復号信号との差分信号のスペクトル（残差ＭＤＣＴ係数）のエネルギ分布が高い部分を優先的に量子化対象帯域の候補とする方法も考えられる。

また、本実施の形態では、リージョンを構成する高域側のサブバンド群を固定にして、現フレームにおいて選択された量子化対象帯域と過去フレームにおいて選択された量子化対象帯域との間での共通のサブバンドの数に応じて、ゲイン量子化部に予測符号化を適用するか否かを判定する場合を例にとって説明したが、本発明はこれに限定されず、リージョンを構成する高域側のサブバンド群のゲインについては常に予測符号化を適用し、低域側のサブバンド群についてのみ予測符号化を行うか否かの判定を行っても良い。この場合、現フレームで選択された量子化対象帯域と前フレームで選択された量子化対象帯域との間での共通のサブバンドの数は、低域側のサブバンド群のみに対して考慮される。すなわち、この場合、量子化ベクトルは、予測符号化を行う部分と予測符号化を行わない部分とに分け量子化される。このように、リージョンを構成する高域側の固定のサブバンド群に対して予測符号化要否の判定を行わず常に予測符号化を行うため、より効率的にゲインを量子化することができる。

また、本実施の形態では、現フレームにおいて選択された量子化対象帯域と時間的に１つ過去のフレームにおいて選択された量子化対象帯域との間での共通のサブバンドの数に応じて、ゲイン量子化部における予測符号化の適用・非適用を切替える場合を例にとって説明したが、本発明はこれに限定されず、現フレームにおいて選択された量子化対象帯域と時間的に２つ以上前のフレームにおいて選択された量子化対象帯域との間での共通のサブバンドの数を利用しても良い。この場合、たとえ、現フレームにおいて選択された量子化対象帯域と時間的に１つ過去のフレームにおいて選択された量子化対象帯域との間での共通のサブバンドの数が所定値以下である場合でも、現フレームにおいて選択された量子化対象帯域と時間的に２つ以上前のフレームにおいて選択された量子化対象帯域との間での共通のサブバンドの数によっては、ゲイン量子化部に予測符号化を適用することもあり得る。

また、本実施の形態では、リージョンが低域側のサブバンド群と高域側のサブバンド群とから構成される場合を例にとって説明したが、本発明はこれに限定されず、例えば中域部にもサブバンド群を設定し、３つ以上のサブバンド群からリージョンを構成しても良い。また、入力信号のサンプリング周波数、符号化時のビットレート、第１レイヤ復号信号のスペクトル特性、または入力信号と第１レイヤ復号信号との差分信号のスペクトル特性などに応じて、リージョンを構成するサブバンド群の数を適応的に変更しても良い。

また、本実施の形態では、リージョンを構成する高域側のサブバンド群が全フレームを通じて固定である場合を例に挙げて説明したが、本発明はこれに限定されず、リージョンを構成する低域側のサブバンド群が全フレームを通じて固定であっても良い。また、リージョンを構成する低域側、高域側の両方のサブバンド群が全フレームを通じて固定であっても良く、または低域側、高域側の両方のサブバンド群をフレーム毎に探索し選択しても良い。また、リージョンを構成するサブバンド群のうち、３つ以上のサブバンド群に対して上記の各種方法を適用しても良い。

また、本実施の形態では、リージョンを構成するサブバンドのうち、高域側のサブバンド群を構成するサブバンドの数が低域側のサブバンド群を構成するサブバンドの数よりも小さい場合（高域側のサブバンド群のサブバンド数が２、低域側サブバンド群のサブバンド数が３）を例にとって説明したが、本発明はこれに限定されず、高域側のサブバンド群を構成するサブバンド数が低域側のサブバンド群を構成するサブバンドの数と等しい、あるいはより大きくても良い。また、入力信号のサンプリング周波数、符号化時のビットレート、第１レイヤ復号信号のスペクトル特性、入力信号と第１レイヤ復号信号との差分信号のスペクトル特性などに応じて、各サブバンド群を構成するサブバンドの数を適応的に変更しても良い。

また、本実施の形態では、第１レイヤ符号化部３０２においてＣＥＬＰ符号化方式の符号化を行う場合を例にとって説明したが、本発明はこれに限定されず、ＣＥＬＰ符号化方式以外の符号化（例えば変換符号化など）を行っても良い。

（実施の形態７）
図２６は、本発明の実施の形態７に係る音声符号化装置１３００の主要な構成を示すブロック図である。

この図において、音声符号化装置１３００は、ダウンサンプリング部３０１、第１レイヤ符号化部３０２、第１レイヤ復号部３０３、アップサンプリング部３０４、第１周波数領域変換部３０５、遅延部３０６、第２周波数領域変換部３０７、第２レイヤ符号化部１３０８、および多重化部３０９を備え、２レイヤからなるスケーラブルの構成をとる。なお、第１レイヤではＣＥＬＰ方式の音声符号化方法を適用し、第２レイヤ符号化では本発明の実施の形態１において説明した音声符号化方法を適用する。

なお、図２６に示す音声符号化装置１３００において第２レイヤ符号化部１３０８以外の構成要素は、図６に示した音声符号化装置３００の構成要素と同一であり、同一の構成要素には同一の符号を付し、その説明を省略する。

図２７は、第２レイヤ符号化部１３０８の内部の主要な構成を示すブロック図である。第２レイヤ符号化部１３０８は、残差ＭＤＣＴ係数算出部３８１、帯域選択部１０２、シェイプ量子化部１０３、予測符号化有無判定部３８０４、ゲイン量子化部３８０５、および多重化部１０６から主に構成される。なお、第２レイヤ符号化部１３０８において予測符号化有無判定部３８０４、およびゲイン量子化部３８０５以外の構成要素は、図７に示した第２レイヤ符号化部３０８の構成要素と同一であり、同一の構成要素には同一の符号を付し、その説明を省略する。

予測符号化有無判定部３８０４は、過去のフレームにおいて帯域選択部１０２から入力された帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している。ここでは過去の３フレーム分の帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している場合を例にあげ説明する。予測符号化有無判定部３８０４は、まず、過去のフレームにおいて帯域選択部１０２から入力された帯域情報ｍ＿ｍａｘおよび現フレームにおいて帯域選択部１０２から入力される帯域情報ｍ＿ｍａｘを用いて、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通するサブバンドを検出する。予測符号化有無判定部３８０４は、帯域選択部１０２から入力される帯域情報ｍ＿ｍａｘが示すＬ個のサブバンドのうち、時間的に１つ過去のフレームにおいて量子化対象として選択されたサブバンドに対しては予測符号化を適用すると判定し、Ｐｒｅｄ＿Ｆｌａｇ（ｊ）＝ＯＮと設定する。一方、予測符号化有無判定部３８０４は、帯域選択部１０２から入力される帯域情報ｍ＿ｍａｘが示すＬ個のサブバンドのうち、時間的に１つ過去のフレームにおいて量子化対象として選択さ
れていないサブバンドに対しては予測符号化を適用しないと判定し、Ｐｒｅｄ＿Ｆｌａｇ（ｊ）＝ＯＦＦと設定する。ここで、Ｐｒｅｄ＿Ｆｌａｇとは、各サブバンドに対する予測符号化の適用・非適用の判定結果を示すフラグであり、値がＯＮの場合は、サブバンドのゲイン値に対し予測符号化を適用することを意味し、値がＯＦＦの場合は、サブバンドのゲイン値に対し予測符号化を適用しないことを意味する。予測符号化有無判定部３８０４は、各サブバンドに対する判定結果をゲイン量子化部３８０５に出力する。次いで、予測符号化有無判定部３８０４は、現フレームにおいて帯域選択部１０２から入力される帯域情報ｍ＿ｍａｘを用いて、帯域情報を記憶する内蔵のバッファを更新する。

ゲイン量子化部３８０５は、過去のフレームにおいて得られた量子化ゲイン値を記憶するバッファを内蔵している。ゲイン量子化部３８０５は、予測符号化有無判定部３８０４から入力される判定結果に応じて、現フレームのゲイン値の量子化における予測符号化の適用の有無を切替える。例えば、予測符号化を行う場合には、ゲイン量子化部３８０５は、Ｌ個のサブバンド毎に、ＧＱ個のゲインコードベクトルからなる内蔵のゲインコードブックを探索して、予測符号化有無判定部３８０４から入力される判定結果に応じた距離計算を行い、下記の式（４１）の結果が最小となるゲインコードベクトルのインデックスを求める。なお、式（４１）では、ｊ∈Ｒｅｇｉｏｎ（ｍ＿ｍａｘ）を満たす全てのｊに対して、Ｐｒｅｄ＿Ｆｌａｇ（ｊ）に応じどちらかの距離計算を行い、その誤差の合計値が最小となるゲインコードベクトルのインデックスを求めるものとする。

この式において、ＧＣ^ｉ _ｋはゲインコードブックを構成するゲインコードベクトルを示し、ｉはゲインコードベクトルのインデックスを示し、ｋはゲインコードベクトルの要素のインデックスを示す。例えば、リージョンを構成するサブバンド数が５の場合（Ｌ＝５の場合）、ｋは０〜４の値を取る。ここで、Ｃ^ｔ _ｊは時間的にｔフレーム前のゲインの値を示し、例えばｔ＝１の場合、Ｃ^ｔ _ｊは時間的に１フレーム前のゲイン値を示す。またαは、ゲイン量子化部３８０５に記憶されている４次の線形予測係数である。なお、ゲイン量子化部３８０５は、１リージョン内のＬ個のサブバンドをＬ次元ベクトルとして扱い、ベクトル量子化を行う。

ゲイン量子化部３８０５は、上記の式（４１）の結果が最小となるゲインコードベクトルのインデックスＧ＿ｍｉｎをゲイン符号化情報として多重化部１０６に出力する。

ゲイン量子化部３８０５は、Ｇ＿ｍｉｎをゲイン符号化情報として多重化部１０６に出力する。また、ゲイン量子化部３８０５は、現フレームで得られたゲイン符号化情報Ｇ＿ｍｉｎおよび量子化ゲイン値Ｃ^ｔ _ｊを用いて、下記の式（４２）に従い、内蔵のバッファを更新する。なお、式（４２）においては、ゲインコードベクトルＧＣ^{Ｇ＿ｍｉｎ} _ｊの要素インデックスｊ、およびｊ’∈Ｒｅｇｉｏｎ（ｍ＿ｍａｘ）を満たすｊ’をそれぞれ昇順に対応させて、Ｃ¹ _ｊ’の値を更新する。

図２８は、本実施の形態に係る音声復号装置１４００の主要な構成を示すブロック図である。

この図において、音声復号装置１４００は、制御部４０１、第１レイヤ復号部４０２、アップサンプリング部４０３、周波数領域変換部４０４、第２レイヤ復号部１４０５、時間領域変換部４０６、およびスイッチ４０７を備える。

なお、図２８に示す音声復号装置１４００において第２レイヤ復号部１４０５以外の構成要素は、図８に示した音声復号装置４００の構成要素と同一であり、同一の構成要素には同一の符号を付し、その説明を省略する。

図２９は、第２レイヤ復号部１４０５の内部の主要な構成を示すブロック図である。第２レイヤ復号部１４０５は、分離部４５１、シェイプ逆量子化部２０２、予測復号有無判定部４５０３、ゲイン逆量子化部４５０４、および加算ＭＤＣＴ係数算出部４５２とから主に構成される。なお、図２９に示す第２レイヤ復号部１４０５における予測復号有無判定部４５０３、およびゲイン逆量子化部４５０４以外の構成要素は、図９に示した第２レイヤ復号部４０５の構成要素と同一であり、同一の構成要素には同一の符号を付し、その説明を省略する。

予測復号有無判定部４５０３は、過去のフレームにおいて分離部４５１から入力された帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している。ここでは過去の３フレーム分の帯域情報ｍ＿ｍａｘを記憶するバッファを内蔵している場合を例にあげ説明する。予測復号有無判定部４５０３は、まず、過去のフレームにおいて分離部４５１から入力された帯域情報ｍ＿ｍａｘおよび現フレームにおいて分離部４５１から入力される帯域情報ｍ＿ｍａｘを用いて、過去のフレームの量子化対象帯域と現フレームの量子化対象帯域との間で共通するサブバンドを検出する。予測復号有無判定部４５０３は、分離部４５１から入力される帯域情報ｍ＿ｍａｘが示すＬ個のサブバンドのうち、時間的に１つ過去のフレームにおいて量子化対象として選択されたサブバンドに対しては予測復号を適用すると判定し、Ｐｒｅｄ＿Ｆｌａｇ（ｊ）＝ＯＮと設定する。一方、予測復号有無判定部４５０３は、分離部４５１から入力される帯域情報ｍ＿ｍａｘが示すＬ個のサブバンドのうち、時間的に１つ過去のフレームにおいて量子化対象として選択されていないサブバンドに対しては予測復号を適用しないと判定し、Ｐｒｅｄ＿Ｆｌａｇ（ｊ）＝ＯＦＦと設定する。ここで、Ｐｒｅｄ＿Ｆｌａｇとは、各サブバンドに対する予測復号の適用・非適用の判定結果を示すフラグであり、値がＯＮの場合は、サブバンドのゲイン値に対し予測復号を適用することを意味し、値がＯＦＦの場合は、サブバンドのゲイン値に対し予測復号を適用しないことを意味する。次に、予測復号有無判定部４５０３は、各サブバンドに対する判定結果をゲイン逆量子化部４５０４に出力する。次いで、予測復号有無判定部４５０３は、現フレームにおいて分離部４５１から入力される帯域情報ｍ＿ｍａｘを用いて、帯域情報を記憶する内蔵のバッファを更新する。

ゲイン逆量子化部４５０４は、過去のフレームにおいて得られたゲイン値を記憶するバッファを内蔵しており、予測復号有無判定部４５０３から入力される判定結果に応じて、
現フレームのゲイン値の復号における予測復号の適用の有無を切替える。ゲイン逆量子化部４５０４は、音声符号化装置１００のゲイン量子化部１０５と同様なゲインコードブックを内蔵しており、例えば、予測復号を行う場合には、下記の式（４３）に従い、ゲインの逆量子化を行ってゲイン値Ｇａｉｎ＿ｑ’を得る。ここで、Ｃ”^ｔ _ｊは時間的にｔフレーム前のゲインの値を示し、例えばｔ＝１の場合、Ｃ”^ｔ _ｊは１フレーム前のゲイン値を示す。また、αはゲイン逆量子化部４５０４に記憶されている４次の線形予測係数である。ゲイン逆量子化部４５０４は、１リージョン内のＬ個のサブバンドをＬ次元ベクトルとして扱い、ベクトル逆量子化を行う。なお、式（４３）においては、ゲインコードベクトルＧＣ^{Ｇ＿ｍｉｎ} _ｋの要素インデックスｋ、およびｊ’∈Ｒｅｇｉｏｎ（ｍ＿ｍａｘ）を満たすｊ’をそれぞれ昇順に対応させて、Ｇａｉｎ＿ｑ’（ｊ’）の値を算出する。

次いで、ゲイン逆量子化部４５０４は、現フレームの逆量子化で得られるゲイン値、およびシェイプ逆量子化部２０２から入力されるシェイプの値を用いて、下記の式（４４）に従い復号ＭＤＣＴ係数を算出し、下記の式（４５）に従い内蔵のバッファを更新する。ここで、式（４５）においては、逆量子化したゲインの値Ｇａｉｎ＿ｑ’（ｊ）のｊ、およびｊ’∈Ｒｅｇｉｏｎ（ｍ＿ｍａｘ）を満たすｊ’をそれぞれ昇順に対応させてＣ”¹ _ｊ’の値を更新する。また、ここでは、算出された復号ＭＤＣＴ係数をＸ”_ｋと記す。また、ＭＤＣＴ係数の逆量子化において、ｋがＢ（ｊ’）〜Ｂ（ｊ’＋１）−１内に存在する場合、ゲイン値はＧａｉｎ＿ｑ’（ｊ’）の値をとる。

ゲイン逆量子化部４５０４は、上記の式（４４）に従い算出された復号ＭＤＣＴ係数Ｘ”_ｋを加算ＭＤＣＴ係数算出部４５２に出力する。

このように、本実施の形態によれば、各フレームにおいて選択された量子化対象帯域のゲインの量子化時に、量子化対象帯域に含まれる各サブバンドが時間的に過去のフレームにおいて量子化されたか否かを検知する。そして、過去のフレームにおいて量子化されたことがあるサブバンドに対しては予測符号化を適用し、過去のフレームにおいて量子化されたことがないサブバンドに対しては予測符号化を適用せずにベクトル量子化を行う。これにより、ベクトル全体に対して予測符号化の適用・非適用を切替える手法に比べてより効率的に周波数領域パラメータを符号化することができる。

また、本実施の形態では、現フレームにおいて選択された量子化対象帯域と時間的に１つ過去のフレームにおいて選択された量子化対象帯域との間での共通のサブバンドの数に応じて、ゲイン量子化部における予測符号化の適用・非適用を切替える方法について説明したが、本発明はこれに限定されず、現フレームにおいて選択された量子化対象帯域と時間的に２つ以上前のフレームにおいて選択された量子化対象帯域との間での共通のサブバンドの数を利用しても良い。この場合、たとえ、現フレームにおいて選択された量子化対象帯域と時間的に１つ過去のフレームにおいて選択された量子化対象帯域との間での共通のサブバンドの数が所定値以下である場合でも、現フレームにおいて選択された量子化対象帯域と時間的に２つ以上前のフレームにおいて選択された量子化対象帯域との間での共通のサブバンドの数によっては、ゲイン量子化部において予測符号化を適用することもあり得る。

また、本実施の形態で説明した量子化方法は、実施の形態６にて説明した量子化対象帯域の選択方法と組み合わせることも可能である。例えば、量子化対象帯域であるリージョンが低域側のサブバンド群と高域側のサブバンド群とから構成されており、高域側のサブバンド群が全フレームを通じて固定であり、低域側のサブバンド群のゲインと高域側のサブバンド群のゲインとを連続させたベクトルを量子化する場合について説明する。この場合、量子化対象帯域のゲインのベクトルのうち、高域側のサブバンド群のゲインを示す要素については常に予測符号化を適用し、低域側のサブバンド群のゲインを示す要素については予測符号化を適用せずにベクトル量子化する。これにより、ベクトル全体に対して予測符号化の適用・非適用を切替える場合に比べてより効率的にゲインベクトルを量子化することが出来る。また、この時、低域側のサブバンド群において、過去のフレームにおいて量子化されたサブバンドに対しては予測符号化を適用し、過去のフレームにおいて量子化されていないサブバンドに対しては予測符号化を適用せずに、ベクトル量子化をするという方法も効率的である。また、低域側のサブバンド群のゲインを示す要素については、実施の形態１で説明したように、時間的に過去のフレームで選択された量子化対象帯域を構成するサブバンドを利用して、予測符号化の適用・非適用を切替えて量子化する。これにより、ゲインベクトルをさらに効率的に量子化することができる。なお、本発明は、上述した構成を組み合わせた構成についても適用可能である。

以上、本発明の実施の形態について説明した。

なお、本発明の各実施の形態では、量子化対象帯域を選択する方法として、全帯域においてエネルギが最も大きいリージョンを選択する場合を例にとって説明したが、本発明はこれに限定されず、予めある帯域を予備的に選択し、予備的に選択された帯域において量子化対象帯域を最終的に選択しても良い。かかる場合、入力信号のサンプリングレート、あるいは符号化ビットレートなどによって予備的に選択される帯域は決定すれば良い。例えば、サンプリングレートが低い場合は、低域部を予備的に選択する方法などがある。

また、上記各実施の形態においては、変換符号化方法としてＭＤＣＴを利用しているため、上記各実施の形態で用いた「ＭＤＣＴ係数」は、実質的にスペクトルを意味する。したがって、「ＭＤＣＴ係数」という表記は「スペクトル」と置き換えても良い。

また、上記各実施の形態においては、音声復号装置２００、２００ａ、４００、６００、８００、１０１０、１２００、１４００は、それぞれ音声符号化装置１００、１００ａ、３００、５００、７００、１０００、１１００、１３００より伝送された符号化データを入力して処理するという例を示したが、同様の構成を有する符号化データを生成可能な他の構成の符号化装置が出力した符号化データを入力して処理しても良い。

また、本発明に係る符号化装置、復号装置、およびこれらの方法は、上記各実施の形態に限定されず、種々変更して実施することが可能である。例えば、各実施の形態は、適宜組み合わせて実施することが可能である。

本発明に係る符号化装置および復号装置は、移動体通信システムにおける通信端末装置および基地局装置に搭載することが可能であり、これにより上記と同様の作用効果を有する通信端末装置、基地局装置、および移動体通信システムを提供することができる。

また、ここでは、本発明をハードウェアで構成する場合を例にとって説明したが、本発明をソフトウェアで実現することも可能である。例えば、本発明に係る符号化方法／復号方法のアルゴリズムをプログラミング言語によって記述し、このプログラムをメモリに記憶しておいて情報処理手段によって実行させることにより、本発明に係る符号化装置／復号装置と同様の機能を実現することができる。

また、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部または全てを含むように１チップ化されても良い。

また、ここではＬＳＩとしたが、集積度の違いによって、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩ等と呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラム化することが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続もしくは設定を再構成可能なリコンフィギュラブル・プロセッサを利用しても良い。

さらに、半導体技術の進歩または派生する別技術により、ＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適用等が可能性としてあり得る。

２００６年１２月１３日出願の特願２００６−３３６２７０の日本出願、２００７年３月２日出願の特願２００７−０５３４９９の日本出願、２００７年５月１７日出願の特願２００７−１３２０７８の日本出願、および２００７年７月１３日出願の特願２００７−１８５０７８の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。

本発明に係る符号化装置等は、移動体通信システムにおける通信端末装置、基地局装置等の用途に適用することができる。

本発明の実施の形態１に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態１に係る帯域選択部において得られるリージョンの構成を例示する図本発明の実施の形態１に係る音声復号装置の主要な構成を示すブロック図本発明の実施の形態１に係る音声符号化装置のバリエーションの主要な構成を示すブロック図を例示する図本発明の実施の形態１に係る音声復号装置のバリエーションの主要な構成を示すブロック図本発明の実施の形態２に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態２に係る第２レイヤ符号化部の内部の主要な構成を示すブロック図本発明の実施の形態２に係る音声復号装置の主要な構成を示すブロック図本発明の実施の形態２に係る第２レイヤ復号部の内部の主要な構成を示すブロック図本発明の実施の形態３に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態３に係る音声復号装置の主要な構成を示すブロック図本発明の実施の形態４に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態４に係る音声復号装置の主要な構成を示すブロック図本発明の実施の形態５に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態５に係る帯域拡張符号化部の内部の主要な構成を示すブロック図本発明の実施の形態５に係る補正スケールファクタ符号化部の内部の主要な構成を示すブロック図本発明の実施の形態５に係る第２レイヤ符号化部の内部の主要な構成を示すブロック図本発明の実施の形態５に係る音声復号装置の主要な構成を示すブロック図本発明の実施の形態５に係る帯域拡張復号部の内部の主要な構成を示すブロック図本発明の実施の形態５に係る第２レイヤ復号部の内部の主要な構成を示すブロック図本発明の実施の形態６に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態６に係る第２レイヤ符号化部の内部の主要な構成を示すブロック図本発明の実施の形態６に係る帯域選択部において得られるリージョンの構成を例示する図本発明の実施の形態６に係る音声復号装置の主要な構成を示すブロック図本発明の実施の形態６に係る第２レイヤ復号部の内部の主要な構成を示すブロック図本発明の実施の形態７に係る音声符号化装置の主要な構成を示すブロック図本発明の実施の形態７に係る第２レイヤ符号化部の内部の主要な構成を示すブロック図本発明の実施の形態７に係る音声復号装置の主要な構成を示すブロック図本発明の実施の形態７に係る第２レイヤ復号部の内部の主要な構成を示すブロック図

Claims

入力信号を周波数領域に変換し、周波数領域パラメータを得る変換手段と、
前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成する選択手段と、
前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るシェイプ量子化手段と、
前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るゲイン量子化手段と、
前記量子化対象帯域と過去に選択された量子化対象帯域との間における共通のサブバンドの数に基づいて、予測符号化を行うか否かを判定する判定手段と、
を具備し、
前記ゲイン量子化手段は、
前記判定手段の判定結果にしたがって、前記周波数領域パラメータのゲインを符号化する、
符号化装置。
前記量子化対象帯域と過去に選択された量子化対象帯域との間で共通のサブバンドの数が所定値以上である場合には予測符号化を行うと判定し、前記共通のサブバンドの数が前記所定値より小さい場合には予測符号化を行わないと判定する判定手段、
をさらに具備し、
前記ゲイン量子化手段は、
前記判定手段が予測符号化を行うと判定した場合には、過去のゲイン符号化情報を用いて前記量子化対象帯域における周波数領域パラメータのゲインに対し予測符号化を行ってゲイン符号化情報を得、前記判定手段が予測符号化を行わないと判定した場合には、前記量子化対象帯域における周波数領域パラメータのゲインに対して非予測符号化を行ってゲイン符号化情報を得る、
請求項１記載の符号化装置。
前記ゲイン量子化手段は、
前記周波数領域パラメータのゲインをベクトル量子化して前記ゲイン符号化情報を得る、
請求項１記載の符号化装置。
前記ゲイン量子化手段は、
過去のフレームにおける周波数領域パラメータのゲインを用いて前記ゲインの予測量子化を行い、前記ゲイン符号化情報を得る、
請求項１記載の符号化装置。
入力信号を周波数領域に変換し、周波数領域パラメータを得る変換手段と、
前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成する選択手段と、
前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るシェイプ量子化手段と、
前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るゲイン量子化手段と、
を具備し、
前記選択手段は、
複数のサブバンドから構成されるリージョンの中で、エネルギが最も大きいリージョンを前記量子化対象帯域として選択する、
符号化装置。
入力信号を周波数領域に変換し、周波数領域パラメータを得る変換手段と、
前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成する選択手段と、
前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るシェイプ量子化手段と、
前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るゲイン量子化手段と、
を具備し、
前記選択手段は、
過去に選択された量子化対象帯域との間で共通のサブバンドの数が所定値以上であってかつエネルギが所定値以上である候補帯域が存在する場合には、前記候補帯域の中でエネルギが最も大きい帯域を前記量子化対象帯域として選択し、前記候補帯域が存在しない場合には、前記周波数領域の全帯域においてエネルギが最も大きい帯域を前記量子化対象帯域として選択する、
符号化装置。
入力信号を周波数領域に変換し、周波数領域パラメータを得る変換手段と、
前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成する選択手段と、
前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るシェイプ量子化手段と、
前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るゲイン量子化手段と、
を具備し、
前記選択手段は、
エネルギが所定値以上である帯域の中で、過去に選択された量子化対象帯域と最も近い帯域を前記量子化対象帯域として選択する、
符号化装置。
入力信号を周波数領域に変換し、周波数領域パラメータを得る変換手段と、
前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成する選択手段と、
前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るシェイプ量子化手段と、
前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るゲイン量子化手段と、
を具備し、
前記選択手段は、
低域側のサブバンドほどより大きい重みを乗じてから、前記量子化対象帯域を選択する、
符号化装置。
前記選択手段は、
低域側の固定のサブバンドを前記量子化対象帯域として選択する、
請求項１記載の符号化装置。
入力信号を周波数領域に変換し、周波数領域パラメータを得る変換手段と、
前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成する選択手段と、
前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るシェイプ量子化手段と、
前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るゲイン量子化手段と、
を具備し、
前記選択手段は、
過去に選択された頻度が高いサブバンドほどより大きい重みを乗じてから、前記量子化対象帯域を選択する、
符号化装置。
過去のゲイン符号化情報を用いて、前記帯域情報が示すサブバンドのうち過去に量子化されなかったサブバンドにおける周波数領域パラメータのゲインに対し補間を行い、補間値を得る補間手段、
をさらに具備し、
前記ゲイン量子化手段は、
前記予測符号化を行う際に、前記補間値をさらに用いる、
請求項１記載の符号化装置。
過去のフレームの量子化対象帯域と、現フレームの量子化対象帯域とで共通のサブバンドが大きいほど、過去のフレームのゲインの値の重みをより大きくする予測係数を決定する決定手段、
をさらに具備し、
前記ゲイン量子化手段は、
前記予測符号化を行う際に、前記予測係数を用いる、
請求項１記載の符号化装置。
前記選択手段は、
前記量子化対象帯域の一部として、所定のサブバンドを固定的に選択する、
請求項１記載の符号化装置。
入力信号を周波数領域に変換し、周波数領域パラメータを得る変換手段と、
前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成する選択手段と、
前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るシェイプ量子化手段と、
前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るゲイン量子化手段と、
を具備し、
前記選択手段は、
前記量子化対象帯域の一部において高域側のサブバンドほどより大きい重みを乗じてから、前記量子化対象帯域を選択する、
符号化装置。
前記ゲイン量子化手段は、
前記量子化対象帯域の一部における周波数領域パラメータのゲインに対しては予測符号化を行い、残りの部分における周波数領域パラメータのゲインに対しては非予測符号化を行う、
請求項１記載の符号化装置。
入力信号を周波数領域に変換し、周波数領域パラメータを得る変換手段と、
前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成する選択手段と、
前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るシェイプ量子化手段と、
前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るゲイン量子化手段と、
を具備し、
前記ゲイン量子化手段は、
連続的ではない複数のサブバンドの前記ゲインをベクトル量子化する、
符号化装置。
入力信号の周波数領域を分割した複数のサブバンドの中から選択された量子化対象帯域を示す情報を受信する受信手段と、
前記量子化対象帯域における周波数領域パラメータのシェイプが量子化されたシェイプ符号化情報を復号して復号シェイプを生成するシェイプ逆量子化手段と、
前記量子化対象帯域における周波数領域パラメータのゲインが符号化されたゲイン符号化情報を復号して復号ゲインを生成し、前記復号シェイプと前記復号ゲインとを用いて周波数領域パラメータを復号して復号周波数領域パラメータを生成するゲイン逆量子化手段と、
前記復号周波数領域パラメータを時間領域に変換して時間領域復号信号を得る時間領域変換手段と、
前記量子化対象帯域と過去に選択された量子化対象帯域との間における共通のサブバンドの数に基づいて、予測復号を行うか否かを判定する判定手段と、
を具備し、
前記ゲイン逆量子化手段は、
前記判定手段の判定結果にしたがって、前記ゲイン符号化情報を復号して復号ゲインを生成する、
復号装置。
前記量子化対象帯域と過去に選択された量子化対象帯域との間で共通のサブバンドの数が所定値以上である場合には予測復号を行うと判定し、前記共通のサブバンドの数が前記所定値より小さい場合には予測復号を行わないと判定する判定手段、
をさらに具備し、
前記ゲイン逆量子化手段は、
前記判定手段が予測復号を行うと判定した場合には、過去のゲイン復号において得られたゲインを用いて前記量子化対象帯域における周波数領域パラメータのゲインの予測復号を行い、前記判定手段が予測復号を行わないと判定した場合には、前記量子化対象帯域における周波数領域パラメータのゲインが量子化されたゲイン符号化情報を直接逆量子化する、
請求項１７記載の復号装置。
入力信号を周波数領域に変換し、周波数領域パラメータを得るステップと、
前記周波数領域を分割した複数のサブバンドの中から量子化対象帯域を選択し、前記量子化対象帯域を示す帯域情報を生成するステップと、
前記量子化対象帯域における前記周波数領域パラメータのシェイプを量子化し、シェイプ符号化情報を得るステップと、
前記量子化対象帯域における周波数領域パラメータのゲインを符号化してゲイン符号化情報を得るステップと、
前記量子化対象帯域と過去に選択された量子化対象帯域との間における共通のサブバンドの数に基づいて、予測符号化を行うか否かを判定するステップと、
を具備し、
前記ゲイン符号化情報を得るステップにおいて、
前記判定するステップの判定結果にしたがって、前記周波数領域パラメータのゲインを符号化する、
符号化方法。
入力信号の周波数領域を分割した複数のサブバンドの中から選択された量子化対象帯域を示す情報を受信するステップと、
前記量子化対象帯域における周波数領域パラメータのシェイプが量子化されたシェイプ符号化情報を復号して復号シェイプを生成するステップと、
前記量子化対象帯域における周波数領域パラメータのゲインが量子化されたゲイン符号化情報を復号して復号ゲインを生成し、前記復号シェイプと前記復号ゲインとを用いて周波数領域パラメータを復号して復号周波数領域パラメータを生成するステップと、
前記復号周波数領域パラメータを時間領域に変換して時間領域復号信号を得るステップと、
前記量子化対象帯域と過去に選択された量子化対象帯域との間における共通のサブバンドの数に基づいて、予測復号を行うか否かを判定するステップと、
を具備し、
前記復号ゲインを生成するステップにおいて、
前記判定するステップの判定結果にしたがって、前記ゲイン符号化情報を復号して前記復号ゲインを生成する、
復号方法。