JP5089394B2

JP5089394B2 - 音声符号化装置および音声符号化方法

Info

Publication number: JP5089394B2
Application number: JP2007537696A
Authority: JP
Inventors: 正浩押切
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2005-09-30
Filing date: 2006-09-29
Publication date: 2012-12-05
Anticipated expiration: 2026-09-29
Also published as: US8396717B2; JPWO2007037361A1; CN101273404B; WO2007037361A1; KR20080049085A; BRPI0616624A2; EP1926083A1; CN101273404A; US20090157413A1; RU2008112137A; EP1926083A4

Description

本発明は、音声符号化装置および音声符号化方法に関する。

移動体通信システムにおける電波資源等を有効に利用するために、音声信号を低ビットレートで圧縮することが要求されている。

一方で、通話音声の品質向上や臨場感の高い通話サービスの実現が望まれている。この実現のためには、音声信号の高品質化のみならず、より帯域の広いオーディオ信号等の音声信号以外の信号をも高品質に符号化できることが望ましい。

このように相反する要求に対し、複数の符号化技術を階層的に統合するアプローチが有望視されている。具体的には、音声信号に適したモデルで入力信号を低ビットレートで符号化する第１レイヤと、入力信号と第１レイヤ復号信号の差分信号を音声以外の信号にも適したモデルで符号化する第２レイヤとを階層的に組み合わせるアプローチである。このような階層構造を持つ符号化方式は、符号化されたビットストリームの一部を廃棄しても残りの情報から復号信号が得られる特徴（スケーラビリティ性）を有するため、スケーラブル符号化と呼ばれる。スケーラブル符号化は、この特徴から、ビットレートが互いに異なるネットワーク間の通信にも柔軟に対応することができる。また、この特徴は、ＩＰプロトコルで多様なネットワークが統合されていく今後のネットワーク環境に適したものといえる。

従来のスケーラブル符号化としては、ＭＰＥＧ−４（Moving Picture Experts Group phase-4）にて規格化された技術を用いるものがある（例えば非特許文献１参照）。非特許文献１記載のスケーラブル符号化では、音声信号に適したＣＥＬＰ（Code Excited Linear Prediction；符号励信線形予測）を第１レイヤに用い、原信号から第１レイヤ復号信号を減じて得られる残差信号に対する符号化としてＡＡＣ（Advanced Audio Coder）やＴｗｉｎＶＱ（Transform Domain Weighted Interleave Vector Quantization）のような変換符号化を第２レイヤに用いる。

一方、変換符号化において、効率良くスペクトルを符号化する技術がある（例えば特許文献１参照）。特許文献１記載の技術では、音声信号の周波数帯域を低域部と高域部の２つのサブバンドに分割し、低域部のスペクトルを高域部に複製し、複製後のスペクトルに変形を加えて高域部のスペクトルとする。このとき、変形情報を少ないビット数で符号化することにより、低ビットレート化を図ることができる。
三木弼一編著，MPEG-4の全て，初版，（株）工業調査会，1998年9月30日，pp.126-127 特表２００１−５２１６４８号公報

一般に、音声信号やオーディオ信号のスペクトルは、周波数と共に緩やかに変化する成分（スペクトル包絡）と細かく変化する成分（スペクトル微細構造）との積で表される。一例として、図１に音声信号のスペクトル、図２にスペクトル包絡、図３にスペクトル微細構造を示す。このスペクトル包絡（図２）は、１０次のＬＰＣ（Linear Prediction Coding）係数を用いて算出したものである。これらの図から、スペクトル包絡（図２）とスペクトル微細構造（図３）との積が、音声信号のスペクトル（図１）になっていることが
分かる。

ここで、低域部のスペクトルを複製して高域部のスペクトルとする場合、複製元である低域部の帯域幅よりも複製先である高域部の帯域幅が広い場合には、低域部のスペクトルを２回以上高域部に複製することになる。例えば、図１の低域部（０−ＦＬ）から高域部（ＦＬ−ＦＨ）にスペクトルを複製する場合、この例ではＦＨ＝２＊ＦＬの関係があるため、低域部のスペクトルを高域部に２回複製する必要がある。このように低域部のスペクトルを高域部に複数回複製すると、図４に示すように、複製先のスペクトルの接続部においてスペクトルのエネルギーの不連続が生じてしまう。このような不連続が発生する原因は、スペクトル包絡にある。図２に示すように、スペクトル包絡では周波数が上がると共にエネルギーが減衰するため、スペクトルに傾きが生じる。このようなスペクトルの傾きの存在により、低域部のスペクトルを高域部に複数回複製すると、スペクトルのエネルギーの不連続が発生し、音声品質が劣化してしまう。この不連続をゲイン調整により補正することは可能であるが、ゲイン調整にて十分な効果を得るには多くのビット数を必要としてしまう。

本発明の目的は、低域部のスペクトルを高域部に複数回複製する場合でも、スペクトルのエネルギーの連続性を保ち、音声品質の劣化を防ぐことができる音声符号化装置および音声符号化方法を提供することである。

本発明の音声符号化装置は、音声信号の低域部のスペクトルを符号化する第１符号化手段と、前記音声信号のＬＰＣ係数を用いて前記低域部のスペクトルを平坦化する平坦化手段と、平坦化された低域部のスペクトルを用いて前記音声信号の高域部のスペクトルを符号化する第２符号化手段と、を具備する構成を採る。

本発明によれば、スペクトルのエネルギーの連続性を保ち、音声品質の劣化を防ぐことができる。

本発明では、低域部のスペクトルを利用して高域部を符号化するにあたり、低域部のスペクトルからスペクトル包絡の影響を取り除いてスペクトルを平坦化し、平坦化したスペクトルを用いて高域部のスペクトルを符号化する。

まず、本発明の動作原理について図５Ａ〜Ｄを用いて説明する。

図５Ａ〜Ｄにおいて、ＦＬを閾値周波数として、０−ＦＬを低域部、ＦＬ−ＦＨを高域部とする。

図５Ａは、従来の符号化／復号化処理によって得られる低域部の復号スペクトルを表し、図５Ｂは、図５Ａに示す復号スペクトルをスペクトル包絡と逆の特性を持つ逆フィルタに通すことにより得られるスペクトルを示す。このように、低域部の復号スペクトルをスペクトル包絡と逆の特性を持つ逆フィルタに通すことにより、低域部のスペクトルの平坦化がなされる。そして、図５Ｃに示すように、平坦化された低域部のスペクトルを高域部に複数回（ここでは２回）複製し、高域部を符号化する。既に図５Ｂに示すように低域部のスペクトルが平坦化されているため、高域部の符号化では、上記のようなスペクトル包絡に起因するスペクトルのエネルギーの不連続は発生しない。そして、信号帯域が０−ＦＨに拡張されたスペクトルに対してスペクトル包絡を付与することにより、図５Ｄに示すような復号信号のスペクトルが得られる。

なお、高域部の符号化方法としては、低域部のスペクトルをピッチフィルタの内部状態に用い、周波数軸上で低い周波数から高い周波数に向かってピッチフィルタ処理を行ってスペクトルの高域部を推定する方法を用いることができる。この符号化方法によれば、高域部の符号化では、ピッチフィルタのフィルタ情報を符号化すればよいため、低ビットレート化を図ることができる。

以下、本発明の実施の形態について、添付図面を参照して詳細に説明する。

（実施の形態１）
本実施の形態では、第１レイヤおよび第２レイヤの双方において周波数領域での符号化
を行う場合について説明する。また、本実施の形態では、低域部のスペクトルの平坦化を行った後に、平坦化後のスペクトルを繰り返し利用して高域部のスペクトルを符号化する。

図６に、本発明の実施の形態１に係る音声符号化装置の構成を示す。

図６に示す音声符号化装置１００において、ＬＰＣ分析部１０１は、入力音声信号のＬＰＣ分析を行い、ＬＰＣ係数α（ｉ）（１≦ｉ≦ＮＰ）を算出する。ここで、ＮＰはＬＰＣ係数の次数を表し、例えば１０〜１８が選択される。算出されたＬＰＣ係数は、ＬＰＣ量子化部１０２に入力される。

ＬＰＣ量子化部１０２は、ＬＰＣ係数の量子化を行う。ＬＰＣ量子化部１０２は、量子化効率や安定性判定の観点から、ＬＰＣ係数をＬＳＰ（Line Spectral Pair）パラメータに変換した後に量子化する。量子化後のＬＰＣ係数は符号化データとしてＬＰＣ復号化部１０３および多重化部１０９に入力される。

ＬＰＣ復号化部１０３は、量子化後のＬＰＣ係数を復号して復号ＬＰＣ係数α_ｑ（ｉ）（１≦ｉ≦ＮＰ）を生成し、逆フィルタ部１０４に出力する。

逆フィルタ部１０４は、復号ＬＰＣ係数を用いて逆フィルタを構成し、この逆フィルタに入力音声信号を通すことにより、入力音声信号のスペクトルを平坦化する。

逆フィルタは式（１）または式（２）のように表される。式（２）は、平坦化の程度を制御する共振抑圧係数γ（０＜γ＜１）を利用した場合の逆フィルタである。

そして、式（１）で表される逆フィルタに音声信号ｓ（ｎ）を入力したときに得られる出力信号ｅ（ｎ）は、式（３）のように表される。

同様に、式（２）で表される逆フィルタに音声信号ｓ（ｎ）を入力したときに得られる出力信号ｅ（ｎ）は、式（４）のように表される。

よって、この逆フィルタ処理により入力音声信号のスペクトルが平坦化される。なお、以下の説明では、逆フィルタ部１０４の出力信号（スペクトルが平坦化された音声信号）を予測残差信号と呼ぶ。

周波数領域変換部１０５は、逆フィルタ部１０４から出力される予測残差信号の周波数分析を行い、変換係数として残差スペクトルを求める。周波数領域変換部１０５は
、例えば、ＭＤＣＴ（Modified Discrete Cosine Transform；変形離散コサイン変換）を用いて時間領域の信号を周波数領域の信号に変換する。残差スペクトルは第１レイヤ符号化部１０６および第２レイヤ符号化部１０８に入力される。

第１レイヤ符号化部１０６は、ＴｗｉｎＶＱ等を用いて残差スペクトルの低域部の符号化を行い、この符号化にて得られる第１レイヤ符号化データを第１レイヤ復号化部１０７および多重化部１０９に出力する。

第１レイヤ復号化部１０７は、第１レイヤ符号化データの復号を行って第１レイヤ復号スペクトルを生成し、第２レイヤ符号化部１０８に出力する。なお、第１レイヤ復号化部１０７は、時間領域に変換される前の第１レイヤ復号スペクトルを出力する。

第２レイヤ符号化部１０８は、第１レイヤ復号化部１０７で得られた第１レイヤ復号スペクトルを用いて、残差スペクトルの高域部の符号化を行い、この符号化にて得られる第２レイヤ符号化データを多重化部１０９に出力する。第２レイヤ符号化部１０８は、第１レイヤ復号スペクトルをピッチフィルタの内部状態に用い、ピッチフィルタリング処理により残差スペクトルの高域部を推定する。この際、第２レイヤ符号化部１０８は、スペクトルのハーモニクス構造を崩さないように残差スペクトルの高域部を推定する。また、第２レイヤ符号化部１０８は、ピッチフィルタのフィルタ情報を符号化する。さらに、第２レイヤ符号化部１０８では、スペクトルが平坦化された残差スペクトルを用いて残差スペクトルの高域部を推定する。このため、フィルタリング処理により再帰的にスペクトルが繰り返し使用されて高域部が推定されても、スペクトルのエネルギーの不連続の発生を防ぐことができる。よって、本実施の形態によれば、低ビットレートで高音質を得ることができる。なお、第２レイヤ符号化部１０８の詳細については後述する。

多重化部１０９は、第１レイヤ符号化データ、第２レイヤ符号化データおよびＬＰＣ係数符号化データを多重化してビットストリームを生成し、出力する。

次いで、第２レイヤ符号化部１０８の詳細について説明する。図７に、第２レイヤ符号化部１０８の構成を示す。

内部状態設定部１０８１には、第１レイヤ復号化部１０７より第１レイヤ復号スペクトルＳ１（ｋ）（０≦ｋ＜ＦＬ）が入力される。内部状態設定部１０８１は、この第１レイヤ復号スペクトルを用いて、フィルタリング部１０８２で用いられるフィルタの内部状態を設定する。

ピッチ係数設定部１０８４は、探索部１０８３からの制御に従ってピッチ係数Ｔを予め定められた探索範囲Ｔ_ｍｉｎ〜Ｔ_ｍａｘの中で少しずつ変化させながら、フィルタリング部１０８２に順次出力する。

フィルタリング部１０８２は、内部状態設定部１０８１で設定されたフィルタの内部状態と、ピッチ係数設定部１０８４から出力されるピッチ係数Ｔとに基づいて第１レイヤ復号スペクトルのフィルタリングを行い、残差スペクトルの推定値Ｓ２'（ｋ）を算出する。このフィルタリング処理の詳細については後述する。

探索部１０８３は、周波数領域変換部１０５から入力される残差スペクトルＳ２（ｋ）（０≦ｋ＜ＦＨ）とフィルタリング部１０８２から入力される残差スペクトルの推定値Ｓ
２'（ｋ）との類似性を示すパラメータである類似度を算出する。この類似度の算出処理は、ピッチ係数設定部１０８４からピッチ係数Ｔが与えられる度に行われ、算出される類似度が最大となるピッチ係数（最適なピッチ係数）Ｔ’（Ｔ_ｍｉｎ〜Ｔ_ｍａｘの範囲）が多重化部１０８６に出力される。また、探索部１０８３は、このピッチ係数Ｔ’を用いて生成される残差スペクトルの推定値Ｓ２'（ｋ）をゲイン符号化部１０８５に出力する。

ゲイン符号化部１０８５は、周波数領域変換部１０５から入力される残差スペクトルＳ２（ｋ）（０≦ｋ＜ＦＨ）に基づいて残差スペクトルＳ２（ｋ）のゲイン情報を算出する。なお、ここでは、このゲイン情報をサブバンド毎のスペクトルパワで表し、周波数帯域ＦＬ≦ｋ＜ＦＨをＪ個のサブバンドに分割する場合を例にとって説明する。このとき、第ｊサブバンドのスペクトルパワＢ（ｊ）は式（５）で表される。式（５）において、ＢＬ（ｊ）は第ｊサブバンドの最小周波数、ＢＨ（ｊ）は第ｊサブバンドの最大周波数を表す。このようにして求めた残差スペクトルのサブバンド情報を残差スペクトルのゲイン情報とみなす。

また、ゲイン符号化部１０８５は、同様に、残差スペクトルの推定値Ｓ２'（ｋ）のサブバンド情報Ｂ’（ｊ）を式（６）に従い算出し、サブバンド毎の変動量Ｖ（ｊ）を式（７）に従い算出する。

次に、ゲイン符号化部１０８５は、変動量Ｖ（ｊ）を符号化して符号化後の変動量Ｖ_ｑ（ｊ）を求め、そのインデックスを多重化部１０８６に出力する。

多重化部１０８６は、探索部１０８３から入力される最適なピッチ係数Ｔ’とゲイン符号化部１０８５から入力される変動量Ｖ（ｊ）のインデックスとを多重化して、第２レイヤ符号化データとして多重化部１０９に出力する。

次いで、フィルタリング部１０８２でのフィルタリング処理の詳細について説明する。図８に、フィルタリング部１０８２が、ピッチ係数設定部１０８４から入力されるピッチ係数Ｔを用いて、帯域ＦＬ≦ｋ＜ＦＨのスペクトルを生成する様子を示す。ここでは、全周波数帯域（０≦ｋ＜ＦＨ）のスペクトルを便宜的にＳ（ｋ）と呼び、フィルタ関数は式（８）で表されるものを使用する。この式において、Ｔはピッチ係数設定部１０８４より与えられたピッチ係数を表しており、またＭ＝１とする。

Ｓ（ｋ）の０≦ｋ＜ＦＬの帯域には、第１レイヤ復号スペクトルＳ１（ｋ）がフィルタの内部状態として格納される。一方、Ｓ（ｋ）のＦＬ≦ｋ＜ＦＨの帯域には、以下の手順により求められた残差スペクトルの推定値Ｓ２'（ｋ）が格納される。

Ｓ２'（ｋ）には、フィルタリング処理により、ｋよりＴだけ低い周波数のスペクトルＳ（ｋ−Ｔ）に、このスペクトルを中心としてｉだけ離れた近傍のスペクトルＳ（ｋ−Ｔ−ｉ）に所定の重み付け係数β_ｉを乗じたスペクトルβ_ｉ・Ｓ（ｋ−Ｔ−ｉ）を全て加算したスペクトル、すなわち、式（９）により表されるスペクトルが代入される。そしてこの演算を、周波数の低い方（ｋ＝ＦＬ）から順にｋをＦＬ≦ｋ＜ＦＨの範囲で変化させて行うことにより、ＦＬ≦ｋ＜ＦＨにおける残差スペクトルの推定値Ｓ２'（ｋ）が算出される。

以上のフィルタリング処理は、ピッチ係数設定部１０８４からピッチ係数Ｔが与えられる度に、ＦＬ≦ｋ＜ＦＨの範囲において、その都度Ｓ（ｋ）をゼロクリアして行われる。すなわち、ピッチ係数Ｔが変化するたびにＳ（ｋ）は算出され、探索部１０８３に出力される。

ここで、図８に示す例では、ピッチ係数Ｔの大きさが帯域ＦＬ−ＦＨより小さいため、高域部（ＦＬ≦ｋ＜ＦＨ）のスペクトルは低域部（０≦ｋ＜ＦＬ）のスペクトルを再帰的に用いて生成される。低域部のスペクトルは上記のように平坦化されているため、フィルタリング処理により低域部のスペクトルを再帰的に用いて高域部のスペクトルが生成される場合でも、高域部のスペクトルにはエネルギーの不連続が生じることがない。

このように、本実施の形態によれば、スペクトル包絡の影響により高域部で発生していたスペクトルのエネルギーの不連続を防ぐことができ、音声品質を改善することができる。

次いで、本実施の形態に係る音声復号化装置について説明する。図９に、本発明の実施の形態１に係る音声復号化装置の構成を示す。この音声復号化装置２００は、図６に示す音声符号化装置１００から送信されるビットストリームを受信するものである。

図９に示す音声復号化装置２００において、分離部２０１は、図６に示す音声符号化装置１００から受信されたビットストリームを、第１レイヤ符号化データ、第２レイヤ符号化データおよびＬＰＣ係数に分離して、第１レイヤ符号化データを第１レイヤ復号化部２０２に、第２レイヤ符号化データを第２レイヤ復号化部２０３に、ＬＰＣ係数をＬＰＣ復号化部２０４に出力する。また、分離部２０１は、レイヤ情報（ビットストリームにどのレイヤの符号化データが含まれるかを表す情報）を判定部２０５に出力する。

第１レイヤ復号化部２０２は、第１レイヤ符号化データを用いて復号処理を行って第１レイヤ復号スペクトルを生成し、第２レイヤ復号化部２０３および判定部２０５に出力する。

第２レイヤ復号化部２０３は、第２レイヤ符号化データと第１レイヤ復号スペクトルとを用いて、第２レイヤ復号スペクトルを生成し判定部２０５に出力する。なお、第２レイヤ復号化部２０３の詳細については後述する。

ＬＰＣ復号化部２０４は、ＬＰＣ係数符号化データを復号して得た復号ＬＰＣ係数を合成フィルタ部２０７に出力する。

ここで、音声符号化装置１００は、ビットストリームに第１レイヤ符号化データと第２レイヤ符号化データの双方を含めて送信するが、通信経路の途中で第２レイヤ符号化データが廃棄される場合がある。そこで、判定部２０５は、レイヤ情報に基づき、ビットストリームに第２レイヤ符号化データが含まれているか否か判定する。そして、判定部２０５は、ビットストリームに第２レイヤ符号化データが含まれていない場合は、第２レイヤ復号化部２０３によって第２レイヤ復号スペクトルが生成されないため、第１レイヤ復号スペクトルを時間領域変換部２０６に出力する。但し、この場合、第２レイヤ符号化データが含まれている場合の復号スペクトルと次数を一致させるために、判定部２０５は、第１レイヤ復号スペクトルの次数をＦＨまで拡張し、ＦＬ−ＦＨのスペクトルを０として出力する。一方、ビットストリームに第１レイヤ符号化データおよび第２レイヤ符号化データの双方が含まれている場合は、判定部２０５は、第２レイヤ復号スペクトルを時間領域変換部２０６に出力する。

時間領域変換部２０６は、判定部２０５から入力される復号スペクトルを時間領域の信号に変換して復号残差信号を生成し、合成フィルタ部２０７に出力する。

合成フィルタ部２０７は、ＬＰＣ復号化部２０４から入力される復号ＬＰＣ係数α_ｑ（ｉ）（１≦ｉ＜ＮＰ）を用いて合成フィルタを構成する。

合成フィルタＨ（ｚ）は式（１０）または式（１１）のように表される。なお、式（１１）においてγ（０＜γ＜１）は共振抑圧係数を表す。

そして、時間領域変換部２０６にて与えられる復号残差信号をｅ_ｑ（ｎ）として合成フィルタ部２０７へ入力すれば、式（１０）で表される合成フィルタを用いた場合、出力される復号信号ｓ_ｑ（ｎ）は式（１２）のように表される。

同様に、式（１１）で表される合成フィルタを用いた場合、復号信号ｓ_ｑ（ｎ）は式（１３）のように表される。

次いで、第２レイヤ復号化部２０３の詳細について説明する。図１０に、第２レイヤ復号化部２０３の構成を示す。

内部状態設定部２０３１には、第１レイヤ復号化部２０２より第１レイヤ復号スペクトルが入力される。内部状態設定部２０３１は、第１レイヤ復号スペクトルＳ１（ｋ）を用いて、フィルタリング部２０３３で用いられるフィルタの内部状態を設定する。

一方、分離部２０３２には、分離部２０１より第２レイヤ符号化データが入力される。分離部２０３２は、第２レイヤ符号化データをフィルタリング係数に関する情報（最適なピッチ係数Ｔ’）とゲインに関する情報（変動量Ｖ（ｊ）のインデックス）とに分離し、フィルタリング係数に関する情報をフィルタリング部２０３３に出力するとともに、ゲインに関する情報をゲイン復号化部２０３４に出力する。

フィルタリング部２０３３は、内部状態設定部２０３１で設定されたフィルタの内部状態と、分離部２０３２から入力されるピッチ係数Ｔ’とに基づき第１レイヤ復号スペクトルＳ１（ｋ）のフィルタリングを行い、残差スペクトルの推定値Ｓ２'（ｋ）を算出する。フィルタリング部２０３３では、式（８）で示すフィルタ関数が用いられる。

ゲイン復号化部２０３４は、分離部２０３２から入力されるゲイン情報を復号し、変動量Ｖ（ｊ）を符号化して得られる変動量Ｖ_ｑ（ｊ）を求める。

スペクトル調整部２０３５は、フィルタリング部２０３３から入力される復号スペクトルＳ'（ｋ）に、ゲイン復号化部２０３４から入力される復号されたサブバンド毎の変動量Ｖ_ｑ（ｊ）を式（１４）に従い乗じることにより、復号スペクトルＳ'（ｋ）の周波数帯域ＦＬ≦ｋ＜ＦＨにおけるスペクトル形状を調整し、調整後の復号スペクトルＳ３（ｋ）を生成する。この調整後の復号スペクトルＳ３（ｋ）は、第２レイヤ復号スペクトルとして判定部２０５に出力される。

このようにして、音声復号化装置２００は、図６に示す音声符号化装置１００から送信されたビットストリームを復号することができる。

（実施の形態２）
本実施の形態では、第１レイヤにおいて時間領域での符号化（例えばＣＥＬＰ符号化）を行う場合について説明する。また、本実施の形態では、第１レイヤでの符号化処理中に求められる復号ＬＰＣ係数を用いて第１レイヤ復号信号のスペクトルの平坦化を行う。

図１１に、本発明の実施の形態２に係る音声符号化装置の構成を示す。図１１において、実施の形態１（図６）と同一の構成部分には同一符号を付し、説明を省略する。

図１１に示す音声符号化装置３００において、ダウンサンプリング部３０１は、入力音声信号のサンプリングレートをダウンサンプリングして、所望のサンプリングレートの音声信号を第１レイヤ符号化部３０２に出力する。

第１レイヤ符号化部３０２は、所望のサンプリングレートにダウンサンプリングされた音声信号に対して符号化処理を行って第１レイヤ符号化データを生成し、第１レイヤ復号化部３０３および多重化部１０９に出力する。第１レイヤ符号化部３０２は、例えば、ＣＥＬＰ符号化を用いる。第１レイヤ符号化部３０２が、ＣＥＬＰ符号化のようにＬＰＣ係
数の符号化処理を行う場合は、その符号化処理中に復号ＬＰＣ係数を生成することができる。そこで、第１レイヤ符号化部３０２は、符号化処理中に生成される第１レイヤ復号ＬＰＣ係数を逆フィルタ部３０４に出力する。

第１レイヤ復号化部３０３は、第１レイヤ符号化データを用いて復号処理を行って第１レイヤ復号信号を生成し、逆フィルタ部３０４に出力する。

逆フィルタ部３０４は、第１レイヤ符号化部３０２から入力される第１レイヤ復号ＬＰＣ係数を用いて逆フィルタを構成し、この逆フィルタに第１レイヤ復号信号を通すことにより、第１レイヤ復号信号のスペクトルを平坦化する。なお、逆フィルタの詳細については実施の形態１と同様であるため説明を省略する。また、以下の説明では、逆フィルタ部３０４の出力信号（スペクトルが平坦化された第１レイヤ復号信号）を第１レイヤ復号残差信号と呼ぶ。

周波数領域変換部３０５は、逆フィルタ部３０４から出力される第１レイヤ復号残差信号の周波数分析を行って第１レイヤ復号スペクトルを生成し、第２レイヤ符号化部１０８に出力する。

なお、遅延部３０６は、入力音声信号に対し所定の長さの遅延を与えるためのものである。この遅延の大きさは、入力音声信号がダウンサンプリング部３０１、第１レイヤ符号化部３０２、第１レイヤ復号化部３０３、逆フィルタ部３０４および周波数領域変換部３０５を介した際に生じる時間遅れと同値とする。

このように、本実施の形態によれば、第１レイヤでの符号化処理中に求められる復号ＬＰＣ係数（第１レイヤ復号ＬＰＣ係数）を用いて第１レイヤ復号信号のスペクトルの平坦化を行うため、第１レイヤ符号化データの情報を用いて第１レイヤ復号信号のスペクトルを平坦化することができる。よって、本実施の形態によれば、第１レイヤ復号信号のスペクトルを平坦化するためのＬＰＣ係数に要する符号化ビットが不要となるため、情報量の増加を伴うことなく、スペクトルの平坦化を行うことができる。

次いで、本実施の形態に係る音声復号化装置について説明する。図１２に、本発明の実施の形態２に係る音声復号化装置の構成を示す。この音声復号化装置４００は、図１１に示す音声符号化装置３００から送信されるビットストリームを受信するものである。

図１２に示す音声復号化装置４００において、分離部４０１は、図１１に示す音声符号化装置３００から受信されたビットストリームを、第１レイヤ符号化データ、第２レイヤ符号化データおよびＬＰＣ係数符号化データに分離して、第１レイヤ符号化データを第１レイヤ復号化部４０２に、第２レイヤ符号化データを第２レイヤ復号化部４０５に、ＬＰＣ係数符号化データをＬＰＣ復号化部４０７に出力する。また、分離部４０１は、レイヤ情報（ビットストリームにどのレイヤの符号化データが含まれるかを表す情報）を判定部４１３に出力する。

第１レイヤ復号化部４０２は、第１レイヤ符号化データを用いて復号処理を行って第１レイヤ復号信号を生成し、逆フィルタ部４０３およびアップサンプリング部４１０に出力する。また、第１レイヤ復号化部４０２は、復号処理中に生成される第１レイヤ復号ＬＰＣ係数を逆フィルタ部４０３に出力する。

アップサンプリング部４１０は、第１レイヤ復号信号のサンプリングレートをアップサンプリングして、図１１の入力音声信号のサンプリングレートと同一にしてローパスフィルタ部４１１および判定部４１３に出力する。

ローパスフィルタ部４１１は、通過域が０−ＦＬに設定されており、アップサンプリング後の第１レイヤ復号信号の周波数帯域０−ＦＬのみを通過させて低域信号を生成し、加算部４１２に出力する。

逆フィルタ部４０３は、第１レイヤ復号化部４０２から入力される第１レイヤ復号ＬＰＣ係数を用いて逆フィルタを構成し、この逆フィルタに第１レイヤ復号信号を通すことにより第１レイヤ復号残差信号を生成し、周波数領域変換部４０４に出力する。

周波数領域変換部４０４は、逆フィルタ部４０３から出力される第１レイヤ復号残差信号の周波数分析を行って第１レイヤ復号スペクトルを生成し、第２レイヤ復号化部４０５に出力する。

第２レイヤ復号化部４０５は、第２レイヤ符号化データと第１レイヤ復号スペクトルとを用いて、第２レイヤ復号スペクトルを生成し時間領域変換部４０６に出力する。なお、第２レイヤ復号化部４０５の詳細については、実施の形態１の第２レイヤ復号化部２０３（図９）と同様であるため説明を省略する。

時間領域変換部４０６は、第２レイヤ復号スペクトルを時間領域の信号に変換して第２レイヤ復号残差信号を生成し、合成フィルタ部４０８に出力する。

ＬＰＣ復号化部４０７は、ＬＰＣ係数を復号して得た復号ＬＰＣ係数を合成フィルタ部４０８に出力する。

合成フィルタ部４０８は、ＬＰＣ復号化部４０７から入力される復号ＬＰＣ係数を用いて合成フィルタを構成する。なお、合成フィルタ部４０８の詳細については、実施の形態１の合成フィルタ部２０７（図９）と同様であるため説明を省略する。合成フィルタ部４０８は、実施の形態１と同様にして第２レイヤ合成信号ｓ_ｑ（ｎ）を生成し、ハイパスフィルタ部４０９に出力する。

ハイパスフィルタ部４０９は、通過域がＦＬ−ＦＨに設定されており、第２レイヤ合成信号の周波数帯域ＦＬ−ＦＨのみを通過させて高域信号を生成し、加算部４１２に出力する。

加算部４１２は、低域信号と高域信号とを加算して第２レイヤ復号信号を生成し、判定部４１３に出力する。

判定部４１３は、分離部４０１より入力されるレイヤ情報に基づき、ビットストリームに第２レイヤ符号化データが含まれているか否か判定し、第１レイヤ復号信号または第２レイヤ復号信号のいずれかを選択して復号信号として出力する。判定部４１３は、ビットストリームに第２レイヤ符号化データが含まれていない場合は第１レイヤ復号信号を出力し、ビットストリームに第１レイヤ符号化データおよび第２レイヤ符号化データの双方が含まれている場合は第２レイヤ復号信号を出力する。

なお、ローパスフィルタ部４１１およびハイパスフィルタ部４０９は、低域信号と高域信号との間で互いに与える影響を緩和するために用いられる。よって、低域信号と高域信号との間で互いに与える影響が小さい場合は、音声復号化装置４００を、これらのフィルタを用いない構成としてもよい。これらのフィルタを用いない場合、フィルタリングに係る演算が不要になるため、演算量を削減することができる。

このようにして、音声復号化装置４００は、図１１に示す音声符号化装置３００から送信されたビットストリームを復号することができる。

（実施の形態３）
第１レイヤ音源信号のスペクトルは、入力音声信号からスペクトル包絡の影響を取り除いた予測残差信号のスペクトルと同様に平坦化されている。そこで、本実施の形態では、第１レイヤでの符号化処理中に求められる第１レイヤ音源信号を、スペクトルが平坦化された信号（すなわち、実施の形態２における第１レイヤ復号残差信号）とみなして処理を行う。

図１３に、本発明の実施の形態３に係る音声符号化装置の構成を示す。図１３において、実施の形態２（図１１）と同一の構成部分には同一符号を付し、説明を省略する。

第１レイヤ符号化部５０１は、所望のサンプリングレートにダウンサンプリングされた音声信号に対して符号化処理を行って第１レイヤ符号化データを生成し、多重化部１０９に出力する。第１レイヤ符号化部５０１は、例えば、ＣＥＬＰ符号化を用いる。また、第１レイヤ符号化部５０１は、符号化処理中に生成される第１レイヤ音源信号を周波数領域変換部５０２に出力する。なお、ここでいう音源信号とは、ＣＥＬＰ符号化を行う第１レイヤ符号化部５０１の内部にある合成フィルタ（または聴覚重み付き合成フィルタ）に入力される信号を指し、駆動信号とも呼ばれる。

周波数領域変換部５０２は、第１レイヤ音源信号の周波数分析を行って第１レイヤ復号スペクトルを生成し、第２レイヤ符号化部１０８に出力する。

なお、遅延部５０３の遅延の大きさは、入力音声信号がダウンサンプリング部３０１、第１レイヤ符号化部５０１および周波数領域変換部５０２を介した際に生じる時間遅れと同値とする。

このように、本実施の形態によれば、実施の形態２（図１１）に比べ、第１レイヤ復号化部３０３および逆フィルタ部３０４が不要となるため、演算量を削減することができる。

次いで、本実施の形態に係る音声復号化装置について説明する。図１４に、本発明の実施の形態３に係る音声復号化装置の構成を示す。この音声復号化装置６００は、図１３に示す音声符号化装置５００から送信されるビットストリームを受信するものである。図１４において、実施の形態２（図１２）と同一の構成部分には同一符号を付し、説明を省略する。

第１レイヤ復号化部６０１は、第１レイヤ符号化データを用いて復号処理を行って第１レイヤ復号信号を生成し、アップサンプリング部４１０に出力する。また、第１レイヤ復号化部６０１は、復号処理中に生成される第１レイヤ音源信号を周波数領域変換部６０２に出力する。

周波数領域変換部６０２は、第１レイヤ音源信号の周波数分析を行って第１レイヤ復号スペクトルを生成し、第２レイヤ復号化部４０５に出力する。

このようにして、音声復号化装置６００は、図１３に示す音声符号化装置５００から送信されたビットストリームを復号することができる。

（実施の形態４）
本実施の形態では、第２レイヤで求めた第２レイヤ復号ＬＰＣ係数を用いて、第１レイヤ復号信号および入力音声信号それぞれのスペクトルを平坦化する。

図１５に、本発明の実施の形態４に係る音声符号化装置７００の構成を示す。図１５において、実施の形態２（図１１）と同一の構成部分には同一符号を付し、説明を省略する。

第１レイヤ符号化部７０１は、所望のサンプリングレートにダウンサンプリングされた音声信号に対して符号化処理を行って第１レイヤ符号化データを生成し、第１レイヤ復号化部７０２および多重化部１０９に出力する。第１レイヤ符号化部７０１は、例えば、ＣＥＬＰ符号化を用いる。

第１レイヤ復号化部７０２は、第１レイヤ符号化データを用いて復号処理を行って第１レイヤ復号信号を生成し、アップサンプリング部７０３に出力する。

アップサンプリング部７０３は、第１レイヤ復号信号のサンプリングレートをアップサンプリングして入力音声信号のサンプリングレートと同一にし、逆フィルタ部７０４に出力する。

逆フィルタ部７０４には、逆フィルタ部１０４と同様、ＬＰＣ復号化部１０３から復号ＬＰＣ係数が入力される。逆フィルタ部７０４は、復号ＬＰＣ係数を用いて逆フィルタを構成し、この逆フィルタにアップサンプリング後の第１レイヤ復号信号を通すことにより、第１レイヤ復号信号のスペクトルを平坦化する。なお、以下の説明では、逆フィルタ部７０４の出力信号（スペクトルが平坦化された第１レイヤ復号信号）を第１レイヤ復号残差信号と呼ぶ。

周波数領域変換部７０５は、逆フィルタ部７０４から出力される第１レイヤ復号残差信号の周波数分析を行って第１レイヤ復号スペクトルを生成し、第２レイヤ符号化部１０８に出力する。

なお、遅延部７０６の遅延の大きさは、入力音声信号がダウンサンプリング部３０１、第１レイヤ符号化部７０１、第１レイヤ復号化部７０２、アップサンプリング部７０３、逆フィルタ部７０４および周波数領域変換部７０５を介した際に生じる時間遅れと同値とする。

次いで、本実施の形態に係る音声復号化装置について説明する。図１６に、本発明の実施の形態４に係る音声復号化装置の構成を示す。この音声復号化装置８００は、図１５に示す音声符号化装置７００から送信されるビットストリームを受信するものである。図１６において、実施の形態２（図１２）と同一の構成部分には同一符号を付し、説明を省略する。

第１レイヤ復号化部８０１は、第１レイヤ符号化データを用いて復号処理を行って第１レイヤ復号信号を生成し、アップサンプリング部８０２に出力する。

アップサンプリング部８０２は、第１レイヤ復号信号のサンプリングレートをアップサンプリングして図１５の入力音声信号のサンプリングレートと同一にし、逆フィルタ部８０３および判定部４１３に出力する。

逆フィルタ部８０３には、合成フィルタ部４０８と同様、ＬＰＣ復号化部４０７から復号ＬＰＣ係数が入力される。逆フィルタ部８０３は、復号ＬＰＣ係数を用いて逆フィルタ
を構成し、この逆フィルタにアップサンプリング後の第１レイヤ復号信号を通すことにより第１レイヤ復号信号のスペクトルを平坦化し、第１レイヤ復号残差信号を周波数領域変換部８０４に出力する。

周波数領域変換部８０４は、逆フィルタ部８０３から出力される第１レイヤ復号残差信号の周波数分析を行って第１レイヤ復号スペクトルを生成し、第２レイヤ復号化部４０５に出力する。

このようにして、音声復号化装置８００は、図１５に示す音声符号化装置７００から送信されたビットストリームを復号することができる。

このように、本実施の形態によれば、音声符号化装置において、第２レイヤで求めた第２レイヤ復号ＬＰＣ係数を用いて、第１レイヤ復号信号および入力音声信号それぞれのスペクトルを平坦化するため、音声復号化装置では、音声符号化装置と共通のＬＰＣ係数を用いて第１レイヤ復号スペクトルを求めることができる。よって、本実施の形態によれば、音声復号化装置では、復号信号を生成するにあたり、実施の形態２，３のような低域部と高域部とに分離した処理を行う必要がなくなるためローパスフィルタおよびハイパスフィルタが不要となり装置構成が簡単になるとともに、フィルタリング処理に係る演算量を削減することができる。

（実施の形態５）
本実施の形態は、スペクトルの平坦化を行う逆フィルタの共振抑圧係数を入力音声信号の特性に応じて適応的に変化させて平坦化の程度を制御するものである。

図１７に、本発明の実施の形態５に係る音声符号化装置９００の構成を示す。図１７において、実施の形態４（図１５）と同一の構成部分には同一符号を付し、説明を省略する。

音声符号化装置９００において、逆フィルタ部９０４，９０５は、式（２）により表される。

特徴量分析部９０１は、入力音声信号を分析して特徴量を算出し、特徴量符号化部９０２に出力する。特徴量としては、共振による音声スペクトルの強度を表すパラメータを用いる。具体的には、例えば、隣り合うＬＳＰパラメータ間の距離を用いる。一般に、この距離が小さいほど共振の程度が強く、共振周波数に対応するスペクトルのエネルギーが大きく現れる。共振が強く現れる音声区間では、平坦化処理により、共振周波数近傍でのスペクトルが過度に減衰されて音質劣化の原因となる。これを防ぐために、共振が強く現れる音声区間では上記の共振抑圧係数γ（０＜γ＜１）を小さく設定して平坦化の程度を弱める。これにより、平坦化処理による共振周波数近傍でのスペクトルの過度な減衰を防止でき、音声品質の劣化を抑えることができる。

特徴量符号化部９０２は、特徴量分析部９０１より入力される特徴量を符号化して特徴量符号化データを生成し、特徴量復号化部９０３および多重化部９０６に出力する。

特徴量復号化部９０３は、特徴量符号化データを用いて特徴量を復号し、復号特徴量に応じて逆フィルタ部９０４，９０５で用いる共振抑圧係数γを決定して逆フィルタ部９０４，９０５に出力する。特徴量として周期性の強さを表すパラメータが用いられる場合、入力音声信号の周期性が強いほど共振抑圧係数γを大きくし、入力音声信号の周期性が弱いほど共振抑圧係数γを小さくする。このように共振抑圧係数γを制御することにより、有声部ではより強くスペクトルの平坦化が行われ、無声部ではスペクトルの平坦化の程度
が弱まる。よって、無声部での過度なスペクトルの平坦化を防ぐことができ、音声品質の劣化を抑えることができる。

逆フィルタ部９０４，９０５は、特徴量復号化部９０３によって制御される共振抑圧係数γに応じて、式（２）に従って逆フィルタ処理を行う。

多重化部９０６は、第１レイヤ符号化データ、第２レイヤ符号化データ、ＬＰＣ係数および特徴量符号化データを多重化してビットストリームを生成し、出力する。

なお、遅延部９０７の遅延の大きさは、入力音声信号がダウンサンプリング部３０１、第１レイヤ符号化部７０１、第１レイヤ復号化部７０２、アップサンプリング部７０３、逆フィルタ部９０５および周波数領域変換部７０５を介した際に生じる時間遅れと同値とする。

次いで、本実施の形態に係る音声復号化装置について説明する。図１８に、本発明の実施の形態５に係る音声復号化装置の構成を示す。この音声復号化装置１０００は、図１７に示す音声符号化装置９００から送信されるビットストリームを受信するものである。図１８において、実施の形態４（図１６）と同一の構成部分には同一符号を付し、説明を省略する。

音声符号化装置１０００において、逆フィルタ部１００３は、式（２）により表される。

分離部１００１は、図１７に示す音声符号化装置９００から受信されたビットストリームを、第１レイヤ符号化データ、第２レイヤ符号化データ、ＬＰＣ係数符号化データおよび特徴量符号化データに分離して、第１レイヤ符号化データを第１レイヤ復号化部８０１に、第２レイヤ符号化データを第２レイヤ復号化部４０５に、ＬＰＣ係数をＬＰＣ復号化部４０７に、特徴量符号化データを特徴量復号化部１００２に出力する。また、分離部１００１は、レイヤ情報（ビットストリームにどのレイヤの符号化データが含まれるかを表す情報）を判定部４１３に出力する。

特徴量復号化部１００２は、特徴量復号化部９０３（図１７）同様、特徴量符号化データを用いて特徴量を復号し、復号特徴量に応じて逆フィルタ部１００３で用いる共振抑圧係数γを決定して逆フィルタ部１００３に出力する。

逆フィルタ部１００３は、特徴量復号化部１００２によって制御される共振抑圧係数γに応じて、式（２）に従って逆フィルタ処理を行う。

このようにして、音声復号化装置１０００は、図１７に示す音声符号化装置９００から送信されたビットストリームを復号することができる。

なお、ＬＰＣ量子化部１０２（図１７）は、上記のように、ＬＰＣ係数を一旦ＬＳＰパラメータに変換した後に量子化する。そこで、本実施の形態においては、音声符号化装置の構成を図１９に示すようにしてもよい。すなわち、図１９に示す音声符号化装置１１００では、特徴量分析部９０１を設けずに、ＬＰＣ量子化部１０２がＬＳＰパラメータ間の距離を算出して特徴量符号化部９０２に出力する。

さらに、ＬＰＣ量子化部１０２が復号ＬＳＰパラメータを生成する場合には、音声符号化装置の構成を図２０に示すようにしてもよい。すなわち、図２０に示す音声符号化装置１３００では、特徴量分析部９０１、特徴量符号化部９０２および特徴量復号化部９０３
を設けずに、ＬＰＣ量子化部１０２が、復号ＬＳＰパラメータを生成し、復号ＬＳＰパラメータ間の距離を算出して逆フィルタ部９０４，９０５に出力する。

また、図２０に示す音声符号化装置１３００から送信されたビットストリームを復号する音声復号化装置１４００の構成を図２１に示す。図２１において、ＬＰＣ復号化部４０７は、さらに、復号ＬＰＣ係数から復号ＬＳＰパラメータを生成し、復号ＬＳＰパラメータ間の距離を算出して逆フィルタ部１００３に出力する。

（実施の形態６）
音声信号やオーディオ信号では、複製元である低域部のスペクトルのダイナミックレンジ（スペクトルの振幅の最大値と最小値との比）が複製先である高域部のスペクトルのダイナミックレンジより大きくなる状況がよく発生する。このような状況において低域部のスペクトルを複製して高域部のスペクトルとする場合、高域部にスペクトルの過大なピークが発生する。そして、このように過大なピークを有するスペクトルを時間領域に変換して得られる復号信号には、鈴が鳴るように聞こえるノイズが発生し、その結果、主観品質が低下してしまう。

これに対し、主観品質の改善を図るために、低域部のスペクトルを変形して低域部のスペクトルのダイナミックレンジを高域部のスペクトルのダイナミックレンジに近づける技術が提案されている（例えば、押切，江原，吉田, “ピッチフィルタリングに基づくスペクトル符号化を用いた超広帯域スケーラブル音声符号化の改善”,2004年秋季音講論集2-4-13，pp.297-298，2004年9月、参照）。この技術では、低域部のスペクトルをどのように変形したかを表す変形情報を音声符号化装置から音声復号化装置へ送信する必要がある。

ここで、音声符号化装置においてこの変形情報を符号化する際に、符号化候補の数が十分でない場合、すなわち、低ビットレートの場合には大きな量子化誤差が発生する。そして、このような大きな量子化誤差が発生すると、その量子化誤差に起因して低域部のスペクトルのダイナミックレンジの調整が十分に行われず、その結果品質劣化を招くことがある。特に、高域部のスペクトルのダイナミックレンジより大きなダイナミックレンジを表す符号化候補が選択された場合、高域部のスペクトルに過大なピークが発生しやすくなり、品質劣化が顕著に現れてしまうことがある。

そこで、本実施の形態では、低域部のスペクトルのダイナミックレンジを高域部のスペクトルのダイナミックレンジに近づける技術を上記各実施の形態に適用する場合において、第２レイヤ符号化部１０８が変形情報を符号化する際に、ダイナミックレンジが小さくなる符号化候補をダイナミックレンジが大きくなる符号化候補よりも選択されやすくする。

図２２に、本発明の実施の形態６に係る第２レイヤ符号化部１０８の構成を示す。図２２において、実施の形態１（図７）と同一の構成部分には同一符号を付し、説明を省略する。

図２２に示す第２レイヤ符号化部１０８において、スペクトル変形部１０８７には、第１レイヤ復号化部１０７より第１レイヤ復号スペクトルＳ１（ｋ）（０≦ｋ＜ＦＬ）が入力され、周波数領域変換部１０５より残差スペクトルＳ２（ｋ）（０≦ｋ＜ＦＨ）が入力される。スペクトル変形部１０８７は、復号スペクトルＳ１（ｋ）のダイナミックレンジを適切なダイナミックレンジとするために、復号スペクトルＳ１（ｋ）を変形させて復号スペクトルＳ１（ｋ）のダイナミックレンジを変化させる。そして、スペクトル変形部１０８７は、復号スペクトルＳ１（ｋ）をどのように変形したかを表す変形情報を符号化して多重化部１０８６に出力する。また、スペクトル変形部１０８７は、変形後の復号スペ
クトル（変形復号スペクトル）Ｓ１'（ｊ,ｋ）を内部状態設定部１０８１に出力する。

スペクトル変形部１０８７の構成を図２３に示す。スペクトル変形部１０８７は、復号スペクトルＳ１（ｋ）を変形して復号スペクトルＳ１（ｋ）のダイナミックレンジを残差スペクトルＳ２（ｋ）の高域部（ＦＬ≦ｋ＜ＦＨ）のダイナミックレンジに近づける。また、スペクトル変形部１０８７は、変形情報を符号化して出力する。

図２３に示すスペクトル変形部１０８７において、変形スペクトル生成部１１０１は、復号スペクトルＳ１（ｋ）を変形して変形復号スペクトルＳ１'（ｊ,ｋ）を生成し、サブバンドエネルギー算出部１１０２に出力する。ここで、ｊは符号帳１１１１の各符号化候補（各変形情報）を識別するためのインデックスであり、変形スペクトル生成部１１０１では、符号帳１１１１に含まれる各符号化候補（各変形情報）を用いて復号スペクトルＳ１（ｋ）の変形が行われる。ここでは、指数関数を用いてスペクトルの変形を行う場合を一例に挙げる。例えば、符号帳１１１１に含まれる符号化候補をα（ｊ）と表したとき、各符号化候補α（ｊ）は０≦α（ｊ）≦１の範囲にあるものとする。よって、変形復号スペクトルＳ１'（ｊ,ｋ）は、式（１５）のように表される。

ここで、sign（）は正または負の符号を返す関数を表す。よって、符号化候補α（ｊ）が０に近い値をとるほど変形復号スペクトルＳ１'（ｊ,ｋ）のダイナミックレンジは小さくなる。

サブバンドエネルギー算出部１１０２は、変形復号スペクトルＳ１'（ｊ,ｋ）の周波数帯域を複数のサブバンドに分割し、各サブバンドの平均エネルギー（サブバンドエネルギー）Ｐ１（ｊ,ｎ）を求めて分散算出部１１０３に出力する。ここでｎはサブバンド番号を表す。

分散算出部１１０３は、サブバンドエネルギーＰ１（ｊ,ｎ）のばらつきの程度を表すために、サブバンドエネルギーＰ１（ｊ,ｎ）の分散σ１（ｊ）^２を求める。そして、分散算出部１１０３は、符号化候補（変形情報）ｊにおける分散σ１（ｊ）^２を減算部１１０６に出力する。

一方、サブバンドエネルギー算出部１１０４は、残差スペクトルＳ２（ｋ）の高域部を複数のサブバンドに分割し、各サブバンドの平均エネルギー（サブバンドエネルギー）Ｐ２（ｎ）を求めて分散算出部１１０５に出力する。

分散算出部１１０５は、サブバンドエネルギーＰ２（ｎ）のばらつきの程度を表すために、サブバンドエネルギーＰ２（ｎ）の分散σ２^２を求め、減算部１１０６に出力する。

減算部１１０６は、分散σ２^２から分散σ１（ｊ）^２を減じ、この減算により得られる誤差信号を判定部１１０７および重み付き誤差算出部１１０８に出力する。

判定部１１０７は、誤差信号の符号（正または負）を判定し、判定結果に基づいて、重み付き誤差算出部１１０８に与える重み（ウェイト）を決定する。判定部１１０７は、誤差信号の符号が正である場合にはｗ_ｐｏｓを、負である場合にはｗ_ｎｅｇを重みとして選択し、重み付き誤差算出部１１０８に出力する。ｗ_ｐｏｓとｗ_ｎｅｇとの間には式（１６）に示す大小関係がある。

重み付き誤差算出部１１０８は、まず、減算部１１０６から入力される誤差信号の２乗値を算出し、次に、判定部１１０７から入力される重みｗ（ｗ_ｐｏｓまたはｗ_ｎｅｇ）を誤差信号の２乗値に乗じて重み付き２乗誤差Ｅを算出し、探索部１１０９に出力する。重み付き２乗誤差Ｅは式（１７）のように表される。

探索部１１０９は、符号帳１１１１を制御して符号帳１１１１に格納されている符号化候補（変形情報）を順次変形スペクトル生成部１１０１に出力させ、重み付き２乗誤差Ｅが最小となる符号化候補（変形情報）を探索する。そして、探索部１１０９は、重み付き２乗誤差Ｅが最小となる符号化候補のインデックスｊ_ｏｐｔを最適変形情報として変形スペクトル生成部１１１０および多重化部１０８６に出力する。

変形スペクトル生成部１１１０は、復号スペクトルＳ１（ｋ）を変形して最適変形情報ｊ_ｏｐｔに対応する変形復号スペクトルＳ１'（ｊ_ｏｐｔ,ｋ）を生成し、内部状態設定部１０８１に出力する。

次いで、本実施の形態に係る音声復号化装置の第２レイヤ復号化部２０３について説明する。図２４に、本発明の実施の形態６に係る第２レイヤ復号化部２０３の構成を示す。図２４において、実施の形態１（図１０）と同一の構成部分には同一符号を付し、説明を省略する。

第２レイヤ復号化部２０３において、変形スペクトル生成部２０３６は、分離部２０３２から入力される最適変形情報ｊ_ｏｐｔに基づいて、第１レイヤ復号化部２０２から入力される第１レイヤ復号スペクトルＳ１（ｋ）を変形して変形復号スペクトルＳ１'（ｊ_ｏｐｔ,ｋ）を生成し、内部状態設定部２０３１に出力する。つまり、変形スペクトル生成部２０３６は、音声符号化装置側の変形スペクトル生成部１１１０に対応して備えられ、変形スペクトル生成部１１１０と同様の処理を行う。

上記のように、重み付き２乗誤差を算出するときの重みを誤差信号の符号に応じて決定し、かつ、その重みが式（１６）に示す関係がある場合、次のことが言える。

すなわち、誤差信号が正の場合とは、変形復号スペクトルＳ１'のばらつきの程度が目標値である残差スペクトルＳ２のばらつきの程度よりも小さくなる場合である。つまりこれは、音声復号化装置側で生成される変形復号スペクトルＳ１'のダイナミックレンジが残差スペクトルＳ２のダイナミックレンジよりも小さくなることに相当する。

一方、誤差信号が負の場合とは、変形復号スペクトルＳ１'のばらつきの程度が目標値である残差スペクトルＳ２のばらつきの程度よりも大きくなる場合である。つまりこれは、音声復号化装置側で生成される変形復号スペクトルＳ１'のダイナミックレンジが残差スペクトルＳ２のダイナミックレンジよりも大きくなることに相当する。

よって、式（１６）に示すように誤差信号が正の場合の重みｗ_ｐｏｓを誤差信号が負の
場合の重みｗ_ｎｅｇよりも小さく設定することにより、２乗誤差が同程度の値の場合、残差スペクトルＳ２のダイナミックレンジよりも小さいダイナミックレンジとなる変形復号スペクトルＳ１'を生成するような符号化候補が選択されやすくなる。つまり、ダイナミックレンジを抑える符号化候補が優先的に選択されるようになる。よって、音声復号化装置で生成される推定スペクトルのダイナミックレンジが残差スペクトルの高域部のダイナミックレンジよりも大きくなる頻度が減少する。

ここで、変形復号スペクトルＳ１'のダイナミックレンジが目標となるスペクトルのダイナミックレンジよりも大きくなると、音声復号化装置では推定スペクトルに過大なピークが出現し人間の耳に品質劣化として知覚されやすくなるのに対し、変形復号スペクトルＳ１'のダイナミックレンジが目標となるスペクトルのダイナミックレンジよりも小さくなると、音声復号化装置では推定スペクトルに上記のような過大なピークが発生しにくくなる。よって、本実施の形態によれば、低域部のスペクトルのダイナミックレンジを高域部のスペクトルのダイナミックレンジに合わせる技術を実施の形態１に適用する場合において、聴感的な音質の劣化を防止することができる。

なお、上記説明では、スペクトル変形方法として指数関数を用いたものを一例に挙げたが、これに限定されず、例えば対数関数を用いたスペクトル変形等、他のスペクトル変形方法を用いてもよい。

また、上記説明ではサブバンドの平均エネルギーの分散を用いる場合について説明したが、スペクトルのダイナミックレンジの大きさを表す指標でさえあれば、サブバンドの平均エネルギーの分散に限定されるものではない。

（実施の形態７）
図２５に、本発明の実施の形態７に係るスペクトル変形部１０８７の構成を示す。図２５において、実施の形態６（図２３）と同一の構成部分には同一符号を付し、説明を省略する。

図２５に示すスペクトル変形部１０８７において、ばらつき度算出部１１１２−１は、復号スペクトルＳ１（ｋ）の低域部の値の分布から復号スペクトルＳ１（ｋ）のばらつき度を算出し、閾値設定部１１１３−１,１１１３−２に出力する。ばらつき度とは、具体的には復号スペクトルＳ１（ｋ）の標準偏差σ１である。

閾値設定部１１１３−１は、標準偏差σ１を用いて第１閾値ＴＨ１を求めて平均スペクトル算出部１１１４−１および変形スペクトル生成部１１１０に出力する。ここで、第１閾値ＴＨ１とは、復号スペクトルＳ１（ｋ）のうち比較的振幅の大きなスペクトルを特定するための閾値であり、標準偏差σ１に所定の定数ａを乗じた値が使用される。

閾値設定部１１１３−２は、標準偏差σ１を用いて第２閾値ＴＨ２を求めて平均スペクトル算出部１１１４−２および変形スペクトル生成部１１１０に出力する。ここで、第２閾値ＴＨ２とは、復号スペクトルＳ１（ｋ）の低域部のうち比較的振幅の小さなスペクトルを特定するための閾値であり、標準偏差σ１に所定の定数ｂ（＜ａ）を乗じた値が使用される。

平均スペクトル算出部１１１４−１は、第１閾値ＴＨ１よりも振幅が大きいスペクトルの平均振幅値（以下、第１平均値という）を求め、変形ベクトル算出部１１１５に出力する。具体的には、平均スペクトル算出部１１１４−１は、復号スペクトルＳ１（ｋ）の低域部のスペクトルの値を、復号スペクトルＳ１（ｋ）の平均値ｍ１に第１閾値ＴＨ１を加えた値（ｍ１＋ＴＨ１）と比較し、この値よりも大きな値を有するスペクトルを特定する
（ステップ１）。次に、平均スペクトル算出部１１１４−１は、復号スペクトルＳ１（ｋ）の低域部のスペクトルの値を、復号スペクトルＳ１（ｋ）の平均値ｍ１から第１閾値ＴＨ１を減じた値（ｍ１−ＴＨ１）と比較し、この値よりも小さな値を有するスペクトルを特定する（ステップ２）。そして、平均スペクトル算出部１１１４−１は、ステップ１およびステップ２の双方で求まったスペクトルの振幅の平均値を求め、変形ベクトル算出部１１１５に出力する。

平均スペクトル算出部１１１４−２は、第２閾値ＴＨ２よりも振幅が小さいスペクトルの平均振幅値（以下、第２平均値という）を求め、変形ベクトル算出部１１１５に出力する。具体的には、平均スペクトル算出部１１１４−２は、復号スペクトルＳ１（ｋ）の低域部のスペクトルの値を、復号スペクトルＳ１（ｋ）の平均値ｍ１に第２閾値ＴＨ２を加えた値（ｍ１＋ＴＨ２）と比較し、この値よりも小さな値を有するスペクトルを特定する（ステップ１）。次に、平均スペクトル算出部１１１４−２は、復号スペクトルＳ１（ｋ）の低域部のスペクトルの値を、復号スペクトルＳ１（ｋ）の平均値ｍ１から第２閾値ＴＨ２を減じた値（ｍ１−ＴＨ２）と比較し、この値よりも大きな値を有するスペクトルを特定する（ステップ２）。そして、平均スペクトル算出部１１１４−２は、ステップ１およびステップ２の双方で求まったスペクトルの振幅の平均値を求め、変形ベクトル算出部１１１５に出力する。

一方、ばらつき度算出部１１１２−２は、残差スペクトルＳ２（ｋ）の高域部の値の分布から残差スペクトルＳ２（ｋ）のばらつき度を算出し、閾値設定部１１１３−３,１１１３−４に出力する。ばらつき度とは、具体的には残差スペクトルＳ２（ｋ）の標準偏差σ２である。

閾値設定部１１１３−３は、標準偏差σ２を用いて第３閾値ＴＨ３を求めて平均スペクトル算出部１１１４−３に出力する。ここで、第３閾値ＴＨ３とは、残差スペクトルＳ２（ｋ）の高域部のうち比較的振幅の大きなスペクトルを特定するための閾値であり、標準偏差σ２に所定の定数ｃを乗じた値が使用される。

閾値設定部１１１３−４は、標準偏差σ２を用いて第４閾値ＴＨ４を求めて平均スペクトル算出部１１１４−４に出力する。ここで、第４閾値ＴＨ４とは、残差スペクトルＳ２（ｋ）の高域部のうち比較的振幅の小さなスペクトルを特定するための閾値であり、標準偏差σ２に所定の定数ｄ（＜ｃ）を乗じた値が使用される。

平均スペクトル算出部１１１４−３は、第３閾値ＴＨ３よりも振幅が大きいスペクトルの平均振幅値（以下、第３平均値という）を求め、変形ベクトル算出部１１１５に出力する。具体的には、平均スペクトル算出部１１１４−３は、残差スペクトルＳ２（ｋ）の高域部のスペクトルの値を、残差スペクトルＳ２（ｋ）の平均値ｍ３に第３閾値ＴＨ３を加えた値（ｍ３＋ＴＨ３）と比較し、この値よりも大きな値を有するスペクトルを特定する（ステップ１）。次に、平均スペクトル算出部１１１４−３は、残差スペクトルＳ２（ｋ）の高域部のスペクトルの値を、残差スペクトルＳ２（ｋ）の平均値ｍ３から第３閾値ＴＨ３を減じた値（ｍ３−ＴＨ３）と比較し、この値よりも小さな値を有するスペクトルを特定する（ステップ２）。そして、平均スペクトル算出部１１１４−３は、ステップ１およびステップ２の双方で求まったスペクトルの振幅の平均値を求め、変形ベクトル算出部１１１５に出力する。

平均スペクトル算出部１１１４−４は、第４閾値ＴＨ４よりも振幅が小さいスペクトルの平均振幅値（以下、第４平均値という）を求め、変形ベクトル算出部１１１５に出力する。具体的には、平均スペクトル算出部１１１４−４は、残差スペクトルＳ２（ｋ）の高域部のスペクトルの値を、残差スペクトルＳ２（ｋ）の平均値ｍ３に第４閾値ＴＨ４を加
えた値（ｍ３＋ＴＨ４）と比較し、この値よりも小さな値を有するスペクトルを特定する（ステップ１）。次に、平均スペクトル算出部１１１４−４は、残差スペクトルＳ２（ｋ）の高域部のスペクトルの値を、残差スペクトルＳ２（ｋ）の平均値ｍ３から第４閾値ＴＨ４を減じた値（ｍ３−ＴＨ４）と比較し、この値よりも大きな値を有するスペクトルを特定する（ステップ２）。そして、平均スペクトル算出部１１１４−４は、ステップ１およびステップ２の双方で求まったスペクトルの振幅の平均値を求め、変形ベクトル算出部１１１５に出力する。

変形ベクトル算出部１１１５は、第１平均値、第２平均値、第３平均値および第４平均値を用いて、以下のようにして変形ベクトルを算出する。

すなわち、変形ベクトル算出部１１１５は、第３平均値と第１平均値との比（以下、第１ゲインという）、および、第４平均値と第２平均値との比（以下、第２ゲインという）を算出し、第１ゲインおよび第２ゲインを変形ベクトルとして減算部１１０６に出力する。以下、変形ベクトルをｇ（ｉ）（ｉ＝１,２）と表記する。つまり、ｇ（１）は第１ゲインを表し、ｇ（２）は第２ゲインを表す。

減算部１１０６は、変形ベクトルｇ（ｉ）から、変形ベクトル符号帳１１１６に属する符号化候補を減じ、この減算により得られる誤差信号を判定部１１０７および重み付き誤差算出部１１０８に出力する。以下、符号化候補をｖ（ｊ,ｉ）と表す。ここで、ｊは変形ベクトル符号帳１１１６の各符号化候補（各変形情報）を識別するためのインデックスである。

判定部１１０７は、誤差信号の符号（正または負）を判定し、判定結果に基づいて、重み付き誤差算出部１１０８に与える重み（ウェイト）を第１ゲインｇ（１），第２ゲインｇ（２）毎に決定する。判定部１１０７は、第１ゲインｇ（１）に対しては、誤差信号の符号が正である場合にはｗ_lightを、負である場合にはｗ_heavyを重みとして選択し、重み付き誤差算出部１１０８に出力する。一方、第２ゲインｇ（２）に対しては、判定部１１０７は、誤差信号の符号が正である場合にはｗ_heavyを、負である場合にはｗ_lightを重みとして選択し、重み付き誤差算出部１１０８に出力する。ｗ_lightとｗ_heavyとの間には式（１８）に示す大小関係がある。

重み付き誤差算出部１１０８は、まず、減算部１１０６から入力される誤差信号の２乗値を算出し、次に、誤差信号の２乗値と、第１ゲインｇ（１），第２ゲインｇ（２）毎に判定部１１０７から入力される重みｗ（ｗ_lightまたはｗ_heavy）との積和を求めて重み付き２乗誤差Ｅを算出し、探索部１１０９に出力する。重み付き２乗誤差Ｅは式（１９）のように表される。

探索部１１０９は、変形ベクトル符号帳１１１６を制御して変形ベクトル符号帳１１１６に格納されている符号化候補（変形情報）を順次減算部１１０６に出力させ、重み付き２乗誤差Ｅが最小となる符号化候補（変形情報）を探索する。そして、探索部１１０９は、重み付き２乗誤差Ｅが最小となる符号化候補のインデックスｊ_ｏｐｔを最適変形情報と
して変形スペクトル生成部１１１０および多重化部１０８６に出力する。

変形スペクトル生成部１１１０は、第１閾値ＴＨ１、第２閾値ＴＨ２および最適変形情報ｊ_ｏｐｔを用いて復号スペクトルＳ１（ｋ）を変形して最適変形情報ｊ_ｏｐｔに対応する変形復号スペクトルＳ１'（ｊ_ｏｐｔ,ｋ）を生成し、内部状態設定部１０８１に出力する。

変形スペクトル生成部１１１０は、まず、最適変形情報ｊ_ｏｐｔを用いて第３平均値と第１平均値との比の復号値（以下、復号第１ゲインという）、および、第４平均値と第２平均値との比の復号値（以下、復号第２ゲインという）を生成する。

次に、変形スペクトル生成部１１１０は、復号スペクトルＳ１（ｋ）の振幅値と第１閾値ＴＨ１とを比較し、第１閾値ＴＨ１よりも振幅が大きいスペクトルを特定し、これらのスペクトルに復号第１ゲインを乗じて変形復号スペクトルＳ１'（ｊ_ｏｐｔ,ｋ）を生成する。同様に、変形スペクトル生成部１１１０は、復号スペクトルＳ１（ｋ）の振幅値と第２閾値ＴＨ２とを比較し、第２閾値ＴＨ２よりも振幅が小さいスペクトルを特定し、これらのスペクトルに復号第２ゲインを乗じて変形復号スペクトルＳ１'（ｊ_ｏｐｔ,ｋ）を生成する。

なお、復号スペクトルＳ１（ｋ）のうち、第１閾値ＴＨ１と第２閾値ＴＨ２とに挟まれる領域に属するスペクトルに対しては、符号化情報が存在しない。そこで、変形スペクトル生成部１１１０は、復号第１ゲインと復号第２ゲインの中間的な値を有するゲインを使用する。例えば、変形スペクトル生成部１１１０は、復号第１ゲインと、復号第２ゲインと、第１閾値ＴＨ１と、第２閾値ＴＨ２とに基づく特性曲線から、ある振幅ｘに対応する復号ゲインｙを求め、このゲインを復号スペクトルＳ１（ｋ）の振幅に乗じる。すなわち、復号ゲインｙは、復号第１ゲインおよび復号第２ゲインの線形補間値となっている。

このようにして本実施の形態によれば、実施の形態６と同様の作用・効果を得ることができる。

（実施の形態８）
図２６に、本発明の実施の形態８に係るスペクトル変形部１０８７の構成を示す。図２６において、実施の形態６（図２３）と同一の構成部分には同一符号を付し、説明を省略する。

図２６に示すスペクトル変形部１０８７において、修正部１１１７には、分散算出部１１０５から分散σ２^２が入力される。

修正部１１１７は、分散σ２^２の値を小さくする修正処理を施して減算部１１０６に出力する。具体的には、修正部１１１７は、０以上１未満の値を分散σ２^２に乗じる。

減算部１１０６は、修正処理後の分散から分散σ１（ｊ）^２を減じ、この減算により得られる誤差信号を誤差算出部１１１８に出力する。

誤差算出部１１１８は、減算部１１０６から入力される誤差信号の２乗値（２乗誤差）を算出して、探索部１１０９に出力する。

探索部１１０９は、符号帳１１１１を制御して符号帳１１１１に格納されている符号化候補（変形情報）を順次変形スペクトル生成部１１０１に出力させ、２乗誤差が最小となる符号化候補（変形情報）を探索する。そして、探索部１１０９は、２乗誤差が最小とな
る符号化候補のインデックスｊ_ｏｐｔを最適変形情報として変形スペクトル生成部１１１０および多重化部１０８６に出力する。

このように、本実施の形態によれば、修正部１１１７での修正処理により、探索部１１０９では、修正処理後の分散、すなわち、値が小さくなった分散を目標値とした符号化候補の探索が行われるようになる。よって、音声復号化装置では、推定スペクトルのダイナミックレンジが抑えられるようになるため、上記のような過大なピークの発生頻度をさらに減少することができる。

なお、修正部１１１７では、入力音声信号の特性に応じて分散σ２^２に乗じる値を変化させてもよい。その特性としては、入力音声信号のピッチ周期性の強さを用いるのが適当である。つまり、修正部１１１７は、入力音声信号のピッチ周期性が弱い場合（例えば、ピッチゲインが小さい場合）には分散σ２^２に乗じる値を大きな値にし、入力音声信号のピッチ周期性が強い場合（例えば、ピッチゲインが大きい場合）には分散σ２^２に乗じる値を小さな値にしてもよい。このような適応化により、ピッチ周期性の強い信号（例えば母音部）に対してのみ過大なスペクトルピークが生じにくくなり、その結果、聴感的な音質を改善することができる。

（実施の形態９）
図２７に、本発明の実施の形態９に係るスペクトル変形部１０８７の構成を示す。図２７において、実施の形態７（図２５）と同一の構成部分には同一符号を付し、説明を省略する。

図２７に示すスペクトル変形部１０８７において、修正部１１１７には、変形ベクトル算出部１１１５から変形ベクトルｇ（ｉ）が入力される。

修正部１１１７は、第１ゲインｇ（１）の値を小さくする修正処理および第２ゲインｇ（２）の値を大きくする修正処理の少なくとも一方を施して減算部１１０６に出力する。具体的には、修正部１１１７は、０以上１未満の値を第１ゲインｇ（１）に乗じ、１より大きい値を第２ゲインｇ（２）に乗じる。

減算部１１０６は、修正処理後の変形ベクトルから、変形ベクトル符号帳１１１６に属する符号化候補を減じ、この減算により得られる誤差信号を誤差算出部１１１８に出力する。

探索部１１０９は、変形ベクトル符号帳１１１６を制御して変形ベクトル符号帳１１１６に格納されている符号化候補（変形情報）を順次減算部１１０６に出力させ、２乗誤差が最小となる符号化候補（変形情報）を探索する。そして、探索部１１０９は、２乗誤差が最小となる符号化候補のインデックスｊ_ｏｐｔを最適変形情報として変形スペクトル生成部１１１０および多重化部１０８６に出力する。

このように、本実施の形態によれば、修正部１１１７での修正処理により、探索部１１０９では、修正処理後の変形ベクトル、すなわち、ダイナミックレンジを小さくさせる変形ベクトルを目標値とした符号化候補の探索が行われるようになる。よって、音声復号化装置では、推定スペクトルのダイナミックレンジが抑えられるようになるため、上記のような過大なピークの発生頻度をさらに減少することができる。

なお、本実施の形態においても実施の形態８同様、修正部１１１７では、入力音声信号の特性に応じて変形ベクトルｇ（ｉ）に乗じる値を変化させてもよい。このような適応化により、実施の形態８同様、ピッチ周期性の強い信号（例えば母音部）に対してのみ過大なスペクトルピークが生じにくくなり、その結果、聴感的な音質を改善することができる。

（実施の形態１０）
図２８に、本発明の実施の形態１０に係る第２レイヤ符号化部１０８の構成を示す。図２８において、実施の形態６（図２２）と同一の構成部分には同一符号を付し、説明を省略する。

図２８に示す第２レイヤ符号化部１０８において、スペクトル変形部１０８８には、周波数領域変換部１０５から残差スペクトルＳ２（ｋ）が入力され、探索部１０８３から残差スペクトルの推定値（推定残差スペクトル）Ｓ２'（ｋ）が入力される。

スペクトル変形部１０８８は、残差スペクトルＳ２（ｋ）の高域部のダイナミックレンジを参照して、推定残差スペクトルＳ２'（ｋ）を変形させて推定残差スペクトルＳ２'（ｋ）のダイナミックレンジを変化させる。そして、スペクトル変形部１０８８は、推定残差スペクトルＳ２'（ｋ）をどのように変形したかを表す変形情報を符号化して多重化部１０８６に出力する。また、スペクトル変形部１０８８は、変形後の推定残差スペクトル（変形残差スペクトル）をゲイン符号化部１０８５に出力する。なお、スペクトル変形部１０８８の内部構成は、スペクトル変形部１０８７と同一であるため、詳しい説明は省略する。

ゲイン符号化部１０８５での処理は、実施の形態１における「残差スペクトルの推定値Ｓ２'（ｋ）」を「変形残差スペクトル」と読み替えたものになるため、詳しい説明は省略する。

次いで、本実施の形態に係る音声復号化装置の第２レイヤ復号化部２０３について説明する。図２９に、本発明の実施の形態１０に係る第２レイヤ復号化部２０３の構成を示す。図２９において、実施の形態６（図２４）と同一の構成部分には同一符号を付し、説明を省略する。

第２レイヤ復号化部２０３において、変形スペクトル生成部２０３７は、分離部２０３２から入力される最適変形情報ｊ_ｏｐｔ、すなわち、変形残差スペクトルに関する最適変形情報ｊ_ｏｐｔに基づいて、フィルタリング部２０３３から入力される復号スペクトルＳ'（ｋ）を変形してスペクトル調整部２０３５に出力する。つまり、変形スペクトル生成部２０３７は、音声符号化装置側のスペクトル変形部１０８８に対応して備えられ、スペクトル変形部１０８８と同様の処理を行う。

このように、本実施の形態によれば、復号スペクトルＳ１（ｋ）のみならず推定残差スペクトルＳ２'（ｋ）も変形させるため、より適切なダイナミックレンジを有する推定残差スペクトルを生成することができる。

（実施の形態１１）
図３０に、本発明の実施の形態１１に係る第２レイヤ符号化部１０８の構成を示す。図３０において、実施の形態６（図２２）と同一の構成部分には同一符号を付し、説明を省略する。

図３０に示す第２レイヤ符号化部１０８において、スペクトル変形部１０８７は、音声
復号化装置と共有の所定の変形情報に従って復号スペクトルＳ１（ｋ）を変形させて復号スペクトルＳ１（ｋ）のダイナミックレンジを変化させる。そして、スペクトル変形部１０８７は、変形復号スペクトルＳ１'（ｊ,ｋ）を内部状態設定部１０８１に出力する。

次いで、本実施の形態に係る音声復号化装置の第２レイヤ復号化部２０３について説明する。図３１に、本発明の実施の形態１１に係る第２レイヤ復号化部２０３の構成を示す。図３１において、実施の形態６（図２４）と同一の構成部分には同一符号を付し、説明を省略する。

第２レイヤ復号化部２０３において、変形スペクトル生成部２０３６は、音声符号化装置と共有の所定の変形情報、すなわち、図３０のスペクトル変形部１０８７が使用した所定の変形情報と同一の変形情報に従って、第１レイヤ復号化部２０２から入力される第１レイヤ復号スペクトルＳ１（ｋ）を変形して内部状態設定部２０３１に出力する。

このように、本実施の形態によれば、音声符号化装置のスペクトル変形部１０８７と音声復号化装置の変形スペクトル生成部２０３６とが予め定められた同一の変形情報に従って変形処理を行うため、音声符号化装置から音声復号化装置への変形情報の送信が不要となる。よって、本実施の形態によれば、実施の形態６に比べ、ビットレートを低減させることができる。

なお、図２８に示すスペクトル変形部１０８８と図２９に示す変形スペクトル生成部２０３７とが予め定められた同一の変形情報に従って変形処理を行ってもよい。これにより、ビットレートをさらに低減させることができる。

（実施の形態１２）
実施の形態１０における第２レイヤ符号化部１０８が、スペクトル変形部１０８７を有しない構成を採ることも可能である。そこで、実施の形態１２として、この場合の第２レイヤ符号化部１０８の構成を図３２に示す。

また、第２レイヤ符号化部１０８がスペクトル変形部１０８７を有しない場合、音声復号化装置においても、スペクトル変形部１０８７に対応する変形スペクトル生成部２０３６が不要となる。そこで、実施の形態１２として、この場合の第２レイヤ復号化部２０３の構成を図３３に示す。

以上、本発明の実施の形態について説明した。

なお、実施の形態６〜１２に係る第２レイヤ符号化部１０８は、実施の形態２（図１１）、実施の形態３（図１３）、実施の形態４（図１５）、実施の形態５（図１７,１５,１６）においても用いることができる。ただし、実施の形態４、５（図１５,１３,１５,１６）では、第１レイヤ復号信号をアップサンプリングした後に周波数領域変換を施しているため、第１レイヤ復号スペクトルＳ１（ｋ）の周波数帯域は０≦ｋ＜ＦＨとなる。しかし、単にアップサンプリングした後に周波数領域への変換を行っているため、帯域ＦＬ≦ｋ＜ＦＨには有効な信号成分が含まれていない。よって、これらの実施形態においても、第１レイヤ復号スペクトルＳ１（ｋ）の帯域を０≦ｋ＜ＦＬとして扱うことができる。

また、実施の形態６〜１２に係る第２レイヤ符号化部１０８は、実施の形態２〜５に記載した音声符号化装置以外の音声符号化装置の第２レイヤにおける符号化にも用いることができる。

また、上記実施の形態においては、第２レイヤ符号化部１０８内において多重化部１０
８６でピッチ係数やインデックス等を多重化して第２レイヤ符号化データとして出力した後、多重化部１０９で第１レイヤ符号化データ、第２レイヤ符号化データおよびＬＰＣ係数符号化データを多重化してビットストリームを生成しているが、これに限定されず、第２レイヤ符号化部１０８内に多重化部１０８６を設けずに、ピッチ係数やインデックス等を多重化部１０９へ直接入力して第１レイヤ符号化データ等との多重化を行なってもよい。また、第２レイヤ復号化部２０３に関しても、分離部２０１でビットストリームから一旦分離されて生成された第２レイヤ符号化データを第２レイヤ復号化部２０３内の分離部２０３２へ入力し、分離部２０３２でさらにピッチ係数やインデックス等に分離しているが、これに限定されず、第２レイヤ復号化部２０３内に分離部２０３２を設けずに、分離部２０１で直接ビットストリームをピッチ係数やインデックス等に分離して第２レイヤ復号化部２０３へ入力してもよい。

また、上記実施の形態においてはスケーラブル符号化の階層数が２である場合を例に挙げて説明したが、これに限定されず、本発明は３以上の階層を持つスケーラブル符号化にも適用することができる。

また、上記実施の形態においては第２レイヤにおける変換符号化の方式としてＭＤＣＴを用いる場合を例に挙げて説明したが、これに限定されず、本発明では、ＦＦＴ、ＤＦＴ、ＤＣＴ、フィルタバンク、Ｗａｖｅｌｅｔ変換等、他の変換符号化方式を用いることもできる。

また、上記実施の形態においては入力信号が音声信号である場合を例に挙げて説明したが、これに限定されず、本発明はオーディオ信号にも適用することができる。

また、上記実施の形態に係る音声符号化装置や音声復号化装置を移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置に備えて、移動体通信における音声品質の劣化を防ぐことができる。また、無線通信移動局装置はUE、無線通信基地局装置はNode Bと表されることがある。

また、上記実施の形態では、本発明をハードウェアで構成する場合を例にとって説明したが、本発明はソフトウェアで実現することも可能である。

また、上記実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されてもよいし、一部または全てを含むように１チップ化されてもよい。ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路または汎用プロセッサで実現してもよい。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用してもよい。

さらには、半導体技術の進歩または派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。

本明細書は、２００５年９月３０日出願の特願２００５−２８６５３３及び２００６年７月２１日出願の特願２００６−１９９６１６に基づく。この内容はすべてここに含めておく。

本発明は、移動体通信システムにおいて使用される無線通信移動局装置や無線通信基地局装置等の用途に適用することができる。

音声信号のスペクトル（従来）を示す図スペクトル包絡（従来）を示す図スペクトル微細構造（従来）を示す図低域部のスペクトルを高域部に複数回複製した場合のスペクトル（従来）を示す図本発明の動作原理の説明図（低域部の復号スペクトル）本発明の動作原理の説明図（逆フィルタ通過後のスペクトル）本発明の動作原理の説明図（高域部の符号化）本発明の動作原理の説明図（復号信号のスペクトル）本発明の実施の形態１に係る音声符号化装置のブロック構成図上記音声符号化装置の第２レイヤ符号化部のブロック構成図本発明の実施の形態１に係るフィルタリング部の動作説明図本発明の実施の形態１に係る音声復号化装置のブロック構成図上記音声復号化装置の第２レイヤ復号化部のブロック構成図本発明の実施の形態２に係る音声符号化装置のブロック構成図本発明の実施の形態２に係る音声復号化装置のブロック構成図本発明の実施の形態３に係る音声符号化装置のブロック構成図本発明の実施の形態３に係る音声復号化装置のブロック構成図本発明の実施の形態４に係る音声符号化装置のブロック構成図本発明の実施の形態４に係る音声復号化装置のブロック構成図本発明の実施の形態５に係る音声符号化装置のブロック構成図本発明の実施の形態５に係る音声復号化装置のブロック構成図本発明の実施の形態５に係る音声符号化装置のブロック構成図（変形例１）本発明の実施の形態５に係る音声符号化装置のブロック構成図（変形例２）本発明の実施の形態５に係る音声復号化装置のブロック構成図（変形例１）本発明の実施の形態６に係る第２レイヤ符号化部のブロック構成図本発明の実施の形態６に係るスペクトル変形部のブロック構成図本発明の実施の形態６に係る第２レイヤ復号化部のブロック構成図本発明の実施の形態７に係るスペクトル変形部のブロック構成図本発明の実施の形態８に係るスペクトル変形部のブロック構成図本発明の実施の形態９に係るスペクトル変形部のブロック構成図本発明の実施の形態１０に係る第２レイヤ符号化部のブロック構成図本発明の実施の形態１０に係る第２レイヤ復号化部のブロック構成図本発明の実施の形態１１に係る第２レイヤ符号化部のブロック構成図本発明の実施の形態１１に係る第２レイヤ復号化部のブロック構成図本発明の実施の形態１２に係る第２レイヤ符号化部のブロック構成図本発明の実施の形態１２に係る第２レイヤ復号化部のブロック構成図

Claims

音声信号の線形予測符号化（LPC）分析を行って、前記音声信号のLPC係数を算出する分析手段と、
前記LPC係数の量子化を行って、LPC係数の符号化データを出力する量子化手段と、
前記LPC係数を用いて前記音声信号のスペクトル包絡と逆の特性を持つ逆フィルタを構成し、前記逆フィルタを用いて前記音声信号のスペクトルを平坦化する平坦化手段と、
平坦化された前記音声信号のスペクトルの閾値周波数より低い帯域である低域部のスペクトルを符号化する第１符号化手段と、
平坦化された前記低域部のスペクトルを複製することにより、前記音声信号の前記閾値周波数より高い帯域であり、平坦化された高域部のスペクトルを符号化する第２符号化手段と、
を具備し、
前記第２符号化手段は、
平坦化された前記低域部のスペクトルを用いて、平坦化された前記音声信号のスペクトルの高域部と最も類似する低域部の帯域を示すピッチ係数を特定する、
音声符号化装置。
前記平坦化手段は、前記音声信号のＬＰＣ係数を用いて前記逆フィルタを構成する、
請求項１記載の音声符号化装置。
前記平坦化手段は、前記音声信号の共振の程度に応じて平坦化の程度を変化させる、
請求項１記載の音声符号化装置。
前記平坦化手段は、前記共振が強いほど前記平坦化の程度を弱める、
請求項３記載の音声符号化装置。
前記第２符号化手段は、前記平坦化された低域部のスペクトルを変形させ、変形後の低域部のスペクトルを用いて前記高域部のスペクトルを符号化する、
請求項１記載の音声符号化装置。
前記第２符号化手段は、前記平坦化された低域部のスペクトルのダイナミックレンジを前記高域部のスペクトルのダイナミックレンジに近づける変形を前記平坦化された低域部のスペクトルに施す、
請求項５記載の音声符号化装置。
前記第２符号化手段は、複数の符号化候補においてダイナミックレンジを大きくする符号化候補よりダイナミックレンジを小さくする符号化候補を優先して用いて、前記平坦化された低域部のスペクトルを変形させる、
請求項６記載の音声符号化装置。
前記第２符号化手段は、符号化候補探索用の目標値を小さくする修正を行い、その修正後の目標値に基づいて、前記平坦化された低域部のスペクトルの変形に用いる符号化候補を前記複数の符号化候補に対して探索する、
請求項７記載の音声符号化装置。
前記第２符号化手段は、前記変形後の低域部のスペクトルから前記高域部のスペクトルを推定し、推定した高域部のスペクトルを変形させ、変形後の高域部のスペクトルを用いて前記音声信号の高域部のスペクトルを符号化する、
請求項５記載の音声符号化装置。
前記第２符号化手段は、前記平坦化された低域部のスペクトルから前記高域部のスペクトルを推定し、推定した高域部のスペクトルを変形させ、変形後の高域部のスペクトルを用いて前記音声信号の高域部のスペクトルを符号化する、
請求項１記載の音声符号化装置。
請求項１記載の音声符号化装置を備える無線通信移動局装置。
請求項１記載の音声符号化装置を備える無線通信基地局装置。
音声信号の線形予測符号化（LPC）分析を行って、前記音声信号のLPC係数を算出する分析工程と、
前記LPC係数の量子化を行って、LPC係数の符号化データを出力する量子化工程と、
前記LPC係数を用いて前記音声信号のスペクトル包絡と逆の特性を持つ逆フィルタを構成し、前記逆フィルタを用いて前記音声信号のスペクトルを平坦化する平坦化工程と、
平坦化された前記音声信号のスペクトルの閾値周波数より低い帯域である低域部のスペクトルを符号化する第１符号化工程と、
平坦化された前記低域部のスペクトルを複製することにより、前記音声信号の前記閾値周波数より高い帯域であり、平坦化された高域部のスペクトルを符号化する第２符号化工程と、
を具備し、
前記第２符号化工程では、
平坦化された前記低域部のスペクトルを用いて、平坦化された前記音声信号のスペクトルの高域部と最も類似する低域部の帯域を示すピッチ係数を特定する、
音声符号化方法。