JP5588547B2

JP5588547B2 - 音声復号装置、音声復号方法、及び音声復号プログラム

Info

Publication number: JP5588547B2
Application number: JP2013146360A
Authority: JP
Inventors: 孝輔辻野; 圭菊入; 信彦仲
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2009-04-03
Filing date: 2013-07-12
Publication date: 2014-09-10
Anticipated expiration: 2030-01-12
Also published as: JP4921611B2; JP5320475B2; JP2013225152A; JP2012093794A; JP2012053493A

Description

本発明は、音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、音声符号化プログラム及び音声復号プログラムに関する。

聴覚心理を利用して人間の知覚に不必要な情報を取り除くことにより信号のデータ量を数十分の一に圧縮する音声音響符号化技術は、信号の伝送・蓄積において極めて重要な技術である。広く利用されている知覚的オーディオ符号化技術の例として、“ISO/IECMPEG”で標準化された“MPEG4AAC”などを挙げることができる。

音声符号化の性能をさらに向上させ、低いビットレートで高い音声品質を得る方法として、音声の低周波成分を用いて高周波成分を生成する帯域拡張技術が近年広く用いられるようになった。帯域拡張技術の代表的な例は“MPEG4AAC”で利用されるＳＢＲ（Spectral Band Replication）技術である。ＳＢＲでは、ＱＭＦ（QuadratureMirror Filter）フィルタバンクによって周波数領域に変換された信号に対し、低周波帯域から高周波帯域へのスペクトル係数の複写を行うことにより高周波成分を生成した後、複写された係数のスペクトル包絡とトーナリティを調整することによって高周波成分の調整を行う。帯域拡張技術を利用した音声符号化方式は、信号の高周波成分を少量の補助情報のみを用いて再生することができるため、音声符号化の低ビットレート化のために有効である。

ＳＢＲに代表される周波数領域での帯域拡張技術は、周波数領域で表現されたスペクトル係数に対してスペクトル包絡とトーナリティの調整を、スペクトル係数に対するゲインの調整、時間方向の線形予測逆フィルタ処理、ノイズの重畳によって行う。この調整処理により、スピーチ信号や拍手、カスタネットのような時間エンベロープの変化の大きい信号を符号化した際には復号信号においてプリエコー又はポストエコーと呼ばれる残響状の雑音が知覚される場合がある。この問題は、調整処理の過程で高周波成分の時間エンベロープが変形し、多くの場合は調整前より平坦な形状になることに起因する。調整処理により平坦になった高周波成分の時間エンベロープは符号前の原信号における高周波成分の時間エンベロープと一致せず、プリエコー・ポストエコーの原因となる。

同様のプリエコー・ポストエコーの問題は、“MPEG Surround”およびパラメトリックステレオに代表される、パラメトリック処理を用いたマルチチャネル音響符号化においても発生する。マルチチャネル音響符号化における復号器は復号信号に残響フィルタによる無相関化処理を施す手段を含むが、無相関化処理の過程において信号の時間エンベロープが変形し、プリエコー・ポストエコーと同様の再生信号の劣化が生じる。この課題に対する解決法として、ＴＥＳ（Temporal Envelope Shaping）技術が存在する（特許文献１）。ＴＥＳ技術では、ＱＭＦ領域で表現された無相関化処理前の信号に対し周波数方向に線形予測分析を行い、線形予測係数を得た後、得られた線形予測係数を用いて無相関化処理後の信号に対し周波数方向に線形予測合成フィルタ処理を行う。この処理により、ＴＥＳ技術は無相関化処理前の信号の持つ時間エンベロープを抽出し、それに合わせて無相関化処理後の信号の時間エンベロープを調整する。無相関化処理前の信号は歪の少ない時間エンベロープを持つため、以上の処理により、無相関化処理後の信号の時間エンベロープを歪の少ない形状に調整し、プリエコー・ポストエコーの改善された再生信号を得ることができる。

米国特許出願公開第２００６／０２３９４７３号明細書

以上に示したＴＥＳ技術は、無相関化処理前の信号が歪の少ない時間エンベロープを持つことを利用したものである。しかし、ＳＢＲ復号器では信号の高周波成分を低周波成分からの信号複写によって複製するため、高周波成分に関する歪の少ない時間エンベロープを得ることができない。この問題に対する解決法の一つとして、ＳＢＲ符号器において入力信号の高周波成分を分析し、分析の結果得られた線形予測係数を量子化し、ビットストリームに多重化して伝送する方法が考えられる。これにより、ＳＢＲ復号器において高周波成分の時間エンベロープに関する歪の少ない情報を含む線形予測係数を得ることができる。しかし、この場合、量子化された線形予測係数の伝送に多くの情報量が必要となり、符号化ビットストリーム全体のビットレートが著しく増大してしまうという問題を伴う。そこで、本発明の目的は、ＳＢＲに代表される周波数領域での帯域拡張技術において、ビットレートを著しく増大させることなく、発生するプリエコー・ポストエコーを軽減し復号信号の主観的品質を向上させることである。

本発明の音声符号化装置は、音声信号を符号化する音声符号化装置であって、前記音声信号の低周波成分を符号化するコア符号化手段と、前記音声信号の低周波成分の時間エンベロープを用いて、前記音声信号の高周波成分の時間エンベロープの近似を得るための時間エンベロープ補助情報を算出する時間エンベロープ補助情報算出手段と、少なくとも、前記コア符号化手段によって符号化された前記低周波成分と、前記時間エンベロープ補助情報算出手段によって算出された前記時間エンベロープ補助情報とが多重化されたビットストリームを生成するビットストリーム多重化手段と、を備える、ことを特徴とする。

本発明の音声符号化装置では、前記時間エンベロープ補助情報は、所定の解析区間内において前記音声信号の高周波成分における時間エンベロープの変化の急峻さを示すパラメータを表すのが好ましい。

本発明の音声符号化装置では、前記音声信号を周波数領域に変換する周波数変換手段を更に備え、前記時間エンベロープ補助情報算出手段は、前記周波数変換手段によって周波数領域に変換された前記音声信号の高周波側係数に対し周波数方向に線形予測分析を行って取得された高周波線形予測係数に基づいて、前記時間エンベロープ補助情報を算出するのが好ましい。

本発明の音声符号化装置では、前記時間エンベロープ補助情報算出手段は、前記周波数変換手段によって周波数領域に変換された前記音声信号の低周波側係数に対し周波数方向に線形予測分析を行って低周波線形予測係数を取得し、該低周波線形予測係数と前記高周波線形予測係数とに基づいて前記時間エンベロープ補助情報を算出するのが好ましい。

本発明の音声符号化装置では、前記時間エンベロープ補助情報算出手段は、前記低周波線形予測係数及び前記高周波線形予測係数のそれぞれから予測ゲインを取得し、当該二つの予測ゲインの大小に基づいて前記時間エンベロープ補助情報を算出するのが好ましい。

本発明の音声符号化装置では、前記時間エンベロープ補助情報算出手段は、前記音声信号から高周波成分を分離し、時間領域で表現された時間エンベロープ情報を当該高周波成分から取得し、当該時間エンベロープ情報の時間的変化の大きさに基づいて前記時間エンベロープ補助情報を算出するのが好ましい。

本発明の音声符号化装置では、前記時間エンベロープ補助情報は、前記音声信号の低周波成分に対し周波数方向への線形予測分析を行って得られる低周波線形予測係数を用いて高周波線形予測係数を取得するための差分情報を含むのが好ましい。

本発明の音声符号化装置では、前記音声信号を周波数領域に変換する周波数変換手段を更に備え、前記時間エンベロープ補助情報算出手段は、前記周波数変換手段によって周波数領域に変換された前記音声信号の低周波成分及び高周波側係数のそれぞれに対し周波数方向に線形予測分析を行って低周波線形予測係数と高周波線形予測係数とを取得し、当該低周波線形予測係数及び高周波線形予測係数の差分を取得することによって前記差分情報を取得するのが好ましい。

本発明の音声符号化装置では、前記差分情報は、ＬＳＰ（Linear SpectrumPair）、ＩＳＰ（Immittance Spectrum Pair）、ＬＳＦ（Linear Spectrum Frequency）、ＩＳＦ（ImmittanceSpectrum Frequency）、ＰＡＲＣＯＲ係数のいずれかの領域における線形予測係数の差分を表すのが好ましい。

本発明の音声符号化装置は、音声信号を符号化する音声符号化装置であって、前記音声信号の低周波成分を符号化するコア符号化手段と、前記音声信号を周波数領域に変換する周波数変換手段と、前記周波数変換手段によって周波数領域に変換された前記音声信号の高周波側係数に対し周波数方向に線形予測分析を行って高周波線形予測係数を取得する線形予測分析手段と、前記線形予測分析手段によって取得された前記高周波線形予測係数を時間方向に間引く予測係数間引き手段と、前記予測係数間引き手段によって間引きされた後の前記高周波線形予測係数を量子化する予測係数量子化手段と、少なくとも前記コア符号化手段による符号化後の前記低周波成分と前記予測係数量子化手段による量子化後の前記高周波線形予測係数とが多重化されたビットストリームを生成するビットストリーム多重化手段と、を備える、ことを特徴とする。

本発明の音声復号装置は、符号化された音声信号を復号する音声復号装置であって、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段と、前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段と、前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段と、前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を、前記時間エンベロープ補助情報を用いて調整する時間エンベロープ調整手段と、前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を用いて、前記高周波生成手段によって生成された前記高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、を備えることを特徴とする。

本発明の音声復号装置では、前記高周波成分を調整する高周波調整手段を更に備え、前記周波数変換手段は、実数又は複素数の係数を持つ６４分割ＱＭＦフィルタバンクであり、前記周波数変換手段、前記高周波生成手段、前記高周波調整手段は“ISO/IEC14496-3”に規定される“MPEG4AAC”におけるＳＢＲ復号器（ＳＢＲ：Spectral Band Replication）に準拠した動作をするのが好ましい。

本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分に周波数方向の線形予測分析を行って低周波線形予測係数を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記低周波線形予測係数を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の前記高周波成分に対し前記時間エンベロープ調整手段によって調整された線形予測係数を用いて周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形するのが好ましい。

本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分の時間スロットごとの電力を取得することによって音声信号の時間エンベロープ情報を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記時間エンベロープ情報を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の高周波成分に前記調整後の時間エンベロープ情報を重畳することにより高周波成分の時間エンベロープを変形するのが好ましい。

本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分のＱＭＦサブバンドサンプルごとの電力を取得することによって音声信号の時間エンベロープ情報を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記時間エンベロープ情報を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の高周波成分に前記調整後の時間エンベロープ情報を乗算することにより高周波成分の時間エンベロープを変形するのが好ましい。

本発明の音声復号装置では、前記時間エンベロープ補助情報は、線形予測係数の強度の調整に用いるためのフィルタ強度パラメータを表すのが好ましい。

本発明の音声復号装置では、前記時間エンベロープ補助情報は、前記時間エンベロープ情報の時間変化の大きさを示すパラメータを表すのが好ましい。

本発明の音声復号装置では、前記時間エンベロープ補助情報は、前記低周波線形予測係数に対する線形予測係数の差分情報を含むのが好ましい。

本発明の音声復号装置では、前記差分情報は、ＬＳＰ（Linear SpectrumPair）、ＩＳＰ（Immittance Spectrum Pair）、ＬＳＦ（Linear Spectrum Frequency）、ＩＳＦ（ImmittanceSpectrum Frequency）、ＰＡＲＣＯＲ係数のいずれかの領域における線形予測係数の差分を表すのが好ましい。

本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分に対し周波数方向の線形予測分析を行って前記低周波線形予測係数を取得するとともに、当該周波数領域の前記低周波成分の時間スロットごとの電力を取得することによって音声信号の時間エンベロープ情報を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記低周波線形予測係数を調整するとともに前記時間エンベロープ補助情報を用いて前記時間エンベロープ情報を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の高周波成分に対し前記時間エンベロープ調整手段によって調整された線形予測係数を用いて周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形するとともに当該周波数領域の前記高周波成分に前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を重畳することにより前記高周波成分の時間エンベロープを変形するのが好ましい。

本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分に対し周波数方向の線形予測分析を行って前記低周波線形予測係数を取得するとともに、当該周波数領域の前記低周波成分のＱＭＦサブバンドサンプルごとの電力を取得することによって音声信号の時間エンベロープ情報を取得し、前記時間エンベロープ調整手段は、前記時間エンベロープ補助情報を用いて前記低周波線形予測係数を調整するとともに前記時間エンベロープ補助情報を用いて前記時間エンベロープ情報を調整し、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の高周波成分に対し前記時間エンベロープ調整手段による調整後の線形予測係数を用いて周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形するとともに当該周波数領域の前記高周波成分に前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を乗算することにより前記高周波成分の時間エンベロープを変形するのが好ましい。

本発明の音声復号装置では、前記時間エンベロープ補助情報は、線形予測係数のフィルタ強度と、前記時間エンベロープ情報の時間変化の大きさとの両方を示すパラメータを表すのが好ましい。

本発明の音声復号装置は、符号化された音声信号を復号する音声復号装置であって、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと線形予測係数とに分離するビットストリーム分離手段と、前記線形予測係数を時間方向に補間又は補外する線形予測係数補間・補外手段と、前記線形予測係数補間・補外手段によって補間又は補外された線形予測係数を用いて周波数領域で表現された高周波成分に周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形する時間エンベロープ変形手段と、を備える、ことを特徴とする。

本発明の音声符号化方法は、音声信号を符号化する音声符号化装置を用いた音声符号化方法であって、前記音声符号化装置が、前記音声信号の低周波成分を符号化するコア符号化ステップと、前記音声符号化装置が、前記音声信号の低周波成分の時間エンベロープを用いて、前記音声信号の高周波成分の時間エンベロープの近似を得るための時間エンベロープ補助情報を算出する時間エンベロープ補助情報算出ステップと、前記音声符号化装置が、少なくとも、前記コア符号化ステップにおいて符号化した前記低周波成分と、前記時間エンベロープ補助情報算出ステップにおいて算出した前記時間エンベロープ補助情報とが多重化されたビットストリームを生成するビットストリーム多重化ステップと、を備える、ことを特徴とする。

本発明の音声符号化方法は、音声信号を符号化する音声符号化装置を用いた音声符号化方法であって、前記音声符号化装置が、前記音声信号の低周波成分を符号化するコア符号化ステップと、前記音声符号化装置が、前記音声信号を周波数領域に変換する周波数変換ステップと、前記音声符号化装置が、前記周波数変換ステップにおいて周波数領域に変換した前記音声信号の高周波側係数に対し周波数方向に線形予測分析を行って高周波線形予測係数を取得する線形予測分析ステップと、前記音声符号化装置が、前記線形予測分析ステップにおいて取得した前記高周波線形予測係数を時間方向に間引く予測係数間引きステップと、前記音声符号化装置が、前記予測係数間引きステップにおける間引き後の前記高周波線形予測係数を量子化する予測係数量子化ステップと、前記音声符号化装置が、少なくとも前記コア符号化ステップにおける符号化後の前記低周波成分と前記予測係数量子化ステップにおける量子化後の前記高周波線形予測係数とが多重化されたビットストリームを生成するビットストリーム多重化ステップと、を備える、ことを特徴とする。

本発明の音声復号方法は、符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離ステップと、前記音声復号装置が、前記ビットストリーム分離ステップにおいて分離した前記符号化ビットストリームを復号して低周波成分を得るコア復号ステップと、前記音声復号装置が、前記コア復号ステップにおいて得た前記低周波成分を周波数領域に変換する周波数変換ステップと、前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成ステップと、前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析ステップと、前記音声復号装置が、前記低周波時間エンベロープ分析ステップにおいて取得した前記時間エンベロープ情報を、前記時間エンベロープ補助情報を用いて調整する時間エンベロープ調整ステップと、前記音声復号装置が、前記時間エンベロープ調整ステップにおける調整後の前記時間エンベロープ情報を用いて、前記高周波生成ステップにおいて生成した前記高周波成分の時間エンベロープを変形する時間エンベロープ変形ステップと、を備えることを特徴とする。

本発明の音声復号方法は、符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと線形予測係数とに分離するビットストリーム分離ステップと、前記音声復号装置が、前記線形予測係数を時間方向に補間又は補外する線形予測係数補間・補外ステップと、前記音声復号装置が、前記線形予測係数補間・補外ステップにおいて補間又は補外した前記線形予測係数を用いて、周波数領域で表現された高周波成分に周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形する時間エンベロープ変形ステップと、を備える、ことを特徴とする。

本発明の音声符号化プログラムは、音声信号を符号化するために、コンピュータ装置を、前記音声信号の低周波成分を符号化するコア符号化手段、前記音声信号の低周波成分の時間エンベロープを用いて、前記音声信号の高周波成分の時間エンベロープの近似を得るための時間エンベロープ補助情報を算出する時間エンベロープ補助情報算出手段、及び、少なくとも、前記コア符号化手段によって符号化された前記低周波成分と、前記時間エンベロープ補助情報算出手段によって算出された前記時間エンベロープ補助情報とが多重化されたビットストリームを生成するビットストリーム多重化手段、として機能させることを特徴とする。

本発明の音声符号化プログラムは、音声信号を符号化するために、コンピュータ装置を、前記音声信号の低周波成分を符号化するコア符号化手段、前記音声信号を周波数領域に変換する周波数変換手段、前記周波数変換手段によって周波数領域に変換された前記音声信号の高周波側係数に対し周波数方向に線形予測分析を行って高周波線形予測係数を取得する線形予測分析手段、前記線形予測分析手段によって取得された前記高周波線形予測係数を時間方向に間引く予測係数間引き手段、前記予測係数間引き手段によって間引きされた後の前記高周波線形予測係数を量子化する予測係数量子化手段、及び、少なくとも前記コア符号化手段による符号化後の前記低周波成分と前記予測係数量子化手段による量子化後の前記高周波線形予測係数とが多重化されたビットストリームを生成するビットストリーム多重化手段、として機能させることを特徴とする。

本発明の音声復号プログラムは、符号化された音声信号を復号するために、コンピュータ装置を、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段、前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段、前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段、前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段、前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段、前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を、前記時間エンベロープ補助情報を用いて調整する時間エンベロープ調整手段、及び、前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を用いて、前記高周波生成手段によって生成された前記高周波成分の時間エンベロープを変形する時間エンベロープ変形手段、として機能させることを特徴とする。

本発明の音声復号プログラムは、符号化された音声信号を復号するために、コンピュータ装置を、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと線形予測係数とに分離するビットストリーム分離手段、前記線形予測係数を時間方向に補間又は補外する線形予測係数補間・補外手段、及び、前記線形予測係数補間・補外手段によって補間又は補外された線形予測係数を用いて周波数領域で表現された高周波成分に周波数方向の線形予測フィルタ処理を行って音声信号の時間エンベロープを変形する時間エンベロープ変形手段、として機能させることを特徴とする。

本発明の音声復号装置では、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の前記高周波成分に対し周波数方向の線形予測フィルタ処理を行った後、前記線形予測フィルタ処理の結果得られた高周波成分の電力を前記線形予測フィルタ処理前と等しい値に調整するのが好ましい。

本発明の音声復号装置では、前記時間エンベロープ変形手段は、前記高周波生成手段によって生成された周波数領域の前記高周波成分に対し周波数方向の線形予測フィルタ処理を行った後、前記線形予測フィルタ処理の結果得られた高周波成分の任意の周波数範囲内の電力を前記線形予測フィルタ処理前と等しい値に調整するのが好ましい。

本発明の音声復号装置では、前記時間エンベロープ補助情報は、前記調整後の前記時間エンベロープ情報における最小値と平均値の比率であるのが好ましい。

本発明の音声復号装置では、前記時間エンベロープ変形手段は、前記周波数領域の高周波成分のＳＢＲエンベロープ時間セグメント内での電力が時間エンベロープの変形の前と後で等しくなるように前記調整後の時間エンベロープの利得を制御した後に、前記周波数領域の高周波成分に前記利得制御された時間エンベロープを乗算することにより高周波成分の時間エンベロープを変形するのが好ましい。

本発明の音声復号装置では、前記低周波時間エンベロープ分析手段は、前記周波数変換手段によって周波数領域に変換された前記低周波成分のＱＭＦサブバンドサンプルごとの電力を取得し、さらにＳＢＲエンベロープ時間セグメント内での平均電力を用いて前記ＱＭＦサブバンドサンプルごとの電力を正規化することによって、各ＱＭＦサブバンドサンプルへ乗算されるべきゲイン係数として表現された時間エンベロープ情報を取得するのが好ましい。

本発明の音声復号装置は、符号化された音声信号を復号する音声復号装置であって、前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号手段と、前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段と、前記ビットストリームを分析して時間エンベロープ補助情報を生成する時間エンベロープ補助情報生成部と、前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を、前記時間エンベロープ補助情報を用いて調整する時間エンベロープ調整手段と、前記時間エンベロープ調整手段による調整後の前記時間エンベロープ情報を用いて、前記高周波生成手段によって生成された前記高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、を備える、ことを特徴とする。

本発明の音声復号装置では、前記高周波調整手段に相当する、一次高周波調整手段と、二次高周波調整手段とを具備し、前記一次高周波調整手段は、前記高周波調整手段に相当する処理の一部を含む処理を実行し、前記時間エンベロープ変形手段は、前記一次高周波調整手段の出力信号に対し時間エンベロープの変形を行い、前記二次高周波調整手段は、前記時間エンベロープ変形手段の出力信号に対して、前記高周波調整手段に相当する処理のうち前記一次高周波調整手段で実行されない処理を実行するのが好ましく、前記二次高周波調整手段は、ＳＢＲの復号過程における正弦波の付加処理であるのが好ましい。

本発明によれば、ＳＢＲに代表される周波数領域での帯域拡張技術において、ビットレートを著しく増大させることなく、発生するプリエコー・ポストエコーを軽減し復号信号の主観的品質を向上できる。

第１の実施形態に係る音声符号化装置の構成を示す図である。第１の実施形態に係る音声符号化装置の動作を説明するためのフローチャートである。第１の実施形態に係る音声復号装置の構成を示す図である。第１の実施形態に係る音声復号装置の動作を説明するためのフローチャートである。第１の実施形態の変形例１に係る音声符号化装置の構成を示す図である。第２の実施形態に係る音声符号化装置の構成を示す図である。第２の実施形態に係る音声符号化装置の動作を説明するためのフローチャートである。第２の実施形態に係る音声復号装置の構成を示す図である。第２の実施形態に係る音声復号装置の動作を説明するためのフローチャートである。第３の実施形態に係る音声符号化装置の構成を示す図である。第３の実施形態に係る音声符号化装置の動作を説明するためのフローチャートである。第３の実施形態に係る音声復号装置の構成を示す図である。第３の実施形態に係る音声復号装置の動作を説明するためのフローチャートである。第４の実施形態に係る音声復号装置の構成を示す図である。第４の実施形態の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第１の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第１の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第１の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第１の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第２の実施形態の変形例に係る音声復号装置の構成を示す図である。第２の実施形態の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第２の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第２の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第４の実施形態の他の変形例に係る音声復号装置の構成を示す図である。第４の実施形態の他の変形例に係る音声復号装置の動作を説明するためのフローチャートである。第１の実施形態の他の変形例に係る音声符号化装置の構成を示す図である。第１の実施形態の他の変形例に係る音声符号化装置の構成を示す図である。第２の実施形態の変形例に係る音声符号化装置の構成を示す図である。第２の実施形態の他の変形例に係る音声符号化装置の構成を示す図である。第４の実施形態に係る音声符号化装置の構成を示す図である。第４の実施形態の変形例に係る音声符号化装置の構成を示す図である。第４の実施形態の他の変形例に係る音声符号化装置の構成を示す図である。

以下、図面を参照して、本発明に係る好適な実施形態について詳細に説明する。なお、図面の説明において、可能な場合には、同一要素には同一符号を付し、重複する説明を省略する。

（第１の実施形態）
図１は、第１の実施形態に係る音声符号化装置１１の構成を示す図である。音声符号化装置１１は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１１の内蔵メモリに格納された所定のコンピュータプログラム（例えば、図２のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声符号化装置１１を統括的に制御する。音声符号化装置１１の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。

音声符号化装置１１は、機能的には、周波数変換部１ａ（周波数変換手段）、周波数逆変換部１ｂ、コアコーデック符号化部１ｃ（コア符号化手段）、ＳＢＲ符号化部１ｄ、線形予測分析部１ｅ（時間エンベロープ補助情報算出手段）、フィルタ強度パラメータ算出部１ｆ（時間エンベロープ補助情報算出手段）及びビットストリーム多重化部１ｇ（ビットストリーム多重化手段）を備える。図１に示す音声符号化装置１１の周波数変換部１ａ〜ビットストリーム多重化部１ｇは、音声符号化装置１１のＣＰＵが音声符号化装置１１の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声符号化装置１１のＣＰＵは、このコンピュータプログラムを実行することによって（図１に示す周波数変換部１ａ〜ビットストリーム多重化部１ｇを用いて）、図２のフローチャートに示す処理（ステップＳａ１〜ステップＳａ７の処理）を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声符号化装置１１のＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

周波数変換部１ａは、音声符号化装置１１の通信装置を介して受信された外部からの入力信号を多分割ＱＭＦフィルタバンクにより分析し、ＱＭＦ領域の信号ｑ（ｋ，ｒ）を得る（ステップＳａ１の処理）。ただし、ｋ（０≦ｋ≦６３）は周波数方向のインデックスであり、ｒは時間スロットを示すインデックスである。周波数逆変換部１ｂは、周波数変換部１ａから得られたＱＭＦ領域の信号のうち、低周波側の半数の係数をＱＭＦフィルタバンクにより合成し、入力信号の低周波成分のみを含むダウンサンプルされた時間領域信号を得る（ステップＳａ２の処理）。コアコーデック符号化部１ｃは、ダウンサンプルされた時間領域信号を符号化し、符号化ビットストリームを得る（ステップＳａ３の処理）。コアコーデック符号化部１ｃにおける符号化はＣＥＬＰ方式に代表される音声符号化方式に基づいてもよく、またＡＡＣに代表される変換符号化やＴＣＸ（Transform Coded Excitation）方式などの音響符号化に基づいてもよい。

ＳＢＲ符号化部１ｄは、周波数変換部１ａからＱＭＦ領域の信号を受け取り、高周波成分の電力・信号変化・トーナリティ等の分析に基づいてＳＢＲ符号化を行い、ＳＢＲ補助情報を得る（ステップＳａ４の処理）。周波数変換部１ａにおけるＱＭＦ分析の方法およびＳＢＲ符号化部１ｄにおけるＳＢＲ符号化の方法は、例えば文献“3GPPTS 26.404; Enhanced aacPlus encoder SBR part”に詳述されている。

線形予測分析部１ｅは、周波数変換部１ａからＱＭＦ領域の信号を受け取り、この信号の高周波成分に対し周波数方向に線形予測分析を行って高周波線形予測係数ａ_Ｈ（ｎ，ｒ）（１≦ｎ≦Ｎ）を取得する（ステップＳａ５の処理）。ただしＮは線形予測次数である。また、インデックスｒは、ＱＭＦ領域の信号のサブサンプルに関する時間方向のインデックスである。信号線形予測分析には、共分散法又は自己相関法を用いることができる。ａ_Ｈ（ｎ，ｒ）を取得する際の線形予測分析は、ｑ（ｋ，ｒ）のうちｋ_ｘ＜ｋ≦６３をみたす高周波成分に対して行う。ただしｋ_ｘはコアコーデック符号化部１ｃによって符号化される周波数帯域の上限周波数に対応する周波数インデックスである。また、線形予測分析部１ｅは、ａ_Ｈ（ｎ，ｒ）を取得する際に分析したのとは別の低周波成分に対して線形予測分析を行い、ａ_Ｈ（ｎ，ｒ）とは別の低周波線形予測係数ａ_Ｌ（ｎ，ｒ）を取得してもよい（このような低周波成分に係る線形予測係数は時間エンベロープ情報に対応しており、以下、第１の実施形態においては同様）。ａ_Ｌ（ｎ，ｒ）を取得する際の線形予測分析は、０≦ｋ＜ｋ_ｘをみたす低周波成分に対するものである。また、この線形予測分析は０≦ｋ＜ｋ_ｘの区間に含まれる一部の周波数帯域に対するものであってもよい。

フィルタ強度パラメータ算出部１ｆは、例えば、線形予測分析部１ｅによって取得された線形予測係数を用いてフィルタ強度パラメータ（フィルタ強度パラメータは時間エンベロープ補助情報に対応しており、以下、第１の実施形態においては同様）を算出する（ステップＳａ６の処理）。まず、ａ_Ｈ（ｎ，ｒ）から予測ゲインＧ_Ｈ（ｒ）が算出される。予測ゲインの算出方法は、たとえば“音声符号化、守谷健弘著、電子情報通信学会編”に詳述されている。さらに、ａ_Ｌ（ｎ，ｒ）が算出されている場合には同様に予測ゲインＧ_Ｌ（ｒ）が算出される。フィルタ強度パラメータＫ（ｒ）は、Ｇ_Ｈ（ｒ）が大きいほど大きくなるパラメータであり、例えば次の数式（１）に従って取得することができる。ただし、ｍａｘ（ａ，ｂ）はａとｂの最大値、ｍｉｎ（ａ，ｂ）はａとｂの最小値を示す。

また、Ｇ_Ｌ（ｒ）が算出されている場合には、Ｋ（ｒ）はＧ_Ｈ（ｒ）が大きいほど大きくなり、Ｇ_Ｌ（ｒ）が大きくなるほど小さくなるパラメータとして取得することができる。この場合のＫは例えば次の数式（２）に従って取得することができる。

Ｋ（ｒ）は、ＳＢＲ復号時に高周波成分の時間エンベロープを調整する強度を示すパラメータである。周波数方向の線形予測係数に対する予測ゲインは、分析区間の信号の時間エンベロープが急峻な変化を示すほど大きな値となる。Ｋ（ｒ）は、その値が大きいほど、ＳＢＲによって生成された高周波成分の時間エンベロープの変化を急峻にする処理を強めるよう復号器に指示するためのパラメータである。なお、Ｋ（ｒ）は、その値が小さいほど、ＳＢＲによって生成された高周波成分の時間エンベロープを急峻にする処理を弱めるよう復号器（例えば、音声復号装置２１等）に指示するためのパラメータであってもよく、時間エンベロープを急峻にする処理を実行しないことを示す値を含んでも良い。また、各時間スロットのＫ（ｒ）を伝送せずに、複数の時間スロットに対して代表するＫ（ｒ）を伝送しても良い。同一のＫ（ｒ）の値を共有する時間スロットの区間を決定するためには、ＳＢＲ補助情報に含まれるＳＢＲエンベロープの時間境界（SBR envelope time border）情報を用いることが望ましい。

Ｋ（ｒ）は、量子化された後にビットストリーム多重化部１ｇに送信される。量子化の前に複数の時間スロットｒについて例えばＫ（ｒ）の平均をとることにより、複数の時間スロットに対して代表するＫ（ｒ）を計算することが望ましい。また、複数の時間スロットを代表するＫ（ｒ）を伝送する場合には、Ｋ（ｒ）の算出を数式（２）のように個々の時間スロットを分析した結果から独立に行うのではなく、複数の時間スロットからなる区間全体の分析結果からそれらを代表するＫ（ｒ）を取得してもよい。この場合のＫ（ｒ）の算出は例えば次の数式（３）に従って行うことができる。ただし、ｍｅａｎ（・）は、Ｋ（ｒ）によって代表される時間スロットの区間内における平均値を示す。

なお、Ｋ（ｒ）を伝送する際には、“ISO/IEC 14496-3 subpart 4 General Audio Coding”に記載のＳＢＲ補助情報に含まれる逆フィルタモード情報と排他的に伝送しても良い。すなわち、ＳＢＲ補助情報の逆フィルタモード情報を伝送する時間スロットに対してはＫ（ｒ）を伝送せず、Ｋ（ｒ）を伝送する時間スロットに対してはＳＢＲ補助情報の逆フィルタモード情報（“ISO/IEC14496-3 subpart 4 General Audio Coding”におけるbs_invf_mode）を伝送しなくてもよい。なお、Ｋ（ｒ）又はＳＢＲ補助情報に含まれる逆フィルタモード情報のいずれを伝送するかを示す情報を付加してもよい。また、Ｋ（ｒ）とＳＢＲ補助情報に含まれる逆フィルタモード情報とを組み合わせてひとつのベクトル情報として取り扱い、このベクトルをエントロピー符号化してもよい。この際、Ｋ（ｒ）と、ＳＢＲ補助情報に含まれる逆フィルタモード情報との値の組み合わせに制約を加えてもよい。

ビットストリーム多重化部１ｇは、コアコーデック符号化部１ｃによって算出された符号化ビットストリームと、ＳＢＲ符号化部１ｄによって算出されたＳＢＲ補助情報と、フィルタ強度パラメータ算出部１ｆによって算出されたＫ（ｒ）と、を多重化し、多重化ビットストリーム（符号化された多重化ビットストリーム）を、音声符号化装置１１の通信装置を介して出力する（ステップＳａ７の処理）。

図３は、第１の実施形態に係る音声復号装置２１の構成を示す図である。音声復号装置２１は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２１の内蔵メモリに格納された所定のコンピュータプログラム（例えば、図４のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２１を統括的に制御する。音声復号装置２１の通信装置は、音声符号化装置１１、後述の変形例１の音声符号化装置１１ａ、又は、後述の変形例２の音声符号化装置から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２１は、図３に示すように、機能的には、ビットストリーム分離部２ａ（ビットストリーム分離手段）、コアコーデック復号部２ｂ（コア復号手段）、周波数変換部２ｃ（周波数変換手段）、低周波線形予測分析部２ｄ（低周波時間エンベロープ分析手段）、信号変化検出部２ｅ、フィルタ強度調整部２ｆ（時間エンベロープ調整手段）、高周波生成部２ｇ（高周波生成手段）、高周波線形予測分析部２ｈ、線形予測逆フィルタ部２ｉ、高周波調整部２ｊ（高周波調整手段）、線形予測フィルタ部２ｋ（時間エンベロープ変形手段）、係数加算部２ｍ及び周波数逆変換部２ｎを備える。図３に示す音声復号装置２１のビットストリーム分離部２ａ〜周波数逆変換部２ｎは、音声復号装置２１のＣＰＵが音声復号装置２１の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声復号装置２１のＣＰＵは、このコンピュータプログラムを実行することによって（図３に示すビットストリーム分離部２ａ〜エンベロープ形状パラメータ算出部１ｎを用いて）、図４のフローチャートに示す処理（ステップＳｂ１〜ステップＳｂ１１の処理）を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声復号装置２１のＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

ビットストリーム分離部２ａは、音声復号装置２１の通信装置を介して入力された多重化ビットストリームを、フィルタ強度パラメータと、ＳＢＲ補助情報と、符号化ビットストリームとに分離する。コアコーデック復号部２ｂは、ビットストリーム分離部２ａから与えられた符号化ビットストリームを復号し、低周波成分のみを含む復号信号を得る（ステップＳｂ１の処理）。この際、復号の方式は、ＣＥＬＰ方式に代表される音声符号化方式に基づいてもよく、またＡＡＣやＴＣＸ（Transform Coded Excitation）方式などの音響符号化に基づいてもよい。

周波数変換部２ｃは、コアコーデック復号部２ｂから与えられた復号信号を多分割ＱＭＦフィルタバンクにより分析し、ＱＭＦ領域の信号ｑ_ｄｅｃ（ｋ，ｒ）を得る（ステップＳｂ２の処理）。ただし、ｋ（０≦ｋ≦６３）は周波数方向のインデックスであり、ｒはＱＭＦ領域の信号のサブサンプルに関する時間方向のインデックスを示すインデックスである。

低周波線形予測分析部２ｄは、周波数変換部２ｃから得られたｑ_ｄｅｃ（ｋ，ｒ）を時間スロットｒの各々に関して周波数方向に線形予測分析し、低周波線形予測係数ａ_ｄｅｃ（ｎ，ｒ）を取得する（ステップＳｂ３の処理）。線形予測分析は、コアコーデック復号部２ｂから得られた復号信号の信号帯域に対応する０≦ｋ＜ｋ_ｘの範囲に対して行う。また、この線形予測分析は０≦ｋ＜ｋ_ｘの区間に含まれる一部の周波数帯域に対するものであってもよい。

信号変化検出部２ｅは、周波数変換部２ｃから得られたＱＭＦ領域の信号の時間変化を検出し、検出結果Ｔ（ｒ）として出力する。信号変化の検出は、例えば以下に示す方法によって行うことができる。
１．時間スロットｒにおける信号の短時間電力ｐ（ｒ）を次の数式（４）によって取得する。

２．ｐ（ｒ）を平滑化したエンベロープｐ_ｅｎｖ（ｒ）を次の数式（５）によって取得する。ただしαは０＜α＜１を満たす定数である。

３．ｐ（ｒ）とｐ_ｅｎｖ（ｒ）とを用いてＴ（ｒ）を次の数式（６）に従って取得する。ただしβは定数である。

以上に示した方法は電力の変化に基づく信号変化検出の単純な例であり、他のもっと洗練された方法により信号変化検出を行ってもよい。また、信号変化検出部２ｅは省略してもよい。

フィルタ強度調整部２ｆは、低周波線形予測分析部２ｄから得られたａ_ｄｅｃ（ｎ，ｒ）に対してフィルタ強度の調整を行い、調整された線形予測係数ａ_ａｄｊ（ｎ，ｒ）を得る（ステップＳｂ４の処理）。フィルタ強度の調整は、ビットストリーム分離部２ａを介して受信されたフィルタ強度パラメータＫを用いて、たとえば次の数式（７）に従って行うことができる。

さらに、信号変化検出部２ｅの出力Ｔ（ｒ）が得られる場合には、強度の調整は次の数式（８）に従って行ってもよい。

高周波生成部２ｇは、周波数変換部２ｃから得られたＱＭＦ領域の信号を低周波帯域から高周波帯域に複写し、高周波成分のＱＭＦ領域の信号ｑ_ｅｘｐ（ｋ，ｒ）を生成する（ステップＳｂ５の処理）。高周波の生成は、“MPEG4AAC”のＳＢＲにおけるHF generationの方法に従って行う（“ISO/IEC 14496-3 subpart 4 GeneralAudio Coding”）。

高周波線形予測分析部２ｈは、高周波生成部２ｇによって生成されたｑ_ｅｘｐ（ｋ，ｒ）を時間スロットｒの各々に関して周波数方向に線形予測分析し、高周波線形予測係数ａ_ｅｘｐ（ｎ，ｒ）を取得する（ステップＳｂ６の処理）。線形予測分析は、高周波生成部２ｇによって生成された高周波成分に対応するｋ_ｘ≦ｋ≦６３の範囲に対して行う。

線形予測逆フィルタ部２ｉは、高周波生成部２ｇによって生成された高周波帯域のＱＭＦ領域の信号を対象とし、周波数方向にａ_ｅｘｐ（ｎ，ｒ）を係数とする線形予測逆フィルタ処理を行う（ステップＳｂ７の処理）。線形予測逆フィルタの伝達関数は次の数式（９）の通りである。

この線形予測逆フィルタ処理は、低周波側の係数から高周波側の係数に向かって行われてもよいし、その逆でもよい。線形予測逆フィルタ処理は、後段において時間エンベロープ変形を行う前に高周波成分の時間エンベロープを一旦平坦化しておくための処理であり、線形予測逆フィルタ部２ｉは省略されてもよい。また、高周波生成部２ｇからの出力に対して高周波成分への線形予測分析と逆フィルタ処理を行うかわりに、後述する高周波調整部２ｊからの出力に対して高周波線形予測分析部２ｈによる線形予測分析と線形予測逆フィルタ部２ｉによる逆フィルタ処理とを行ってもよい。さらに、線形予測逆フィルタ処理に用いる線形予測係数は、ａ_ｅｘｐ（ｎ，ｒ）ではなく、ａ_ｄｅｃ（ｎ，ｒ）又はａ_ａｄｊ（ｎ，ｒ）であってもよい。また、線形予測逆フィルタ処理に用いられる線形予測係数は、ａ_ｅｘｐ（ｎ，ｒ）に対してフィルタ強度調整を行って取得される線形予測係数ａ_{ｅｘｐ，ａｄｊ}（ｎ，ｒ）であってもよい。強度調整は、ａ_ａｄｊ（ｎ，ｒ）を取得する際と同様、例えば、次の数式（１０）に従って行われる。

高周波調整部２ｊは、線形予測逆フィルタ部２ｉからの出力に対して高周波成分の周波数特性およびトーナリティの調整を行う（ステップＳｂ８の処理）。この調整はビットストリーム分離部２ａから与えられたＳＢＲ補助情報に従って行われる。高周波調整部２ｊによる処理は、“MPEG4AAC”のＳＢＲにおける“HFadjustment”ステップに従って行われるものであり、高周波帯域のＱＭＦ領域の信号に対し、時間方向の線形予測逆フィルタ処理、ゲインの調整及びノイズの重畳を行うことによる調整である。以上のステップにおける処理の詳細については“ISO/IEC14496-3 subpart 4 General Audio Coding”に詳述されている。なお、上記したように、周波数変換部２ｃ、高周波生成部２ｇ及び高周波調整部２ｊは、全て、“ISO/IEC14496-3”に規定される“MPEG4AAC”におけるＳＢＲ復号器に準拠した動作をする。

線形予測フィルタ部２ｋは、高周波調整部２ｊから出力されたＱＭＦ領域の信号の高周波成分ｑ_ａｄｊ（ｎ，ｒ）に対し、フィルタ強度調整部２ｆから得られたａ_ａｄｊ（ｎ，ｒ）を用いて周波数方向に線形予測合成フィルタ処理を行う（ステップＳｂ９の処理）。線形予測合成フィルタ処理における伝達関数は次の数式（１１）の通りである。

この線形予測合成フィルタ処理によって、線形予測フィルタ部２ｋは、ＳＢＲに基づいて生成された高周波成分の時間エンベロープを変形する。

係数加算部２ｍは、周波数変換部２ｃから出力された低周波成分を含むＱＭＦ領域の信号と、線形予測フィルタ部２ｋから出力された高周波成分を含むＱＭＦ領域の信号とを加算し、低周波成分と高周波成分の双方を含むＱＭＦ領域の信号を出力する（ステップＳｂ１０の処理）。

周波数逆変換部２ｎは、係数加算部２ｍから得られたＱＭＦ領域の信号をＱＭＦ合成フィルタバンクによって処理する。これによって、コアコーデックの復号によって得られた低周波成分と、ＳＢＲによって生成され線形予測フィルタによって時間エンベロープが変形された高周波成分との双方を含む時間領域の復号した音声信号を取得し、この取得した音声信号を、内蔵する通信装置を介して外部に出力する（ステップＳｂ１１の処理）。なお、周波数逆変換部２ｎは、Ｋ（ｒ）と“ISO/IEC14496-3 subpart 4 General Audio Coding”に記載のＳＢＲ補助情報の逆フィルタモード情報とが排他的に伝送された場合、Ｋ（ｒ）が伝送されＳＢＲ補助情報の逆フィルタモード情報の伝送されない時間スロットに対しては、当該時間スロットの前後における時間スロットのうちの少なくとも一つの時間スロットに対するＳＢＲ補助情報の逆フィルタモード情報を用いて、当該時間スロットのＳＢＲ補助情報の逆フィルタモード情報を生成しても良く、当該時間スロットのＳＢＲ補助情報の逆フィルタモード情報をあらかじめ決められた所定のモードに設定しても良い。一方、周波数逆変換部２ｎは、ＳＢＲ補助情報の逆フィルタデータが伝送されＫ（ｒ）の伝送されない時間スロットに対しては、当該時間スロットの前後における時間スロットのうちの少なくとも一つの時間スロットに対するＫ（ｒ）を用いて、当該時間スロットのＫ（ｒ）を生成しても良く、当該時間スロットのＫ（ｒ）を予め決められた所定の値に設定しても良い。なお、周波数逆変換部２ｎは、Ｋ（ｒ）又はＳＢＲ補助情報の逆フィルタモード情報のいずれを伝送したかを示す情報に基づき、伝送された情報が、Ｋ（ｒ）か、ＳＢＲ補助情報の逆フィルタモード情報か、を判断しても良い。

(第１の実施形態の変形例１)
図５は、第１の実施形態に係る音声符号化装置の変形例（音声符号化装置１１ａ）の構成を示す図である。音声符号化装置１１ａは、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１１ａの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１１ａを統括的に制御する。音声符号化装置１１ａの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。

音声符号化装置１１ａは、図５に示すように、機能的には、音声符号化装置１１の線形予測分析部１ｅ、フィルタ強度パラメータ算出部１ｆ及びビットストリーム多重化部１ｇにかえて、高周波周波数逆変換部１ｈ、短時間電力算出部１ｉ（時間エンベロープ補助情報算出手段）、フィルタ強度パラメータ算出部１ｆ１（時間エンベロープ補助情報算出手段）及びビットストリーム多重化部１ｇ１（ビットストリーム多重化手段）を備える。ビットストリーム多重化部１ｇ１はビットストリーム多重化部１ｇと同様の機能を有する。図５に示す音声符号化装置１１ａの周波数変換部１ａ〜ＳＢＲ符号化部１ｄ、高周波周波数逆変換部１ｈ、短時間電力算出部１ｉ、フィルタ強度パラメータ算出部１ｆ１及びビットストリーム多重化部１ｇ１は、音声符号化装置１１ａのＣＰＵが音声符号化装置１１ａの内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声符号化装置１１ａのＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

高周波周波数逆変換部１ｈは、周波数変換部１ａから得られたＱＭＦ領域の信号のうち、コアコーデック符号化部１ｃによって符号化される低周波成分に対応する係数を“０”に置き換えた後にＱＭＦ合成フィルタバンクを用いて処理し、高周波成分のみが含まれた時間領域信号を得る。短時間電力算出部１ｉは、高周波周波数逆変換部１ｈから得られた時間領域の高周波成分を短区間に区切ってその電力を算出し、ｐ（ｒ）を算出する。なお、代替的な方法として、ＱＭＦ領域の信号を用いて次の数式（１２）に従って短時間電力を算出してもよい。

フィルタ強度パラメータ算出部１ｆ１は、ｐ（ｒ）の変化部分を検出し、変化が大きいほどＫ（ｒ）が大きくなるよう、Ｋ（ｒ）の値を決定する。Ｋ（ｒ）の値は、例えば、音声復号装置２１の信号変化検出部２ｅにおけるＴ（ｒ）の算出と同一の方法で行ってもよい。また、他のもっと洗練された方法により信号変化検出を行ってもよい。また、フィルタ強度パラメータ算出部１ｆ１は、低周波成分と高周波成分の各々について短時間電力を取得した後に音声復号装置２１の信号変化検出部２ｅにおけるＴ（ｒ）の算出と同一の方法によって低周波成分及び高周波成分各々の信号変化Ｔｒ（ｒ）、Ｔｈ（ｒ）を取得し、これらを用いてＫ（ｒ）の値を決定してもよい。この場合、Ｋ（ｒ）は例えば次の数式（１３）に従って取得することができる。ただし、εは、例えば３．０などの定数である。

(第１の実施形態の変形例２)
第１の実施形態の変形例２の音声符号化装置（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の変形例２の音声符号化装置の内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって変形例２の音声符号化装置を統括的に制御する。変形例２の音声符号化装置の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。

変形例２の音声符号化装置は、機能的には、音声符号化装置１１のフィルタ強度パラメータ算出部１ｆ及びビットストリーム多重化部１ｇにかえて、図示しない線形予測係数差分符号化部（時間エンベロープ補助情報算出手段）と、この線形予測係数差分符号化部からの出力を受けるビットストリーム多重化部（ビットストリーム多重化手段）とを備える。変形例２の音声符号化装置の周波数変換部１ａ〜線形予測分析部１ｅ、線形予測係数差分符号化部、及び、ビットストリーム多重化部は、変形例２の音声符号化装置のＣＰＵが変形例２の音声符号化装置の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、変形例２の音声符号化装置のＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

線形予測係数差分符号化部は、入力信号のａ_Ｈ（ｎ，ｒ）と入力信号のａ_Ｌ（ｎ，ｒ）を用い、次の数式（１４）に従って線形予測係数の差分値ａ_Ｄ（ｎ，ｒ）を算出する。

線形予測係数差分符号化部は、さらにａ_Ｄ（ｎ，ｒ）を量子化し、ビットストリーム多重化部（ビットストリーム多重化部１ｇに対応する構成）へ送信する。このビットストリーム多重化部は、Ｋ（ｒ）に代わりａ_Ｄ（ｎ，ｒ）をビットストリームに多重化し、この多重化ビットストリームを内蔵する通信装置を介して外部に出力する。

第１の実施形態の変形例２の音声復号装置（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の変形例２の音声復号装置の内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって変形例２の音声復号装置を統括的に制御する。変形例２の音声復号装置の通信装置は、音声符号化装置１１、変形例１に係る音声符号化装置１１ａ、又は、変形例２に係る音声符号化装置から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。

変形例２の音声復号装置は、機能的には、音声復号装置２１のフィルタ強度調整部２ｆにかえて、図示しない線形予測係数差分復号部を備える。変形例２の音声復号装置のビットストリーム分離部２ａ〜信号変化検出部２ｅ、線形予測係数差分復号部、及び、高周波生成部２ｇ〜周波数逆変換部２ｎは、変形例２の音声復号装置のＣＰＵが変形例２の音声復号装置の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、変形例２の音声復号装置のＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

線形予測係数差分復号部は、低周波線形予測分析部２ｄから得られたａ_Ｌ（ｎ，ｒ）とビットストリーム分離部２ａから与えられたａ_Ｄ（ｎ，ｒ）を利用し、次の数式（１５）に従って差分復号されたａ_ａｄｊ（ｎ，ｒ）を得る。

線形予測係数差分復号部は、このようにして差分復号されたａ_ａｄｊ（ｎ，ｒ）を線形予測フィルタ部２ｋに送信する。ａ_Ｄ（ｎ，ｒ）は、数式（１４）に示すように予測係数の領域での差分値であってもよいが、予測係数をＬＳＰ（Linear Spectrum Pair）、ＩＳＰ（ImmittanceSpectrum Pair）、ＬＳＦ（Linear Spectrum Frequency）、ＩＳＦ（Immittance Spectrum Frequency）、ＰＡＲＣＯＲ係数などの別の表現形式に変換した後に差分をとった値であってもよい。この場合、差分復号も同じこの表現形式と同様となる。

（第２の実施形態）
図６は、第２の実施形態に係る音声符号化装置１２の構成を示す図である。音声符号化装置１２は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１２の内蔵メモリに格納された所定のコンピュータプログラム（例えば、図７のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声符号化装置１２を統括的に制御する。音声符号化装置１２の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。

音声符号化装置１２は、機能的には、音声符号化装置１１のフィルタ強度パラメータ算出部１ｆ及びビットストリーム多重化部１ｇにかえて、線形予測係数間引き部１ｊ（予測係数間引き手段）、線形予測係数量子化部１ｋ（予測係数量子化手段）及びビットストリーム多重化部１ｇ２（ビットストリーム多重化手段）を備える。図６に示す音声符号化装置１２の周波数変換部１ａ〜線形予測分析部１ｅ（線形予測分析手段）、線形予測係数間引き部１ｊ、線形予測係数量子化部１ｋ及びビットストリーム多重化部１ｇ２は、音声符号化装置１２のＣＰＵが音声符号化装置１２の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声符号化装置１２のＣＰＵは、このコンピュータプログラムを実行することによって（図６に示す音声符号化装置１２の周波数変換部１ａ〜線形予測分析部１ｅ、線形予測係数間引き部１ｊ、線形予測係数量子化部１ｋ及びビットストリーム多重化部１ｇ２を用いて）、図７のフローチャートに示す処理（ステップＳａ１〜ステップＳａ５、及び、ステップＳｃ１〜ステップＳｃ３の処理）を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声符号化装置１２のＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

線形予測係数間引き部１ｊは、線形予測分析部１ｅから得られたａ_Ｈ（ｎ，ｒ）を時間方向に間引き、ａ_Ｈ（ｎ，ｒ）のうち一部の時間スロットｒ_ｉに対する値と、対応するｒ_ｉの値を線形予測係数量子化部１ｋに送信する（ステップＳｃ１の処理）。ただし、０≦ｉ＜Ｎ_ｔｓであり、Ｎ_ｔｓはフレーム中でａ_Ｈ（ｎ，ｒ）の伝送が行われる時間スロットの数である。線形予測係数の間引きは、一定の時間間隔によるものであってもよく、また、ａ_Ｈ（ｎ，ｒ）の性質に基づく不等時間間隔の間引きであってもよい。例えば、ある長さを持つフレームの中でａ_Ｈ（ｎ，ｒ）のＧ_Ｈ（ｒ）を比較し、Ｇ_Ｈ（ｒ）が一定の値を超えた場合にａ_Ｈ（ｎ，ｒ）を量子化の対象とするなどの方法が考えられる。線形予測係数の間引き間隔をａ_Ｈ（ｎ，ｒ）の性質によらず一定の間隔とする場合には、伝送の対象とならない時間スロットに対してはａ_Ｈ（ｎ，ｒ）を算出する必要がない。

線形予測係数量子化部１ｋは、線形予測係数間引き部１ｊから与えられた間引き後の高周波線形予測係数ａ_Ｈ（ｎ，ｒ_ｉ）と、対応する時間スロットのインデックスｒ_ｉを量子化し、ビットストリーム多重化部１ｇ２に送信する（ステップＳｃ２の処理）。なお、代替的な構成として、ａ_Ｈ（ｎ，ｒ_ｉ）を量子化するかわりに、第１の実施形態の変形例２に係る音声符号化装置と同様に、線形予測係数の差分値ａ_Ｄ（ｎ，ｒ_ｉ）を量子化の対象としてもよい。

ビットストリーム多重化部１ｇ２は、コアコーデック符号化部１ｃで算出された符号化ビットストリームと、ＳＢＲ符号化部１ｄで算出されたＳＢＲ補助情報と、線形予測係数量子化部１ｋから与えられた量子化後のａ_Ｈ（ｎ，ｒ_ｉ）に対応する時間スロットのインデックス｛ｒ_ｉ｝とをビットストリームに多重化し、この多重化ビットストリームを、音声符号化装置１２の通信装置を介して出力する（ステップＳｃ３の処理）。

図８は、第２の実施形態に係る音声復号装置２２の構成を示す図である。音声復号装置２２は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２２の内蔵メモリに格納された所定のコンピュータプログラム（例えば、図９のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２２を統括的に制御する。音声復号装置２２の通信装置は、音声符号化装置１２から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。

音声復号装置２２は、機能的には、音声復号装置２１のビットストリーム分離部２ａ、低周波線形予測分析部２ｄ、信号変化検出部２ｅ、フィルタ強度調整部２ｆ及び線形予測フィルタ部２ｋにかえて、ビットストリーム分離部２ａ１（ビットストリーム分離手段）、線形予測係数補間・補外部２ｐ（線形予測係数補間・補外手段）及び線形予測フィルタ部２ｋ１（時間エンベロープ変形手段）を備える。図８に示す音声復号装置２２のビットストリーム分離部２ａ１、コアコーデック復号部２ｂ、周波数変換部２ｃ、高周波生成部２ｇ〜高周波調整部２ｊ、線形予測フィルタ部２ｋ１、係数加算部２ｍ、周波数逆変換部２ｎ、及び、線形予測係数補間・補外部２ｐは、音声復号装置２２のＣＰＵが音声復号装置２２の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声復号装置２２のＣＰＵは、このコンピュータプログラムを実行することによって（図８に示すビットストリーム分離部２ａ１、コアコーデック復号部２ｂ、周波数変換部２ｃ、高周波生成部２ｇ〜高周波調整部２ｊ、線形予測フィルタ部２ｋ１、係数加算部２ｍ、周波数逆変換部２ｎ、及び、線形予測係数補間・補外部２ｐを用いて）、図９のフローチャートに示す処理（ステップＳｂ１〜ステップＳｂ２、ステップＳｄ１、ステップＳｂ５〜ステップＳｂ８、ステップＳｄ２、及び、ステップＳｂ１０〜ステップＳｂ１１の処理）を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声復号装置２２のＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

音声復号装置２２は、音声復号装置２２のビットストリーム分離部２ａ、低周波線形予測分析部２ｄ、信号変化検出部２ｅ、フィルタ強度調整部２ｆ及び線形予測フィルタ部２ｋにかえて、ビットストリーム分離部２ａ１、線形予測係数補間・補外部２ｐ及び線形予測フィルタ部２ｋ１を備える。

ビットストリーム分離部２ａ１は、音声復号装置２２の通信装置を介して入力された多重化ビットストリームを、量子化されたａ_Ｈ（ｎ，ｒ_ｉ）に対応する時間スロットのインデックスｒ_ｉと、ＳＢＲ補助情報と、符号化ビットストリームとに分離する。

線形予測係数補間・補外部２ｐは、量子化されたａ_Ｈ（ｎ，ｒ_ｉ）に対応する時間スロットのインデックスｒ_ｉをビットストリーム分離部２ａ１から受け取り、線形予測係数の伝送されていない時間スロットに対応するａ_Ｈ（ｎ，ｒ）を、補間又は補外により取得する（ステップＳｄ１の処理）。線形予測係数補間・補外部２ｐは、線形予測係数の補外を、例えば次の数式（１６）に従って行うことができる。

ただし、ｒ_ｉ０は線形予測係数が伝送されている時間スロット｛ｒ_ｉ｝のうちｒに最も近いものとする。また、δは０＜δ＜１を満たす定数である。

また、線形予測係数補間・補外部２ｐは、線形予測係数の補間を、例えば次の数式（１７）に従って行うことができる。ただし、ｒ_ｉ０＜r＜ｒ_ｉ０＋１を満たす。

なお、線形予測係数補間・補外部２ｐは、線形予測係数をＬＳＰ（LinearSpectrum Pair）、ＩＳＰ（Immittance Spectrum Pair）、ＬＳＦ（Linear Spectrum Frequency）、ＩＳＦ（ImmittanceSpectrum Frequency）、ＰＡＲＣＯＲ係数などの別の表現形式に変換した後に補間・補外し、得られた値を線形予測係数に変換して用いても良い。補間又は補外後のａ_Ｈ（ｎ，ｒ）は線形予測フィルタ部２ｋ１に送信され、線形予測合成フィルタ処理における線形予測係数として利用されるが、線形予測逆フィルタ部２ｉにおける線形予測係数として用いられてもよい。ビットストリームにａ_Ｈ（ｎ，ｒ）ではなくａ_Ｄ（ｎ，ｒ_ｉ）が多重化されている場合、線形予測係数補間・補外部２ｐは、上記の補間又は補外処理に先立ち、第１の実施形態の変形例２に係る音声復号装置と同様の差分復号処理を行う。

線形予測フィルタ部２ｋ１は、高周波調整部２ｊから出力されたｑ_ａｄｊ（ｎ，ｒ）に対し、線形予測係数補間・補外部２ｐから得られた、補間又は補外されたａ_Ｈ（ｎ，ｒ）を用いて周波数方向に線形予測合成フィルタ処理を行う（ステップＳｄ２の処理）。線形予測フィルタ部２ｋ１の伝達関数は次の数式（１８）の通りである。線形予測フィルタ部２ｋ１は、音声復号装置２１の線形予測フィルタ部２ｋと同様に、線形予測合成フィルタ処理を行うことによって、ＳＢＲにより生成された高周波成分の時間エンベロープを変形する。

（第３の実施形態）
図１０は、第３の実施形態に係る音声符号化装置１３の構成を示す図である。音声符号化装置１３は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１３の内蔵メモリに格納された所定のコンピュータプログラム（例えば、図１１のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声符号化装置１３を統括的に制御する。音声符号化装置１３の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。

音声符号化装置１３は、機能的には、音声符号化装置１１の線形予測分析部１ｅ、フィルタ強度パラメータ算出部１ｆ及びビットストリーム多重化部１ｇにかえて、時間エンベロープ算出部１ｍ（時間エンベロープ補助情報算出手段）、エンベロープ形状パラメータ算出部１ｎ（時間エンベロープ補助情報算出手段）及びビットストリーム多重化部１ｇ３（ビットストリーム多重化手段）を備える。図１０に示す音声符号化装置１３の周波数変換部１ａ〜ＳＢＲ符号化部１ｄ、時間エンベロープ算出部１ｍ、エンベロープ形状パラメータ算出部１ｎ、及び、ビットストリーム多重化部１ｇ３は、音声符号化装置１３のＣＰＵが音声符号化装置１３の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声符号化装置１３のＣＰＵは、このコンピュータプログラムを実行することによって（図１０に示す音声符号化装置１３の周波数変換部１ａ〜ＳＢＲ符号化部１ｄ、時間エンベロープ算出部１ｍ、エンベロープ形状パラメータ算出部１ｎ、及び、ビットストリーム多重化部１ｇ３を用いて）、図１１のフローチャートに示す処理（ステップＳａ１〜ステップＳａ４、及び、ステップＳｅ１〜ステップＳｅ３の処理）を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声符号化装置１３のＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

時間エンベロープ算出部１ｍは、ｑ（ｋ，ｒ）を受け取り、例えば、ｑ（ｋ，ｒ）の時間スロットごとの電力を取得することによって、信号の高周波成分の時間エンベロープ情報ｅ（ｒ）を取得する（ステップＳｅ１の処理）。この場合、ｅ（ｒ）は次の数式（１９）に従って取得される。

エンベロープ形状パラメータ算出部１ｎは、時間エンベロープ算出部１ｍからｅ（ｒ）を受け取り、さらにＳＢＲ符号化部１ｄからＳＢＲエンベロープの時間境界｛ｂ_ｉ｝を受け取る。ただし、０≦ｉ≦Ｎｅであり、Ｎｅは符号化フレーム内のＳＢＲエンベロープの数である。エンベロープ形状パラメータ算出部１ｎは、符号化フレーム内のＳＢＲエンベロープの各々について、例えば次の数式（２０）に従ってエンベロープ形状パラメータｓ（ｉ）（０≦ｉ＜Ｎｅ）を取得する（ステップＳｅ２の処理）。なお、エンベロープ形状パラメータｓ（ｉ）は時間エンベロープ補助情報に対応しており、第３の実施形態において同様とする。

ただし、

上記の数式におけるｓ（ｉ）はｂ_ｉ≦ｒ＜ｂ_ｉ＋１を満たすｉ番目のＳＢＲエンベロープ内におけるｅ（ｒ）の変化の大きさを示すパラメータであり、時間エンベロープの変化が大きいほどｅ（ｒ）は大きい値をとる。上記の数式（２０）及び（２１）は、ｓ（ｉ）の算出方法の一例であり、例えばｅ（ｒ）のＳＭＦ（Spectral Flatness Measure）や、最大値と最小値の比等、を用いてｓ（ｉ）を取得してもよい。この後、ｓ（ｉ）は量子化され、ビットストリーム多重化部１ｇ３に伝送される。

ビットストリーム多重化部１ｇ３は、コアコーデック符号化部１ｃによって算出された符号化ビットストリームと、ＳＢＲ符号化部１ｄによって算出されたＳＢＲ補助情報と、ｓ（ｉ）とをビットストリームに多重化し、この多重化したビットストリームを、音声符号化装置１３の通信装置を介して出力する（ステップＳｅ３の処理）。

図１２は、第３の実施形態に係る音声復号装置２３の構成を示す図である。音声復号装置２３は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２３の内蔵メモリに格納された所定のコンピュータプログラム（例えば、図１３のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２３を統括的に制御する。音声復号装置２３の通信装置は、音声符号化装置１３から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。

音声復号装置２３は、機能的には、音声復号装置２１のビットストリーム分離部２ａ、低周波線形予測分析部２ｄ、信号変化検出部２ｅ、フィルタ強度調整部２ｆ、高周波線形予測分析部２ｈ、線形予測逆フィルタ部２ｉ及び線形予測フィルタ部２ｋにかえて、ビットストリーム分離部２ａ２（ビットストリーム分離手段）、低周波時間エンベロープ算出部２ｒ（低周波時間エンベロープ分析手段）、エンベロープ形状調整部２ｓ（時間エンベロープ調整手段）、高周波時間エンベロープ算出部２ｔ、時間エンベロープ平坦化部２ｕ及び時間エンベロープ変形部２ｖ（時間エンベロープ変形手段）を備える。図１２に示す音声復号装置２３のビットストリーム分離部２ａ２、コアコーデック復号部２ｂ〜周波数変換部２ｃ、高周波生成部２ｇ、高周波調整部２ｊ、係数加算部２ｍ、周波数逆変換部２ｎ、及び、低周波時間エンベロープ算出部２ｒ〜時間エンベロープ変形部２ｖは、音声復号装置２３のＣＰＵが音声復号装置２３の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。音声復号装置２３のＣＰＵは、このコンピュータプログラムを実行することによって（図１２に示す音声復号装置２３のビットストリーム分離部２ａ２、コアコーデック復号部２ｂ〜周波数変換部２ｃ、高周波生成部２ｇ、高周波調整部２ｊ、係数加算部２ｍ、周波数逆変換部２ｎ、及び、低周波時間エンベロープ算出部２ｒ〜時間エンベロープ変形部２ｖを用いて）、図１３のフローチャートに示す処理（ステップＳｂ１〜ステップＳｂ２、ステップＳｆ１〜ステップＳｆ２、ステップＳｂ５、ステップＳｆ３〜ステップＳｆ４、ステップＳｂ８、ステップＳｆ５、及び、ステップＳｂ１０〜ステップＳｂ１１の処理）を順次実行する。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声復号装置２３のＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

ビットストリーム分離部２ａ２は、音声復号装置２３の通信装置を介して入力された多重化ビットストリームを、ｓ（ｉ）と、ＳＢＲ補助情報と、符号化ビットストリームとに分離する。低周波時間エンベロープ算出部２ｒは、周波数変換部２ｃから低周波成分を含むｑ_ｄｅｃ（ｋ，ｒ）を受け取り、ｅ（ｒ）を次の数式（２２）に従って取得する（ステップＳｆ１の処理）。

エンベロープ形状調整部２ｓは、ｓ（ｉ）を用いてｅ（ｒ）を調整し、調整後の時間エンベロープ情報ｅ_ａｄｊ（ｒ）を取得する（ステップＳｆ２の処理）。このｅ（ｒ）に対する調整は、例えば次の数式（２３）〜（２５）に従って行うことができる。

ただし、

である。

上記の数式（２３）〜（２５）は調整方法の一例であり、ｅ_ａｄｊ（ｒ）の形状がｓ（ｉ）によって示される形状に近づくような他の調整方法を用いてもよい。

高周波時間エンベロープ算出部２ｔは、高周波生成部２ｇから得られたｑ_ｅｘｐ（ｋ，ｒ）を用いて時間エンベロープｅ_ｅｘｐ（ｒ）を次の数式（２６）に従って算出する（ステップＳｆ３の処理）。

時間エンベロープ平坦化部２ｕは、高周波生成部２ｇから得られたｑ_ｅｘｐ（ｋ，ｒ）の時間エンベロープを次の数式（２７）に従って平坦化し、得られたＱＭＦ領域の信号ｑ_ｆｌａｔ（ｋ，ｒ）を高周波調整部２ｊに送信する（ステップＳｆ４の処理）。

時間エンベロープ平坦化部２ｕにおける時間エンベロープの平坦化は省略されてもよい。また、高周波生成部２ｇからの出力に対して、高周波成分の時間エンベロープ算出と時間エンベロープの平坦化処理とを行うかわりに、高周波調整部２ｊからの出力に対して、高周波成分の時間エンベロープ算出と時間エンベロープの平坦化処理とを行ってもよい。さらに、時間エンベロープ平坦化部２ｕにおいて用いる時間エンベロープは、高周波時間エンベロープ算出部２ｔから得られたｅ_ｅｘｐ（ｒ）ではなく、エンベロープ形状調整部２ｓから得られたｅ_ａｄｊ（ｒ）であってもよい。

時間エンベロープ変形部２ｖは、高周波調整部２ｊから得られたｑ_ａｄｊ（ｋ，ｒ）を時間エンベロープ変形部２ｖから得られたｅ_ａｄｊ（ｒ）を用いて変形し、時間エンベロープが変形されたＱＭＦ領域の信号ｑ_{ｅｎｖａｄｊ}（ｋ，ｒ）を取得する（ステップＳｆ５の処理）。この変形は、次の数式（２８）に従って行われる。ｑ_{ｅｎｖａｄｊ}（ｋ，ｒ）は高周波成分に対応するＱＭＦ領域の信号として係数加算部２ｍに送信される。

（第４の実施形態）
図１４は、第４の実施形態に係る音声復号装置２４の構成を示す図である。音声復号装置２４は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４の内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声復号装置２４を統括的に制御する。音声復号装置２４の通信装置は、音声符号化装置１１又は音声符号化装置１３から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。

音声復号装置２４は、機能的には、音声復号装置２１の構成（コアコーデック復号部２ｂ、周波数変換部２ｃ、低周波線形予測分析部２ｄ、信号変化検出部２ｅ、フィルタ強度調整部２ｆ、高周波生成部２ｇ、高周波線形予測分析部２ｈ、線形予測逆フィルタ部２ｉ、高周波調整部２ｊ、線形予測フィルタ部２ｋ、係数加算部２ｍ及び周波数逆変換部２ｎ）と、音声復号装置２３の構成（低周波時間エンベロープ算出部２ｒ、エンベロープ形状調整部２ｓ及び時間エンベロープ変形部２ｖ）とを備える。更に、音声復号装置２４は、ビットストリーム分離部２ａ３（ビットストリーム分離手段）及び補助情報変換部２ｗを備える。線形予測フィルタ部２ｋと時間エンベロープ変形部２ｖの順序は図１４に示すものと逆であってもよい。なお、音声復号装置２４は、音声符号化装置１１又は音声符号化装置１３によって符号化されたビットストリームを入力とすることが望ましい。図１４に示す音声復号装置２４の構成は、音声復号装置２４のＣＰＵが音声復号装置２４の内蔵メモリに格納されたコンピュータプログラムを実行することによって実現される機能である。このコンピュータプログラムの実行に必要な各種データ、及び、このコンピュータプログラムの実行によって生成された各種データは、全て、音声復号装置２４のＲＯＭやＲＡＭ等の内蔵メモリに格納されるものとする。

ビットストリーム分離部２ａ３は、音声復号装置２４の通信装置を介して入力された多重化ビットストリームを、時間エンベロープ補助情報と、ＳＢＲ補助情報と、符号化ビットストリームとに分離する。時間エンベロープ補助情報は、第１の実施形態において説明したＫ（ｒ）、又は、第３の実施形態において説明したｓ（ｉ）、であってもよい。また、Ｋ（ｒ）、ｓ（ｉ）のいずれでもない他のパラメータＸ（ｒ）であってもよい。

補助情報変換部２ｗは、入力された時間エンベロープ補助情報を変換し、Ｋ（ｒ）とｓ（ｉ）とを得る。時間エンベロープ補助情報がＫ（ｒ）の場合、補助情報変換部２ｗは、Ｋ（ｒ）をｓ（ｉ）に変換する。補助情報変換部２ｗは、この変換を、例えばｂ_ｉ≦ｒ＜ｂ_ｉ＋１の区間内でのＫ（ｒ）の平均値

を取得した後に、所定のテーブルを用いて、この数式（２９）に示す平均値をｓ（ｉ）に変換することによって行ってもよい。また、時間エンベロープ補助情報がｓ（ｉ）の場合、補助情報変換部２ｗは、ｓ（ｉ）をＫ（ｒ）に変換する。補助情報変換部２ｗは、この変換を、例えば所定のテーブルを用いてｓ（ｉ）をＫ（ｒ）に変換することによって行ってもよい。ただし、ｉとｒはｂ_ｉ≦ｒ＜ｂ_ｉ＋１の関係を満たすよう対応づけられるものとする。

時間エンベロープ補助情報がｓ（ｉ）でもＫ（ｒ）でもないパラメータＸ（ｒ）の場合、補助情報変換部２ｗは、Ｘ（ｒ）を、Ｋ（ｒ）とｓ（ｉ）とに変換する。補助情報変換部２ｗは、この変換を、例えば所定のテーブルを用いてＸ（ｒ）をＫ（ｒ）およびｓ（ｉ）に変換することによって行うのが望ましい。また、補助情報変換部２ｗは、Ｘ（ｒ）をＳＢＲエンベロープ毎に１つの代表値を伝送するのが望ましい。Ｘ（ｒ）をＫ（ｒ）およびｓ（ｉ）に変換するテーブルは互いに異なっていてもよい。

（第１の実施形態の変形例３）
第１の実施形態の音声復号装置２１において、音声復号装置２１の線形予測フィルタ部２ｋは、自動利得制御処理を含むことができる。この自動利得制御処理は、線形予測フィルタ部２ｋの出力のＱＭＦ領域の信号の電力を入力されたＱＭＦ領域の信号電力に合わせる処理である。利得制御後のＱＭＦ領域信号ｑ_{ｓｙｎ，ｐｏｗ}（ｎ，ｒ）は、一般的には、次式により実現される。

ここで、Ｐ_０（ｒ），Ｐ_１（ｒ）はそれぞれ以下の数式（３１）及び数式（３２）で表される。

この自動利得制御処理により、線形予測フィルタ部２ｋの出力信号の高周波成分の電力は線形予測フィルタ処理前と等しい値に調整される。その結果、ＳＢＲに基づいて生成された高周波成分の時間エンベロープを変形した線形予測フィルタ部２ｋの出力信号において、高周波調整部２ｊにおいて行われた高周波信号の電力の調整の効果が保たれる。なお、この自動利得制御処理は，ＱＭＦ領域の信号の任意の周波数範囲に対して個別に行うことも可能である。個々の周波数範囲に対する処理は、それぞれ、数式（３０）、数式（３１）、数式（３２）のｎをある周波数範囲に限定することで実現できる。例えばｉ番目の周波数範囲はＦ_ｉ≦ｎ＜Ｆ_ｉ＋１と表すことができる（この場合のｉは、ＱＭＦ領域の信号の任意の周波数範囲の番号を示すインデックスである）。Ｆ_ｉは周波数範囲の境界を示し、“MPEG4AAC”のＳＢＲにおいて規定されるエンベロープスケールファクタの周波数境界テーブルであることが望ましい。周波数境界テーブルは“MPEG4AAC”のＳＢＲの規定に従い、高周波生成部２ｇにおいて決定される。この自動利得制御処理により、線形予測フィルタ部２ｋの出力信号の高周波成分の任意の周波数範囲内の電力は線形予測フィルタ処理前と等しい値に調整される。その結果、ＳＢＲに基づいて生成された高周波成分の時間エンベロープを変形した線形予測フィルタ部２ｋの出力信号で、高周波調整部２ｊにおいて行われた高周波信号の電力の調整の効果が周波数範囲の単位で保たれる。また、第１の実施形態の本変形例３と同様の変更を第４の実施形態における線形予測フィルタ部２ｋに加えてもよい。

（第３の実施形態の変形例１）
第３の実施形態の音声符号化装置１３におけるエンベロープ形状パラメータ算出部１ｎは、以下のような処理で実現することもできる。エンベロープ形状パラメータ算出部１ｎは、符号化フレーム内のＳＢＲエンベロープの各々について、次の数式（３３）に従ってエンベロープ形状パラメータｓ（ｉ）（０≦ｉ＜Ｎｅ）を取得する。

ただし、

はe（ｒ）のＳＢＲエンベロープ内での平均値であり、その算出方法は数式（２１）に従う。ただし、ＳＢＲエンベロープとは、ｂ_ｉ≦ｒ＜ｂ_ｉ＋１を満たす時間範囲を示す。また、｛ｂ_ｉ｝は、ＳＢＲ補助情報に情報として含まれている、ＳＢＲエンベロープの時間境界であり、任意の時間範囲、任意の周波数範囲の平均信号エネルギーを表すＳＢＲエンベロープスケールファクタが対象とする時間範囲の境界である。また、ｍｉｎ（・）はｂ_ｉ≦ｒ＜ｂ_ｉ＋１の範囲における最小値を表す。従って、この場合には、エンベロープ形状パラメータｓ（ｉ）は、調整後の時間エンベロープ情報のＳＢＲエンベロープ内での最小値と平均値の比率を指示するパラメータである。また、第３の実施形態の音声復号装置２３におけるエンベロープ形状調整部２ｓは、以下のような処理で実現することもできる。エンベロープ形状調整部２ｓは、ｓ（ｉ）を用いてｅ（ｒ）を調整し、調整後の時間エンベロープ情報ｅ_ａｄｊ（ｒ）を取得する。調整の方法は次の数式（３５）又は数式（３６）に従う。

数式３５は、調整後の時間エンベロープ情報ｅ_ａｄｊ（ｒ）のＳＢＲエンベロープ内での最小値と平均値の比率が、エンベロープ形状パラメータｓ（ｉ）の値と等しくなるようエンベロープ形状を調整するものである。また、上記した第３の実施形態の本変形例１と同様の変更を第４の実施形態に加えてもよい。

（第３の実施形態の変形例２）
時間エンベロープ変形部２ｖは、数式（２８）に代わり、次の数式を利用することもできる。数式（３７）に示すとおり、ｅ_{ａｄｊ，ｓｃａｌｅｄ}（ｒ）は、ｑ_ａｄｊ（ｋ，ｒ）とｑ_{ｅｎｖａｄｊ}（ｋ，ｒ）のＳＢＲエンベロープ内での電力が等しくなるよう調整後の時間エンベロープ情報ｅ_ａｄｊ（ｒ）の利得を制御したものである。また、数式（３８）に示すとおり、第３の実施形態の本変形例２では、ｅ_ａｄｊ（ｒ）ではなくｅ_{ａｄｊ，ｓｃａｌｅｄ}（ｒ）をＱＭＦ領域の信号ｑ_ａｄｊ（ｋ，ｒ）に乗算してｑ_{ｅｎｖａｄｊ}（ｋ，ｒ）を得る。従って、時間エンベロープ変形部２ｖは、ＳＢＲエンベロープ内での信号電力が時間エンベロープの変形の前と後で等しくなるようにＱＭＦ領域の信号ｑ_ａｄｊ（ｋ，ｒ）の時間エンベロープの変形を行うことができる。ただし、ＳＢＲエンベロープとは、ｂ_ｉ≦ｒ＜ｂ_ｉ＋１を満たす時間範囲を示す。また、｛ｂ_ｉ｝は、ＳＢＲ補助情報に情報として含まれている、ＳＢＲエンベロープの時間境界であり、任意の時間範囲、任意の周波数範囲の平均信号エネルギーを表すＳＢＲエンベロープスケールファクタが対象とする時間範囲の境界である。また、本発明の実施例中における用語“ＳＢＲエンベロープ”は、“ISO/IEC 14496-3”に規定される“MPEG4AAC”における用語“ＳＢＲエンベロープ時間セグメント”に相当し、実施例全体を通して“ＳＢＲエンベロープ”は“ＳＢＲエンベロープ時間セグメント”と同一の内容を意味する。

また、上記した第３の実施形態の本変形例２と同様の変更を第４の実施形態に加えてもよい。

（第３の実施形態の変形例３）
数式（１９）は下記の数式（３９）であってもよい。

数式（２２）は下記の数式（４０）であってもよい。

数式（２６）は下記の数式（４１）であってもよい。

数式（３９）及び数式（４０）にしたがった場合、時間エンベロープ情報ｅ（ｒ）は、ＱＭＦサブバンドサンプルごとの電力をＳＢＲエンベロープ内での平均電力で正規化し、さらに平方根をとったものとなる。ただし、ＱＭＦサブバンドサンプルは、ＱＭＦ領域信号において、同一の時間インデックス“ｒ”に対応する信号ベクトルであり、QMF領域における一つのサブサンプルを意味する。また、本発明の実施形態全体において、用語”時間スロット”は”ＱＭＦサブバンドサンプル”と同一の内容を意味する。この場合、時間エンベロープ情報ｅ（ｒ）は、各ＱＭＦサブバンドサンプルへ乗算されるべきゲイン係数を意味することとなり、調整後の時間エンベロープ情報ｅ_ａｄｊ（ｒ）も同様である。

（第４の実施形態の変形例１）
第４の実施形態の変形例１の音声復号装置２４ａ（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ａの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声復号装置２４ａを統括的に制御する。音声復号装置２４ａの通信装置は、音声符号化装置１１又は音声符号化装置１３から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ａは、機能的には、音声復号装置２４のビットストリーム分離部２ａ３に代わり、ビットストリーム分離部２ａ４（不図示）を備え、さらに、補助情報変換部２ｗに代わり、時間エンベロープ補助情報生成部２ｙ（不図示）を備える。ビットストリーム分離部２ａ４は、多重化ビットストリームを、ＳＢＲ補助情報と、符号化ビットストリームとに分離する。時間エンベロープ補助情報生成部２ｙは、符号化ビットストリームおよびＳＢＲ補助情報に含まれる情報に基づいて、時間エンベロープ補助情報を生成する。

あるＳＢＲエンベロープにおける時間エンベロープ補助情報の生成には、例えば当該ＳＢＲエンベロープの時間幅（ｂ_ｉ＋１−ｂ_ｉ）、フレームクラス、逆フィルタの強度パラメータ、ノイズフロア、高周波電力の大きさ、高周波電力と低周波電力の比率、ＱＭＦ領域で表現された低周波信号を周波数方向に線形予測分析した結果の自己相関係数または予測ゲインなどを用いることができる。これらのパラメータの一つ、または複数の値に基づいてＫ（ｒ）またはｓ（ｉ）を決定することで、時間エンベロープ補助情報を生成することができる。例えばＳＢＲエンベロープの時間幅（ｂ_ｉ＋１−ｂ_ｉ）が広いほどＫ（ｒ）またはｓ（ｉ）が小さくなるよう、またはＳＢＲエンベロープの時間幅（ｂ_ｉ＋１−ｂ_ｉ）が広いほどＫ（ｒ）またはｓ（ｉ）が大きくなるよう（ｂ_ｉ＋１−ｂ_ｉ）に基づいてＫ（ｒ）またはｓ（ｉ）を決定することで、時間エンベロープ補助情報を生成することができる。また、同様の変更を第１の実施形態及び第３の実施形態に加えてもよい。

（第４の実施形態の変形例２）
第４の実施形態の変形例２の音声復号装置２４ｂ（図１５参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｂの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声復号装置２４ｂを統括的に制御する。音声復号装置２４ｂの通信装置は、音声符号化装置１１又は音声符号化装置１３から出力される符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｂは、図１５に示すとおり、高周波調整部２ｊにかえて、一次高周波調整部２ｊ１と二次高周波調整部２ｊ２とを備える。

ここで、一次高周波調整部２ｊ１は、“MPEG4 AAC”のＳＢＲにおける“HFadjustment”ステップにある、高周波帯域のＱＭＦ領域の信号に対する時間方向の線形予測逆フィルタ処理、ゲインの調整及びノイズの重畳処理による調整を行う。このとき、一次高周波調整部２ｊ１の出力信号は、“ISO/IEC14496-3:2005”の“SBRtool”内、4.6.18.7.6節“Assembling HF signals”の記述内における信号Ｗ_２に相当するものとなる。線形予測フィルタ部２ｋ（又は、線形予測フィルタ部２ｋ１）および時間エンベロープ変形部２ｖは、一次高周波調整部の出力信号を対象に時間エンベロープの変形を行う。二次高周波調整部２ｊ２は、時間エンベロープ変形部２ｖから出力されたＱＭＦ領域の信号に対し、“MPEG4AAC”のＳＢＲにおける“HFadjustment”ステップにある正弦波の付加処理を行う。二次高周波調整部の処理は、“ISO/IEC14496-3:2005”の“SBRtool”内、4.6.18.7.6節“Assembling HF signals”の記述内における、信号Ｗ_２から信号Ｙを生成する処理において、信号Ｗ_２を時間エンベロープ変形部２ｖの出力信号に置き換えた処理に相当する。

なお、上記の説明では正弦波付加処理のみを二次高周波調整部２ｊ２の処理としたが、“HF adjustment”ステップにある処理のいずれかを二次高周波調整部２ｊ２の処理としてよい。また、同様な変形は、第１の実施形態、第２の実施形態、第３の実施形態に加えてもよい。この際、第１の実施形態および第２の実施形態は線形予測フィルタ部（線形予測フィルタ部２ｋ，２ｋ１）を備え、時間エンベロープ変形部を備えないため、一次高周波調整部２ｊ１の出力信号に対して線形予測フィルタ部での処理を行った後、線形予測フィルタ部の出力信号を対象に二次高周波調整部２ｊ２での処理を行う。

また、第３の実施形態は時間エンベロープ変形部２ｖを備え、線形予測フィルタ部を備えないため、一次高周波調整部２ｊ１の出力信号に対して時間エンベロープ変形部２ｖでの処理を行った後、時間エンベロープ変形部２ｖの出力信号を対象に二次高周波調整部での処理を行う。

また、第４の実施形態の音声復号装置（音声復号装置２４，２４ａ，２４ｂ）において、線形予測フィルタ部２ｋと時間エンベロープ変形部２ｖの処理の順序は逆でもよい。すなわち、高周波調整部２ｊまたは一次高周波調整部２ｊ１の出力信号に対して、時間エンベロープ変形部２ｖの処理を先に行い、次に、時間エンベロープ変形部２ｖの出力信号に対して線形予測フィルタ部２ｋの処理を行ってもよい。

また、時間エンベロープ補助情報は線形予測フィルタ部２ｋまたは時間エンベロープ変形部２ｖでの処理を行うか否かを指示する２値の制御情報を含み、この制御情報が線形予測フィルタ部２ｋまたは時間エンベロープ変形部２ｖでの処理を行うことを指示している場合に限って、フィルタ強度パラメータＫ（ｒ）、エンベロープ形状パラメータｓ（ｉ）、またはＫ（ｒ）とｓ（ｉ）の双方を決定するパラメータであるＸ（ｒ）のいずれか一つ以上をさらに情報として含む形式をとってもよい。

（第４の実施形態の変形例３）
第４の実施形態の変形例３の音声復号装置２４ｃ（図１６参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｃの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図１７のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｃを統括的に制御する。音声復号装置２４ｃの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｃは、図１６に示すとおり、高周波調整部２ｊにかえて、一次高周波調整部２ｊ３と二次高周波調整部２ｊ４とを備え、さらに線形予測フィルタ部２ｋと時間エンベロープ変形部２ｖに代えて個別信号成分調整部２ｚ１，２ｚ２，２ｚ３を備える（個別信号成分調整部は、時間エンベロープ変形手段に相当する）。

一次高周波調整部２ｊ３は、高周波帯域のＱＭＦ領域の信号を、複写信号成分として出力する。一次高周波調整部２ｊ３は、高周波帯域のＱＭＦ領域の信号に対して、ビットストリーム分離部２ａ３から与えられるＳＢＲ補助情報を利用して時間方向の線形予測逆フィルタ処理及びゲインの調整（周波数特性の調整）の少なくとも一方を行った信号を複写信号成分として出力してもよい。さらに、一次高周波調整部２ｊ３は、ビットストリーム分離部２ａ３から与えられるＳＢＲ補助情報を利用してノイズ信号成分および正弦波信号成分を生成し、複写信号成分、ノイズ信号成分および正弦波信号成分を分離された形で各々出力する（ステップＳｇ１の処理）。ノイズ信号成分および正弦波信号成分は、ＳＢＲ補助情報の内容に依存し、生成されない場合があってもよい。

個別信号成分調整部２ｚ１，２ｚ２，２ｚ３は、前記一次高周波調整部の出力に含まれる複数の信号成分の各々に対し処理を行う（ステップＳｇ２の処理）。個別信号成分調整部２ｚ１，２ｚ２，２ｚ３における処理は、線形予測フィルタ部２ｋと同様の、フィルタ強度調整部２ｆから得られた線形予測係数を用いた周波数方向の線形予測合成フィルタ処理であってもよい（処理１）。また、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３における処理は、時間エンベロープ変形部２ｖと同様の、エンベロープ形状調整部２ｓから得られた時間エンベロープを用いて各ＱＭＦサブバンドサンプルへゲイン係数を乗算する処理であってもよい（処理２）。また、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３における処理は、入力信号に対して線形予測フィルタ部２ｋと同様の、フィルタ強度調整部２ｆから得られた線形予測係数を用いた周波数方向の線形予測合成フィルタ処理を行った後、その出力信号に対してさらに時間エンベロープ変形部２ｖと同様の、エンベロープ形状調整部２ｓから得られた時間エンベロープを用いて各ＱＭＦサブバンドサンプルへゲイン係数を乗算する処理を行うことであってもよい（処理３）。また、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３における処理は、入力信号に対して時間エンベロープ変形部２ｖと同様の、エンベロープ形状調整部２ｓから得られた時間エンベロープを用いて各ＱＭＦサブバンドサンプルへゲイン係数を乗算する処理を行った後、その出力信号に対してさらに線形予測フィルタ部２ｋと同様の、フィルタ強度調整部２ｆから得られた線形予測係数を用いた周波数方向の線形予測合成フィルタ処理を行うことであってもよい（処理４）。また、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３は入力信号に対して時間エンベロープ変形処理を行わず、入力信号をそのまま出力するものであってもよい（処理５）また、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３における処理は、処理１〜５以外の方法で入力信号の時間エンベロープを変形するための何らかの処理を加えるものであってもよい（処理６）。また、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３における処理は、処理１〜６のうちの複数の処理を任意の順序で組み合わせた処理であってもよい（処理７）。

個別信号成分調整部２ｚ１，２ｚ２，２ｚ３における処理は互いに同じでもよいが、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３は、一次高周波調整部の出力に含まれる複数の信号成分の各々に対し互いに異なる方法で時間エンベロープの変形を行ってもよい。例えば個別信号成分調整部２ｚ１は入力された複写信号に対し処理２を行い、個別信号成分調整部２ｚ２は入力されたノイズ信号成分に対して処理３を行い、個別信号成分調整部２ｚ３は入力された正弦波信号に対して処理５を行うといったように、複写信号、ノイズ信号、正弦波信号の各々に対して互いに異なる処理を行ってよい。また、この際、フィルタ強度調整部２ｆとエンベロープ形状調整部２ｓは、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３の各々に対して互いに同じ線形予測係数や時間エンベロープを送信してもよいが、互いに異なる線形予測係数や時間エンベロープを送信してもよく、また個別信号成分調整部２ｚ１，２ｚ２，２ｚ３のいずれか２つ以上に対して同一の線形予測係数や時間エンベロープを送信してもよい。個別信号成分調整部２ｚ１，２ｚ２，２ｚ３の１つ以上は、時間エンベロープ変形処理を行わず、入力信号をそのまま出力するもの（処理５）であってもよいため、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３は全体として、一次高周波調整部２ｊ３から出力された複数の信号成分の少なくとも一つに対し時間エンベロープ処理を行うものである（個別信号成分調整部２ｚ１，２ｚ２，２ｚ３の全てが処理５である場合は、いずれの信号成分に対しても時間エンベロープ変形処理が行われないため、本発明の効果を有さない）。

個別信号成分調整部２ｚ１，２ｚ２，２ｚ３のそれぞれにおける処理は、処理１から処理７のいずれかに固定されていてもよいが、外部から与えられる制御情報に基づいて、処理１から処理７のいずれを行うかが動的に決定されてもよい。この際、上記制御情報は多重化ビットストリームに含まれることが望ましい。また、上記制御情報は、特定のＳＢＲエンベロープ時間セグメント、符号化フレーム、またはその他の時間範囲において処理１から処理７のいずれを行うかを指示するものであってもよく、また、制御の時間範囲を特定せず、処理１から処理７のいずれを行うかを指示するものであってもよい。

二次高周波調整部２ｊ４は、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３から出力された処理後の信号成分を足し合わせ、係数加算部へ出力する（ステップＳｇ３の処理）。また、二次高周波調整部２ｊ４は、複写信号成分に対して、ビットストリーム分離部２ａ３から与えられるＳＢＲ補助情報を利用して時間方向の線形予測逆フィルタ処理及びゲインの調整（周波数特性の調整）の少なくとも一方を行ってもよい。

個別信号成分調整部は２ｚ１，２ｚ２，２ｚ３は互いに協調して動作し、処理１〜７のいずれかの処理を行った後の２つ以上の信号成分を互いに足し合わせ、足し合わされた信号に対してさらに処理１〜７のいずれかの処理を加えて途中段階の出力信号を生成してもよい。この際には、二次高周波調整部２ｊ４は、前記途中段階の出力信号と、前記途中段階の出力信号にまだ足しあわされていない信号成分を足し合わせ、係数加算部へ出力する。具体的には、複写信号成分に処理５を行い、雑音成分に処理１を加えた後にこれら２つの信号成分を互いに足し合わせ、足しあわされた信号に対してさらに処理２を加えて途中段階の出力信号を生成することが望ましい。この際には、二次高周波調整部２ｊ４は、前記途中段階の出力信号に正弦波信号成分を足し合わせ、係数加算部へ出力する。

一次高周波調整部２ｊ３は、複写信号成分、ノイズ信号成分、正弦波信号成分の３つの信号成分に限らず、任意の複数の信号成分を互いに分離された形で出力してもよい。この場合の信号成分は、複写信号成分、ノイズ信号成分、正弦波信号成分のうち２つ以上を足し合わせたものであってもよい。また、複写信号成分、ノイズ信号成分、正弦波信号成分のいずれかを帯域分割した信号であってもよい。信号成分の数は３以外であってもよく、この場合には個別信号成分調整部の数は３以外であってよい。

ＳＢＲによって生成される高周波信号は、低周波帯域を高周波帯域に複写して得られた複写信号成分と、ノイズ信号、正弦波信号の３つの要素から構成される。複写信号、ノイズ信号、正弦波信号の各々は、互いに異なる時間エンベロープを持つため、本変形例の個別信号成分調整部が行うように、各々の信号成分に対して互いに異なる方法で時間エンベロープの変形を行うことにより、本発明の他の実施例と比較し、復号信号の主観品質をさらに向上させることができる。特に、ノイズ信号は一般に平坦な時間エンベロープを持ち、複写信号は低周波帯域の信号に近い時間エンベロープを持つため、これらを分離して扱い、互いに異なる処理を加えることにより、複写信号とノイズ信号の時間エンベロープを独立に制御することが可能となり、これは復号信号の主観品質向上に有効である。具体的には、ノイズ信号に対しては時間エンベロープを変形させる処理（処理３または処理４）を行い、複写信号に対しては、ノイズ信号に対するものとは異なる処理（処理１または処理２）を行い、さらに、正弦波信号に対しては、処理５を行う（すなわち、時間エンベロープ変形処理を行わない）ことが好ましい。または、ノイズ信号に対しては時間エンベロープの変形処理（処理３または処理４）を行い、複写信号と正弦波信号に対しては、処理５を行う（すなわち、時間エンベロープ変形処理を行わない）ことが好ましい。

（第１の実施形態の変形例４）
第１の実施形態の変形例４の音声符号化装置１１ｂ（図４４）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１１ｂの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１１ｂを統括的に制御する。音声符号化装置１１ｂの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置１１ｂは、音声符号化装置１１の線形予測分析部１ｅにかえて線形予測分析部１ｅ１を備え、時間スロット選択部１ｐをさらに備える。

時間スロット選択部１ｐは、周波数変換部１ａからＱＭＦ領域の信号を受け取り、線形予測分析部１ｅ１での線形予測分析処理を施す時間スロットを選択する。線形予測分析部１ｅ１は、時間スロット選択部１ｐより通知された選択結果に基づき、選択された時間スロットのQMF領域信号を線形予測分析部１ｅと同様に線形予測分析し、高周波線形予測係数、低周波線形予測係数のうち少なくともひとつを取得する。フィルタ強度パラメータ算出部１ｆは、線形予測分析部１ｅ１において得られた、時間スロット選択部１ｐで選択された時間スロットの線形予測係数を用いてフィルタ強度パラメータを算出する。時間スロット選択部１ｐでの時間スロットの選択では、例えば後に記載の本変形例の復号装置２１ａにおける時間スロット選択部３ａと同様の高周波成分のＱＭＦ領域信号の信号電力を用いた選択方法のうち少なくともひとつを用いてもよい。その際、時間スロット選択部１ｐにおける高周波成分のＱＭＦ領域信号は、周波数変換部１ａから受け取るＱＭＦ領域の信号のうち、ＳＢＲ符号化部１ｄにおいて符号化される周波数成分であることが望ましい。時間スロットの選択方法は、前記の方法を少なくともひとつ用いてもよく、さらには前記とは異なる方法を少なくともひとつ用いてもよく、さらにはそれらを組み合わせて用いてもよい。

第１の実施形態の変形例４の音声復号装置２１ａ（図１8参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２１ａの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図１９のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２１ａを統括的に制御する。音声復号装置２１ａの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２１ａは、図１８に示すとおり、音声復号装置２１の低周波線形予測分析部２ｄ、信号変化検出部２ｅ、高周波線形予測分析部２ｈ、及び線形予測逆フィルタ部２ｉ、及び線形予測フィルタ部２ｋにかえて、低周波線形予測分析部２ｄ１、信号変化検出部２ｅ１、高周波線形予測分析部２ｈ１、線形予測逆フィルタ部２ｉ１、及び線形予測フィルタ部２ｋ３を備え、時間スロット選択部３ａをさらに備える。

時間スロット選択部３ａは、高周波生成部２ｇにて生成された時間スロットｒの高周波成分のＱＭＦ領域の信号ｑ_ｅｘｐ（ｋ，ｒ）に対して、線形予測フィルタ部２ｋにおいて線形予測合成フィルタ処理を施すか否かを判断し、線形予測合成フィルタ処理を施す時間スロットを選択する（ステップＳｈ１の処理）。時間スロット選択部３ａは、時間スロットの選択結果を、低周波線形予測分析部２ｄ１、信号変化検出部２ｅ１、高周波線形予測分析部２ｈ１、線形予測逆フィルタ部２ｉ１、線形予測フィルタ部２ｋ３に通知する。低周波線形予測分析部２ｄ１では、時間スロット選択部３ａより通知された選択結果に基づき、選択された時間スロットｒ１のＱＭＦ領域信号を、低周波線形予測分析部２ｄと同様に線形予測分析し、低周波線形予測係数を取得する（ステップＳｈ２の処理）。信号変化検出部２ｅ１では、時間スロット選択部３ａより通知された選択結果に基づき、選択された時間スロットのＱＭＦ領域信号の時間変化を、信号変化検出部２ｅと同様に検出し、検出結果Ｔ（ｒ１）を出力する。

フィルタ強度調整部２ｆでは、低周波線形予測分析部２ｄ１において得られた、時間スロット選択部３ａで選択された時間スロットの低周波線形予測係数に対してフィルタ強度調整を行い、調整された線形予測係数ａ_ｄｅｃ（ｎ，ｒ１）を得る。高周波線形予測分析部２ｈ１では、高周波生成部２ｇによって生成された高周波成分のＱＭＦ領域信号を、時間スロット選択部３ａより通知された選択結果に基づき、選択された時間スロットｒ１に関して、高周波線形予測分析部２ｈと同様に、周波数方向に線形予測分析し、高周波線形予測係数ａ_ｅｘｐ（ｎ，ｒ１）を取得する（ステップＳｈ３の処理）。線形予測逆フィルタ部２ｉ１では、時間スロット選択部３ａより通知された選択結果に基づき、選択された時間スロットｒ１の高周波成分のＱＭＦ領域の信号ｑ_ｅｘｐ（ｋ，ｒ）を、線形予測逆フィルタ部２ｉと同様に周波数方向にａ_ｅｘｐ（ｎ，ｒ１）を係数とする線形予測逆フィルタ処理を行う（ステップＳｈ４の処理）。

線形予測フィルタ部２ｋ３では、時間スロット選択部３ａより通知された選択結果に基づき、選択された時間スロットｒ１の高周波調整部２ｊから出力された高周波成分のＱＭＦ領域の信号ｑ_ａｄｊ（ｋ，ｒ１）に対し、線形予測フィルタ部２ｋと同様に、フィルタ強度調整部２ｆから得られたａ_ａｄｊ（ｎ，ｒ１）を用いて、周波数方向に線形予測合成フィルタ処理を行う（ステップＳｈ５の処理）。また、変形例３に記載の線形予測フィルタ部２ｋへの変更を、線形予測フィルタ部２ｋ３に加えてもよい。時間スロット選択部３ａでの線形予測合成フィルタ処理を施す時間スロットの選択では、例えば高周波成分のＱＭＦ領域信号ｑ_ｅｘｐ（ｋ，ｒ）の信号電力が所定の値Ｐ_{ｅｘｐ，Ｔｈ}よりも大きい時間スロットｒをひとつ以上選択してもよい。ｑ_ｅｘｐ（ｋ，ｒ）の信号電力は次の数式で求めることが望ましい。

ただし、Ｍは高周波生成部２ｇによって生成される高周波成分の下限周波数ｋ_ｘより高い周波数の範囲を表す値であり、さらには高周波生成部２ｇによって生成される高周波成分の周波数範囲をｋ_ｘ＜＝ｋ＜ｋ_ｘ＋Ｍのように表してもよい。また、所定の値Ｐ_{ｅｘｐ，Ｔｈ}は時間スロットｒを含む所定の時間幅のＰ_ｅｘｐ（ｒ）の平均値でもよい。さらに所定の時間幅はＳＢＲエンベロープでもよい。

また、高周波成分のＱＭＦ領域信号の信号電力がピークになる時間スロットが含まれるように選択してもよい。信号電力のピークは、例えば信号電力の移動平均値

について

が正の値から負の値に変わる時間スロットｒの高周波成分のＱＭＦ領域の信号電力をピークとしてもよい。信号電力の移動平均値

は、例えば次の式で求めることができる。

ただし、ｃは平均値を求める範囲を定める所定の値である。また信号電力のピークは、前記の方法で求めてもよく、異なる方法により求めてもよい。

さらに、高周波成分のＱＭＦ領域信号の信号電力の変動が小さい定常状態から変動の大きい過渡状態になるまでの時間幅tが所定の値ｔ_ｔｈよりも小さく、当該時間幅に含まれる時間スロットを少なくともひとつ選択してもよい。さらに、高周波成分のＱＭＦ領域信号の信号電力の変動が大きい過渡状態から変動の小さい定常状態になるまでの時間幅tが所定の値ｔ_ｔｈよりも小さく、当該時間幅に含まれる時間スロットを少なくともひとつ選択してもよい。｜Ｐ_ｅｘｐ（ｒ＋１）−Ｐ_ｅｘｐ（ｒ）｜が所定の値よりも小さい（または、所定の値と等しいまたは小さい）時間スロットrを前記定常状態とし、｜Ｐ_ｅｘｐ（ｒ＋１）−Ｐ_ｅｘｐ（ｒ）｜が所定の値と等しいまたは大きい（または、所定の値よりも大きい）時間スロットｒを前記過渡状態としてもよく、｜Ｐ_{ｅｘｐ，ＭＡ}（ｒ＋１）−Ｐ_{ｅｘｐ，ＭＡ}（ｒ）｜が所定の値よりも小さい（または、所定の値と等しいまたは小さい）時間スロットｒを前記定常状態とし、｜Ｐ_{ｅｘｐ，ＭＡ}（ｒ＋１）−Ｐ_{ｅｘｐ，ＭＡ}（ｒ）｜が所定の値と等しいまたは大きい（または、所定の値よりも大きい）時間スロットｒを前記過渡状態としてもよい。また過渡状態、定常状態は前記の方法で定義してもよく、異なる方法で定義してもよい。時間スロットの選択方法は、前記の方法を少なくともひとつ用いてもよく、さらには前記とは異なる方法を少なくともひとつ用いてもよく、さらにはそれらを組み合わせても良い。

（第１の実施形態の変形例５）
第１の実施形態の変形例５の音声符号化装置１１ｃ(図４５)は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１１ｃの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１１ｃを統括的に制御する。音声符号化装置１１ｃの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置１１ｃは、変形例４の音声符号化装置１１ｂの時間スロット選択部１ｐ、及びビットストリーム多重化部１ｇにかえて、時間スロット選択部１ｐ１、及びビットストリーム多重化部１ｇ４を備える。

時間スロット選択部１ｐ１は、第1の実施形態の変形例４に記載の時間スロット選択部１ｐと同様に時間スロットを選択し、時間スロット選択情報をビットストリーム多重化部１ｇ４へ送る。ビットストリーム多重化部１ｇ４は、コアコーデック符号化部１ｃによって算出された符号化ビットストリームと、ＳＢＲ符号化部１ｄによって算出されたＳＢＲ補助情報と、フィルタ強度パラメータ算出部１ｆによって算出されたフィルタ強度パラメータとを、ビットストリーム多重化部１ｇと同様に多重化し、さらに時間スロット選択部１ｐ１から受け取った時間スロット選択情報とを多重化し、多重化ビットストリームを、音声符号化装置１１ｃの通信装置を介して出力する。前記時間スロット選択情報は、後に記載の音声復号装置２１ｂにおける時間スロット選択部３ａ１が受け取る時間スロット選択情報であり、例えば選択する時間スロットのインデックスｒ１を含んでいてもよい。さらに、例えば時間スロット選択部３ａ１の時間スロット選択方法に利用されるパラメータでもよい。第１の実施形態の変形例５の音声復号装置２１ｂ（図２０参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２１ｂの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図２１のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２１ｂを統括的に制御する。音声復号装置２１ｂの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。

音声復号装置２１ｂは、図２０に示すとおり、変形例４の音声復号装置２１ａのビットストリーム分離部２ａ、及び時間スロット選択部３ａにかえて、ビットストリーム分離部２ａ５、及び時間スロット選択部３ａ１を備え、時間スロット選択部３ａ１に時間スロット選択情報が入力される。ビットストリーム分離部２ａ５では、多重化ビットストリームを、ビットストリーム分離部２ａと同様に、フィルタ強度パラメータと、ＳＢＲ補助情報と、符号化ビットストリームとに分離し、時間スロット選択情報をさらに分離する。時間スロット選択部３ａ１では、ビットストリーム分離部２ａ５から送られた時間スロット選択情報に基づいて時間スロットを選択する（ステップＳｉ１の処理）。時間スロット選択情報は、時間スロットの選択に用いる情報であり、例えば選択する時間スロットのインデックスｒ１を含んでいてもよい。さらに、例えば変形例4に記載の時間スロット選択方法に利用されるパラメータでもよい。この場合、時間スロット選択部３ａ１には、時間スロット選択情報に加えて、図示されていないが高周波生成部２ｇにて生成された高周波成分のＱＭＦ領域信号も入力される。前記パラメータは、例えば前記時間スロットの選択のために用いる所定の値（例えば、Ｐ_{ｅｘｐ，Ｔｈ}、ｔ_Ｔｈなど）でもよい。

（第１の実施形態の変形例６）
第１の実施形態の変形例６の音声符号化装置１１ｄ（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１１ｄの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１１ｄを統括的に制御する。音声符号化装置１１ｄの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置１１ｄは、変形例１の音声符号化装置１１ａの短時間電力算出部１ｉにかえて、図示しない短時間電力算出部１ｉ１を備え、時間スロット選択部１ｐ２をさらに備える。

時間スロット選択部１ｐ２は、周波数変換部１ａからＱＭＦ領域の信号を受け取り、短時間電力算出部１ｉでの短時間電力算出処理を施す時間区間に対応する時間スロットを選択する。短時間電力算出部１ｉ１は、時間スロット選択部１ｐ２より通知された選択結果に基づき、選択された時間スロットに対応する時間区間の短時間電力を、変形例１の音声符号化装置１１ａの短時間電力算出部１ｉと同様に算出する。

（第１の実施形態の変形例７）
第１の実施形態の変形例７の音声符号化装置１１ｅ（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１１ｅの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１１ｅを統括的に制御する。音声符号化装置１１ｅの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置１１ｅは、変形例６の音声符号化装置１１ｄの時間スロット選択部１ｐ２にかえて、図示しない時間スロット選択部１ｐ３を備える。さらに、ビットストリーム多重化部１ｇ１にかえて、時間スロット選択部１ｐ３からの出力をさらに受けるビットストリーム多重化部を備える。時間スロット選択部１ｐ３は、第1の実施形態の変形例６に記載の時間スロット選択部１ｐ２と同様に時間スロットを選択し、時間スロット選択情報をビットストリーム多重化部へ送る。

（第１の実施形態の変形例８）
第１の実施形態の変形例８の音声符号化装置（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の変形例８の音声符号化装置の内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって変形例８の音声符号化装置を統括的に制御する。変形例８の音声符号化装置の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。変形例８の音声符号化装置は、変形例２に記載の音声符号化装置に加え、時間スロット選択部１ｐをさらに備える。

第１の実施形態の変形例８の音声復号装置（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の変形例８の音声復号装置の内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって変形例８の音声復号装置を統括的に制御する。変形例８の音声復号装置の通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。変形例８の音声復号装置は、変形例２に記載の音声復号装置の低周波線形予測分析部２ｄ、信号変化検出部２ｅ、高周波線形予測分析部２ｈ、及び線形予測逆フィルタ部２ｉ、及び線形予測フィルタ部２ｋにかえて、低周波線形予測分析部２ｄ１、信号変化検出部２ｅ１、高周波線形予測分析部２ｈ１、線形予測逆フィルタ部２ｉ１、及び線形予測フィルタ部２ｋ３を備え、時間スロット選択部３ａをさらに備える。

（第1の実施形態の変形例９）
第１の実施形態の変形例９の音声符号化装置（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の変形例９の音声符号化装置の内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって変形例９の音声符号化装置を統括的に制御する。変形例９の音声符号化装置の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。変形例９の音声符号化装置は、変形例８に記載の音声符号化装置の時間スロット選択部１ｐにかえて、時間スロット選択部１ｐ１を備える。さらに、変形例８に記載のビットストリーム多重化部にかえて、変形例８に記載のビットストリーム多重化部への入力に加えて時間スロット選択部１ｐ１からの出力をさらに受けるビットストリーム多重化部を備える。

第１の実施形態の変形例９の音声復号装置（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の変形例９の音声復号装置の内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって変形例９の音声復号装置を統括的に制御する。変形例９の音声復号装置の通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。変形例９の音声復号装置は、変形例８に記載の音声復号装置の時間スロット選択部３ａにかえて、時間スロット選択部３ａ１を備える。さらに、ビットストリーム分離部２ａにかえて、ビットストリーム分離部２ａ５のフィルタ強度パラメータにかえて前記変形例２に記載のａ_Ｄ（ｎ，ｒ）を分離するビットストリーム分離部を備える。

（第２の実施形態の変形例１）
第２の実施形態の変形例１の音声符号化装置１２ａ(図４６)は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１２ａの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１２ａを統括的に制御する。音声符号化装置１２ａの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置１２ａは、音声符号化装置１２の線形予測分析部１ｅにかえて、線形予測分析部１ｅ１を備え、時間スロット選択部１ｐをさらに備える。

第２の実施形態の変形例１の音声復号装置２２ａ（図２２参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２２ａの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図２３のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２２ａを統括的に制御する。音声復号装置２２ａの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２２ａは、図２２に示すとおり、第２の実施形態の音声復号装置２２の高周波線形予測分析部２ｈ、線形予測逆フィルタ部２ｉ、線形予測フィルタ部２ｋ１、及び線形予測補間・補外部２ｐにかえて、高周波線形予測分析部２ｈ１、線形予測逆フィルタ部２ｉ１、線形予測フィルタ部２ｋ２、及び線形予測補間・補外部２ｐ１を備え、時間スロット選択部３ａをさらに備える。

時間スロット選択部３ａは、時間スロットの選択結果を、高周波線形予測分析部２ｈ１、線形予測逆フィルタ部２ｉ１、線形予測フィルタ部２ｋ２、線形予測係数補間・補外部２ｐ１に通知する。線形予測係数補間・補外部２ｐ１では、時間スロット選択部３ａより通知された選択結果に基づき、選択された時間スロットであり線形予測係数の伝送されていない時間スロットｒ１に対応するａ_Ｈ（ｎ，ｒ）を、線形予測係数補間・補外部２ｐと同様に、補間又は補外により取得する（ステップＳｊ１の処理）。線形予測フィルタ部２ｋ２では、時間スロット選択部３ａより通知された選択結果に基づき、選択された時間スロットｒ１に関して、高周波調整部２ｊから出力されたｑ_ａｄｊ（ｎ，ｒ１）に対し、線形予測係数補間・補外部２ｐ１から得られた、補間又は補外されたａ_Ｈ（ｎ，ｒ１）を用いて、線形予測フィルタ部２ｋ１と同様に、周波数方向に線形予測合成フィルタ処理を行う（ステップＳｊ２の処理）。また、第１の実施形態の変形例３に記載の線形予測フィルタ部２ｋへの変更を、線形予測フィルタ部２ｋ２に加えてもよい。

（第２の実施形態の変形例２）
第２の実施形態の変形例２の音声符号化装置１２ｂ（図４７）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１２ｂの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１１ｂを統括的に制御する。音声符号化装置１２ｂの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置１２ｂは、変形例１の音声符号化装置１２ａの時間スロット選択部１ｐ、及びビットストリーム多重化部１ｇ２にかえて、時間スロット選択部１ｐ１、及びビットストリーム多重化部１ｇ５を備える。ビットストリーム多重化部１ｇ５は、ビットストリーム多重化部１ｇ２と同様に、コアコーデック符号化部１ｃで算出された符号化ビットストリームと、ＳＢＲ符号化部１ｄで算出されたＳＢＲ補助情報と、線形予測係数量子化部１ｋから与えられた量子化後の線形予測係数に対応する時間スロットのインデックスとを多重化し、さらに時間スロット選択部１ｐ１から受け取る時間スロット選択情報をビットストリームに多重化し、多重化ビットストリームを、音声符号化装置１２ｂの通信装置を介して出力する。

第２の実施形態の変形例２の音声復号装置２２ｂ（図２４参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２２ｂの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図２５のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２２ｂを統括的に制御する。音声復号装置２２ｂの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２２ｂは、図２４に示すとおり、変形例１に記載の音声復号装置２２ａのビットストリーム分離部２ａ１、及び時間スロット選択部３ａ、にかえて、ビットストリーム分離部２ａ６、及び時間スロット選択部３ａ１を備え、時間スロット選択部３ａ１に時間スロット選択情報が入力される。ビットストリーム分離部２ａ６では、ビットストリーム分離部２ａ１と同様に、多重化ビットストリームを、量子化されたａ_Ｈ（ｎ，ｒ_ｉ）と、これに対応する時間スロットのインデックスｒ_ｉと、ＳＢＲ補助情報と、符号化ビットストリームとに分離し、時間スロット選択情報をさらに分離する。

（第３の実施形態の変形例４）第３の実施形態の変形例１に記載の

は、ｅ（ｒ）のＳＢＲエンベロープ内での平均値であってもよく、さらに別に定める値であってもよい。

（第３の実施形態の変形例５）
エンベロープ形状調整部２ｓは、前記第３の実施形態の変形例３に記載のとおり、調整後の時間エンベロープｅ_ａｄｊ（ｒ）が例えば数式（２８），数式（３７）及び（３８）のとおり、ＱＭＦサブバンドサンプルへ乗算されるゲイン係数であることを鑑み、ｅ_ａｄｊ（ｒ）を所定の値ｅ_{ａｄｊ，Ｔｈ}（ｒ）により以下のように制限することが望ましい。

（第４の実施形態）
第４の実施形態の音声符号化装置１４（図４８）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１４の内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１４を統括的に制御する。音声符号化装置１４の通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置１４は、第１の実施形態の変形例４の音声符号化装置１１ｂのビットストリーム多重化部１ｇにかえて、ビットストリーム多重化部１ｇ７を備え、さらに音声符号化装置１３の時間エンベロープ算出部１ｍ、及びエンベロープ形状パラメータ算出部１ｎを備える。

ビットストリーム多重化部１ｇ７は、ビットストリーム多重化部１ｇと同様に、コアコーデック符号化部１ｃによって算出された符号化ビットストリームと、ＳＢＲ符号化部１ｄによって算出されたＳＢＲ補助情報とを多重化し、さらに、フィルタ強度パラメータ算出部によって算出されたフィルタ強度パラメータと、エンベロープ形状パラメータ算出部１ｎによって算出されたエンベロープ形状パラメータとを時間エンベロープ補助情報に変換して多重化し、多重化ビットストリーム（符号化された多重化ビットストリーム）を、音声符号化装置１４の通信装置を介して出力する。

（第４の実施形態の変形例４）
第４の実施形態の変形例４の音声符号化装置１４ａ（図４９）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１４ａの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１４ａを統括的に制御する。音声符号化装置１４ａの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置１４ａは、第４の実施形態の音声符号化装置１４の線形予測分析部１ｅにかえて、線形予測分析部１ｅ１を備え、時間スロット選択部１ｐをさらに備える。

第４の実施形態の変形例４の音声復号装置２４ｄ（図２６参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｄの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図２７のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｄを統括的に制御する。音声復号装置２４ｄの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｄは、図２６に示すとおり、音声復号装置２４の低周波線形予測分析部２ｄ、信号変化検出部２ｅ、高周波線形予測分析部２ｈ、及び線形予測逆フィルタ部２ｉ、及び線形予測フィルタ部２ｋにかえて、低周波線形予測分析部２ｄ１、信号変化検出部2e1、高周波線形予測分析部２ｈ１、線形予測逆フィルタ部２ｉ１、及び線形予測フィルタ部２ｋ３を備え、時間スロット選択部３ａをさらに備える。時間エンベロープ変形部２ｖは、線形予測フィルタ部２ｋ３から得られたＱＭＦ領域の信号を、エンベロープ形状調整部２ｓから得られた時間エンベロープ情報を用いて、第３の実施形態、第4の実施形態、及びそれらの変形例の時間エンベロープ変形部２ｖと同様に変形する（ステップＳｋ１の処理）。

（第４の実施形態の変形例５）
第４の実施形態の変形例５の音声復号装置２４ｅ（図２８参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｅの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図２９のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｅを統括的に制御する。音声復号装置２４ｅの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｅは、図２８に示すとおり、変形例５においては、第１の実施形態と同様に第４の実施形態の全体を通して省略可能である、変形例４に記載の音声復号装置２４ｄの高周波線形予測分析部２ｈ１と、線形予測逆フィルタ部２ｉ１を省略し、音声復号装置２４ｄの時間スロット選択部３ａ、及び時間エンベロープ変形部２ｖにかえて、時間スロット選択部３ａ２、及び時間エンベロープ変形部２ｖ１を備える。さらに、第４の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部２ｋ３の線形予測合成フィルタ処理と時間エンベロープ変形部２ｖ１での時間エンベロープの変形処理の順序を入れ替える。

時間エンベロープ変形部２ｖ１は、時間エンベロープ変形部２ｖと同様に、高周波調整部２ｊから得られたｑ_ａｄｊ（ｋ，ｒ）をエンベロープ形状調整部２ｓから得られたｅ_ａｄｊ（ｒ）を用いて変形し、時間エンベロープが変形されたＱＭＦ領域の信号ｑ_{ｅｎｖａｄｊ}（ｋ，ｒ）を取得する。さらに、時間エンベロープ変形処理時に得られたパラメータ、または少なくとも時間エンベロープ変形処理時に得られたパラメータを用いて算出したパラメータを時間スロット選択情報として、時間スロット選択部３ａ２に通知する。時間スロット選択情報としては、数式（２２）、数式（４０）のｅ（ｒ）またはその算出過程にて平方根演算をしない｜ｅ（ｒ）｜^２でもよく、さらにある複数時間スロット区間（例えばＳＢＲエンベロープ）

でのそれらの平均値である数式（２４）の

もあわせて時間スロット選択情報としてもよい。ただし、

である。

さらに時間スロット選択情報としては、数式（２６）、数式（４１）のｅ_ｅｘｐ（ｒ）またはその算出過程にて平方根演算をしない｜ｅ_ｅｘｐ（ｒ）｜^２でもよく、さらにある複数時間スロット区間（例えばＳＢＲエンベロープ）

でのそれらの平均値である

もあわせて時間スロット選択情報としてもよい。ただし、

である。さらに時間スロット選択情報としては、数式（２３）、数式（３５）、数式（３６）のｅ_ａｄｊ（ｒ）またはその算出過程にて平方根演算をしない｜ｅ_ａｄｊ（ｒ）｜^２でもよく、さらにある複数時間スロット区間（例えばＳＢＲエンベロープ）

でのそれらの平均値である

もあわせて時間スロット選択情報としてもよい。ただし、

である。さらに時間スロット選択情報としては、数式（３７）のｅ_{ａｄｊ，ｓｃａｌｅｄ}（ｒ）またはその算出過程にて平方根演算をしない｜ｅ_{ａｄｊ，ｓｃａｌｅｄ}（ｒ）｜^２でもよく、さらにある複数時間スロット区間（例えばＳＢＲエンベロープ）

でのそれらの平均値である

もあわせて時間スロット選択情報としてもよい。ただし、

である。さらに時間スロット選択情報としては、時間エンベロープが変形された高周波成分に対応するＱＭＦ領域信号の時間スロットｒの信号電力Ｐ_{ｅｎｖａｄｊ}（ｒ）またはそれの平方根演算をした信号振幅値

でもよく、さらにある複数時間スロット区間（例えばＳＢＲエンベロープ）

でのそれらの平均値である

もあわせて時間スロット選択情報としてもよい。ただし、

である。ただし、Ｍは高周波生成部２ｇによって生成される高周波成分の下限周波数ｋ_ｘより高い周波数の範囲を表す値であり、さらには高周波生成部２ｇによって生成される高周波成分の周波数範囲をｋ_ｘ≦ｋ＜ｋ_ｘ＋Mのように表してもよい。

時間スロット選択部３a２は、時間エンベロープ変形部２v１から通知された時間スロット選択情報に基づいて、時間エンベロープ変形部２v１にて時間エンベロープを変形された時間スロットｒの高周波成分のＱＭＦ領域の信号ｑ_{ｅｎｖａｄｊ}（ｋ，ｒ）に対して、線形予測フィルタ部２ｋにおいて線形予測合成フィルタ処理を施すか否かを判断し、線形予測合成フィルタ処理を施す時間スロットを選択する(ステップＳｐ１の処理)。

本変形例における時間スロット選択部３ａ２での線形予測合成フィルタ処理を施す時間スロットの選択では、時間エンベロープ変形部２ｖ１から通知された時間スロット選択情報に含まれるパラメータｕ（ｒ）が所定の値ｕ_Ｔｈよりも大きい時間スロットｒをひとつ以上選択してもよく、ｕ（ｒ）が所定の値u_Thよりも大きいか等しい時間スロットｒをひとつ以上選択してもよい。ｕ（ｒ）は、上記ｅ（ｒ）、｜ｅ（ｒ）｜^２、ｅ_ｅｘｐ（ｒ）、｜ｅ_ｅｘｐ（ｒ）｜^２、ｅ_ａｄｊ（ｒ）、｜ｅ_ａｄｊ（ｒ）｜^２、ｅ_{ａｄｊ，ｓｃａｌｅｄ}（ｒ）、｜ｅ_{ａｄｊ，ｓｃａｌｅｄ}（ｒ）｜^２、Ｐ_{ｅｎｖａｄｊ}（ｒ）、そして、

のうち少なくともひとつを含んでいてもよく、ｕ_Ｔｈは、上記

のうち少なくともひとつを含んでもよい。またｕ_Ｔｈは、時間スロットｒを含む所定の時間幅（例えばＳＢＲエンベロープ）のｕ（ｒ）の平均値でもよい。さらに、ｕ（ｒ）がピークになる時間スロットが含まれるように選択してもよい。ｕ（ｒ）のピークは、前記第１の実施形態の変形例４における高周波成分のＱＭＦ領域信号の信号電力のピークの算出と同様に算出できる。さらに、前記第１の実施形態の変形例４における定常状態と過渡状態を、ｕ（ｒ）を用いて前記第１の実施形態の変形例４と同様に判断し、それに基づいて時間スロットを選択してもよい。時間スロットの選択方法は、前記の方法を少なくともひとつ用いてもよく、さらには前記とは異なる方法を少なくともひとつ用いてもよく、さらにはそれらを組み合わせてもよい。

（第４の実施形態の変形例６）
第４の実施形態の変形例６の音声復号装置２４ｆ（図３０参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｆの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図２９のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｆを統括的に制御する。音声復号装置２４ｆの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｆは、図３０に示すとおり、変形例６においては、第１の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例4に記載の音声復号装置２４ｄの信号変化検出部２ｅ１と、高周波線形予測分析部２ｈ１と、線形予測逆フィルタ部２ｉ１を省略し、音声復号装置２４ｄの時間スロット選択部３ａ、及び時間エンベロープ変形部２ｖにかえて、時間スロット選択部３ａ２、及び時間エンベロープ変形部２ｖ１を備える。さらに、第４の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部２ｋ３の線形予測合成フィルタ処理と時間エンベロープ変形部２ｖ１での時間エンベロープの変形処理の順序を入れ替える。

時間スロット選択部３ａ２は、時間エンベロープ変形部２ｖ１から通知された時間スロット選択情報に基づいて、時間エンベロープ変形部２ｖ１にて時間エンベロープを変形された時間スロットｒの高周波成分のＱＭＦ領域の信号ｑ_{ｅｎｖａｄｊ}（ｋ，ｒ）に対して、線形予測フィルタ部２ｋ３において線形予測合成フィルタ処理を施すか否かを判断し、線形予測合成フィルタ処理を施す時間スロットを選択し、選択した時間スロットを低周波線形予測分析部２ｄ１と線形予測フィルタ部２ｋ３に通知する。

（第４の実施形態の変形例７）
第４の実施形態の変形例７の音声符号化装置１４ｂ(図５０)は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声符号化装置１４ｂの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声符号化装置１４ｂを統括的に制御する。音声符号化装置１４ｂの通信装置は、符号化の対象となる音声信号を外部から受信し、更に、符号化された多重化ビットストリームを外部に出力する。音声符号化装置１４ｂは、変形例４の音声符号化装置１４ａのビットストリーム多重化部１ｇ７、及び時間スロット選択部１ｐにかえて、ビットストリーム多重化部１ｇ６、および時間スロット選択部１ｐ１を備える。

ビットストリーム多重化部１ｇ６は、ビットストリーム多重化部１ｇ７と同様に、コアコーデック符号化部１ｃによって算出された符号化ビットストリームと、ＳＢＲ符号化部１ｄによって算出されたＳＢＲ補助情報と、フィルタ強度パラメータ算出部によって算出されたフィルタ強度パラメータとエンベロープ形状パラメータ算出部１ｎによって算出されたエンベロープ形状パラメータとを変換した時間エンベロープ補助情報とを多重化し、さらに時間スロット選択部１ｐ１より受け取った時間スロット選択情報を多重化し、多重化ビットストリーム（符号化された多重化ビットストリーム）を、音声符号化装置１４ｂの通信装置を介して出力する。

第４の実施形態の変形例７の音声復号装置２４g（図３１参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｇの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図３２のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｇを統括的に制御する。音声復号装置２４ｇの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｇは、図３１に示すとおり、変形例４に記載の音声復号装置２４ｄのビットストリーム分離部２ａ３、及び時間スロット選択部３ａにかえて、ビットストリーム分離部２ａ７、及び時間スロット選択部３ａ１を備える。

ビットストリーム分離部２ａ７は、音声復号装置２４ｇの通信装置を介して入力された多重化ビットストリームを、ビットストリーム分離部２a３と同様に、時間エンベロープ補助情報と、ＳＢＲ補助情報と、符号化ビットストリームと、に分離し、さらに時間スロット選択情報とに分離する。

（第４の実施形態の変形例８）
第４の実施形態の変形例８の音声復号装置２４ｈ（図３３参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｈの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図３４のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｈを統括的に制御する。音声復号装置２４ｈの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｈは、図３３に示すとおり、変形例２の音声復号装置２４ｂの低周波線形予測分析部２ｄ、信号変化検出部２ｅ、高周波線形予測分析部２ｈ、線形予測逆フィルタ部２ｉ、及び線形予測フィルタ部２ｋにかえて、低周波線形予測分析部２ｄ１、信号変化検出部２ｅ１、高周波線形予測分析部２ｈ１、線形予測逆フィルタ部２ｉ１、及び線形予測フィルタ部２ｋ３を備え、時間スロット選択部３ａをさらに備える。一次高周波調整部２ｊ１は、第4の実施形態の変形例２における一次高周波調整部２ｊ１と同様に、前記“MPEG-4 AAC”のSBRにおける”HF Adjustment“ステップにある処理のいずれか一つ以上を行う（ステップＳｍ１の処理）。二次高周波調整部２ｊ２は、第4の実施形態の変形例２における二次高周波調整部２ｊ２と同様に、前記“MPEG-4 AAC”のSBRにおける”HF Adjustment“ステップにある処理のいずれか一つ以上を行う（ステップＳｍ２の処理）。二次高周波調整部２ｊ２で行う処理は、前記“MPEG-4 AAC”のSBRにおける”HF Adjustment“ステップにある処理のうち、一次高周波調整部２ｊ１で行われなかった処理とすることが望ましい。

（第４の実施形態の変形例９）
第４の実施形態の変形例９の音声復号装置２４ｉ（図３５参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｉの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図３６のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｉを統括的に制御する。音声復号装置２４ｉの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｉは、図３５に示すとおり、第１の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例８の音声復号装置２４ｈの高周波線形予測分析部２ｈ１、及び線形予測逆フィルタ部２ｉ１を省略し、変形例８の音声復号装置２４ｈの時間エンベロープ変形部２ｖ、及び時間スロット選択部３ａにかえて、時間エンベロープ変形部２ｖ１、及び時間スロット選択部３ａ２を備える。さらに、第４の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部２ｋ３の線形予測合成フィルタ処理と時間エンベロープ変形部２ｖ１での時間エンベロープの変形処理の順序を入れ替える。

（第４の実施形態の変形例１０）
第４の実施形態の変形例１０の音声復号装置２４ｊ（図３７参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｊの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図３６のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｊを統括的に制御する。音声復号装置２４ｊの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｊは、図３７に示すとおり、第１の実施形態と同様に第4の実施形態の全体を通して省略可能である、変形例８の音声復号装置２４ｈの信号変化検出部２ｅ１、高周波線形予測分析部２ｈ１、及び線形予測逆フィルタ部２ｉ１を省略し、変形例８の音声復号装置２４ｈの時間エンベロープ変形部２ｖ、及び時間スロット選択部３ａにかえて、時間エンベロープ変形部２ｖ１、及び時間スロット選択部３ａ２を備える。さらに、第４の実施形態の全体を通して処理順序を入れ替え可能である線形予測フィルタ部２ｋ３の線形予測合成フィルタ処理と時間エンベロープ変形部２ｖ１での時間エンベロープの変形処理の順序を入れ替える。

（第４の実施形態の変形例１１）
第４の実施形態の変形例１１の音声復号装置２４ｋ（図３８参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｋの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図３９のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｋを統括的に制御する。音声復号装置２４ｋの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｋは、図３８に示すとおり、変形例８の音声復号装置２４ｈのビットストリーム分離部２ａ３、及び時間スロット選択部３ａにかえて、ビットストリーム分離部２ａ７、及び時間スロット選択部３ａ１を備える。

（第４の実施形態の変形例１２）
第４の実施形態の変形例１２の音声復号装置２４ｑ（図４０参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｑの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図４１のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｑを統括的に制御する。音声復号装置２４ｑの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｑは、図４０に示すとおり、変形例３の音声復号装置２４ｃの低周波線形予測分析部２ｄ、信号変化検出部２ｅ、高周波線形予測分析部２ｈ、線形予測逆フィルタ部２ｉ、及び個別信号成分調整部２ｚ１，２ｚ２，２ｚ３にかえて、低周波線形予測分析部２ｄ１、信号変化検出部２ｅ１、高周波線形予測分析部２ｈ１、線形予測逆フィルタ部２ｉ１、及び個別信号成分調整部２ｚ４，２ｚ５，２ｚ６を備え（個別信号成分調整部は、時間エンベロープ変形手段に相当する）、時間スロット選択部3aをさらに備える。

個別信号成分調整部２ｚ４，２ｚ５，２ｚ６のうち少なくともひとつは、前記一次高周波調整部の出力に含まれる信号成分に関して、時間スロット選択部３ａより通知された選択結果に基づき、選択された時間スロットのＱＭＦ領域信号に対して、個別信号成分調整部２ｚ１，２ｚ２，２ｚ３と同様に、処理を行う（ステップＳｎ１の処理）。時間スロット選択情報を用いて行う処理は、前記第４の実施形態の変形例３に記載の個別信号成分調整部２ｚ１，２ｚ２，２ｚ３における処理のうち、周波数方向の線形予測合成フィルタ処理を含む処理のうち少なくともひとつを含むのが望ましい。

個別信号成分調整部２ｚ４，２ｚ５，２ｚ６における処理は、前記第４の実施形態の変形例３に記載の個別信号成分調整部２ｚ１，２ｚ２，２ｚ３の処理と同様に、互いに同じでもよいが、個別信号成分調整部２ｚ４，２ｚ５，２ｚ６は、一次高周波調整部の出力に含まれる複数の信号成分の各々に対し互いに異なる方法で時間エンベロープの変形を行ってもよい。（個別信号成分調整部２ｚ４，２ｚ５，２ｚ６の全てが時間スロット選択部３ａより通知された選択結果に基づいて処理しない場合は、本発明の第４の実施形態の変形例３と同等になる）。

時間スロット選択部３ａから個別信号成分調整部２ｚ４，２ｚ５，２ｚ６のそれぞれに通知される時間スロットの選択結果は、必ずしも全てが同じである必要はなく、全てまたは一部が異なってもよい。

さらに、図４０ではひとつの時間スロット選択部３ａから個別信号成分調整部２ｚ４，２ｚ５，２ｚ６のそれぞれに時間スロットの選択結果を通知する構成になっているが、個別信号成分調整部２ｚ４，２ｚ５，２ｚ６のそれぞれ、または一部に対して異なる時間スロットの選択結果を通知する時間スロット選択部を複数有してもよい。またその際に、個別信号成分調整部２ｚ４，２ｚ５，２ｚ６のうち、第４の実施形態の変形例３に記載の処理4（入力信号に対して時間エンベロープ変形部２ｖと同様の、エンベロープ形状調整部２ｓから得られた時間エンベロープを用いて各ＱＭＦサブバンドサンプルへゲイン係数を乗算する処理を行った後、その出力信号に対してさらに線形予測フィルタ部２ｋと同様の、フィルタ強度調整部２ｆから得られた線形予測係数を用いた周波数方向の線形予測合成フィルタ処理）を行う個別信号成分調整部に対する時間スロット選択部は、時間エンベロープ変形部から時間スロット選択情報を入力されて時間スロットの選択処理を行ってもよい。

（第４の実施形態の変形例１３）
第４の実施形態の変形例１３の音声復号装置２４ｍ（図４２参照）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｍの内蔵メモリに格納された所定のコンピュータプログラム（例えば、図４３のフローチャートに示す処理を行うためのコンピュータプログラム）をＲＡＭにロードして実行することによって音声復号装置２４ｍを統括的に制御する。音声復号装置２４ｍの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｍは、図４２に示すとおり、変形例１２の音声復号装置２４ｑのビットストリーム分離部２ａ３、及び時間スロット選択部３ａにかえて、ビットストリーム分離部２ａ７、及び時間スロット選択部３ａ１を備える。

（第4の実施形態の変形例１４）
第４の実施形態の変形例１４の音声復号装置２４ｎ（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｎの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声復号装置２４ｎを統括的に制御する。音声復号装置２４ｎの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｎは、機能的には、変形例１の音声復号装置２４ａの低周波線形予測分析部２ｄ、信号変化検出部２ｅ、高周波線形予測分析部２ｈ、線形予測逆フィルタ部２ｉ、及び線形予測フィルタ部２ｋにかえて、低周波線形予測分析部２ｄ１、信号変化検出部２ｅ１、高周波線形予測分析部２ｈ１、線形予測逆フィルタ部２ｉ１、及び線形予測フィルタ部２ｋ３を備え、時間スロット選択部３ａをさらに備える。

（第４の実施形態の変形例１５）
第４の実施形態の変形例１５の音声復号装置２４ｐ（不図示）は、物理的には図示しないＣＰＵ、ＲＯＭ、ＲＡＭ及び通信装置等を備え、このＣＰＵは、ＲＯＭ等の音声復号装置２４ｐの内蔵メモリに格納された所定のコンピュータプログラムをＲＡＭにロードして実行することによって音声復号装置２４ｐを統括的に制御する。音声復号装置２４ｐの通信装置は、符号化された多重化ビットストリームを受信し、更に、復号した音声信号を外部に出力する。音声復号装置２４ｐは、機能的には、変形例1４の音声復号装置２４ｎの時間スロット選択部３ａにかえて、時間スロット選択部３ａ１を備える。さらに、ビットストリーム分離部２ａ４にかえて、ビットストリーム分離部２ａ８（不図示）を備える。

ビットストリーム分離部２ａ８は、ビットストリーム分離部２ａ４と同様に、多重化ビットストリームを、ＳＢＲ補助情報と、符号化ビットストリームとに分離し、さらに時間スロット選択情報とに分離する。

１１，１１ａ，１１ｂ，１１ｃ，１２，１２ａ，１２ｂ，１３，１４、１４ａ，１４ｂ…音声符号化装置、１ａ…周波数変換部、１ｂ…周波数逆変換部、１ｃ…コアコーデック符号化部、１ｄ…ＳＢＲ符号化部、１ｅ，１ｅ１…線形予測分析部、１ｆ…フィルタ強度パラメータ算出部、１ｆ１…フィルタ強度パラメータ算出部、１ｇ，１ｇ１，１ｇ２，１ｇ３，１ｇ４，１ｇ５，１ｇ６，１ｇ７…ビットストリーム多重化部、１ｈ…高周波周波数逆変換部、１ｉ…短時間電力算出部、１ｊ…線形予測係数間引き部、１ｋ…線形予測係数量子化部、１ｍ…時間エンベロープ算出部、１ｎ…エンベロープ形状パラメータ算出部、１ｐ、１p１…時間スロット選択部、２１，２２，２３，２４，２４ｂ，２４ｃ…音声復号装置、２ａ，２ａ１，２ａ２，２ａ３，２ａ５，２ａ６，２ａ７…ビットストリーム分離部、２ｂ…コアコーデック復号部、２ｃ…周波数変換部、２ｄ，２ｄ１…低周波線形予測分析部、２ｅ，２ｅ１…信号変化検出部、２ｆ…フィルタ強度調整部、２ｇ…高周波生成部、２ｈ，２ｈ１…高周波線形予測分析部、２ｉ，２ｉ１…線形予測逆フィルタ部、２ｊ，２ｊ１，２ｊ２，２ｊ３，２ｊ４…高周波調整部、２ｋ，２ｋ１，２ｋ２，２ｋ３…線形予測フィルタ部、２ｍ…係数加算部、２ｎ…周波数逆変換部、２ｐ，２ｐ１…線形予測係数補間・補外部、２ｒ…低周波時間エンベロープ計算部、２ｓ…エンベロープ形状調整部、２ｔ…高周波時間エンベロープ算出部、２ｕ…時間エンベロープ平坦化部、２ｖ，２ｖ１…時間エンベロープ変形部、２ｗ…補助情報変換部、２ｚ１，２ｚ２，２ｚ３，２ｚ４，２ｚ５，２ｚ６…個別信号成分調整部、３ａ，３ａ１，３ａ２…時間スロット選択部。

Claims

符号化された音声信号を復号する音声復号装置であって、
前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段と、
前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段と、
前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
前記高周波生成手段によって生成された前記高周波成分を調整して、調整された高周波成分を生成する高周波調整手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段であり、前記周波数変換手段によって周波数領域に変換された前記低周波成分のＱＭＦサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析手段と、
前記時間エンベロープ補助情報を、前記時間エンベロープ情報を調整するためのパラメータに変換する補助情報変換手段と、
前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、
を備える、音声復号装置。
符号化された音声信号を復号する音声復号装置であって、
前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号手段と、
前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
前記高周波生成手段によって生成された前記高周波成分を調整して、調整された高周波成分を生成する高周波調整手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段であり、前記周波数変換手段によって周波数領域に変換された前記低周波成分のＱＭＦサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析手段と、
前記ビットストリームを分析して前記時間エンベロープ情報を調整するためのパラメータを生成する時間エンベロープ補助情報生成部と、
前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、
を備える、音声復号装置。
前記低周波時間エンベロープ分析手段は、さらにＳＢＲエンベロープ時間セグメント内での平均電力を用いて前記ＱＭＦサブバンドサンプルごとの電力を正規化することによって、前記時間エンベロープ情報を取得する、請求項１又は２に記載の音声復号装置。
符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、
前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離ステップと、
前記音声復号装置が、前記ビットストリーム分離ステップにおいて分離した前記符号化ビットストリームを復号して低周波成分を得るコア復号ステップと、
前記音声復号装置が、前記コア復号ステップにおいて得た前記低周波成分を周波数領域に変換する周波数変換ステップと、
前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成ステップと、
前記音声復号装置が、前記高周波生成ステップにおいて生成した前記高周波成分を調整して、調整された高周波成分を生成する高周波調整ステップと、
前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析ステップであり、前記周波数変換ステップにおいて周波数領域に変換された前記低周波成分のＱＭＦサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析ステップと、
前記音声復号装置が、前記時間エンベロープ補助情報を、前記時間エンベロープ情報を調整するためのパラメータに変換する補助情報変換ステップと、
前記音声復号装置が、前記低周波時間エンベロープ分析ステップにおいて取得した前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整ステップであり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整ステップと、
前記音声復号装置が、前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形ステップと、
を含む音声復号方法。
符号化された音声信号を復号する音声復号装置を用いた音声復号方法であって、
前記音声復号装置が、前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号ステップと、
前記音声復号装置が、前記コア復号ステップにおいて得た前記低周波成分を周波数領域に変換する周波数変換ステップと、
前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換した前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成ステップと、
前記音声復号装置が、前記高周波生成ステップにおいて生成した前記高周波成分を調整して、調整された高周波成分を生成する高周波調整ステップと、
前記音声復号装置が、前記周波数変換ステップにおいて周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析ステップであり、前記周波数変換ステップにおいて周波数領域に変換された前記低周波成分のＱＭＦサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析ステップと、
前記音声復号装置が、前記ビットストリームを分析して前記時間エンベロープ情報を調整するためのパラメータを生成する時間エンベロープ補助情報生成ステップと、
前記音声復号装置が、前記低周波時間エンベロープ分析ステップにおいて取得した前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整ステップであり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整ステップと、
前記音声復号装置が、前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形ステップと、
を含む音声復号方法。
符号化された音声信号を復号するために、コンピュータ装置を、
前記符号化された音声信号を含む外部からのビットストリームを、符号化ビットストリームと時間エンベロープ補助情報とに分離するビットストリーム分離手段と、
前記ビットストリーム分離手段によって分離された前記符号化ビットストリームを復号して低周波成分を得るコア復号手段と、
前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
前記高周波生成手段によって生成された前記高周波成分を調整して、調整された高周波成分を生成する高周波調整手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段であり、前記周波数変換手段によって周波数領域に変換された前記低周波成分のＱＭＦサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析手段と、
前記時間エンベロープ補助情報を、前記時間エンベロープ情報を調整するためのパラメータに変換する補助情報変換手段と、
前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、
として機能させる音声復号プログラム。
符号化された音声信号を復号するために、コンピュータ装置を、
前記符号化された音声信号を含む外部からのビットストリームを復号して低周波成分を得るコア復号手段と、
前記コア復号手段によって得られた前記低周波成分を周波数領域に変換する周波数変換手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を低周波帯域から高周波帯域に複写することによって高周波成分を生成する高周波生成手段と、
前記高周波生成手段によって生成された前記高周波成分を調整して、調整された高周波成分を生成する高周波調整手段と、
前記周波数変換手段によって周波数領域に変換された前記低周波成分を分析して時間エンベロープ情報を取得する低周波時間エンベロープ分析手段であり、前記周波数変換手段によって周波数領域に変換された前記低周波成分のＱＭＦサブバンドサンプルごとの電力を取得することによって、前記時間エンベロープ情報を取得する、該低周波時間エンベロープ分析手段と、
前記ビットストリームを分析して前記時間エンベロープ情報を調整するためのパラメータを生成する時間エンベロープ補助情報生成部と、
前記低周波時間エンベロープ分析手段によって取得された前記時間エンベロープ情報を調整して、調整された時間エンベロープ情報を生成する時間エンベロープ調整手段であり、該時間エンベロープ情報の調整に前記パラメータを用いる、該時間エンベロープ調整手段と、
前記調整された時間エンベロープ情報を用いて、前記調整された高周波成分の時間エンベロープを変形する時間エンベロープ変形手段と、
として機能させる音声復号プログラム。