JP2023507073A

JP2023507073A - 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法

Info

Publication number: JP2023507073A
Application number: JP2022531448A
Authority: JP
Inventors: ニングオ; ベルントエドラー
Original assignee: フラウンホッファー－ゲゼルシャフトツァフェルダールングデァアンゲヴァンテンフォアシュンクエー．ファオ
Priority date: 2019-11-27
Filing date: 2019-11-27
Publication date: 2023-02-21
Also published as: US20220284908A1; WO2021104623A1; BR112022010062A2; CA3162929A1; CN115004298A; KR20220104049A; MX2022006398A; EP4066242A1

Abstract

音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法である。実施形態に係る音声信号の１つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための符号化器（１００）が提供される。１つ以上の前のフレームは現在のフレームに先行し、現在のフレーム及び１つ以上の前のフレームの各々は音声信号の１つ以上の高調波成分を含み、現在のフレーム及び１つ以上の前のフレームの各々は周波数領域又は変換領域における複数のスペクトル係数を含む。現在のフレームを符号化したものを生成するために、符号化器（１００）は、１つ以上の前のフレームのうち最も前のフレームの１つ以上の高調波成分のそれぞれについての２つの高調波パラメータの推定を決定する。さらに、符号化器（１００）は、音声信号の１つ以上の前のフレームの各々の複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループを使用して、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定する。【選択図】図１

Description

本発明は、音声信号符号化、音声信号処理、及び音声信号復号化に関し、特に、音声符号化のための階調信号（ｔｏｎａｌｓｉｇｎａｌ）の周波数領域長期予測装置及び方法に関するものである。

音声符号化の分野では、音声信号の冗長性を除去するために予測を用いている。元のデータから予測されたデータを差し引き、より低いエントロピーを通常示す残差を量子化して符号化することで、音声信号の送信と保存のためにビットレートを削減することができる［１］。ＬＴＰ（Ｌｏｎｇ－ＴｅｒｍＰｒｅｄｉｃｔｉｏｎ）は、音声信号の周期成分を除去することを目的とした予測手法の一種である［２］。

ＭＰＥＧ－２ＡｄｖａｎｃｅｄＡｕｄｉｏＣｏｄｉｎｇ（ＡＡＣ）標準では、時間－周波数変換としてＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）を用い、後方適応型ＬＴＰを用いた知覚的音声符号化器（ｐｅｒｃｅｐｔｕａｌａｕｄｉｏｃｏｄｅｒ）が採用されている［３］。

図４は、後方適応型ＬＴＰを用いた変換型知覚的音声符号化器の構成を示す図である。図４の音声符号化器は、ＭＤＣＴ部４１０、音響心理モデル部４２０、ピッチ推定部４３０、長期予測部４４０、量子化器４５０、量子化器再構成部４６０を含む。

図４に示すように、予測ユニットには、再構成後のＭＤＣＴフレームが入力される。従来の時間領域長期予測（ＴＤＬＴＰ）を実行するためには、まず、再構成後の信号のＭＤＣＴ係数を時間領域に変換する必要がある。次に、予測された時間領域セグメントは、残差計算のためにＭＤＣＴ領域に変換し直される。

ＭＤＣＴはオーバーラップした分析ウィンドウを使用して、ブロッキングの影響を軽減し、逆変換の合成段階でオーバーラップ加算（ＯＬＡ）手順を通して完全な再構成を提供する［４］。現在のフレームの後半のエイリアスフリーの再構成は、将来のフレームの前半を必要とするため［４］、予測遅延は慎重に選択される必要がある［２］。

バッファ内の完全に再構成されたサンプルだけが予測に使用される場合、選択された前のピッチラグと予測されるピッチラグとの間に整数倍のピッチ周期の遅延が存在する可能性がある。音声信号の非定常性のため、遅延が長くなると予測が安定しなくなる可能性がある。高い基本周波数の信号の場合、ピッチ周期は短いので、この追加遅延による予測への悪影響はより顕著になる可能性がある。

ＭＤＣＴ領域で直接動作する周波数領域予測（ＦＤＰ：ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＰｒｅｄｉｃｔｉｏｎ）のコンセプトが［５］で提案された（［１３］も参照）。その方法では、諧調信号の各高調波成分は、予測中に個別に扱われる。現在のフレームにおけるビンの予測は、前のフレームにおけるそのスペクトルの隣接ビンの正弦波（サイン波）的な進行を計算することによって得られる。

しかし、これらのＭＤＣＴ係数の周波数分解能が諧調信号の基本周波数に対して比較的低い場合、高調波成分がビン上で互いに大きく重なり、その周波数領域アプローチの悪い性能につながる可能性がある。

本発明の目的は、音声信号の符号化、処理及び復号化のための改良されたコンセプトを提供することである。本発明の目的は、請求項１による符号化器によって、請求項２３による復号化器によって、請求項４５による装置によって、請求項５２による方法によって、請求項５３による方法によって、請求項５４による方法によって、及び請求項５５によるコンピュータプログラムによって、解決される。

実施形態に係る音声信号の１つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための符号化器が提供される。１つ以上の前のフレームは、現在のフレームに先行し、現在のフレーム及び１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含み、現在のフレーム及び１つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。現在のフレームを符号化したものを生成するために、符号化器は、１つ以上の前のフレームのうちの最も前のフレームの１つ以上の高調波成分の各々について、２つの高調波パラメータの推定を決定することである。さらに、符号化器は、音声信号の１つ以上の前のフレームの各々の複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループを使用して、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定する。

さらに、実施形態に係る音声信号の現在のフレームを再構成するための復号化器が提供される。音声信号の１つ以上の前のフレームは現在のフレームに先行し、現在のフレーム及び１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含み、現在のフレーム及び１つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。復号化器は、現在のフレームを符号化したものを受信する。復号化器は、１つ以上の前のフレームのうち最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定する。最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータは、音声信号の１つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存する。さらに、復号化器は、現在のフレームを符号化したものに応じて、かつ、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、現在のフレームを再構成する。

さらに、実施形態に係るフレーム損失隠蔽のための装置が提供される。音声信号の１つ以上の前のフレームは、音声信号の現在のフレームに先行する。現在のフレーム及び１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含み、現在のフレーム及び１つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。装置は、１つ以上の前のフレームのうちの最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定し、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータは、音声信号の１つ以上の前のフレームの各々についての複数の再構成後の（再構成された）スペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存する。装置が現在のフレームを受信しない場合、又は現在のフレームが破損した状態で装置によって受信される場合、装置は、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて現在のフレームを再構成する。

さらに、実施形態に係る音声信号の１つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための方法が提供される。１つ以上の前のフレームは、現在のフレームに先行する。現在のフレーム及び１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含む。現在のフレーム及び１つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。現在のフレームを符号化したものを生成するために、本方法は、１つ以上の前のフレームのうち最も前のフレームの１つ以上の高調波成分の各々について２つの高調波パラメータの推定を決定するステップを含む。最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定することは、音声信号の１つ以上の前のフレームの各々の複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループを使用して実施される。

さらに、実施形態に係る音声信号の現在のフレームを再構成する方法が提供される。音声信号の１つ以上の前のフレームは、現在のフレームに先行する。現在のフレーム及び１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含む。現在のフレーム及び１つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。本方法は、現在のフレームを符号化したものを受信することを含む。さらに、本方法は、１つ以上の前のフレームのうち最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定するステップを含み、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータは、音声信号の１つ以上の前のフレームの各々についての複数の再構成されたスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存するステップを含む。さらに、本方法は、現在のフレームを符号化したものに応じて、かつ、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、現在のフレームを再構成するステップを含む。

さらに、実施形態に係るフレーム損失隠蔽のための方法が提供される。音声信号の１つ以上の前のフレームは、音声信号の現在のフレームに先行し、現在のフレーム及び１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含み、現在のフレーム及び１つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。本方法は、１つ以上の以前のフレームのうちの最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定するステップを含み、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータは、音声信号の１つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存する。さらに、この方法は、現在のフレームが受信されない場合、又は現在のフレームが破損状態によって受信される場合、現在のフレームを、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータに応じて再構成するステップを含む。

さらに、コンピュータプログラムがコンピュータ又は信号処理装置によって実行される場合に、上述した方法の１つを実施するための実施形態に係るコンピュータプログラムが提供される。

従来、時間領域において一定の周期性を有する信号を予測するために、ＬＴＰ（Ｌｏｎｇ－ＴｅｒｍＰｒｅｄｉｃｔｉｏｎ）が使用されている。音声符号器における後方適応を伴う変換符号化の場合、復号化器ユニットは、一般に、手元に周波数係数のみを有し、したがって、予測の前に逆変換が必要とされる。実施形態は、修正離散コサイン変換（ＭＤＣＴ：ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）領域で直接動作し、例えば、非常に低い周波数分解能の下でさえ、音声符号化のためのビットレートを顕著に減少させる周波数領域最小二乗予測（ＦＤＬＭＳＰ：ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＬｅａｓｔＭｅａｎＳｑｕａｒｅＰｒｅｄｉｃｔｉｏｎ）コンセプトを提供する。したがって、いくつかの実施形態は、例えば、特に低遅延音声符号化シナリオにおいて符号化効率を高めるために変換コーデックにおいて採用され得る。

いくつかの実施形態は、ＭＤＣＴ領域で直接ＬＴＰを実行する周波数領域最小二乗予測（ＦＤＬＭＳＰ：ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＬｅａｓｔＭｅａｎＳｑｕａｒｅＰｒｅｄｉｃｔｉｏｎ）コンセプトを提供する。しかしながら、各ビンに対して個別に予測を行うのではなく、この新しいコンセプトは、実数値線形方程式系（ｒｅａｌ－ｖａｌｕｅｄｌｉｎｅａｒｅｑｕａｔｉｏｎｓｙｓｔｅｍ）を使用して、変換領域において諧調信号の高調波成分をモデル化する。予測は、線形方程式系を最小平均二乗法（ＬＭＳ：ＬｅａｓｔＭｅａｎＳｑｕａｒｅｓ）で解いた後に行われる。そして、高調波の位相進行の性質に基づいて、高調波のパラメータを使用して、現在のフレームを予測する。この予測コンセプトは、異なるタイプの離散コサイン変換（ＤＣＴ）や多相直交フィルタ（ＰＱＦ：ＰｏｌｙｐｈａｓｅＱｕａｄｒａｔｕｒｅＦｉｌｔｅｒ）など、他の実数値線形変換又はフィルタバンクにも適用できることに留意する必要がある［６］。

以下では、信号モデルを示し、高調波成分推定と予測プロセスを詳細に説明し、ＴＤＬＴＰとＦＤＰと比較してＦＤＬＭＳＰコンセプトを評価する実験を説明し、その結果を示して議論する。

以下、本発明の実施形態について図を参照しながらより詳細に説明する。
図１は、実施形態に係る音声信号の１つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための符号化器を示す図である。図２は、実施形態に係る音声信号の現在のフレームを符号化したものを復号化するための復号化器を示す図である。図３は、実施形態に係るシステムを説明するための図である。図４は、後方適応型ＬＴＰを有する変換知覚的音声符号化器の構造を示す図である。図５は、異なる予測帯域幅及びＭＤＣＴ長を有する３つの予測コンセプトを使用する単一のノート予測で節約されるビットレートを示す図である。図６は、帯域幅を４ｋＨｚに制限し、ＭＤＣＴフレーム長を６４と５１２とした６つの異なる項目で、４つの異なる作業モードにおいて節約されるビットレートを示す図である。図７は、ある実施形態に係るフレーム損失隠蔽のための装置を示す図である。図８は、ある実施例に係るＦＤＰ予測コンセプトの音声信号を符号化するための符号化器の概略ブロック図である。図９は、一例に係るＦＤＰ予測コンセプトの符号化信号１２０を復号化するための復号化器２０１の概略ブロック図である。

図１は、実施形態に係る、音声信号の１つ以上の前のフレームに応じて音声信号の現在のフレームを符号化するための符号化器１００を示す図である。

１つ以上の前のフレームは現在のフレームに先行し、現在のフレーム及び１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含み、現在のフレーム及び１つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。

現在のフレームを符号化したものを生成するために、符号化器１００は、１つ以上の前のフレームのうちの最も前のフレームの１つ以上の高調波成分の各々について２つの高調波パラメータの推定を決定する。さらに、符号化器１００は、音声信号の１つ以上の前のフレームの各々の複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループを使用して、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定する。

最も前のフレームは、例えば、現在のフレームに対して最も前のフレームであることができる。

最も前のフレームは、例えば、直前のフレームであることができる（直前のフレームとして言及することができる）。直前のフレームは、例えば、現在のフレームの直前に先行するものであることができる。

現在のフレームは、音声信号の１つ以上の高調波成分を含む。１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含むことができる。現在のフレーム及び１つ以上の前のフレームにおける１つ以上の高調波成分の基本周波数は、同じであると仮定される。

実施形態によれば、符号化器１００は、例えば、１つ以上の前のフレームの各々の複数のスペクトル係数の別の１つ以上のスペクトル係数からなる第２のグループを使用せずに、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータを推定するように構成されることができる。

実施形態によれば、符号化器１００は、例えば、現在のフレームを符号化したものとして、現在のフレーム及び１つ以上の前のフレームの１つ以上の高調波成分の基本周波数に応じて、かつ、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、利得係数及び残差を決定するよう構成されることができる。符号化器１００は、例えば、現在のフレームを符号化したものが利得係数と残差信号とを含むように、現在のフレームを符号化したものを生成するように構成されることができる。

実施形態において、符号化器１００は、例えば、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、かつ現在のフレーム及び１つ以上の前のフレームの１つ以上の高調波成分の基本周波数に応じて、現在のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定するよう構成され得る。基本周波数は、例えば、現在のフレーム及び１つ以上の前のフレームにわたって不変であると仮定されることができる。

実施形態によれば、１つ以上の高調波成分の各々についての２つの高調波パラメータは、１つ以上の高調波成分の各々についてのコサイン副成分に対する第１のパラメータと、サイン副成分に対する第２のパラメータである。

実施形態において、符号化器１００は、例えば、少なくとも３つの方程式を含む線形方程式系を解くことによって、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータを推定するように構成されることができ、少なくとも３つの方程式の各々は、１つ以上の前のフレームの各々の複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループのスペクトル係数に依存する。

実施形態によれば、符号化器１００は、例えば、最小平均二乗アルゴリズムを使用して線形方程式系を解くように構成されることができる。

ある実施形態において、ｒ≧１である。

実施形態において、符号化器１００は、例えば、高調波成分の基本周波数、窓関数、利得係数、及び残差信号を符号化することができる。

実施形態によれば、符号化器１００は、例えば、音声信号の１つ以上の前のフレームの各々の複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループを使用して、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータを推定する前に、最も前のフレームの１つ以上の高調波成分の数及び最も前のフレームの１つ以上の高調波成分の基本周波数を決定するように構成されることができる。

実施形態によれば、符号化器１００は、例えば、１つ以上の高調波成分から１つ以上の高調波成分のグループを決定し、１つ以上の高調波成分のグループに音声信号の予測を適用するように構成されることができる。符号化器１００は、例えば、最も前のフレームの１つ以上の高調波成分のグループ各々についての次数（ｏｒｄｅｒ）を符号化するように構成されることができる。

実施形態によれば、符号化器１００は、例えば、周波数領域又は変換領域における現在のフレームの複数のスペクトル係数に応じて、かつ現在のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、残差信号を決定するように構成されることができ、符号化器１００は、例えば、残差信号を符号化するように構成されることができる。

実施形態において、符号化器１００は、例えば、現在のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、現在のフレームの複数のスペクトル係数のうちの１つ以上のスペクトル係数のスペクトル予測を決定するように構成されることができる。符号化器１００は、例えば、周波数領域又は変換領域における現在のフレームの複数のスペクトル係数に応じて、かつ現在のフレームの複数のスペクトル係数のうちの３つ以上のスペクトル係数のスペクトル予測に応じて、残差信号及び利得係数を決定するように構成されることができる。ここで、符号化器１００は、例えば、現在のフレームを符号したもの化が残差信号及び利得係数を含むように、現在のフレームを符号化したものを生成するように構成されることができる。

図２は、実施形態に係る音声信号の現在のフレームを再構成するための復号化器２００を示す図である。

音声信号の１つ以上の前のフレームは現在のフレームに先行し、現在のフレーム及び１つ以上の前のフレームの各々は音声信号の１つ以上の高調波成分を含み、現在のフレーム及び１つ以上の前のフレームの各々は周波数領域又は変換領域における複数のスペクトル係数を含む。

復号化器２００は、現在のフレームを符号化したものを受信する。

さらに、復号化器２００は、１つ以上の前のフレームのうち最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定する。最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータは、音声信号の１つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存する。

さらに、復号化器２００は、現在のフレームを符号化したものに応じて、かつ、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、現在のフレームを再構成する。

実施形態によれば、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータは、１つ以上の前のフレームの複数のスペクトル係数のうちの１つ以上の更なるスペクトル係数からなる第２のグループに依存しない。

実施形態において、復号化器２００は、例えば、現在のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、かつ現在のフレーム及び１つ以上の前のフレームの１つ以上の高調波成分の基本周波数に応じて決定することができる。

実施形態によれば、復号化器１００は、例えば、利得係数と残差信号とを含む現在のフレームを符号化したものを受信するように構成されることができる。復号化器２００は、例えば、利得係数に応じて、残差信号に応じて、かつ、現在のフレーム及び１つ以上の前のフレームの１つ以上の高調波成分の基本周波数に応じて、現在のフレームを再構成するように構成されることができる。基本周波数は、例えば、現在のフレーム及び１つ以上の前のフレームにわたって変化しないと仮定されることができる。

実施形態によれば、１つ以上の高調波成分の各々についての２つの高調波パラメータは１つ以上の高調波成分の各々についてのコサイン副成分についての第１のパラメータと、サイン副成分についての第２のパラメータとである。

実施形態において、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータは、少なくとも３つの方程式を含む線形方程式系に依存し、少なくとも３つの方程式の各々は、１つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループのスペクトル係数に依存する。

一実施形態によれば、線形方程式系は、最小平均二乗アルゴリズムを用いて解くことができる。

ある実施形態において、ｒ≧１である。

実施形態において、復号化器２００は、例えば、高調波成分の基本周波数、窓関数、利得係数、及び残差信号を受信するように構成されることができる。復号化器２００は、例えば、最も前のフレームの１つ以上の高調波成分の基本周波数に応じて、高調波成分の次数（ｏｒｄｅｒ）に応じて、窓関数に応じて、利得係数に応じて、及び残差信号に応じて、現在のフレームを再構成するように構成されることができる。

基本周波数、高調波成分の次数、窓関数、利得係数、及び残差のみが送信される必要がある。復号化器２００は、例えば、この受信した情報に基づいてＵを計算し、高調波パラメータ推定及び現在フレーム予測を実施することができる。次に、復号化器は、例えば、送信された残差スペクトルを、送信された利得係数によってスケーリングされた予測されたスペクトルに加えることによって、現在のフレームを再構成することができる。

実施形態によれば、復号化器２００は、たとえば、最も前のフレームの１つ以上の高調波成分の数及び最も前のフレームの１つ以上の高調波成分の基本周波数を受信するように構成されることができる。復号化器２００は、たとえば、最も前のフレームの１つ以上の高調波成分の数に応じて、及び現在のフレーム及び１つ以上の前のフレームの１つ以上の高調波成分の基本周波数に応じて、現在のフレームを符号化したものを復号化するよう構成されることができる。

実施形態によれば、復号化器２００は、１つ以上の高調波成分のグループに応じて現在のフレームを符号化したものを復号化し、復号化器２００は、１つ以上の高調波成分のグループにおいて音声信号の予測を適用する。

実施形態によれば、復号化器２００は、例えば、現在のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータを、最も前のフレームの１つ以上の高調波成分のうちの１つの高調波成分の各々についての２つの高調波パラメータに応じて決定するように構成されることができる。

実施形態によれば、復号化器２００は、例えば、残差信号を受信するように構成されていることができ、残差信号は、周波数領域又は変換領域における現在のフレームの複数のスペクトル係数に依存し、残差信号は、現在のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に依存する。

実施形態において、復号化器２００は、例えば、現在のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、現在のフレームの複数のスペクトル係数のうちの１つ以上のスペクトル係数のスペクトル予測を決定するように構成されることができ、復号化器２００は、例えば、現在のフレームのスペクトル予測に応じて、残差信号に応じて、かつ利得係数に応じて音声信号の現在のフレームを決定するように構成されることができる。

図３は、実施形態に係るシステムを示す図である。

このシステムは、音声信号の現在フレームを符号化するための上述した実施形態のうちの１つによる符号化器１００を具備する。

さらに、このシステムは、音声信号の現在のフレームを符号化したものを復号化するための、上述した実施形態のうちの１つによる復号化器２００を具備している。

図７は、実施形態に係るフレーム損失隠蔽のための装置７００を示す図である。

音声信号の１つ以上の前のフレームは、音声信号の現在のフレームに先行する。現在のフレーム及び１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含み、現在のフレーム及び１つ以上の前のフレームの各々は、周波数領域又は変換領域における複数のスペクトル係数を含む。

装置７００は、１つ以上の前のフレームのうちの最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定し、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータは、音声信号の１つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存する。

装置７００が現在のフレームを受信しない場合、又は現在のフレームが破損した状態で装置７００によって受信される場合、装置７００は、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて現在のフレームを再構成する。

現在のフレームは、音声信号の１つ以上の高調波成分を含む。１つ以上の前のフレームの各々は、音声信号の１つ以上の高調波成分を含むことができる。現在のフレーム及び１つ以上の前のフレームにおける１つ以上の高調波成分の基本周波数は、同じであると仮定することができる。

実施形態によれば、装置７００は、例えば、最も前のフレームの１つ以上の高調波成分の数を受信するように構成されることができる。装置７００は、例えば、最も前のフレームの１つ以上の高調波成分の数に応じて、かつ、現在のフレーム及び１つ以上の前のフレームの１つ以上の高調波成分の基本周波数に応じて、現在のフレームを符号化したものを復号化することができる。

実施形態において、現在のフレームを再構成するために、装置７００は、例えば、現在のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて決定するように構成されることができる。

実施形態によれば、装置７００は、例えば、現在のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、現在のフレームの複数のスペクトル係数のうちの３つ以上のスペクトル係数のスペクトル予測を決定するように構成されることができる。

以下において、好ましい実施形態が提供される。

最初に、信号モデルについて説明する。

以下では、高調波推定と予測について説明する。

式（３）～（８）による上述した想定信号モデルに基づき、高調波成分の周波数が隣接するフレーム間で急激に変化しないという仮定を追加すると、提案するＦＤＬＭＳＰアプローチは３つのステップに分けることができる。例えば、ｍ番目のフレームを予測するために、まずｍ番目のフレームに含まれる全ての高調波成分の周波数情報を推定する。この周波数情報は、後に、復号化器２００での予測を支援するためのサイド情報の一部として送信される。次に、ｍ－１番目のフレームにおける各高調波成分のパラメータ（ｈ＝［１，．．．，Ｈ］で、ａ_h、ｂ_hで示される）が、先行フレームのみを用いて推定される。

最後に、推定された高調波パラメータに基づいてｍ番目のフレームが予測される。そして、残差スペクトルが計算され、さらに処理される（例えば、量子化され、送信される）。各フレームのピッチ情報は、ピッチ推定器によって得ることができる。

はじめに、高調波推定について詳しく説明する。

推定すべきパラメータの数が高調波が及ぶＭＤＣＴビンの数を超える場合、線形方程式の未決定系が生じることになる。これは、行列Ｕを縦に、ベクトルＸを横に、より前のフレームからの対応する値を積み重ねることで回避される。しかし、（ほとんどの）前のフレームがすでにバッファにあるため、余分な遅延は発生しない。逆に、この拡張により、この提案手法は、高調波成分が高密度に配置された極端に低い周波数分解能のシナリオに適用可能である。また、採用した前フレームの数にスケーリング係数を適用して、線形方程式の過剰決定系を保証することも可能である。これにより、信号中のノイズに対するこの予測コンセプトのロバスト性も向上する。

さて、予測の詳細を説明する。

予測が行われないビンでは、予測値はゼロに設定される。

しかし、信号の非定常性に起因して、高調波の振幅は連続するフレーム間でわずかに変化することがある。その振幅変化に対応するために利得係数が導入され、復号化器２００にサイド情報の一部として送信されることになる。

以下では、提供された上記のコンセプトの評価を行う。

本提案のＦＤＬＭＳＰコンセプトの性能を評価するために、図４に従って、パイソン（Ｐｙｔｈｏｎ）による符号化器環境を構築した。提供するコンセプトは、上記の説明に従い、ｒを２として実装している。比較のため、ＴＤＬＴＰとＦＤＰは参考文献［２］，［５］に従って再実装している。これは、３つの予測コンセプトを、（ｉ）ＭＤＣＴ係数の異なる周波数解像度に関する性能、（ｉｉ）テスト材料の非調和性［７］に対する感度、（ｉｉｉ）同一の符号化シナリオで互いに比較した総合性能と能力、という３つの側面で評価する実験を使用することを目的としたものである。音色の非調和性は、通常、その高次高調波がもはや等間隔でないことを意味する。高次の帯域の高調波は知覚的にあまり重要ではないので［８］、異なる予測帯域幅を使用することによるこの要因の影響を評価した。

実験では、１６ｋＨｚのサンプリング周波数、６４、１２８、２５６、５１２のＭＤＣＴフレーム長を使用した。予測は１ｋＨｚ，２ｋＨｚ，４ｋＨｚ，８ｋＨｚの限られた帯域幅で行われた。解析窓には、完全な再構成のための制約を満たす正弦窓（ｓｉｎｅｗｉｎｄｏｗ）が選ばれている［９］。この方法は、異なるフレーム長に切り替えた場合、非対称な窓を扱うこともできる。高調波推定の精度を向上させるため、解析窓の伝達関数を補間してＦ（ω）関数を計算する。ＴＤＬＴＰでは、完全に再構成されたデータと元の時間領域信号を用いて、自己相関のコンセプトに基づいて各フレームごとに３タップの予測フィルタを計算する。バッファデータから以前の完全に再構成されたピッチラグを探索する際、ピッチラグがサンプリング間隔の整数倍でない可能性も考慮されている。ＦＤＰにおける時間的又はスペクトル的な隣接ビンの数は２個に制限されている。

ピッチ推定にはＹＩＮアルゴリズム［１０］が使用されている。ｆｏの探索範囲は［２０，．．．，１０００］Ｈｚに設定され、高調波閾値は０．２５である。量子化のためのマスキング閾値の計算には、［１１］で提案された無限インパルス応答ＩＩＲ（ＩｎｆｉｎｉｔｅＩｍｐｕｌｓｅＲｅｓｐｏｎｓｅ）フィルタバンクに基づく知覚モデルを使用する。ＹＩＮ推定値付近のより細かいピッチ探索（±０．５Ｈｚ、ステップサイズ０．０２Ｈｚ）と［０．５，．．．，２］，ステップサイズ０．０１の最適利得係数探索は、量子化後の（量子化された）残差の知覚エントロピー（ＰＥ）［１２］（知覚モデルを考慮した量子化後の残差スペクトルのエントロピー近似）を最小化することによって各フレームにおいて同時に行われる。

符号化器には４つの動作モードがある。それぞれ「ＦＤＬＭＳＰ」、「ＴＤＬＴＰ」、「ＦＤＰ」、「ＡｄａｐｔｉｖｅＭＤＣＴＬＴＰ（ＡＭＬＴＰ）」である。「ＡＭＬＴＰ」モードでは、符号化器は、ＰＥ最小化を基準として、フレーム単位で異なる予測コンセプトを切り替える。４つの動作モードすべてにおいて、残差スペクトルのＰＥが元の信号スペクトルよりも高い場合、フレーム内で予測は行われない。

各モードにおいて、符号化器は６つの異なる素材に対してテストされた。１～２秒の持続時間の３つの単音：ベース音（ｆ₀は約５０Ｈｚ）、ハープシコード音（ｆ₀は約８８Ｈｚ）、ピッチパイプ音（ｆ₀は約２９０Ｈｚ）である。これらのテスト素材は、比較的規則的な高調波構造とゆっくりと変化する時間エンベロープを持っている。符号化器は、より複雑なテスト素材でもテストされる。トランペット曲（～５秒、ｆ₀は３００Ｈｚから７００Ｈｚの間で変化）、女性ボーカル（～１０秒、ｆ₀は２００Ｈｚから３００Ｈｚの間で変化）、男性スピーチ（～８秒、ｆ₀は１００Ｈｚから２２０Ｈｚの間で変化）である。これらの３つのテスト素材は、エンベロープが大きく変化し、ピッチが時間と共に速く変化し、調和構造があまり規則的ではない。実験中、ベース音は１次高調波よりも２次高調波が強く、常に誤ったピッチ推定をしてしまうことが判明した。そこで、正しいピッチ推定のために、ＹＩＮピッチ推定器におけるこのベース音のｆ₀探索範囲が調整された。

量子化後の（量子化された）残差スペクトルと量子化後の（量子化された）元の信号のスペクトルの平均ＰＥが推定された。推定されたＰＥを基に、予測を適用することにより信号を送信する際に節約できるビットレート（ＢＳ）［ビット／秒］を計算した（サイド情報のビットレート消費は考慮されていない）。まず、各コンセプトの挙動を検討し、合理的な推論・分析を行うため、１音予測に限定して比較を行った。次に、４つのモードの性能を同一のパラメータ構成で比較した。

図５は、予測帯域幅とＭＤＣＴ長が異なる３つの予測コンセプトを用いて、１音予測で節約できるビットレートを示す図である。

まず、先行技術によるＦＤＰ予測コンセプトについて説明する。ＦＤＰ予測コンセプトは、［５］及び［１３］（ＷＯ２０１６１４２３５７Ａ１、２０１６年９月公開）において、より詳細に説明されている。

図８は、一例によるＦＤＰ予測コンセプトの音声信号１０２を符号化するための符号化器１０１の概略ブロック図である。符号化器１０１は、変換領域又はフィルタバンク領域１０４（例えば、周波数領域、又はスペクトル領域）で音声信号１０２を符号化するように構成され、符号化器１０１は、現在のフレーム１０８＿ｔ０に対する音声信号１０２のスペクトル係数１０６＿ｔ０＿ｆ１～１０６＿ｔ０＿ｆ６と、少なくとも１つの前のフレーム１０８＿ｔ－１に対する音声信号のスペクトル係数１０６＿ｔ－１＿ｆ１～１０６＿ｔ－１＿ｆ６とを決定するように構成されている。さらに、符号化器１０１は、複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループに予測符号化を選択的に適用するように構成され、符号化器１０１は、間隔値を決定するように構成される。ここで、符号化器１０１は、間隔値に基づいて、予測符号化が適用される複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループを選択するように構成されている。

言い換えれば、符号化器１０１は、サイド情報として送信される単一の間隔値に基づいて選択された複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４、１０６＿ｔ０＿ｆ５のグループに選択的に予測符号化を適用するように構成される。

この間隔値は、予測が適用されるスペクトル係数のすべてのグループの中心をその整数倍とともに定義する周波数（例えば、（音声信号１０２の）高調波の音色の基本周波数）に対応し得る。第１グループはこの周波数を中心とすることができ、第２グループはこの周波数を２倍したものを中心とすることができ、第３グループはこの周波数を３倍したものを中心とすることができる、といった具合である。これらの中心周波数を知ることで、対応する正弦波信号成分（高調波信号の基本波や倍音など）を予測するための予測係数の算出が可能になる。このため、複雑で誤差が生じやすい予測係数の逆適応が不要になる。

例では、符号化器１０１は、フレームごとに１つの間隔値を決定するように構成することができる。

実施例では、複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループは、少なくとも１つのスペクトル係数１０６＿ｔ０＿ｆ３によって分離することができる。

例では、符号化器１０１は、少なくとも１つのスペクトル係数によって分離されている複数の個別スペクトル係数、例えば、少なくとも１つのスペクトル係数によって分離されている２つの個別スペクトル係数に予測符号化を適用するように構成することができる。さらに、符号化器１０１は、少なくとも１つのスペクトル係数によって分離されているスペクトル係数の複数のグループ（グループの各々は少なくとも２つのスペクトル係数を含む）、例えば少なくとも１つのスペクトル係数によって分離されているスペクトル係数の２つのグループに予測符号化を適用するように構成されることができる。さらに、符号化器１０１は、少なくとも１つのスペクトル係数によって分離されている複数の個別スペクトル係数及び／又はスペクトル係数のグループ、例えば、少なくとも１つのスペクトル係数によって分離されている少なくとも１つの個別スペクトル係数及び少なくとも１つのスペクトル係数のグループに予測符号化を適用するように構成することができる。

図８に示す例では、符号化器１０１は、現在のフレーム１０８＿ｔ０の６つのスペクトル係数１０６＿ｔ０＿ｆ１～１０６＿ｔ０＿ｆ６と、（最も）前のフレーム１０８＿ｔ－１の６つのスペクトル係数１０６＿ｔ－１＿ｆ１～１０６＿ｔ－１＿ｆ６とを決定するよう構成されている。それにより、符号化器１０１は、現在のフレームの個別第２のスペクトル係数１０６＿ｔ０＿ｆ２と、現在のフレーム１０８＿ｔ０の第４のスペクトル係数１０６＿ｔ０＿ｆ４及び第５のスペクトル係数１０６＿ｔ０＿ｆ５からなるスペクトル係数のグループとに選択的に予測符号化を適用するよう構成される。見て分かるように、個別第２のスペクトル係数１０６＿ｔ０＿ｆ２と、第４及び第５のスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５からなるスペクトル係数のグループとは、第３のスペクトル係数１０６＿ｔ０＿ｆ３によって互いに分離されている。

本明細書で使用される「選択的に」という用語は、選択されたスペクトル係数（のみ）に予測符号化を適用することを意味することに留意されたい。言い換えれば、予測符号化は、必ずしも全てのスペクトル係数に適用されるわけではなく、むしろ、選択された個別スペクトル係数またはスペクトル係数のグループのみに適用され、選択された個別スペクトル係数および／または少なくとも１つのスペクトル係数によって互いに分離可能なスペクトル係数のグループのみに適用される。言い換えれば、予測符号化は、選択された複数の個別スペクトル係数またはスペクトル係数のグループが分離される少なくとも１つのスペクトル係数に対して無効化され得る。

例では、符号化器１０１は、前のフレーム１０８＿ｔ－１の、少なくとも、対応する複数の個別スペクトル係数１０６＿ｔ－１＿ｆ２又はスペクトル係数１０６＿ｔ－１＿ｆ４及び１０６＿ｔ－１＿ｆ５のグループに基づいて、現在のフレーム１０８＿ｔ０の複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループに対して選択的に予測符号化を適用するように構成されることができる。

例えば、符号化器１０１は、現在のフレーム１０８＿ｔ０の複数の予測（された）個別スペクトル係数１１０＿ｔ０＿ｆ２又は予測スペクトル係数１１０＿ｔ０＿ｆ４及び１１０＿ｔ０＿ｆ５のグループと、現在のフレームの複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループ（又はその量子化後の（量子化された）バージョン）との間の予測誤差を符号化することによって、現在のフレーム１０８＿ｔ０の複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループを予測符号化するように構成することができる。

図８では、符号化器１０１は、現在のフレーム１０８＿ｔ０の予測個別スペクトル係数１１０＿ｔ０＿ｆ２と現在のフレーム１０８＿ｔ０の個別スペクトル係数１０６＿ｔ０＿ｆ２との間の予測誤差、及び現在のフレームの予測スペクトル係数１１０＿ｔ０＿ｆ４及び１１０＿ｔ０＿ｆ５のグループと現在のフレームのスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループとの間の予測誤差を符号化することによって、個別スペクトル係数１０６＿ｔ０＿ｆ２と、スペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５からなるスペクトル係数のグループとを符号化する。

言い換えれば、第２のスペクトル係数１０６＿ｔ０＿ｆ２は、予測第２のスペクトル係数１１０＿ｔ０＿ｆ２と（実際の又は決定された）第２のスペクトル係数１０６＿ｔ０＿ｆ２との間の予測誤差（又は差）を符号化することにより符号化される。第４のスペクトル係数１０６＿ｔ０＿ｆ４が、予測第４のスペクトル係数１１０＿ｔ０＿ｆ４と（実際の又は決定された）第４のスペクトル係数１０６＿ｔ０＿ｆ４との間の予測誤差（又は差）を符号化することによって符号化される。第５のスペクトル係数１０６＿ｔ０＿ｆ５は、予測第５のスペクトル係数１１０＿ｔ０＿ｆ５と（実際の又は決定された）第５のスペクトル係数１０６＿ｔ０＿ｆ５との間の予測誤差（又は差）を符号化することにより符号化される。

一例では、符号化器１０１は、現在のフレーム１０８＿ｔ０の複数の予測個別スペクトル係数１１０＿ｔ０＿ｆ２又は予測スペクトル係数１１０＿ｔ０＿ｆ４、１１０＿ｔ０＿ｆ５のグループを、（前のフレーム１０８＿ｔ－１の）複数の個別スペクトル係数１０６＿ｔ－１＿ｆ２又はスペクトル係数１０６＿ｔ－１＿ｆ４、１０６＿ｔ－１＿ｆ５のグループの対応の実バージョンにより決定するよう構成されることが可能である。

すなわち、符号化器１０１は、上記決定処理において、前のフレーム１０８＿ｔ－１の複数の実際の個別スペクトル係数１０６＿ｔ－１＿ｆ２又は実際のスペクトル係数１０６＿ｔ－１＿ｆ４、１０６＿ｔ－１＿ｆ５のグループを直接用いることができ、ここで１０６＿ｔ－１＿ｆ２、１０６＿ｔ－１＿ｆ４、１０６＿ｔ－１＿ｆ５は、元のまだ量子化されていないスペクトル係数又はスペクトル係数のグループをそれぞれ表し、それらは、前記符号化器が変換領域又はフィルタバンク領域１０４において動作し得るように、符号化器１０１によって得られる。

例えば、符号化器１０１は、前のフレーム１０１０８＿ｔ－１の第２のスペクトル係数１０６＿ｔ－１＿ｆ２の対応するまだ量子化されていないバージョンに基づいて、現在のフレーム１０８＿ｔ０の第２の予測スペクトル係数１１０＿ｔ０＿ｆ２を決定するように構成され得、前のフレーム１０８＿ｔ－１の第４のスペクトル係数１０６＿ｔ－１＿ｆ４の対応するまだ量子化されていないバージョンに基づいて、現在のフレーム１０８＿ｔ０の予測第４のスペクトル係数１１０＿ｔ０＿ｆ４を決定するように構成され得、及び前のフレームの第５のスペクトル係数１０６＿ｔ－１＿ｆ５の対応するまだ量子化されていないバージョンに基づいて、現在のフレーム１０８＿ｔ０の予測第５のスペクトル係数１１０＿ｔ０＿ｆ５を決定するように構成され得る。

このアプローチによって、予測符号化および復号化方式は、量子化ノイズの一種の高調波シェーピングを示すことができる。これは、その例は図１１に関して後述するが、対応する復号化器は、上述の決定ステップにおいて、予測復号化のために、前のフレーム１０８＿ｔ－１の複数の個別スペクトル係数１０６＿ｔ－１＿ｆ２またはスペクトル係数１０６＿ｔ－１＿ｆ４および１０６＿ｔ－１＿ｆ５の複数のグループの送信された量子化後のバージョンを採用できるだけであるためである。

このような高調波ノイズシェーピングは、例えば、時間領域における長期予測（ＬＴＰ：ｌｏｎｇ－ｔｅｒｍｐｒｅｄｉｃｔｉｏｎ）によって従来から行われているように、予測符号化にとって主観的に有利であり得るが、場合によっては、復号化された音声信号に導入される不要な過剰量の調性をもたらすことがあるので好ましくないこともあり得る。このため、対応する復号化と完全に同期し、そのため、あらゆる可能な予測利得を利用するだけで、量子化ノイズシェーピングをもたらさない代替的な予測符号化方式を、以下に説明する。この代替的な符号化例によれば、符号化器１０１は、前のフレーム１０８＿ｔ－１の複数の個別スペクトル係数１０６＿ｔ－１＿ｆ２又はスペクトル係数１０６＿ｔ－１＿ｆ４、１０６＿ｔ－１＿ｆ５のグループの対応する量子化後のバージョンを用いて、現在のフレーム１０８＿ｔ０の複数の予測個別スペクトル係数１１０＿ｔ０＿ｆ２又は予測スペクトル係数１１０＿ｔ０＿ｆ４、１１０＿ｔ０＿ｆ５のグループを決定するよう構成されることが可能である。

例えば、符号化器１０１は、前のフレーム１０８＿ｔ－１の第２のスペクトル係数１０６＿ｔ－１＿ｆ２の対応する量子化後のバージョンに基づいて、現在のフレーム１０８＿ｔ０の第２の予測スペクトル係数１１０＿ｔ０＿ｆ２を決定するように構成されることが可能であり、前のフレーム１０８＿ｔ－１の第４のスペクトル係数１０６＿ｔ－１＿ｆ４の対応する量子化後のバージョンに基づいて現在のフレーム１０８＿ｔ０の予測された第４のスペクトル係数１１０＿ｔ０＿ｆ４を決定するように構成されることが可能であり、及び前のフレームの第５のスペクトル係数１０６＿ｔ－１＿ｆ５の対応する量子化後のバージョンに基づいて現在のフレーム１０８＿ｔ０の予測された第５のスペクトル係数１１０＿ｔ０＿ｆ５を決定するように構成されることが可能である。

さらに、符号化器１０１は、間隔値から予測係数１１２＿ｆ２、１１４＿ｆ２、１１２＿ｆ４、１１４＿ｆ４、１１２＿ｆ５及び１１４＿ｆ５を導出するように構成することができ、少なくとも２つの前のフレーム１０８＿ｔ－１及び１０８＿ｔ－２の複数の個別スペクトル係数１０６＿ｔ－１＿ｆ２及び１０６＿ｔ－２＿ｆ２又はスペクトル係数１０６＿ｔ－１＿ｆ４、１０６＿ｔ－２＿ｆ４、１０６＿ｔ－１＿ｆ５、及び１０６＿ｔ－２＿ｆ５のグループの対応する量子化後のバージョンを用いて、かつ、導出された予測係数１１２＿ｆ２、１１４＿ｆ２、１１２＿ｆ４、１１４＿ｆ４、１１２＿ｆ５及び１１４＿ｆ５を用いて、現在のフレーム１０８＿ｔ０に対する複数の予測個別スペクトル係数１１０＿ｔ０＿ｆ２又は予測スペクトル係数１１０＿ｔ０＿ｆ４、＿ｔ０＿ｆ５のグループを計算するように構成することができる。

例えば、符号化器１０１は、間隔値から第２のスペクトル係数１０６＿ｔ０＿ｆ２に対する予測係数１１２＿ｆ２及び１１４＿ｆ２を導出し、間隔値から第４のスペクトル係数１０６＿ｔ０＿ｆ４に対する予測係数１１２＿ｆ４及び１１４＿ｆ４を導出し、間隔値から第５のスペクトル係数１０６＿ｔ０＿ｆ５に対する予測係数１１２＿ｆ５及び１１４＿ｆ５を導出するよう構成することが可能である。

例えば、予測係数の導出は、次のように行うことができる。間隔値が周波数ｆ０又はその符号化（された）バージョンに対応する場合、予測が可能なスペクトル係数のＫ番目のグループの中心周波数はｆｃ＝Ｋ＊ｆ０である。サンプリング周波数がｆｓで、変換ホップサイズ（連続するフレーム間のシフト）がＮの場合、周波数ｆｃの正弦波信号を想定したＫ番目のグループの理想的な予測係数は次のようになる。
ｐ１＝２＊ｃｏｓ（Ｎ＊２＊ｐｉ＊ｆｃ／ｆｓ）及びｐ２＝－１

例えば、スペクトル係数１０６＿ｔ０＿ｆ４と１０６＿ｔ０＿ｆ５の両方がこのグループ内にある場合、予測係数は、以下のようになる。
１１２＿ｆ４＝１１２＿ｆ５＝２＊ｃｏｓ（Ｎ＊２＊ｐｉ＊ｆｃ／ｆｓ）
及び１１４＿ｆ４＝１１４＿ｆ５＝－１

安定性の理由から、減衰係数ｄを導入し、予測係数を修正することができる。
１１２＿ｆ４’＝１１２＿ｆ５’＝ｄ＊２＊ｃｏｓ（Ｎ＊２＊ｐｉ＊ｆｃ／ｆｓ）、
１１４＿ｆ４’＝１１４＿ｆ５’＝ｄ²

間隔値は符号化音声信号１２０で送信されるので、復号化器は全く同じ予測係数２１２＿ｆ４＝２１２＿ｆ５＝２＊ｃｏｓ（Ｎ＊２＊ｐｉ＊ｆｃ／ｆｓ）及び１１４＿ｆ４＝１１４＿ｆ５＝－１を導出できる。ダンピング係数が用いられる場合、係数はそれに応じて修正されることが可能である。

図８に示されるように、符号化器１０１は、符号化音声信号１２０を提供するように構成することができる。それによって、符号化器１０１は、予測符号化が適用される複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループに対する予測誤差の量子化後のバージョンを符号化音声信号１２０に含めるように構成することができる。さらに、符号化器１０１は、予測係数１１２＿ｆ２～１１４＿ｆ５を符号化音声信号１２０に含めないように構成することもできる。

このように符号化器１０１は、予測係数１１２＿ｆ２～１１４＿ｆ５のみを、複数の予測（された）個別スペクトル係数１１０＿ｔ０＿ｆ２又は予測スペクトル係数１１０＿ｔ０＿ｆ４、１１０＿ｔ０＿ｆ５のグループの計算のために、そこから予測個別スペクトル係数１１０＿ｔ０＿ｆ２又は予測スペクトル係数１１０＿ｔ０＿ｆ４及び１１０＿ｔ０＿ｆ５のグループと、現在のフレームの個別スペクトル係数１０６＿ｔ０＿ｆ２又は予測スペクトル係数１１０＿ｔ０＿ｆ４及び１１０＿ｔ０＿ｆ５のグループとの間における予測誤差の計算のために、使用することができる。しかし、符号化器１０１は、符号化音声信号１２０において、個別スペクトル係数１０６＿ｔ０＿ｆ４（又はその量子化後のバージョン）又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループ（又はその量子化後のバージョン）及び予測係数１１２＿ｆ２～１１４＿ｆ５のいずれも提供することはないだろう。したがって、図１１に関して後述する一例の復号化器は、現在のフレームに対する複数の予測個別スペクトル係数又は予測スペクトル係数のグループを計算するための予測係数１１２＿ｆ２～１１４＿ｆ５を間隔値から導出することができる。

言い換えれば、符号化器１０１は、予測符号化が適用される複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループに対する複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループの量子化後のバージョンの代わりに、予測誤差の量子化後のバージョンを含む符号化音声信号１２０を提供するように構成され得る。

さらに、符号化器１０１は、複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループが分離されたスペクトル係数１０６＿ｔ０＿ｆ３の量子化後のバージョンを含む符号化音声信号１０２を提供するように構成することが可能である。それにより、予測誤差の量子化後のバージョンが符号化音声信号１２０に含まれるスペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループと、予測符号化を使用せずに量子化後のバージョンが提供されるスペクトル係数１０６＿ｔ０＿ｆ３又はスペクトル係数のグループが交互に存在する。

例では、符号化器１０１は、予測誤差の量子化後のバージョンと、複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４及び１０６＿ｔ０＿ｆ５のグループが分離されたスペクトル係数１０６＿ｔ０＿ｆ３の量子化後のバージョンとをエントロピー符号化し、エントロピー符号化されたバージョンを（その非エントロピー符号化バージョンではなく）符号化音声信号１２０に含むようさらに構成されることが可能である。

実施例では、符号化器１０１は、予測符号化のために、間隔値によって定義される高調波グリッドに従ってスペクトル的に配置されたスペクトル係数（又は個別スペクトル係数）のグループ１１６＿１～１１６＿６を選択するように構成され得る。これにより、間隔値によって定義される高調波グリッドは、音声信号１０２における高調波の周期的なスペクトル分布（等距離間隔）を記述している。言い換えれば、間隔値によって定義される高調波グリッドは、音声信号の高調波の等距離間隔を記述する間隔値のシーケンスとすることができる。

さらに、予測符号化のために、符号化器１０１は、スペクトル係数（例えば、それらのスペクトル係数のみ）を選択するように構成されることができ、スペクトルインデックスは、間隔値に基づいて導出された複数のスペクトルインデックスと等しいか、またはその（例えば、予め決められたまたは可変）範囲内にある。

間隔値から、音声信号１０２の高調波を表すスペクトル係数のインデックス（又は番号）を導出することができる。例えば、第４のスペクトル係数１０６＿ｔ０＿ｆ４が音声信号１０２の瞬時基本周波数を表すと仮定し、間隔値を５とすると、間隔値に基づいて、インデックス９を有するスペクトル係数を導出することができる。このように導出されたインデックス９を有するスペクトル係数、すなわち９番目のスペクトル係数１０６＿ｔ０＿ｆ９は、第２高調波を表している。同様に、インデックス１４、１９、２４、２９を有するスペクトル係数を導出することができ、第３～第６高調波１２４＿３～１２４＿６を表している。ただし、間隔値に基づいて導出された複数のスペクトルインデックスに等しいインデックスを有するスペクトル係数だけでなく、間隔値に基づいて導出された複数のスペクトルインデックスの周囲の所定の範囲内のインデックスを有するスペクトル係数も予測符号化することができる。

さらに、符号化器１０１は、予測符号化が適用されるスペクトル係数（又は複数の個別スペクトル係数）のグループ１１６＿１～１１６＿６を、予測符号化が適用されるスペクトル係数（又は複数の個別スペクトル係数）のグループ１１６＿１～１１６＿６と、予測符号化が適用されるスペクトル係数（又は複数の個別スペクトル係数）のグループが分離されるスペクトル係数との間にある、±１スペクトル係数の許容度で周期的に交替するように選択するように構成することができる。音声信号１０２の２つの高調波間の距離が整数の間隔値（スペクトル係数のインデックス又は数に関して整数）に等しいのではなく、その分数又は倍数に等しい場合に、±１スペクトル係数の許容度が必要となる場合がある。

言い換えれば、音声信号１０２は、少なくとも２つの高調波信号成分１２４＿１～１２４＿６を含むことができ、符号化器１０１は、少なくとも２つの高調波信号成分１２４＿１～１２４＿６又は音声信号１０２の少なくとも２つの高調波信号成分１２４＿１～１２４＿６の周囲のスペクトル環境を表すスペクトル係数（又は個別スペクトル係数）の複数のグループ１１６＿１～１１６＿６に予測符号化を選択的に適用するよう構成されることができる。少なくとも２つの高調波信号成分１２４＿１～１２４＿６の周囲のスペクトル環境は、例えば、±１、２、３、４又は５スペクトル成分であることができる。

それにより、符号化器１０１は、音声信号１０２の少なくとも２つの高調波信号成分１２４＿１～１２４＿６又は少なくとも２つの高調波信号成分１２４＿１～１２４＿６のスペクトル環境を表さないスペクトル係数（又は複数の個別スペクトル係数）のそれらのグループ１１８＿１～１１８＿５に対して、予測符号化を適用しないように構成されることができる。言い換えれば、符号化器１０１は、信号高調波１２４＿１～１２４＿６間の非調和バックグラウンドノイズに属するスペクトル係数（又は個別スペクトル係数）のそれらの複数のグループ１１８＿１～１１８＿５に対して予測符号化を適用しないように構成されることができる。

さらに、符号化器１０１は、音声信号１０２の少なくとも２つの高調波信号成分１２４＿１～１２４＿６の間のスペクトル間隔を示す高調波間隔値を決定するようにように構成されることができ、その高調波間隔値は、音声信号１０２の少なくとも２つの高調波信号成分１２４＿１～１２４＿６を表すそれらの複数の個別スペクトル係数又はスペクトル係数のグループを示す。

さらに、符号化器１０１は、符号化音声信号１２０が間隔値（例えば、フレームごとに１つの間隔値）又は（代替的に）間隔値を直接導出することができるパラメータを含むように、符号化音声信号１２０を提供するように構成されることが可能である。

実施例は、符号化器（送信機）１０１からそれぞれの復号化器（受信機）へ、両者が完全に同期して動作できるように信号化された高調波間隔値をＦＤＰプロセスに導入することによって、ＦＤＰ法の上述の２つの問題に対処する。前記高調波間隔値は、符号化されるフレームに関連する１つ以上のスペクトルの瞬時基本周波数（又はピッチ）の指標として機能し、どのスペクトルビン（スペクトル係数）を予測しなければならないかを特定することができる。より具体的には、（高調波間隔値によって定義されるように）（それらのインデックスに関して）基本ピッチの整数倍に位置する高調波信号成分周辺のスペクトル係数のみが、予測の対象となるものとする。

図９は、実施例によるＦＤＰ予測コンセプトの符号化信号１２０を復号化するための復号化器２０１の概略ブロック図である。復号化器２０１は、変換領域又はフィルタバンク領域２０４において符号化音声信号１２０を復号化するように構成され、復号化器２０１は、現在のフレーム２０８＿ｔ０についての音声信号の符号化スペクトル係数２０６＿ｔ０＿ｆ１～２０６＿ｔ０＿ｆ６と少なくとも１つの前のフレーム２０８＿ｔ－１についての符号化スペクトル係数２０６＿ｔ－１＿ｆ０～２０６＿ｔ－１＿ｆ６とを得るために符号化音声信号１２０を解析するように構成され、復号化器２０１は、少なくとも１つの符号化スペクトル係数によって分離されている複数の個別符号化スペクトル係数又は符号化スペクトル係数のグループに選択的に予測復号化を適用するように構成される。

例では、復号化器２０１は、少なくとも１つの符号化スペクトル係数によって分離されている複数の個別符号化スペクトル係数、例えば、少なくとも１つの符号化スペクトル係数によって分離されている２つの個別符号化スペクトル係数に予測復号化を適用するように構成することができる。さらに、復号化器２０１は、少なくとも１つの符号化スペクトル係数によって分離されている符号化スペクトル係数の複数のグループ（グループの各々は、少なくとも２つの符号化スペクトル係数を含む）、例えば、少なくとも１つの符号化スペクトル係数によって分離されている符号化スペクトル係数の２つのグループに予測復号化を適用するように構成されることが可能である。さらに、復号化器２０１は、少なくとも１つの符号化スペクトル係数によって分離されている複数の個別符号化スペクトル係数及び／又は符号化スペクトル係数のグループ、例えば、少なくとも１つの符号化スペクトル係数によって分離されている少なくとも１つの個別符号化スペクトル係数及び符号化スペクトル係数の少なくとも１つのグループに予測復号化を適用するように構成されることが可能である。

図９に示す例では、復号化器２０１は、現在のフレーム２０８＿ｔ０についての６つの符号化スペクトル係数２０６＿ｔ０＿ｆ１～２０６＿ｔ０＿ｆ６と、前のフレーム２０８＿ｔ－１についての６つの符号化スペクトル係数２０６＿ｔ－１＿ｆ１～２０６＿ｔ－１＿ｆ６とを決定するように構成される。それによって、復号化器２０１は、現在のフレームの個別第２の符号化スペクトル係数２０６＿ｔ０＿ｆ２と、現在のフレーム２０８＿ｔ０の第４及び第５の符号化スペクトル係数２０６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５からなる符号化スペクトル係数のグループとに選択的に予測復号化を適用するように構成される。見て分かるように、個別第２の符号化スペクトル係数２０６＿ｔ０＿ｆ２と、第４及び第５の符号化スペクトル係数２０６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５からなる符号化スペクトル係数のグループは、第３の符号化スペクトル係数２０６＿ｔ０＿ｆ３により互いに分離される。

本明細書で使用される「選択的に」という用語は、選択された符号化スペクトル係数に予測復号化（のみ）を適用することを指すことに留意されたい。言い換えれば、予測復号化は、全ての符号化スペクトル係数に適用されるのではなく、選択された個別符号化スペクトル係数又は符号化スペクトル係数のグループのみに適用され、選択された個別符号化スペクトル係数及び／又は符号化スペクトル係数のグループは、少なくとも１つの符号化スペクトル係数によって互いに分離されている。言い換えれば、予測復号化は、選択された複数の個別符号化スペクトル係数又は符号化スペクトル係数のグループを分離する少なくとも１つの符号化スペクトル係数に適用されない。

例では、復号化器２０１は、個別符号化スペクトル係数２０６＿ｔ０＿ｆ２又はスペクトル係数２０６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５のグループを分離する少なくとも１つの符号化スペクトル係数２０６＿ｔ０＿ｆ３に予測復号化を適用しないように構成されることができる。

復号化器２０１は、符号化スペクトル係数をエントロピー復号化し、予測復号化が適用されるべきスペクトル係数２０６＿ｔ０＿ｆ２、２０１６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５に対する量子化後の（量子化された）予測誤差と、予測復号化が適用されない少なくとも１つのスペクトル係数に対する量子化後のスペクトル係数２０６＿ｔ０＿ｆ３が得られるように構成されることが可能である。それによって、復号化器２０１は、量子化後の（量子化された）予測誤差を複数の予測個別スペクトル係数２１０＿ｔ０＿ｆ２又は予測スペクトル係数２１０＿ｔ０＿ｆ４及び２１０＿ｔ０＿ｆ５のグループに適用して、現在のフレーム２０８＿ｔ０について、予測復号化が適用される符号化スペクトル係数２０６＿ｔ０＿ｆ２、２０６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５に関連付けられた復号化スペクトル係数を取得するよう構成することが可能である。

たとえば、復号化器２０１は、第２の量子化後のスペクトル係数２０６＿ｔ０＿ｆ２に対する第２の量子化後の予測誤差を取得し、第２の量子化後の予測誤差を予測第２のスペクトル係数２１０＿ｔ０＿ｆ２に適用し、第２の符号化スペクトル係数２０６＿ｔ０＿ｆ２に関連付けられた第２の復号化スペクトル係数を取得するように構成されることができる。ここで、復号化器２０１は、第４の量子化後のスペクトル係数２０６＿ｔ０＿ｆ４に対する第４の量子化後の予測誤差を取得し、第４の量子化後の予測誤差を予測第４のスペクトル係数２１０＿ｔ０＿ｆ４に適用し、第４の符号化スペクトル係数２０６＿ｔ０＿ｆ４に関連する第４の復号化スペクトル係数を取得するように構成されることができる。ここで、復号化器２０１は、第５の量子化後のスペクトル係数２０６＿ｔ０＿ｆ５に対する第５の量子化後の予測誤差を取得し、第５の量子化後の予測誤差を予測第５のスペクトル係数２１０＿ｔ０＿ｆ５に適用し、第５の符号化スペクトル係数２０６＿ｔ０＿ｆ５に関連する第５の復号化スペクトル係数を得るよう構成されることができる。

さらに、復号化器２０１は、現在のフレーム２０８＿ｔ０に対する複数の予測個別スペクトル係数２１０＿ｔ０＿ｆ２又は予測スペクトル係数２１０＿ｔ０＿ｆ４及び２１０＿ｔ０＿ｆ５のグループを、前のフレーム２０８＿ｔ－１の、（例えば、複数の個別符号化スペクトル係数２０６＿ｔ－１＿ｆ２に関連付けられた以前に復号化された複数のスペクトル係数を用いる）対応する複数の個別符号化スペクトル係数２０６＿ｔ－１＿ｆ２に基づいて、又は（例えば、符号化スペクトル係数２０６＿ｔ－１＿ｆ４及び２０６＿ｔ－１＿ｆ５のグループに関連付けられた以前に復号化されたスペクトル係数のグループを用いる）符号化スペクトル係数２０６＿ｔ－１＿ｆ４及び２０６＿ｔ－１＿ｆ５のグループに基づいて、決定するように構成されることができる。

例えば、復号化器２０１は、前のフレーム２０８＿ｔ－１の第２の符号化スペクトル係数２０６＿ｔ－１＿ｆ２に関連する以前に復号化された（量子化された）第２のスペクトル係数を用いて、現在のフレーム２０８＿ｔ０の第２の予測スペクトル係数２１０＿ｔ０＿ｆ２を決定するように構成されることができ、前のフレーム２０８＿ｔ－１の第４の符号化スペクトル係数２０６＿ｔ－１＿ｆ４に関連する以前に復号化された（量子化された）第４のスペクトル係数を用いて、現在のフレーム２０８＿ｔ０の第４の予測スペクトル係数２１０＿ｔ０＿ｆ４を決定するように構成されることができ、前のフレーム２０８＿ｔ－１の第５の符号化スペクトル係数２０６＿ｔ－１＿ｆ５に関連する以前に復号化された（量子化された）第５のスペクトル係数を用いて、現在のフレーム２０８＿ｔ０の第５の予測スペクトル係数２１０＿ｔ０＿ｆ５を決定するように構成されることができる。

さらに、復号化器２０１は、間隔値から予測係数を導出するように構成することができる。そして、復号化器２０１は、少なくとも２つの前のフレーム２０８＿ｔ－１および２０８＿ｔ－２の対応する複数の以前に復号化された個別スペクトル係数または以前に復号化されたスペクトル係数のグループを使用して、かつ、導出された予測係数を使用して、現在のフレーム２０８＿ｔ０に対する複数の予測個別スペクトル係数２１０＿ｔ０＿ｆ２または予測スペクトル係数２１０＿ｔ０＿ｆ４および２１０＿ｔ０＿ｆ５のグループを計算するよう構成されることが可能である。

たとえば、復号化器２０１は、間隔値から第２の符号化スペクトル係数２０６＿ｔ０＿ｆ２に対する予測係数２１２＿ｆ２及び２１４＿ｆ２を導出し、間隔値から第４の符号化スペクトル係数２０６＿ｔ０＿ｆ４に対する予測係数２１２＿ｆ４及び２１４＿ｆ４を導出し、間隔値から第５の符号化スペクトル係数２０６＿ｔ０＿ｆ５に対する予測係数２１２＿ｆ５及び２１４＿ｆ５を導出するするように構成されることが可能である。

なお、復号化器２０１は、予測復号化が適用される複数の個別符号化スペクトル係数又は符号化スペクトル係数のグループに対して、複数の個別量子化後のスペクトル係数又は量子化後のスペクトル係数のグループの代わりに量子化後の予測誤差を得るために符号化音声信号１２０を復号化するよう構成することが可能である。

さらに、復号化器２０１は、複数の個別スペクトル係数又はスペクトル係数のグループを分離する量子化後のスペクトル係数を得るために、符号化音声信号１２０を復号化するように構成されることができる。そうして、量子化後の予測誤差が得られる符号化スペクトル係数２０６＿ｔ０＿ｆ２又は符号化スペクトル係数２０６＿ｔ０＿ｆ４、２０６＿ｔ０＿ｆ５のグループと、量子化後のスペクトル係数が得られる符号化スペクトル係数２０６＿ｔ０＿ｆ３又は符号化スペクトル係数のグループとが交互に存在する。

復号化器２０１は、予測復号化が適用される符号化スペクトル係数２０６＿ｔ０＿ｆ２、２０６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５に関連付けられた復号化スペクトル係数を使用して、及び予測復号化が適用されていない符号化スペクトル係数２０６＿ｔ０＿ｆ１、２０６＿ｔ０＿ｆ３及び２０６＿ｔ０＿ｆ６に関連付けられたエントロピ復号化スペクトル係数を使用して復号化音声信号２２０を提供するように構成されることができる。

例では、復号化器２０１は、間隔値を取得するように構成することができ、復号化器２０１は、間隔値に基づいて、予測復号化が適用される複数の個別符号化スペクトル係数２０６＿ｔ０＿ｆ２又は符号化スペクトル係数２０６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５のグループを選択するように構成することができる。

対応する符号化器１０１の説明に関して既に上述したように、間隔値は、例えば、音声信号の２つの特性周波数間の間隔（又は距離）とすることができる。さらに、間隔値は、音声信号の２つの特性周波数の間の間隔を近似するスペクトル係数（又はスペクトル係数のインデックス）の整数値であり得る。当然ながら、間隔値は、音声信号の２つの特性周波数の間の間隔を記述するスペクトル係数の整数値の分数又は倍数であることも可能である。

復号化器２０１は、予測復号化のために、間隔値によって定義される高調波グリッドに従ってスペクトル的に配置された個別スペクトル係数又はスペクトル係数のグループを選択するように構成されることができる。間隔値によって定義される高調波グリッドは、音声信号１０２における高調波の周期的なスペクトル分布（等距離間隔）を記述することができる。言い換えれば、間隔値によって定義される高調波グリッドは、音声信号１０２の高調波の等距離間隔を記述する間隔値のシーケンスであり得る。

さらに、復号化器２０１は、予測復号化のために、スペクトル係数（例えば、それらのスペクトル係数のみ）を選択するように構成されることができ、そのスペクトルインデックスが、間隔値に基づいて導出された複数のスペクトルインデックスの周囲の範囲（例えば、所定の範囲又は可変範囲）と等しいか又はその範囲内にある。これにより、復号化器２０１は、間隔値に応じて範囲の幅を設定するように構成することができる。

例では、符号化音声信号は、間隔値又はその符号化バージョン（例えば、間隔値を直接導出することができるパラメータ）を含むことができ、復号化器２０１は、間隔値を得るために符号化音声信号から間隔値又はその符号化バージョンを抽出するように構成されることができる。

あるいは、復号化器２０１は、自身で間隔値を決定するように構成されることができ、すなわち、符号化音声信号が間隔値を含まないように構成されることができる。その場合、復号化器２０１は、（音声信号１０２を表す符号化音声信号１２０の）瞬時基本周波数を決定し、瞬時基本周波数又はその分数もしくは倍数から間隔値を導出するように構成されることができる。

例では、復号化器２０１は、予測復号化が適用される複数の個別スペクトル係数又はスペクトル係数のグループと、予測復号化が適用される複数の個別スペクトル係数又はスペクトル係数のグループを分離するスペクトル係数との間において±１スペクトル係数の許容度で周期的な交替があるように、予測復号化が適用される複数の個別スペクトル係数又はスペクトル係数のグループを選択するように構成されることができる。

例では、符号化音声信号１２０によって表現される音声信号１０２は、少なくとも２つの高調波信号成分を含み、復号化器２０１は、音声信号１０２の少なくとも２つの高調波信号成分又は少なくとも２つの高調波信号成分の周囲のスペクトル環境を表すそれら複数の個別符号化スペクトル係数２０６＿ｔ０＿ｆ２又は符号化スペクトル係数２０６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５のグループに選択的に予測復号化を適用するよう構成される。少なくとも２つの高調波信号成分の周囲のスペクトル環境は、例えば、±１、２、３、４又は５個のスペクトル成分であり得る。

それによって、復号化器２０１は、少なくとも２つの高調波信号成分を識別し、識別された高調波信号成分に関連する、（例えば、識別された高調波信号成分を表す、又は識別された高調波信号成分を囲む）それらの複数の個別符号化スペクトル係数２０６＿ｔ０＿ｆ２又は符号化スペクトル係数２０６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５のグループに選択的に予測復号化を適用するよう構成されることが可能である。

あるいは、符号化音声信号１２０は、少なくとも２つの高調波信号成分を特定する情報（例えば、間隔値）を含むことができる。その場合、復号化器２０１は、識別された高調波信号成分に関連する、（例えば、識別された高調波信号成分を表す、又は識別された高調波信号成分を取り囲む）それらの複数の個別符号化スペクトル係数２０６＿ｔ０＿ｆ２又は符号化スペクトル係数２０６＿ｔ０＿ｆ４及び２０６＿ｔ０＿ｆ５のグループに選択的に予測復号化を適用するよう構成され得る。

前述の代替案の両方において、復号化器２０１は、音声信号１０２の少なくとも２つの高調波信号成分又は少なくとも２つの高調波信号成分のスペクトル環境を表さないそれらの複数の個別符号化スペクトル係数２０６＿ｔ０＿ｆ３、２０６＿ｔ０＿ｆ１、２０６＿ｔ０＿ｆ６又は符号化スペクトル係数のグループに対して予測復号化を適用しないように構成されることができる。

言い換えれば、復号化器２０１は、音声信号１０２の信号高調波間の非調和バックグラウンドノイズに属するそれら複数の個別符号化スペクトル係数２０６＿ｔ０＿ｆ３、２０６＿ｔ０＿ｆ１、２０６＿ｔ０＿ｆ６又は符号化スペクトル係数のグループに予測復号化を適用しないように構成されることが可能である。

特定の実施形態のアイデアは、今２つは、異なる動作モードを有する符号化器及び復号化器を提供する。

実施形態によれば、符号化器１００は、例えば、第１モードで動作可能であってもよく、例えば、第２モードと第３モードと第４モードとのうちの少なくとも１つで動作可能であってもよい。

符号化器１００が第１のモードである場合、符号化器１００は、例えば、音声信号の１つ以上の前のフレームの各々の複数のスペクトル係数のうち３つ以上のスペクトル係数からなる第１のグループを使用して、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定することにより現在のフレームを符号化するように構成されることができる。

符号化器１００が第２のモードである場合、符号化器１００は、例えば、変換領域又はフィルタバンク領域で音声信号を符号化するように構成されることができ、符号化器は、例えば、現在のフレーム１０８＿ｔ０及び少なくとも前のフレーム１０８＿ｔ－１についての音声信号１０２の複数のスペクトル係数１０６＿ｔ０＿ｆ１：１０６＿ｔ０＿ｆ６；１０６＿ｔ－１＿ｆ１：１０６＿ｔ－１＿ｆ６を決定するように構成されることができ、符号化器１００は、たとえば、複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４、１０６＿ｔ０＿ｆ５のグループに予測符号化を選択的に適用するように構成されることができ、符号化器１００は、例えば、間隔値を決定するように構成されることができ、符号化器１００は、例えば、予測符号化が、例えば、間隔値に基づいて適用され得る複数の個別スペクトル係数１０６＿ｔ０＿ｆ２又はスペクトル係数１０６＿ｔ０＿ｆ４、１０６＿ｔ０＿ｆ５のグループを選択するように構成されることができる。

実施形態において、第１のモードと第２のモードと第３のモードと第４のモードの各々において、符号化器１００は、たとえば、基本周波数をリファインメント処理してリファインメント処理済み基本周波数を得るように構成されることができ、最小化基準に応じてフレームベースで利得係数を適応させて適応済み利得係数を得る。さらに、符号化器１００は、例えば、元の基本周波数及び利得係数の代わりに、リファインメント処理済み基本周波数及び適応済み利得係数を符号化するように構成されることができる。

実施形態において、符号化器１００は、例えば、音声信号の現在のフレームに応じて、自身を第１のモードに設定するか、又は第２のモードと第３のモードと第４のモードとの少なくとも１つに設定するように構成されることができる。符号化器１００は、例えば、現在のフレームが第１のモードで符号化されたか、第２のモードで符号化されたか、第３のモードで符号化されたか、第４のモードで符号化されたかを、符号化するよう構成されることができる。

復号化器に関して、実施形態によれば、復号化器２００は、例えば、第１のモードで動作可能であることができ、例えば、第２のモードと第３のモードと第４のモードとのうちの少なくとも１つで動作可能であることができる。

復号化器２００が第１のモードである場合、復号化器２００は、例えば、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定するように構成されることができ、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータは、音声信号の１つ以上の前のフレームの各々についての複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存し、復号化器２００は、例えば、最も前のフレームの１つ以上の高調波成分の各々についての２つの高調波パラメータの推定に応じて、現在のフレームを符号化したものを復号化するように構成されることができる。

復号化器２００が第２のモードである場合、復号化器２００は、例えば、現在のフレーム２０８＿ｔ０及び少なくとも前のフレーム２０８＿ｔ－１についての音声信号１２０の符号化スペクトル係数２０６＿ｔ０＿ｆ１：２０６＿ｔ０＿ｆ６；２０６＿ｔ－１＿ｆ１：２０６＿ｔ－１＿ｆ６を取得するために音声信号１２０を符号化したものを解析するように構成することができ、復号化器２００は、例えば、複数の個別符号化スペクトル係数２０６＿ｔ０＿ｆ２又は符号化スペクトル係数２０６＿ｔ０＿ｆ４、２０６＿ｔ０＿ｆ５のグループに選択的に予測復号化を適用するように構成されることができ、復号化器２００は、例えば、間隔値を取得するように構成されることができ、復号化器２００は、例えば、例えば、予測復号化が間隔値に基づいて適用され得る複数の個別符号化スペクトル係数２０６＿ｔ０＿ｆ２又は符号化スペクトル係数２０６＿ｔ０＿ｆ４、２０６＿ｔ０＿ｆ５のグループを選択するように構成されることができる。

復号化器２００が第３のモードである場合、復号化器２００は、例えば、時間領域長期予測（ＴｉｍｅＤｏｍａｉｎＬｏｎｇ－ｔｅｒｍＰｒｅｄｉｃｔｉｏｎ）を採用することによって音声信号を復号化するように構成されることができる。

復号化器２００が第４のモードである場合、復号化器２００は、例えば、適応型修正離散コサイン変換長期予測（ＡｄａｐｔｉｖｅＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍＬｏｎｇ－ＴｅｒｍＰｒｅｄｉｃｔｉｏｎ）を採用して音声信号を復号化することができ、復号化器２００が適応型修正離散コサイン変換長期予測を採用する場合、例えば、最小化基準に応じてフレームベースにおける予測方法として時間領域長期予測又は周波数領域予測（ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＰｒｅｄｉｃｔｉｏｎ）又は周波数領域最小平均二乗予測（ＦｒｅｑｕｅｎｃｙＤｏｍａｉｎＬｅａｓｔＭｅａｎＳｑｕａｒｅＰｒｅｄｉｃｔｉｏｎ）いずれかを選択するよう構成されることができる。

実施形態によれば、第１モードと第２モードと第３モードと第４モードの各々において、復号化器２００は、例えば、フレームベースで決定された、リファインメント処理済み基本周波数に応じて、かつ適合済み利得係数に応じて、音声信号を復号化するように構成されることができる。

実施形態において、復号化器２００は、例えば、現在のフレームが第１のモードで符号化されたか、第２のモードで符号化されたか、第３のモードで符号化されたか、第４のモードで符号化されたかに関する表示を含む符号化したものを受信して復号化することができる。復号化器２００は、例えば、表示に応じて、自身を第１のモードに設定するか、第２のモードに設定するか、第３のモードに設定するか、第４のモードに設定することができる。

図５では、フレーム長が増加すると、元の信号の冗長性が変換自体によって大きく除去されているため、３つのコンセプトのすべてのＢＳがパイプノート（ｐｉｐｅｎｏｔｅ）について大きく低下することが分かる。ＦＤＰは、低ピッチのベースノート（ｌｏｗ－ｐｉｔｃｈｅｄｂａｓｓｎｏｔｅ）に対して、ＭＤＣＴ係数の高調波が大きく重なるので、その性能が大きく低下している。ＴＤＬＴＰの性能は全体的に良好である。しかし、フレーム長が大きい場合、一致する前のピッチ期間を見つけるのに大きな遅延が必要となり、性能が低下する。ＦＤＬＭＳＰは、異なるノートと異なるフレーム長に関して、比較的良好で安定した性能を提供する。また、図５では、予測帯域幅が８ｋＨｚに増加するとＢＳが低下しているが、これは高い周波数帯の音に非調和性があるためである。非調和性は個別音素材のスペクトル特性に依存するため、より高い符号化効率を得るために、ビットレート消費量を帯域別に事前計算及び比較することができる。そして、予測決定が行われ、サイド情報として各フレームで信号化されることができる。

図６は、帯域幅を４ｋＨｚに制限し、ＭＤＣＴフレーム長を６４と５１２とした６つの異なる項目で、４つの異なる作業モードで保存されたビットレートを示している。

図６に示すように、ＦＤＬＭＳＰは多くのシナリオでＴＤＬＴＰとＦＤＰを上回り、全般的に良好な性能を示している。ＡＭＬＴＰは最も性能が高く、ほとんどのケースでＦＤＬＭＳＰとＴＤＬＴＰのどちらかを選択し、ＦＤＬＭＳＰをＴＤＬＴＰと組み合わせることで、ＢＳを大幅に強化できることを示している。

ＭＤＣＴ領域におけるＬＴＰのための新しいアプローチが提供された。この新しいアプローチは、各ＭＤＣＴフレームを高調波成分の仮定としてモデル化し、ＬＭＳのコンセプトを用いて前のフレームからすべての高調波成分のパラメータを推定する。そして、予測は推定された高調波パラメータに基づいて行われる。このアプローチは、同種のコンセプトと比較して競争力のある性能を提供し、また、音声符号化の効率を高めるために共同で使用することができる。

上記のコンセプトは、例えば、異なるピッチ推定アルゴリズムを使用することによって、又は異なる量子化ステップサイズを適用することによって、ピッチ情報の精度が予測に及ぼす影響を分析するために採用されることができる。また、上記のコンセプトは、最小化基準を用いてフレームベースで音声信号のピッチ情報を決定するため、又はリファインメント処理するために採用されることができる。非調和性及び他の複雑な信号特性が予測に与える影響は、例えば、考慮されてもよい。上記のコンセプトは、例えば、誤り隠蔽のために採用されることができる。

いくつかの態様を装置の文脈で説明してきたが、これらの態様は、ブロック又は装置が方法ステップ又は方法ステップの特徴に対応する、対応する方法の説明も表していることは明らかである。同様に、方法ステップの文脈で説明される側面は、対応するブロック又は項目又は対応する装置の特徴の説明も表す。方法ステップのいくつか又はすべては、例えばマイクロプロセッサ、プログラマブルコンピュータ、又は電子回路のようなハードウェア装置によって（又はそれを使用して）実行されてもよい。いくつかの実施形態では、最も重要な方法ステップの１つ又はそれ以上が、そのような装置によって実行されてもよい。

特定の実装要件に応じて、本発明の実施形態は、ハードウェアで、又はソフトウェアで、あるいは少なくとも部分的にハードウェアで、又は少なくとも部分的にソフトウェアで実装することができる。実装は、デジタル記憶媒体、例えばフロッピー（登録商標）ディスク、ＤＶＤ、Ｂｌｕ－Ｒａｙ、ＣＤ、ＲＯＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＥＥＰＲＯＭ又はＦＬＡＳＨメモリであって、その上に格納された電子的に読み取り可能な制御信号を有し、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する（又は協働できる）ものを使用して実行することができる。したがって、デジタル記憶媒体は、コンピュータ可読であってもよい。

本発明によるいくつかの実施形態は、電子的に読み取り可能な制御信号を有するデータキャリアであって、本明細書に記載の方法の１つが実行されるように、プログラム可能なコンピュータシステムと協働することが可能であるデータキャリアを含む。

一般に、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実装することができ、プログラムコードは、コンピュータプログラム製品がコンピュータ上で実行されるときに、方法の１つを実行するために動作可能である。プログラムコードは、例えば、機械読み取り可能な担体に格納することができる。

他の実施形態は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムを、機械可読キャリアに格納することからなる。

言い換えれば、本発明方法の実施形態は、したがって、コンピュータプログラムがコンピュータ上で実行される場合、本明細書に記載された方法の１つを実行するためのプログラムコードを有するコンピュータプログラムである。

本発明方法のさらなる実施形態は、したがって、本明細書に記載の方法の１つを実行するためのコンピュータプログラムをその上に記録してなるデータキャリア（又はデジタル記憶媒体、又はコンピュータ読取可能な媒体）である。データキャリア、デジタル記憶媒体、又は記録媒体は、典型的には、有形及び／又は非一時的である。

したがって、本発明方法のさらなる実施形態は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムを表すデータストリーム又は信号のシーケンスである。データストリーム又は信号のシーケンスは、例えば、データ通信接続、例えば、インターネットを介して転送されるように構成されることができる。

さらなる実施形態は、本明細書に記載された方法の１つを実行するように構成された、又は適合された、例えばコンピュータ、又はプログラマブルロジックデバイスなどの処理手段を含む。

さらなる実施形態は、本明細書に記載された方法の１つを実行するためのコンピュータプログラムをその上にインストールしたコンピュータを具備する。

本発明による更なる実施形態は、本明細書に記載の方法の１つを実行するためのコンピュータプログラムを受信機に（例えば、電子的又は光学的に）転送するように構成された装置又はシステム含む。受信機は、例えば、コンピュータ、モバイルデバイス、メモリデバイス等であってもよい。装置又はシステムは、例えば、コンピュータ・プログラムを受信機に転送するためのファイル・サーバを含んでいてもよい。

いくつかの実施形態では、プログラマブルロジックデバイス（例えば、フィールドプログラマブルゲートアレイ）を使用して、本明細書に記載の方法の機能性の一部又は全部を実行してもよい。いくつかの実施形態では、フィールドプログラマブルゲートアレイは、本明細書に記載される方法の１つを実行するためにマイクロプロセッサと協働してよい。一般に、本方法は、任意のハードウェア装置によって実行されることが好ましい。

本明細書に記載された装置は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータの組合せを用いて実施されてもよい。

本明細書に記載された方法は、ハードウェア装置を用いて、又はコンピュータを用いて、又はハードウェア装置とコンピュータの組合せを用いて実行されてもよい。

上述した実施形態は、本発明の原理を単に例示するものである。本明細書に記載された配置及び詳細の修正及び変形は、当業者には明らかであることが理解される。したがって、差し迫った特許請求の範囲の範囲によってのみ限定され、本明細書における実施形態の説明及び解説によって提示される特定の詳細によって限定されないことが意図される。

参考文献
[1] Jurgen Herre and Sascha Dick, "Psychoacoustic models for perceptual audio c oding a tutorial review," Applied Sciences, vol. 9, pp. 2854, ITT 2019.
[2] Juha Ojanpera, Mauri Vaananen, and Lin Yin, "Long Term Predictor for Transf orm Domain Perceptual Audio Coding," in Audio Engineering Society Convention 107, Sep 1999.
[3] Hendrik Fuchs, "Improving mpeg audio coding by backward adaptive linear ste reo prediction," in Audio Engineering Society Convention 99, Oct 1995.
[4] J. Princen, A. Johnson, and A. Bradley, "Subband/transform coding using fil ter bank designs based on time domain aliasing cancellation," in ICASSP '87. IEEE International Conference on Acoustics, Speech, and Signal Processing, April 1987, vol. 12, pp. 2161-2164.
[5] Christian Helmrich, Efficient Perceptual Audio Coding Using Cosine and Sine Modulated Lapped Transforms, doctoral thesis, Friedrich-Alexander-Universit at Erlangen-Nurnberg (FAU), 2017, Chapter 3.3: Frequency-Domain Prediction w ith Very Low Complexity.
[6] J. Rothweiler, "Polyphase quadrature filters-a new subband coding technique ," in ICASSP '83. IEEE International C01iference on Acoustics, Speech, and S ignal Processing, April 1983, vol. 8, pp. 1280--1283.
[7] Albrecht Schneider and Klaus Frieler, "Perception of harmonic and inharmoni c sounds: Results from ear models;・ in Computer Music Modeling and Retrieva l. Genesis of Meaning in Sound and Music, Solvi Ystad, Richard Kronland-Mart inet, and Kristoffer Jensen, Eds., Berlin, Heidelberg, 2009, pp. 18-44, Spri nger Berlin Heidelberg.
[8] Hugo Fast! and Eberhard Zwicker, Psychoacoustics: Facts and Models, Springe r-Verlag, Berlin, Heidelberg, 2006, Chapter 7.2: Just-Noticeable Changes in Frequency.
[9] John P. Princen and Alan Bernard Bradley, "Analysis/synthesis filter bank d esign based on time domain aliasing cancellation," IEEE Transactions on Acou stics, Speech, and Signal Processing, vol. 34, no. 5, pp. 1153-1161, October 1986.
[10] Alain de Cheveign and Hideki Kawahara, "Yin, a fundamental frequency e stimator for speech and music;・ The Journal of the Acoustical Society of Am erica, vol. 111, pp. 1917-30, 05 2002.
[11] Armin Taghipour, Psychoacoustics of detection of tonality and asymmetr y of masking: implementation of tonality estimation methods in a psychoacous tic model for perceptual audio coding, doctoral thesis, Friedrich-Alexander- Universitat Erlangen-Nurnberg (FAU), 2016, Chapter 4: The Psychoacoustic mod el.
[12] J. D. Johnston, "Estimation of perceptual entropy using noise masking criteria," in ICASSP-88？ International Conference on Acoustics, Speech, an d Signal Processing, April 1988, pp. 2524--2527 vol.5.
[13] WO 2016 142357A1, published September 2016.

Claims

音声信号の１つ以上の前のフレームに応じて前記音声信号の現在のフレームを符号化するための符号化器（１００）であって、前記１つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記１つ以上の前のフレームの各々が前記音声信号の１つ以上の高調波成分を含み、前記現在のフレーム及び前記１つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記現在のフレームを符号化したものを生成するために、前記符号化器（１００）は、前記１つ以上の前のフレームのうちの最も前のフレームの前記１つ以上の高調波成分の各々について２つの高調波パラメータの推定を決定し、前記符号化器（１００）は、前記音声信号の前記１つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループを使用して前記最も前のフレームの前記１つ以上の高調波成分の各々について前記２つの高調波パラメータの前記推定を決定する、符号化器（１００）。
前記符号化器（１００）は、前記１つ以上の前のフレームの各々の前記複数のスペクトル係数のうちのさらなる１つ以上のスペクトル係数からなる第２のグループを使用せずに、前記最も前のフレームの前記１つ以上の高調波成分の各々について前記２つの高調波パラメータを推定する、請求項１に記載の符号化器（１００）。
前記符号化器（１００）が、前記現在のフレーム及び前記１つ以上の前のフレームの前記１つ以上の高調波成分の基本周波数に応じて、かつ、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて、前記現在のフレームを符号化したものとして利得係数及び残差信号を決定し、
前記符号化器（１００）は、前記現在のフレームを符号化したものが前記利得係数及び前記残差信号を含むように、前記現在のフレームを符号化したものを生成する、請求項１又は２に記載の符号化器（１００）。
前記符号化器（１００）は、前記現在のフレームの１つ以上の高調波成分の各々についての前記２つの高調波パラメータの推定を、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて、かつ、前記現在のフレーム及び前記１つ以上の前のフレームの前記１つ以上の高調波成分の前記基本周波数に応じて決定する、請求項３に記載の符号化器（１００）。
前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータは、前記１つ以上の高調波成分の各々の、コサイン副成分についての第１のパラメータとサイン副成分についての第２のパラメータである、請求項３又は４に記載の符号化器（１００）。
前記符号化器（１００）は、少なくとも３つの方程式を含む線形方程式系を解くことによって、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータを推定し、前記少なくとも３つの方程式の各々が、前記１つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの前記３つ以上のスペクトル係数からなる第１のグループに依存する、請求項３乃至５のいずれかに記載の符号化器（１００）。
前記符号化器（１００）は、最小平均二乗アルゴリズムを用いて前記線形方程式系を解く、請求項６に記載の符号化器（１００）。
ｒ≧１である、請求項８に記載の符号化器（１００）。
前記符号化器（１００）は、高調波成分の基本周波数と、窓関数と、前記利得係数と、前記残差信号とを符号化するものである、請求項３乃至１１のいずれかに記載の符号化器（１００）。
前記符号化器（１００）は、前記音声信号の前記１つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループを使用して前記最も前のフレームの前記１つ以上の前記高調波成分の各々について前記２つの高調波パラメータを推定する前に、前記最も前のフレームの前記１つ以上の高調波成分の前記数を決定する、請求項１２に記載の符号化器（１００）。
前記符号化器（１００）は、前記１つ以上の高調波成分から１つ以上の高調波成分のグループを決定し、前記１つ以上の高調波成分のグループに対して前記音声信号の予測を適用し、ここで、前記符号化器（１００）は、前記最も前のフレームの前記１つ以上の高調波成分のグループの各々について前記次数を符号化する、請求項１３に記載の符号化器（１００）。
前記符号化器（１００）は、前記現在のフレームの１つ以上の高調波成分の各々についての前記２つの高調波パラメータを、前記最も前のフレームの前記１つ以上の高調波成分のうちの該高調波成分の各々についての前記２つの高調波パラメータに応じて決定する、請求項３乃至１４のいずれかに記載の符号化器（１００）。
前記符号化器（１００）が、前記周波数領域又は前記変換領域における前記現在のフレームの前記複数のスペクトル係数に応じて、かつ、前記現在のフレームの１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて、前記残差信号を決定し、かつ、
前記符号化器（１００）が、前記残差信号を符号化する、請求項３乃至１６のいずれかに記載の符号化器（１００）。
前記符号化器（１００）が、前記現在のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて、前記現在のフレームの前記複数のスペクトル係数のうちの１つ以上のスペクトル係数のスペクトル予測を決定し、及び
前記符号化器（１００）が、前記周波数領域又は前記変換領域における前記現在のフレームの前記複数のスペクトル係数に応じて、かつ、前記現在のフレームの前記複数のスペクトル係数のうちの前記３つ以上のスペクトル係数の前記スペクトル予測に応じて、前記残留信号及び利得係数を決定し、前記符号化器（１００）が、前記最も前のフレームの前記１つ以上の高調波成分のグループの各々について前記次数を符号化する、請求項１７に記載の符号化器（１００）。
前記符号化器（１００）が、第１のモードで動作可能であり、また第２のモードと第３のモードと第４のモードのうちの少なくとも１つで動作可能であり、
前記符号化器（１００）が前記第１のモードである場合、前記符号化器（１００）は、前記音声信号の前記１つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる前記第１のグループを使用して前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定を決定することによって、前記現在のフレームを符号化し、
前記符号化器（１００）が前記第２のモードである場合、前記符号化器（１００）は、前記変換領域又は前記フィルタバンク領域において前記音声信号を符号化し、前記符号化器は、前記現在のフレーム（１０８＿ｔ０）及び少なくとも前記最も前のフレーム（１０８＿ｔ－１）についての前記音声信号（１０２）の前記複数のスペクトル係数（１０６＿ｔ０＿ｆ１：１０６＿ｔ０＿ｆ６；１０６＿ｔ－１＿ｆ１：１０６＿ｔ－１＿ｆ６）を決定するように構成され、前記符号化器（１００）は、複数の個別スペクトル係数（１０６＿ｔ０＿ｆ２）又はスペクトル係数（１０６＿ｔ０＿ｆ４，１０６＿ｔ０＿ｆ５）のグループに予測符号化を選択的に適用するように構成され、前記符号化器（１００）は、間隔値（ｓｐａｃｉｎｇｖａｌｕｅ）を決定するように構成され、前記符号化器（１００）は、予測符号化が適用される前記複数の個別スペクトル係数（１０６＿ｔ０＿ｆ２）又はスペクトル係数（１０６＿ｔ０＿ｆ４，１０６＿ｔ０＿ｆ５）のグループを前記間隔値に基づいて選択するように構成され、
前記符号化器（１００）が前記第３モードである場合、前記符号化器（１００）は、時間領域長期予測を採用することにより前記音声信号を符号化し、及び、
前記符号化器（１００）が前記第４のモードである場合、前記符号化器（１００）は、適応型修正離散コサイン変換長期予測を採用することによって前記音声信号を符号化し、前記符号化器（１００）が適応型修正離散コサイン変換長期予測を採用する場合、前記符号化器（１００）は、フレームベースにおける予測方法として時間領域長期予測又は周波数領域予測又は周波数領域最小平均二乗予測のいずれかを最小化基準に応じて選択するよう構成される、請求項１乃至１９のいずれかに記載の符号化器（１００）。
前記第１モードと前記第２モードと前記第３モードと前記第４モードの各々において、前記符号化器（１００）は、前記基本周波数をリファインメント処理してリファインメント処理済み基本周波数を得て、最小化基準に応じてフレームベースで前記利得係数を適合させて適合された利得係数を得て、
前記符号化器（１００）は、前記元の基本周波数及び利得係数の代わりに、前記リファインメント処理済み基本周波数及び前記適合済み利得係数を符号化する、請求項２０に記載の符号化器（１００）。
前記符号化器（１００）は、自身を前記第１のモードに設定するか、又は前記第２のモードと前記第３のモードと前記第４のモードのうちの少なくとも１つに設定し、及び、
前記符号化器（１００）は、前記現在のフレームが前記第１のモードで符号化されたか又は前記第２のモードで符号化されたか又は前記第３のモードで符号化されたか又は前記第４のモードで符号化されたかを符号化する、請求項２０又は２１に記載の符号化器（１００）。
音声信号の現在のフレームを再構成するための復号化器（２００）であって、前記音声信号の１つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記１つ以上の前のフレームの各々が前記音声信号の１つ以上の高調波成分を含み、前記現在のフレーム及び前記１つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記復号化器（２００）が、前記現在のフレームを符号化したものを受信し、
前記復号化器（２００）が、前記１つ以上の前のフレームのうちの最も前のフレームの前記１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定し、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータが、前記音声信号の前記１つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存し、
前記復号化器（２００）は、前記現在のフレームを符号化したものに応じて、かつ、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて、前記現在のフレームを再構成する、復号化器（２００）。
前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータは、前記１つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの１つ以上の別のスペクトル係数からなる第２のグループに依存しない、請求項２３に記載の復号化器（２００）。
前記復号化器（１００）が、利得係数及び残差信号を含む前記現在のフレームを符号化したものを受信し、
前記復号化器（２００）は、前記利得係数に応じて、前記残差信号に応じて、ならびに、前記現在のフレーム及び１つ以上の前のフレームの前記１つ以上の高調波成分の基本周波数に応じて、前記現在のフレームを再構成する、請求項２３又は２４に記載の復号化器（２００）。
前記復号化器（２００）は、前記現在のフレームの１つ以上の高調波成分の各々についての前記２つの高調波パラメータの推定を、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて、かつ前記現在のフレーム及び前記１つ以上の前のフレームの前記１つ以上の高調波成分の前記基本周波数に応じて決定する、請求項２５に記載の復号化器（２００）。
前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータは、前記１つ以上の高調波成分の各々についてのコサイン副成分についての第１のパラメータ及びサイン副成分についての第２のパラメータである、請求項２５又は２６に記載の復号化器（２００）。
前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータは、少なくとも３つの方程式を含む線形方程式系に依存し、前記少なくとも３つの方程式の各々は、前記１つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループのスペクトル係数に依存する、請求項２５乃至２７のいずれかに記載の復号化器（２００）。
前記線形方程式系は、最小平均二乗アルゴリズムを用いて解くことができる、請求項２８に記載の復号化器（２００）。
ｒ≧１である、請求項３０に記載の復号化器（２００）。
前記復号化器（２００）が、高調波成分の基本周波数、窓関数、前記利得係数、及び前記残差信号を受信し、
前記復号化器（２００）は、前記最も前のフレームの前記１つ以上の高調波成分の前記基本周波数に応じて、前記窓関数に応じて、前記利得係数に応じて、及び前記残留信号に応じて、前記現在のフレームを再構成する、請求項２５乃至３３のいずれかに記載の復号化器（２００）。
前記復号化器（２００）が、前記最も前のフレームの前記１つ以上の高調波成分の前記数を受信し、及び
前記復号化器（２００）は、前記最も前のフレームの前記１つ以上の高調波成分の前記数に応じて、前記現在のフレームを符号化したものを復号化する、請求項３４に記載の復号化器（２００）。
前記復号化器（２００）が、１つ以上の高調波成分のグループに応じて、前記現在のフレームを符号化したものを復号化し、
前記復号化器（２００）は、前記１つ以上の高調波成分のグループに前記音声信号の予測を適用する、請求項３５に記載の復号化器（２００）。
前記復号化器（２００）は、前記現在のフレームの１つ以上の高調波成分の各々についての前記２つの高調波パラメータを、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータに応じて決定する、請求項２５乃至３６のいずれかに記載の復号化器（２００）。
前記復号化器（２００）は、前記残差信号を受信し、前記残差信号は、前記周波数領域又は前記変換領域における前記現在のフレームの前記複数のスペクトル係数に依存し、前記残差信号は、前記現在のフレームの１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に依存する、請求項２５乃至３８のいずれかに記載の復号化器（２００）。
前記復号化器（２００）は、前記現在のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて、前記現在のフレームの前記複数のスペクトル係数のうちの１つ以上のスペクトル係数のスペクトル予測を決定し、前記復号化器（２００）は、前記現在のフレームの前記スペクトル予測に応じて、前記残差信号に応じて、かつ利得係数に応じて、前記音声信号の前記現在のフレームを決定する、請求項３９に記載の復号化器（２００）。
前記復号化器（２００）は、第１のモードで動作可能であり、第２のモードと第３のモードと第４のモードのうちの少なくとも１つで動作可能であり、
前記復号化器（２００）が前記第１のモードである場合、前記復号化器（２００）は、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定を決定し、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータは、前記音声信号の前記１つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存し、前記復号化器（２００）は、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて前記現在のフレームを符号化したものを復号化し、
前記復号化器（２００）が前記第２モードである場合、前記復号化器（２００）は、前記音声信号（１２０）の符号化したものを解析して、前記現在のフレーム（２０８＿ｔ０）及び少なくとも前記最も前のフレーム（２０８＿ｔ－１）についての前記音声信号（１２０）の符号化スペクトル係数（２０６＿ｔ０＿ｆ１：２０６＿ｔ０＿ｆ６；２０６＿ｔ－１＿ｆ１：２０６＿ｔ－１＿ｆ６）を取得し、前記復号化器（２００）は、複数の個別符号化スペクトル係数（２０６＿ｔ０＿ｆ２）又は符号化スペクトル係数（２０６＿ｔ０＿ｆ４，２０６＿ｔ０＿ｆ５）のグループに予測復号化を選択的に適用するように構成され、前記復号化器（２００）は、間隔値（ｓｐａｃｉｎｇｖａｌｕｅ）を取得するように構成され、前記復号化器（２００）は、前記間隔値に基づいて、予測復号化が適用される前記複数の個別符号化スペクトル係数（２０６＿ｔ０＿ｆ２）又は符号化スペクトル係数（２０６＿ｔ０＿ｆ４，２０６＿ｔ０＿ｆ５）のグループを選択するように構成され、
前記復号化器（２００）が前記第３のモードにある場合、前記復号化器（２００）は、時間領域長期予測を採用することによって前記音声信号を復号化し、及び、
前記復号化器（２００）が前記第４のモードである場合、前記復号化器（２００）は、適応型修正離散コサイン変換長期予測を採用することによって前記音声信号を復号化し、前記復号化器（２００）が適応型修正離散コサイン変換長期予測を採用する場合、前記復号化器（２００）は、最小化基準に応じて、フレームベースにおける予測方法として時間領域長期予測又は周波数領域予測又は周波数領域最小平均二乗予測のいずれかを選択するよう構成される、請求項２３乃至４１のいずれかに記載の復号化器（２００）。
前記第１のモードと前記第２のモードと前記第３のモードと前記第４のモードの各々において、前記復号化器（２００）は、フレームベースで決定された、リファインメント処理済み基本周波数に応じて、かつ適合済み利得係数に応じて前記音声信号を復号化する、請求項４２に記載の復号化器（２００）。
前記復号化器（２００）が、前記現在のフレームが前記第１のモードで符号化されたか、前記第２のモードで符号化されたか、前記第３のモードで符号化されたか、前記第４のモードで符号化されたかに関する表示を含む符号化されたものを受信して復号化し、及び、
前記復号化器（２００）は、前記表示に応じて、自身を前記第１のモード又は前記第２のモード又は前記第３のモード又は前記第４のモードに設定する、請求項４２又は４３に記載の復号化器（２００）。
フレーム損失隠蔽のための装置（７００）であって、前記音声信号の１つ以上の前のフレームが前記音声信号の現在のフレームに先行し、前記現在のフレーム及び前記１つ以上の前のフレームの各々が前記音声信号の１つ以上の高調波成分を含み、前記現在のフレーム及び前記１つ以上の前のフレームの各々が、周波数領域又は変換領域において複数のスペクトル係数を含み、
前記装置（７００）が、前記１つ以上の前のフレームのうちの最も前のフレームの前記１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定し、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータが、前記音声信号の前記１つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存し、
前記装置（７００）が前記現在のフレームを受信しない場合、又は前記現在のフレームが破損した状態で前記装置（７００）によって受信される場合、前記装置（７００）は、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて前記現在のフレームを再構成する、装置（７００）。
前記装置（７００）が、前記最も前のフレームの前記１つ以上の高調波成分の前記数を受信し、
前記装置（７００）は、前記最も前のフレームの前記１つ以上の高調波成分の前記数に応じて、かつ前記現在のフレーム及び前記１つ以上の前のフレームの前記１つ以上の高調波成分の基本周波数に応じて、前記現在のフレームを符号化したものを復号化する、請求項４５に記載の装置（７００）。
前記現在のフレームを再構成するために、前記装置（７００）は、前記現在のフレームの１つ以上の高調波成分の各々についての前記２つの高調波パラメータの推定を、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて決定する、請求項４５又は４６に記載の装置（７００）。
前記復号化器（２００）は、前記現在のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータを、前記最も前のフレームの前記１つ以上の高調波成分のうちの前記１つの各々についての前記２つの高調波パラメータに応じて決定する、請求項４７に記載の装置（７００）。
前記装置（７００）は、前記現在のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて、前記現在のフレームの前記複数のスペクトル係数のうちの１つ以上のスペクトル係数のスペクトル予測を決定する、請求項４８又は４９に記載の装置（７００）。
システムであって、
音声信号の現在のフレームを符号化するための請求項１乃至２２のいずれかに記載の符号化器（１００）と、
前記音声信号の前記現在のフレームを符号化したものを復号化するための請求項２３乃至４４のいずれかに記載の復号化器（２００）と、を備えるシステム。
音声信号の現在のフレームを前記音声信号の１つ以上の前のフレームに応じて符号化するための方法であって、前記１つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記１つ以上の前のフレームの各々が前記音声信号の１つ以上の高調波成分を含み、前記現在のフレーム及び前記１つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記方法は、前記現在のフレームを符号化したものを生成するために、前記１つ以上の前のフレームのうちの最も前のフレームの前記１つ以上の高調波成分の各々について２つの高調波パラメータの推定を決定するステップを含み、
前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定を決定することは、前記音声信号の前記１つ以上の前のフレームの各々の前記複数のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループを使用して実施される、方法。
音声信号の現在のフレームを再構成する方法であって、前記音声信号の１つ以上の前のフレームが前記現在のフレームに先行し、前記現在のフレーム及び前記１つ以上の前のフレームの各々が前記音声信号の１つ以上の高調波成分を含み、前記現在のフレーム及び前記１つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記現在のフレームを符号化したものを受信するステップと、
前記１つ以上の前のフレームのうちの最も前のフレームの前記１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定するステップと、を備え、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータが、前記音声信号の前記１つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存しており、
前記現在のフレームを符号化したものに応じて、かつ、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータの前記推定に応じて、前記現在のフレームを再構成するステップと、を備える、方法。
フレーム損失隠蔽のための方法であって、前記音声信号の１つ以上の前のフレームが前記音声信号の現在のフレームに先行し、前記現在のフレーム及び前記１つ以上の前のフレームの各々が前記音声信号の１つ以上の高調波成分を含み、前記現在のフレーム及び前記１つ以上の前のフレームの各々が周波数領域又は変換領域において複数のスペクトル係数を含み、
前記方法は、前記１つ以上の前のフレームのうち最も前のフレームの前記１つ以上の高調波成分の各々についての２つの高調波パラメータの推定を決定するステップを備え、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータが前記音声信号の前記１つ以上の前のフレームの各々についての前記複数の再構成後のスペクトル係数のうちの３つ以上のスペクトル係数からなる第１のグループに依存し、
前記現在のフレームが受信されない場合、又は前記現在のフレームが破損した状態で受信される場合、前記最も前のフレームの前記１つ以上の高調波成分の各々についての前記２つの高調波パラメータに応じて前記現在のフレームを再構成するステップ備える、方法。
コンピュータプログラムがコンピュータ又は信号処理装置によって実行される際に、請求項５２乃至５４のいずれかに記載の方法を実施するための、コンピュータプログラム。