JP2009530685A

JP2009530685A - Ｍｄｃｔ係数を使用する音声後処理

Info

Publication number: JP2009530685A
Application number: JP2009501405A
Authority: JP
Inventors: ギャオ，ヤン
Original assignee: マインドスピード・テクノロジーズ・インコーポレイテッド
Priority date: 2006-03-20
Filing date: 2006-10-23
Publication date: 2009-08-27
Anticipated expiration: 2026-10-23
Also published as: US20090287478A1; US7590523B2; EP2005419A2; US8095360B2; US20070219785A1; WO2007111646B1; EP2005419A4; JP5047268B2; EP2005419B1; WO2007111646A2; WO2007111646A3

Abstract

周波数領域で複数のサブバンド（３３０）に分割される音声信号（３２０）を強化するための音声後処理機（２５０）を提供する。該音声後処理機は、該複数のサブバンドから導出されるエンベロープのためのエンベロープ修正因数を生成するために、該複数のサブバンドから導出されるエンベロープを表す周波数領域係数を使用するように設定されたエンベロープ修正因数生成機（２６０）を備え、該エンベロープ修正因数は、ＦＡＣ＝αＥＮＶ／Ｍａｘ＋（１−α）を使用して生成される。式中、ＦＡＣは該エンベロープ修正因数であり、ＥＮＶはエンベロープであり、Ｍａｘは最大エンベロープであり、αは０から１の間の値であり、αは各音声の符号化速度に対して異なる一定値である。該音声後処理機は、該複数のサブバンドのそれぞれに対応する該エンベロープ修正因数によって、該複数のサブバンドから導出される該エンベロープを修正するように設定されたエンベロープ修正機（２６５）をさらに備える。

Description

発明の背景
発明の分野
本発明は、概して音声符号化に関する。より具体的には、本発明は音声後処理に関する。

背景技術
音声圧縮は、音声信号を表すビット数を削減して、送信に必要な帯域帯を削減するために使用される場合がある。しかしながら、音声圧縮は、解凍された音声の品質低下を招く場合がある。一般的に、ビットレートが高くなると、品質が向上し、ビットレートが低くなると、品質が低下する。しかしながら、符号化技術などの現代の音声圧縮技術は、比較的低いビットレートで比較的高品質の解凍された音声を作成することが可能である。一般的に、現代の符号化技術は、実際の音声波形を保存せずに、音声信号の知覚的に重要な特徴を表そうとする。音声圧縮システムは、一般的にはコーデックと呼ばれ、エンコーダとデコーダを含み、デジタル音声信号のビットレートを削減するために使用することができる。再構成される音声を高品質に維持しようとしながら、元の音声をデジタル的に符号化するために必要なビット数を削減する音声コーデックのために、多数のアルゴリズムが開発されてきた。

図１は、励起デコーダ１１０、合成フィルタ１２０および後処理機１３０を含む、従来の音声復号システム１００を示す。示されているように、復号システム１００は、通信媒体（非表示）を介して、エンコーダから符号化された音声ビットストリーム１０２を受信し、復号システム１００は、符号化された音声ビットストリーム１０２を受信できる、移動通信デバイス、基地局、またはその他の無線または有線通信デバイスの一部にすることができる。復号システム１００は、符号化された音声ビットストリーム１０２を復号して、デジタル信号の形で音声信号１３２を生成するように、動作する。次に、音声信号１３２は、デジタルからアナログへの変換機（非表示）によって、アナログ信号に変換することができる。デジタルからアナログへの変換機のアナログ出力は、受信機（非表示）によって受信することができるが、受信機は、アナログ信号を受信できる、人間の耳、磁気テープレコーダ、またはその他のデバイスにすることができる。あるいは、デジタル信号を受信できる、デジタル記録デバイス、音声認識デバイス、またはその他任意のデバイスが音声信号１３２を受信することができる。

励起デコーダ１１０は、符号化アルゴリズムおよび符号化された音声ビットストリーム１０２のビットレートに応じて、符号化された音声ビットストリーム１０２を復号して、復号励起１１２を生成する。合成フィルタ１２０は、復号励起１１２に基づいて合成音声１２２を生成する短期逆予測フィルタにすることができる。後処理機１３０は、合成音声１２２の知覚品質を改善できる、フィルタリング、信号強調、ノイズ修正、増幅、傾斜補正、およびその他類似の技術を含むことができる。後処理機１３０は、合成音声１２２を著しく劣化することなく、可聴ノイズを減少することができる。可聴ノイズの減少は、合成音声１２２のホルマント構造を強調することによって、あるいは、合成音声１２２に知覚的に関連しない周波数領域のノイズを抑制することによって、実現することができる。

従来、合成音声１２２の後処理は、利用可能なＬＰＣ（線形予測符号化）パラメータを
使用して時間領域で実施される。しかしながら、このようなＬＰＣパラメータが利用できない場合、複雑度とコードサイズの面では、合成音声１２２の後処理の目的のためにＬＰＣパラメータを生成すると、あまりにコストがかかり過ぎる。これは、特に、合成音声１２２の広帯域後処理に言えることである。したがって、ＬＰＣパラメータに基づく時間領域の後処理を利用せずに、効率的かつ効果的に実施可能なデコーダの後処理機の技術に対する強い必要性が存在する。

発明の要約
本発明は、周波数領域で複数のサブバンドに分割される音声信号を強化するための音声後処理機に関する。一態様では、音声後処理機は、複数のサブバンドから導出されるエンベロープのためのエンベロープ変更因数を生成するために、複数のサブバンドから導出されるエンベロープを表す周波数領域係数を使用するように設定されたエンベロープ修正因数生成機を備える。音声後処理機は、複数のサブバンドのそれぞれに対応するエンベロープ修正因数によって、複数のサブバンドから導出されるエンベロープを修正するように設定されたエンベロープ修正機をさらに備える。

さらなる態様では、エンベロープ修正因数生成機は、ＦＡＣ＝αＥＮＶ／Ｍａｘ＋（１−α）を使用して、エンベロープ修正因数を生成する。式中、ＦＡＣはエンベロープ修正因数、ＥＮＶはエンベロープ、Ｍａｘは最大エンベロープ、およびαは０から１までの値である。さらに、αが、第１の音声符号化速度のための第１の定数（α１）の場合や、αが、第２の音声符号化速度のための第２の定数（α２）の場合があるが、第２の音声符号化速度は第１の音声符号化速度よりも速く、α１＞α２である。さらに、周波数領域係数はＭＤＣＴ（修正離散コサイン変換）にすることができる。

また別の態様では、エンベロープ修正機は、エンベロープ修正因数のそれぞれをその対応するエンベロープで乗じることによって、複数のサブバンドから導出された前記エンベロープを修正する。

追加の態様では、音声後処理機は、複数のサブバンドのそれぞれの複数の微細構造のための微細構造修正因数を生成するために、複数のサブバンドのそれぞれの複数の微細構造を表す周波数領域係数を使用するように設定された微細構造修正因数生成機と、複数の微細構造のそれぞれに対応する微細構造修正因数によって、複数のサブバンドのそれぞれの複数の微細構造を修正するように設定された微細構造修正機をさらに備える。

このような態様では、微細構造修正因数生成機は、ＦＡＣ＝βＭＡＧ／Ｍａｘ＋（１−β）を使用して、微細構造修正因数を生成することができる。式中、ＦＡＣは微細構造修正因数であり、ＭＡＧは振幅であり、Ｍａｘは最大振幅であり、βは０から１の間の値である。

さらなる態様では、βは第１の音声符号化速度のための第１の一定値（β１）の場合や、βは第２の音声符号化速度のための第２の一定値（β２）の場合があるが、第２の音声符号化速度は、第１の音声符号化速度よりも速く、β１＞β２である。

本発明のその他の特徴や利点は、以下の詳細説明と添付の図面を確認することによって、当業者により容易に明らかになる。

本発明の特徴や利点は、以下の詳細説明と添付の図面を確認することによって、当業者により容易に明らかになる。

発明の詳細
本発明は、特定の実施例に関して説明されるが、本発明の原則は、添付の請求項により画定されるように、本明細書に説明された本発明の具体的に説明される実施例を超えて適用可能であることが明らかである。さらに、本発明の説明において、一定の詳細は、本発明の独創的な態様を不明瞭にしないように、省略される。省略される詳細は、当業者の知識の範囲内である。

本明細書の図面および添付の詳細説明は、本発明の典型的な実施例に関することに過ぎない。簡潔さを保つために、本発明の原則を使用する本発明のその他の実施形態は、本明細書では具体的に説明されず、添付の図面によって具体的に図説されてない。その他明記されない限り、図面の中の同様または対応する要素は、同様または対応する参照番号によって示すことができることとする。

図２Ａは、本発明の一実施形態に従い、符号化された音声信号の復号と後処理のための復号システム２００の模式図を示す。示されているように、復号システム２００は、ＭＤＣＴデコーダ２１０と、ＭＤＣＴ係数後処理機２２０と、逆ＭＤＣＴ２３０と、を含む。復号システム２００は、通信媒体（非表示）を介して、エンコーダから符号化された音声ビットストリーム２０２を受信するが、復号システム２００は、移動通信デバイス、基地局、または符号化された音声ビットストリーム２０２を受信することができるその他の無線または有線通信デバイスの一部にすることができる。復号システム２００は、符号化された音声ビットストリーム２０２を復号して、デジタル信号の形で音声信号２３２を生成するように、動作する。次に、音声信号２３２は、デジタルからアナログへの変換機（非表示）によって、アナログ信号に変換することができる。デジタルからアナログへの変換機のアナログ出力は、受信機（非表示）によって受信することができるが、受信機は、アナログ信号を受信できる、人間の耳、磁気テープレコーダ、またはその他のデバイスにすることができる。あるいは、デジタル信号を受信できる、デジタル記録デバイス、音声認識デバイス、またはその他任意のデバイスが音声信号２３２を受信することができる。

ＭＤＣＴデコーダ２１０は、符号化アルゴリズムおよび符号化された音声ビットストリーム２０２のビットレートに応じて、符号化された音声２１２を復号して、ＭＤＣＴ係数２１２を生成する。ＭＤＣＴ係数後処理機は、復号されたＭＤＣＴ係数２１２上に対して動作して、音声品質を大幅に劣化することなく可聴ノイズを減少する、後処理されたＭＤＣＴ係数２２２を生成する。図２Ｂを参照しながら以下で検討するように、可聴ノイズの減少は、ＭＤＣＴ係数を使用して、信号のエンベロープと微細構造を修正することによって実現することができる。逆ＭＤＣＴ２３０は、たとえば、ＭＤＣＴ係数の再構成のために、後処理されたエンベロープを後処理された微細構造で乗じることによって、後処理されたエンベロープと後処理された微細構造を組み合わせて、音声信号２３２を生成する。

図２Ｂは、本発明の一実施形態に従い、後処理機２５０の模式図を示す。時間領域において動作する従来の後処理機とは異なり、後処理機２５０は周波数領域で動作する。好ましい実施形態では、本発明は、周波数領域のＭＤＣＴまたはＴＤＡＣ（時間領域エイリアシング相殺）係数を利用する。本発明は、合成音声の後処理のために周波数領域のＤＦＴ（離散フーリエ変換）またはＦＦＴ（高速フーリエ変換）も使用することができるが、フレーム境界においてフレーム間が不連続となる可能性があるために、ＤＦＴおよびＦＦＴは、ＭＤＴＣあるいはＴＤＡＣと比較して好まれない。ＤＦＴまたはＦＦＴを使用して音声信号を２つの信号と次の追加に分解すると、フレームの不連続性が生じる場合がある。しかしながら、本発明の好ましい実施形態では、後処理機２５０は、ＭＤＣＴ係数を利用し、音声信号は、重複枠がある２つの信号に分解され、音声信号の枠は、周波数領域でコサイン変換および量子化される。また、時間領域に変換し直す際に、フレーム間の不連続
性を回避するように、重複・追加演算が実施される。

図２Ｂに示されているように、後処理機２５０は、当業者には周知であるが、ブロック２１０でＭＤＣＴ係数を受信または生成する。一実施形態では、後処理機２５０は、音声信号の全体的なエネルギーとスペクトルの傾きを実質的に維持しながら、スペクトルのエンベロープ谷部分のエネルギーを削減することによって、エンベロープ修正因数生成機２６０とエンベロープ修正機２６５でエンベロープの後処理を実施する。さらに、後処理機２５０は、音声信号の調波の間で（存在する場合）スペクトルの振幅を弱めることによって、微細構造修正因数生成機２７０と微細構造修正機２７５で微細構造後処理を実施することができる。

サブバンド修正因数生成機２６０は、図３にサブバンドＳ１、Ｓ２、・・・Ｓｎ３００として示されているように、周波数範囲を複数の周波数サブバンドに分解する。各サブバンドの周波数範囲は、同じ場合、あるいは、サブバンドによって異なる場合がある。一実施形態では、各サブバンドは、各サブバンドが小さすぎないように、少なくとも１つの調波のピークを含む。次に、サブバンド修正因数生成機２６０は、音声信号３２０のエンベロープ３１０を表すために、ＭＤＣＴ係数に基づいて、複数の値を概算する。

例としては、周波数範囲全体を、１０など、いくつかのサブバンドに分解することができる。１０などの値の数は、各サブバンドから導出されるエンベロープを表すために概算される。すると、エンベロープは次の式によって表される。

次に、サブバンド修正因数生成機２６０は、次の式を使用して、修正因数を生成する。

式中、Ｍａｘは最大エンベロープ値で、αは０から１の間の一定値で、エンベロープ修正の程度を制御する。一実施形態では、αは、０．２５などのような０から０．５までの一定値が可能である。αの値は各ビットレートで一定にすることができるが、αの値は、ビットレートに応じて変化することもできる。このような実施形態では、ビットレートが高くなると、αの値は、ビットレートが低い場合のαの値よりも小さい。αの値が小さくなればなるほど、エンベロープの修正は少なくなる。たとえば、一実施形態では、αの値は１４Ｋｂｐｓに対して定数（α＝α１）で、βの値は２８Ｋｂｐｓに対して定数（α＝α２）であるが、α１＞α２である。

一実施形態では、以下に示されているように、エンベロープ修正機２６５は、エンベロープ３２０に、サブバンド修正因数生成機２６０によって生成された因数を乗じることによって、エンベロープ３１０を修正する。

したがって、ＦＡＣ［ｉ］は、各サブバンドのエネルギーを修正するが、ＦＡＣ［ｉ］
は１より小さい。ピークエネルギーが大きい領域では、ＦＡＣ［ｉ］は１に近いが、ピークエネルギーが小さい領域では、ＦＡＣ［ｉ］は０に近い。

音声信号のひずみは、低ビットレートで、そして、ほとんどは、ホルマント領域３１２ではなく、量子化エラーに対する信号エネルギーの比率が高い、谷領域３１４で多く発生することが知られている。ＭＤＣＴ係数を利用することによって、音声信号のエネルギー全体とスペクトルの傾きを実質的に維持しながら、スペクトルエンベロープの谷領域３１４のエネルギーを削減することにより、ＥＮＶ［ｉ］を修正するために、ＦＡＣ［ｉ］が計算される。

図４を参照すると、微細構造修正因数生成機２７０は、図４にサブバンドＳ１、Ｓ２、・・・Ｓｎ４３０として示されているような複数の周波数サブバンドのそれぞれの周波数ｆ１、ｆ２、・・・ｆｎ４２０などのような微細構造に、さらに注目する。たとえば、サブバンド修正因数生成機２６０、およびエンベロープ修正機２６５におけるそれぞれのサブバンドＳ１、Ｓ２、・・・Ｓｎ３３０に適用される上記の手順は、微細構造修正因数生成機２７０、および微細構造修正機２７５におけるｆ１、ｆ２、・・・ｆｎ４２０にそれぞれ適用される。上記で検討されたエンベロープ後処理手順のように、複数のサブバンドのそれぞれの微細構造またはＭＤＣＴ係数の振幅（ＭＡＧ）に対する修正因数は、以下に示されるような、式２に類似する式を使用して取得することが可能である。

式中、Ｍａｘは最大振幅であり、βは０から１の間の一定値であり、振幅または微細構造修正の程度を制御する。βの値は各ビットレートで一定にすることができるが、βの値は、ビットレートに応じて変化することもできる。このような実施形態では、ビットレートが高くなると、βの値は、ビットレートが低い場合のβの値よりも小さい。βの値が小さくなればなるほど、エンベロープの修正は少なくなる。たとえば、一実施形態では、βの値は１４Ｋｂｐｓに対して定数（β＝β１）で、βの値は２８Ｋｂｐｓに対して定数（β＝β２）であるが、β１＞β２である。この結果、微細構造修正因数生成機２７０と微細構造修正機２７５は、もしあれば、調波間のスペクトル振幅を弱める。次に、後処理されたエンベロープを、ＭＤＣＴ係数の後処理された微細構造で乗じることによって、後処理されたＭＤＣＴ係数の再構成を取得する。

本発明の一実施形態では、ＭＤＣＴ係数の後処理は、高域（４−８ＫＨｚ）にのみ適用されて、低域（０−４ＫＨｚ）は、従来の時間領域手法を使用して後処理され、高域については、デコーダに送信されるＬＰＣ係数はない。高域のための後処理を実施するために、従来の時間領域手法を使用することは、複雑になりすぎるので、本明細書の実施例は、後処理を実施するデコーダで利用可能なＭＤＣＴ係数を利用する。

このような実施形態では、１６０の高域ＭＤＣＴ係数が存在する場合があり、次のように定義できる。

式中、高域は１０のサブバンドに分解できて、各サブバンドは１６のＭＤＣＴ係数を含み、当該１６０のＭＤＣＴ係数は次のように表すことが可能である。

式中、ｋはサブバンドインデックスで、ｉはサブバンド内の係数インデックスである。次に、各サブバンドのＭＤＣＴ係数の振幅は次のように表すことができる。

式中、各サブバンドの平均振幅は、以下のエンベロープとして定義される。

上記で検討したように、ＭＤＣＴ後処理は、２つの部分で実施することができる。最初の部分は、エンベロープ後処理と呼ぶことができて（短期の後処理に対応する）、エンベロープを修正し、第２の部分は微細構造後処理と呼ぶことができて（長期の後処理に対応する）、各サブバンド内の各係数の振幅を強化する。一態様では、ＭＤＣＴ後処理は、低いほうの振幅をさらに低くするが、符号化エラーは、高いほうの振幅よりも比較的多い。一実施形態では、エンベロープを修正するためのアルゴリズムは、以下のように記述することができる。

まず、最大エンベロープ値は次のように想定される。

エンベロープに適用することができる増幅率因数は、次のように計算される。

式中、α（０＜α＜１）は、特定のビットレートに対する定数で、ビットレートが高くなると、定数αは小さくなる。因数を決定後、修正されたエンベロープは次のように表すことができる。

式中、ｇ１は、エネルギー全体を維持するための増幅率で、次のように定義される。

次に、２番目の部分については、各サブバンド内の微細構造の修正は、上記のエンベロープ後処理に類似したものとすることができるが、サブバンド内の最大振幅値は次のように想定される。

振幅の増幅率因数は次のように計算できる。

式中、β（０＜β＜１）は、特定のビットレートに対する定数で、ビットレートが高くなると、定数βは小さくなる。因数を決定後、修正された振幅は次のように表すことができる。

エンベロープ後処理と微細構造後処理の双方を組み合わせることによって、最終的な後処理されたＭＤＣＴ係数は次のように定義される。

式中、ｋ＝０，１，．．．，９で、ｉ＝０，１，．．．，１５である。
図５は、本発明の一実施形態に従い、合成音声のエンベロープと微細構造の後処理のための流れ図５００を示す。付録ＡおよびＢは、それぞれ、固定小数点と浮動小数点で、「Ｃ」プログラム言語を使用する後処理流れ図５００の実施を示す。上記で説明したように、最初のステップ５１０で、後処理流れ図５００は、複数のＭＤＣＴ係数を、このような係数を計算またはその他のシステム構成要素から受信することによって取得する。次に、ステップ５２０で、後処理流れ図５００は、複数のサブバンド３３０のそれぞれに対してエンベロープを表す複数のＭＤＣＴ係数を使用する。一実施形態では、各サブバンドは、１つ以上の周波数係数を有するようになり、各サブバンドの振幅を概算するために、サブバンドの各周波数に対して平方と加算演算が実施されて、エネルギーを取得する。演算を
より簡単にするために、計算には絶対値を使用できる。

ステップ５３０で、後処理流れ図５００は、たとえば、上記のように、式２を使用することによって、各サブバンドエンベロープの修正因数を決定する。次に、ステップ５４０で、後処理流れ図５００は、たとえば、上記のように、式３を使用することによって、ステップ５３０の修正因数を使用して、各サブバンドエンベロープを修正する。ステップ５５０で、後処理流れ図５００は、微細構造後処理（時間領域における長期後処理に類比できる）を実施するために、エンベロープ後処理（時間領域における短期後処理に類比できる）のためのステップ５１０〜５４０を各サブバンド４３０内の微細構造に対して、再適用する。微細構造後処理を実施する前に、後処理流れ図５００は、ＭＤＣＴ係数を未修正エンベロープ係数で除することによって、ＭＤＣＴ係数の微細構造を評価してから、ＭＤＣＴ係数の微細構造に対するステップ５１０〜５４０の処理を異なるパラメータで各サブバンドに適用することができる。さらに、ステップ５６０で、後処理流れ図５００は、ＭＤＣＴ係数の再構成のために、後処理されたエンベロープを後処理された微細構造で乗じる。

本発明の上記説明から、本発明の概念を実施するために、その範囲を逸脱することなく、多様な技術を使用することが可能であることが明らかである。さらに、本発明は、特定の実施形態を具体的に参照しながら説明されたが、当業者は、本発明の精神と範囲を逸脱することなく、形式および詳細に変更を行うことができることを理解するであろう。たとえば、本明細書に開示される回路は、ソフトウェアに実装が可能、あるいはこの逆も可能であることが意図される。説明された実施形態は、説明のためであって、制限のためではない。また、本発明は、本明細書に説明された特定の実施形態に限定されるものではなく、本発明の範囲を逸脱することなく、多数の再配置、変更および置換が可能であることも理解されたい。
［添付資料］

［添付資料Ｂ］

符号化された音声信号の復号と後処理のための従来の復号システムの模式図を示す。本発明の一実施形態に従い、符号化された音声信号の復号と後処理のための復号システムの模式図を示す。本発明の一実施形態に従い、後処理機の模式図を示す。本発明の一実施形態に従い、合成音声のエンベロープ後処理のための音声信号を表すエンベロープを示す。本発明の一実施形態に従い、合成音声の微細構造後処理のための音声信号を表す微細構造を示す。本発明の一実施形態に従い、合成音声のエンベロープと微細構造の後処理のための流れ図を示す。

Claims

周波数領域の複数のサブバンドに分割される音声信号を強化するための音声後処理機であって、
前記複数のサブバンドから導出されるエンベロープのためのエンベロープ修正因数を生成するために、前記複数のサブバンドから導出される前記エンベロープで表される周波数領域係数を使用するように設定されたエンベロープ修正因数生成機と、
前記複数のサブバンドのそれぞれに対応する前記エンベロープ修正因数によって、前記複数のサブバンドから導出される前記エンベロープを修正するように設定されたエンベロープ修正機と、
を備える、音声後処理機。
前記エンベロープ修正因数生成機は、
ＦＡＣ＝αＥＮＶ／Ｍａｘ＋（１−α）
を使用して前記エンベロープ修正因数を生成し、式中、ＦＡＣは前記エンベロープ修正因数であり、ＥＮＶはエンベロープであり、Ｍａｘは最大エンベロープであり、αは０から１の間の値である、請求項１に記載の音声後処理機。
式中、αは第１の音声符号化速度のための第１の一定値（α１）であり、αは第２の音声符号化速度のための第２の一定値（α２）であって、前記第２の音声符号化速度は、前記第１の音声符号化速度よりも速く、α１＞α２である、請求項２に記載の音声後処理機。
前記周波数領域係数はＭＤＣＴ（修正離散コサイン変換）である、請求項３に記載の音声後処理機。
前記周波数領域係数はＭＤＣＴ（修正離散コサイン変換）である、請求項１に記載の音声後処理機。
前記エンベロープ修正機は、前記エンベロープ修正因数のそれぞれをその対応するエンベロープで乗じることによって、前記複数のサブバンドから導出された前記エンベロープを修正する、請求項１に記載の音声後処理機。
前記複数のサブバンドのそれぞれの複数の微細構造のための微細構造修正因数を生成するために、前記複数のサブバンドのそれぞれの前記複数の微細構造を表す周波数領域係数を使用するように設定される、微細構造修正因数生成機と、
前記複数の微細構造のそれぞれに対応する前記微細構造修正因数によって、前記複数のサブバンドのそれぞれの前記複数の微細構造を修正するように設定される微細構造修正機と、
をさらに備える、請求項１に記載の音声後処理機。
前記微細構造修正因数生成機は、
ＦＡＣ＝βＭＡＧ／Ｍａｘ＋（１−β），
を使用して前記微細構造修正因数を生成し、式中、ＦＡＣは前記微細構造修正因数であり、ＭＡＧは振幅であり、Ｍａｘは最大振幅であり、βは０から１の間の値である、請求項７に記載の音声後処理機。
式中、βは第１の音声符号化速度のための第１の一定値（β１）であり、βは第２の音声符号化速度のための第２の一定値（β２）であって、前記第２の音声符号化速度は、前記第１の音声符号化速度よりも速く、β１＞β２である、請求項８に記載の音声後処理機
。
前記周波数領域係数はＭＤＣＴ（修正離散コサイン変換）である、請求項８に記載の音声後処理機。
周波数領域の複数のサブバンドに分割される音声信号を強化するための音声後処理方法であって、
前記複数のサブバンドから導出されるエンベロープを表す周波数領域係数を使用して、前記複数のサブバンドから導出される前記エンベロープのためのエンベロープ修正因数を生成するステップと、
前記複数のサブバンドのそれぞれに対応する前記エンベロープ修正因数によって、前記複数のサブバンドから導出される前記エンベロープを修正するステップと、
を備える、音声後処理方法。
前記エンベロープ修正因数を生成する前記ステップは、
ＦＡＣ＝αＥＮＶ／Ｍａｘ＋（１−α）
を使用し、式中、ＦＡＣは前記エンベロープ修正因数であり、ＥＮＶはエンベロープであり、Ｍａｘは最大エンベロープであり、αは０から１の間の値である、請求項１１に記載の音声後処理方法。
式中、αは第１の音声符号化速度のための第１の一定値（α１）であり、αは第２の音声符号化速度のための第２の一定値（α２）であって、前記第２の音声符号化速度は、前記第１の音声符号化速度よりも速く、α１＞α２である、請求項１２に記載の音声後処理方法。
前記周波数領域係数はＭＤＣＴ（修正離散コサイン変換）である、請求項１３に記載の音声後処理方法。
前記周波数領域係数はＭＤＣＴ（修正離散コサイン変換）である、請求項１１に記載の音声後処理方法。
前記修正機は、前記エンベロープ修正因数のそれぞれをその対応するエンベロープで乗じることによって、前記複数のサブバンドから導出される前記エンベロープを修正する、請求項１１に記載の音声後処理方法。
前記複数のサブバンドのそれぞれの複数の微細構造を表す周波数領域係数を使用して、前記複数のサブバンドのそれぞれの前記複数の微細構造のための微細構造修正因数を生成するステップと、
前記複数の微細構造のそれぞれに対応する前記微細構造修正因数によって、前記複数のサブバンドのそれぞれの前記複数の微細構造を修正するステップと、
をさらに備える、請求項１１に記載の音声後処理方法。
前記微細構造修正因数を生成する前記ステップは、
ＦＡＣ＝βＭＡＧ／Ｍａｘ＋（１−β）
を使用し、式中、ＦＡＣは前記微細構造修正因数であり、ＭＡＧは振幅であり、Ｍａｘは最大振幅であり、βは０から１の間の値である、請求項１７に記載の音声後処理方法。
式中、βは第１の音声符号化速度のための第１の一定値（β１）であり、βは第２の音声符号化速度のための第２の一定値（β２）であって、前記第２の音声符号化速度は、前記第１の音声符号化速度よりも速く、β１＞β２である、請求項１８に記載の音声後処理
方法。
前記周波数領域係数はＭＤＣＴ（修正離散コサイン変換）である、請求項１８に記載の音声後処理機。