JP6306565B2

JP6306565B2 - 帯域幅拡張のための高周波数符号化／復号化方法及びその装置

Info

Publication number: JP6306565B2
Application number: JP2015501583A
Authority: JP
Inventors: ジュ，キ−ヒョン
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2012-03-21
Filing date: 2013-03-21
Publication date: 2018-04-04
Anticipated expiration: 2033-03-21
Also published as: JP2015512528A; WO2013141638A1; EP2830062B1; JP6673957B2; US20160240207A1; JP2018116297A; US9378746B2; ES2762325T3; TWI626645B; TW201729181A; CN104321815B; US20130290003A1; US10339948B2; EP3611728A1; TW201401267A; US9761238B2; KR102248252B1; KR20130107257A; US20170372718A1; KR102070432B1

Description

本発明は、オーディオ符号化及び復号化に係り、さらに詳細には、帯域幅拡張のための高周波数符号化／復号化方法及びその装置に関する。

Ｇ．７１９のコーディング・スキームは、テレカンファレンシングを目的として、開発及び標準化されたものであり、ＭＤＣＴ（modified discrete cosine transform）を行い、周波数ドメイン変換を行い、ステーショナリー（stationary）フレームである場合には、ＭＤＣＴスペクトルを直ちにコーディングする。ノンステーショナリー（non-stationary）フレームは、時間ドメインエイリアシング順序（time domain aliasing order）を変更することにより、時間的な特性を考慮するように変更する。ノンステーショナリー・フレームについて得られたスペクトルは、ステーショナリー・フレームと同一のフレームワークによって、コーデックを構成するためにインターリービングを行い、ステーショナリー・フレームと類似した形態によって構成される。かように構成されたスペクトルのエネルギーを求めて正規化を行った後、量子化を行う。一般的にエネルギーは、ＲＭＳ（root mean square）値で表現され、正規化されたスペクトルは、エネルギー基盤のビット割り当てを介して、バンド別に必要なビットを生成し、バンド別ビット割り当て情報を基に、量子化及び無損失符号化を介して、ビットストリームを生成する。

Ｇ．７１９のデコーディング・スキームによれば、コーディング方式の逆過程で、ビットストリームからエネルギーを逆量子化し、逆量子化されたエネルギーを基に、ビット割り当て情報を生成し、スペクトルの逆量子化を行って正規化された逆量子化されたスペクトルを生成する。このとき、ビットが不足している場合、特定バンドには、逆量子化したスペクトルがなくなる。かような特定バンドに対してノイズを生成するために、低周波数の逆量子化されたスペクトルを基に、ノイズコードブックを生成し、伝送されたノイズレベルに合わせてノイズを生成するノイズフィーリング方式が適用される。一方、特定周波数以上のバンドについては、低周波数信号をフォールディングして高周波数信号を生成する帯域幅拡張技法が適用される。

本発明が解決しようとする課題は、復元音質を向上させることができる帯域幅拡張のための高周波数符号化／復号化方法及びその装置、並びにそれを採用するマルチメディア機器を提供するところにある。

前記課題を解決するための本発明の一実施形態による帯域幅拡張のための高周波数符号化方法は、復号化端で高周波数励起信号を生成するのに適用される加重値を推定するためのフレーム別励起タイプ情報を生成する段階と、前記フレーム別励起タイプ情報を含むビットストリームを生成する段階と、を含んでもよい。

前記課題を解決するための本発明の一実施形態による帯域幅拡張のための高周波数復号化方法は、加重値を推定する段階と、ランダムノイズと、復号化された低周波数スペクトルとの間に、前記加重値を適用し、高周波数励起信号を生成する段階と、を含んでもよい。

本発明による帯域幅拡張のための高周波数符号化／復号化方法及びその装置によれば、複雑度の増大なしに、復元音質を向上させることができる。

一実施形態によって、低周波数信号のバンド及び高周波数信号のバンドを構成する例について説明する図面である。一実施形態によって、Ｒ０領域及びＲ１領域が選択されたコーディング方式に対応し、Ｒ２及びＲ３、並びにＲ４及びＲ５に区分した図面である。一実施形態によって、Ｒ０領域及びＲ１領域が選択されたコーディング方式に対応し、Ｒ２及びＲ３、並びにＲ４及びＲ５に区分した図面である。一実施形態によって、Ｒ０領域及びＲ１領域が選択されたコーディング方式に対応し、Ｒ２及びＲ３、並びにＲ４及びＲ５に区分した図面である。一実施形態によるオーディオ符号化装置の構成を示したブロック図である。一実施形態によって、ＢＷＥ領域Ｒ１において、Ｒ２及びＲ３を決定する方法について説明するフローチャートである。一実施形態によって、ＢＷＥパラメータを決定する方法について説明するフローチャートである。他の実施形態によるオーディオ符号化装置の構成を示したブロック図である。一実施形態によって、ＢＷＥパラメータ符号化部の構成を示したブロック図である。一実施形態によるオーディオ復号化装置の構成を示したブロック図である。一実施形態による励起信号生成部の細部的な構成を示すブロック図である。他の実施形態による励起信号生成部の細部的な構成を示すブロック図である。さらに他の実施形態による励起信号生成部の細部的な構成を示すブロック図である。バンド境界において、加重値に係わるスムージング処理について説明するための図面である。一実施形態によって、オーバーラッピング領域に存在するスペクトルを再構成するために使用される寄与分である加重値について説明する図面である。一実施形態による、スイッチング構造のオーディオ符号化装置の構成を示したブロック図である。他の実施形態による、スイッチング構造のオーディオ符号化装置の構成を示したブロック図である。一実施形態による、スイッチング構造のオーディオ復号化装置の構成を示したブロック図である。他の実施形態による、スイッチング構造のオーディオ復号化装置の構成を示したブロック図である。一実施形態による、符号化モジュールを含むマルチメディア機器の構成を示したブロック図である。一実施形態による、復号化モジュールを含むマルチメディア機器の構成を示したブロック図である。一実施形態による、符号化モジュール及び復号化モジュールを含むマルチメディア機器の構成を示したブロック図である。

本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明において具体的に説明する。しかし、それは、本発明を特定の実施形態について限定するものではなく、本発明の技術的思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むと理解される。本発明について説明するにおいて、関連公知技術に係わる具体的な説明が、本発明の要旨を不明瞭にすると判断される場合、その詳細な説明を省略する。

第１、第２のような用語は、多様な構成要素について説明するのに使用されるが、構成要素は、用語によって限定されるものではない。用語は、１つの構成要素を他の構成要素から区別する目的だけに使用される。

本発明で使用した用語は、ただ特定の実施形態について説明するために使用されたものであり、本発明を限定する意図ではない。本発明で使用した用語は、本発明における機能を考慮しながら、可能な限り現在汎用される一般的な用語を選択したが、それは当分野に携わる技術者の意図、判例または新たな技術の出現などによって異なりもする。また、特定の場合は、出願人が任意に選定した用語もあり、その場合、該当する発明の説明部分において、詳細にその意味を記載する。従って、本発明で使用される用語は、単純な用語の名称ではない、その用語が有する意味と、本発明の全般にわたった内容とを基に定義されなければならない。

単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本発明において、「含む」または「有する」というような用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはそれらを組み合わせが存在するということを指定するものであり、一つまたはそれ以上の他の特徴、数字、段階、動作、構成要素、部品、またはそれら組み合わせの存在または付加の可能性をあらかじめ排除するものではないということが理解されなければならない。

以下、本発明の実施形態について、添付図面を参照して詳細に説明するが、添付図面を参照して説明するおいて、同一であるか、あるいは対応する構成要素は、同一の図面番号を付し、それに係わる重複説明は省略する。

図１は、低周波数信号のバンド及び高周波数信号のバンドを構成する例について説明する図面である。実施形態によれば、サンプリングレートは、３２ｋＨｚであり、６４０個のＭＤＣＴ（modified discrete cosine transform）スペクトル係数を、２２個のバンドによって構成し、具体的には、低周波数信号について、１７個のバンド、高周波数信号について、５個のバンドによって構成される。高周波数信号の開始周波数は、２４１番目のスペクトル係数であり、０〜２４０までのスペクトル係数は、低周波数コーディング方式でコーディングされる領域であり、Ｒ０と定義する。また、２４１〜６３９までのスペクトル係数は、ＢＷＥ（bandwidth extension）が行われる領域であり、Ｒ１と定義する。一方、Ｒ１領域には、低周波数コーディング方式でコーディングされるバンドも存在する。

図２Ａないし図２Ｃは、図１のＲ０領域及びＲ１領域を、選択されたコーディング方式によって、Ｒ２、Ｒ３、Ｒ４、Ｒ５に区分した図面である。まず、ＢＷＥ領域であるＲ１領域は、Ｒ２及びＲ３に、低周波数コーディング領域であるＲ０領域は、Ｒ４及びＲ５に区分される。Ｒ２は、低周波数コーディング方式、例えば、周波数ドメインコーディング方式で、量子化及び無損失符号化がなされる信号を含んでいるバンドを示し、Ｒ３は、低周波数コーディング方式でコーディングされる信号がないバンドを示す。一方、Ｒ２が低周波数コーディング方式でコーディングされるために、ビット割り当てを行うように定義した場合であるとしても、ビットが不足して、Ｒ３と同一方式でバンドが生成されもする。Ｒ５は、ビットが割り当てられ、低周波数コーディング方式でコーディングが行われるバンドを示し、Ｒ４は、ビット余裕分がなく、低周波数信号にもかかわらず、コーディングされないか、あるいはビットが少なく割り当てられ、ノイズを付加しなければならないバンドを示す。従って、Ｒ４及びＲ５の区分は、ノイズ付加いかんによって判断され、それは、低周波数コーディングされたバンド内スペクトル個数の比率によって決定され、またはＦＰＣ（factorial pulse coding）を使用した場合には、バンド内パルス割り当て情報に基づいて決定する。Ｒ４バンド及びＲ５バンドは、復号化過程においてノイズを付加するときに区分されるために、符号化過程においては、明確に区分されるものではない。Ｒ２バンド〜Ｒ５バンドは、符号化される情報が互いに異なるだけではなく、デコーディング方式が異なって適用されもする。

図２Ａに図示された例の場合、低周波数コーディング領域Ｒ０において、１７０〜２４０までの２個バンドが、ノイズを付加するＲ４であり、ＢＷＥ領域Ｒ１において、２４１〜３５０までの２個バンド、及び４２７〜６３９までの２個バンドが、低周波数コーディング方式でコーディングされるＲ２である。図２Ｂに図示された例の場合、低周波数コーディング領域Ｒ０において、２０２〜２４０までの１個バンドが、ノイズを付加するＲ４であり、ＢＷＥ領域Ｒ１において、２４１〜６３９までの５個バンドが、いずれも低周波数コーディング方式でコーディングされるＲ２である。図２Ｃに図示された例の場合、低周波数コーディング領域Ｒ０において、１４４〜２４０までの３個バンドが、ノイズを付加するＲ４であり、ＢＷＥ領域Ｒ１において、Ｒ２は存在しない。低周波数コーディング領域Ｒ０において、Ｒ４は、一般的に高周波数部分に分布されるが、ＢＷＥ領域Ｒ１において、Ｒ２は、特定周波数部分に制限されない。

図３は、一実施形態によるオーディオ符号化装置の構成を示したブロック図である。図３に、図示されたオーディオ符号化装置は、トランジェント検出部３１０、変換部３２０、エネルギー抽出部３３０、エネルギー符号化部３４０、トナリティ算出部３５０、コーディングバンド選択部３６０、スペクトル符号化部３７０、ＢＷＥパラメータ符号化部３８０及び多重化部３９０を含んでもよい。各構成要素は、少なくとも１つのモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）によって具現されもする。ここで、入力信号は、音楽あるいは音声、あるいは音楽と音声との混合信号を意味し、音声信号と、それ以外野一般的な信号とに大別されもする。以下では、説明の便宜のために、オーディオ信号と総称する。

図３を参照すれば、トランジェント検出部３１０は、時間ドメインのオーディオ信号について、トランジェント信号あるいはアタック信号が存在するか否かということを検出する。そのために、公知された多様な方法を適用することができ、一例として、時間ドメインのオーディオ信号のエネルギー変化を利用することが可能である。現在フレームからトランジェント信号あるいはアタック信号が検出されれば、現在フレームをトランジェント・フレームと定義し、そうではない場合、ノントランジェント・フレーム、例えば、ステーショナリー（stationary）・フレームと定義する。

変換部３２０は、トランジェント検出部３１０での検出結果に基づいて、時間ドメインのオーディオ信号を周波数ドメインに変換する。変換方式の一例として、ＭＤＣＴが適用されるが、それに限定されるものではない。トランジェント・フレームとステーショナリー・フレームとの各変換処理、及びインターリービング処理は、Ｇ．７１９でと同一に行われるが、それに限定されるものではない。

エネルギー抽出部３３０は、変換部３２０から提供される周波数ドメインのスペクトルについてエネルギーを抽出する。周波数ドメインのスペクトルは、バンド単位で構成され、バンド長は、均一でもあり、あるいは不均一でもある。エネルギーは、各バンドの平均エネルギー、平均電力、エンベロープあるいはnormを意味する。各バンドについて抽出されたエネルギーは、エネルギー符号化部３４０及びスペクトル符号化部３７０に提供される。

エネルギー符号化部３４０は、エネルギー抽出部３３０から提供される各バンドのエネルギーについて、量子化及び無損失符号化を行う。エネルギー量子化は、均一スカラ量子化器（uniform scalar quantizer）、非均一スカラ量子化器（non-uniform scalar quantizer）あるいはベクトル量子化器（vector quantizer）など多様な方式を利用して行われる。エネルギー無損失符号化は、算術コーディング（ａｒｉｔｈｍｅｔｉｃｃｏｄｉｎｇ）あるいはホプだけコーディング（Ｈｕｆｆｍａｎｃｏｄｉｎｇ）など多様な方式を利用して行われる。

トナリティ算出部３５０は、変換部３２０から提供される周波数ドメインのスペクトルについて、トナリティを算出する。各バンドについてトナリティを算出することにより、現在バンドがトーン性（tone-like characteristic）を有する否かということ、あるいはノイズ性（noise-like characteristic）を有するか否かということを判断する。トナリティは、ＳＦＭ（spectral flatness measurement）に基づいて算出されるか、あるいは下記数式（１）のように、平均振幅に対するピークの比率と定義される。

ここで、Ｔ（ｂ）は、バンドｂのトナリティ、Ｎは、バンド長、Ｓ（ｋ）は、バンドｂのスペクトル係数を示す。Ｔ（ｂ）は、ｄｂ値に変更されて使用される。

一方、トナリティは、以前フレームの当該バンドのトナリティ、及び現在フレームの当該バンドのトナリティに係わる加重和（weighted sum）として算出される。その場合、バンドｂのトナリティＴ（ｂ）は、下記数式（２）のように定義される。

ここで、Ｔ（ｂ，ｎ）は、フレームｎのバンドｂでのトナリティを示し、ａ０は、加重値であり、実験的に、あるいはシミュレーションを介して、事前に最適値に設定される。

トナリティは、高周波数信号を構成するバンド、例えば、図１のＲ１領域のバンドについて算出されるが、必要により、低周波数信号を構成するバンド、例えば、図１のＲ０領域のバンドについても算出される。一方、バンド内のスペクトル長が過度に長い場合は、トナリティ算出時、エラーが発生することができるために、バンドを分離して算出した後、その平均値あるいは最大値により、そのバンドを代表するトナリティとして設定することができる。

コーディングバンド選択部３６０は、各バンドのトナリティを基にして、コーディングバンドを選択する。一実施形態によれば、図１のＢＷＥ領域Ｒ１について、Ｒ２及びＲ３を決定する。一方、図１の低周波数コーディング領域Ｒ０のＲ４及びＲ５は、割り当てることができるビットを考慮して決定することが可能である。

具体的には、低周波数コーディング領域Ｒ０でのコーディングバンド選択処理について説明する。

Ｒ５は、周波数ドメインコーディング方式によって、ビットを割り当ててコーディングを行う。一実施形態によれば、周波数ドメインコーディング方式でコーディングを行うために、バンド別ビット割り当て情報によって割り当てられたビットを基にパルスをコーディングするファクトリアル・パルスコーディング（factorial pulse coding）方式を適用する。ビット割り当て情報としては、エネルギーを使用することができ、エネルギーが大きいバンドには、多くのビットが割り当てられ、エネルギーが小さいバンドには、少ないビットが割り当てられるように設計する。割り当てることができるビットは、ターゲットビット率によって制限され、かような制限条件下で、ビットを割り当てるために、ターゲットビット率が低い場合、Ｒ５とＲ４とのバンド区分がさらに意味があり得る。ところで、トランジェント・フレームである場合には、ステーショナリー・フレームとは異なる方式でビット割り当てを行う。一実施形態によれば、トランジェント・フレームである場合、高周波数信号のバンドについては、ビット割り当てを強制的に行わないように設定する。すなわち、トランジェント・フレームにおいて、特定周波数以後のバンドについては、ビットを０に割り当てることにより、低周波数信号を良好に表現するようにすれば、低いターゲットビット率において音質改善を得ることができる。一方、ステーショナリー・フレームにおいて、特定周波数以後のバンドについて、ビットを０に割り当てる。また、ステーショナリー・フレームにおいて、高周波数信号のバンドにおいて、で所定臨界値を超えるエネルギーが含まれたバンドについては、ビット割り当てを行う。かようなビット割り当て処理は、エネルギー情報及び周波数情報を基にして行われ、符号化部及び復号化部において、同一方式を適用するために、追加する付加情報をビットストリームに含める必要がない。一実施形態によれば、量子化された後でさらに逆量子化されたエネルギーを利用して、ビット割り当てを行うことができる。

図４は、一実施形態によって、ＢＷＥ領域Ｒ１において、Ｒ２及びＲ３を選択する方法について説明するフローチャートである。ここで、Ｒ２は、周波数ドメインコーディング方式でコーディングされた信号を含んでいるバンドであり、Ｒ３は、周波数ドメインコーディング方式でコーディングされた信号を含んでいないバンドである。ＢＷＥ領域Ｒ０において、Ｒ２に該当するバンドがいずれも選択されれば、残りのバンドがＲ３に該当する。Ｒ２は、トーン性を持ったバンドであるために、大きい値のトナリティを有する。一方、トナリティの代わりに、ノイズネス（noiseness）は、小さい値を有する。

図４を参照すれば、４１０段階では、各バンドについてトナリティを算出し、４２０段階では、算出されたトナリティを所定臨界値Ｔｔｈ０と比較する。

４３０段階では、４２０段階での比較結果、算出されたトナリティが所定臨界値より大きい値を有するバンドをＲ２に割り当て、ｆ＿flag（ｂ）を１に設定する。

４４０段階では、４２０段階での比較結果、算出されたトナリティが所定臨界値より小さい値を有するバンドをＲ３に割り当て、ｆ＿flag（ｂ）を０に設定する。

ＢＷＥ領域Ｒ０に含まれた各バンドについて設定されたｆ＿flag（ｂ）は、コーディングバンド選択情報として定義され、ビットストリームに含められる。コーディングバンド選択情報は、ビットストリームに含められない。

再び図３に戻り、スペクトル符号化部３７０は、コーディングバンド選択部３６０で生成されたコーディングバンド選択情報に基づいて、低周波数信号のバンド、及びｆ＿flag（ｂ）が１に設定されたＲ２バンドについて、スペクトル係数の周波数ドメインコーディングを行う。周波数ドメインコーディングは、量子化及び無損失符号化を含み、一実施形態によれば、ファクトリアル・パルスコーディング（ＦＰＣ）方式を使用することができる。ＦＰＣ方式は、コーディングされたスペクトル係数の位置、大きさ及び符号情報をパルスで表現する方式である。

スペクトル符号化部３７０は、エネルギー抽出部３３０から提供される各バンド別エネルギーを基に、ビット割り当て情報を生成し、各バンド別に割り当てられたビットに基づいて、ＦＰＣのためのパルス個数を計算し、パルス個数をコーディングする。そのとき、ビット不足現象によって、低周波数信号の一部バンドがコーディングされないか、あるいは、非常に少ないビットでコーディングが行われ、復号化端でノイズを付加する必要があるバンドが存在する。かような低周波数信号のバンドがＲ４に定義される。一方、十分な個数のパルスでコーディングが行われるバンドの場合には、復号化端でノイズを付加する必要がなく、かような低周波数信号のバンドがＲ５に定義される。符号化端では、低周波数信号に係わるＲ４及びＲ５の区分に意味がないので、別途のコーディングバンド選択情報を生成する必要がない。ただし、与えられた全体ビット内において、各バンド別に割り当てられたビットに基づいてパルス個数を計算し、パルス個数に対するコーディングを行う。

ＢＷＥパラメータ符号化部３８０は、低周波数信号のバンドのうち、Ｒ４バンドがノイズを付加する必要があるバンドであるということ示す情報（ｌｆ＿ａｔｔ＿flag）を含み、高周波数帯域幅拡張に必要なＢＷＥパラメータを生成する。ここで、復号化端において、高周波数帯域幅拡張に必要なＢＷＥパラメータは、低周波数信号及びランダムノイズに対して適切に加重値を付加して生成する。他の実施形態では、低周波信号をホワイトニングした信号及びランダムノイズに対して適切に加重値を付加して生成する。

そのとき、ＢＷＥパラメータは、現在フレームの全ての高周波数信号生成のために、ランダムノイズをさらに強く付加しなければならないという情報（ａｌｌ＿ｎｏｉｓｅ）、低周波数信号をさらに強調しなければならないという情報（ａｌｌ＿ｌｆ）によって構成される。ｌｆ＿ａｔｔ＿flag情報、ａｌｌ＿ｎｏｉｓｅ情報、ａｌｌ＿ｌｆ情報は、フレームごとに１度伝送され、各情報別で１ビットずつ割り当てられて伝送される。必要によってはバンド別に分離して伝送される。

図５は、一実施形態によって、ＢＷＥパラメータを決定する方法について説明するフローチャートである。そのために、図２の例において、２４１〜２９０までバンドをＰｂと、５２１〜６３９までバンドをＥｂと、すなわち、ＢＷＥ領域Ｒ１の開始バンドと、最後のバンドとをそれぞれＰｂ及びＥｂと定義する。

図５を参照すれば、５１０段階では、ＢＷＥ領域Ｒ１の平均トナリティＴａ０を算出し、５２０段階では、平均トナリティＴａ０を臨界値Ｔｔｈ１と比較する。

５２５段階では、５２０段階での比較結果、平均トナリティＴａ０が臨界値Ｔｔｈ１より小さければ、all＿noiseを１に設定する一方、all＿ｌｆとｌｆ＿ａｔｔ＿flagは、いずれも０に設定して伝送しない。

５３０段階では、５２０段階での比較結果、平均トナリティＴａ０が臨界値Ｔｔｈ１より大きいか、あるいはそれと同じである、ならばall＿noiseを０に設定する一方、all＿ｌｆとｌｆ＿ａｔｔ＿flagとを下記のように決定して伝送する。

一方、５４０段階では、平均トナリティＴａ０を臨界値Ｔｔｈ２と比較する。ここで、臨界値Ｔｔｈ２は、臨界値Ｔｔｈ１より小さい値であることが望ましい。

５４５段階では、５４０段階での比較結果、平均トナリティＴａ０が臨界値Ｔｔｈ２より大きければ、all＿ｉｆを１に設定する一方、ｌｆ＿ａｔｔ＿flagは、０に設定して伝送しない。

５５０段階では、５４０段階での比較結果、平均トナリティＴａ０が臨界値Ｔｔｈ２より小さいが、あるいはそれと同じであるならば、all＿ｉｆを０に設定する一方、ｌｆ＿ａｔｔ＿flagを下記のように決定して伝送する。

５６０段階では、Ｐｂ以前バンドの平均トナリティＴａ１を算出する。一実施形態によれば、１つの以前バンドないし５つの以前バンドを考慮する。

５７０段階では、以前フレームと係わりなく、平均トナリティＴａ１を臨界値Ｔｔｈ３と比較するか、あるいは以前フレームのｌｆ＿ａｔｔ＿flag、すなわち、ｐ＿ｌｆ＿ａｔｔ＿flagを考慮する場合、平均トナリティＴａ１を臨界値Ｔｔｈ４と比較する。

５８０段階では、５７０段階での比較結果、平均トナリティＴａ１が臨界値Ｔｔｈ３より大きければ、ｌｆ＿ａｔｔ＿flagを１に設定し、５９０段階では、５７０段階での比較結果、平均トナリティＴａ１が臨界値Ｔｔｈ３より小さいか、あるいはそれと同じであるならば、ｌｆ＿ａｔｔ＿flagを０に設定する。

一方、５８０段階では、ｐ＿ｌｆ＿ａｔｔ＿flagが１に設定された場合、平均トナリティＴａ１が臨界値Ｔｔｈ４より大きければ、ｌｆ＿ａｔｔ＿flagを１に設定する。そのとき、以前フレームがトランジェント・フレームである場合、ｐ＿ｌｆ＿ａｔｔ＿flagは、０に設定される。５９０段階では、ｐ＿ｌｆ＿ａｔｔ＿flagが１に設定された場合、平均トナリティＴａ１が臨界値Ｔｔｈ４より小さいか、あるいはそれと同じであるならば、ｌｆ＿ａｔｔ＿flagを０に設定する。ここで、臨界値Ｔｔｈ３は、臨界値Ｔｔｈ４より大きい値であることが望ましい。

一方、高周波数信号のバンドのうち、flag（ｂ）が１に設定されたバンドが一つでも存在する場合、all＿noiseは、０に設定される。その理由は、高周波数信号にトーン性を有したバンドが存在するということを意味するために、all＿noiseを１に設定することができないからである。その場合、all＿noiseは、０で伝送しながら、前記５４０段階ないし５９０段階を遂行し、all＿ｌｆとｌｆ＿ａｔｔ＿flagとに係わる情報を生成する。

以下の表１は、図５を介して生成されたＢＷＥパラメータの伝送関係を表示したものである。ここで、数字は、当該ＢＷＥパラメータの伝送に必要なビットを意味し、Ｘと表記した場合には、当該ＢＷＥパラメータを伝送しないことを意味する。ＢＷＥパラメータ、すなわち、all＿noise、all＿ｌｆ、ｌｆ＿ａｔｔ＿flagは、コーディングバンド選択部３６０で生成されたコーディングバンド選択情報であるｆ＿flag（ｂ）と相関関係を有する。例えば、表１のように、all＿noiseが１に設定された場合には、ｆ＿flag、all＿ｌｆ、ｌｆ＿ａｔｔ＿flagを伝送する必要がない。一方、all＿noiseが０に設定された場合には、ｆ＿flag（ｂ）を伝送しなければならず、ＢＷＥ領域Ｒ１に属したバンド個数ほどの情報を伝達しなければならない。

all＿ｌｆ値が０に設定された場合には、ｌｆ＿ａｔｔ＿flag値は、０に設定されて伝送されない。all＿ｌｆ値が１に設定された場合には、ｌｆ＿ａｔｔ＿flagの伝送を必要とする。かような相関関係によって、従属的に伝送されもし、コーデック構造簡素化のために、従属的な相関関係なしにも、伝送も可能である。結果として、スペクトル符号化部３７０では、全体許容ビットで伝送されるＢＷＥパラメータ及びコーディングバンド選択情報のために使用されるビットを除いて残った残余ビットを利用して、バンド別ビット割り当て及びコーディングを行う。

再び図３に戻り、多重化部３９０は、エネルギー符号化部３４０から提供される各バンド別エネルギー、コーディングバンド選択部３６０から提供されるＢＷＥ領域Ｒ１のコーディングバンド選択情報、スペクトル符号化部３７０から提供される、低周波数コーディング領域Ｒ０と、ＢＷＥ領域Ｒ１とのうち、Ｒ２バンドの周波数ドメインコーディング結果、ＢＷＥパラメータ符号化部３８０から提供される、ＢＷＥパラメータを含むビットストリームを生成し、所定の記録媒体に保存するか、あるいは復号化端に伝送する。

図６は、他の実施形態によるオーディオ符号化装置の構成を示したブロック図である。図６に図示されたオーディオ符号化装置は、基本的には、復号化端において、高周波数励起信号を生成するのに適用される加重値を推定するためのフレーム別励起タイプ情報を生成する構成要素と、フレーム別励起タイプ情報を含むビットストリームを生成する構成要素とからなる。残りの構成要素は、オプションとしてさらに追加される。

図６に図示されたオーディオ符号化装置は、トランジェント検出部６１０、変換部６２０、エネルギー抽出部６３０、エネルギー符号化部６４０、スペクトル符号化部６５０、トナリティ算出部６６０、ＢＷＥパラメータ符号化部６７０及び多重化部６８０を含んでもよい。各構成要素は、少なくとも１つのモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）によって具現される。ここでは、図３の符号化装置と同一の構成要素に係わる説明は省略する。

図６において、スペクトル符号化部６５０は、変換部６２０から提供される低周波数信号のバンドについて、スペクトル係数の周波数ドメインコーディングを行う。残りの動作は、スペクトル符号化部３７０と同一である。

トナリティ算出部６６０は、フレーム単位で、ＢＷＥ領域Ｒ１のトナリティを算出する。

ＢＷＥパラメータ符号化部６７０は、トナリティ算出部６６０から提供されるＢＷＥ領域Ｒ１のトナリティを利用して、ＢＷＥ励起タイプ情報あるいは励起クラス情報を生成して符号化する。一実施形態によれば、入力信号のモード情報をまず考慮し、ＢＷＥ励起タイプを決定する。ＢＷＥ励起タイプ情報は、フレーム別に伝送される。例えば、ＢＷＥ励起タイプ情報が２ビットで構成される場合、０〜３までの値を有する。０に行くほど、ランダムノイズに付加する加重値が大きくなり、３に行くほど、ランダムノイズに付加する加重値が小さくなる方式で割り当てる。一実施形態によれば、トナリティが高いほど、３に近い値を有するように設定し、トナリティが低いほど、０に近い値を有するように設定する。

図７は、一実施形態によって、ＢＷＥパラメータ符号化部の構成を示したブロック図である。図７に図示されたＢＷＥパラメータ符号化部は、信号分類部７１０と、励起タイプ決定部７３０とを含んでもよい。

周波数ドメインのＢＷＥ方式は、時間ドメインコーディング・パートと結合されて適用される。時間ドメインコーディングには、主にＣＥＬＰ（code excited linear prediction）方式が使用され、ＣＥＬＰ方式で低周波帯域をコーディングし、周波数ドメインでのＢＷＥではない時間ドメインでのＢＷＥ方式と結合されるように具現される。かような場合、全体的に、時間ドメインコーディングと、周波数ドメインコーディングとの間の適応的コーディング方式決定に基づいて、コーディング方式を選択的に適用することができる。適切なコーディング方式を選択するために信号分類を必要とし、一実施形態によれば、信号分類結果をさらに活用し、バンド別加重値が割り当てられる。

図７を参照すれば、信号分類部７１０においては、入力信号の特性をフレーム単位で分析し、現在フレームが音声信号であるか否かということを分類し、分類結果により、ＢＷＥ励起タイプを決定する。信号分類処理は、公知された多様な方法、例えば、短区間特性及び／または長区間特性を利用して行われる。現在フレームが、時間ドメインコーディングが適切な方式である音声信号として分類される場合、高周波数信号の特性に基づいた方式より、固定された形態の加重値を付加する方式が音質向上に役に立つ。ところで、後述する図１４及び図１５のスイッチング構造の符号化装置に使用される通常の信号分類部１４１０，１５１０は、複数個の以前フレームの結果と、現在フレームの結果とを組み合わせ、現在フレームの信号を分類する。従って、中間結果として現在フレームだけの信号分類結果を活用して、たとえ最終的には、周波数ドメインコーディングが適用されたとしても、現在フレームが、時間ドメインコーディングが適切な方式であると出力された場合には、固定された加重値を設定して行う。例えば、かように現在フレームが、時間ドメインコーディングが適切な音声信号として分類される場合、ＢＷＥ励起タイプは、例えば、２に設定される。

一方、信号分類部７１０の分類結果、現在フレームが音声信号として分類されない場合には、複数個の臨界値を利用して、ＢＷＥ励起タイプを決定する。

励起タイプ決定部７３０は、３個の臨界値を設定し、トナリティの平均値の領域を４個に区分することにより、音声信号ではないと分類された現在フレームの４種ＢＷＥ励起タイプを生成する。常に４種ＢＷＥ励起タイプを限定するものではなく、場合により、３種あるいは２種である場合を使用することもでき、ＢＷＥ励起タイプの個数に対応して使用される臨界値の個数及び値も調整される。かようなＢＷＥ励起タイプ情報に対応し、フレーム別加重値が割り当てられる。他の実施形態としては、フレーム別加重値は、さらに多くのビットを割り当てることができる場合には、バンド別加重値情報を抽出して伝送することもできる。

図８は、一実施形態によるオーディオ復号化装置の構成を示したブロック図である。図８に図示されたオーディオ復号化装置は、基本的には、フレーム単位で受信される励起タイプ情報を利用して、加重値を推定する構成要素、及びランダムノイズと、復号化された低周波数スペクトルとの間に加重値を適用し、高周波数励起信号を生成する構成要素からなる。残りの構成要素は、オプションとしてさらに追加される。

図８に図示されたオーディオ復号化装置は、逆多重化部８１０、エネルギー復号化部８２０、ＢＷＥパラメータ復号化部８３０、スペクトル復号化部８４０、第１逆正規化部８５０、ノイズ付加部８６０、励起信号生成部８７０、第２逆正規化部８８０及び逆変換部８９０を含んでもよい。各構成要素は、少なくとも１つのモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）によって具現される。

図８を参照すれば、逆多重化部８１０は、ビットストリームをパージングし、符号化されたバンド別エネルギー、低周波数コーディング領域Ｒ０と、ＢＷＥ領域Ｒ１とのうち、Ｒ２バンドの周波数ドメインコーディング結果、ＢＷＥパラメータを抽出する。そのとき、コーディングバンド選択情報と、ＢＷＥパラメートルとの相関関係により、コーディングバンド選択情報が、逆多重化部８１０からパージングされるか、あるいはＢＷＥパラメータ復号化部８３０からパージングされる。

エネルギー復号化部８２０は、逆多重化部８１０から提供される符号化されたバンド別エネルギーを復号化し、バンド別逆量子化されたエネルギーを生成する。バンド別逆量子化されたエネルギーは、第１逆正規化部８５０及び第２逆正規化部８８０に提供される。また、バンド別に逆量子化されたエネルギーは、符号化端においてと同様に、ビット割り当てのために、スペクトル復号化部８４０に提供される。

ＢＷＥパラメータ復号化部８３０は、逆多重化部８１０から提供されるＢＷＥパラメータを復号化する。そのとき、コーディングバンド選択情報であるｆ＿flag（ｂ）が、ＢＷＥパラメータ、例えば、all＿noiseと相関関係がある場合には、ＢＷＥパラメータ復号化部８３０において、ＢＷＥパラメータと共に復号化が行われる。一実施形態によれば、all＿noise情報、ｆ＿flag情報、all＿ｌｆ情報、ｌｆ＿ａｔｔ＿flag情報が、表１でのような相関関係がある場合、順次に復号化を行う。かような相関関係は、他の方式に変更されもし、変更時には、それに相応しい方式で、順次に復号化を行う。表１を例として挙げれば、all＿noiseをまずパージングし、１であるか、あるいは０であるかということを確認する。もしall＿noiseが１である場合には、ｆ＿flag情報、all＿ｌｆ情報、ｌｆ＿ａｔｔ＿flag情報は、いずれも０に設定する。一方、all＿noiseが０である場合には、ｆ＿flag情報を、ＢＷＥ領域Ｒ１に属したバンドの個数ほどパージングし、次のall＿ｌｆ情報をパージングする。もしall＿ｌｆ情報が０である場合には、ｌｆ＿ａｔｔ＿flagを０に設定し、１である場合には、ｌｆ＿ａｔｔ＿flag情報をパージングする。

一方、コーディングバンド選択情報であるｆ＿flag（ｂ）がＢＷＥパラメータと相関関係がない場合には、逆多重化部８１０において、ビットストリームとしてパージングされ、低周波数コーディング領域Ｒ０と、ＢＷＥ領域Ｒ１とのうち、Ｒ２バンドの周波数ドメインコーディング結果と共に、スペクトル復号化部８４０に提供される。

スペクトル復号化部８４０は、低周波数コーディング領域Ｒ０の周波数ドメインコディング結果を復号化する一方、コーディングバンド選択情報に対応して、ＷＥ領域Ｒ１のうちＲ２バンドの周波数ドメインコーディング結果を復号化する。そのために、エネルギー復号化部８２０から提供されるバンド別逆量子化されたエネルギーを利用して、全体許容ビットにおいて、パージングされたＢＷＥパラメータと、コーディングバンド選択情報のために使用されたビットとを除いて残った残余ビットを利用して、バンド別ビット割り当てを行う。スペクトル復号化のために、無損失復号化及び逆量子化が行われ、一実施形態によれば、ＦＰＣが使用される。すなわち、スペクトル復号化は、符号化端でのスペクトル符号化に使用されたものと同一の方式を使用して行われる。

一方、ＢＷＥ領域Ｒ１において、ｆ＿flag（ｂ）が１に設定されてビットが割り当てられ、実際パルスが割り当てられたバンドは、Ｒ２バンドに分類され、ｆ＿flag（ｂ）が０に設定され、ビット割り当てられていないバンドは、Ｒ３バンドに分類される。ところで、ＢＷＥ領域Ｒ１において、ｆ＿flag（ｂ）が１に設定されており、スペクトル復号化を行うバンドであるにもかかわらず、ビット割り当てを行うことができず、ＦＰＣでコーディングされたパルス個数が０であるバンドが存在する。かように周波数ドメインコーディングを行うと設定されたＲ２バンドであるにもかかわらず、コーディングを行うことができないバンドは、Ｒ２バンドではないＲ３バンドに分類され、ｆ＿flag（ｂ）が０に設定された場合と同一方式で処理される。

第１逆正規化部８５０は、エネルギー復号化部８２０から提供されるバンド別逆量子化されたエネルギーを利用して、スペクトル復号化部８４０から提供される周波数ドメインデコーディング結果に対して逆正規化を行う。かような逆正規化処理は、復号化されたスペクトルのエネルギーを、各バンド別エネルギーにマッチングさせる過程に該当する。一実施形態によれば、逆正規化処理は、低周波数コーディング領域Ｒ０と、ＢＷＥ領域Ｒ１とのうちＲ２バンドについて行われる。

ノイズ付加部８６０は、低周波数コーディング領域Ｒ０の復号化されたスペクトルの各バンドをチェックし、Ｒ４バンド及びＲ５バンドのうち一つに分離する。そのとき、Ｒ５に分離するバンドについては、ノイズを付加せず、Ｒ４に分離するバンドについて、ノイズを付加する。一実施形態によれば、ノイズを付加するときに使用されるノイズレベルは、バンド内に存在するパルスの密度を基に決定される。すなわち、ノイズレベルは、コーディングされたパルスのエネルギーを基に決定され、ノイズレベルを利用して、ランダムエネルギーを生成する。他の実施形態によれば、ノイズレベルは、符号化端から伝送される。一方、ノイズレベルは、ｌｆ＿ａｔｔ＿flag情報を基に調整される。一実施形態によれば、下記のように、所定条件が満足されれば、ノイズレベルＮｌを、Ａｔｔ＿factorほど修正する。

if (all_noise==0 && all_lf==1 && lf_att_flag==1)
{
ni_gain = ni_coef * Nl * Att_factor;
}
else
{
ni_gain = ni_coef * Ni;
}
ここで、ｎｉ＿gainは、最終ノイズに適用するゲインであり、ｎｉ＿ｃｏｅｆは、ランダムシード（random seed）であり、Ａｔｔ＿factorは、調節定数である。

励起信号生成部８７０は、ＢＷＥ領域Ｒ１に属した各バンドについて、コーディングバンド選択情報に対応し、ノイズ付加部８８０から提供される復号化された低周波数スペクトルを利用して、高周波数励起信号を生成する。

第２逆正規化部８８０は、エネルギー復号化部８２０から提供されるバンド別逆量子化されたエネルギーを利用して、励起信号生成部８７０から提供される高周波数励起信号について逆正規化を行い、高周波数スペクトルを生成する。かような逆正規化処理は、ＢＷＥ領域Ｒ１のエネルギーを各バンド別エネルギーにマッチングさせる過程に該当する。

逆変換部８９０は、第２逆正規化部８８０から提供される高周波数スペクトルについて逆変換を行い、時間ドメインの復号化された信号を生成する。

図９は、一実施形態による励起信号生成部の細部的な構成を示すブロック図であり、ＢＷＥ領域Ｒ１のＲ３バンド、すなわち、ビット割り当てがなされていないバンドに係わる励起信号生成を担当する。図９に図示された励起信号生成部は、加重値割当て部９１０、ノイズ信号生成部９３０及び演算部９５０を含んでもよい。各構成要素は、少なくとも１つのモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）によって具現される。

図９を参照すれば、加重値割当て部９１０は、バンド別に加重値を推定して割り当てる。ここで、加重値は、復号化された低周波数信号及びランダムノイズを基に生成された高周波数ノイズ信号とランダムノイズとを混合する比率を意味する。具体的には、ＨＦ（high frequency）励起信号Ｈｅ（ｆ，ｋ）は、下記数式（３）のように示すことができる。

He(f, k) = (1-Ws(f, k)) * Hn(f, k) + Ws(f, k) * Rn(f, k) （３）
ここで、Ｗｓ（ｆ，ｋ）は、加重値を示し、ｆは、周波数インデックスを、ｋは、バンドインデックスを示す。Ｈｎは、高周波数ノイズ信号を、Ｒｎは、ランダムノイズをそれぞれ示す。

一方、加重値Ｗｓ（ｆ，ｋ）は、１つのバンド内では、同一の値を有するが、バンド境界では、隣接バンドの加重値により、スムージングされるように処理される。

加重値割当て部９１０では、ＢＷＥパラメータ、及びコーディングバンド選択情報、例えば、all＿noise情報、all＿ｌｆ情報、ｌｆ＿ａｔｔ＿flag情報、ｆ＿flag情報を利用して、バンド別加重値を割り当てる。具体的には、all＿noiseが１であるならば、Ｗｓ（ｋ）＝ｗ０（全てのｋに対して）と割り当てられる。一方、all＿noiseが０であるならば、Ｒ２バンドについては、Ｗｓ（ｋ）＝ｗ４と割り当てる。all＿noiseが０であるならば、Ｒ３バンドについては、all＿ｌｆ＝１であり、ｌｆ＿ａｔｔ＿flag＝１であるならば、Ｗｓ（ｋ）＝ｗ３と割り当て、all＿ｌｆ＝１であり、ｌｆ＿ａｔｔ＿flag＝０であるならば、Ｗｓ（ｋ）＝ｗ２と割り当て、それ以外の場合には、Ｗｓ（ｋ）＝ｗ１と決定する。一実施形態によれば、ｗ０＝１、ｗ１＝０．６５、ｗ２＝０．５５、ｗ３＝０．４、ｗ４＝０と割り当てる。望ましくは、ｗ０からｗ４に行くほど、小さい値を有するように設定する。

加重値割当て部９１０は、推定されたバンド別加重値Ｗｓ（ｋ）について、隣接バンドの加重値Ｗｓ（ｋ−１），Ｗｓ（ｋ＋１）を考慮してスムージングを行う。スムージング結果、バンドｋについて、周波数ｆによって、互いに異なる値を有する加重値Ｗｓ（ｆ，ｋ）が決定される。

図１２は、バンド境界において、加重値に係わるスムージング処理について説明するための図面である。図１２を参照すれば、（Ｋ＋２）バンドの加重値と、（Ｋ＋１）バンドの加重値とが互いに異なるために、バンド境界でスムージングを行う必要がある。図１０の例においては、（Ｋ＋１）バンドは、スムージングを行わず、（Ｋ＋２）バンドでのみスムージングを行う。その理由は、（Ｋ＋１）バンドでの加重値Ｗｓ（Ｋ＋１）が０であるために、（Ｋ＋１）バンドでスムージングを行えば、（Ｋ＋１）バンドでの加重値Ｗｓ（Ｋ＋１）が０ではない値を有することになり、（Ｋ＋１）バンドにおいて、ランダムノイズまで考慮しなければならないからである。すなわち、加重値が０であるということは、当該バンドでは、高周波数励起信号の生成時、ランダムノイズを考慮しないということを示す。それは、極端なトーン信号である場合に該当し、ランダムノイズによって、ハーモニック信号のバレー区間にノイズが挿入され、ノイズ発生を防ぐためのものである。

加重値割当て部９１０で決定された加重値Ｗｓ（ｆ，ｋ）は、高周波数ノイズ信号Ｈｎと、ランダムノイズＲｎとに適用させるために、演算部９５０に提供される。

ノイズ信号生成部９３０は、高周波数ノイズ信号を生成するためのものであり、ホワイトニング部９３１と、ＨＦノイズ生成部９３３とを含んでもよい。

ホワイトニング部９３１は、逆量子化された低周波数スペクトルについて、ホワイトニングを行う。ホワイトニング処理は、公知された多様な方式を適用することができ、一例を挙げれば、逆量子化された低周波数スペクトルを、均一な複数のブロックに分け、ブロック別に、スペクトル係数の絶対値平均を求め、ブロックに属したスペクトル係数を平均して分ける方式が適用される。

ＨＦノイズ生成部９３３は、ホワイトニング部９３１から提供される低周波数スペクトルを、高周波数、すなわち、ＢＷＥ領域Ｒ１に輻射し、ランダムノイズとレベルをマッチングさせ、高周波数ノイズ信号を生成する。高周波数への輻射処理は、符号化端と復号化端とのあらかじめ設定された規則、パッチング、フォールディングあるいはコピーイングによって行われ、ビット率によって選択的に適用する。レベルマッチング処理は、ＢＷＥ領域Ｒ１の全体バンドについて、ランダムノイズの平均と、ホワイトニング処理された信号を高周波数に輻射した信号の平均とをマッチングさせることを意味する。一実施形態によれば、ホワイトニング処理された信号を高周波数に輻射した信号の平均が、ランダムノイズの平均より若干大きいように設定することもできる。その理由は、ランダムノイズは、ランダムな信号であるために、フラットな特性を有していると見られる、ＬＦ（low frequency）信号は、相対的にダイナミックレンジが大きくなるので、大きさの平均をマッチングさせたが、エネルギーが小さく発生することもあるからである。

演算部９５０は、ランダムノイズ及び高周波数ノイズ信号に対して加重値を適用し、バンド別高周波数励起信号を生成するためのものであり、第１乗算器９５１及び第２乗算器９５３と、加算器９５５とを含んでもよい。ここで、ランダムノイズＲｎは、公知された多様な方式で生成され、一例を挙げれば、ランダムシード（random seed）を利用して生成される。

第１乗算器９５１は、ランダムノイズに第１加重値Ｗｓ（ｋ）を乗算し、第２乗算器９５３は、高周波数ノイズ信号に第２加重値１−Ｗｓ（ｋ）を乗算し、加算器９５５は、第１乗算器９５１の乗算結果と、第２乗算器９５３の乗算結果とを加算し、バンド別高周波数励起信号を生成する。

図１０は、他の実施形態による励起信号生成部の細部的な構成を示すブロック図であり、ＢＷＥ領域Ｒ１のＲ２バンド、すなわち、ビット割り当てがなされているバンドに係わる励起信号生成処理を担当する。図１０に図示された励起信号生成部は、調整パラメータ算出部１０１０、ノイズ信号生成部１０３０、レベル調整部１０５０及び演算部１０６０を含んでもよい。各構成要素は、少なくとも１つのモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）によって具現される。

図１０を参照すれば、Ｒ２バンドは、ＦＰＣでコーディングされたパルスが存在するために、加重値を利用して高周波数励起信号を生成する処理に、レベル調整処理をさらに必要とする。周波数ドメイン符号化が行われたＲ２バンドの場合には、ランダムノイズは、付加しない。図１０では、加重値Ｗｓ（ｋ）が０である場合を例として挙げたものであり、加重値Ｗｓ（ｋ）が０ではない場合には、図９のように、ノイズ信号生成部９３０においてと同一方式で、高周波数ノイズ信号を生成し、生成された高周波数ノイズ信号は、図１０のノイズ信号生成部１０３０の出力にマッピングされる。すなわち、図１０のノイズ信号生成部１０３０の出力は、図９のノイズ信号生成部１０３０の出力と同様になる。

調整パラメータ算出部１０１０は、レベル調整に使用されるパラメータを算出するためのものである。まず、Ｒ２バンドについて逆量子化されたＦＰＣ信号を、Ｃ（ｋ）と定義する場合、Ｃ（ｋ）において、絶対値の最大値を選択し、選択された値をＡｐと定義し、ＦＰＣコーディング結果、０ではない値の位置は、ＣＰｓと定義する。ＣＰｓを除いた他の位置において、Ｎ（ｋ）（ノイズ信号生成部８３０の出力）信号のエネルギーを求め、そのエネルギーをＥｎと定義する。Ｅｎ値、Ａｐ値、及び符号化時に、ｆ＿flag（ｂ）値を設定するために使用したＴｔｈ０を基に、調整パラメータγを、下記数式（４）のように求める。

ここで、Ａｔｔ＿factorは、調整定数である。

演算部１０６０は、調整パラメータγを、ノイズ信号生成部１０３０から提供されるノイズ信号Ｎ（ｋ）に乗算し、高周波数励起信号を生成する。

図１１は、一実施形態による励起信号生成部の細部的な構成を示すブロック図であり、ＢＷＥ領域Ｒ１の全体バンドに係わる励起信号生成を担当する。図１１に図示された励起信号生成部は、加重値割当て部１１１０、ノイズ信号生成部１１３０及び演算部１１５０を含んでもよい。各構成要素は、少なくとも１つのモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）によって具現される。ここで、ノイズ信号生成部１１３０及び演算部１１５０は、図９のノイズ信号生成部９３０及び演算部９５０と同一であるので、その説明を省略する。

図１１を参照すれば、加重値割当て部１１１０は、フレーム別に加重値を推定して割り当てる。ここで、加重値は、復号化された低周波数信号及びランダムノイズを基に生成された高周波数ノイズ信号及びランダムノイズを混合する比率を意味する。

加重値割当て部１１１０は、ビットストリームからパージングされたＢＷＥ励起タイプ情報を受信する。加重値割当て部１１１０には、ＢＷＥ励起タイプが０であるならば、Ｗｓ（ｋ）＝ｗ００（全てのｋに対して）に設定し、ＢＷＥ励起タイプが１であるならば、Ｗｓ（ｋ）＝ｗ０１（全てのｋに対して）に設定し、ＢＷＥ励起タイプが２であるならば、Ｗｓ（ｋ）＝ｗ０２（全てのｋに対して）に設定し、ＢＷＥ励起タイプが３であるならば、Ｗｓ（ｋ）＝ｗ０３（全てのｋに対して）に設定する。一実施形態によれば、ｗ００＝０．８、ｗ０１＝０．５、ｗ０２＝０．２５、ｗ０３＝０．０５と割り当てる。ｗ００からｗ０３に行くほど、小さくなるように設定する。

一方、ＢＷＥ領域Ｒ１において、特定周波数以後のバンドについては、ＢＷＥ励起タイプ情報と係わりなく、同一の加重値を適用することもできる。一実施形態によれば、ＢＷＥ領域Ｒ１において、特定周波数以後で最後のバンドを含む複数個のバンドについては、常に同一の加重値を使用して、特定周波数以下のバンドについては、ＢＷＥ励起タイプ情報に基づいて加重値を生成する。例えば、１２ｋＨｚ以上の周波数が属するバンドである場合には、Ｗｓ（ｋ）値をいずれもｗ０２に割り当てる。その結果、符号化端において、ＢＷＥ励起タイプを決定するために、トナリティの平均値を求めるバンドの領域は、ＢＷＥ領域Ｒ１内においても、特定周波数以下、すなわち、低周波数部分に限定されるために、演算の複雑度を低減させる。一実施形態によれば、ＢＷＥ領域Ｒ１内において、特定周波数以下、すなわち、低周波数部分についてトナリティの平均を求めて励起タイプを決定し、決定された励起タイプを、そのままＢＷＥ領域Ｒ１内において、特定周波数以上、すなわち、高周波数部分に適用する。すなわち、フレーム単位に励起クラス情報を１個だけ伝送するために、励起クラス情報を推定する領域を狭く持って行けば、それほど正確度はさ、らに高くなり、復元音質の向上を図ることができる。一方、ＢＷＥ領域Ｒ１において、高周波部分については、低周波数部分におけるところと同一の励起クラスを適用したとしても、音質劣化が起こる可能性は低くなる。また、ＢＷＥ励起タイプ情報をバンド別に伝送する場合には、ＢＷＥ励起タイプ情報を表示するために使用されるビットを節減することが可能である。

次に、高周波数のエネルギーを、低周波数のエネルギー伝送方式とは異なる方式で、例えば、ＶＱ（vector quantization）のような方式を適用すれば、低周波数のエネルギーは、スカラ量子化後、無損失符号化を使用して伝送し、高周波数のエネルギーは、他の方式で量子化を行って伝送される。かように処理する場合、低周波数コーディング領域Ｒ０の最後のバンドと、ＢＷＥ領域Ｒ１の開始バンドとをオーバーラッピングする方式で構成する。また、ＢＷＥ領域Ｒ１のバンド構成は、他の方式で構成し、さらに稠密なバンド割り当て構造を有する。

例えば、低周波数コーディング領域Ｒ０の最後のバンドは、８．２ｋＨｚまで構成され、ＢＷＥ領域Ｒ１の開始バンドは、８ｋＨｚから始まるように構成する。その場合、低周波数コーディング領域Ｒ０と、ＢＷＥ領域Ｒ１との間にオーバーラッピング領域が生じる。その結果、オーバーラッピング領域には、２つの復号化されたスペクトルを生成する。一つは、低周波数の復号化方式を適用して生成したスペクトルであり、他の一つは、高周波数の復号化方式で生成したスペクトルである。２つのスペクトル、すなわち、低周波の復号化スペクトルと、高周波の復号化スペクトルとの遷移（transition）がさらにスムージングになるように、オーバーラップアド（overlap add）方式を適用する。すなわち、２つのスペクトルを同時に活用しながら、オーバーラッピングされた領域のうち低周波数側に近いスペクトルは、低周波方式で生成されたスペクトルの寄与分（contribution）を高め、高周波数側に近いスペクトルは、高周波方式で生成されたスペクトルの寄与分を高め、オーバーラッピングされた領域を再構成する。

例えば、低周波数コーディング領域Ｒ０の最後のバンドは、８．２ｋＨｚまで、ＢＷＥ領域Ｒ１の開始バンドは、８ｋＨｚから始まる場合、３２ｋＨｚサンプリングレートとして、６４０サンプルのスペクトルを構成すれば、３２０〜３２７まで８個のスペクトルがオーバーラップされ、８個のスペクトルについては、下記数式（５）のように生成する。

ここで、

は、低周波方式で復号化されたスペクトルを、

は、高周波方式で復号化されたスペクトルを、Ｌ０は、高周波の開始スペクトル位置を、Ｌ０〜Ｌ１は、オーバーラッピングされた領域を、ｗ０は、寄与分をそれぞれ示す。

図１３は、一実施形態によって、復号化端でＢＷＥ処理した後、オーバーラッピング領域に存在するスペクトルを再構成するために使用される寄与分について説明する図面である。

図１３を参照すれば、ｗ_０（ｋ）は、ｗ_００（ｋ）及びｗ_０１（ｋ）を選択的に適用することができるが、ｗ_００（ｋ）は、低周波数と高周波数との復号化方式に、同一の加重値を適用するものであり、ｗ_０１（ｋ）は、高周波数の復号化方式に、さらに大きい加重値を加える方式である。２つのｗ_０（ｋ）に係わる選択基準は、低周波数のオーバーラッピングバンドにおいて、ＦＰＣを使用したパルスが存在したか否かということの有無である。低周波数のオーバーラッピングバンドで、パルスが選択されてコーディングされた場合には、ｗ_００（ｋ）を活用し、低周波数で生成したスペクトルに係わる寄与分をＬ１近くまで有効にさせ、高周波数の寄与分を低減させる。基本的には、ＢＷＥを介して生成された信号のスペクトルよりは、実際コーディング方式によって生成されたスペクトルが、原信号との近接性側面において、さらに高くなる。それを活用して、オーバーラッピングバンドにおいて、原信号にさらに近接したスペクトルの寄与分を高める方式を適用することができ、従って、スムージング効果及び音質向上を図ることが可能である。

図１４は、一実施形態による、スイッチング構造のオーディオ符号化装置の構成を示したブロック図である。図１４に図示された符号化装置は、信号分類部１４１０、ＴＤ（time domain）符号化部１４２０、ＴＤ拡張符号化部１４３０、ＦＤ（frequency domain）符号化部１４４０及びＦＤ拡張符号化部１４５０を含んでもよい。

信号分類部１４１０は、入力信号の特性を参照し、入力信号の符号化モードを決定する。信号分類部１４１０は、入力信号の時間ドメイン特性と、周波数ドメイン特性とを考慮し、入力信号の符号化モードを決定する。また、信号分類部１４１０は、入力信号の特性が、音声信号に該当する場合、入力信号に対して、ＴＤ符号化が行われるように決定し、入力信号の特性が、音声信号ではないオーディオ信号に該当する場合、入力信号に対して、ＦＤ符号化が行われるように決定する。

信号分類部１４１０に入力される入力信号は、ダウンサンプリング部（図示せず）によってダウンサンプリングされた信号になる。実施形態によれば、入力信号は、３２ｋＨｚまたは４８ｋＨｚのサンプリングレートを有する信号をリサンプリング（re-sampling）することにより、１２．８ｋＨｚまたは１６ｋＨｚのサンプリングレートを有する信号になる。そのとき、リサンプリングは、ダウンサンプリングになる。ここで、３２ｋＨｚのサンプリングレートを有する信号は、ＳＷＢ（super wide band）信号になり、そのとき、ＳＷＢ信号は、ＦＢ（full band）信号になる。また、１６ｋＨｚのサンプリングレートを有する信号は、ＷＢ（wide band）信号になる。

それにより、信号分類部１４１０は、入力信号の低周波数領域に存在する低周波数信号の特性を参照し、低周波数信号の符号化モードをＴＤモードまたはＦＤモードのうちいずれか一つに決定する。

ＴＤ符号化部１４２０は、入力信号の符号化モードがＴＤモードに決定されれば、入力信号について、ＣＥＬＰ（code excited linear prediction）符号化を行う。ＴＤ符号化部１４２０は、入力信号から励起信号（excitation signal）を抽出し、抽出された励起信号を、ピッチ（pitch）情報に該当するadaptive codebook contribution及びfixed codebook contributionそれぞれを考慮して量子化する。

他の実施形態によれば、ＴＤ符号化部１４２０は、入力信号から線形予測係数（ＬＰＣ：linear prediction coefficient）を抽出し、抽出された線形予測係数を量子化し、量子化された線形予測係数を利用して、励起信号を抽出する過程をさらに含んでもよい。

また、ＴＤ符号化部１４２０は、入力信号の特性による多様な符号化モードによって、ＣＥＬＰ符号化を行う。例えば、ＣＥＬＰ符号化部１４２０は、有声音符号化モード（voiced coding mode）、無声音符号化モード（unvoiced coding mode）、トランジション符号化モード（transition coding mode）または一般的な符号化モード（generic coding mode）のうちいずれか１つの符号化モードで、入力信号についてＣＥＬＰ符号化を行う。

ＴＤ拡張符号化部１４３０は、入力信号の低周波信号についてＣＥＬＰ符号化が行われれば、入力信号の高周波信号について、拡張符号化を行う。例えば、ＴＤ拡張符号化部１４３０は、入力信号の高周波領域に対応する高周波信号の線形予測係数を量子化する。そのとき、ＴＤ拡張符号化部１４３０は、入力信号の高周波信号の線形予測係数を抽出し、抽出された線形予測係数を量子化することもできる。実施形態によれば、ＴＤ拡張符号化部１４３０は、入力信号の低周波信号の励起信号を使用して、入力信号の高周波信号の線形予測係数を生成することもできる。

ＦＤ符号化部１４４０は、入力信号の符号化モードがＦＤモードに決定されれば、入力信号についてＦＤ符号化を行う。そのために、入力信号について、ＭＤＣＴ（modified discrete cosine transform）などを利用して、周波数ドメインに変換し、変換された周波数スペクトルについて、量子化及び無損失符号化を行う。実施形態によれば、ＦＰＣを適用する。

ＦＤ拡張符号化部１４５０は、入力信号の高周波数信号について、拡張符号化を行う。実施形態によれば、ＦＤ拡張符号化部１４５０は、低周波数スペクトルを利用して、高周波数拡張を行う。

図１５は、他の実施形態による、スイッチング構造のオーディオ符号化装置の構成を示したブロック図である。図１５に図示された符号化装置は、信号分類部１５１０、ＬＰＣ符号化部１５２０、ＴＤ符号化部１５３０、ＴＤ拡張符号化部１５４０、オーディオ符号化部１５５０及びオーディオ拡張符号化部１５６０を含んでもよい。

図１５を参照すれば、信号分類部１５１０は、入力信号の特性を参照し、入力信号の符号化モードを決定する。信号分類部１５１０は、入力信号の時間ドメイン特性と、周波数ドメイン特性とを考慮し、入力信号の符号化モードを決定する。信号分類部１５１０は、入力信号の特性が音声信号に該当する場合、入力信号について、ＴＤ符号化が行われるように決定し、入力信号の特性が音声信号ではないオーディオ信号に該当する場合、入力信号について、オーディオ符号化が行われるように決定する。

ＬＰＣ符号化部１５２０は、入力信号の低周波信号から、線形予測係数（ＬＰＣ）を抽出し、抽出された線形予測係数を量子化する。実施形態によれば、ＬＰＣ符号化部１５２０は、ＴＣＱ（trellis coded quantization）方式、ＭＳＶＱ（multi-stage vector quantization）方式、ＬＶＱ（lattice vector quantization）方式などを使用して、線形予測係数を量子化することができるが、それらに限定されるものではない。

具体的には、ＬＰＣ符号化部１５２０は、３２ｋＨｚまたは４８ｋＨｚのサンプリングレートを有する入力信号をリサンプリングすることにより、１２．８ｋＨｚまたは１６ｋＨｚのサンプリングレートを有する入力信号の低周波信号から、線形予測係数を抽出する。ＬＰＣ符号化部１５２０は、量子化された線形予測係数を利用して、ＬＰＣ励起信号を抽出する過程をさらに含んでもよい。

ＴＤ符号化部１５３０は、入力信号の符号化モードがＴＤモードに決定されれば、線形予測係数を利用して抽出されたＬＰＣ励起信号について、ＣＥＬＰ符号化を行う。例えば、ＴＤ符号化部１５３０は、ＬＰＣ励起信号について、ピッチ情報に該当するadaptive codebook contribution及びfixed codebook contributionそれぞれを考慮して量子化する。そのとき、ＬＰＣ励起信号は、ＬＰＣ符号化部１５２０、ＴＤ符号化部１５３０、及びそれらのうち少なくともいずれか一つにおいて生成される。

ＴＤ拡張符号化部１５４０は、入力信号の低周波信号のＬＰＣ励起信号について、ＣＥＬＰ符号化が行われれば、入力信号の高周波信号について、拡張符号化を行う。例えば、ＴＤ拡張符号化部１５４０は、入力信号の高周波信号の線形予測係数を量子化する。実施形態によれば、ＴＤ拡張符号化部１５４０は、入力信号の低周波信号のＬＰＣ励起信号を使用して、入力信号の高周波信号の線形予測係数を抽出することもできる。

オーディオ符号化部１５５０は、入力信号の符号化モードが、オーディオモードに決定されれば、線形予測係数を利用して抽出されたＬＰＣ励起信号について、オーディオ符号化を行う。例えば、オーディオ符号化部１５５０は、線形予測係数を利用して抽出されたＬＰＣ励起信号を、周波数ドメインに変換し、変換されたＬＰＣ励起信号を量子化する。オーディオ符号化部１５５０は、周波数ドメインに変換された励起スペクトルについて、ＦＰＣ方式またはlattice ＶＱ（ＬＶＱ）方式による量子化を行うこともできる。

さらに、オーディオ符号化部１５５０は、ＬＰＣ励起信号について、量子化を行うにあたり、ビットの余裕がある場合、adaptive codebook contribution及びfixed codebook contributionのＴＤコーディング情報をさらに考慮して量子化することもできる。

ＦＤ拡張符号化部１５６０は、入力信号の低周波信号のＬＰＣ励起信号について、オーディオ符号化が行われれば、入力信号の高周波信号について、拡張符号化を行う。すなわち、ＦＤ拡張符号化部１５６０は、低周波数スペクトルを利用して、高周波数拡張を行う。

図１４及び図１５に図示されたＦＤ拡張符号化部１４５０，１５６０は、図３及び図６の符号化装置でもって具現される。

図１６は、一実施形態による、スイッチング構造のオーディオ復号化装置の構成を示したブロック図である。図１６を参照すれば、復号化装置は、モード情報検査部１６１０、ＴＤ復号化部１６２０、ＴＤ拡張復号化部１６３０、ＦＤ復号化部１６４０及びＦＤ拡張復号化部１６５０を含んでもよい。

モード情報検査部１６１０は、ビットストリームに含まれたフレームそれぞれに係わるモード情報を検査する。モード情報検査部１６１０は、ビットストリームから、モード情報をパージングし、パージング結果による現在フレームの符号化モードによって、ＴＤ復号化モードまたはＦＤ復号化モードのうちいずれか１つの復号化モードで、スイッチング作業を行う。

具体的には、モード情報検査部１６１０は、ビットストリームに含まれたフレームそれぞれについて、ＴＤモードで符号化されたフレームは、ＣＥＬＰ復号化が行われるようにスイッチングし、ＦＤモードで符号化されたフレームは、ＦＤ復号化が行われるようにスイッチングする。

ＴＤ復号化部１６２０は、検査結果によって、ＣＥＬＰ符号化されたフレームについてＣＥＬＰ復号化を行う。例えば、ＴＤ復号化部１６２０は、ビットストリームに含まれた線形予測係数を復号化し、adaptive codebook contribution及びfixed codebook contributionに係わる復号化を行い、復号化遂行結果を合成し、低周波数に係わる復号化信号である低周波信号を生成する。

ＴＤ拡張復号化部１６３０は、ＣＥＬＰ復号化が行われた結果、及び低周波信号の励起信号のうち少なくとも一つを利用して、高周波数に係わる復号化信号を生成する。そのとき、低周波信号の励起信号は、ビットストリームに含まれる。また、ＴＤ拡張復号化部１６３０は、高周波数に係わる復号化信号である高周波信号を生成するために、ビットストリームに含まれた高周波信号に係わる線形予測係数情報を活用する。

実施形態によれば、ＴＤ拡張復号化部１６３０は、生成された高周波信号を、ＴＤ復号化部１６２０で生成された低周波信号と合成し、復号化された信号を生成する。そのとき、ＴＤ拡張復号化部１６２０は、復号化された信号を生成するために、低周波信号及び高周波信号のサンプリングレートが同一になるように変換する作業をさらに行う。

ＦＤ復号化部１６４０は、検査結果によって、ＦＤ符号化されたフレームについて、ＦＤ復号化を行う。実施形態によるＦＤ復号化部１６４０は、ビットストリームに含まれた以前フレームのモード情報を参照し、無損失復号化及び逆量子化を行うこともできる。そのとき、ＦＰＣ復号化が適用され、ＦＰＣ復号化が行われた結果、所定周波数バンドにノイズを付加する。

ＦＤ拡張復号化部１６５０は、ＦＤ復号化部１６４０において、ＦＰＣ復号化及び／またはノイズフィーリングが行われた結果を利用して、高周波数拡張復号化を行う。ＦＤ拡張復号化部１６５０は、低周波帯域について復号化された周波数スペクトルのエネルギーを逆量子化し、高周波帯域幅拡張の多様なモードによって、低周波信号を利用して、高周波信号の励起信号を生成し、生成された励起信号のエネルギーが逆量子化されたエネルギーに対称になるようにゲインを適用することにより、復号化された高周波信号を生成する。例えば、高周波帯域幅拡張の多様なモードは、ノルマル（normal）モード、ハーモニック（harmonic）モードまたはノイズ（noise）モードのうちいずれか１つのモードになる。

図１７は、他の実施形態による、スイッチング構造のオーディオ復号化装置の構成を示したブロック図である。図１７を参照すれば、復号化装置は、モード情報検査部１７１０、ＬＰＣ復号化部１７２０、ＴＤ復号化部１７３０、ＴＤ拡張復号化部１７４０、オーディオ復号化部１７５０及びＦＤ拡張復号化部１７６０を含んでもよい。

モード情報検査部１７１０は、ビットストリームに含まれたフレームそれぞれに係わるモード情報を検査する。例えば、モード情報検査部１７１０は、符号化されたビットストリームから、モード情報をパージングし、パージング結果による現在フレームの符号化モードによって、ＴＤ復号化モードまたはオーディオ復号化モードのうちいずれか１つの復号化モードで、スイッチング作業を行う。

具体的には、モード情報検査部１７１０は、ビットストリームに含まれたフレームそれぞれについて、ＴＤモードで符号化されたフレームは、ＣＥＬＰ復号化が行われるようにスイッチングし、オーディオ符号化モードで符号化されたフレームは、オーディオ復号化が行われるようにスイッチングする。

ＬＰＣ復号化部１７２０は、ビットストリームに含まれたフレームについて、ＬＰＣ復号化を行う。

ＴＤ復号化部１７３０は、検査結果によって、ＣＥＬＰ符号化されたフレームについて、ＣＥＬＰ復号化を行う。例を挙げて説明すれば、ＴＤ復号化部１７３０は、adaptive codebook contribution及びfixed codebook contributionに係わる復号化を行い、復号化遂行結果を合成し、低周波数に係わる復号化信号である低周波信号を生成する。

ＴＤ拡張復号化部１７４０は、ＣＥＬＰ復号化が行われた結果、及び低周波信号の励起信号のうち少なくとも一つを利用して、高周波数に係わる復号化信号を生成する。そのとき、低周波信号の励起信号は、ビットストリームに含まれる。また、ＴＤ拡張復号化部１７４０は、高周波数に係わる復号化信号である高周波信号を生成するために、ＬＰＣ復号化部１７２０で復号化された線形予測係数情報を利用する。

また、実施形態によればＴＤ拡張復号化部１７４０は、生成された高周波信号を、ＴＤ復号化部１７３０で生成された低周波信号と合成し、復号化された信号を生成する。そのとき、ＴＤ拡張復号化部１７４０は、復号化された信号を生成するために、低周波信号及び高周波信号のサンプリングレートが同一になるように変換する作業をさらに行う。

オーディオ復号化部１７５０は、検査結果によって、オーディオ符号化されたフレームについて、オーディオ復号化を行う。例えば、オーディオ復号化部１７５０は、ビットストリームを参照し、時間ドメイン寄与分が存在する場合、時間ドメイン寄与分及び周波数ドメイン寄与分を考慮して復号化を行い、時間ドメイン寄与分が存在しない場合、周波数ドメイン寄与分を考慮して復号化を行う。

また、オーディオ復号化部１７５０は、ＦＰＣまたはＬＶＱで量子化された信号について、ＩＤＣＴなどを利用して、時間ドメインに変換して復号化された低周波数励起信号を生成し、生成された励起信号を、逆量子化されたＬＰＣ係数と合成し、復号化された低周波数信号を生成する。

ＦＤ拡張復号化部１７６０は、オーディオ復号化が行われた結果を利用して、拡張復号化を行う。例えば、ＦＤ拡張復号化部１７６０は、復号化された低周波数信号を、高周波数拡張復号化に適するサンプリングレートに変換し、変換された信号について、ＭＤＣＴのような周波数変換を行う。ＦＤ拡張復号化部１７６０は、変換された低周波数スペクトルのエネルギーを逆量子化し、高周波帯域幅拡張の多様なモードによって、低周波信号を利用して、高周波信号の励起信号を生成し、生成された励起信号のエネルギーが、逆量子化されたエネルギーに対称になるようにゲインを適用することにより、復号化された高周波信号を生成する。例えば、高周波帯域幅拡張の多様なモードは、ノルマルモード、転移モード、ハーモニックモード、またはノイズモードのうちいずれか１つのモードになる。

また、ＦＤ拡張復号化部１７６０は、復号化された高周波信号について、inverse ＭＤＣＴを利用して、時間ドメインに変換し、時間ドメインに変換された信号について、オーディオ復号化部１７５０で生成された低周波信号とサンプリングレートを合わせるための変換作業を行った後、低周波信号と、変換作業が行われた信号とを合成する。

図１６及び図１７に図示されたＦＤ拡張復号化部１６５０，１７６０は、図８の復号化装置でもって具現される。

図１８は、本発明の一実施形態による、符号化モジュールを含むマルチメディア機器の構成を示したブロック図である。図１８に図示されたマルチメディア機器１８００は、通信部１８１０及び符号化モジュール１８３０を含んでもよい。また、符号化の結果として得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部１８５０をさらに含んでもよい。また、マルチメディア機器１８００は、マイクロフォン１８７０をさらに含んでもよい。すなわち、保存部１８５０とマイクロフォン１８７０は、オプションとして具備される。一方、図１８に図示されたマルチメディア機器１８００は、任意の復号化モジュール（図示せず）、例えば、一般的な復号化機能を遂行する復号化モジュール、あるいは本発明の一実施形態による復号化モジュールをさらに含んでもよい。ここで、符号化モジュール１８３０は、マルチメディア機器１８００に具備される他の構成要素（図示せず）と共に一体化され、少なくとも一つ以上のプロセッサ（図示せず）によって具現される。

図１８を参照すれば、通信部１８１０は、外部から提供されるオーディオ及び符号化されたビットストリームのうち少なくとも一つを受信したり、あるいは復元されたオーディオ、及び符号化モジュール１８３０の符号化結果として得られるオーディオビットストリームのうち少なくとも一つを送信したりする。

通信部１８１０は、無線インターネット、無線イントラネット、無線電話網、無線ＬＡＮ（local area network）、Ｗｉ−Ｆｉ（wireless fidelity）、ＷＦＤ（Ｗｉ−Ｆｉ direct）、３Ｇ（generation）、４Ｇ（４generation）、ブルートゥース、赤外線通信（ＩｒＤＡ：infrared data association）、ＲＦＩＤ（radio frequency identification）、ＵＷＢ（ultra-wideband）、ジグビー（（登録商標）Zigbee）、ＮＦＣ（near field communication）のような無線ネットワーク、または有線電話網、有線インターネットのような有線ネットワークを介して、外部のマルチメディア機器とデータを送受信することができるように構成される。

符号化モジュール１８３０は、一実施形態によれば、通信部１８１０あるいはマイクロフォン１８７０を介して提供される時間ドメインのオーディオ信号について、図１４あるいは図１５の符号化装置を利用した符号化を行う。また、ＦＤ拡張符号化は、図３あるいは図６の符号化装置を利用する。

保存部１８５０は、符号化モジュール１８３０で生成される符号化されたビットストリームを保存する。一方、保存部１８５０は、マルチメディア機器１８００の運用に必要な多様なプログラムを保存する。

マイクロフォン１８７０は、ユーザあるいは外部のオーディオ信号を、符号化モジュール１８３０に提供する。

図１９は、本発明の一実施形態による、復号化モジュールを含むマルチメディア機器の構成を示したブロック図である。図１９に図示されたマルチメディア機器１９００は、通信部１９１０と復号化モジュール１９３０とを含んでもよい。また、復号化の結果として得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部１９５０をさらに含んでもよい。また、マルチメディア機器１９００は、スピーカ１９７０をさらに含んでもよい。すなわち、保存部１９５０とスピーカ１９７０は、オプションとして具備される。一方、図１９に図示されたマルチメディア機器１９００は、任意の符号化モジュール（図示せず）、例えば、一般的な符号化機能を遂行する符号化モジュール、あるいは本発明の一実施形態による、符号化モジュールをさらに含んでもよい。ここで、復号化モジュール１９３０は、マルチメディア機器１９００に具備される他の構成要素（図示せず）と共に一体化され、少なくとも１つの以上のプロセッサ（図示せず）によって具現される。

図１９を参照すれば、通信部１９１０は、外部から提供される符号化されたビットストリーム及びオーディオ信号のうち少なくとも一つを受信したり、あるいは復号化モジュール１９３０の復号化結果として得られる復元されたオーディオ信号、及び符号化の結果として得られるオーディオビットストリームのうち少なくとも一つを送信したりする。一方、通信部１９１０は、図１８の通信部１８１０と実質的に類似して具現される。

復号化モジュール１９３０は、一実施形態によれば、通信部１９１０を介して提供されるビットストリームを受信し、ビットストリームに含まれたオーディオスペクトルについて、図１６あるいは図１７の復号化装置を利用した復号化を行う。また、ＦＤ拡張復号化は、図８の復号化装置を利用することができ、具体的には、図９ないし図１１に図示された高周波数励起信号生成部を利用する。

保存部１９５０は、復号化モジュール１９３０で生成される復元されたオーディオ信号を保存する。一方、保存部１９５０は、マルチメディア機器１９００の運用に必要な多様なプログラムを保存する。

スピーカ１９７０は、復号化モジュール１９３０で生成される復元されたオーディオ信号を外部に出力する。

図２０は、本発明の一実施形態による、符号化モジュール及び復号化モジュールを含むマルチメディア機器の構成を示したブロック図である。

図２０に図示されたマルチメディア機器２０００は、通信部２０１０、符号化モジュール２０２０及び復号化モジュール２０３０を含んでもよい。また、符号化の結果として得られるオーディオビットストリーム、あるいは復号化の結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリームあるいは復元されたオーディオ信号を保存する保存部２０４０をさらに含んでもよい。また、マルチメディア機器２０００は、マイクロフォン２０５０あるいはスピーカ２０６０をさらに含んでもよい。ここで、符号化モジュール２０２０と復号化モジュール２０３０は、マルチメディア機器２０００に具備される他の構成要素（図示せず）と共に一体化され、少なくとも一つ以上のプロセッサ（図示せず）によって具現される。

図２０に図示された各構成要素は、図１８に図示されたマルチメディア機器１８００の構成要素、あるいは図１９に図示されたマルチメディア機器１９００の構成要素と重複するので、その詳細な説明は省略する。

図１８ないし図２０に図示されたマルチメディア機器１８００，１９００，２０００には、電話、モバイルフォンなどを含む音声通信専用端末；ＴＶ（television）、ＭＰ３プレーヤなどを含む放送専用装置または音楽専用装置、あるいは音声通信専用端末と、放送専用装置あるいは音楽専用装置との融合端末装置が含まれるが、それらに限定されるものではない。また、マルチメディア機器１８００，１９００，２０００は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器として使用される。

一方、マルチメディア機器１８００，１９００，２０００が、例えば、モバイルフォンである場合、図示されていないが、キーパッドのようなユーザ入力部、ユーザ・インターフェースあるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部、モバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とする機能を遂行する少なくとも一つ以上の構成要素とをさらに含んでもよい。

一方、マルチメディア機器１８００，１９００，２０００が、例えば、ＴＶである場合、図示されていないが、キーパッドのようなユーザ入力部、受信された放送情報をディスプレイするディスプレイ部、ＴＶの全般的な機能を制御するプロセッサをさらに含んでもよい。また、ＴＶは、ＴＶで必要とする機能を遂行する少なくとも一つ以上の構成要素をさらに含んでもよい。

前記実施形態による方法は、コンピュータで実行されるプログラムでもって作成可能であり、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタル・コンピュータで具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に多様な手段を介して記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種の保存装置を含む。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体（magnetic media）；ＣＤ（compact disc）−ＲＯＭ（read-only memory）、ＤＶＤ（digital versatile disc）のような光記録媒体（optical media）；フロプティカルディスク（floptical disk）のような磁気・光媒体（magneto-optical media）；及びＲＯＭ、ＲＡＭ（random-access memory）、フラッシュメモリようなプログラム命令を保存して遂行するように特別に構成されたハードウェア装置；が含まれる。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。

以上のように、本発明の一実施形態は、たとえ限定された実施形態と図面とによって説明されたにしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、それは、本発明が属する分野で当業者であるならば、かような記載から、多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、その均等または等価的変形は、いずれも本発明技術的思想の範疇に属するものである。

Claims

信号分類結果に基づき、現在フレームが音声信号に当るか否かを決定する段階と、
前記現在フレームが前記音声信号に当る場合、前記現在フレームの第１励起クラスの情報を生成する段階と、
前記現在フレームが前記音声信号に当らない場合、前記現在フレームのトーナル特性を取得する段階と、
前記トーナル特性を閾値(ｔｈｒｅｓｈｏｌｄｖａｌｕｅ)と比較して、前記現在フレームの第２励起クラスの情報を生成する段階と、
を含む励起クラス生成方法。
前記第１励起クラスの情報は前記現在フレームの励起クラスが音声クラスであることを示し、前記第２励起クラスの情報は前記現在フレームの励起クラスが第１非音声クラスあるいは第２非音声クラスであることを示す請求項１に記載の方法。
前記第１非音声クラスは前記現在フレームがトーナル（ｔｏｎａｌ）信号である場合に割り当てられ、前記第２非音声クラスは前記現在フレームがノイジー（ｎｏｉｓｙ）信号である場合に割り当てられている請求項２に記載の方法。
前記第１励起クラスの情報と前記第２励起クラスの情報はフレーム単位で生成される請求項１に記載の方法。
請求項１ないし４のいずれかに記載の方法を実行できるプログラムを記録したコンピュータ読み取り可能な記録媒体。