JP2020204784A

JP2020204784A - 信号符号化方法及びその装置、並びに信号復号方法及びその装置

Info

Publication number: JP2020204784A
Application number: JP2020152313A
Authority: JP
Inventors: ソン，ホ−サン; Ho-Sang Sung; チュ，ギ−ヒョン; Ki Hyun Choo; オ，ウン−ミ; Woon-Mi Oh
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-07-28
Filing date: 2020-09-10
Publication date: 2020-12-24
Anticipated expiration: 2035-07-28
Also published as: EP3176780A1; JP6763849B2; US11616954B2; CN107077855B; EP3176780A4; KR20230066137A; CN111968656A; CN111968655A; CN111968656B; US20190158833A1; US20210051325A1; CN111968655B; CN107077855A; KR20170037970A; JP6980871B2; EP4293666A2; EP4293666A3; US10827175B2; JP2017528751A

Abstract

【課題】周波数ドメインにおいて、多様なビット率、あるいは多様なサブバンドの大きさに適応的に、スペクトル係数を符号化あるいは復号する方法及びその装置を提供する。【解決手段】スペクトル符号化装置による方法は、現在バンドのスペクトルデータを、第１量子化方式によって量子化する段階、スペクトルデータ及び量子化されたスペクトルデータを利用して、現在バンドの下位ビットを生成する段階、現在バンドの下位ビットが含まれた下位ビットシーケンスを、第２量子化方式によって量子化する段階並びに量子化されたスペクトルデータのうちＮビット（ここで、Ｎは１以上）を除いた上位ビット及び量子化された下位ビットシーケンスに基づいて、ビットストリームを生成する段階を含む。【選択図】図１７

Description

本発明は、オーディオ信号あるいはスピーチ信号の符号化及び復号に係り、さらに具体的には、周波数ドメインにおいて、スペクトル係数を符号化あるいは復号する方法及びその装置に関する。

周波数ドメインにおいて、スペクトル係数の効率的な符号化のために、多様な方式の量子化器が提案されている。例えば、ＴＣＱ（trellis coded quantization）、ＵＳＱ（uniform scalar quantization）、ＦＰＣ（factorial pulse coding）、ＡＶＱ（algebraic ＶＱ）、ＰＶＱ（pyramid ＶＱ）などがあり、それぞれの量子化器に最適化された無損失符号化器が共に具現される。

本発明が解決しようとする課題は、周波数ドメインにおいて、多様なビット率、あるいは多様なサブバンドの大きさに適応的に、スペクトル係数を符号化あるいは復号する方法及びその装置を提供するところにある。

本発明が解決しようとする他の課題は、信号符号化方法あるいは信号復号方法をコンピュータで実行させるためのプログラムを記録したコンピュータで読取り可能な記録媒体を提供するところにある。

本発明が解決しようとする他の課題は、信号符号化装置あるいは信号復号装置を採用するマルチメディア機器を提供するところにある。

前記課題を達成するための一側面によるスペクトル符号化方法は、現在バンドのスペクトルデータを、第１量子化方式によって量子化する段階と、前記スペクトルデータ、及び前記量子化されたスペクトルデータを利用して、前記現在バンドの下位ビットを生成する段階と、前記現在バンドの下位ビットが含まれた下位ビットシーケンスを、第２量子化方式によって量子化する段階と、前記量子化されたスペクトルデータのうちＮビット（ここで、Ｎは１以上）を除いた上位ビット、及び前記量子化された下位ビットシーケンスを含むビットストリームを生成する段階と、を含んでもよい。

前記課題を達成するための一側面によるスペクトル符号化装置は、現在バンドのスペクトルデータを、第１量子化方式によって量子化し、前記スペクトルデータ、及び前記量子化されたスペクトルデータを利用して、前記現在バンドの下位ビットを生成し、前記現在バンドの下位ビットが含まれた下位ビットシーケンスを、第２量子化方式によって量子化し、前記量子化されたスペクトルデータのうちＮビット（ここで、Ｎは１以上）を除いた上位ビット、及び前記量子化された下位ビットシーケンスを含むビットストリームを生成するプロセッサを含んでもよい。

前記課題を達成するための一側面によるスペクトル復号方法は、ビットストリームからＩＳＣ情報を抽出し、ＩＳＣの数、位置及び符号をデコーディングする段階と、前記ビットストリームから下位ビットを除いた残りのビットを抽出してデコーディングする段階と、前記ビットストリームからＴＣＱ経路情報を抽出し、下位ビットシーケンスをデコーディングする段階と、デコーディングされた下位ビットを除いた残りのビットと、デコーディングされた下位ビットシーケンスとに基づいて、スペクトル成分を復元する段階と、を含んでもよい。

前記課題を達成するための一側面によるスペクトル復号装置は、ビットストリームからＩＳＣ情報を抽出し、ＩＳＣの数、位置及び符号をデコーディングし、前記ビットストリームから下位ビットを除いた残りのビットを抽出してデコーディングし、前記ビットストリームからＴＣＱ経路情報を抽出し、下位ビットシーケンスをデコーディングし、デコーディングされた下位ビットを除いた残りのビットと、デコーディングされた下位ビットシーケンスとに基づいて、スペクトル成分を復元するプロセッサを含んでもよい。

多様なビット率と、多様なサブバンドの大きさとに適応的なスペクトル係数の符号化及び復号が可能である。また、マルチレートを支援するコーデックで設計されたビットレート制御モジュールを利用して、スペクトル係数を、ＵＳＱとＴＣＱとを結合した方式に基づいて、符号化あるいは復号することにより、各量子化方式の利点を極大化させることができる。

本発明が適用されるオーディオ符号化装置の一例による構成をそれぞれ示したブロック図である。本発明が適用されるオーディオ復号装置の一例による構成をそれぞれ示したブロック図である。本発明が適用されるオーディオ符号化装置の他の例による構成をそれぞれ示したブロック図である。本発明が適用されるオーディオ復号装置の他の例による構成をそれぞれ示したブロック図である。本発明が適用されるオーディオ符号化装置の他の例による構成をそれぞれ示したブロック図である。本発明が適用されるオーディオ復号装置の他の例による構成をそれぞれ示したブロック図である。本発明が適用されるオーディオ符号化装置の他の例による構成をそれぞれ示したブロック図である。本発明が適用されるオーディオ復号装置の他の例による構成をそれぞれ示したブロック図である。本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。本発明が適用される周波数ドメインオーディオ復号装置の構成を示したブロック図である。一実施形態によるスペクトル符号化装置の構成を示すブロック図である。サブバンド分割の例を示す図面である。一実施形態によるスペクトル量子化装置の構成を示すブロック図である。一実施形態によるスペクトル符号化装置の構成を示すブロック図である。一実施形態によるＩＳＣ符号化装置の構成を示すブロック図である。一実施形態によるＩＳＣ情報符号化装置の構成を示すブロック図である。他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。一実施形態によるＩＳＣ収集及び符号化過程の概念を示す図面である。ＵＳＱとＴＣＱとを結合した第２ジョイント方式について説明する図面である。他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。図１７に図示された第２量子化部の構成を示すブロック図である。レジデュアルデータを生成する方法について説明する図面である。ＴＣＱの一例を示す図面である。一実施形態による周波数ドメインオーディオ復号装置の構成を示したブロック図である。一実施形態によるスペクトル復号装置の構成を示すブロック図である。一実施形態によるスペクトル逆量子化装置の構成を示すブロック図である。一実施形態によるスペクトル復号装置の構成を示すブロック図である。一実施形態によるＩＳＣ復号装置の構成を示すブロック図である。一実施形態によるＩＳＣ情報復号装置の構成を示すブロック図である。他の実施形態によるスペクトル復号装置の構成を示すブロック図である。他の実施形態によるスペクトル復号装置の構成を示すブロック図である。他の実施形態によるスペクトル復号装置の構成を示すブロック図である。図２９に図示された第３デコーディング部の構成を示すブロック図である。一実施形態によるマルチメディア機器の構成を示したブロック図である。他の実施形態によるマルチメディア機器の構成を示したブロック図である。他の実施形態によるマルチメディア機器の構成を示したブロック図である。一実施形態によるスペクトル符号化方法について説明するフローチャートである。一実施形態によるスペクトル復号方法について説明するフローチャートである。一実施形態によるビット割当て装置の構成を示したブロック図である。一実施形態による符号化モード決定装置の構成を示したブロック図である。図３７に図示された訂正部で使用される状態マシーンを示す図面である。

本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明によって具体的に説明する。しかし、それらは、本発明を特定の実施形態に対して限定するものではなく、本発明の技術的思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むものであると理解される。本発明についての説明において、関連公知技術に係わる具体的な説明が、本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。

第１、第２のような用語は、多様な構成要素についての説明に使用されるが、構成要素は、用語によって限定されるものではない。該用語は、１つの構成要素を他の構成要素から区別する目的のみに使用される。

本発明で使用した用語は、ただ特定の実施形態について説明するために使用されたものであり、本発明を限定する意図ではない。本発明で使用した用語は、本発明での機能を考慮しながら、可能な限り現在広く使用される一般的な用語を選択したが、それは、当分野の当業者の意図、判例、または新たな技術の出現などによって異なりもする。また、特定の場合は、出願人が任意に選定した用語もあり、その場合、当該発明の説明部分で詳細にその意味を記載する。従って、本発明で使用される用語は、単純な用語の名称ではない、その用語が有する意味と、本発明の全般にわたる内容とを基に定義されなければならない。

単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本発明において、「含む」または「有する」というような用語は、明細書上に記載された特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するものであって、１またはそれ以上の他の特徴、数、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性をあらかじめ排除するものではないと理解されなければならない。

以下、本発明の実施形態について、添付図面を参照して詳細に説明する。

図１Ａ及び図１Ｂは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の一例による構成をそれぞれ示したブロック図である。

図１Ａに図示されたオーディオ符号化装置１１０は、前処理部１１２、周波数ドメイン符号化部１１４及びパラメータ符号化部１１６を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。

図１Ａにおいて、前処理部１１２は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。入力信号は、オーディオ、ミュージックまたはスピーチ、あるいはそれらの混合信号を示すサウンドなどのメディア信号を意味するが、以下では、説明の便宜のために、オーディオ信号と称する。

周波数ドメイン符号化部１１４は、前処理部１１２から提供されるオーディオ信号に対して時間・周波数変換を行い、オーディオ信号のチャネル数、符号化帯域及びビット率に対応して符号化ツールを選択し、選択された符号化ツールを利用して、オーディオ信号に対する符号化を行うことができる。時間・周波数変換は、ＭＤＣＴ（modified discrete cosine transform）、ＭＬＴ（modulated lapped transform）あるいはＦＦＴ（fast Fourier transform）を使用するが、それらに限定されるものではない。ここで、与えられたビット数が十分な場合、全体帯域に対して一般的な変換符号化方式を適用し、与えられたビット数が十分ではない場合、一部帯域については、帯域拡張方式を適用することができる。一方、オーディオ信号が、ステレオあるいはマルチチャネルであるである場合、与えられたビット数が十分であるならば、各チャネル別に符号化し、十分ではなければ、ダウンミキシング方式を適用することができる。周波数ドメイン符号化部１１４からは、符号化されたスペクトル係数が生成される。

パラメータ符号化部１１６は、周波数ドメイン符号化部１１４から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化することができる。該パラメータは、例えば、サブバンド別あるいはバンド別に抽出され、以下では、説明の簡素化のために、サブバンドと称する。各サブバンドは、スペクトル係数をグルーピングした単位であり、臨界帯域を反映し、均一あるいは非均一の長さを有することができる。非均一長を有する場合、低周波数帯域に存在するサブバンドの場合、高周波数帯域と比較し、相対的に短い長さを有することができる。１フレームに含まれるサブバンドの個数及び長さは、コーデックアルゴリズムによって異なり、符号化性能に影響を及ぼす。一方、該パラメータは、サブバンドのスケールファクタ、パワー、平均エネルギーあるいはnormを例として挙げることができるが、それらに限定されるものではない。符号化の結果として得られるスペクトル係数とパラメータは、ビットストリームを形成し、記録媒体に保存されるか、あるいはチャネルを介して、例えば、パケット状で伝送される。

図１Ｂに図示されたオーディオ復号装置１３０は、パラメータ復号部１３２、周波数ドメイン復号部１３４及び後処理部１３６を含んでもよい。ここで、周波数ドメイン復号部１３４は、フレーム消去隠匿（ＦＥＣ：frame erasure concealment）アルゴリズムあるいはパケット損失隠匿（ＰＬＣ：packet loss concelament）アルゴリズムを含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。

図１Ｂにおいて、パラメータ復号部１３２は、受信されたビットストリームから符号化されたパラメータを復号し、復号されたパラメータから、フレーム単位で、消去あるいは損失のようなエラーが発生したか否かということをチェックすることができる。該エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいは消去フレームあるいは損失フレームであるかということに係わる情報を、周波数ドメイン復号部１３４に提供する。以下では、説明の簡素化のために、消去フレームあるいは損失フレームをエラーフレームと称する。

周波数ドメイン復号部１３４は、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成することができる。一方、周波数ドメイン復号部１３４は、現在フレームがエラーフレームである場合、ＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介して、スケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部１３４は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号を生成することができる。

後処理部１３６は、周波数ドメイン復号部１３４から提供される時間ドメイン信号に対して、音質向上のためのフィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部１３６は、出力信号として、復元されたオーディオ信号を提供する。

図２Ａ及び図２Ｂは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。

図２Ａに図示されたオーディオ符号化装置２１０は、前処理部２１２、モード決定部２１３、周波数ドメイン符号化部２１４、時間ドメイン符号化部２１５及びパラメータ符号化部２１６を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。

図２Ａにおいて、前処理部２１２は、図１Ａの前処理部１１２と実質的に同一であるので、説明を省略する。

モード決定部２１３は、入力信号の特性を参照し、符号化モードを決定することができる。入力信号の特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、または複数のフレームに係わる長区間特性などを利用して、入力信号の特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードと決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードまたは周波数ドメインモードと決定することができる。モード決定部２１３は、入力信号の特性が、音楽モードまたは周波数ドメインモードに該当する場合には、前処理部２１２の出力信号を周波数ドメイン符号化部２１４に提供し、入力信号の特性が、音声モードまたは時間ドメインモードに該当する場合、時間ドメイン符号化部２１５に提供することができる。

周波数ドメイン符号化部２１４は、図１Ａの周波数ドメイン符号化部１１４と実質的に同一であるので、説明を省略する。

時間ドメイン符号化部２１５は、前処理部２１２から提供されるオーディオ信号に対して、ＣＥＬＰ（code excited linear prediction）符号化を行うことができる。具体的には、ＡＣＥＬＰ（algebraic ＣＥＬＰ）を使用することができるが、それに限定されるものではない。

パラメータ符号化部２１６は、周波数ドメイン符号化部２１４または時間ドメイン符号化部２１５から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部２１６は、図１Ａのパラメータ符号化部１１６と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共に、ビットストリームを形成し、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。

図２Ｂに図示されたオーディオ復号装置２３０は、パラメータ復号部２３２、モード決定部２３３、周波数ドメイン復号部２３４、時間ドメイン復号部２３５及び後処理部２３６を含んでもよい。ここで、周波数ドメイン復号部２３４と時間ドメイン復号部２３５は、それぞれ当該ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。

図２Ｂにおいて、パラメータ復号部２３２は、パケット状で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位でエラーが発生したか否かということをチェックすることができる。該エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン復号部２３４あるいは時間ドメイン復号部２３５に提供する。

モード決定部２３３は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン復号部２３４あるいは時間ドメイン復号部２３５に提供する。

周波数ドメイン復号部２３４は、符号化モードが、音楽モードまたは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが、音楽モードまたは周波数ドメインモードである場合、周波数ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介して、スケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部２３４は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号を生成することができる。

時間ドメイン復号部２３５は、符号化モードが、音声モードまたは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なＣＥＬＰ復号過程を介して復号を行い、時間ドメイン信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが、音声モードまたは時間ドメインモードである場合、時間ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを遂行することができる。

後処理部２３６は、周波数ドメイン復号部２３４あるいは時間ドメイン復号部２３５から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部２３６は、出力信号として、復元されたオーディオ信号を提供する。

図３Ａ及び図３Ｂは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。

図３Ａに図示されたオーディオ符号化装置３１０は、前処理部３１２、ＬＰ（linear prediction）分析部３１３、モード決定部３１４、周波数ドメイン励起符号化部３１５、時間ドメイン励起符号化部３１６及びパラメータ符号化部３１７を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。

図３Ａにおいて、前処理部３１２は、図１Ａの前処理部１１２と実質的に同一であるので、説明を省略する。

ＬＰ分析部３１３は、入力信号に対してＬＰ分析を行ってＬＰ係数を抽出し、抽出されたＬＰ係数から励起信号を生成する。該励起信号は、符号化モードによって、周波数ドメイン励起符号化部３１５と時間ドメイン励起符号化部３１６とのうちいずれか一つに提供される。

モード決定部３１４は、図２Ｂのモード決定部２１３と実質的に同一であるので、説明を省略する。

周波数ドメイン励起符号化部３１５は、符号化モードが、音楽モードまたは周波数ドメインモードである場合に動作し、入力信号が励起信号であるということを除いては、図１Ａの周波数ドメイン符号化部１１４と実質的に同一であるので、説明を省略する。

時間ドメイン励起符号化部３１６は、符号化モードが、音声モードまたは時間ドメインモードである場合に動作し、入力信号が励起信号であるということを除いては、図２Ａの時間ドメイン符号化部２１５と実質的に同一であるので、説明を省略する。

パラメータ符号化部３１７は、周波数ドメイン励起符号化部３１５あるいは時間ドメイン励起符号化部３１６から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部３１７は、図１Ａのパラメータ符号化部１１６と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。

図３Ｂに図示されたオーディオ復号装置３３０は、パラメータ復号部３３２、モード決定部３３３、周波数ドメイン励起復号部３３４、時間ドメイン励起復号部３３５、ＬＰ合成部３３６及び後処理部３３７を含んでもよい。ここで、周波数ドメイン励起復号部３３４と時間ドメイン励起復号部３３５は、それぞれ当該ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。

図３Ｂにおいて、パラメータ復号部３３２は、パケット状で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位でエラーが発生したか否かということをチェックすることができる。該エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン励起復号部３３４あるいは時間ドメイン励起復号部３３５に提供する。

モード決定部３３３は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン励起復号部３３４あるいは時間ドメイン励起復号部３３５に提供する。

周波数ドメイン励起復号部３３４は、符号化モードが、音楽モードまたは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが、音楽モードまたは周波数ドメインモードである場合、周波数ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介して、スケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン励起復号部３３４は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号である励起信号を生成することができる。

時間ドメイン励起復号部３３５は、符号化モードが、音声モードまたは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なＣＥＬＰ復号過程を介して復号を行い、時間ドメイン信号である励起信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが、音声モードまたは時間ドメインモードである場合、時間ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを遂行することができる。

ＬＰ合成部３３６は、周波数ドメイン励起復号部３３４あるいは時間ドメイン励起復号部３３５から提供される励起信号に対してＬＰ合成を行い、時間ドメイン信号を生成する。

後処理部３３７は、ＬＰ合成部３３６から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部３３７は、出力信号として、復元されたオーディオ信号を提供する。

図４Ａ及び図４Ｂは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。

図４Ａに図示されたオーディオ符号化装置４１０は、前処理部４１２、モード決定部４１３、周波数ドメイン符号化部４１４、ＬＰ分析部４１５、周波数ドメイン励起符号化部４１６、時間ドメイン励起符号化部４１７及びパラメータ符号化部４１８を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。図４Ａに図示されたオーディオ符号化装置４１０は、図２Ａのオーディオ符号化装置２１０と、図３Ａのオーディオ符号化装置３１０とを結合したものであると見ることができるので、共通する部分の動作説明を省略する一方、モード決定部４１３の動作について説明する。

モード決定部４１３は、入力信号の特性及びビット率を参照し、入力信号の符号化モードを決定することができる。モード決定部４１３は、入力信号の特性によって、現在フレームが、音声モードであるか、あるいは音楽モードであるかということによって、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということによって、ＣＥＬＰモード、及びそれ以外のモードと決定することができる。もし入力信号の特性が音声モードである場合には、ＣＥＬＰモードと決定し、音楽モードでありながら、高ビット率である場合、ＦＤモードと決定し、音楽モードでありながら、低ビット率の場合オーディオモードと決定することができる。モード決定部４１３は、ＦＤモードであるの場合、入力信号を周波数ドメイン符号化部４１４に提供し、オーディオモードである場合、ＬＰ分析部４１５を介して、周波数ドメイン励起符号化部４１６に提供し、ＣＥＬＰモードである場合、ＬＰ分析部４１５を介して、時間ドメイン励起符号化部４１７に提供することができる。

周波数ドメイン符号化部４１４は、図１Ａのオーディオ符号化装置１１０の周波数ドメイン符号化部１１４、あるいは図２Ａのオーディオ符号化装置２１０の周波数ドメイン符号化部２１４に対応し、周波数ドメイン励起符号化部４１６あるいは時間ドメイン励起符号化部４１７は、図３Ａのオーディオ符号化装置３１０の周波数ドメイン励起符号化部３１５あるいは時間ドメイン励起符号化部３１６に対応する。

図４Ｂに図示されたオーディオ復号装置４３０は、パラメータ復号部４３２、モード決定部４３３、周波数ドメイン復号部４３４、周波数ドメイン励起復号部４３５、時間ドメイン励起復号部４３６、ＬＰ合成部４３７及び後処理部４３８を含んでもよい。ここで、周波数ドメイン復号部４３４、周波数ドメイン励起復号部４３５と時間ドメイン励起復号部４３６は、それぞれ当該ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。図４Ｂに図示されたオーディオ復号装置４３０は、図２Ｂのオーディオ復号装置２３０と、図３Ｂのオーディオ復号装置３３０とを結合したものであると見ることができるので、共通する部分の動作説明を省略する一方、モード決定部４３３の動作について説明する。

モード決定部４３３は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを、周波数ドメイン復号部４３４、周波数ドメイン励起復号部４３５あるいは時間ドメイン励起復号部４３６に提供する。

周波数ドメイン復号部４３４は、図１Ｂのオーディオ符号化装置１３０の周波数ドメイン復号部１３４、あるいは図２Ｂのオーディオ復号装置２３０の周波数ドメイン復号部２３４に対応し、周波数ドメイン励起復号部４３５あるいは時間ドメイン励起復号部４３６は、図３Ｂのオーディオ復号装置３３０の周波数ドメイン励起復号部３３４あるいは時間ドメイン励起復号部３３５に対応する。

図５は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。図５に図示された周波数ドメインオーディオ符号化装置５１０は、トランジェント検出部５１１、変換部５１２、信号分類部５１３、エネルギー符号化部５１４、スペクトル正規化部５１５、ビット割当て部５１６、スペクトル符号化部５１７及び多重化部５１８を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。ここで、周波数ドメインオーディオ符号化装置５１０は、図２に図示された周波数ドメイン符号化部２１４の全ての機能と、パラメータ符号化部２１６の一部機能とを遂行することができる。一方、周波数ドメインオーディオ符号化装置５１０は、信号分類部５１３を除いては、ＩＴＵ−ＴＧ．７１９標準に開示されたエンコーダの構成で代替され、このとき、変換部５１２は、５０％のオーバーラップ区間を有する変換ウィンドウを使用することができる。また、周波数ドメインオーディオ符号化装置５１０は、トランジェント検出部５１１及び信号分類部５１３を除いては、ＩＴＵ−ＴＧ．７１９標準に開示されたエンコーダの構成でも代替される。各場合において、図示されていない、ＩＴＵ−ＴＧ．７１９標準でのように、スペクトル符号化部５１７の後端に、ノイズレベル推定部をさらに具備し、ビット割当て過程において、ゼロビットが割り当てられたスペクトル係数のためのノイズレベルを推定し、ビットストリームに含めることができる。

図５を参照すれば、トランジェント検出部５１１は、入力信号を分析し、トランジェント特性を示す区間を検出し、検出結果に対応し、各フレームに係わるトランジェントシグナリング情報を生成することができる。このとき、トランジェント区間の検出には、公知の多様な方法を使用することができる。一実施形態によれば、トランジェント検出部５１１は、まず、現在フレームがトランジェントフレームであるか否かということを一次的に判断し、トランジェントフレームと判断された現在フレームに対して、二次的に検証を行うことができる。トランジェントシグナリング情報は、多重化部５１８を介してビットストリームに含まれる一方、変換部５１２に提供される。

変換部５１２は、トランジェント区間の検出結果によって、変換に使用されるウィンドウサイズを決定し、決定されたウィンドウサイズに基づいて、時間・周波数変換を行うことができる。一例として、トランジェント区間が検出されたサブバンドの場合、短区間ウィンドウ（short window）を適用し、検出されていないサブバンドの場合、長区間ウィンドウ（long window）を適用することができる。他の例として、トランジェント区間を含むフレームに対して、短区間ウィンドウを適用することができる。

信号分類部５１３は、変換部５１２から提供されるスペクトルをフレーム単位で分析し、各フレームがハモニックフレームに該当するか否かということを判断することができる。このとき、ハモニックフレームの判断には、公知の多様な方法を使用することができる。一実施形態によれば、信号分類部５１３は、変換部５１２から提供されるスペクトルを複数のサブバンドに分け、各サブバンドについて、エネルギーのピーク値と平均値とを求めることができる。次に、各フレームに対して、エネルギーのピーク値が平均値より所定比率以上大きいサブバンドの数を求め、求められたサブバンドの数が所定値以上であるフレームを、ハモニックフレームと決定することができる。ここで、所定比率及び所定値は、実験あるいはシミュレーションを介して事前に決められる。ハモニックシグナリング情報は、多重化部５１８を介してビットストリームに含まれる。

エネルギー符号化部５１４は、各サブバンド単位でエネルギーを求め、量子化及び無損失符号化することができる。一実施形態によれば、エネルギーとして、各サブバンドの平均スペクトルエネルギーに該当するnorm値を使用することができ、スケールファクタあるいはパワーを代わりに使用することもできるが、それに限定されるものではない。ここで、各サブバンドのnorm値は、スペクトル正規化部５１５及びビット割当て部５１６に提供される一方、多重化部５１８を介して、ビットストリームに含まれる。

スペクトル正規化部５１５は、各サブバンド単位で求められたnorm値を利用して、スペクトルを正規化することができる。

ビット割当て部５１６は、各サブバンド単位で求められたnorm値を利用して、整数単位あるいは小数点単位で、ビット割当てを行うことができる。また、ビット割当て部５１６は、各サブバンド単位で求められたnorm値を利用して、マスキング臨界値を計算し、マスキング臨界値を利用して、知覚的に必要なビット数、すなわち、許容ビット数を推定することができる。次に、ビット割当て部５１６は、各サブバンドについて、割当てビット数が許容ビット数を超えないように制限することができる。一方、ビット割当て部５１６は、norm値が大きいサブバンドから順次にビットを割り当て、各サブバンドのnorm値に対して、各サブバンドの知覚的重要度によって、加重値を付与することにより、知覚的に重要なサブバンドに、さらに多くのビットが割り当てられるように調整することができる。このとき、norm符号化部５１４からビット割当て部５１６に提供される量子化されたnorm値は、ＩＴＵ−ＴＧ．７１９と同様に、心理音響加重（psycho-acoustical weighting）及びマスキング効果を考慮するために事前に調整された後、ビット割当てに使用される。

スペクトル符号化部５１７は、正規化されたスペクトルに対して、各サブバンドの割当てビット数を利用して量子化を行い、量子化された結果に対して、無損失符号化することができる。一例として、スペクトル符号化に、ＴＣＱ（trellis coded quantizer）、ＵＳＱ（uniform scalar quantizer）、ＦＰＣ（factorial pulse coder）、ＡＶＱ（analog vector quantizer）、ＰＶＱ（predictive vector quantizer）、あるいはそれらの組み合わせと、各量子化器に対応する無損失符号化器とを使用することができる。また、当該コーデックが搭載される環境、あるいはユーザの必要によって、多様なスペクトル符号化技法を適用することができる。スペクトル符号化部５１７で符号化されたスペクトルに係わる情報は、多重化部５１８を介して、ビットストリームに含まれる。

図６は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。図６に図示されたオーディオ符号化装置６００は、前処理部６１０、周波数ドメイン符号化部６３０、時間ドメイン符号化部６５０及び多重化部６７０を含んでもよい。周波数ドメイン符号化部６３０は、トランジェント検出部６３１、変換部６３３及びスペクトル符号化部６３５を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。

図６において、前処理部６１０は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。前処理部６１０は、信号特性に基づいて、符号化モードを決定することができる。信号特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、または複数のフレームに係わる長区間特性などを利用して、信号特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードまたは時間ドメインモードと決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードまたは周波数ドメインモードと決定することができる。前処理部６１０は、信号特性が、音楽モードまたは周波数ドメインモードに該当する場合には、入力信号を周波数ドメイン符号化部６３０に提供し、信号特性が、音声モードまたは時間ドメインモードに該当する場合、入力信号を時間ドメイン符号化部６５０に提供することができる。

周波数ドメイン符号化部６３０は、前処理部６１０から提供されるオーディオ信号を、変換符号化に基づいて処理することができる。具体的には、トランジェント検出部６３１は、オーディオ信号からトランジェント成分を検出し、現在フレームがトランジェントフレームであるか否かということを判断することができる。変換部６３３は、トランジェント検出部６３１から提供されるフレームタイプ、すなわち、トランジェント情報に基づいて、変換ウィンドウの長さがあるいは形態を決定し、決定された変換ウィンドウに基づいて、オーディオ信号を周波数ドメインに変換することができる。変換技法としては、ＭＤＣＴ、ＦＦＴあるいはＭＬＴを適用することができる。一般的には、トランジェント成分を有するフレームについては、短い長さの変換ウィンドウを適用することができる。スペクトル符号化部６３５は、周波数ドメインに変換されたオーディオスペクトルに対して符号化を行うことができる。スペクトル符号化部６３５については、図７及び図９を参照し、さらに具体的に説明する。

時間ドメイン符号化部６５０は、前処理部６１０から提供されるオーディオ信号に対して、ＣＥＬＰ（code excited linear prediction）符号化を行うことができる。具体的には、ＡＣＥＬＰ（algebraic ＣＥＬＰ）を使用することができるが、それに限定されるものではない。

多重化部６７０は、周波数ドメイン符号化部６３０あるいは時間ドメイン符号化部６５０での符号化結果として生成されるスペクトル成分あるいは信号成分と、多様なインデックスとを多重化してビットストリームを生成し、該ビットストリームは、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。

図７は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。図７に図示された装置は、図６のスペクトル符号化部６３５に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。

図７に図示されたスペクトル符号化装置７００は、エネルギー推定部７１０、エネルギー量子化及び符号化部７２０、ビット割当て部７３０、スペクトル正規化部７４０、スペクトル量子化及び符号化部７５０及びノイズフィリング部７６０を含んでもよい。

図７を参照すれば、エネルギー推定部７１０は、本来のスペクトル係数をサブバンドに分離し、各サブバンド別エネルギー、例えば、norm値を推定することができる。ここで、１つのフレームにおいて、各サブバンドは、同一サイズを有するか、あるいは低域から高域に行くほど、各サブバンドに含まれるスペクトル係数の数を増加させることができる。

エネルギー量子化及び符号化部７２０は、各サブバンドに対して推定されたnorm値を量子化及び符号化することができる。このとき、該norm値は、ベクトル量子化、スカラー量子化、ＴＣＱ、ＬＶＱ（lattice vector quantization）など多様な方式によって量子化される。エネルギー量子化及び符号化部７２０は、さらなる符号化効率を向上させるために、無損失符号化を追加して行うことができる。

ビット割当て部７３０は、サブバンド別に量子化されたnorm値を利用して、フレーム当たり許容ビットを考慮しながら、符号化に必要なビットを割り当てることができる。

スペクトル正規化部７４０は、サブバンド別に量子化されたnorm値を利用して、スペクトルに対する正規化を行うことができる。

スペクトル量子化及び符号化部７５０は、正規化されたスペクトルに対して、サブバンド別に割り当てられたビットに基づいて、量子化及び符号化を行うことができる。

ノイズフィリング部７６０は、スペクトル量子化及び符号化部７５０において、許容ビットの制約として、０に量子化された部分に適切なノイズを追加することができる。

図８は、サブバンド分割の例を示す図面である。図８を参照すれば、入力信号が４８ｋＨｚのサンプリング周波数を使用し、２０ｍｓのフレームサイズを有する場合、毎フレーム当たり処理するサンプルの個数は、９６０個になる。すなわち、入力信号を、ＭＤＣＴを利用して、５０％のオーバーラッピングを適用して変換すれば、９６０個のスペクトル係数が得られる。ここで、オーバーラッピングの比率は、符号化方式によって多様に設定される。周波数ドメインとしては、理論的に２４ｋＨｚまで処理可能であるが、人間の可聴帯域を考慮し、２０ｋＨｚまでの帯域を表現する。低域である０〜３．２ｋＨｚまでは、８個のスペクトル係数（coefficient）を、１つのサブバンドにまとめて使用し、３．２〜６．４ｋＨｚの帯域においては、１６個のスペクトル係数を１つのサブバンドにまとめて使用する。６．４〜１３．６ｋＨｚの帯域においては、２４個のスペクトル係数を１つのサブバンドにまとめて使用し、１３．６〜２０ｋＨｚの帯域においては、３２個のスペクトル係数を１つのサブバンドにまとめて使用する。実際のnorm値を求めて符号化を行う場合、符号化器において定めた帯域までnormを求めて符号化することができる。決定された帯域以後の特定高域では、帯域拡張のような多様な方式に基づいた符号化が可能である。

図９は、一実施形態によるスペクトル量子化装置の構成を示すブロック図である。図９に図示された装置は、量子化器選択部９１０）、ＵＳＱ９３０及びＴＣＱ９５０を含んでもよい。

図９において、量子化器選択部９１０は、入力信号、すなわち、量子化される信号の特性によって、多様な量子化器のうち最も効率的な量子化器を選択することができる。入力信号の特性としては、バンド別ビット割当て情報、バンドのサイズ情報などが使用可能である。選択結果によって、量子化される信号を、ＵＳＱ９３０及びＴＣＱ９５０のうちいずれか一つに提供し、対応する量子化を行うことができる。該入力信号は、正規化されたＭＤＣＴ（modified discrete cosine transform）スペクトルでもある。入力信号の帯域幅は、狭帯域（narrow band）あるいは広帯域（wide band）でもある。入力信号の符号化モードは、正常モード（normal mode）でもある。

図１０は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。図１０に図示された装置は、図７のスペクトル量子化及び符号化部７５０に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。

図１０に図示された装置は、符号化方式選択部１０１０、ゼロ符号化部１０２０、スケーリング部１０３０、ＩＳＣ符号化部１０４０、量子化成分復元部１０５０及び逆スケーリング部１０６０を含んでもよい。ここで、量子化成分復元部１０５０及び逆スケーリング部１０６０は、オプションとして具備される。

図１０において、符号化方式選択部１０１０は、入力信号特性を考慮し、符号化方式を選択することができる。該入力信号特性は、帯域幅と、バンド別に割り当てられたビットとのうち少なくとも一つを含んでもよい。正規化されたスペクトルは、バンド別に選択された符号化方式に基づいて、ゼロ符号化部１０２０あるいはスケーリング部１０３０に提供される。一実施形態によれば、帯域幅が、狭帯域あるいは広帯域である場合、バンドの各サンプルに割り当てられた平均ビット数が、所定値、例えば、０．７５以上である場合、当該バンドは、非常に重要であると判断され、ＵＳＱが使用される一方、全ての他のバンドは、ＴＣＱが使用される。ここで、平均ビット数は、バンド長あるいはバンドサイズを考慮し決定される。選択された符号化方式は、１ビットのフラグを利用して設定される。他の実施形態によれば、帯域幅が超広帯域（super wide band）あるいは全帯域（full band）である場合、ＵＳＱとＴＣＱとを結合した方式を使用することができる。

ゼロ符号化部１０２０は、割り当てられたビットが０であるバンドについて、全てのサンプルを０に符号化することができる。

スケーリング部１０３０は、バンドに割り当てられたビットに基づいて、スペクトルに対するスケーリングを行うことにより、ビット率を調節することができる。このとき、正規化されたスペクトルが使用される。スケーリング部１０３０は、バンドに含まれた各サンプル、すなわち、スペクトル係数に割り当てられた平均ビット数を考慮し、スケーリングを行うことができる。例えば、平均ビット数が多いほど、さらに大きいスケーリングが行われる。

一実施形態によれば、スケーリング部１０３０は、バンド別にビット割当てによって、適切なスケーリング値を決定することができる。

具体的には、まず、バンド長（band length）とビット割当て情報とを利用して、現在バンドのためのパルス個数を推定することができる。ここで、該パルスは、単位パルスを意味する。まず、下記の数式（１）に基づいて、現在バンドで実際に必要なビットｂを算出することができる。

ここで、ｎは、バンドの長さを示し、ｍは、パルス個数（number of pulses）を意味し、ｉは、ＩＳＣ（the important spectral component）を有するノンゼロ位置の数を意味する。

一方、ノンゼロ位置の個数は、例えば、下記数式（２）でのように、確率に基づいて得られる。

そして、ノンゼロ位置のために必要なビット数は、下記数式（３）でのように推定される。

最終的には、パルスの個数は、各バンドに割り当てられたビットに最も近い値を有するｂ値によって選択される。

次に、バンド別に求められたパルス個数推定値と、入力信号の絶対値とを利用して、初期スケーリングファクタを決定することができる。該入力信号は、初期スケーリングファクタによってスケーリングされる。もしスケーリングされた原信号、すなわち、量子化された信号に係わるパルス個数の和が、パルス個数推定値と同じではない場合には、アップデートされたスケーリングファクタを利用して、パルス再分配（redistribution）処理を行うことができる。該パルス再分配処理は、現在バンドについて選択されたパルス個数が、バンド別に求められたパルス個数推定値より少ない場合には、スケーリングファクタを減少させてパルス個数を増加させ、反対に多い場合には、スケーリングファクタを増加させ、パルス個数を減少させる。このとき、原信号との歪曲を最小化させる位置を選択し、事前に決定された値ほど増加させるか、あるいは減少させることができる。

ＴＳＱのための歪曲関数は、正確な距離よりは相対的な大きさを必要とするために、下記の数式（４）でのように、各バンドにおいて、それぞれ量子化及び逆量子化された値の自乗距離の和として得られる。

ここで、ｐ_ｉは、実際値であり、ｑ_ｉは、量子化された値を示す。

一方、ＵＳＱのための歪曲関数は、最善の量子化された値を決定するために、ユークリッド距離を使用することができる。このとき、複雑度を最小化させるために、スケーリングファクタを含む修正された数式を使用し、歪曲関数は、下記数式（５）によって算出される。

もしバンド当たりパルス個数が要求される値とマッチングしない場合、最小メトリックを維持しながら、所定数のパルスを加減する必要がある。それは、１つのパルスを加減する過程を、パルス個数が要求される値に至るまで反復する方法によって遂行される。

１つのパルスを加減するために、最も最適の歪曲値を求めるためのｎ犬の歪曲値を求める必要がある。例えば、歪曲値ｊは、記数式（６）でのように、バンドにおいて、ｊ番目の位置にパルスを追加することに該当する。

前記数式（６）をｎ回遂行することを避けるために、下記数式（７）でのように、同じ偏差（deviation）を使用することができる。

前記数式（７）において、

は、１回だけ計算すればよい。一方、ｎは、バンド長、すなわち、バンドにある係数数を示し、ｐは、原信号、すなわち、量子化器の入力信号を示し、ｑは、量子化された信号を示し、ｇは、スケーリングファクタを示す。最終的には、歪曲ｄを最小化させる位置ｊが選択され、ｑｊがアップデートされる。

一方、ビット率を制御するために、スケーリングされたスペクトル係数を使用し、適切なＩＳＣを選択して符号化することができる。具体的には、量子化するためのスペクトル成分は、各バンドのビット割当てを使用して選択される。このとき、スペクトル成分の分布及び分散による多様な組み合わせに基づいて、スペクトル成分を選択することができる。次に、実際のノンゼロ位置を算出することができる。該ノンゼロ位置は、スケーリング量と再分配動作とを分析して得ることができ、かように選択されたノンゼロ位置を、他の言葉で言い換え、ＩＳＣとすることができる。要約すれば、スケーリングと再分配との過程を経た信号の大きさを分析し、最適スケーリングファクタとＩＳＣとに該当するノンゼロ位置情報を求めることができる。ここで、該ノンゼロ位置情報は、ノンゼロ位置の個数と位置とを意味する。もしスケーリングと再分配との過程を介してパルス個数が調節されない場合、選択されたパルスを、実際のＴＣＱ過程を介して量子化し、その結果を利用して、余剰ビットを調整することができる。該過程は、次のような例が可能である。

ノンゼロ位置数と、バンド別に求められたパルス個数推定値とが同じではなく、ノンゼロ位置の個数が、所定値、例えば、１より大きく、求められた量子化器選択情報がＴＣＱを示す条件である場合、実際のＴＣＱ量子化を介して余剰ビットを調整することができる。具体的には、前記条件に該当する場合、余剰ビットを調整するために、まず、ＴＣＱ量子化過程を経る。事前にバンド別に求められたパルス個数推定値に比べ、実際のＴＣＱ量子化を介して求められた現在バンドのパルス個数がさらに少ない場合には、以前に決定されたスケーリングファクタに、１より大きい値、例えば、１．１を乗じてスケーリングファクタを増加させ、反対の場合には、１より少ない値、例えば、０．９を乗じてスケーリングファクタを減少させる。このような過程を反復し、バンド別に求められたパルス個数推定値と、ＴＣＱ量子化を介して求められた現在バンドのパルス個数とが同じになる場合、実際のＴＣＱ量子化過程で使用されたビットを計算し、余剰ビットをアップデートする。かように求められたノンゼロ位置がＩＳＣに該当する。

ＩＳＣ符号化部１０４０においては、最終的に選択されたＩＳＣの個数情報及びノンゼロ位置情報を符号化することができる。該過程において、符号化効率を高めるために、無損失符号化を適用することもできる。ＩＳＣ符号化部１０４０は、割り当てられたビットが０ではないノンゼロバンドに対して、選択された量子化器を利用して、符号化を行うことができる。具体的には、ＩＳＣ符号化部１０４０は、正規化されたスペクトルに対して、各バンド別にＩＳＣを選択し、各バンド別に選択されたＩＳＣの情報を、数、位置、大きさ及び符号に基づいて、符号化することができる。このとき、ＩＳＣの大きさは、数、位置及び符号とは異なる方式によって符号化することができる。一例を挙げれば、ＩＳＣの大きさは、ＵＳＱ及びＴＣＱのうち一つを利用して量子化して算術符号化する一方、ＩＳＣの数、位置及び符号については、算術符号化を行うことができる。一実施形態によれば、信号特性に基づいて、ＴＣＱ及びＵＳＱのうち一つを選択するが、各バンドに係わる本来のビット割当て情報だけではなく、以前符号化されたバンドからの余剰ビットに対する二次ビット割当て処理を追加して利用して、量子化器選択が行われる第１ジョイント方式が使用される。第１ジョイント方式において、二次ビット割当て処理は、以前符号化されたバンドからの余剰ビットを分配するものであり、２バンドを選択することができる。ここで、該信号特性は、各バンドに割り当てられたビットあるいはバンド長を含んでもよい。例えば、特定バンドが重要な情報を含んでいると判断される場合、ＵＳＱを使用し、そうではない場合、ＴＣＱを使用することができる。もしバンドに含まれた各サンプルに割り当てられた平均ビット数が、臨界値、例えば、０．７５以上である場合、当該バンドは、非常に重要な情報を含んでいると判断することができるので、ＵＳＱが使用される。一方、バンド長が短い低域の場合にも、必要によって、ＵＳＱが使用される。第１ジョイント方式が使用される入力信号の帯域幅は、狭帯域あるいは広帯域でもある。他の実施形態によれば、全ての帯域をＵＳＱを使用して符号化するが、ＬＳＢ（least significant bit）については、ＴＣＱを使用する第２ジョイント方式が使用される。第２ジョイント方式が使用される入力信号の帯域幅は、超広帯域あるいは全帯域でもある。

量子化成分復元部１０５０は、量子化された成分に、ＩＳＣの位置、大きさ及び符号情報を付加し、実際の量子化された成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに符号化されたスペクトル係数には、０が割り当てられる。

逆スケーリング部１０６０は、復元された量子化成分に対して逆スケーリングを行い、正規化された入力スペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。スケーリング部１０３０及び逆スケーリング部１０６０においては、同一スケーリングファクタを使用することができる。

図１１は、一実施形態によるＩＳＣ符号化装置の構成を示すブロック図である。図１１に図示された装置は、ＩＳＣ選択部１１１０及びＩＳＣ情報符号化部１１３０を含んでもよい。図１１の装置は、図１０のＩＳＣ符号化部１０４０に対応するか、あるいは独立した装置で具現される。

図１１において、ＩＳＣ選択部１１１０は、ビット率を調節するために、スケーリングされたスペクトルから所定基準に基づいて、ＩＳＣを選択することができる。ＩＳＣ選択部１１１０は、スケーリングされたスペクトルから、スケーリングされた程度を分析し、実際のノンゼロ位置を求めることができる。ここで、該ＩＳＣは、スケーリング以前の実際のノンゼロスペクトル係数に該当する。ＩＳＣ選択部１１１０は、バンド別に割り当てられたビットに基づいて、スペクトル係数の分布及び分散を考慮し、符号化するスペクトル係数、すなわち、ノンゼロ位置を選択することができる。ＩＳＣ選択のために、ＴＣＱを使用することができる。

ＩＳＣ情報符号化部１１３０は、選択されたＩＳＣに基づいて、ＩＳＣ情報、すなわち、ＩＳＣ個数情報、位置情報、サイズ情報及び符号を復号することができる。

図１２は、一実施形態によるＩＳＣ情報符号化装置の構成を示すブロック図である。図１２に図示された装置は、位置符号化部１２１０、サイズ符号化部１２３０及び符号符号化部１２５０を含んでもよい。

図１２において、位置符号化部１２１０は、ＩＳＣ選択部１１１０（図１１）で選択されたＩＳＣの位置情報、すなわち、ノンゼロスペクトル係数の位置情報を符号化することができる。該位置情報は、選択されたＩＳＣの数及び位置を含んでもよい。位置情報の符号化には、算術符号化（arithmetic coding）が使用される。一方、選択されたＩＳＣを集めて新たなバッファを構成することができる。ＩＳＣ収集のために、ゼロバンドと、選択されなかったスペクトルは、除外される。

サイズ符号化部１２３０は、新たに構成されたＩＳＣのサイズ情報に対して符号化を行うことができる。このとき、ＴＣＱ及びＵＳＱのうち一つを選択して量子化を行い、次に、算術符号化を追加して行うことができる。算術符号化の効率を高めるために、ノンゼロ位置情報、とＩＳＣの数とが使用される。

符号符号化部１２５０は、選択されたＩＳＣの符号情報に対して符号化を行うことができる。符号情報の符号化には、算術符号化が使用される。

図１３は他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。図１３に図示された装置は、図７のスペクトル量子化及び符号化部７５０に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。

図１３に図示された装置は、スケーリング部１３３０、ＩＳＣ符号化部１３４０、量子化成分復元部１３５０及び逆スケーリング部１３６０を含んでもよい。図１０と比較するとき、ゼロ符号化部１０２０及び符号化方式選択部１０１０が省略され、ＩＳＣ符号化部１３４０は、ＴＣＱを使用することができるということを除いては、各構成要素の動作は同一である。

図１４は、他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。図１４に図示された装置は、図７のスペクトル量子化及び符号化部７５０に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。

図１４に図示された装置は、符号化方式選択部１４１０、スケーリング部１４３０、ＩＳＣ符号化部１４４０、量子化成分復元部１４５０及び逆スケーリング部１４６０を含んでもよい。図１０と比較するとき、ゼロ符号化部１０２０が省略されているところを除いては、各構成要素の動作は同一である。

図１５は、一実施形態によるＩＳＣ収集過程及び符号化過程ＩＳＣ収集過程の概念を示す図面であり、まず、ゼロバンド、すなわち、０に量子化されるバンドは除く。次に、ノンゼロバンドに存在するスペクトル成分のうち選択されたＩＳＣを利用して、新たなバッファを構成することができる。新たに構成されたＩＳＣに対して、バンド単位において、ＵＳＣとＴＣＱとを結合した第１ジョイント方式あるいは第２ジョイント方式によって量子化を行い、対応する無損失符号化を行うことができる。

図１６は、ＵＳＱとＴＣＱとを結合した第２ジョイント方式について説明する図面である。図１６を参照すれば、まず、バンド単位において、スペクトルデータに対して、ＵＳＱを利用して量子化することができる。量子化されたスペクトルデータが１より大きい値を有する場合、ゼロあるいは１に該当するＬＳＢを含んでもよい。各バンドについて、ＬＳＢシーケンスを得て、ＬＳＢシーケンスをＴＣＱを利用して量子化することにより、ＬＳＢシーケンスと、可能なトレリス経路とのベストマッチを探すことができる。ＳＮＲ基準によって量子化されたシーケンスに一部エラーが発生することがあるが、代わりに、シーケンスの長さを短くすることができる。

第２ジョイント方式によれば、１つのスキームで２つの量子化器、すなわち、ＵＳＱ及びＴＣＱの利点を活用することができ、ＴＣＱからの経路制限を排除することができる。

図１７は、他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。図１７に図示された装置は、図１０のＩＳＣ符号化部１０４０に対応するか、あるいは独立しても具現される。図１７に図示された装置は、第１量子化部１７１０、第２量子化部１７３０、第１無損失符号化部１７５０、第２無損失符号化部１７６０、第３無損失符号化部１７７０及びビットストリーム生成部１７９０を含んでもよい。該装置に含まれた構成要素は、少なくとも１つのプロセッサによっても一体化される。

図１７を参照すれば、第１量子化部１７１０は、バンド、すなわち、ノンゼロバンドのスペクトルデータを、ＵＳＱを利用して量子化することができる。各バンドの量子化のために割り当てられるビット数は、事前に決定される。このとき、第２量子化部１７３０でのＴＣＱに使用されるビット数を、各ノンゼロバンドから均等に確保し、ノンゼロバンドの残りビット数を利用して、ＵＳＱを遂行することができる。ここで、該スペクトルデータは、normｓに該当し、正規化されたスペクトルデータでもある。

第２量子化部１７３０は、第１量子化部１７１０で量子化されたスペクトルデータのうち下位ビットを、ＴＣＱを利用して量子化することができる。該下位ビットは、ＬＳＢに該当する。このとき、全てのバンドから、下位ビット、すなわち、レジデュアルデータを収集し、ＴＣＱを遂行することができる。該レジデュアルデータは、量子化後、ノンゼロデータを有する全てのバンドに対して収集され、量子化されたスペクトルデータと、量子化されていないスペクトルデータ、すなわち、本来のスペクトルデータとの差を示すことができる。ノンゼロバンドにおいて、一部周波数がゼロに量子化された場合、それらは、レジデュアルデータに含まれない。該レジデュアルデータは、１つのアレイを構成することができる。

第１無損失符号化部１７５０は、バンドに含まれたＩＳＣ情報、例えば、ＩＳＣの数、位置及び符号に対して無損失符号化を行うことができる。このとき、算術符号化が使用される。

第２無損失符号化部１７６０は、第１量子化部１７１０で量子化されたスペクトルデータのうち下位ビットを除いた残りのビットからなるサイズ情報に対して、無損失符号化を行うことができる。このとき、算術符号化が使用される。

第３無損失符号化部１７７０は、第２量子化部１７３０において量子化の結果として得られるＴＣＱ情報、すなわち、トレリス経路データに対して無損失符号化を行うことができる。このとき、算術符号化が使用される。トレリス経路データは、equi-probableシンボルに符号化される。すなわち、トレリス経路データは、二進シーケンスであり、均一な確率モデルを有する算術符号化器を使用して符号化される。

ビットストリーム生成部１７９０は、第１無損失符号化部１７５０、第２無損失符号化部１７６０及び第３無損失符号化部１７７０から提供されるデータを利用して、ビットストリームを生成することができる。

図１８は、図１７に図示された第２量子化部の構成を示すブロック図である。図１８に図示された装置は、下位ビット抽出部１８１０、レジデュアルデータ生成部１８３０及びＴＣＱ１８５０を含んでもよい。該装置に含まれた構成要素は、少なくとも１つのプロセッサによっても一体化される。

図１８を参照すれば、下位ビット抽出部１８１０は、第１量子化部１７１０から提供される量子化されたノンゼロスペクトルデータと、本来のノンゼロスペクトルデータとの差に基づいたレジデュアルデータを抽出することができる。このとき、該レジデュアルデータは、量子化されたノンゼロスペクトルデータの下位ビット、例えば、ＬＳＢに該当する。

レジデュアルデータ生成部１８３０は、全てのノンゼロバンドに存在する量子化されたノンゼロスペクトルデータと、本来のノンゼロスペクトルデータとの差を収集し、レジデュアルアレイを構成することができる。図１９は、該レジデュアルデータを生成する方法について説明している。

ＴＣＱ１８５０は、レジデュアルデータ生成部１８３０から提供されるレジデュアルアレイに対してＴＣＱを遂行することができる。このとき、（７，５）_８コードと知られたコードレート１／２を有するＴＣＱを使用することができる。図２０は、４個のステートを有するＴＣＱの一例を示している。一実施形態によれば、ＴＣＱを利用した量子化は、始めに、２ＸＴＣＱ＿ＡＭＰ個の大きさに対して行われ、このとき、整数ＴＣＱ＿ＡＭＰが１０に定義される場合、符号化されるフレーム当たり２０個の大きさまで許容されるということを意味する。量子化後、経路メトリックがチェックされ、ベストトレリス経路が選択され、トラックバック手続きが行われながら、無損失符号化のために、ベストトレリス経路に係わるデータが別途のアレイに保存される。

図２１は、一実施形態による周波数ドメインオーディオ復号装置の構成を示したブロック図である。図２１に図示された周波数ドメインオーディオ復号装置２１００は、フレームエラー検出部２１１０、周波数ドメイン復号部２１３０、時間ドメイン復号部２１５０及び後処理部２１７０を含んでもよい。周波数ドメイン復号部２１３０は、スペクトル復号部２１３１、メモリ更新部２１３３、逆変換部２１３５及びＯＬＡ（overlap and add）部２１３７を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）によっても具現される。

図２１を参照すれば、フレームエラー検出部２１１０は、受信されたビットストリームから、フレームエラーが発生したか否かということを検出することができる。

周波数ドメイン復号部２１３０は、符号化モードが、音楽モードまたは周波数ドメインモードである場合に動作し、フレームエラーが発生した場合、ＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的な変換復号過程を介して、時間ドメイン信号を生成する。具体的には、スペクトル復号部２１３１は、復号されたパラメータを利用して、スペクトル復号を行い、スペクトル係数を合成することができる。スペクトル復号部２１３１については、図２２及び図２３を参照し、さらに具体的に説明する。

メモリ更新部２１３３は、正常フレームである現在フレームについて合成されたスペクトル係数、復号されたパラメータを利用して得られた情報、現在まで連続したエラーフレームの個数、各フレームの信号特性あるいはフレームタイプ情報などを、次のフレームのために更新することができる。ここで、該信号特性は、トランジェント特性、ステーショナリ特性を含んでもよく、該フレームタイプは、トランジェントフレーム、ステーショナリフレームあるいはハーモニックフレームを含んでもよい。

逆変換部２１３５は、合成されたスペクトル係数に対して、時間・周波数逆変換を行い、時間ドメイン信号を生成することができる。

ＯＬＡ部２１３７は、以前フレームの時間ドメイン信号を利用して、ＯＬＡ処理を行い、その結果、現在フレームに係わる最終時間ドメイン信号を生成し、後処理部２１７０に提供することができる。

時間ドメイン復号部２１５０は、符号化モードが、音声モードまたは時間ドメインモードである場合に動作し、フレームエラーが発生した場合、ＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的なＣＥＬＰ復号過程を介して、時間ドメイン信号を生成する。

後処理部２１７０は、周波数ドメイン復号部２１３０あるいは時間ドメイン復号部２１５０から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部２１７０は、出力信号として、復元されたオーディオ信号を提供する。

図２２は、一実施形態によるスペクトル復号装置の構成を示すブロック図である。図２２に図示された装置は、図２１のスペクトル復号部２１３１に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。

図２２に図示されたスペクトル復号装置２２００は、エネルギー復号及び逆量子化部２２１０、ビット割当て部２２３０、スペクトル復号及び逆量子化部２２５０、ノイズフィリング部２２７０及びスペクトルシェーピング部２２９０を含んでもよい。ここで、ノイズフィリング部２２７０は、スペクトルシェーピング部２２９０の後端に位置することもできる。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１つのプロセッサ（図示せず）によっても具現される。

図２２を参照すれば、エネルギー復号及び逆量子化部２２１０は、符号化過程において、無損失符号化が行われてパラメータ、例えば、norm値のようなエネルギーに対して無損失復号を行い、復号されたnorm値に対して逆量子化を行うことができる。符号化過程において、norm値の量子化された方式に対応する方式を使用して、逆量子化を行うことができる。

ビット割当て部２２３０は、量子化されたnorm値、あるいは逆量子化されたnorm値に基づいて、サブバンド別に必要とするビット数を割り当てることができる。その場合、サブバンド単位に割り当てられたビット数は、符号化過程で割り当てられたビット数と同一である。

スペクトル復号及び逆量子化部２２５０は、符号化されたスペクトル係数に対して、サブバンド別に割り当てられたビット数を使用して無損失復号を行い、復号されたスペクトル係数に対して、逆量子化過程を遂行し、正規化されたスペクトル係数を生成することができる。

ノイズフィリング部２２７０は、正規化されたスペクトル係数のうち、サブバンド別にノイズフィリングを必要とする部分に対してノイズを充填することができる。

スペクトルシェーピング部２２９０は、逆量子化されたnorm値を利用して、正規化されたスペクトル係数をシェーピングすることができる。スペクトルシェーピング過程を介して、最終的に復号されたスペクトル係数が得られる。

図２３は、一実施形態によるスペクトル逆量子化装置の構成を示すブロック図である。図２３に図示された装置は、逆量子化器選択部２３１０、ＵＳＱ２３３０及びＴＣＱ２３５０を含んでもよい。

図２３において、逆量子化器選択部２３１０は、入力信号、すなわち、逆量子化される信号の特性によって、多様な逆量子化器のうち最も効率的な逆量子化器を選択することができる。入力信号の特性としては、バンド別ビット割当て情報、バンドのサイズ情報などが使用可能である。選択結果によって、逆量子化される信号をＵＳＱ２３３０及びＴＣＱ２３５０のうちいずれか一つに提供し、対応する逆量子化を行うことができる。図２３は、第１ジョイント方式に対応する。

図２４は、一実施形態によるスペクトル復号装置の構成を示すブロック図である。図２４に図示された装置は、図２２のスペクトル復号及び逆量子化部２２５０に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。

図２４に図示された装置は、復号方式選択部２４１０、ゼロ復号部２４３０、ＩＳＣ復号部２４５０、量子化成分復元部２４７０及び逆スケーリング部２４９０を含んでもよい。ここで、量子化成分復元部２４７０及び逆スケーリング部２４９０は、オプションとして具備される。

図２４において、復号方式選択部２４１０は、バンド別に割り当てられたビットに基づいて、復号方式を選択することができる。正規化されたスペクトルは、バンド別に選択された復号方式に基づいて、ゼロ復号部２４３０あるいはＩＳＣ復号部２４５０に提供される。

ゼロ復号部２４３０は、割り当てられたビットが０であるバンドについて、全てのサンプルを０に復号することができる。

ＩＳＣ復号部２４５０は、割り当てられたビットが０ではないバンドに対して選択された逆量子化器を利用して、復号を行うことができる。ＩＳＣ復号部２４５０は、符号化されたスペクトルの各バンド別に重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて、復号することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号することができる。一例を挙げれば、重要周波数成分の大きさは、算術復号し、ＵＳＱ及びＴＣＱのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して、算術復号を行うことができる。逆量子化器選択は、図１０に図示されたＩＳＣ符号化部１０４０と同一結果を利用して行うことができる。ＩＳＣ復号部２４５０は、割り当てられたビットが０ではないバンドについて、第１ジョイント方式あるいは第２ジョイント方式によって対応して逆量子化を行うことができる。

量子化成分復元部２４７０は、復元されたＩＳＣの位置、大きさ及び符号情報に基づいて、実際の量子化成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに復号されたスペクトル係数である量子化されていない部分には、０が割り当てられる。

さらに、逆スケーリング部（図示せず）を含んで復元された量子化成分に対して、逆スケーリングを行い、正規化されたスペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。

図２５は、一実施形態によるＩＳＣ復号装置の構成を示すブロック図である。図２５の装置は、パルス数推定部２５１０及びＩＳＣ情報復号部２５３０を含んでもよい。図２５の装置は、図２４のＩＳＣ復号部２４５０に対応するか、あるいは独立した装置で具現される。

図２５において、パルス数推定部２５１０は、バンドサイズとビット割当て情報とを利用して、現在バンドにおいて必要なパルス個数推定値を決定することができる。すなわち、現在フレームのビット割当て情報がエンコーダと同一であるので、同一ビット割当て情報を利用して、同一パルス個数推定値を導き出して復号を進める。

ＩＳＣ情報復号部２５３０は、推定されたパルス数に基づいて、ＩＳＣ情報、すなわち、ＩＳＣ個数情報、位置情報、サイズ情報及び符号を復号することができる。

図２６は、一実施形態によるＩＳＣ情報復号装置の構成を示すブロック図である。図２６に図示された装置は、位置復号部２６１０、サイズ復号部２６３０及び符号復号部２６５０を含んでもよい。

図２６において、位置復号部２６１０は、ビットストリームに含まれた位置情報と係わるインデックスを復号し、ＩＳＣの数及び位置を復元することができる。該位置情報の復号には、算術復号が使用される。サイズ復号部２６３０は、ビットストリームに含まれたサイズ情報と係わるインデックスに対して算術復号を行い、復号されたインデックスに対して、第１ジョイント方式あるいは第２ジョイント方式のうち一つに対応して逆量子化を行うことができる。算術復号の効率を高めるために、ノンゼロ位置情報と、ＩＳＣの数とが使用される。符号復号部２５５０は、ビットストリームに含まれた符号情報と係わるインデックスを復号し、ＩＳＣの符号を復元することができる。符号情報の復号には、算術復号が使用される。一実施形態によれば、ノンゼロバンドが必要とするパルス数を推定し、位置情報、サイズ情報あるいは符号情報復号に使用することができる。

図２７は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。図２７に図示された装置は、図２２のスペクトル復号及び逆量子化部２２５０に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。

図２７に図示された装置は、ＩＳＣ復号部２７５０、量子化成分復元部２７７０及び逆スケーリング部２７９０を含んでもよい。図２４と比較するとき、復号方式選択部２４１０とゼロ復号部２４３０とが省略されており、ＩＳＣ復号部２４５０がＴＣＱを使用するということを除いては、各構成要素の動作は、同一である。

図２８は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。図２８に図示された装置は、図２２のスペクトル復号及び逆量子化部２２５０に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。

図２８に図示された装置は、復号方式選択部２８１０、ＩＳＣ復号部２８５０、量子化成分復元部２８７０及び逆スケーリング部２８９０を含んでもよい。図２４と比較するとき、ゼロ復号部２４３０が省略されているところを除いては、各構成要素の動作は、同一である。

図２９は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。図２９に図示された装置は、図２４のＩＳＣ復号部２４５０に対応するか、あるいは独立しても具現される。図２９に図示された装置は、第１デコーティング部２９１０、第２デコーディング部２９３０及び第３デコーディング部２９５０と、スペクトル成分復元部２９７０とを含んでもよい。

図２９において、第１デコーディング部２９１０は、ビットストリームから、バンドのＩＳＣ情報を抽出し、ＩＳＣの数、位置及び符号をデコーディングすることができる。デコーディングされたＩＳＣ情報は、スペクトル成分復元部２９７０に提供され、ＩＳＣの位置情報は、第２デコーディング部２９３０に提供される。

第２デコーディング部２９３０は、第１デコーディング部２９１０から提供されるデコーディングされたＩＳＣの位置情報、及び各バンドに割り当てられたビット数に基づいて、スペクトルデータの下位ビットを除いた残りのビットを、バンド別にデコーディングすることができる。このとき、各バンドに割り当てられたビット数と、実際に使用されたビット数との差に該当する余剰ビットを累積し、次のバンドに使用される。

第３デコーディング部２９５０は、ビットストリームから、ＴＣＱ経路情報を抽出してデコーディングすることにより、下位ビットシーケンスに該当するＴＣＱレジデュアルアレイを復元することができる。

スペクトル成分復元部２９７０は、第１デコーティング部２９１０、第２デコーディング部２９３０及び第３デコーディング部２９５０から提供されるデータに基づいて、スペクトル成分を復元することができる。

第１デコーティング部２９１０、第２デコーディング部２９３０及び第３デコーディング部２９５０においては、無損失復号方式で算術復号を使用することができる。

図３０は、図２９に図示された第３デコーディング部の構成を示すブロック図である。図３０に図示された第３デコーディング部は、ＴＣＱ経路復号部３０１０とＴＣＱレジデュアルデータ復元部３０３０とを含んでもよい。

図３０において、ＴＣＱ経路復号部３０１０は、ビットストリームから得られるＴＣＱ経路情報を復号することができる。

ＴＣＱレジデュアルデータ復元部３０３０は、復号されたＴＣＱ経路情報に基づいて、ＴＣＱレジデュアルデータを復元することができる。具体的には、復号されたトレリスステートによって、レジデュアルデータ、すなわち、レジデュアルアレイを復元することができる。各経路ビットから、レジデュアルアレイにいる２個のＬＳＢビットが生成される。それをpseudo codeで示せば、次の通りである。

for(state = 0, i = 0; i < bcount; i++)
{
residualbuffer[2*i] = dec_LSB[state][dpath[i]] & 0x1;
residualbuffer [2*i + 1] = dec_LSB[state][dpath[i]] & 0x2;
state = trellis_nextstate[state][dpath[i]];
}
すなわち、ステート０から始めて、復号されたｄｐａｔｈビットを使用して、トレリスに沿って動き、現在トレリスエッジに該当する２個のビットを抽出することができる。

図２９及び図３０に図示された構成は、図１７及び図１８の構成と互いに可逆的な関係にある。

図３１は、本発明の一実施形態による符号化モジュールを含むマルチメディア機器の構成を示したブロック図である。図３１に図示されたマルチメディア機器３１００は、通信部３１１０と、符号化モジュール３１３０とを含んでもよい。また、符号化の結果として得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部３１５０をさらに含んでもよい。また、マルチメディア機器３１００は、マイクロフォン３１７０をさらに含んでもよい。すなわち、保存部３１５０とマイクロフォン３１７０は、オプションとして具備される。一方、図３１に図示されたマルチメディア機器３１００は、任意の復号モジュール（図示せず）、例えば、一般的な復号機能を遂行する復号モジュール、あるいは本発明の一実施形態による復号モジュールをさらに含んでもよい。ここで、符号化モジュール３１３０は、マルチメディア機器３１００に具備される他の構成要素（図示せず）と共に一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。

図３１を参照すれば、通信部３１１０は、外部から提供されるオーディオと、符号化されたビットストリームとのうち少なくとも一つを受信するか、あるいは復元されたオーディオと、符号化モジュール３１３０の符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。

通信部３１１０は、無線インターネット、無線イントラネット、無線電話網、無線ＬＡＮ（local area network）、Ｗｉ−Ｆｉ（wireless fidelity）、ＷＦＤ（Ｗｉ−Ｆｉ direct）、３Ｇ（３rd generation）、４Ｇ（４th generation）、ブルートゥース（登録商標（Bluetooth））、赤外線通信（ＩｒＤＡ：infrared data association）、ＲＦＩＤ（radio frequency identification）、ＵＷＢ（ultra wideband）、ジグビー（Zigbee）、ＮＦＣ（near field communication）のような無線ネットワーク；または有線電話網、有線インターネットのような有線ネットワークを介して，外部のマルチメディア機器あるいはサーバとデータを送受信することができるように構成される。

符号化モジュール３１３０は、一実施形態によれば、現在バンドのスペクトルデータを、第１量子化方式によって量子化し、スペクトルデータ、及び量子化されたスペクトルデータを利用して、現在バンドの下位ビットを生成し、現在バンドの下位ビットが含まれた下位ビットシーケンスを、第２量子化方式によって量子化し、量子化されたスペクトルデータのうちＮビット（ここで、Ｎは１以上）を除いた上位ビット、及び量子化された下位ビットシーケンスに基づいて、ビットストリームを生成することができる。

保存部３１５０は、マルチメディア機器３１００の運用に必要な多様なプログラムを保存することができる。

マイクロフォン３１７０は、ユーザあるいは外部のオーディオ信号を符号化モジュール３１３０に提供することができる。

図３２は、本発明の一実施形態による復号モジュールを含むマルチメディア機器の構成を示したブロック図である。図３２に図示されたマルチメディア機器３２００は、通信部３２１０と復号モジュール３２３０とを含んでもよい。また、復号の結果として得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部３２５０をさらに含んでもよい。また、マルチメディア機器３２００は、スピーカ３２７０をさらに含んでもよい。すなわち、保存部２９５０とスピーカ３２７０は、オプションとして具備される。一方、図３２に図示されたマルチメディア機器３２００は、任意の符号化モジュール（図示せず）、例えば、一般的な符号化機能を遂行する符号化モジュール、あるいは本発明の一実施形態による符号化モジュールをさらに含んでもよい。ここで、復号モジュール３２３０は、マルチメディア機器３２００に具備される他の構成要素（図示せず）と共に一体化され、少なくとも１つの以上のプロセッサ（図示せず）によっても具現される。

図３２を参照すれば、通信部３２１０は、外部から提供される符号化されたビットストリームとオーディオ信号とのうち少なくとも一つを受信するか、あるいは復号モジュール３２３０の復号の結果として得られる復元されたオーディオ信号と、符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。一方、通信部３２１０は、図３１の通信部３１１０と実質的に類似して具現される。

復号モジュール３２３０は、一実施形態によれば、通信部３２１０を介して提供されるビットストリームを受信し、ＴＣＱ経路情報を抽出し、下位ビットシーケンスをデコーディングし、ＩＳＣ情報を抽出し、ＩＳＣの数、位置及び符号をデコーディングする一方、下位ビットを除いた残りのビットを抽出してデコーディングし、デコーディングされた下位ビットシーケンスと、デコーディングされた下位ビットを除いた残りのビットとに基づいて、スペクトル成分を復元することができる。

保存部３２５０は、復号モジュール３２３０で生成される復元されたオーディオ信号を保存することができる。一方、保存部３２５０は、マルチメディア機器３２００の運用に必要な多様なプログラムを保存することができる。

スピーカ３２７０は、復号モジュール３２３０で生成される復元されたオーディオ信号を外部に出力することができる。

図３３は、本発明の一実施形態による符号化モジュールと復号モジュールとを含むマルチメディア機器の構成を示したブロック図である。

図３３に図示されたマルチメディア機器３３００は、通信部３３１０、符号化モジュール３３２０と復号モジュール３３３０とを含んでもよい。また、符号化の結果として得られるオーディオビットストリーム、あるいは復号の結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリームあるいは復元されたオーディオ信号を保存する保存部３３４０をさらに含んでもよい。また、マルチメディア機器３３００は、マイクロフォン３３５０あるいはスピーカ３３６０をさらに含んでもよい。ここで、符号化モジュール３３２０と復号モジュール３３３０は、マルチメディア機器３３００に具備される他の構成要素（図示せず）と共に一体化され、少なくとも１以上のプロセッサ（図示せず）によっても具現される。

図３３に図示された各構成要素は、図３１に図示されたマルチメディア機器３１００の構成要素、あるいは図３２に図示されたマルチメディア機器３２００の構成要素と重複するので、その詳細な説明を省略する。

図３１ないし図３３に図示されたマルチメディア機器３１００，３２００，３３００には、電話、モバイルフォンなどを含む音声通信専用端末；ＴＶ（television）、ＭＰ３プレーヤなどを含む放送専用装置あるいは音楽専用装置；音声通信専用端末と、放送専用装置あるいは音楽専用装置との融合端末装置；テレカンファレンシングあるいはインタラクションシステムのユーザ端末が含まれてもよいが、それらに限定されるものではない。また、マルチメディア機器３１００，３２００，３３００は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器としても使用される。

一方、マルチメディア機器３１００，３２００，３３００が、例えば、モバイルフォンである場合、図示されていないキーパッドのようなユーザ入力部、ユーザインターフェース、あるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部、モバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とする機能を遂行する少なくとも１以上の構成要素とをさらに含んでもよい。

一方、マルチメディア機器３１００，３２００，３３００が、例えば、ＴＶである場合、図示されていないキーパッドのようなユーザ入力部、受信された放送情報をディスプレイするディスプレイ部、ＴＶの全般的な機能を制御するプロセッサをさらに含んでもよい。また、該ＴＶは、ＴＶで必要とする機能を遂行する少なくとも１以上の構成要素をさらに含んでもよい。

図３４は、一実施形態によるスペクトル符号化方法の動作を示したフローチャートである。図３４を参照すれば、３４１０段階においては、現在バンドのスペクトルデータを、第１量子化方式によって量子化することができる。ここで、該第１量子化方式は、スカラー量子化でもあり、均一な量子化間隔を使用するＵＳＱを使用することができる。

３４３０段階においては、スペクトルデータ、及び量子化されたスペクトルデータを利用して、現在バンドの下位ビットを生成することができる。ここで、該下位ビットは、スペクトルデータと、量子化されたスペクトルデータとの差に基づいて得られる。第２量子化方式は、トレリス符号量子化（ＴＣＱ）に該当する。

３４５０段階においては、現在バンドの下位ビットが含まれた下位ビットシーケンスを、第２量子化方式によって量子化することができる。

３４７０段階においては、量子化されたスペクトルデータのうちＮビット（ここで、Ｎは１以上）を除いた上位ビット、及び量子化された下位ビットシーケンスに基づいて、ビットストリームを生成することができる。

一方、図３４に図示されたスペクトル符号化方法と係わるスペクトルデータの帯域幅は、超広帯域あるいは全帯域でもある。また、スペクトルデータは、入力オーディオ信号に対して、ＭＤＣＴ（modified discrete cosine transform）及び正規化を行って得られることができ、正常モードで符号化される。

図３４の各段階については、必要によって、前述の符号化装置の各構成要素の動作がさらに付加されもする。

図３５は、一実施形態によるスペクトル復号方法の動作を示したフローチャートである。図３５を参照すれば、３５１０段階においては、ビットストリームからＩＳＣ情報を抽出し、ＩＳＣの数、位置及び符号をデコーディングする一方、下位ビットを除いた残りのビットを抽出してデコーディングすることができる。

３５３０段階においては、ビットストリームからＴＣＱ経路情報を抽出し、下位ビットシーケンスをデコーディングすることができる。

３５５０段階においては、３５１０段階でデコーディングされた下位ビットを除いた残りのビットと、３５３０段階でデコーディングされた下位ビットシーケンスとに基づいて、スペクトル成分を復元することができる。

図３５の各段階については、必要によって、前述の復号装置の各構成要素の動作がさらに付加されもする。

図３６は、一実施形態によるビット割当て装置の構成を示すブロック図である。図３６に図示された装置は、図５のビット割当て部５１６、図７のビット割当て部７３０、あるいは図２２のビット割当て部２２３０に対応するか、あるいは独立しても具現される。

図３６に図示された装置は、ビット推定部３６１０、再分配部３６３０及び調整部３６５０を含んでもよく、少なくとも１つのプロセッサによっても一体化される。スペクトル量子化のためのビット割当てのために、フラクショナブルビット割当て（fractional bit allocation）が使用される。それによれば、３ビットのフラクショナブル部分を有するビット割当てが可能になるので、さらに精密なビット割当てが可能になる。ここで、該符号化モードは、一般モード（generic mode）に該当する。

図３６において、割り当てビット推定部３６１０は、バンドの平均エネルギー、例えば、normｓに基づいて、割り当てビットを推定することができる。

バンドの初期ビットＲ０（ｐ，０）は、下記数式（８）によって推定される。

ここで、Ｌ_Ｍ（ｐ）は、バンドｐにあるサンプル当たり１ビットから得られるビット数であり、１０個のサンプルが存在する場合、１０ビットを示す。ＴＢは、許容可能な全体ビット数（total bit budget）を示す。

は、バンドｉの量子化されたnormsを示す。

再分配部３６３０は、バンドの初期ビットを、所定基準によって再分配することができる。

１段階反復処理を介して、フレームに含まれた全てのバンドの初期ビットの和が、全体ビット数ＴＢと同じになるまで、ノンゼロビットを有するバンドに、割り当てビットを再分配することができる。それは、下記数式（９）でのように遂行される。

ここで、ＮＳＬ_０（ｋ−１）は、ｋ番目反復処理の後、割り当てビットを有するバンドに存在するスペクトルラインの数を示す。

一方、過度に少ないビットが割り当てられた場合、ＳＮＲ（signal-to-noise ratio）の減少によって、品質低下をもたらすことにもなる。それを解決するために、バンドの割り当てビットに、最小ビット制限を適用することができる。第１最小ビット数は、バンドインデックス及びビットレートによって、整数値からなる。一例を挙げれば、バンドｐの第１最小ビット数ＬＮＢ（ｐ）は、バンドｐが０ないし１５である場合、３と決定し、バンドｐが１６ないし２３である、場合４と決定し、バンドｐが２４ないしＮ_{ｂａｎｄｓ−１}である場合、５と決定することができる。

次に、２段階反復処理を介して、割り当てビットの再分配が行われ、Ｌ_Ｍ（ｐ）より多い割り当てビットを有するバンドに、ビットを割り当てることができる。ここで、Ｌ_Ｍ（ｐ）は、各バンドの第２最小ビット数に該当する。

まず、割り当てビットが、１段階反復処理結果と、第１最小ビット数及び第２最小ビット数とに基づいて算出される。一例を挙げれば、割り当てビットＲ_１（ｐ，０）は、下記数式（１０）でのように求められる。

ここで、Ｒ（ｐ）は、１段階反復処理の後、バンドｐの割り当てビットを示し、ｂｓは、２４ｋｂｐｓの場合、２を示し、３２ｋｂｐｓの場合、３を示すが、それらに限定されるものではない。

一方、許容可能な全体ビット数ＴＢは、Ｌ_Ｍ（ｐ）ビットを有するバンドのビット数を減算することによって更新され、バンドインデックスｐは、Ｌ_Ｍ（ｐ）ビットより多いビットを有するバンドインデックスを示すｐ’に更新される。Ｎ_{ｂａｎｄｓ}は、ｐ’に対するバンド数であるＮ’_{ｂａｎｄｓ}に更新される。

次に、更新されたＴＢ、すなわち、ＴＢ’がＬ_Ｍ（ｐ’）ビットより多いビット数を有するバンドのビット数と同じになるまで、２段階反復処理が行われる。一例を挙げれば、下記数式（１１）でのように遂行される。

ここで、ＮＳＬ_１（ｋ−１）は、ｋ番目反復処理の後、Ｌ_Ｍ（ｐ’）ビットより多いビット数を有するバンドに存在するスペクトルラインの数を示す。

第２反復処理の間、Ｌ_Ｍ（ｐ’）ビットより多いビット数を有するバンドがない場合、ＴＢ’が０になるまでノンゼロ割当てビットを有するバンドの割り当てビットが、最上位バンドから０に設定される。

次に、超えて割り当てられたビット、及び少なく割り当てられたビットに対する最終再分配処理が行われる。このとき、所定基準値に基づいて、最終再分配処理が行われる。

調整部３６５０は、割り当てビットの小数点部分（fractional part）が所定ビットになるように調整することができる。一例を挙げれば、小数点以下３ビットに調整することができ、それは下記数式（１２）を介して行われる。

図３７は、一実施形態によるモード決定装置の構成を示したブロック図である。図３７に図示された装置は、音声／音楽分類部３７１０と、訂正部３７３０とを含んでもよい。図３７に図示された装置は、図２Ａのモード決定部２１３、図３Ａのモード決定部３１４、あるいは図４Ａのモード決定部４１３に含まれるか、図２Ａの時間ドメイン符号化部２１５、図３Ａの時間ドメイン励起符号化部３１６、あるいは図４Ａの時間ドメイン励起符号化部４１７に追加して含まれるか、あるいは独立しても具現される。ここで、各構成要素は、別途のハードウェアによって具現されなければならない必要がある場合を除いては、１つのプロセッサによっても一体化される。一方、オーディオ信号は、音楽信号あるいは音声信号、あるいは音楽と音声との混合信号を意味する。

図３７を参照すれば、音声／音楽分類部１１０は、多様な初期分類パラメータに基づいて、オーディオ信号が音楽信号に該当するか、あるいは音声信号に該当するかということを分類することができる。オーディオ信号分類過程は、少なくとも１以上の段階を含んでもよい。

一実施形態によれば、現在フレームと、複数個の以前フレームとの信号特性に基づいて、オーディオ信号を、音声信号あるいは音楽信号に分類することができる。該信号特性は、短区間特性と長区間特性とのうち少なくとも一つを含んでもよい。また、該信号特性は、時間ドメイン特性と周波数ドメイン特性とのうち少なくとも一つを含んでもよい。ここで、音声信号に分類されれば、ＣＥＬＰ（code excited linear prediction）タイプコーダを利用して符号化される。一方、音楽信号に分類されれば、トランスフォームコーダを利用して符号化される。ここで、該トランスフォームコーダの一例としては、ＭＤＣＴ（modified discrete cosine transform）コーダを有することができるが、それに限定されるものではない。

他の実施形態によれば、オーディオ信号分類過程は、オーディオ信号が音声特性を有するか否かということによって、オーディオ信号を、音声信号と、一般的なオーディオ信号（generic audio signal）、すなわち、音楽信号とに分類する第１段階と、一般オーディオ信号が、ＧＳＣ（generic signal audio coder）に適するか否かということを判断するための第２段階と、を含んでもよい。第１段階の分類結果と、第２段階の分類結果とを組み合わせ、オーディオ信号が、音声信号に分類されるか、あるいは音楽信号に分類されるかということを決定することができる。音声信号に分類されれば、ＣＥＬＰタイプコーダによって符号化される。ＣＥＬＰタイプコーダは、ビット率あるいは信号特性によって、無声音符号化（ＵＣ：unvoiced coding）モード、有声音符号化（ＶＣ：voiced coding）モード、トランジェント符号化（ＴＣ：transition coding）モード、一般符号化（ＧＣ：generic coding）モードのうち複数個を含んでもよい。一方、ＧＳＣ（generic signal audio coding）モードは、別途のコーダによって具現されるか、あるいはＣＥＬＰタイプコーダの１つのモードに含まれる。音楽信号に分類されれば、トランスフォームコーダあるいはＣＥＬＰ／トランスフォームハイブリッドコーダのうち一つを利用して符号化される。細部的には、トランスフォームコーダは、音楽信号に適用され、ＣＥＬＰ／トランスフォームハイブリッドコーダは、音声信号ではない非音楽（non-music）信号、あるいは音楽と音声とが混合した信号（mixed signal）に適用される。一実施形態によれば、帯域幅によって、ＣＥＬＰタイプコーダ、ＣＥＬＰ／トランスフォームハイブリッドコーダ及びトランスフォームコーダがいずれも使用されるか、あるいはＣＥＬＰタイプコーダ及びトランスフォームコーダが使用される。例えば、狭帯域（ＮＢ）である場合、ＣＥＬＰタイプコーダ及びトランスフォームコーダが使用され、広帯域（ＷＢ）、超広帯域（ＳＷＢ）、全帯域（ＦＢ）である場合、ＣＥＬＰタイプコーダ、ＣＥＬＰ／トランスフォームハイブリッドコーダ及びトランスフォームコーダが使用される。ＣＥＬＰ／トランスフォームハイブリッドコーダは、時間ドメインで動作するＬＰ基盤コーダと、トランスフォームドメインコーダとを結合したものであり、ＧＳＣ（generic signal audio coder）ともいう。

第１段階の信号分類は、ＧＭＭ（Gaussian mixture model）に基づく。ＧＭＭのために多様な信号特性が使用される。該信号特性の例としては、オープンループピッチ、正規化された相関度、スペクトルエンベロープ、トーナル安定度、信号のノンステーショナリティ、ＬＰレジデュアルエラー、スペクトル差値、スペクトルステーショナリティのような特性を有することができるが、それらに限定されるものではない。第２段階の信号分類のために使用される信号特性の例としては、スペクトルエネルギー変動特性、ＬＰ分析レジデュアルエネルギーのチルト特性、高域スペクトルピーキネス特性、相関度特性、ボイシング特性、トーナル特性などを挙げることができるが、それらに限定されるものではない。第１段階で使用される特性は、ＣＥＬＰタイプコーダによって符号化することが適するか否かということを判断するために、音声特性であるか、あるいは非音性特性であるかということを判断するためのものであり、第２段階で使用される特性は、ＧＳＣによって符号化することが適するか否かということを判断するために、音楽特性であるか、あるいは非音楽特性であるかということを判断するためのものでもある。例えば、第１段階において、音楽信号に分類された１セットのフレームは、第２段階において音声信号に転換され、ＣＥＬＰモードのうち一つによって符号化される。すなわち、大きいピッチ周期及び高い安定度を有しながら、相関度が高い信号、あるいはアタック信号である場合、第２段階において、音楽信号から音声信号に転換される。かような信号分類結果によって、符号化モードが変更される。

訂正部３７３０は、音声／音楽分類部３７１０の分類結果を、少なくとも１つの修正パラメータに基づいて修正することができる。訂正部３７３０は、コンテクストに基づいて、音声／音楽分類部３７１０の分類結果を修正することができる。例えば、現在フレームが、音声信号に分類された場合、音楽信号に修正されるか、あるいは音声信号に維持され、現在フレームが音楽信号に分類された場合、音声信号に修正されるか、あるいは音楽信号に維持される。現在フレームの分類結果にエラーが存在するか否かということを判断するために、現在フレームを含む複数個のフレームの特性が使用される。例えば、８個のフレームが使用されるが、それに限定されるものではない。

修正パラメータの例としては、トーナリティ、線形予測エラー、ボイシング、相関度のような特性のうち少なくとも一つを組み合わせて使用される。ここで、トーナリティは、１〜２ｋＨｚ領域のトーナリティｔｏｎ_２と、２〜４ｋＨｚ領域のトーナリティｔｏｎ_３とを含んでもよく、それぞれ下記数式（１３）及び（１４）によって定義される。

ここで、上添字（superscript）［−ｉ］は、以前フレームを示す。例えば、tonality２^［−１］は、１フレーム以前フレームの１〜２ｋＨｚ領域のトーナリティを示す。

一方、低域の長区間トーナリティｔｏｎ_ＬＴは、ｔｏｎ_ＬＴ＝０．２＊ｌｏｇ_１０［ｌｔ＿tonality］のように定義される。ここで、ｌｔ＿tonalityは、全帯域の長区間トナリティーを示すことができる。

一方、ｎフレームにおいて、１〜２ｋＨｚ領域のトーナリティｔｏｎ_２と、２〜４ｋＨｚ領域のトーナリティｔｏｎ_３との差ｄ_ｆｔは、ｄ_ｆｔ＝０．２＊｛ｌｏｇ_１０（tonality２（ｎ））−ｌｏｇ_１０（tonality３（ｎ））｝のように定義される。

次に、線形予測エラーＬＰ_ｅｒｒは、下記数式（１５）によって定義される。

ここで、ＦＶ_ｓ（９）は、ＦＶ_ｓ（ｉ）＝ｓｆａ_ｉＦＶ_ｉ＋ｓｆｂ_ｉ（ここで、ｉ＝０，…，１１）によって定義され、音声／音楽分類部３７１０で使用される特徴パラメータのうち、数式（１６）によって定義されるＬＰレジデュアルログ・エネルギー比率特徴パラメータをスケーリングした値に該当するのである。ここで、ｓｆａ_ｉ、ｓｆｂ_ｉは、特徴パラメータの種類及び帯域幅によって異なり、各特徴パラメータを［０；１］範囲に近似化させるために使用される。

ここで、Ｅ（１）は、最初のＬＰ係数のエネルギー、Ｅ（１３）は、１３番目ＬＰ係数のエネルギーを示す。

次に、音声／音楽分類部３７１０で使用される特徴パラメータのうち、数式（１７）によって定義される正規化された相関度特徴あるいはボイシング特徴ＦＶ_１を、ＦＶ_ｓ（ｉ）＝ｓｆａ_ｉＦＶ_ｉ＋ｓｆｂ_ｉ（ここで、ｉ＝０，…，１１）に基づいてスケーリングした値ＦＶ_ｓ（１）と、下記数式（１８）によって定義される相関度マップ特徴ＦＶ（７）を、ＦＶ_ｓ（ｉ）＝ｓｆａ_ｉＦＶｉ＋ｓｆｂ_ｉ（ここで、ｉ＝０，…，１１）に基づいてスケーリングした値ＦＶ_ｓ（７）との差ｄ_ｖｃｏｒは、ｄ_ｖｃｏｒ＝ｍａｘ（ＦＶ_ｓ（１）−ＦＶ_ｓ（７），０）と定義される。

ここで、

は最初または２番目のハーフフレームでの正規化された相関度を示す。

ここで、Ｍ_ｃｏｒは、フレームの相関度マップを示す。

前記複数個の特徴パラメータを組み合わせるか、あるいは単一特徴パラメータを利用して、次の条件１ないし条件４のうち少なくとも１以上を含む修正パラメータを生成することができる。ここで、条件１と条件２は、音声分類と係わる状態マシーンで使用される条件を意味し、条件３と条件４は、音楽分類と係わる状態マシーンで使用される条件を意味する。具体的には、条件１は、音声状態ＳＰＥＥＣＨ＿ＳＴＡＴＥを、０から１に変更することができ、条件２は、音声状態ＳＰＥＥＣＨ＿ＳＴＡＴＥを、１から０に変更することができる。一方、条件３は、音楽状態ＭＵＳＩＣ＿ＳＴＡＴＥを、０から１に変更することができ、条件４は、音楽状態ＭＵＳＩＣ＿ＳＴＡＴＥを、１から０に変更することができる。音声状態ＳＰＥＥＣＨ＿ＳＴＡＴＥが１であるならば、音声である確率が高いということ、すなわち、ＣＥＬＰタイプコーディングが適するということを意味し、０であるならば、音声ではない確率が高いということを意味する。一例を挙げれば、音楽状態ＭＵＳＩＣ＿ＳＴＡＴＥが１であるならば、トランスフォームコーディングに適するということを意味し、０であるならば、ＣＥＬＰ／トランスフォームハイブリッドコーディング、すなわち、ＧＳＣに適するということを意味する。他の例を挙げれば、音楽状態ＭＵＳＩＣ＿ＳＴＡＴＥが１であるならば、トランスフォームコーディングに適するということを意味し、０であるならば、ＣＥＬＰタイプコーディングに適するということを意味する。

条件１ｃｏｎｄ_Ａは、例えば、次のように定義される。すなわち、ｄ_ｖｃｏｒ＞０．４ＡＮＤｄ_ｆｔ＜０．１ＡＮＤＦＶ_ｓ（１）＞（２＊ＦＶ_ｓ（７）＋０．１２）ＡＮＤｔｏｎ_２＜ｄ_ｖｃｏｒＡＮＤｔｏｎ_３＜ｄ_ｖｃｏｒＡＮＤｔｏｎ_ＬＴ＜ｄ_ｖｃｏｒＡＮＤＦＶ_ｓ（７）＜ｄ_ｖｃｏｒＡＮＤＦＶ_ｓ（１）＞ｄ_ｖｃｏｒＡＮＤＦＶ_ｓ（１）＞０．７６であるならば、ｃｏｎｄ_Ａは、１に設定される。

条件２ｃｏｎｄ_Ｂは、例えば、次のように定義される。すなわち、ｄ_ｖｃｏｒ＜０．４であるならば、ｃｏｎｄ_Ｂは、１に設定される。

条件３ｃｏｎｄ_Ｃは、例えば、次のように定義される。すなわち、０．２６＜ｔｏｎ_２＜０．５４ＡＮＤｔｏｎ_３＞０．２２ＡＮＤ０．２６＜ｔｏｎ_ＬＴ＜０．５４ＡＮＤＬＰ_ｅｒｒ＞０．５であるならば、ｃｏｎｄ_Ｃは、１に設定される。

条件４ｃｏｎｄ_Ｄは、例えば、次のように定義される。すなわち、ｔｏｎ_２＜０．３４ＡＮＤｔｏｎ_３＜０．２６ＡＮＤ０．２６＜ｔｏｎ_ＬＴ＜０．４５であるならば、ｃｏｎｄ_Ｄは、１に設定される。

各条件を生成するために使用された特徴、あるいは特徴の組み合わせは、それらに限定されるものではない。また、各整数値は、例示的なものに過ぎず、具現方式によって最適値に設定される。

一実施形態によれば、訂正部３７３０は、２つの独立した状態マシーン、例えば、音声状態マシーンと音楽状態マシーンとを利用して、初期分類結果に存在するエラーを訂正することができる。各状態マシーンは、２つの状態を有し、各状態において、ハングオーバーが使用され、頻繁なトランジションを防止することができる。該ハングオーバーは、例えば、６個フレームから構成される。音声状態マシーンにおいて、ハングオーバー変数をｈａｎｇ_ｓｐとして示し、音楽状態マシーンにおいて、ハングオーバー変数をｈａｎｇ_ｍｕｓで示す場合、与えられた状態に、分類結果に変化がある場合、それぞれ６に初期化され、その後、該ハングオーバーがそれぞれ次のフレームに対して、１ずつ減少する。該状態変化は、ハングオーバーがゼロに減少する場合に、発生する。各状態マシーンには、オーディオ信号から抽出される少なくとも１以上の特徴が組み合わせされて生成される修正パラメータが使用される。

図３８は、図３７に図示された訂正部３７３０で使用される状態マシーンを示す図面である。図３８を参照すれば、左側は、一実施形態によるＣＥＬＰコアに適する状態マシーン、すなわち、音声状態において、コンテクスト基盤訂正のための状態マシーンを示すものである。訂正部３７３０においては、音楽状態マシーンで決定される音楽状態と、音声状態マシーンで決定される音声状態とによって、分類結果に対する修正（corection）が適用される。例えば、初期分類結果が音楽信号に設定された場合、修正パラメータに基づいて、音声信号に変更することができる。具体的には、初期分類結果のうち第１段階の分類結果が音楽信号であり、音声状態が１になった場合、第１段階の分類結果と、第２段階の分類結果とをいずれも音声信号に変更することができる。そのような場合、初期分類結果にエラーが存在すると判断され、分類結果に対する修正が行われる。

それについて、さらに具体的に説明すれば、次の通りである。

まず、修正パラメータ、例えば、条件１及び条件２を受信することができる。また、音声状態マシーンのハングオーバー情報を受信することができる。また、初期分類結果を受信することができる。該初期分類結果は、音声／音楽分類部３７１０から提供される。

該初期分類結果、すなわち、音声状態が０でありながら、条件１ｃｏｎｄ_Ａが１であり、音声状態マシーンのハングオーバーｈａｎｇ_ｓｐが０であるか否かということを判断することができる。音声状態が０でありながら、条件１が１であり、音声状態マシーンのハングオーバーｈａｎｇ_ｓｐが０であると判断された場合、４３０段階において音声状態を１に変更し、ハングオーバーｈａｎｇ_ｓｐを６に初期化させることができる。

一方、初期分類結果、すなわち、音声状態が１でありながら、条件２ｃｏｎｄ_Ｂが１であり、音声状態マシーンのハングオーバーｈａｎｇ_ｓｐが０であるか否かということを判断することができる。音声状態が１でありながら、条件２が１であり、音声状態マシーンのハングオーバーｈａｎｇ_ｓｐが０であると判断された場合、音声状態を０に変更し、ハングオーバーｈａｎｇ_ｓｐを６に初期化させることができる。一方、音声状態が１ではないか、条件２が１ではないか、あるいは音声状態マシーンのハングオーバーｈａｎｇ_ｓｐが０ではない場合、ハングオーバーを１ほど減少させるハングオーバーアップデートを行うことができる。

図３８を参照すれば、右側は、一実施形態によるＨＱ（high quality）コアに適する状態、すなわち、音楽状態において、コンテクスト基盤訂正のための状態マシーンを示すものである。訂正部３７３０では、音楽状態マシーンで決定される音楽状態と、音声状態マシーンで決定される音声状態とによって、分類結果に対する修正（corection）が適用される。例えば、初期分類結果が音声信号に設定された場合、修正パラメータに基づいて、音楽信号に変更することができる。具体的には、初期分類結果のうち第１段階の分類結果が音声信号であり、音楽状態が１になった場合、第１段階の分類結果と、第２段階の分類結果とをいずれも音楽信号に変更することができる。一方、初期分類結果が音楽信号に設定された場合、修正パラメータに基づいて、音声信号に変更することができる。そのような場合、初期分類結果にエラーが存在すると判断され、分類結果に対する修正が行われる。

まず、修正パラメータ、例えば、条件３及び条件４を受信することができる。また、音楽状態マシーンのハングオーバー情報を受信することができる。また、初期分類結果を受信することができる。該初期分類結果は、音声／音楽分類部３７１０から提供される。

初期分類結果、すなわち、音楽状態が０でありながら、条件３ｃｏｎｄ_Ｃが１であり、音楽状態マシーンのハングオーバーｈａｎｇ_ｍｕｓが０であるか否かということを判断することができる。音楽状態が０でありながら、条件３が１であり、音楽状態マシーンのハングオーバーｈａｎｇ_ｍｕｓが０であると判断された場合、音楽状態を１に変更し、ハングオーバーｈａｎｇ_ｍｕｓを６に初期化させることができる。

一方、初期分類結果、すなわち、音楽状態が１でありながら、条件４ｃｏｎｄ_Ｄが１であり、音楽状態マシーンのハングオーバーｈａｎｇ_ｍｕｓが０であるか否かということを判断することができる。音楽状態が１でありながら、条件４が１であり、音楽状態マシーンのハングオーバーｈａｎｇ_ｍｕｓが０であると判断された場合、音楽状態を０に変更し、ハングオーバーｈａｎｇ_ｍｕｓを６に初期化させることができる。一方、音楽状態が１ではないか、条件４が１ではないか、あるいは音楽状態マシーンのハングオーバーｈａｎｇ_ｍｕｓが０ではない場合、ハングオーバーを１ほど減少させるハングオーバーアップデートを行うことができる。

前記実施形態は、コンピュータで実行されるプログラムに作成可能であり、コンピュータで読取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータでも具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読取り可能な記録媒体に多様な手段を介して記録される。コンピュータで読取り可能な記録媒体は、コンピュータシステムによって読取り可能なデータが保存される全ての種類の保存装置を含んでもよい。コンピュータで読取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体（magnetic media）；ＣＤ−ＲＯＭ（compact disc read only memory）、ＤＶＤ（digital versatile disc）のような光記録媒体（optical media）；フロプティカルディスク（floptical disk）のような磁気・光媒体（magneto-optical media）；及びＲＯＭ（read-only memory）、ＲＡＭ（random access memory）、フラッシュメモリのような、プログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。また、コンピュータで読取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。

以上、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたにしても、本発明の一実施形態は、前述の実施形態によって限定されるものではなく、それについては、本発明が属する分野で当業者であるならば、かような記載から、多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それと均等または等価的な変形は、いずれも本発明技術的思想の範疇に属するものである。

以下、本願により教示される手段を例示的に列挙する。
（付記１）
現在バンドのスペクトルデータを、第１量子化方式によって量子化する段階と、
前記スペクトルデータ、及び前記量子化されたスペクトルデータを利用して、前記現在バンドの下位ビットを生成する段階と、
前記現在バンドの下位ビットが含まれた下位ビットシーケンスを、第２量子化方式によって量子化する段階と、
前記量子化されたスペクトルデータのうちＮビット（ここで、Ｎは１以上）を除いた上位ビット、及び前記量子化された下位ビットシーケンスに基づいて、ビットストリームを生成する段階と、を含むスペクトル符号化方法。
（付記２）
前記第１量子化方式は、スカラー量子化であることを特徴とする付記１に記載のスペクトル符号化方法。
（付記３）
前記スカラー量子化は、均一な量子化間隔を利用することを特徴とする付記２に記載のスペクトル符号化方法。
（付記４）
前記第２量子化方式によって量子化する段階は、前記スペクトルデータと、前記量子化されたスペクトルデータとの差に基づいて、量子化を行うことを特徴とする付記１に記載のスペクトル符号化方法。
（付記５）
前記第２量子化方式は、トレリス符号量子化であることを特徴とする付記１に記載のスペクトル符号化方法。
（付記６）
前記スペクトルデータの帯域幅は、超広帯域あるいは全帯域であることを特徴とする付記１に記載のスペクトル符号化方法。
（付記７）
前記スペクトルデータは、入力オーディオ信号に対して、ＭＤＣＴ（modified discrete cosine transform）及び正規化を行って得られることを特徴とする付記１に記載のスペクトル符号化方法。
（付記８）
前記スペクトルデータは、正常モードによって符号化されたことを特徴とする付記１に記載のスペクトル符号化方法。

国際公開第２０１２／１３７６１７号特表２００９−５３２９７６号公報特開２０００−２３２３６６号公報

Claims

ノンゼロ（ｎｏｎ−ｚｅｒｏ）バンドのスペクトルデータをＵＳＱ（ＵｎｉｆｏｒｍＳｃａｌａｒＱｕａｎｔｉｚａｔｉｏｎ）を使用して量子化する段階と、
前記量子化されたスペクトルデータの下位ビットを抽出する段階と、
全てのノンゼロバンドの前記量子化されたスペクトルデータの下位ビットを収集して下位ビットシーケンスを生成する段階と、
前記下位ビットシーケンスを、ＴＣＱ（ＴｒｅｌｌｉｓＣｏｄｅｄＱｕａｎｔｉｚａｔｉｏｎ）を使用して量子化する段階と、
前記量子化されたスペクトルデータのうち、前記下位ビットを除いた上位ビット及び前記量子化された下位ビットシーケンスに基づいてビットストリームを生成する段階と、を含み、
前記ＴＣＱに使用されるビット数は、各ノンゼロバンドの量子化のために割り当てられたビット数から均等に抽出され、前記ノンゼロバンドに残っているビット数はＵＳＱに使用される、スペクトル符号化方法。
前記スペクトルデータの帯域幅は、超広帯域あるいは全帯域である、請求項１に記載のスペクトル符号化方法。
前記ビットストリームを生成する段階は、
前記ノンゼロバンドの重要スペクトル成分の個数、位置及び符号に対して、第１無損失符号化を行う段階と、
前記量子化されたスペクトルデータのうち、前記下位ビットを除いて構成される大きさ情報に対して第２無損失符号化を行う段階と、
前記量子化された下位ビットシーケンスに対して第３無損失符号化を行う段階と、
前記第１無損失符号化、第２無損失符号化及び第３無損失符号化から提供されるデータを用いて前記ビットストリームを生成する段階と、を含む、請求項１に記載のスペクトル符号化方法。
前記スペクトルデータは、入力オーディオ信号に対してＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）及び正規化を行って得られる、請求項１に記載のスペクトル符号化方法。
スペクトル符号化装置において、
少なくとも１つのプロセッサを含み、前記少なくとも１つのプロセッサは、
ノンゼロ（ｎｏｎ−ｚｅｒｏ）バンドのスペクトルデータをＵＳＱ（ＵｎｉｆｏｒｍＳｃａｌａｒＱｕａｎｔｉｚａｔｉｏｎ）を使用して量子化し、
前記量子化されたスペクトルデータの下位ビットを抽出し、
全てのノンゼロバンドの前記量子化されたスペクトルデータの下位ビットを収集して下位ビットシーケンスを生成し、
前記下位ビットシーケンスをＴＣＱ（ＴｒｅｌｌｉｓＣｏｄｅｄＱｕａｎｔｉｚａｔｉｏｎ）を使用して量子化し、
前記量子化されたスペクトルデータのうち、前記下位ビットを除いた上位ビット及び前記量子化された下位ビットシーケンスに基づいてビットストリームを生成するように設定され、
前記ＴＣＱに使用されるビット数は、各ノンゼロバンドの量子化のために割り当てられたビット数から均等に抽出され、前記ノンゼロバンドに残っているビット数はＵＳＱに使用される、スペクトル符号化装置。
前記スペクトルデータの帯域幅は、超広帯域あるいは全帯域である、請求項５に記載のスペクトル符号化装置。
前記少なくとも１つのプロセッサは、
前記ノンゼロバンドの重要スペクトル成分の個数、位置及び符号に対して第１無損失符号化を行い、
前記量子化されたスペクトルデータのうち、前記下位ビットを除いて構成される大きさ情報に対して第２無損失符号化を行い、
前記量子化された下位ビットシーケンスに対して第３無損失符号化を行い、
前記第１無損失符号化、第２無損失符号化、及び第３無損失符号化から提供されるデータを用いて前記ビットストリームを生成するように設定される、請求項５に記載のスペクトル符号化装置。
前記スペクトルデータは、入力オーディオ信号に対してＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）及び正規化を行って得られる、請求項５に記載のスペクトル符号化装置。