JP2017506771A

JP2017506771A - 信号符号化方法及びその装置、並びに信号復号方法及びその装置

Info

Publication number: JP2017506771A
Application number: JP2016569544A
Authority: JP
Inventors: ソン，ホ−サン; オシポフ，コンスタンティン; ル，イ
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-02-17
Filing date: 2015-02-17
Publication date: 2017-03-09
Anticipated expiration: 2035-02-17
Also published as: KR102625143B1; CN110176241A; CN110176241B; EP3109611A4; CN106233112A; KR20220051028A; KR20160122160A; KR102386738B1; EP3109611A1; KR20240008413A; CN106233112B; JP6633547B2

Abstract

少なくとも各バンドのビット割当て情報に基づいて符号化方式を選択する段階、ゼロバンドに対してゼロ符号化を行う段階、及び各ノンゼロバンドに対して選択された重要周波数成分の情報を符号化する段階を含むスペクトル符号化方法である。

Description

本発明は、オーディオ信号符号化あるいはスピーチ信号符号化及びその復号に係り、さらに具体的には、周波数ドメインにおいて、スペクトル係数を符号化あるいは復号する方法及びその装置に関する。

周波数ドメインにおいて、スペクトル係数の効率的な符号化のために、多様な方式の量子化器が提案されている。例えば、ＴＣＱ（trellis coded quantization）、ＵＳＱ（uniform scalar quantization）、ＦＰＣ（factorial pulse coding）、ＡＶＱ（algebraic ＶＱ）、ＰＶＱ（pyramid ＶＱ）などがあり、それぞれの量子化器に最適化された無損失符号化器が共に具現されるのである。

本発明が解決しようとする課題は、周波数ドメインにおいて、多様なビット率、あるいは多様なサブバンドの大きさに適応的に、スペクトル係数を符号化あるいは復号する方法及びその装置を提供するところにある。

本発明が解決しようとする他の課題は、信号符号化方法あるいはその復号方法を、コンピュータで実行させるためのプログラムを記録したコンピュータで読み取り可能な記録媒体を提供するところにある。

本発明が解決しようとする他の課題は、信号符号化装置あるいはその復号装置を採用するマルチメディア機器を提供するところにある。

前記課題を達成するための一側面によるスペクトル符号化方法は、少なくとも各バンドのビット割当て情報に基づいて符号化方式を選択する段階と、ゼロバンドに対してゼロ符号化を行う段階と、各ノンゼロバンドに対して選択された重要周波数成分の情報を符号化する段階と、を含んでもよい。

前記課題を達成するための一側面によるスペクトル復号方法は、少なくとも各バンドのビット割当て情報に基づいて復号方式を選択する段階と、ゼロバンドに対してゼロ復号を遂行する段階と、各ノンゼロバンドに対して得られた重要周波数成分の情報を復号する段階と、を含んでもよい。

多様なビット率と、多様なサブバンドの大きさとに適応的なスペクトル係数の符号化及び復号が可能である。また、マルチレートを支援するコーデックで設計されたビットレート制御モジュールを利用して、固定ビット率でスペクトルをＴＣＱで符号化することができる。このとき、ＴＣＱの高い性能を正確なターゲットビット率で符号化し、コーデックの符号化性能を極大化させることができる。

本発明が適用されるオーディオ符号化装置の一例による構成を示したブロック図である。本発明が適用されるオーディオ復号装置の一例による構成を示したブロック図である。本発明が適用されるオーディオ符号化装置の他の例による構成を示したブロック図である。本発明が適用されるオーディオ復号装置の他の例による構成を示したブロック図である。本発明が適用されるオーディオ符号化装置の他の例による構成をそれぞれ示したブロック図である。本発明が適用されるオーディオ復号装置の他の例による構成を示したブロック図である。本発明が適用されるオーディオ符号化装置の他の例による構成を示したブロック図である。本発明が適用されるオーディオ復号装置の他の例による構成を示したブロック図である。本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。本発明が適用される周波数ドメインオーディオ復号装置の構成を示したブロック図である。一実施形態によるスペクトル符号化装置の構成を示すブロック図である。サブバンド分割の例を示す図面である。一実施形態によるスペクトル量子化装置の構成を示すブロック図である。一実施形態によるスペクトル符号化装置の構成を示すブロック図である。一実施形態によるＩＳＣ符号化装置の構成を示すブロック図である。一実施形態によるＩＳＣ情報符号化装置の構成を示すブロック図である。他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。一実施形態によるＩＳＣ収集過程及び符号化過程の概念を示す図面である。他の実施形態によるＩＳＣ収集過程及び符号化過程の概念を示す図面である。本発明で使用されたＴＣＱの一例を示す図面である。本発明が適用される周波数ドメインオーディオ復号装置の構成を示したブロック図である。一実施形態によるスペクトル復号装置の構成を示すブロック図である。一実施形態によるスペクトル逆量子化装置の構成を示すブロック図である。一実施形態によるスペクトル復号装置の構成を示すブロック図である。一実施形態によるＩＳＣ復号装置の構成を示すブロック図である。一実施形態によるＩＳＣ情報復号装置の構成を示すブロック図である。他の実施形態によるスペクトル復号装置の構成を示すブロック図である。他の実施形態によるスペクトル復号装置の構成を示すブロック図である。他の実施形態によるＩＳＣ情報符号化装置の構成を示すブロック図である。他の実施形態によるＩＳＣ情報復号装置の構成を示すブロック図である。一実施形態によるマルチメディア機器の構成を示したブロック図である。他の実施形態によるマルチメディア機器の構成を示したブロック図である。他の実施形態によるマルチメディア機器の構成を示したブロック図である。一実施形態による、スペクトルの微細構造符号化方法の動作を示したフローチャートである。一実施形態による、スペクトルの微細構造復号方法の動作を示したフローチャートである。

本発明は、多様な変換を加えることができ、さまざまな実施形態を有することができるが、特定実施形態を図面に例示し、詳細な説明によって具体的に説明する。しかし、それは、本発明を特定の実施形態について限定するものではなく、本発明の技術的思想及び技術範囲に含まれる全ての変換、均等物ないし代替物を含むものであると理解される。本発明の説明において、関連公知技術に係わる具体的な説明が、本発明の要旨を不明確にすると判断される場合、その詳細な説明を省略する。

第１、第２のような用語は、多様な構成要素の説明に使用されるが、構成要素は、用語によって限定されるものではない。該用語は、１つの構成要素を他の構成要素から区別する目的のみに使用される。

本発明で使用した用語は、ただ特定の実施形態の説明に使用されたものであり、本発明を限定する意図ではない。本発明で使用した用語は、本発明での機能を考慮しながら、可能な限り、現在汎用される一般的な用語を選択したが、それは当分野の当業者の意図、判例、または新たな技術の出現などによって異なる。また、特定の場合は、出願人が任意に選定した用語もあり、その場合、当該発明の説明部分で、詳細にその意味を記載する。従って、本発明で使用される用語は、単純な用語の名称ではない、その用語が有する意味と、本発明の全般にわたる内容とを基に定義されなければならない。

単数の表現は、文脈上明白に異なって意味しない限り、複数の表現を含む。本発明において、「含む」または「有する」というような用語は、明細書上に記載された特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせが存在するということを指定するもんであり、一つまたはそれ以上の他の特徴、数字、段階、動作、構成要素、部品、またはそれらの組み合わせの存在または付加の可能性をあらかじめ排除するものではないと理解されなければならない。

以下、本発明の実施形態について、添付図面を参照し、詳細に説明する。

図１Ａ及び図１Ｂは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の一例による構成をそれぞれ示したブロック図である。

図１Ａに図示されたオーディオ符号化装置１１０は、前処理部１１２、周波数ドメイン符号化部１１４及びパラメータ符号化部１１６を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図１Ａにおいて、前処理部１１２は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。入力信号は、オーディオ、ミュージック、スピーチ、あるいはそれらの混合信号を示すサウンドなどのメディア信号を意味するが、以下では、説明の便宜のために、オーディオ信号とする。

周波数ドメイン符号化部１１４は、前処理部１１２から提供されるオーディオ信号に対して時間・周波数変換を行い、オーディオ信号のチャンネル数、符号化帯域及びビット率に対応して符号化ツールを選択し、選択された符号化ツールを利用して、オーディオ信号に対する符号化を行うことができる。時間・周波数変換は、ＭＤＣＴ（modified discrete cosine transform）、ＭＬＴ（modulated lapped transform）あるいはＦＦＴ（fast Fourier transform）を使用するが、それらに限定されるものではない。ここで、与えられたビット数が十分な場合、全体帯域に対して一般的な変換符号化方式を適用し、与えられたビット数が十分ではない場合、一部帯域については、帯域拡張方式を適用することができる。一方、オーディオ信号が、ステレオあるいはマルチチャンネルである場合、与えられたビット数が十分であるならば、各チャンネル別に符号化し、十分ではなければ、ダウンミキシング方式を適用することができる。周波数ドメイン符号化部１１４からは、符号化されたスペクトル係数が生成される。

パラメータ符号化部１１６は、周波数ドメイン符号化部１１４から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化することができる。パラメータは、例えば、サブバンド別あるいはバンド別に抽出され、以下では、説明の簡素化のために、サブバンドとする。各サブバンドは、スペクトル係数をグルーピングした単位であり、臨界帯域を反映し、均一長あるいは不均一長を有することができる。不均一長を有する場合、低周波数帯域に存在するサブバンドの場合、高周波数帯域と比較し、相対的に短い長さを有することができる。１フレームに含まれるサブバンドの個数及び長さは、コーデックアルゴリズムによって異なり、符号化性能に影響を及ぼす。一方、パラメータは、サブバンドのスケールファクタ、パワー、平均エネルギーあるいはｎｏｒｍを例として挙げることができるが、それらに限定されるものではない。符号化の結果として得られるスペクトル係数とパラメータは、ビットストリームを形成し、記録媒体に保存されるか、あるいはチャンネルを介して、例えば、パケット状で伝送される。

図１Ｂに図示されたオーディオ復号装置１３０は、パラメータ復号部１３２、周波数ドメイン復号部１３４及び後処理部１３６を含んでもよい。ここで、周波数ドメイン復号部１３４は、フレーム消去隠匿（ＦＥＣ：frame erasure concealment）アルゴリズムあるいはパケット損失隠匿（ＰＬＣ：packet loss concealment）アルゴリズムを含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図１Ｂにおいて、パラメータ復号部１３２は、受信されたビットストリームから符号化されたパラメータを復号し、復号されたパラメータから、フレーム単位で、消去あるいは損失のようなエラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいは消去フレームまたは損失フレームであるかということに係わる情報を、周波数ドメイン復号部１３４に提供する。以下では、説明の簡素化のために、消去フレームまたは損失フレームをエラーフレームとする。

周波数ドメイン復号部１３４は、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成することができる。一方、周波数ドメイン復号部１３４は、現在フレームがエラーフレームである場合、ＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介してスケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部１３４は、合成されたスペクトル係数に対して、周波数・時間変換を行い、時間ドメイン信号を生成することができる。

後処理部１３６は、周波数ドメイン復号部１３４から提供される時間ドメイン信号に対して、音質向上のためのフィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部１３６は、出力信号として、復元されたオーディオ信号を提供する。

図２Ａ及び図２Ｂは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。

図２Ａに図示されたオーディオ符号化装置２１０は、前処理部２１２、モード決定部２１３、周波数ドメイン符号化部２１４、時間ドメイン符号化部２１５及びパラメータ符号化部２１６を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図２Ａにおいて、前処理部２１２は、図１Ａの前処理部１１２と実質的に同一であるので、説明を省略する。

モード決定部２１３は、入力信号の特性を参照し、符号化モードを決定することができる。入力信号の特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、あるいは複数のフレームに対する長区間特性などを利用して、入力信号の特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードに決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードあるいは周波数ドメインモードに決定することができる。モード決定部２１３は、入力信号の特性が音楽モードあるいは周波数ドメインモードに該当する場合には、前処理部２１２の出力信号を周波数ドメイン符号化部２１４に提供し、入力信号の特性が音声モードあるいは時間ドメインモードに該当する場合、時間ドメイン符号化部２１５に提供することができる。

周波数ドメイン符号化部２１４は、図１Ａの周波数ドメイン符号化部１１４と実質的に同一であるので、説明を省略する。

時間ドメイン符号化部２１５は、前処理部２１２から提供されるオーディオ信号に対して、ＣＥＬＰ（code excited linear prediction）符号化を行うことができる。具体的には、ＡＣＥＬＰ（algebraic ＣＥＬＰ）を使用することができるが、それに限定されるものではない。

パラメータ符号化部２１６は、周波数ドメイン符号化部２１４あるいは時間ドメイン符号化部２１５から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部２１６は、図１Ａのパラメータ符号化部１１６と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。

図２Ｂに図示されたオーディオ復号装置２３０は、パラメータ復号部２３２、モード決定部２３３、周波数ドメイン復号部２３４、時間ドメイン復号部２３５及び後処理部２３６を含んでもよい。ここで、周波数ドメイン復号部２３４と時間ドメイン復号部２３５は、それぞれ当該ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図２Ｂにおいて、パラメータ復号部２３２は、パケット状で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位でエラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン復号部２３４あるいは時間ドメイン復号部２３５に提供する。

モード決定部２３３は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン復号部２３４あるいは時間ドメイン復号部２３５に提供する。

周波数ドメイン復号部２３４は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音楽モードあるいは周波数ドメインモードである場合、周波数ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介してスケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン復号部２３４は、合成されたスペクトル係数に対して周波数・時間変換を行い、時間ドメイン信号を生成することができる。

時間ドメイン復号部２３５は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なＣＥＬＰ復号過程を介して復号を行い、時間ドメイン信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音声モードあるいは時間ドメインモードである場合、時間ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを遂行することができる。

後処理部２３６は、周波数ドメイン復号部２３４あるいは時間ドメイン復号部２３５から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部２３６は、出力信号として、復元されたオーディオ信号を提供する。

図３Ａ及び図３Ｂは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。

図３Ａに図示されたオーディオ符号化装置３１０は、前処理部３１２、ＬＰ（linear prediction）分析部３１３、モード決定部３１４、周波数ドメイン励起符号化部３１５、時間ドメイン励起符号化部３１６及びパラメータ符号化部３１７を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図３Ａにおいて、前処理部３１２は、図１Ａの前処理部１１２と実質的に同一であるので、説明を省略する。

ＬＰ分析部３１３は、入力信号に対してＬＰ分析を行ってＬＰ係数を抽出し、抽出されたＬＰ係数から励起信号を生成する。該励起信号は、符号化モードによって、周波数ドメイン励起符号化部３１５と時間ドメイン励起符号化部３１６とのうちいずれか一方に提供される。

モード決定部３１４は、図２Ｂのモード決定部２１３と実質的に同一であるので、説明を省略する。

周波数ドメイン励起符号化部３１５は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、入力信号が励起信号であることを除いては、図１Ａの周波数ドメイン符号化部１１４と実質的に同一であるので、説明を省略する。

時間ドメイン励起符号化部３１６は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、入力信号が励起信号であることを除いては、図２Ａの時間ドメイン符号化部２１５と実質的に同一であるので、説明を省略する。

パラメータ符号化部３１７は、周波数ドメイン励起符号化部３１５あるいは時間ドメイン励起符号化部３１６から提供される符号化されたスペクトル係数からパラメータを抽出し、抽出されたパラメータを符号化する。パラメータ符号化部３１７は、図１Ａのパラメータ符号化部１１６と実質的に同一であるので、説明を省略する。符号化の結果として得られるスペクトル係数とパラメータは、符号化モード情報と共にビットストリームを形成し、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。

図３Ｂに図示されたオーディオ復号装置３３０は、パラメータ復号部３３２、モード決定部３３３、周波数ドメイン励起復号部３３４、時間ドメイン励起復号部３３５、ＬＰ合成部３３６及び後処理部３３７を含んでもよい。ここで、周波数ドメイン励起復号部３３４と時間ドメイン励起復号部３３５は、それぞれ当該ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図３Ｂにおいて、パラメータ復号部３３２は、パケット状で伝送されるビットストリームからパラメータを復号し、復号されたパラメータから、フレーム単位でエラーが発生したか否かということをチェックすることができる。エラーチェックは、公知の多様な方法を使用することができ、現在フレームが正常フレームであるか、あるいはエラーフレームであるかということに係わる情報を、周波数ドメイン励起復号部３３４あるいは時間ドメイン励起復号部３３５に提供する。

モード決定部３３３は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン励起復号部３３４あるいは時間ドメイン励起復号部３３５に提供する。

周波数ドメイン励起復号部３３４は、符号化モードが音楽モードあるいは周波数ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的な変換復号過程を介して復号を行い、合成されたスペクトル係数を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音楽モードあるいは周波数ドメインモードである場合、周波数ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを介して、以前正常フレームのスペクトル係数をエラーフレームに反復して使用するか、あるいは回帰分析を介してスケーリングして反復することにより、合成されたスペクトル係数を生成することができる。周波数ドメイン励起復号部３３４は、合成されたスペクトル係数に対して周波数・時間変換を行い、時間ドメイン信号である励起信号を生成することができる。

時間ドメイン励起復号部３３５は、符号化モードが音声モードあるいは時間ドメインモードである場合に動作し、現在フレームが正常フレームである場合、一般的なＣＥＬＰ復号過程を介して復号を行い、時間ドメイン信号である励起信号を生成する。一方、現在フレームがエラーフレームであり、以前フレームの符号化モードが音声モードあるいは時間ドメインモードである場合、時間ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを遂行することができる。

ＬＰ合成部３３６は、周波数ドメイン励起復号部３３４あるいは時間ドメイン励起復号部３３５から提供される励起信号に対してＬＰ合成を行い、時間ドメイン信号を生成する。

後処理部３３７は、ＬＰ合成部３３６から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部３３７は、出力信号として、復元されたオーディオ信号を提供する。

図４Ａ及び図４Ｂは、本発明が適用されるオーディオ符号化装置及びオーディオ復号装置の他の例による構成をそれぞれ示したブロック図であり、スイッチング構造を有する。

図４Ａに図示されたオーディオ符号化装置４１０は、前処理部４１２、モード決定部４１３、周波数ドメイン符号化部４１４、ＬＰ分析部４１５、周波数ドメイン励起符号化部４１６、時間ドメイン励起符号化部４１７及びパラメータ符号化部４１８を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。図４Ａに図示されたオーディオ符号化装置４１０は、図２Ａのオーディオ符号化装置２１０と、図３Ａのオーディオ符号化装置３１０とを結合したものと見ることができるので、共通部分の動作説明は省略する一方、モード決定部４１３の動作について説明する。

モード決定部４１３は、入力信号の特性及びビット率を参照し、入力信号の符号化モードを決定することができる。モード決定部４１３は、入力信号の特性によって、現在フレームが音声モードであるか、あるいは音楽モードであるかということにより、また現在フレームに効率的な符号化モードが時間ドメインモードであるか、あるいは周波数ドメインモードであるかということによって、ＣＥＬＰモードと、それ以外のモードとに決定することができる。もし入力信号の特性が音声モードである場合には、ＣＥＬＰモードに決定し、音楽モードでありながら、高ビット率である場合、ＦＤモードに決定し、音楽モードでありながら、低ビット率である場合、オーディオモードに決定することができる。モード決定部４１３は、ＦＤモードである場合、入力信号を周波数ドメイン符号化部４１４に提供し、オーディオモードである場合、ＬＰ分析部４１５を介して、周波数ドメイン励起符号化部４１６に提供し、ＣＥＬＰモードである場合、ＬＰ分析部４１５を介して、時間ドメイン励起符号化部４１７に提供することができる。

周波数ドメイン符号化部４１４は、図１Ａのオーディオ符号化装置１１０の周波数ドメイン符号化部１１４、あるいは図２Ａのオーディオ符号化装置２１０の周波数ドメイン符号化部２１４に対応し、周波数ドメイン励起符号化部４１６あるいは時間ドメイン励起符号化部４１７は、図３Ａのオーディオ符号化装置３１０の周波数ドメイン励起符号化部３１５あるいは時間ドメイン励起符号化部３１６に対応する。

図４Ｂに図示されたオーディオ復号装置４３０は、パラメータ復号部４３２、モード決定部４３３、周波数ドメイン復号部４３４、周波数ドメイン励起復号部４３５、時間ドメイン励起復号部４３６、ＬＰ合成部４３７及び後処理部４３８を含んでもよい。ここで、周波数ドメイン復号部４３４、周波数ドメイン励起復号部４３５及び時間ドメイン励起復号部４３６は、それぞれ当該ドメインでのＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。図４Ｂに図示されたオーディオ復号装置４３０は、図２Ｂのオーディオ復号装置２３０と、図３Ｂのオーディオ復号装置３３０とを結合したものと見ることができるので、共通部分の動作説明は省略する一方、モード決定部４３３の動作について説明する。

モード決定部４３３は、ビットストリームに含まれた符号化モード情報をチェックし、現在フレームを周波数ドメイン復号部４３４、周波数ドメイン励起復号部４３５あるいは時間ドメイン励起復号部４３６に提供する。

周波数ドメイン復号部４３４は、図１Ｂのオーディオ符号化装置１３０の周波数ドメイン復号部１３４、あるいは図２Ｂのオーディオ復号装置２３０の周波数ドメイン復号部２３４に対応し、周波数ドメイン励起復号部４３５あるいは時間ドメイン励起復号部４３６は、図３Ｂのオーディオ復号装置３３０の周波数ドメイン励起復号部３３４あるいは時間ドメイン励起復号部３３５に対応する。

図５は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。

図５に図示された周波数ドメインオーディオ符号化装置５１０は、トランジェント検出部５１１、変換部５１２、信号分類部５１３、エネルギー符号化部５１４、スペクトル正規化部５１５、ビット割当て部５１６、スペクトル符号化部５１７及び多重化部５１８を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。ここで、周波数ドメインオーディオ符号化装置５１０は、図２に図示された周波数ドメイン符号化部２１４の全ての機能と、パラメータ符号化部２１６の一部機能とを遂行することができる。一方、周波数ドメインオーディオ符号化装置５１０は、信号分類部５１３を除いては、ＩＴＵ−ＴＧ．７１９標準に開示されたエンコーダの構成で代替され、そのとき、変換部５１２は、５０％のオーバーラップ区間を有する変換ウィンドウを使用することができる。また、周波数ドメインオーディオ符号化装置５１０は、トランジェント検出部５１１及び信号分類部５１３を除いては、ＩＴＵ−ＴＧ．７１９標準に開示されたエンコーダの構成でも代替される。各場合において、図示されてはいないが、ＩＴＵ−ＴＧ．７１９標準のように、スペクトル符号化部５１７の後端に、ノイズレベル推定部をさらに具備し、ビット割当て過程において、ゼロビットが割り当てられたスペクトル係数のためのノイズレベルを推定してビットストリームに含めることができる。

図５を参照すれば、トランジェント検出部５１１は、入力信号を分析し、トランジェント特性を示す区間を検出し、検出結果に対応して、各フレームに対するトランジェントシグナリング情報を生成することができる。そのとき、トランジェント区間の検出には、公知の多様な方法を使用することができる。一実施形態によれば、トランジェント検出部５１１は、まず、現在フレームがトランジェントフレームであるか否かということを一次的に判断し、トランジェントフレームであると判断された現在フレームに対して、二次的に検証を行う。トランジェントシグナリング情報は、多重化部５１８を介して、ビットストリームに含まれる一方、変換部５１２に提供される。

変換部５１２は、トランジェント区間の検出結果によって、変換に使用されるウィンドウサイズを決定し、決定されたウィンドウサイズに基づいて、時間・周波数変換を行う。一例として、トランジェント区間が検出されたサブバンドの場合、短区間ウィンドウ（short window）を適用し、検出されていないサブバンドの場合、長区間ウィンドウ（long window）を適用することができる。他の例として、トランジェント区間を含むフレームについて、短区間ウィンドウを適用することができる。

信号分類部５１３は、変換部５１２から提供されるスペクトルをフレーム単位に分析し、各フレームがハーモニックフレームに該当するか否かということを判断することができる。そのとき、ハーモニックフレームの判断には、公知の多様な方法を使用することができる。一実施形態によれば、信号分類部５１３は、変換部５１２から提供されるスペクトルを複数のサブバンドに分け、各サブバンドに対して、エネルギーのピーク値と平均値とを求めることができる。次に、各フレームに対して、エネルギーのピーク値が平均値より所定比率以上大きいサブバンドの数を求め、求められたサブバンドの数が、所定値以上であるフレームをハーモニックフレームと決定することができる。ここで、所定比率及び所定値は、実験あるいはシミュレーションを介して、前もって決定することができる。ハーモニックシグナリング情報は、多重化部５１８を介し、てビットストリームに含まれてもよい。

エネルギー符号化部５１４は、各サブバンド単位でエネルギーを求め、量子化及び無損失符号化することができる。一実施形態によれば、エネルギーとして、各サブバンドの平均スペクトルエネルギーに該当するＮｏｒｍ値を使用することができ、スケールファクタあるいはパワーを代わりに使用することができるが、それらに限定されるものではない。ここで、各サブバンドのＮｏｒｍ値は、スペクトル正規化部５１５及びビット割当て部５１６に提供される一方、多重化部５１８を介して、ビットストリームに含まれてもよい。

スペクトル正規化部５１５は、各サブバンド単位で求められたＮｏｒｍ値を利用して、スペクトルを正規化することができる。

ビット割当て部５１６は、各サブバンド単位で求められたＮｏｒｍ値を利用して、整数単位あるいは小数点単位で、ビット割り当てを行うことができる。また、ビット割当て部５１６は、各サブバンド単位で求められたＮｏｒｍ値を利用して、マスキング臨界値を計算し、マスキング臨界値を利用して、知覚的に必要なビット数、すなわち、許容ビット数を推定することができる。次に、ビット割当て部５１６は、各サブバンドに対して、割当てビット数が許容ビット数を超えないように制限することができる。一方、ビット割当て部５１６は、Ｎｏｒｍ値が大きいサブバンドから順次にビットを割り当て、各サブバンドのＮｏｒｍ値に対して、各サブバンドの知覚的重要度によって、加重値を付与することにより、知覚的に重要なサブバンドに、さらに多くのビットが割り当てられるように調整することができる。そのとき、Ｎｏｒｍ符号化部５１４からビット割当て部５１６に提供される量子化されたＮｏｒｍ値は、ＩＴＵ−ＴＧ．７１９と同様に、心理音響加重（psycho-acoustical weighting）及びマスキング効果を考慮するために、あらかじめ調整された後、ビット割り当てに使用される。

スペクトル符号化部５１７は、正規化されたスペクトルに対して、各サブバンドの割当てビット数を利用して量子化を行い、量子化された結果に対して、無損失符号化を行うことができる。一例として、スペクトル符号化に、ＴＣＱ（trellis coded quantizer）、ＵＳＱ（uniform scalar quantizer）、ＦＰＣ（factorial puls ecoder）、ＡＶＱ（analog vector quantizer）、ＰＶＱ（predictive vector quantizer）、あるいはそれらの組み合わせと、各量子化器に対応する無損失符号化器とを使用することができる。また、当該コーデックが搭載される環境、あるいはユーザの必要によって、多様なスペクトル符号化技法を適用することができる。スペクトル符号化部５１７で符号化されたスペクトルに係わる情報は、多重化部５１８を介して、ビットストリームに含まれてもよい。

図６は、本発明が適用される周波数ドメインオーディオ符号化装置の構成を示したブロック図である。図６に図示されたオーディオ符号化装置６００は、前処理部６１０、周波数ドメイン符号化部６３０、時間ドメイン符号化部６５０及び多重化部６７０を含んでもよい。周波数ドメイン符号化部６３０は、トランジェント検出部６３１、変換部６３３及びスペクトル符号化部６３５を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図６において、前処理部６１０は、入力信号に対して、フィルタリングあるいはダウンサンプリングなどを行うことができるが、それらに限定されるものではない。前処理部６１０は、信号特性に基づいて、符号化モードを決定することができる。信号特性によって、現在フレームに適する符号化モードが、音声モードであるか、あるいは音楽モードであるかということを決定することができ、また現在フレームに効率的な符号化モードが、時間ドメインモードであるか、あるいは周波数ドメインモードであるかということを決定することができる。ここで、フレームの短区間特性、あるいは複数のフレームに対する長区間特性などを利用して、信号特性を把握することができるが、それに限定されるものではない。例えば、入力信号が音声信号に該当すれば、音声モードあるいは時間ドメインモードに決定し、入力信号が音声信号以外の信号、すなわち、音楽信号あるいは混合信号に該当すれば、音楽モードあるいは周波数ドメインモードに決定することができる。前処理部６１０は、信号特性が音楽モードあるいは周波数ドメインモードに該当する場合には、入力信号を周波数ドメイン符号化部６３０に提供し、信号特性が音声モードあるいは時間ドメインモードに該当する場合、入力信号を時間ドメイン符号化部６５０に提供することができる。

周波数ドメイン符号化部６３０は、前処理部６１０から提供されるオーディオ信号を、変換符号化に基づいて処理することができる。具体的には、トランジェント検出部６３１は、オーディオ信号からトランジェント成分を検出し、現在フレームがトランジェントフレームであるか否かということを判断することができる。変換部６３３は、トランジェント検出部６３１から提供されるフレームタイプ、すなわち、トランジェント情報に基づいて、変換ウィンドウの長さあるいは形態を決定し、決定された変換ウィンドウに基づいて、オーディオ信号を周波数ドメインに変換することができる。変換技法としては、ＭＤＣＴ、ＦＦＴあるいはＭＬＴを適用することができる。一般的に、トランジェント成分を有するフレームについては、短い長さの変換ウィンドウを適用することができる。スペクトル符号化部６３５は、周波数ドメインに変換されたオーディオスペクトルに対して、符号化を行うことができる。スペクトル符号化部６３５については、図７及び図９を参照し、さらに具体的に説明する。

時間ドメイン符号化部６５０は、前処理部６１０から提供されるオーディオ信号に対して、ＣＥＬＰ（code excited linear prediction）符号化を行うことができる。具体的には、ＡＣＥＬＰ（algebraic ＣＥＬＰ）を使用することができるが、それらに限定されるものではない。

多重化部６７０は、周波数ドメイン符号化部６３０あるいは時間ドメイン符号化部６５０において、符号化の結果として生成されるスペクトル成分あるいは信号成分と、多様なインデックスとを多重化してビットストリームを生成し、ビットストリームは、チャネルを介してパケット状で伝送されるか、あるいは記録媒体に保存される。

図７は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。図７に図示された装置は、図６のスペクトル符号化部６３５に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。

図７に図示されたスペクトル符号化装置７００は、エネルギー推定部７１０、エネルギー量子化及び符号化部７２０、ビット割当て部７３０、スペクトル正規化部７４０、スペクトル量子化及び符号化部７５０及びノイズフィリング部７６０を含んでもよい。

図７を参照すれば、エネルギー推定部７１０は、本来のスペクトル係数をサブバンドに分離し、各サブバンド別エネルギー、例えば、Ｎｏｒｍ値を推定することができる。ここで、１つのフレームにおいて、各サブバンドは、同一大きさを有するか、低域から高域に行くほど、各サブバンドに含まれるスペクトル係数の数を増加させることができる。

エネルギー量子化及び符号化部７２０は、各サブバンドについて推定されたＮｏｒｍ値を量子化及び符号化することができる。そのとき、Ｎｏｒｍ値は、ベクトル量子化、スカラー量子化、ＴＣＱ、ＬＶＱ（lattice vector quantization）など多様な方式によって量子化される。エネルギー量子化及び符号化部７２０は、さらなる符号化効率を向上させるために、無損失符号化をさらに行うことができる。

ビット割当て部７３０は、サブバンド別に量子化されたＮｏｒｍ値を利用して、フレーム当たり許容ビットを考慮しながら、符号化に必要なビットを割り当てることができる。

スペクトル正規化部７４０は、サブバンド別に量子化されたＮｏｒｍ値を利用して、スペクトルに対する正規化を行うことができる。

スペクトル量子化及び符号化部７５０は、正規化されたスペクトルに対して、サブバンド別に割り当てられたビットに基づいて、量子化及び符号化を行うことができる。

ノイズフィリング部７６０は、スペクトル量子化及び符号化部７５０において、許容ビットの制約によって０に量子化された部分に、適切なノイズを追加することができる。

図８は、サブバンド分割の例を示す図面である。図８を参照すれば、入力信号が、４８ｋＨｚのサンプリング周波数を使用し、２０ｍｓのフレーム大きさを有する場合、毎フレーム当たり処理するサンプルの個数は、９６０個になる。すなわち、入力信号を、ＭＤＣＴを利用して、５０％のオーバーラッピングを適用して変換すれば、９６０個のスペクトル係数が得られる。ここで、オーバーラッピングの比率は、符号化方式によって多様に設定される。周波数ドメインでは、理論的に、２４ｋＨｚまで処理可能であるが、人間の可聴帯域を考慮し、２０ｋＨｚまでの帯域を表現する。低域である０〜３．２ｋＨｚまでは、８個のスペクトル係数を１つのサブバンドにまとめて使用し、３．２〜６．４ｋＨｚの帯域では、１６個のスペクトル係数を１つのサブバンドにまとめて使用する。６．４〜１３．６ｋＨｚの帯域では、２４個のスペクトル係数を１つのサブバンドにまとめて使用し、１３．６〜２０ｋＨｚの帯域では、３２個のスペクトル係数を、１つのサブバンドにまとめて使用する。実際のＮｏｒｍ値を求めて符号化を行う場合、符号化器において決められた帯域までＮｏｒｍを求めて符号化することができる。決定された帯域後の特定高域では、帯域拡張のような多様な方式に基づいた符号化が可能である。

図９は、一実施形態によるスペクトル量子化装置の構成を示すブロック図である。図９に図示された装置は、量子化器選択部９１０）、ＵＳＱ９３０及びＴＣＱ９５０を含んでもよい。

図９において、量子化器選択部９１０は、入力信号、すなわち、量子化される信号の特性によって、多様な量子化器のうち最も効率的な量子化器を選択することができる。入力信号の特性としては、バンド別ビット割当て情報、バンドの大きさ情報などが使用可能である。選択結果によって、量子化される信号をＵＳＱ９３０及びＴＣＱ９５０のうち一つに提供され、対応する量子化を行うことができる。

図１０は、一実施形態によるスペクトル符号化装置の構成を示すブロック図である。図１０に図示された装置は、図７のスペクトル量子化及び符号化部７５０に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。

図１０に図示された装置は、符号化方式選択部１０１０、ゼロ符号化部１０２０、スケーリング部１０３０、ＩＳＣ符号化部１０４０、量子化成分復元部１０５０及び逆スケーリング部１０６０を含んでもよい。ここで、量子化成分復元部１０５０及び逆スケーリング部１０６０は、オプションとして具備される。

図１０において、符号化方式選択部１０１０は、入力信号特性を考慮し、符号化方式を選択することができる。入力信号特性は、バンド別に割り当てられたビットを含んでもよい。正規化されたスペクトルは、バンド別に選択された符号化方式に基づいて、ゼロ符号化部１０２０あるいはスケーリング部１０３０に提供される。一実施形態によれば、バンドの各サンプルに割り当てられた平均ビット数が、所定値、例えば、０．７５以上である場合、当該バンドは、非常に重要であると判断され、ＵＳＱが使用される一方、全ての他のバンドは、ＴＣＱが使用される。ここで、平均ビット数は、バンド長あるいはバンド大きさを考慮して決定することができる。選択された符号化方式は、１ビットのフラグを利用して設定される。

ゼロ符号化部１０２０は、割り当てられたビットが０であるバンドに対して、全てのサンプルを０に符号化することができる。

スケーリング部１０３０は、バンドに割り当てられたビットに基づいて、スペクトルに対するスケーリングを行うことにより、ビット率を調節することができる。そのとき、正規化されたスペクトルが使用される。スケーリング部１０３０は、バンドに含まれた各サンプル、すなわち、スペクトル係数に割り当てられた平均ビット数を考慮し、スケーリングを行うことができる。例えば、平均ビット数が多いほど、さらに大きいスケーリングが行われる。

一実施形態によれば、スケーリング部１０３０は、バンド別にビット割り当てによって、適切なスケーリング値を決定することができる。

具体的には、まず、バンド長（band length）及びビット割当て情報を利用して、現在バンドのためのパルス個数を推定することができる。ここで、パルスは、単位パルスを意味する。まず、下記数式（１）に基づいて、現在バンドで実際に必要なビットｂを算出することができる。

ここで、ｎは、バンド長を示し、ｍは、パルス個数（number of pulses）を意味し、ｉは、ＩＳＣ（the important spectral component）を有するノンゼロ位置の数を意味する。

一方、ノンゼロ位置の個数は、例えば、下記数式（２）のように、確率に基づいて得られる。

そして、ノンゼロ位置のために必要なビット数は、下記数式（３）のように推定される。

最終的に、パルスの個数は、各バンドに割り当てられたビットに最も近い値を有するｂ値によって選択される。

次に、バンド別に求められたパルス個数推定値と、入力信号の絶対値とを利用して、初期スケーリングファクタを決定することができる。入力信号は、初期スケーリングファクタによってスケーリングされる。もしスケーリングされた原信号、すなわち、量子化された信号に対するパルス個数の和がパルス個数推定値の同じではない場合には、アップデートされたスケーリングファクタを利用して、パルス再分配（redistribution）処理を行うことができる。パルス再分配処理は、現在バンドに対して選択されたパルス個数が、バンド別に求められたパルス個数推定値より少ない場合には、スケーリングファクタを減少させてパルス個数を増加させ、反対に多い場合には、スケーリングファクタを増加させてパルス個数を減少させる。そのとき、原信号との歪曲を最小化する位置を選択し、あらかじめ決定された値ほど増加させるか、あるいは減少させることができる。

ＴＳＱのための歪曲関数は、正確な距離よりは、相対的な大きさを必要とするために、下記の数式（４）のように、各バンドにおいて、それぞれ量子化及び逆量子化された値の自乗距離の和として得られる。

ここで、ｐｉは、実際値であり、ｑｉは、量子化された値を示す。

一方、ＵＳＱのための歪曲関数は、最善の量子化された値を決定するために、ユークリッド距離を使用することができる。そのとき、複雑度を最小化するために、スケーリングファクタを含む修正された数式を使用し、歪曲関数は、下記数式（５）によって算出される。

もしバンド当たりパルス個数が要求される値とマッチングしない場合、最小メトリックを維持しながら、所定数のパルスを加減する必要がある。それは、１つのパルスを加減する過程を、パルス個数が要求される値に至るまで反復する方法によって遂行される。

１つのパルスを加減するために、最適の歪曲値を求めるためのｎ個の歪曲値を求める必要がある。例えば、歪曲値ｊは、下記数式（６）のように、バンドにおいてｊ番目の位置にパルスを追加することに該当する。

前記数式（６）をｎ回遂行することを避けるために、下記数式（７）のように、同じ偏差（deviation）を使用することができる。

前記数式（７）において、

は、１回だけ計算すればよい。一方、ｎは、バンド長、すなわち、バンドにある係数数を示し、ｐは、原信号、すなわち、量子化器の入力信号を示し、ｑは、量子化された信号を示し、ｇは、スケーリングファクタを示す。最終的に、歪曲ｄを最小化する位置ｊが選択され、ｑｊがアップデートされる。

一方、ビット率を制御するために、スケーリングされたスペクトル係数を使用して、適切なＩＳＣを選択して符号化することができる。具体的には、量子化するためのスペクトル成分は、各バンドのビット割り当てを使用して選択される。そのとき、スペクトル成分の分布及び分散による多様な組み合わせに基づいて、スペクトル成分を選択することができる。次に、実際のノンゼロ位置を算出することができる。ノンゼロ位置は、スケーリング量と再分配動作とを分析して得ることができ、そのように選択されたノンゼロ位置は、他の言い方でＩＳＣとすることができる。要約すれば、スケーリングと再分配過程とを経た信号の大きさを分析し、最適スケーリングファクタと、ＩＳＣに該当するノンゼロ位置情報とを求めることができる。ここで、ノンゼロ位置情報は、ノンゼロ位置の個数及び位置を意味する。もしスケーリングと再分配過程とを介して、パルス個数が調節されない場合、選択されたパルスを、実際のＴＣＱ過程を介して量子化し、その結果を利用して、余剰ビットを調整することができる。その過程は、次のような例が可能である。

ノンゼロ位置数と、バンド別に求められたパルス個数推定値とが同じではなく、ノンゼロ位置の個数が、所定値、例えば、１より大きく求められた量子化器選択情報がＴＣＱを示す条件の場合、実際のＴＣＱ量子化を介して、余剰ビットを調整することができる。具体的には、前記条件に該当する場合、余剰ビットを調整するために、まず、ＴＣＱ量子化過程を経る。前もってバンド別に求められたパルス個数推定値に比べ、実際のＴＣＱ量子化を介して求められた現在バンドのパルス個数がさらに少ない場合には、以前に決定されたスケーリングファクタに、１より大きい値、例えば、１．１を乗じてスケーリングファクタを増加させ、反対の場合には、１より少ない値、例えば、０．９を乗じてスケーリングファクタを減少させる。そのような過程を反復し、バンド別に求められたパルス個数推定値と、ＴＣＱ量子化を介して求められた現在バンドのパルス個数とが同じになる場合、実際のＴＣＱ量子化過程で使用されたビットを計算し、余剰ビットをアップデートする。そのように求められたノンゼロ位置が、ＩＳＣに該当する。

ＩＳＣ符号化部１０４０では、最終的に選択されたＩＳＣの個数情報及びノンゼロ位置情報を符号化することができる。その過程において、符号化効率を高めるために、無損失符号化を適用することもできる。ＩＳＣ符号化部１０４０は、割り当てられたビットが０ではないノンゼロバンドに対して選択された量子化器を利用して、符号化を行うことができる。具体的には、ＩＳＣ符号化部１０４０は、正規化されたスペクトルに対して、各バンド別にＩＳＣを選択し、各バンド別に選択されたＩＳＣの情報を、数、位置、大きさ及び符号に基づいて符号化することができる。そのとき、ＩＳＣの大きさは、数、位置及び符号とは異なる方式によって符号化することができる。一例を挙げれば、ＩＳＣの大きさは、ＵＳＱ及びＴＣＱのうち一つを利用して量子化して算術符号化する一方、ＩＳＣの数、位置及び符号については、算術符号化を行うことができる。特定バンドが重要な情報を含んでいると判断される場合、ＵＳＱを使用し、そうではない場合、ＴＣＱを使用することができる。実施形態によれば、信号特性に基づいて、ＴＣＱ及びＵＳＱのうち一つを選択することができる。ここで、信号特性は、各バンドに割り当てられたビットあるいはバンド長を含んでもよい。もしバンドに含まれた各サンプルに割り当てられた平均ビット数が臨界値、例えば、０．７５以上である場合、当該バンドは、非常に重要な情報を含んでいると判断することができるので、ＵＳＱが使用される。一方、バンド長が短い低域の場合にも、必要によっては、ＵＳＱが使用される。他の実施形態によれば、帯域幅によって、第１ジョイント方式と第２ジョイント方式とのうち一つが使用される。例えば、ＮＢ及びＷＢについては、各バンドに対する本来のビット割当て情報だけではなく、以前に符号化されたバンドからの余剰ビットに対する二次ビット割当て処理をさらに利用して、量子化器選択が行われる第１ジョイント方式が使用され、ＳＷＢ及びＦＢについては、ＵＳＱを使用すると決定されたバンドに対して、ＬＳＢ（least significant bit）については、ＴＣＱを使用する第２ジョイント方式が使用される。第１ジョイント方式において、二次ビット割当て処理は、以前符号化されたバンドからの余剰ビットを分配することにより、２バンドを選択することができる。一方、第２ジョイント方式において、残りのビットは、ＵＳＱを使用することができる。

量子化成分復元部１０５０は、量子化された成分に、ＩＳＣの位置、大きさ及び符号情報を付加し、実際の量子化された成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに符号化されたスペクトル係数には、０が割り当てられる。

逆スケーリング部１０６０は、復元された量子化成分に対して逆スケーリングを行い、正規化された入力スペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。スケーリング部１０３０及び逆スケーリング部１０６０においては、同一スケーリングファクタを使用することができる。

図１１は、一実施形態によるＩＳＣ符号化装置の構成を示すブロック図である。図１１に図示された装置は、ＩＳＣ選択部１１１０及びＩＳＣ情報符号化部１１３０を含んでもよい。図１１の装置は、図１０のＩＳＣ符号化部１０４０に対応するか、あるいは独立した装置として具現される。

図１１において、ＩＳＣ選択部１１１０は、ビット率を調節するために、スケーリングされたスペクトルから、所定基準に基づいてＩＳＣを選択することができる。ＩＳＣ選択部１１１０は、スケーリングされたスペクトルから、スケーリングされた程度を分析し、実際のノンゼロ位置を求めることができる。ここで、ＩＳＣは、スケーリング以前の実際のノンゼロスペクトル係数に該当する。ＩＳＣ選択部１１１０は、バンド別に割り当てられたビットに基づいて、スペクトル係数の分布及び分散を考慮し、符号化するスペクトル係数、すなわち、ノンゼロ位置を選択することができる。ＩＳＣ選択のためにＴ、ＣＱを使用することができる。

ＩＳＣ情報符号化部１１３０は、選択されたＩＳＣに基づいて、ＩＳＣ情報、すなわち、ＩＳＣ個数情報、位置情報、大きさ情報及び符号を復号することができる。

図１２は、一実施形態によるＩＳＣ情報符号化装置の構成を示すブロック図である。図１２に図示された装置は、位置情報符号化部１２１０、大きさ情報符号化部１２３０及び符号符号化部１２５０を含んでもよい。

図１２において、位置情報符号化部１２１０は、ＩＳＣ選択部１１１０（図１１）で選択されたＩＳＣの位置情報、すなわち、ノンゼロスペクトル係数の位置情報を符号化することができる。位置情報は、選択されたＩＳＣの数及び位置を含んでもよい。位置情報の符号化には、算術符号化（arithmetic coding）が使用される。一方、選択されたＩＳＣを集め、新たなバッファを構成することができる。ＩＳＣ収集のために、ゼロバンドと、選択されていないスペクトルは、除外される。

大きさ情報符号化部１２３０は、新たに構成されたＩＳＣの大きさ情報に対して、符号化を行うことができる。そのとき、ＴＣＱ及びＵＳＱのうち一つを選択して量子化を行い、次に、算術符号化を追加して行うことができる。算術符号化の効率を高めるために、ノンゼロ位置情報、及びＩＳＣの数が使用される。

符号情報符号化部１２５０は、選択されたＩＳＣの符号情報に対して、符号化を行うことができる。符号情報の符号化には、算術符号化が使用される。

図１３は、他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。図１３に図示された装置は、図７のスペクトル量子化及び符号化部７５０に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。

図１３に図示された装置は、スケーリング部１３３０、ＩＳＣ符号化部１３４０、量子化成分復元部１３５０及び逆スケーリング部１３６０を含んでもよい。図１０と比較するとき、ゼロ符号化部１０２０と符号化方式選択部１０１０とが省略され、ＩＳＣ符号化部１３４０は、ＴＣＱを使用することができるということを除いては、各構成要素の動作は同一である。

図１４は、他の実施形態によるスペクトル符号化装置の構成を示すブロック図である。図１４に図示された装置は、図７のスペクトル量子化及び符号化部７５０に対応するか、他の周波数ドメイン符号化装置に含まれるか、あるいは独立しても具現される。

図１４に図示された装置は、符号化方式選択部１４１０、スケーリング部１４３０、ＩＳＣ符号化部１４４０、量子化成分復元部１４５０及び逆スケーリング部１４６０を含んでもよい。図１０と比較するとき、ゼロ符号化部１０２０が省略されているということを除いては、各構成要素の動作は同一である。

図１５は、一実施形態によるＩＳＣ収集過程及び符号化過程の概念を示す図面であり、まず、ゼロバンド（zero band）すなわち、０に量子化されるバンドは除く。次に、ノンゼロバンドに存在するスペクトル成分のうち選択されたＩＳＣを利用して、新たなバッファを構成することができる。新たに構成されたＩＳＣに対して、バンド単位でＴＣＱを遂行し、対応する無損失符号化（lossless encoding）を行うことができる。

図１６は、他の実施形態によるＩＳＣ収集過程及び符号化過程ＩＳＣ収集過程の概念を示す図面であり、まず、ゼロバンド、すなわち、０に量子化されるバンドは除く。次に、ノンゼロバンドに存在するスペクトル成分のうち選択されたＩＳＣを利用して、新たなバッファを構成することができる。新たに構成されたＩＳＣに対して、バンド単位で、ＵＳＣあるいはＴＣＱを遂行し、対応する無損失符号化を行うことができる。

図１７は、本発明で使用されたＴＣＱの一例を示す図面であり、２つのゼロレベルを有する８ステート４コセットのトレリス構造に該当する。当該ＴＣＱについての詳細な説明は、ＵＳ７６０５７２７に開示されている。

図１８は、本発明が適用される周波数ドメインオーディオ復号装置の構成を示したブロック図である。

図１８に図示された周波数ドメインオーディオ復号装置１８００は、フレームエラー検出部１８１０、周波数ドメイン復号部１８３０、時間ドメイン復号部１８５０及び後処理部１８７０を含んでもよい。周波数ドメイン復号部１８３０は、スペクトル復号部１８３１、メモリ更新部１８３３、逆変換部１８３５及びＯＬＡ（overlap and add）部１８３７を含んでもよい。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図１８を参照すれば、フレームエラー検出部１８１０は、受信されたビットストリームから、フレームエラーが発生したか否かということを検出することができる。

周波数ドメイン復号部１８３０は、符号化モードが、音楽モードあるいは周波数ドメインモードである場合に動作し、フレームエラーが発生した場合、ＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的な変換復号過程を介して、時間ドメイン信号を生成する。具体的には、スペクトル復号部１８３１は、復号されたパラメータを利用してスペクトル復号を行い、スペクトル係数を合成することができる。スペクトル復号部１８３１については、図１９及び図２０を参照し、さらに具体的に説明する。

メモリ更新部１８３３は、正常フレームである現在フレームに対して合成されたスペクトル係数、復号されたパラメータを利用して得られた情報、現在まで連続したエラーフレームの個数、各フレームの信号特性あるいはフレームタイプ情報などを、次のフレームのために更新することができる。ここで、信号特性は、トランジェント特性、ステーショナリ特性を含んでもよく、フレームタイプは、トランジェントフレーム、ステーショナリフレームあるいはハーモニックフレームを含んでもよい。

逆変換部１８３５は、合成されたスペクトル係数に対して、時間・周波数逆変換を行い、時間ドメイン信号を生成することができる。

ＯＬＡ部１８３７は、以前フレームの時間ドメイン信号を利用して、ＯＬＡ処理を行い、その結果、現在フレームに対する最終時間ドメイン信号を生成し、後処理部１８７０に提供することができる。

時間ドメイン復号部１８５０は、符号化モードが、音声モードあるいは時間ドメインモードである場合に動作し、フレームエラーが発生した場合、ＦＥＣアルゴリズムあるいはＰＬＣアルゴリズムを動作させ、フレームエラーが発生していない場合、一般的なＣＥＬＰ復号過程を介して、時間ドメイン信号を生成する。

後処理部１８７０は、周波数ドメイン復号部１８３０あるいは時間ドメイン復号部１８５０から提供される時間ドメイン信号に対して、フィルタリングあるいはアップサンプリングなどを行うことができるが、それらに限定されるものではない。後処理部１６７０は、出力信号として、復元されたオーディオ信号を提供する。

図１９は、一実施形態によるスペクトル復号装置の構成を示すブロック図である。図１９に図示された装置は、図１８のスペクトル復号部１８３１に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。

図１９に図示されたスペクトル復号装置１９００は、エネルギー復号及び逆量子化部１９１０、ビット割当て部１９３０、スペクトル復号及び逆量子化部１９５０、ノイズフィリング部１９７０及びスペクトルシェーピング部１９９０を含んでもよい。ここで、ノイズフィリング部１９７０は、スペクトルシェーピング部１９９０の後端に位置することもできる。各構成要素は、少なくとも１以上のモジュールに一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図１９を参照すれば、エネルギー復号及び逆量子化部１９１０は、符号化過程において無損失符号化が行われたパラメータ、例えば、Ｎｏｒｍ値のようなエネルギーに対して無損失復号を行い、復号されたＮｏｒｍ値に対して逆量子化を行うことができる。符号化過程において、Ｎｏｒｍ値の量子化された方式に対応する方式を使用して逆量子化を行うことができる。

ビット割当て部１９３０は、量子化されたＮｏｒｍ値、あるいは逆量子化されたＮｏｒｍ値に基づいて、サブバンド別に必要とするビット数を割り当てることができる。その場合、サブバンド単位に割り当てられたビット数は、符号化過程で割り当てられたビット数と同一である。

スペクトル復号及び逆量子化部１９５０は、符号化されたスペクトル係数に対して、サブバンド別に割り当てられたビット数を使用して無損失復号を行い、復号されたスペクトル係数に対して逆量子化過程を行い、正規化されたスペクトル係数を生成することができる。

ノイズフィリング部１９７０は、正規化されたスペクトル係数のうち、サブバンド別にノイズフィリングを必要とする部分に対して、ノイズを充填することができる。

スペクトルシェーピング部１９９０は、逆量子化されたＮｏｒｍ値を利用して、正規化されたスペクトル係数をシェーピングすることができる。スペクトルシェーピング過程を介して、最終的に復号されたスペクトル係数が得られる。

図２０は、一実施形態によるスペクトル逆量子化装置の構成を示すブロック図である。図２０に図示された装置は、逆量子化期選択部２０１０、ＵＳＱ２０３０及びＴＣＱ２０５０を含んでもよい。

図２０において、逆量子化期選択部２０１０は、入力信号、すなわち、逆量子化される信号の特性によって、多様な逆量子化器のうち、最も効率的な逆量子化器を選択することができる。入力信号の特性としては、バンド別ビット割当て情報、バンドの大きさ情報などが使用可能である。選択結果によって、逆量子化される信号をＵＳＱ２０３０及びＴＣＱ２０５０のうち一つに提供し、対応する逆量子化を行うことができる。

図２１は、一実施形態によるスペクトル復号装置の構成を示すブロック図である。図２１に図示された装置は、図１９のスペクトル復号及び逆量子化部１９５０に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。

図２１に図示された装置は、復号方式選択部２１１０、ゼロ復号部２１３０、ＩＳＣ復号部２１５０、量子化成分復元部２１７０及び逆スケーリング部２１９０を含んでもよい。ここで、量子化成分復元部２１７０及び逆スケーリング部２１９０は、オプションとして具備される。

図２１において、復号方式選択部２１１０は、バンド別に割り当てられたビットに基づいて、復号方式を選択することができる。正規化されたスペクトルは、バンド別に選択された復号方式に基づいて、ゼロ復号部２１３０あるいはＩＳＣ復号部２１５０に提供される。

ゼロ復号部２１３０は、割り当てられたビットが０であるバンドに対して、全てのサンプルを０に復号することができる。

ＩＳＣ復号部２１５０は、割り当てられたビットが０ではないバンドに対して選択された逆量子化器を利用して、復号を行うことができる。ＩＳＣ復号部２１５０は、符号化されたスペクトルの各バンド別に、重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて復号することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号することができる。一例を挙げれば、重要周波数成分の大きさは、算術復号し、ＵＳＱ及びＴＣＱのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して、算術復号を行うことができる。逆量子化器選択は、図１０に図示されたＩＳＣ符号化部１０４０と同一結果を利用して行うことができる。ＩＳＣ復号部２１５０は、割り当てられたビットが０ではないバンドに対して、ＴＣＱ及びＵＳＱのうち一つを利用して逆量子化を行うことができる。

量子化成分復元部２１７０は、復元されたＩＳＣの位置、大きさ及び符号情報に基づいて、実際の量子化成分を復元することができる。ここで、ゼロ位置、すなわち、ゼロに復号されたスペクトル係数である量子化されていない部分には、０が割り当てられる。

さらに、逆スケーリング部（図示せず）を含んで復元された量子化成分に対して、逆スケーリングを行い、正規化されたスペクトルと同一レベルの量子化されたスペクトル係数を出力することができる。

図２２は、一実施形態によるＩＳＣ復号装置の構成を示すブロック図である。図２２の装置は、パルス数推定部２２１０及びＩＳＣ情報復号部２２３０を含んでもよい。図２２の装置は、図２１のＩＳＣ復号部２１５０に対応するか、あるいは独立した装置で具現される。

図２２において、パルス数推定部２２１０は、バンド大きさとビット割当て情報とを利用して、現在バンドで必要なパルス個数推定値を決定することができる。すなわち、現在フレームのビット割当て情報がエンコーダと同一であるので、同一ビット割当て情報を利用して、同一パルス個数推定値を導き出して復号を進める。

ＩＳＣ情報復号部２２３０は、推定されたパルス数に基づいて、ＩＳＣ情報、すなわち、ＩＳＣ個数情報、位置情報、大きさ情報及び符号を復号することができる。

図２３は、一実施形態によるＩＳＣ情報復号装置の構成を示すブロック図である。図２３に図示された装置は、位置情報復号部２３１０、大きさ情報復号部２３３０及び符号復号部２３５０を含んでもよい。

図２３において、位置情報復号部２３１０は、ビットストリームに含まれた位置情報と係わるインデックスを復号し、ＩＳＣの数及び位置を復元することができる。位置情報の復号には、算術復号が使用される。大きさ情報復号部２３３０は、ビットストリームに含まれた大きさ情報と係わるインデックスに対して算術復号を行い、復号されたインデックスに対して、ＴＣＱ及びＵＳＱのうち一つを選択し、逆量子化を行うことができる。算術復号の効率を高めるために、ノンゼロ位置情報、及びＩＳＣの数が使用される。符号復号部２３５０は、ビットストリームに含まれた符号情報と係わるインデックスを復号し、ＩＳＣの符号を復元することができる。符号情報の復号には、算術復号が使用される。一実施形態によれば、ノンゼロバンドが必要とするパルス数を推定し、位置情報、大きさ情報あるいは符号情報復号に使用することができる。

図２４は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。図２４に図示された装置は、図１９のスペクトル復号及び逆量子化部１９５０に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。

図２４に図示された装置は、ＩＳＣ復号部２４５０、量子化成分復元部２４７０及び逆スケーリング部２４９０を含んでもよい。図２１と比較するとき、復号方式選択部２１１０とゼロ復号部２１３０とが省略されており、ＩＳＣ復号部２４５０がＴＣＱを使用するということを除いては、各構成要素の動作は同一である。

図２５は、他の実施形態によるスペクトル復号装置の構成を示すブロック図である。図２５に図示された装置は、図１９のスペクトル復号及び逆量子化部１９５０に対応するか、他の周波数ドメイン復号装置に含まれるか、あるいは独立しても具現される。

図２５に図示された装置は、復号方式選択部２５１０、ＩＳＣ復号部２５５０、量子化成分復元部２５７０及び逆スケーリング部２５９０を含んでもよい。図２１と比較するとき、ゼロ復号部２１３０が省略されているということを除いては、各構成要素の動作は同一である。

図２６は、他の実施形態によるＩＳＣ情報符号化装置の構成を示すブロック図である。図２６の装置は、確率算出部２６１０と無損失符号化部２６３０とを含んでもよい。

図２６において、確率算出部２６１０は、ＩＳＣ個数、パルス個数、ＴＣＱ情報を利用して、下記数式（８），（９）によって、大きさ符号化のための確率値を計算することができる。

ここで、

は、各バンドで伝送されるＩＳＣ個数のうち符号化されて残った個数を意味し、

は、各バンドで伝送されるパルスの個数のうち、符号化されて残った個数を示し、Ｍｓは、トレリス状態で存在する大きさの集合を意味する。そして、ｊは、大きさのうち符号化されたパルス個数を意味する。

無損失符号化部２６３０は、その求められた確率値を利用して、ＴＣＱ大きさ情報、すなわち、大きさと経路情報とを無損失符号化することができる。各大きさのパルス個数は、

値と

値とによって符号化される。ここで、

値は、以前大きさの最後のパルスの確率を意味する。そして、

値は、それ以外の他のパルスに該当する確率を意味する。最終的に、そのように求められた確率値によって、符号化されたインデックスを出力する。

図２７は、他の実施形態によるＩＳＣ情報復号装置の構成を示すブロック図である。図２７の装置は、確率算出部２７１０と無損失復号部２７３０とを含んでもよい。

図２７において、確率算出部２７１０は、ＩＳＣ情報（個数ｉ、位置）、ＴＣＱ情報、パルス個数ｍ、及びバンドの大きさｎを利用して、大きさ（magnitude）符号化のための確率値を計算することができる。それのために、まず、求められたパルス個数とバンド大きさとを利用して、必要なビット情報ｂを求める。そのとき、前記数式（１）のように求めることができる。その後、求められたビット情報ｂ、ＩＳＣ個数、ＩＳＣ位置そしてＴＣＱ情報を利用して、前記数式（８），（９）に基づいて、大きさ符号化のための確率値を計算する。

無損失復号部２７３０は、符号化装置と同一に求められた確率値と、伝送されたインデックス情報とを利用して、ＴＣＱ大きさ情報、すなわち、大きさ（magnitude）情報と経路（path）情報とを無損失復号することができる。それのために、まず、確率値を利用して、個数情報に係わる算術符号化モデルを作り、その求められたモデルを利用して、ＴＣＱ大きさ情報の算術復号を遂行してＴＣＱ大きさ情報を復号する。具体的には、各大きさのパルス個数は、

値と

値とによって復号される。ここで、

値は、以前大きさの最後のパルス確率を意味する。そして、

値は、それ以外の他のパルスに該当する確率を意味する。最終的に、そのように求められた確率値によって復号されたＴＣＱ情報、すなわち、大きさ情報と経路情報とを出力する。

図２８は、本発明の一実施形態による符号化モジュールを含むマルチメディア機器の構成を示したブロック図である。

図２８に図示されたマルチメディア機器２８００は、通信部２８１０と符号化モジュール２８３０とを含んでもよい。また、符号化の結果として得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部２８５０をさらに含んでもよい。また、マルチメディア機器２８００は、マイクロホン２８７０をさらに含んでもよい。すなわち、保存部２４５０とマイクロホン２８７０は、オプションとして具備される。一方、図２８に図示されたマルチメディア機器２８００は、任意の復号モジュール（図示せず）、例えば、一般的な復号機能を遂行する復号モジュール、あるいは本発明の一実施形態による復号モジュールをさらに含んでもよい。ここで、符号化モジュール２８３０、マルチメディア機器２８００に具備される他の構成要素（図示せず）と共に一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図２８を参照すれば、通信部２８１０は、外部から提供されるオーディオと、符号化されたビットストリームとのうち少なくとも一つを受信するか、復元されたオーディオと、符号化モジュール２８３０の符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。

通信部２８１０は、無線インターネット、無線イントラネット、無線電話網、無線ＬＡＮ（local area network）、Ｗｉ−Ｆｉ（wireless fidelity）、ＷＦＤ（Ｗｉ−Ｆｉ direct）、３Ｇ（３rd generation）、４Ｇ（４th generation）、ブルートゥース（Bluetooth（登録商標））、赤外線通信（ＩｒＤＡ：infrared data association）、ＲＦＩＤ（radio frequency identification）、ＵＷＢ（ultra wideband）、ジグビー（ZigBee（登録商標））、ＮＦＣ（near field communication）のような無線ネットワーク、または有線電話網、有線インターネットのような有線ネットワークを介して、外部のマルチメディア機器あるいはサーバとデータを送受信することができるように構成される。

符号化モジュール２８３０は、一実施形態によれば、正規化されたスペクトルに対して、各バンド別に重要周波数成分を選択し、各バンド別に選択された重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて符号化することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって符号化することができ、一例を挙げれば、重要周波数成分の大きさは、ＵＳＱ及びＴＣＱのうち一つを利用して量子化して算術符号化する一方、重要周波数成分の数、位置及び符号に対して、算術符号化を行うことができる。一実施形態によれば、正規化されたスペクトルを、各バンド別に割り当てられたビットに基づいてスケーリングを行い、スケーリングされたスペクトルに対して、重要周波数成分を選択することができる。

保存部２８５０は、マルチメディア機器２８００の運用に必要な多様なプログラムを保存することができる。

マイクロホン２８７０は、ユーザ、あるいは外部のオーディオ信号を符号化モジュール２８３０に提供することができる。

図２９は、本発明の一実施形態による復号モジュールを含むマルチメディア機器の構成を示したブロック図である。

図２９に図示されたマルチメディア機器２９００は、通信部２９１０と復号モジュール２９２０とを含んでもよい。また、復号の結果として得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部２９６０をさらに含んでもよい。また、マルチメディア機器２９００は、スピーカ２９７０をさらに含んでもよい。すなわち、保存部２９６０とスピーカ２９７０は、オプションとして具備される。一方、図２９に図示されたマルチメディア機器２９００は、任意の符号化モジュール（図示せず）、例えば、一般的な符号化機能を遂行する符号化モジュール、あるいは本発明の一実施形態による符号化モジュールをさらに含んでもよい。ここで、復号モジュール２９２０は、マルチメディア機器２９００に具備される他の構成要素（図示せず）と共に一体化され、少なくとも１つの以上のプロセッサ（図示せず）としても具現される。

図２９を参照すれば、通信部２９１０は、外部から提供される符号化されたビットストリームと、オーディオ信号とのうち少なくとも一つを受信するか、あるいは復号モジュール２９２０の復号結果として得られる復元されたオーディオ信号と、符号化の結果として得られるオーディオビットストリームとのうち少なくとも一つを送信することができる。一方、通信部２９１０は、図２８の通信部２８１０と実質的に類似して具現される。

復号モジュール２９２０は、一実施形態によれば、通信部２９１０を介して提供されるビットストリームを受信し、符号化されたスペクトルの各バンド別に、重要周波数成分の情報を得て、各バンド別に得られた重要周波数成分の情報を、数、位置、大きさ及び符号に基づいて復号することができる。重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号することができ、一例を挙げれば、重要周波数成分の大きさは、算術復号し、ＵＳＱ及びＴＣＱのうち一つを利用して逆量子化する一方、重要周波数成分の数、位置及び符号に対して、算術復号を行うことができる。

保存部２９６０は、復号モジュール２９２０で生成される復元されたオーディオ信号を保存することができる。一方、保存部２９６０は、マルチメディア機器２９００の運用に必要な多様なプログラムを保存することができる。

スピーカー２９７０は、復号モジュール２９２０で生成される復元されたオーディオ信号を外部に出力することができる。

図３０は、本発明の一実施形態による符号化モジュールと復号モジュールとを含むマルチメディア機器の構成を示したブロック図である。

図３０に図示されたマルチメディア機器３０００は、通信部３０１０、符号化モジュール３０２０及び復号モジュール３０３０を含んでもよい。また、符号化の結果として得られるオーディオビットストリーム、あるいは復号結果として得られる復元されたオーディオ信号の用途によって、オーディオビットストリーム、あるいは復元されたオーディオ信号を保存する保存部３０４０をさらに含んでもよい。また、マルチメディア機器３０００は、マイクロホン３０５０あるいはスピーカ３０６０をさらに含んでもよい。ここで、符号化モジュール３０２０と復号モジュール３０３０は、マルチメディア機器３０００に具備される他の構成要素（図示せず）と共に一体化され、少なくとも１以上のプロセッサ（図示せず）としても具現される。

図３０に図示された各構成要素は、図２８に図示されたマルチメディア機器２８００の構成要素、あるいは図２９に図示されたマルチメディア機器２９００の構成要素と重複するので、その詳細な説明は省略する。

図２８ないし図３０に図示されたマルチメディア機器２８００，２９００，３０００には、電話、モバイルフォンなどを含む音声通信専用端末；ＴＶ（television）、ＭＰ３プレーヤなどを含む放送専用装置あるいは音楽専用装置；あるいは音声通信専用端末と、放送専用装置あるいは音楽専用装置との融合端末装置；テレカンファレンシングシステムあるいはインタラクションシステムのユーザ端末が含まれてもよいが、それらに限定されるものではない。また、マルチメディア機器２８００，２９００，３０００は、クライアント、サーバ、あるいはクライアントとサーバとの間に配置される変換器としても使用される。

一方、マルチメディア機器２８００，２９００，３０００が、例えば、モバイルフォンである場合、図示されてはいないが、キーパッドのようなユーザ入力部；ユーザインターフェース、あるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部；モバイルフォンの全般的な機能を制御するプロセッサをさらに含んでもよい。また、モバイルフォンは、撮像機能を有するカメラ部と、モバイルフォンで必要とする機能を遂行する少なくとも１以上の構成要素とをさらに含んでもよい。

一方、マルチメディア機器２８００，２９００，３０００が、例えば、ＴＶである場合、図示されてはいないが、キーパッドのようなユーザ入力部、受信された放送情報をディスプレイするディスプレイ部、ＴＶの全般的な機能を制御するプロセッサをさらに含んでもよい。また、ＴＶは、ＴＶで必要とする機能を遂行する少なくとも１以上の構成要素をさらに含んでもよい。

図３１は、一実施形態による、スペクトルの微細構造符号化方法の動作を示したフローチャートである。図３１を参照すれば、３１１０段階においては、符号化方式が選択される。そのために、各バンドに係わる情報及びビット割当て情報が使用される。ここで、符号化方式は、量子化方式を含んでもよい。

３１３０段階においては、現在バンドが、ビット割り当てがゼロであるバンド、すなわち、ゼロバンドであるか否かということを判断し、ゼロバンドである場合、３２５０段階に進み、ノンゼロバンドである場合、３２７０段階に進む。

３１５０段階においては、ゼロバンドにある全てのサンプルをゼロに符号化することができる。

３１７０段階においては、ゼロバンドではないバンドが選択された量子化方式に基づいて符号化することができる。一実施形態によれば、バンド長及びビット割当て情報を使用して、バンド当たりパルス個数を推定し、ノンゼロ位置個数を決定し、ノンゼロ位置の必要ビット数を推定し、最終パルス数を決定することができる。次に、バンド当たりパルス個数と、入力信号の絶対値とに基づいて、初期スケーリングファクタを決定し、初期スケーリングファクタによるスケーリング及びパルス再分配過程を介して、スケーリングファクタをアップデートすることができる。最終アップデートされたスケーリングファクタを利用して、スペクトル係数をスケーリングし、スケーリングされたスペクトル係数を使用して、適切なＩＳＣが選択される。量子化するスペクトル成分は、各バンドのビット割当て情報に基づいて選択される。次に、収集されたＩＳＣの大きさが、ＵＳＣジョイント方式及びＴＣＱジョイント方式によって量子化されて算術符号化される。ここで、算術符号化の効率を高めるために、ノンゼロ位置とＩＳＣの数とが使用される。ＵＳＣジョイント方式及びＴＣＱジョイント方式は、帯域幅によって、第１ジョイント方式と第２ジョイント方式とを有する。第１ジョイント方式は、以前バンドからの余剰ビットに対する二次ビット割当て処理を利用して、量子化器選択が行われるものであり、ＮＢ及びＷＢに使用され、第２ジョイント方式は、ＵＳＱと決定されたバンドについて、ＬＳＢについては、ＴＣＱを使用し、残りのビットは、ＵＳＱを使用する方式であり、ＳＷＢ及びＦＢに使用することができる。一方、選択されたＩＳＣの符号情報は、正負の符号に対して同一確率で算術復号される。

３１７０段階以後、追加して量子化成分を復元する段階と、バンドを逆スケーリングする段階とを具備することができる。各バンドの実際の量子化成分を復元するために、量子化成分に、位置、符号、大きさ情報が付加されてもよい。ゼロ位置には、ゼロが割り当てられる。一方、スケーリング時に使用されたものと同一スケーリングファクタを使用して、逆スケーリングファクタを抽出し、復元された実際の量子化成分に対して、逆スケーリングを行うことができる。逆スケーリングされた信号は、正規化されたスペクトル、すなわち、入力信号と同一レベルを有することができる。

図３１の各段階については、必要によって、前述の符号化装置の各構成要素の動作がさらに付加されてもよい。

図３２は、一実施形態による、スペクトルの微細構造復号方法の動作を示したフローチャートである。図３２の方法によれば、正規化されたスペクトルの微細構造を逆量子化するために、各バンドに対して、ＩＳＣと、選択されたＩＳＣに係わる情報とが位置、数、符号及び大きいによって復号される。ここで、大きさ情報は、算術復号、並びにＵＳＱジョイント方式及びＴＣＱジョイント方式によって復号され、位置、数、符号情報は、算術復号によって復号される。

具体的には、図３２を参照すれば、３２１０段階においては、復号方式が選択される。そのために、各バンドに係わる情報及びビット割当て情報が使用される。ここで、復号方式は、逆量子化方式を含んでもよい。逆量子化方式は、前述の符号化装置で適用された量子化方式選択と同一過程を介して選択される。

３２３０段階においては、現在バンドが、ビット割り当てがゼロであるバンド、すなわち、ゼロバンドであるか否かということを判断し、ゼロバンドである場合、３２５０段階に進み、ノンゼロバンドである場合、３２７０段階に進む。

３２５０段階においては、ゼロバンドにある全てのサンプルをゼロに復号することができる。

３２７０段階においては、ゼロバンドではないバンドが選択された逆量子化方式に基づいて復号することができる。一実施形態によれば、バンド長及びビット割当て情報を使用して、バンド当たりパルス個数を推定あるいは決定することができる。それは、前述の符号化装置で適用されたスケーリングと同一過程を介して遂行される。次に、ＩＳＣの位置情報、すなわち、ＩＳＣの数及び位置を復元することができる。それは、前述の符号化装置と類似して処理され、適切な復号のために、同一確率値が使用される。次に、収集されたＩＳＣの大きさが、算術復号によって復号され、ＵＳＣジョイント方式及びＴＣＱジョイント方式によって逆量子化される。ここで、ノンゼロ位置とＩＳＣの数とが算術復号のために使用される。ＵＳＣジョイント方式及びＴＣＱジョイント方式は、帯域幅によって第１ジョイント方式と第２ジョイント方式とを有する。第１ジョイント方式は、以前バンドからの余剰ビットに対する二次ビット割当て処理を追加して利用して、量子化器選択が遂行されるものであり、ＮＢ及びＷＢに使用され、第２ジョイント方式は、ＵＳＱと決定されたバンドに対して、ＬＳＢについては、ＴＣＱを使用し、残りのビットは、ＵＳＱを使用する方式であり、ＳＷＢ及びＦＢに使用することができる。一方、選択されたＩＳＣの符号情報は、正負の符号に対して、同一確率で算術復号される。

３２７０段階以後、追加して量子化成分を復元する段階と、バンドを逆スケーリングする段階とを具備することができる。各バンドの実際の量子化成分を復元するために、量子化成分に位置、符号、大きさ情報が付加されてもよい。伝送されるデータがないバンドは、ゼロで充填される。次に、ノンゼロバンドにあるパルス数が推定され、ＩＳＣの数及び位置を含む位置情報が、推定されたパルス数に基づいて復号される。大きさ情報については、無損失復号、並びにＵＳＣジョイント方式及びＴＣＱジョイント方式による復号が行われる。ノンゼロ大きさ値については、符号及び量子化された成分が最終的に復元される。一方、復元された実際の量子化成分に対して、伝送されたｎｏｒｍ情報を使用し、て逆スケーリングが行われる。

図３２の各段階については、必要によって、前述の復号装置の各構成要素の動作がさらに付加されてもよい。

前記実施形態は、コンピュータで実行されるプログラムに作成可能で、コンピュータで読み取り可能な記録媒体を利用して、前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述の本発明の実施形態で使用されるデータ構造、プログラム命令あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に多様な手段を介して記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取り可能なデータが保存される全種の保存装置を含んでもよい。コンピュータで読み取り可能な記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体（magnetic media）；ＣＤ（compact disc）−ＲＯＭ（read only memory）、ＤＶＤ（digital versatile disc）のような光記録媒体（optical media）；フロプティカルディスク（floptical disk）のような磁気・光媒体（magneto-optical media）；及びＲＯＭ、ＲＡＭ（random access memory）、フラッシュメモリのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれてもよい。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体でもある。プログラム命令の例としては、コンパイラによって作われるような機械語コードだけではなく、インタープリタなどを使用して、コンピュータによって実行される高級言語コードを含んでもよい。

以上、本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたとしても、本発明の一実施形態は、前述の実施形態に限定されるものではなく、それらは、本発明が属する分野で当業者であるならば、そのような記載から多様な修正及び変形が可能であろう。従って、本発明のスコープは、前述の説明ではなく、特許請求の範囲に示されており、それと均等または等価的な変形は、いずれも本発明の技術的思想範疇に属するものである。

Claims

少なくとも各バンドのビット割当て情報に基づいて符号化方式を選択する段階と、
ゼロバンドに対してゼロ符号化を行う段階と、
各ノンゼロバンドに対して選択された重要周波数成分の情報を符号化する段階と、を含むスペクトル符号化方法。
前記選択された重要周波数成分の情報は、数、位置、大きさ及び符号を含むことを特徴とする請求項１に記載のスペクトル符号化方法。
前記重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって符号化することを特徴とする請求項２に記載のスペクトル符号化方法。
前記重要周波数成分の大きさは、ＵＳＱ（uniform scalar quantization）とＴＣＱ（trellis coded quantization）とのうち一つを利用して符号化することを特徴とする請求項２に記載のスペクトル符号化方法。
前記各ノンゼロバンドに対して選択された重要周波数成分の情報を符号化する段階は、正規化されたスペクトルを各バンド別に割り当てられたビットに基づいてスケーリングを行う段階を含み、スケーリングされたスペクトルに対して、前記重要周波数成分を選択することを特徴とする請求項１に記載のスペクトル符号化方法。
前記各ノンゼロバンドに対して選択された重要周波数成分の情報を符号化する段階は、前記重要周波数成分の大きさに対して、バンドの各サンプルに割り当てられた平均ビット数に基づいて、ＵＳＱとＴＣＱとのうち一つを利用して符号化することを特徴とする請求項１に記載のスペクトル符号化方法。
前記各ノンゼロバンドに対して選択された重要周波数成分の情報を符号化する段階は、ＵＳＱと決定されたバンドに対して、帯域幅によって、前記重要周波数成分の大きさのＬＳＢ（least significant bitｓ）に対してＴＣＱを使用し、残りのビットは、ＵＳＱを使用することを特徴とする請求項１に記載のスペクトル符号化方法。
前記帯域幅は、ＮＢあるいはＷＢであることを特徴とする請求項７に記載のスペクトル符号化方法。
少なくとも各バンドのビット割当て情報に基づいて復号方式を選択する段階と、
ゼロバンドに対してゼロ復号を行う段階と、
各ノンゼロバンドに対して得られた重要周波数成分の情報を復号する段階と、を含むスペクトル復号方法。
前記得られた重要周波数成分の情報は、数、位置、大きさ及び符号を含むことを特徴とする請求項９に記載のスペクトル復号方法。
前記重要周波数成分の大きさは、数、位置及び符号とは異なる方式によって復号することを特徴とする請求項１０に記載のスペクトル復号方法。
前記重要周波数成分の大きさは、ＵＳＱとＴＣＱとのうち一つを利用して復号することを特徴とする請求項１０に記載のスペクトル復号方法。
前記重要周波数成分の数、位置及び符号に対して算術復号を行うことを特徴とする請求項１０に記載のスペクトル復号方法。
前記各ノンゼロバンドに対して得られた重要周波数成分の情報を復号する段階は、ＵＳＱと決定されたバンドに対して、帯域幅によって、前記重要周波数成分の大きさのＬＳＢに対してＴＣＱを使用し、残りのビットは、ＵＳＱを使用することを特徴とする請求項９に記載のスペクトル復号方法。
前記帯域幅は、ＮＢあるいはＷＢであることを特徴とする請求項１４に記載のスペクトル復号方法。