JP6726785B2

JP6726785B2 - ビット割り当て装置

Info

Publication number: JP6726785B2
Application number: JP2019079583A
Authority: JP
Inventors: キム，ミ−ヨン; ポロフ，アントン; オ，ウン−ミ
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2011-05-13
Filing date: 2019-04-18
Publication date: 2020-07-22
Anticipated expiration: 2032-05-14
Also published as: TW201301264A; US20180012605A1; KR20120127334A; US20170316785A1; US20120290307A1; TW201705123A; KR102053900B1; RU2013155482A; US9236057B2; KR20200143332A; WO2012157932A3; CN105825859B; JP2014514617A; KR20120127335A; KR20220004778A; CA2836122C; EP3937168A1; WO2012157931A2; TW201250672A; CN105825859A

Description

本発明は、オーディオ符号化／復号化に係り、さらに具体的には、知覚的に重要な周波数領域にサブバンド単位で効率的にビットを割り当てる方法、オーディオ符号化方法及び装置、オーディオ復号化方法及び装置、記録媒体とこれを採用するマルチメディア機器に関する。

オーディオ信号を符号化または復号化する場合、限定されたビットを効率的に用いることで、該ビット範囲で最上の音質を持つオーディオ信号を復元することが求められる。特に、低いビット率では特定周波数領域にビットが集中せず、知覚的に重要な周波数領域にビットが均一に割り当てられるようにオーディオ信号を符号化及び復号化する技術を必要とする。

本発明が解決しようとする課題は、知覚的に重要な周波数領域にサブバンド単位で効率的にビットを割り当てる方法及び装置、オーディオ符号化方法及び装置、オーディオ復号化方法及び装置、記録媒体とこれを採用するマルチメディア機器を提供することである。

本発明が解決しようとする他の課題は、知覚的に重要な周波数領域に低い複雑度でサブバンド単位で効率的にビットを割り当てる方法及び装置、オーディオ符号化方法及び装置、オーディオ復号化方法及び装置、記録媒体とこれを採用するマルチメディア機器を提供することである。

前記課題を解決するための本発明の一実施形態によるビット割り当て方法は、与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのＳＮＲを最大化させるように、前記周波数バンド単位で割り当てビット数を小数点単位で定める段階と、前記周波数バンド単位で定められた割り当てビット数を調整する段階と、を含む。

前記課題を解決するための本発明の一実施形態によるビット割り当て装置は、時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、前記オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、を備える。

前記課題を解決するための本発明の一実施形態によるオーディオ符号化装置は、時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、前記オーディオスペクトルで与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのＳＮＲを最大化させるように前記周波数バンド単位で割り当てビット数を小数点単位で定め、前記周波数バンド単位で定められた割り当てビット数を調整するビット割り当て部と、前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて前記オーディオスペクトルを符号化する符号化部と、を備える。

前記課題を解決するための本発明の一実施形態によるオーディオ符号化装置は、時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、前記オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて前記オーディオスペクトルを符号化する符号化部と、を備える。

前記課題を解決するための本発明の一実施形態によるオーディオ復号化装置は、与えられたフレームに対して使用可能なビット数範囲内で、各周波数バンドに存在するスペクトルのＳＮＲを最大化させるように、前記周波数バンド単位で割り当てビット数を小数点単位で定め、前記周波数バンド単位で定められた割り当てビット数を調整するビット割り当て部と、前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化する復号化部と、前記復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換する逆変換部と、を備える。

前記課題を解決するための本発明の一実施形態によるオーディオ復号化装置は、与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化する復号化部と、前記復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換する逆変換部と、を備える。

本発明によれば、知覚的なモデリングを用いてサブバンド単位で小数点単位の最大許容ビット数を計算し、最大許容ビット数を超えないように制限して他のサブバンドに割り当てられるように調節する。その結果、特定サブバンドに必要以上にビットを使わないように他のサブバンドにビットを再分配することで、さらに効率的なビット割り当てになるようにする。また、サブバンド単位で必要なビット数を数式的に推定することで、低い複雑度で具現でき、小数点単位のビット割り当てが可能になってサブバンド単位で必要とする最適のビットを求める。

本発明の一実施形態によるオーディオ符号化装置の構成を示すブロック図である。図１において、本発明の一実施形態によるビット割り当て部の構成を示すブロック図である。図１において、本発明の他の実施形態によるビット割り当て部の構成を示すブロック図である。図１において、本発明の他の実施形態によるビット割り当て部の構成を示すブロック図である。図１において、本発明の一実施形態による符号化部の構成を示すブロック図である。本発明の他の実施形態によるオーディオ符号化装置の構成を示すブロック図である。本発明の一実施形態によるオーディオ復号化装置の構成を示すブロック図である。図７において、本発明の一実施形態によるビット割り当て部の構成を示すブロック図である。図７において、本発明の一実施形態による復号化部の構成を示すブロック図である。図７において、本発明の他の実施形態による復号化部の構成を示すブロック図である。図７において、本発明の他の実施形態による復号化部の構成を示すブロック図である。本発明の他の実施形態によるオーディオ復号化装置の構成を示すブロック図である。本発明の他の実施形態によるオーディオ復号化装置の構成を示すブロック図である。本発明の一実施形態によるビット割り当て方法の動作を説明するフローチャートである。本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。本発明の一実施形態による符号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。本発明の一実施形態による復号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。本発明の一実施形態による符号化モジュール及び復号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。

本発明は、多様な変換を加えられ、かつ様々な実施形態を持つことができるところ、特定の実施形態を図面に例示して詳細な説明に具体的に説明しようとする。しかし、これは本発明を特定の実施形態について限定しようとするものではなく、本発明の技術的思想及び技術範囲に含まれるすべての変換、均等物ないし代替物を含むと理解できる。本発明を説明するにあたって、かかる公知技術についての具体的な説明が本発明の趣旨を不明にすると判断される場合、その詳細な説明を略する。

第１、第２などの用語は、多様な構成要素の説明に使われるが、構成要素が用語によって限定されるものではない。用語は、一つの構成要素を他の構成要素から区別する目的のみで使われる。

本発明で使った用語は、単に特定の実施形態を説明するために使われたものであり、本発明を限定しようとする意図ではない。本発明で使った用語は、本発明での機能を考慮してなるべく現在広く使われる一般的な用語を選択したが、これは当業者の意図、判例、または新たな技術の出現などによって変わりうる。また、特定の場合には出願人が任意に選定した用語もあり、この場合、該発明の説明部分で詳細にその意味を記載する。したがって、本発明で使われる用語は単純な用語の名称ではない、その用語が持つ意味及び本発明の全般的な内容に基づいて定義されねばならない。

単数の表現は、文脈上明らかに断らない限り、複数の表現を含む。本発明で、“含む”または“持つ”などの用語は、明細書上に記載の特徴、数字、段階、動作、構成要素、部品またはこれらを組み合わせたものの存在を指定しようとするものであり、一つまたはそれ以上の他の特徴や数字、段階、動作、構成要素、部品またはこれらを組み合わせたものなどの存在または付加可能性を予め排除しないと理解されねばならない。

以下、本発明の実施形態を添付図面を参照して詳細に説明し、添付図面を参照して説明するにあたって、同一または対応する構成要素には同じ図面番号をつけ、これについていの重なる説明は略する。

図１は、本発明の一実施形態によるオーディオ符号化装置１００の構成を示すブロック図である。図１に示されたオーディオ符号化装置１００は、変換部１３０、ビット割り当て部１５０、符号化部１７０及び多重化部１９０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。ここで、オーディオは、オーディオあるいは音声、またはオーディオと音声との混合信号を意味するが、以下では、説明の便宜のためにオーディオと通称する。

図１を参照すれば、変換部１３０は、時間ドメインのオーディオ信号を周波数ドメインに変換してオーディオスペクトルを生成する。この時、時間／周波数ドメイン変換は、ＤＣＴなどの公知の多様な方法を使って行う。

ビット割り当て部１５０は、オーディオスペクトルについてスペクトルエネルギーあるいは心理音響モデルを用いて得られるマスキングしきい値と、スペクトルエネルギーを用いて各サブバンド単位で割り当てビット数とを定める。ここで、サブバンドは、オーディオスペクトルのサンプルをグルーピングした単位であり、しきい帯域を反映して均一あるいは不均一な長さを持つ。不均一な場合、１フレームについて最初のサンプルから最後のサンプルに至るまでサブバンドに含まれるサンプルの数が段々増加するようにサブバンドを設定する。ここで、１フレームに含まれるサブバンドの数あるいはサブバンドに含まれるサンプルの数は既定のものでありうる。または、１フレームについて所定数の均一長さのサブバンドに分けた後、スペクトル係数の分布によって長さを調整する。スペクトル係数の分布は、スペクトル平坦度、最大値と最小値との差あるいは最大値の微分値などを用いて定める。

一実施形態によれば、ビット割り当て部１５０は、各サブバンド単位で求められたＮｏｒｍ値、すなわち、平均スペクトルエネルギーを用いて許容ビット数を推定し、平均スペクトルエネルギーを用いてビットを割り当て、割り当てビット数が許容ビット数を超えないように制限する。

他の実施形態によれば、ビット割り当て部１５０は、各サブバンド単位で心理音響モデルを用いて許容ビット数を推定し、平均スペクトルエネルギーを用いてビットを割り当て、割り当てビット数が許容ビット数を超えないように制限する。

符号化部１７０は、各サブバンド単位で最終的に定められた割り当てビット数に基づいてオーディオスペクトルを量子化及び無損失符号化し、符号化されたスペクトルに関する情報を生成する。

多重化部１９０は、ビット割り当て部１５０から提供される符号化されたＮｏｒｍ値と、符号化部１７０に提供される符号化されたスペクトルに関する情報とを多重化してビットストリームを生成する。

一方、オーディオ符号化装置１００は、オプションで与えられたサブバンドについてノイズレベルを生成し、オーディオ復号化装置７００（図７）、１２００（図１２）、１３００（図１３）に提供する。

図２は、図１において、本発明の一実施形態によるビット割り当て部２００の構成を示すブロック図である。図２に示されたビット割り当て部２００は、Ｎｏｒｍ推定部２１０、Ｎｏｒｍ符号化部２３０及びビット推定及び割り当て部２５０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。

図２を参照すれば、Ｎｏｒｍ推定部２１０は、各サブバンド単位で平均スペクトルエネルギーに該当するＮｏｒｍ値を求める。この時、一例として、ＩＴＵ−ＴＧ．７１９で適用される下記の数式（１）のようにＮｏｒｍ値を計算できるが、これに限定されるものではない。

ここで、１フレームにＰ個のサブバンドあるいはサブベクトルが存在する場合、Ｎ（ｐ）は、サブバンドあるいはサブベクトルｐのＮｏｒｍ値、Ｌ_ｐは、サブバンドあるいはサブベクトルｐの長さ、すなわち、サンプルあるいはスペクトル係数の数、ｓ_ｐ及びｅ_ｐは、サブバンドｐの最初及び最後のサンプル、ｙ（ｋ）は、サンプルのサイズあるいはスペクトル係数（すなわち、エネルギー）をそれぞれ意味する。

一方、各サブバンドについて求められたＮｏｒｍ値は、符号化部１５０（図１）に提供される。

Ｎｏｒｍ符号化部２３０は、各サブバンドについて求められたＮｏｒｍ値を量子化及び無損失符号化する。ここで、各サブバンド単位で量子化されたＮｏｒｍ値は、ビット推定及び割り当て部２５０に提供されるか、または各サブバンド単位で再び逆量子化されたＮｏｒｍ値は、ビット推定及び割り当て部２５０に提供される。一方、各サブバンド単位で量子化及び無損失符号化されたＮｏｒｍ値は、多重化部１９０（図１）に提供される。

ビット推定及び割り当て部２５０は、各サブバンド単位で、Ｎｏｒｍ値を用いて必要とするビット数を推定して割り当てる。望ましくは、符号化部及び復号化部で同じビット推定及び割り当てプロセスを用いるように、逆量子化されたＮｏｒｍ値を使う。この時、マスキング効果を考慮して調整されたＮｏｒｍ値を使える。Ｎｏｒｍ値の調整には、一例として、下記の数式（２）のようにＩＴＵ−ＴＧ．７１９で適用される心理音響加重（ｐｓｙｃｈｏ−ａｃｏｕｓｔｉｃａｌｗｅｉｇｈｔｉｎｇ）を用いられるが、これに限定されるものではない。

ここで、

は、サブバンドｐの量子化されたＮｏｒｍ値のインデックス、

は、サブバンドｐの調整されたＮｏｒｍ値のインデックス、

は、Ｎｏｒｍ値調整のためのオフセットスペクトルをそれぞれ示す。

ビット推定及び割り当て部２５０は、各サブバンド単位で、Ｎｏｒｍ値を用いてマスキングしきい値を計算し、マスキングしきい値を用いて知覚的に必要なビット数を予測する。このために、先ず、各サブバンドについて求められたＮｏｒｍ値は、下記の数式（３）のようにｄＢ単位のスペクトルエネルギーと等価的に表現される。

一方、スペクトルエネルギーを用いてマスキングしきい値を求める方法は、公知の多様な方法を使える。すなわち、マスキングしきい値は、ＪＮＤ（ＪｕｓｔＮｏｔｉｃｅａｂｌｅＤｉｓｔｏｒｔｉｏｎ）に該当する値であり、量子化ノイズがマスキングしきい値より小さい場合、知覚的なノイズが感じられない。よって、知覚的なノイズを感じられなくするのに必要な最小ビット数を、マスキングしきい値を用いて計算する。一実施形態で、各サブバンド単位で、Ｎｏｒｍ値とマスキングしきい値との比を用いてＳＭＲ（Ｓｉｇｎａｌ−ｔｏ−ＭａｓｋＲａｔｉｏ）を計算し、ＳＭＲについて、６．０２５ｄＢ≒１ビットの関係を用いてマスキングしきい値を満たすビット数を予測する。ここで、予測されたビット数は、知覚的なノイズを感じられなくするのに必要な最小ビット数であるが、圧縮側面からみれば、予測されたビット数以上に使う必要がないので、サブバンド単位で許容される最大ビット数（以下、許容ビット数と略称）と見なされる。この時、各サブバンドの許容ビット数は、小数点単位で表現される。

ビット推定及び割り当て部２５０は、各サブバンド単位で、Ｎｏｒｍ値を用いて小数点単位のビット割り当てを行う。この時、Ｎｏｒｍ値の大きいサブバンドから順次にビットを割り当てるが、各サブバンドのＮｏｒｍ値に対して各サブバンドの知覚的重要度によって加重値を付与することで、知覚的に重要なサブバンドにさらに多いビットが割り当てられるように調整する。知覚的重要度は、一例としてＩＴＵ−ＴＧ．７１９でのような心理音響加重を通じて定める。

具体的に、ビット推定及び割り当て部２５０は、Ｎｏｒｍ値の大きいサブバンドから順次にサンプル別にビットを割り当てる。すなわち、優先的に最大Ｎｏｒｍ値を持つサブバンドについてサンプル当たりビットを割り当て、該サブバンドのＮｏｒｍ値を所定単位ほど低減させて他のサブバンドにビットを割り当てるように優先順位を変更する。このような過程は、与えられたフレームで使用可能な全体ビット数Ｂがいずれもなくなるまで繰り返して行われる。

ビット推定及び割り当て部２５０は、各サブバンドについて割り当てられたビット数が予測されたビット数、すなわち、許容ビット数を超えないように制限し、最終的に割り当てビット数を定める。すべてのサブバンドについて、割り当てられたビット数と予測されたビット数と比較して、割り当てられたビット数が予測されたビット数より大きい場合には、予測されたビット数に制限する。ビット数制限の結果で得られる、与えられたフレームの全体サブバンドのビット数が、与えられたフレームで使用可能な全体ビット数Ｂより少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。

これによれば、各サブバンドの割り当てビット数を小数点単位で定めつつ許容ビット数に制限できるため、与えられたフレームの全体ビット数をさらに効率的に配分する。

一方、各サブバンドに必要なビット数を推定及び割り当てる具体的な方法は、次の通りである。これによれば、数回の繰り返しなしに各サブバンド単位で割り当てビット数を一回に定めることができ、複雑度が低くなる。

一実施形態で、次の数式（４）に記載のＬａｇｒａｎｇｅｆｕｎｃｔｉｏｎを適用して、量子化歪曲及び各サブバンドに割り当てられるビット数を最適化できる解（ｓｏｌｕｔｉｏｎ）を求める。

ここで、Ｌは、Ｌａｇｒａｎｇｅｆｕｎｃｔｉｏｎを称し、Ｄは、量子化歪曲、Ｂは、与えられたフレームで使用可能な全体ビット数、Ｎ_ｂは、サブバンドｂのサンプル数、Ｌ_ｂは、サブバンドｂで各サンプルに割り当てられたビット数を示す。すなわち、Ｎ_ｂＬ_ｂは、サブバンドｂに割り当てられたビット数を示す。ここで、λは、最適化係数であるＬａｇｒａｎｇｅｍｕｌｔｉｐｌｉｅｒを示し、与えられた関数の最小値を探すためのコントロールパラメータである。

前記数式（４）を用いれば、量子化歪曲を考慮しつつ、与えられたフレームに含まれた各サブバンドに割り当てられたビット数の総和と、与えられたフレームについての許容ビット数との差が最小になるＬ_ｂを定める。

そして、量子化歪曲Ｄは、次の数式（５）のように定義する。

ここで、

は、入力スペクトル、

は、復号化されたスペクトルを示す。すなわち、量子化歪曲Ｄは、任意のフレームで入力スペクトル

及び復号化されたスペクトル

についてのＭＳＥ（ＭｅａｎＳｑｕａｒｅＥｒｒｏｒ）と定義される。

一方、数式（５）で分母項は、与えられた入力スペクトルによって定められる一定値であり、したがって、最適化に影響しないため、次の数式（６）のように簡略化される。

入力スペクトル

について任意のサブバンドｂの平均スペクトルエネルギーであるｎｏｒｍ値

は、次の数式（７）のように定義され、ログスケールで量子化されたｎｏｒｍ値

は、次の数式（８）のように定義され、逆量子化されたｎｏｒｍ値

は、次の数式（９）のように定義される。

ここで、ｓ_ｂ及びｅ_ｂは、それぞれサブバンドｂの最初及び最後のサンプルを示す。

次いで、入力スペクトル

は、次の数式（１０）でのように、逆量子化されたｎｏｒｍ値

で割って正規化されたスペクトルｙ_ｉを生成し、次の数式（１１）のように復元された、正規化されたスペクトル

に逆量子化されたｎｏｒｍ値

を掛けて復号化されたスペクトル

を生成する。

前記数式（９）ないし（１１）を用いて数式（６）の量子化歪曲項をまとめれば、次の数式（１２）のように示す。

通常量子化歪曲と割り当てられたビット数との関係で、サンプル当たり１ビットが加えられる度にＳＮＲが６．０２ｄＢほど増加すると定義し、これを用いて正規化されたスペクトルの量子化歪曲を定義すれば、次の数式（１３）のように示す。

一方、実際オーディオコーディングに適用する場合には、１ｂｉｔ／ｓａｍｐｌｅについて６．０２ｄＢの関係を固定せず、信号の特性によって可変されるｄＢスケール値Ｃを適用して次の数式（１４）のように定義する。

ここで、Ｃが２である場合に６．０２ｄＢ、Ｃが３である場合に９．０３ｄＢに該当する。

したがって、数式（６）は、数式（１２）及び数式（１４）から次の数式（１５）のように示す。

前記数式（１５）で最適のＬ_ｂ及びλを求めるために、次の数式（１６）のように、Ｌ_ｂ及びλについてそれぞれ偏微分を行う。

前記数式（１６）をまとめれば、Ｌ_ｂは、次の数式（１７）のように示す。

前記数式（１７）を用いれば、与えられたフレームで使用可能な全体ビット数Ｂの範囲内で、入力スペクトルのＳＮＲを最大化させられる各サブバンドのサンプル当たり割り当てビット数Ｌ_ｂを推定する。

ビット推定及び割り当て部２５０で、各サブバンド単位で定められた割り当てビット数は、符号化部１７０（図１）に提供される。

図３は、図１において、本発明の他の実施形態によるビット割り当て部３００の構成を示すブロック図である。図３に示されたビット割り当て部３００は、心理音響モデル３１０、ビット推定及び割り当て部３３０、スケールファクタ推定部３５０及びスケールファクタ符号化部３７０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。

図３を参照すれば、心理音響モデル３１０は、変換部１３０（図１）から提供されるオーディオスペクトルを入力とし、各サブバンドについてマスキングしきい値を求める。

ビット推定及び割り当て部３３０は、各サブバンド単位でマスキングしきい値を用いて知覚的に必要なビット数を予測する。すなわち、各サブバンド単位でＳＭＲを求めることができ、ＳＭＲについて６．０２５ｄＢ≒１ビットの関係を用いてマスキングしきい値を満たすビット数を予測する。ここで、予測されたビット数は、知覚的なノイズを感じられなくするのに必要な最小ビット数であるが、圧縮側面からみれば、予測されたビット数以上に使う必要がないので、サブバンド単位で許容される最大ビット数（以下、許容ビット数と略称）と見なされる。この時、各サブバンドの許容ビット数は、小数点単位で表現される。

ビット推定及び割り当て部３３０は、各サブバンド単位でスペクトルエネルギーを用いて小数点単位のビット割り当てを行う。この時、例えば、前記数式（４）ないし（１７）によるビット割り当て方法を使える。

ビット推定及び割り当て部３３０は、すべてのサブバンドについて、割り当てられたビット数と予測されたビット数とを比較して、割り当てられたビット数が予測されたビット数より大きい場合には予測されたビット数に制限する。ビット数制限の結果で得られる、与えられたフレームの全体サブバンドのビット数が、与えられたフレームで使用可能な全体ビット数Ｂより少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。

スケールファクタ推定部３５０は、各サブバンド単位で最終的に定められた割り当てビット数を用いてスケールファクタを推定する。各サブバンド単位で推定されたスケールファクタは、符号化部１７０（図１）に提供される。

スケールファクタ符号化部３７０は、各サブバンド単位で推定されたスケールファクタを量子化及び無損失符号化する。サブバンド単位で符号化されたスケールファクタは、多重化部１９０（図１）に提供される。

図４は、図１において、本発明の他の実施形態によるビット割り当て部３００の構成を示すブロック図である。図４に示されたビット割り当て部４００は、Ｎｏｒｍ推定部４１０、ビット推定及び割り当て部４３０、スケールファクタ推定部４５０及びスケールファクタ符号化部４７０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。

図４を参照すれば、Ｎｏｒｍ推定部４１０は、各サブバンド単位で平均スペクトルエネルギーに該当するＮｏｒｍ値を求める。

ビット推定及び割り当て部４３０は、各サブバンド単位でスペクトルエネルギーを用いてマスキングしきい値を求め、マスキングしきい値を用いて知覚的に必要なビット数、すなわち、許容ビット数を予測する。

ビット推定及び割り当て部４３０は、各サブバンド単位で、スペクトルエネルギーを用いて小数点単位のビット割り当てを行う。この時、例えば、前記数式（４）ないし（１７）によるビット割り当て方法を使える。

ビット推定及び割り当て部４３０は、すべてのサブバンドについて、割り当てられたビット数と予測されたビット数とを比較して、割り当てられたビット数が予測されたビット数より大きい場合には、予測されたビット数に制限する。ビット数の制限の結果で得られる、与えられたフレームの全体サブバンドの割り当てビット数が、与えられたフレームで使用可能な全体ビット数Ｂより少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。

スケールファクタ推定部４５０は、各サブバンド単位で最終的に定められた割り当てビット数を用いてスケールファクタを推定する。各サブバンド単位で推定されたスケールファクタは、符号化部１７０（図１）に提供される。

スケールファクタ符号化部４７０は、各サブバンド単位で推定されたスケールファクタを量子化及び無損失符号化する。サブバンド単位で符号化されたスケールファクタは多重化部１９０（図１）に提供される。

図５は、図１において、本発明の一実施形態による符号化部５００の構成を示すブロック図である。

図５に示された符号化部５００は、スペクトル正規化部５１０及びスペクトル符号化部５３０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。

図５を参照すれば、スペクトル正規化部５１０は、ビット割り当て部１５０（図１）から提供される各サブバンドのＮｏｒｍ値を用いてスペクトルを正規化する。

スペクトル符号化部５３０は、正規化されたスペクトルについて各サブバンドの割り当てビット数を用いて量子化を行い、量子化された結果について無損失符号化する。一例として、スペクトル符号化にファクトリアル・パルス・コーディング（ＦａｃｔｏｒｉａｌＰｕｌｓｅＣｏｄｉｎｇ）を使えるが、これに限定されるものではない。ファクトリアル・パルス・コーディングによれば、割り当てビット数範囲内でパルスの位置、パルスのサイズ、及びパルスの符号などの情報がファクトリアル形式で表現される。

スペクトル符号化部５３０で符号化されたスペクトルに関する情報は、多重化部１９０（図１）に提供される。

図６は、本発明の他の実施形態によるオーディオ符号化装置６００の構成を示すブロック図である。図６に示されたオーディオ符号化装置６００は、トランジェント検出部６１０、変換部６３０、ビット割り当て部６５０、符号化部６７０及び多重化部６９０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。図６のオーディオ符号化装置６００は、図１のオーディオ符号化装置１００と比較すれば、トランジェント検出部６１０をさらに備える差があるので、共通の構成要素については具体的な説明を略する。

図６を参照すれば、トランジェント検出部６１０は、オーディオ信号を分析してトランジェント特性を示す区間を検出する。トランジェント区間の検出には、公知の多様な方法を使える。トランジェント検出部６１０に提供されるトランジェントシグナリング情報は、多重化部６９０を通じてビットストリームに含まれる。

変換部６３０は、トランジェント区間検出結果によって、変換に使われるウィンドウサイズを定め、定められたウィンドウサイズに基づいて時間／周波数ドメイン変換を行う。一例として、トランジェント区間が検出されたサブバンドの場合に短区間ウィンドウ（ｓｈｏｒｔｗｉｎｄｏｗ）を、検出されていないサブバンドの場合に長区間ウィンドウ（ｌｏｎｇｗｉｎｄｏｗ）を適用する。

ビット割り当て部６５０は、図２ないし図４に示されたビット割り当て部２００、３００、４００のうちいずれか一つに具現される。

符号化部６７０は、トランジェント区間検出結果によって、変換部６３０と同様に符号化に使われるウィンドウサイズを定める。

一方、オーディオ符号化装置６００は、オプションで与えられたサブバンドについてノイズレベルを生成し、オーディオ復号化装置７００（図７）、１２００（図１２）、１３００（図１３）に提供する。

図７は、本発明の一実施形態によるオーディオ復号化装置７００の構成を示すブロック図である。図７に示されたオーディオ復号化装置７００は、逆多重化部７１０、ビット割り当て部７３０、復号化部７５０及び逆変換部７７０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。

図７を参照すれば、逆多重化部７１０は、ビットストリームを逆多重化して量子化及び無損失符号化されたＮｏｒｍ値と、符号化されたスペクトルに関する情報とを抽出する。

ビット割り当て部７３０は、各サブバンド単位で量子化及び無損失符号化されたＮｏｒｍ値から逆量子化されたＮｏｒｍ値を求め、逆量子化されたＮｏｒｍ値を用いて割り当てビット数を定める。ビット割り当て部７３０は、オーディオ符号化装置１００、６００のビット割り当て部１５０、６５０と実質的に同じく動作する。一方、オーディオ符号化装置１００、６００で、Ｎｏｒｍ値が心理音響加重によって調整された場合、オーディオ復号化装置７００でも同じく調整される。

復号化部７５０は、逆多重化部７１０から提供される、符号化されたスペクトルに関する情報を用いて、符号化されたスペクトルを無損失復号化及び逆量子化する。一例として、スペクトル復号化はファクトリアル・パルス・デコーディングを使える。
逆変換部７７０は、復号化されたスペクトルを時間ドメインに変換し、復元されたオーディオ信号を生成する。

図８は、図７において、本発明の一実施形態によるビット割り当て部８００の構成を示すブロック図である。図８に示されたビット割り当て部８００は、Ｎｏｒｍ復号化部８１０と、ビット推定及び割り当て部８３０とを備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。

図８を参照すれば、Ｎｏｒｍ復号化部８１０は、逆多重化部７１０（図７）から提供される量子化及び無損失符号化されたＮｏｒｍ値から、逆量子化されたＮｏｒｍ値を求める。

ビット推定及び割り当て部８３０は、逆量子化されたＮｏｒｍ値を用いて割り当てビット数を定める。具体的に、ビット推定及び割り当て部８３０は、各サブバンド単位でスペクトルエネルギー、すなわち、Ｎｏｒｍ値を用いてマスキングしきい値を求め、マスキングしきい値を用いて知覚的に必要なビット数、すなわち、許容ビット数を予測する。

ビット推定及び割り当て部８３０は、各サブバンド単位で、スペクトルエネルギー、すなわち、Ｎｏｒｍ値を用いて小数点単位のビット割り当てを行う。この時、例えば、前記数式（４）ないし（１７）によるビット割り当て方法を使える。

ビット推定及び割り当て部８３０は、すべてのサブバンドについて、割り当てられたビット数と予測されたビット数とを比較して、割り当てられたビット数が予測されたビット数より大きい場合には、予測されたビット数に制限する。ビット数制限の結果で得られる、与えられたフレームの全体サブバンドの割り当てビット数が、与えられたフレームで使用可能な全体ビット数Ｂより少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。

図９は、図７において、本発明の一実施形態による復号化部９００の構成を示すブロック図である。図９に示された復号化部９００は、スペクトル復号化部９１０及びエンベロープ・シェーピング部９３０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。

図９を参照すれば、スペクトル復号化部９１０は、逆多重化部７１０（図７）から提供される、符号化されたスペクトルに関する情報、及びビット割り当て部７３０（図７）から提供される割り当てビット数を用いて、符号化されたスペクトルを無損失復号化及び逆量子化する。スペクトル復号化部９１０から提供される、復号化されたスペクトルは、正規化されたスペクトルである。

エンベロープ・シェーピング部９３０は、ビット割り当て部７３０（図７）から提供される、逆量子化されたＮｏｒｍ値を用いて、スペクトル復号化部９１０から提供される、正規化されたスペクトルについてエンベロープ・シェーピングを行って正規化以前のスペクトルに復元する。

図１０は、図７において、本発明の他の実施形態による復号化部１０００の構成を示すブロック図である。図１０に示された復号化部１０００は、スペクトル復号化部１０００、エンベロープ・シェーピング部１０３０及びスペクトル・フィーリング部１０５０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。図１０の復号化部１０００は、図９の復号化部９００と比べれば、スペクトル・フィーリング部１０５０をさらに備える差があるので、共通の構成要素については、具体的な説明を略する。

図１０を参照すれば、スペクトル・フィーリング部１０５０は、エンベロープ・シェーピング部１０３０から提供されるスペクトルで０に逆量子化された部分を含むサブバンドが存在する場合、ノイズ成分で満たすことができる。一実施形態によれば、ノイズ成分はランダムに生成されるか、または０でない値に逆量子化されたサブバンドのスペクトルをコピーして生成する。他の実施形態によれば、０に逆量子化された部分を含むサブバンドについてノイズ成分を生成し、ノイズ成分のエネルギーと、ビット割り当て部７３０（図７）から提供される逆量子化されたＮｏｒｍ値、すなわち、スペクトルエネルギーとの比を用いてノイズ成分のエネルギーを調節する。他の実施形態によれば、０に逆量子化された部分を含むサブバンドについてノイズ成分を生成し、ノイズ成分の平均エネルギーが１になるように調節する。他の実施形態によれば、オーディオ符号化装置１００、６００から各サブバンド単位でノイズレベルを受信し、与えられたサブバンドが０に逆量子化された部分を含む場合、与えられたサブバンドについてノイズ成分を生成し、受信されたノイズレベルを用いてノイズ成分のエネルギーを調節する。

図１１は、図７において、本発明の他の実施形態による復号化部１１００の構成を示すブロック図である。図１１に示された復号化部１１００は、スペクトル復号化部１１００、スペクトル・フィーリング部１１３０及びエンベロープ・シェーピング部１１５０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。図１１の復号化部１１００は、図１０の復号化部１０００と比べれば、スペクトル・フィーリング部１１３０及びエンベロープ・シェーピング部１１５０の配置順序が異なる差があるので、共通の構成要素については、具体的な説明を略する。

図１１を参照すれば、スペクトル・フィーリング部１１３０は、スペクトル復号化部１１１０から提供される、正規化されたスペクトルで０に逆量子化された部分を含むサブバンドが存在する場合、ノイズ成分で満たすことができる。この時、図１０のスペクトル・フィーリング部１０５０に適用される多様なノイズフィーリング方法を使える。望ましくは、０に逆量子化された部分を含むサブバンドについてノイズ成分を生成し、ノイズ成分の平均エネルギーが１になるように調節する。

エンベロープ・シェーピング部１１５０は、ビット割り当て部７３０（図７）から提供される逆量子化されたＮｏｒｍ値を用いて、ノイズ成分が満たされたサブバンドを含むスペクトルについて正規化以前のスペクトルに復元する。

図１２は、本発明の他の実施形態によるオーディオ復号化装置１２００の構成を示すブロック図である。図１２に示されたオーディオ復号化装置１２００は、逆多重化部１２１０、スケールファクタ復号化部１２３０、スペクトル復号化部１２５０及び逆変換部１２７０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。

図１２を参照すれば、逆多重化部１２１０は、ビットストリームを逆多重化して量子化及び無損失符号化されたスケールファクタと、符号化されたスペクトルに関する情報とを抽出する。

スケールファクタ復号化部１２３０は、各サブバンド単位で量子化及び無損失符号化されたスケールファクタを無損失復号化及び逆量子化する。

スペクトル復号化部１２５０は、逆多重化部１２１０から提供される、符号化されたスペクトルに関する情報及び逆量子化されたスケールファクタを用いて、符号化されたスペクトルを無損失復号化及び逆量子化する。スペクトル復号化部１２５０は、図１０に示された復号化部１０００と同じ構成要素を含む。

逆変換部１２７０は、スペクトル復号化部１２５０で復号化されたスペクトルを時間ドメインに変換して、復元されたオーディオ信号を生成する。

図１３は、本発明の他の実施形態によるオーディオ復号化装置１３００の構成を示すブロック図である。図１３に示されたオーディオ復号化装置１３００は逆多重化部１３１０、ビット割り当て部１３３０、復号化部１３５０及び逆変換部１３７０を備える。各構成要素は、少なくとも一つのモジュールに一体化され、少なくとも一つのプロセッサ（図示せず）に具現される。

図１３に示されたオーディオ復号化装置１３００は、図７のオーディオ復号化装置７００と比べれば、トランジェントシグナリング情報が復号化部１３５０及び逆変換部１３７０に提供されるという差があるので、共通の構成要素については、具体的な説明を略する。

図１３を参照すれば、復号化部１３５０では、逆多重化部１３１０から提供される、符号化されたスペクトルに関する情報を用いてスペクトルを復号化する。この時、トランジェントシグナリング情報によってウィンドウサイズが可変される。

逆変換部１３７０では、復号化されたスペクトルを時間ドメインに変換し、復元されたオーディオ信号を生成する。この時、トランジェントシグナリング情報によってウィンドウサイズが可変される。

図１４は、本発明の一実施形態によるビット割り当て方法の動作を説明するフローチャートである。図１４を参照すれば、１４１０段階では、各サブバンド単位でスペクトルエネルギーを獲得する。スペクトルエネルギーは、Ｎｏｒｍ値を使える。

１４２０段階では、各サブバンド単位で、スペクトルエネルギーを用いてマスキングしきい値を獲得する。

１４３０段階では、各サブバンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定する。

１４４０段階では、各サブバンド単位で、スペクトルエネルギーに基づいて小数点単位でビットを割り当てる。

１４５０段階では、各サブバンド単位で、許容ビット数と割り当てビット数とを比較する。

１４６０段階では、１４５０段階での比較結果、与えられたサブバンドについて割り当てビット数が許容ビット数より大きい場合、割り当てビット数を許容ビット数に制限する。

１４７０段階では、１４５０段階での比較結果、与えられたサブバンドについて割り当てビット数が許容ビット数より小さいか、または同じ場合、割り当てビット数をそのまま使うか、または１４６０段階で制限された許容ビット数を使って各サブバンドについて最終的な割り当てビット数を定める。

一方、図示されていないが、１４７０段階で与えられたフレームの各サブバンドについて定められた割り当てビット数の総和が、与えられたフレームで使用可能な全体ビット数より多いか、または少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。

図１５は、本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。図１５を参照すれば、各サブバンド単位で、逆量子化されたＮｏｒｍ値を受信する。

１５１０段階では、各サブバンド単位で、逆量子化されたＮｏｒｍ値を用いてマスキングしきい値を獲得する。

１５２０段階では、各サブバンド単位で、マスキングしきい値を用いてＳＭＲを獲得する。

１５３０段階では、各サブバンド単位で、ＳＭＲを用いて許容ビット数を小数点単位で推定する。

１５４０段階では、各サブバンド単位で、スペクトルエネルギーあるいは逆量子化されたＮｏｒｍ値に基づいて、小数点単位でビットを割り当てる。

１５５０段階では、各サブバンド単位で、許容ビット数と割り当てビット数とを比較する。１５６０段階では、１５５０段階での比較結果、与えられたサブバンドについて割り当てビット数が許容ビット数より大きい場合、割り当てビット数を許容ビット数に制限する。

１５７０段階では、１５５０段階での比較結果、与えられたサブバンドについて割り当てビット数が許容ビット数より小さいか、または同じ場合、割り当てビット数をそのまま使うか、または１５６０段階で制限された許容ビット数を使って各サブバンドについて最終的な割り当てビット数を定める。

一方、図示されていないが、１５７０段階で与えられたフレームの各サブバンドについて定められた割り当てビット数の総和が、与えられたフレームで使用可能な全体ビット数より多いか、または少ない場合、その差に該当するビット数を全体サブバンドに均一に分配するか、あるいは知覚的重要度によって不均一に分配する。

図１６は、本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。図１６を参照すれば、１６１０段階では初期化を行う。初期化の一例としては、前記数式（１７）を使って各サブバンドについて割り当てビット数を推定する場合、すべてのサブバンドについて常に一定の値を持つ

を計算することで、全体的な複雑度を低減させる。

１６２０段階では、前記数式（４）あるいは数式（１７）を使って、各サブバンドについて割り当てビット数を小数点単位で推定する。サンプル当たり割り当てビット数Ｌ_ｂにサブバンドのサンプル数を掛けて各サブバンドに割り当てられたビット数を計算する。この時、数式（１７）を用いて各サブバンドのサンプル当たり割り当てビット数Ｌ_ｂを計算する場合、Ｌ_ｂが０より小さな値を持つ。この場合、下記の数式（１８）のように、０より小さな値を持つＬ_ｂについて０を割り当てる。

その結果、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数Ｂより大きい。

１６３０段階では、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和と、与えられたフレームの使用可能なビット数とを比較する。

１６４０段階では、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同一になるまで、下記の数式（１９）を使って各サブバンドについてビットを再分配する。

ここで、

は、（ｋ−１）番目の繰り返しによって定められるビット数、

は、ｋ番目の繰り返しによって定められるビット数を示す。毎繰り返しで定められるビット数は、０より小さくてはならず、したがって、１６４０段階は、０より大きいビット数を持つサブバンドについて行われる。

１６５０段階では、１６３０段階での比較結果、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同じ場合に各サブバンドの割り当てビット数をそのまま使うか、または１６４０段階で再分配結果で得られる各サブバンドの割り当てビット数を使って、各サブバンドについて最終的な割り当てビット数を定める。

図１７は、本発明の他の実施形態によるビット割り当て方法の動作を説明するフローチャートである。図１７を参照すれば、１７１０段階では、図１６の１６１０段階と同様に初期化を行う。１７２０段階では、図１６の１６２０段階と同様に各サブバンドについて割り当てビット数を小数点単位で推定し、各サブバンドのサンプル当たり割り当てビット数Ｌ_ｂが０より小さな場合、前記数式（１８）のように０より小さな値を持つＬ_ｂについて０を割り当てる。

１７３０段階では、ＳＮＲ側面で各サブバンドについて必要とする最小ビット数を定義し、１７２０段階の割り当てビット数が０よりは大きいが、最小ビット数よりは少ないサブバンドについては、最小ビット数に制限して割り当てビット数を調整する。このように各サブバンドの割り当てビット数を最小ビット数に制限することで、音質低下の可能性を低減させる。一例として、各サブバンドについて必要とする最小ビット数は、ファクトリアル・パルス・コーディングでパルスコーディングに必要な最小ビット数と定義する。ファクトリアル・パルス・コーディングは、０ではないパルスの位置（ｐｏｓｉｔｉｏｎ）、パルスのサイズ（ｍａｇｎｉｔｕｄｅ）、パルスの符号（ｓｉｇｎ）のすべての組み合わせを用いて信号を表現する。この時、パルスを表現できるすべての組み合わせＮの場合は、下記の数式（２０）のように示す。

ここで、２^ｉは、ｉ個のノン・ゼロ位置にある信号について＋／−に表現可能な符号の場合の数を示す。

数式（２０）で、Ｆ（ｎ，ｉ）は、下記の数式（２１）のように定義され、与えられたｎ個のサンプル、すなわち、位置についてｉ個のノン・ゼロ位置を選択できる場合の数を示す。

数式（２０）で、Ｄ（ｍ，ｉ）は、下記の数式（２２）のように示すことができ、これは、ｉ個のノン・ゼロ位置で選択された信号をｍ個のサイズに表現できる場合の数を示す。

一方、Ｎ個のすべての組み合わせを表現するために必要なビット数Ｍは、下記の数式（２３）のように示す。

結局、与えられたサブバンドｂでＮ_ｂ個のサンプルについて最小１個のパルスを符号化するために必要な最小ビット数Ｌｂ＿ｍｉｎは、下記の数式（２４）のように示す。

この時、ファクトリアル・パルス・コーディングで必要な最小ビット数には、量子化に必要な利得値の伝送に使われるビット数が加えられ、ビット率によって可変される。各サブバンド単位の必要な最小ビット数は、下記の数式（２５）のように、ファクトリアル・パルス・コーディングで必要な最小ビット数と、与えられたサブバンドのサンプル数Ｎ_ｂのうち大きい値と定められる。一例によれば、１ビット／サンプルで設定する。

一方、１７３０段階では、ターゲットビット率が小さくて使うビットが不十分な場合、割り当てビット数が０よりは大きいが最小ビット数より少ないサブバンドについては、割り当てビット数を回収して割り当てビット数を０に調整する。また、割り当てビット数が数式（２４）のビット数より小さな場合に割り当てビット数を回収し、数式（２４）のビット数より大きいが数式（２５）の最小ビット数より少ないサブバンドについては、最小ビット数を割り当てる。

１７４０段階では、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和と、与えられたフレームの使用可能なビット数とを比較する。

１７５０段階では、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同一になるまで、最小ビット数より多く割り当てられたサブバンドについてビットを再分配する。

１７６０段階では、ビット再分配についての以前繰り返しの時、及び現在繰り返しの時に、各サブバンドの割り当てビット数に変動があるかどうかを判断し、ビット再分配についての以前繰り返しの時と現在繰り返しの時とに、各サブバンドの割り当てビット数に変動がないか、または与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同一になるまで１７４０段階ないし１７６０段階を行う。

１７７０段階では、１７６０段階での判断結果、ビット再分配についての以前繰り返しの時及び現在繰り返しの時に、各サブバンドの割り当てビット数に変動がない場合、上位サブバンドから下位サブバンドに順次にビットを回収して、与えられたフレームの使用可能なビット数を満たすまで１７４０段階ないし１７６０段階を行う。

すなわち、ビット再分配の時、最小ビット数Ｎ_ｂより大きい値が割り当てられたサブバンドについて、ビットを低減させつつ可用ビット数を満たすように調整するが、すべてのサブバンドについて割り当てられたビット数が最小ビット数より大きくなく、かつ割り当てられたビット数の総和が依然として可用ビット数より大きい場合には、高周波サブバンドから順次にビットを回収する方式でビット数を調整する。

図１６及び図１７に示されたビット割り当て方法によれば、各サブバンドにビットを割り当てるために、各サブバンドにスペクトルエネルギーあるいは加重されたスペクトルエネルギー順に初期ビットを割り当てた後、再びスペクトルエネルギーあるいは加重されたスペクトルエネルギーを探す動作を数回繰り返す必要なく、各サブバンドが必要とするビット数を一回に予測する。また、前記ビット割り当て方法によれば、与えられたフレームに含まれた各サブバンドについて推定された割り当てビット数の総和が、与えられたフレームの使用可能なビット数と同一になるまでビットを再分配することで、効率的なビット割り当てが可能である。また、前記ビット割り当て方法によれば、任意のサブバンドについて最小ビット数を保証することで、少ないビット数が割り当てられて十分な数のスペクトルサンプルあるいはパルスが符号化できなくてスペクトルホールが発生することを防止する。

図１４ないし図１７の方法は、プログラミングされ、少なくとも一つのプロセッシングデバイスによって行われる。

図１８は、本発明の一実施形態による符号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。

図１８に示されたマルチメディア機器１８００は、通信部１８１０及び符号化モジュール１８３０を備える。また、符号化結果で得られるオーディオビットストリームの用途によって、オーディオビットストリームを保存する保存部１８５０をさらに備える。また、マルチメディア機器１８００は、マイクロフォン１８７０をさらに備える。すなわち、保存部１８５０及びマイクロフォン１８７０は、オプションで備えられる。一方、図１８に示されたマルチメディア機器１８００は、任意の復号化モジュール（図示せず）、例えば、一般的な復号化機能を行う復号化モジュールあるいは本発明の一実施形態による復号化モジュールをさらに備える。ここで、符号化モジュール１８３０は、マルチメディア機器１８００に備えられる他の構成要素（図示せず）と共に一体化され、少なくとも一つ以上のプロセッサ（図示せず）に具現される。

図１８を参照すれば、通信部１８１０は、外部から提供されるオーディオと符号化されたビットストリームのうち少なくとも一つを受信するか、または復元されたオーディオと符号化モジュール１８３０の符号化結果で得られるオーディオビットストリームのうち少なくとも一つを送信する。

通信部１８１０は、無線インターネット、無線イントラネット、無線電話網、無線ＬＡＮ、ワイファイ（Ｗｉ−Ｆｉ）、ＷＦＤ（Ｗｉ−ＦｉＤｉｒｅｃｔ）、３Ｇ（Ｇｅｎｅｒａｔｉｏｎ）、４Ｇ（４Ｇｅｎｅｒａｔｉｏｎ）、ブルートゥース（登録商標）、赤外線通信（ＩｒＤＡ、ＩｎｆｒａｒｅｄＤａｔａＡｓｓｏｃｉａｔｉｏｎ）、ＲＦＩＤ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ）、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）、ジグビー、ＮＦＣ（ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎ）のような無線ネットワークまたは有線電話網、有線インターネットのような有線ネットワークを通じて、外部のマルチメディア機器とデータを送受信するように構成される。

符号化モジュール１８３０は、一実施形態によれば、通信部１８１０あるいはマイクロフォン１８７０を通じて提供される時間ドメインのオーディオ信号を、周波数ドメインのオーディオスペクトルに変換し、オーディオスペクトルで与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのＳＮＲを最大化させるように、周波数バンド単位で割り当てビット数を小数点単位で定め、周波数バンド単位で定められた割り当てビット数を調整し、周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて、オーディオスペクトルを符号化してビットストリームを生成する。

符号化モジュール１８３０は、他の実施形態によれば、通信部１８１０あるいはマイクロフォン１８７０を通じて提供される時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換し、オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、割り当てビット数が前記許容ビット数を超えないように調整し、周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて、オーディオスペクトルを符号化してビットストリームを生成する。

保存部１８５０は、符号化モジュール１８３０で生成される、符号化されたビットストリームを保存する。一方、保存部１８５０は、マルチメディア機器１８００の運用に必要な多様なプログラムを保存する。

マイクロフォン１８７０は、ユーザあるいは外部のオーディオ信号を符号化モジュール１８３０に提供する。

図１９は、本発明の一実施形態による復号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。図１９に示されたマルチメディア機器１８００は、通信部１９１０及び復号化モジュール１９３０を備える。また、復号化結果で得られる復元されたオーディオ信号の用途によって、復元されたオーディオ信号を保存する保存部１９５０をさらに備える。また、マルチメディア機器１９００はスピーカー１９７０をさらに備える。すなわち、保存部１９５０及びスピーカー１９７０はオプションで備えられる。一方、図１９に示されたマルチメディア機器１９００は、任意の符号化モジュール（図示せず）、例えば、一般的な符号化機能を行う符号化モジュールあるいは本発明の一実施形態による符号化モジュールをさらに備える。ここで、復号化モジュール１９３０は、マルチメディア機器１９００に備えられる他の構成要素（図示せず）と共に一体化され、少なくとも一つの以上のプロセッサ（図示せず）に具現される。

図１９を参照すれば、通信部１９１０は、外部から提供される、符号化されたビットストリームとオーディオ信号のうち少なくとも一つを受信するか、または復号化モジュール１９３０の復号化結果で得られる復元されたオーディオ信号と、符号化結果で得られるオーディオビットストリームのうち少なくとも一つを送信する。一方、通信部１９１０は、図１８の通信部１８１０と実質的に類似して具現される。

復号化モジュール１９３０は、一実施形態によれば、通信部１９１０を通じて提供されるビットストリームを受信し、与えられたフレームに対して使用可能なビット数範囲内で、各周波数バンドに存在するスペクトルのＳＮＲを最大化させるように周波数バンド単位で割り当てビット数を小数点単位で定め、周波数バンド単位で定められた割り当てビット数を調整し、周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて、ビットストリームに含まれたオーディオスペクトルを復号化し、復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換し、復元されたオーディオ信号を生成する。

復号化モジュール１９３０は、他の実施形態によれば、通信部１９１０を通じて提供されるビットストリームを受信し、与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、割り当てビット数が前記許容ビット数を超えないように調整し、周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化し、復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換し、復元されたオーディオ信号を生成する。

保存部１９５０は、復号化モジュール１９３０で生成される、復元されたオーディオ信号を保存する。一方、保存部１９５０は、マルチメディア機器１９００の運用に必要な多様なプログラムを保存する。

スピーカー１９７０は、復号化モジュール１９３０で生成される復元されたオーディオ信号を外部に出力する。

図２０は、本発明の一実施形態による符号化モジュール及び復号化モジュールを備えるマルチメディア機器の構成を示すブロック図である。図２０に示されたマルチメディア機器２０００は、通信部２０１０、符号化モジュール２０２０と復号化モジュール２０３０を備える。また、符号化結果で得られるオーディオビットストリーム、あるいは復号化結果で得られる復元されたオーディオ信号の用途によって、オーディオビットストリームあるいは復元されたオーディオ信号を保存する保存部２０４０をさらに備える。また、マルチメディア機器２０００は、マイクロフォン２０５０あるいはスピーカー２０６０をさらに備える。ここで、符号化モジュール２０２０及び復号化モジュール２０３０は、マルチメディア機器２０００に備えられる他の構成要素（図示せず）と共に一体化され、少なくとも一つ以上のプロセッサ（図示せず）に具現される。

図２０に示された各構成要素は、図１８に示されたマルチメディア機器１８００の構成要素、あるいは図１９に示されたマルチメディア機器１９００の構成要素と重なるため、その詳細な説明は略する。

図１８ないし図２０に示されたマルチメディア機器１８００、１９００、２０００には、電話、モバイルフォンなどを含む音声通信専用端末、ＴＶ、ＭＰ３プレーヤなどを含む放送あるいは音楽専用装置、あるいは音声通信専用端末と放送あるいは音楽専用装置の融合端末装置が含まれるが、これらに限定されるものではない。また、マルチメディア機器１８００、１９００、２０００は、クライアント、サーバあるいはクライアントとサーバとの間に配される変換器として使われる。

一方、マルチメディア機器１８００、１９００、２０００が、例えば、モバイルフォンである場合、図示されてはいないが、キーパッドなどのユーザ入力部、ユーザインターフェースあるいはモバイルフォンで処理される情報をディスプレイするディスプレイ部、モバイルフォンの全般的な機能を制御するプロセッサをさらに備える。また、モバイルフォンは、撮像機能を持つカメラ部と、モバイルフォンで必要とする機能を行う少なくとも一つ以上の構成要素とをさらに備える。

一方、マルチメディア機器１８００、１９００、２０００が、例えば、ＴＶである場合、図示されてはいないが、キーパッドなどのユーザ入力部、受信された放送情報をディスプレイするディスプレイ部、ＴＶの全般的な機能を制御するプロセッサをさらに備える。また、ＴＶは、ＴＶで必要とする機能を行う少なくとも一つ以上の構成要素をさらに備える。

前記実施形態による方法は、コンピュータで実行されるプログラムで作成でき、コンピュータで読み取り可能な記録媒体を用いて前記プログラムを動作させる汎用デジタルコンピュータで具現される。また、前述した本発明の実施形態で使われるデータ構造、プログラム命令、あるいはデータファイルは、コンピュータで読み取り可能な記録媒体に多様な手段を通じて記録される。コンピュータで読み取り可能な記録媒体は、コンピュータシステムによって読み取られるデータが保存されるすべての保存装置を含む。コンピュータで読み取り可能な記録媒体の例には、ハードディスク、フロッピー（登録商標）ディスク及び磁気テープのような磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体、フロプティカルディスクのような磁気光媒体、及びＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ、フラッシュメモリなどのプログラム命令を保存して行うように特別に構成されたハードウェア装置が含まれる。また、コンピュータで読み取り可能な記録媒体は、プログラム命令、データ構造などを指定する信号を伝送する伝送媒体であってもよい。プログラム命令の例には、コンパイラによって作われる同じ機械語コードだけではなく、インタプリタなどを使ってコンピュータによって実行される高級言語コードを含む。

以上のように本発明の一実施形態は、たとえ限定された実施形態及び図面によって説明されたとしても、本発明の一実施形態は前記の実施形態に限定されるものではなく、当業者ならば、これより多様な修正及び変形が可能であろう。よって、本発明のスコープは前述した説明ではなく特許請求の範囲に示されており、この均等または等価的な変形はいずれも本発明の技術的思想の範ちゅうに属するといえる。

上記の実施形態に関する付記を以下に例示的に示す。
（付記１）
与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのＳＮＲを最大化させるように、前記周波数バンド単位で割り当てビット数を小数点単位で定める段階と、
前記周波数バンド単位で定められた割り当てビット数を調整する段階と、を含むビット割り当て方法。
（付記２）
前記割り当てビット数決定段階は、前記周波数バンドのスペクトルエネルギー及び前記与えられたフレームに対して使用可能なビット数を用いて行われる付記１に記載のビット割り当て方法。
（付記３）
前記割り当てビット数決定段階は、前記周波数バンドに含まれた各サンプル当たり割り当てビット数は、前記与えられたフレームに含まれたすべての周波数バンドに割り当てられるビット数の総和と、前記与えられたフレームに対して使用可能なビット数との差が最小になるように定める付記１に記載のビット割り当て方法。
（付記４）
前記割り当てビット数決定段階は、下記の数式
（ここで、Ｌ_ｂは、周波数バンドｂで各サンプルに割り当てられたビット数、Ｃは、ｄＢスケール値、ｎ_ｂは、周波数バンドｂでログスケールに量子化されたＮｏｒｍ値、Ｎ_ｂは、周波数バンドｂのサンプル数、Ｂは、与えられたフレームで使用可能な全体ビット数をそれぞれ示す。）
を用いて行われる付記１に記載のビット割り当て方法。
（付記５）
前記割り当てビット数調整段階は、前記周波数バンドに含まれた各サンプル当たり割り当てビット数が０より小さな場合に０を割り当てる付記１に記載のビット割り当て方法。
（付記６）
前記割り当てビット数調整段階は、前記与えられたフレームに含まれた各周波数バンドについて定められた割り当てビット数の総和が、前記与えられたフレームで使用可能な全体ビット数と同一になるまで各周波数バンドについてビットを再分配する付記５に記載のビット割り当て方法。
（付記７）
前記割り当てビット数調整段階は、前記周波数バンドに必要な最小ビット数を定義し、前記周波数バンドに割り当てられたビット数が前記最小ビット数より小さな場合、前記周波数バンドに割り当てられたビット数を前記最小ビット数に制限する付記１に記載のビット割り当て方法。
（付記８）
前記割り当てビット数調整段階は、前記周波数バンドに必要な最小ビット数を定義し、前記周波数バンドに割り当てられたビット数が前記最小ビット数より小さな場合、前記周波数バンドに割り当てられたビット数を０に設定する付記１に記載のビット割り当て方法。
（付記９）
前記最小ビット数は、前記周波数バンドに少なくとも一つのパルスをコーディングするのに必要なビット数を用いて定義される付記７または８に記載のビット割り当て方法。
（付記１０）
前記割り当てビット数調整段階は、前記与えられたフレームに含まれた前記周波数バンドについて、前記最小ビット数を用いて調整された結果の総和と、前記与えられたフレームに対して使用可能なビット数とが同一になるまでビットを再分配する付記７または８に記載のビット割り当て方法。
（付記１１）
付記１ないし１０のうちいずれか一つに記載の方法を行えるプログラムを記録したコンピュータで読み取り可能な記録媒体。
（付記１２）
時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、
前記オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、を備えるビット割り当て装置。
（付記１３）
前記ビット割り当て部は、前記周波数バンド単位で前記割り当てビット数が前記許容ビット数を超えないように制限した結果、残るビットについて前記与えられたフレームに含まれた周波数バンドのスペクトルエネルギーのサイズを基準として分配する付記１２に記載のビット割り当て装置。
（付記１４）
前記各周波数バンドのスペクトルエネルギーは、知覚的な重要度によって加重される付記１２に記載のビット割り当て装置。
（付記１５）
時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、
前記オーディオスペクトルで与えられたフレームに対して使用可能なビット数範囲内で、所定の周波数バンドに存在するスペクトルのＳＮＲを最大化させるように前記周波数バンド単位で割り当てビット数を小数点単位で定め、前記周波数バンド単位で定められた割り当てビット数を調整するビット割り当て部と、
前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて前記オーディオスペクトルを符号化する符号化部と、を備えるオーディオ符号化装置。
（付記１６）
前記時間ドメインのオーディオ信号からトランジェント特性を持つ区間を検出して、時間／周波数ドメイン変換に使われるウィンドウサイズの決定に使うトランジェント検出部をさらに備える付記１５に記載のオーディオ符号化装置。
（付記１７）
時間ドメインのオーディオ信号を周波数ドメインのオーディオスペクトルに変換する変換部と、
前記オーディオスペクトルで与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、
前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いて前記オーディオスペクトルを符号化する符号化部と、を備えるオーディオ符号化装置。
（付記１８）
前記時間ドメインのオーディオ信号からトランジェント特性を持つ区間を検出して、時間／周波数ドメイン変換に使われるウィンドウサイズの決定に使うトランジェント検出部をさらに備える付記１７に記載のオーディオ符号化装置。
（付記１９）
与えられたフレームに対して使用可能なビット数範囲内で、各周波数バンドに存在するスペクトルのＳＮＲを最大化させるように、前記周波数バンド単位で割り当てビット数を小数点単位で定め、前記周波数バンド単位で定められた割り当てビット数を調整するビット割り当て部と、
前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化する復号化部と、
前記復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換する逆変換部と、を備えるオーディオ復号化装置。
（付記２０）
前記ビットストリームに含まれるトランジェントシグナリング情報に基づいて、前記逆変換部で使われるウィンドウサイズを設定する付記１９に記載のオーディオ復号化装置。
（付記２１）
前記復号化部は、０に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分のエネルギーを、ノイズレベルを用いて調節する付記１９に記載のオーディオ復号化装置。
（付記２２）
前記復号化部は、０に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分のエネルギーとスペクトルエネルギーとの比を用いてノイズ成分のエネルギーを調節する付記１９に記載のオーディオ復号化装置。
（付記２３）
前記復号化部は、０に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分の平均エネルギーが１になるように調節する付記１９に記載のオーディオ復号化装置。
（付記２４）
与えられたフレームに含まれた周波数バンド単位で、マスキングしきい値を用いて許容ビット数を小数点単位で推定し、スペクトルエネルギーを用いて割り当てビット数を小数点単位で推定し、前記割り当てビット数が前記許容ビット数を超えないように調整するビット割り当て部と、
前記周波数バンド単位で調整されたビット数及びスペクトルエネルギーを用いてビットストリームに含まれたオーディオスペクトルを復号化する復号化部と、
前記復号化されたオーディオスペクトルを時間ドメインのオーディオ信号に変換する逆変換部と、を備えるオーディオ復号化装置。
（付記２５）
前記ビットストリームに含まれるトランジェントシグナリング情報に基づいて、前記逆変換部で使われるウィンドウサイズを設定する付記２４に記載のオーディオ復号化装置。
（付記２６）
前記復号化部は、０に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分のエネルギーをノイズレベルを用いて調節する付記２４に記載のオーディオ復号化装置。
（付記２７）
前記復号化部は、０に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分のエネルギーとスペクトルエネルギーとの比を用いてノイズ成分のエネルギーを調節する付記２４に記載のオーディオ復号化装置。
（付記２８）
前記復号化部は、０に符号化された部分を含む周波数バンドについてノイズ成分を生成し、前記ノイズ成分の平均エネルギーが１になるように調節する付記２４に記載のオーディオ復号化装置。

特開平０４−１６８５００号公報特開平０３−１８１２３２号公報特開２０００−２９３１９９号公報特開２０００−１４８１９１号公報

Claims

少なくとも一つのプロセッサを備え、
前記プロセッサは、
フレームの使用可能なビット数を考慮して、前記フレーム内の各サブバンドに割り当てられるビット数を初期的に小数点単位で推定し、
前記推定されたビット数が０より小さいサブバンドのビット数を０に設定し、
前記各サブバンドに割り当てられるビット数を最終的に決定するために、前記フレーム内の各サブバンドに割り当てられるビット数の合計が前記使用可能なビット数と同じになるまで、前記各サブバンドに割り当てられるビット数を０でないビット数を有するサブバンドに再分配し、
前記各サブバンドに割り当てられるビット数を最終的に決定するために、前記フレーム内のサブバンドのうち、第１最小値より小さいビット数が割り当てられたサブバンドのビット数を０に設定し、前記フレーム内のサブバンドのうち、第１最小値以上でありながら、第２最小値より小さいビット数が割り当てられたサブバンドのビット数を第２最小値に設定するビット割り当て装置。
前記プロセッサは、各サブバンドのスペクトルエネルギーに基づいて行われる請求項１に記載のビット割り当て装置。