JP2004021153A

JP2004021153A - オーディオ信号符号化装置

Info

Publication number: JP2004021153A
Application number: JP2002179424A
Authority: JP
Inventors: Hirokazu Takeuchi; 竹内　広和
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2002-06-20
Filing date: 2002-06-20
Publication date: 2004-01-22

Abstract

【課題】量子化符号化制御におけるループ制御の処理量を低減することができ、これにより高速で符号化を行うことを可能とする。
【解決手段】代表値算出部４は、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を算出する。初期値算出部７は、代表値算出部４により算出される代表値を分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および信号対マスク比に基づいて得られる所定の量子化係数となるような分割帯域スケーリング係数および前記全帯域スケーリング係数をそれぞれの初期値として算出する。スケーリング部８は、初期には初期値算出部７により算出された分割帯域スケーリング係数および前記全帯域スケーリング係数のそれぞれの初期値を用いてスケーリングを行う。
【選択図】　　図１

Description

【０００１】
【発明の属する技術分野】
本発明は、オーディオ信号を周波数領域に変換して高速に量子化および圧縮符号化するオーディオ信号符号化装置に関するものである。
【０００２】
【従来の技術】
近年のディジタルコンテンツの普及につれて、ＭＰＥＧ等をはじめとするディジタル信号の圧縮符号化技術が重要性を増している。その中でもオーディオ信号に対する符号化技術として、入力信号を時間域から周波数領域に変換し、人間の心理聴覚特性（マスキング効果）を利用することで高品質を達成する技術が注目されている。そのような方法の一つとして、ＩＳＯにより標準化されているＩＳ　１３８１８−７（ＭＰＥＧ−２　Ａｄｖａｎｃｅｄ　Ａｕｄｉｏ　Ｃｏｄｉｎｇ，ＡＡＣ）が知られている。
【０００３】
ＡＡＣでは、まず時間域の入力信号を規定のブロックサイズ毎に切り出される。これにより得られる各ブロックが、離散フーリエ変換等の直交変換により周波数領域の信号に変換される。この周波数領域の信号から、心理聴覚モデルに基づいて適当な周波数帯域（以下、分割周波数帯域）毎のＳＭＲ（Ｓｉｇｎａｌ　ｔｏ　Ｍａｓｋ　Ｒａｔｉｏ）が求められる。ＳＭＲは、信号に対する知覚されない信号、つまり許容される雑音信号の比を表す。従って、各周波数成分の量子化誤差は、上記のマスク比以内に収まるよう量子化される必要がある。ただし、実際符号化する際の直交変換には、ブロック境界の歪み低減を考慮して、離散フーリエ変換でなく変形離散コサイン変換（以下、ＭＤＣＴ）が使用される。このため、上記の周波数成分は、ＭＤＣＴにおける変換係数となる。更に量子化された係数がハフマン符号化された上、所定のフォーマットに従って出力される。これら量子化、符号化の過程で、所望の許容雑音量以内に収まるかどうか、所望の符号化レート以内に収まるかどうかの確認が行われる。もし収まっていなければ、量子化ステップサイズを変更して上記条件を満足できるように量子化、符号化を繰り返す制御が行われる。
【０００４】
量子化する際の計算式は式（１）で表される。逆量子化の計算式は式（２）で表される。
【０００５】
【数１】

【０００６】
ここで、ＭＤＣＴ＿ｌｉｎｅ（ｉ）は量子化前のＭＤＣＴ係数、ｘ＿ｑｕａｎｔ（ｉ）は量子化されたＭＤＣＴ係数、ｓｃａｌｅｆａｃｔｏｒ（ｓｂ）は分割周波数帯域に対するスケーリング係数（分割帯域スケーリング係数）、ｇｌｏｂａｌ＿ｇａｉｎは全帯域に渡るスケーリング係数（全帯域スケーリング係数）、Ｉｎｔ（）は値を整数化する処理の意味である。
【０００７】
これらの式（１）および式（２）から分かるように、同じＭＤＣＴ係数を表現する場合に、分割帯域スケーリング係数を大きくするほどｘ＿ｑｕａｎｔ（ｉ）も大きくなる。つまり、分割帯域スケーリング係数を大きくするほど量子化ステップサイズが小さくなる。このため、量子化雑音を低減できるが、量子化係数が大きくなるために一般的には符号量が増える。全帯域スケーリング係数は、その逆の挙動を示す。このように、スケーリング係数（分割帯域スケーリング係数、全帯域スケーリング係数）は、量子化ステップサイズ、つまり量子化雑音および発生符号量と密接な関係にある。そのため、ＳＭＲから求められる所望の許容雑音量以内に量子化雑音が収まり、かつ発生符号量が目標符号化レート以内に収まるように、スケーリング係数を調整して更新し再び量子化および符号化を繰り返すといったループ制御が行われている。
【０００８】
ＩＳ　１３８１８−７のＡＮＮＥＸでは、スケーリング係数の初期値として、以下の式（３）および式（４）に示す値を用いている。
【０００９】
【数２】

【００１０】
ここで、ＭＡＸ＿ＱＵＡＮＴはＡＡＣの規格上での量子化係数最大値（固定値）である。ｍａｘ＿ＭＤＣＴ＿ｌｉｎｅは、全帯域の内で絶対値が最大となるＭＤＣＴ係数である。
【００１１】
これらの式（３）および式（４）から分かるように、ＭＤＣＴ係数の最大値に対応する量子化係数を規格上の最大値ＭＡＸ＿ＱＵＡＮＴになるよう全帯域スケーリング係数が合わせられている。また、分割帯域スケーリング係数は「０」に合わせられている。このため、全帯域スケーリング係数から見ると、量子化ステップサイズは非常に小さく設定されていることになる。また、分割帯域スケーリング係数から見ると、平坦な周波数特性に設定されていることになる。つまり、入力信号の特性に関わらず、常に符号量が非常に大きい状態からループ制御がスタートされ、全帯域スケーリング係数を徐々に大きくしながら発生符号量が下げられ、かつ入力信号特性に応じて分割帯域スケーリング係数を大きくしながら各分割帯域の量子化歪みが調整されることになる。
【００１２】
【発明が解決しようとする課題】
上述のように従来は、全帯域スケーリング係数の初期値を、全帯域に渡る周波数変換係数の最大値に基づいて設定し、かつ分割帯域スケーリング係数の初期値を「０」に設定して量子化ループ制御を行っていたため、量子化歪みおよび発生符号量に関する条件を満足するまでのループ回数が多くなり、符号化に要する処理量が非常に多くなってしまうという不具合があった。このため、上記の量子化ループ制御を比較的低い性能のプロセッサで行おうとすると、符号化に要する時間が非常に長くなってしまう。またリアルタイム符号化を行おうとする場合には、高性能なプロセッサが必要とされ、装置コストの上昇を招く。
【００１３】
本発明はこのような事情を考慮してなされたものであり、その目的とするところは、量子化符号化制御におけるループ制御の処理量を低減することができ、これにより高速で符号化を行うことが可能なオーディオ信号符号化装置を提供することにある。
【００１４】
【課題を解決するための手段】
以上の目的を達成するために本発明は、オーディオ信号を所定のブロックサイズ毎にそれぞれ直交変換して周波数変換係数を求める直交変換手段と、この直交変換手段により求められた前記周波数変換係数を複数の分割周波数帯域に分け、各分割周波数帯域の信号レベルに対するマスキングレベルの比となる信号対マスク比を求める算出手段と、前記直交変換手段により求められた前記周波数変換係数を前記分割周波数帯域毎の分割帯域スケーリング係数および全帯域共通の全帯域スケーリング係数に基づいてスケーリングするスケーリング手段と、このスケーリング手段によりスケーリングされた後の前記周波数変換係数を量子化する量子化手段と、この量子化手段により量子化された後の前記周波数変換係数を所定の符号化方式で符号化する符号化手段とにより前記オーディオ信号を符号化するに当り、前記分割周波数帯域のそれぞれに関して、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を選定手段により選定し、さらに決定手段が、前記選定手段により選定された前記代表値を前記分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および前記信号対マスク比に基づいて得られる所定の量子化係数となるような前記分割帯域スケーリング係数および前記全帯域スケーリング係数をそれぞれ求め、これらを前記分割帯域スケーリング係数の初期値および前記全帯域スケーリング係数の初期値に定めるようにした。そしてスケーリング制御手段が、前記スケーリング手段が使用する前記分割帯域スケーリング係数および前記全帯域スケーリング係数を、所定の単位期間の開始時には前記決定手段により定められたそれぞれの初期値に設定し、以降、前記量子化手段により量子化された後の周波数変換係数の前記分割周波数帯域毎の量子化雑音が前記信号対マスク比に基づいて定まる許容雑音レベル以下で、かつ発生符号量が前記目標符号量以下となるまで、前記スケーリング手段が使用する前記分割帯域スケーリング係数あるいは前記全帯域スケーリング係数を更新することとした。
【００１５】
このような手段を講じたことにより、量子化手段により量子化された後の周波数変換係数の分割周波数帯域毎の量子化雑音が信号対マスク比に基づいて定まる許容雑音レベル以下で、かつ発生符号量が目標符号量以下となるように、スケーリング手段が使用する分割帯域スケーリング係数および前記全帯域スケーリング係数を更新する処理が行われるが、スケーリング手段が使用する分割帯域スケーリング係数および前記全帯域スケーリング係数のそれぞれの初期値は、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および信号対マスク比に基づいて得られる所定の量子化係数となるような分割帯域スケーリング係数および前記全帯域スケーリング係数とされる。従って、スケーリング手段が使用する分割帯域スケーリング係数および全帯域スケーリング係数を、許容量子化歪みと目標符号量とに関する条件を満たす量子化係数に近い値に設定した状態から、分割帯域スケーリング係数および全帯域スケーリング係数の更新制御が開始される。
【００１６】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態につき説明する。
【００１７】
図１は本実施形態に係るオーディオ信号符号化装置のブロック図である。
【００１８】
このオーディオ信号符号化装置は、入力されるディジタルオーディオ信号に対して符号化処理を行い、符号化ビットストリームを出力するものである。このオーディオ信号符号化装置は図１に示すように、ブロック切り出し部１、心理聴覚モデル部２、フィルタバンク部３、代表値算出部４、量子化歪み／レート制御部５、ホストプロセッサ６、初期値算出部７、スケーリング部８、量子化部９、符号化部１０およびフォーマッタ１１を有する。なお、これらの各部は、ハードウェアによりそれぞれを構成することも可能であるし、各部の機能をＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）等によるソフトウェア処理によって実現することも可能である。
【００１９】
ブロック切り出し部１には、符号化の対象となるディジタルオーディオ信号が与えられる。このディジタルオーディオ信号は、時間域の信号である。ディジタルオーディオ信号は、リアルタイムで入力される信号であっても、蓄積メディアから取り出される信号であってもよい。ブロック切り出し部１は、このディジタルオーディオ信号から規定のブロックサイズのサンプル数毎にデータを切り出す。そしてブロック切り出し部１は、この切り出した信号をフィルタバンク部３および心理聴覚モデル部２へと与える。
【００２０】
心理聴覚モデル部２は、ブロック切り出し部１から与えられる信号に対してＤＦＴ（Ｄｉｓｃｒｅｔｅ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆｏｒｍ）、ＤＣＴ（Ｄｉｓｃｒｅｔｅ　Ｃｏｓｉｎｅ　Ｔｒａｎｓｆｏｒｍ）、あるいはＭＤＣＴ（Ｍｏｄｉｆｉｅｄ　ＤＣＴ）等の直交変換を行い、これにより時間域の信号から周波数領域の信号に変換する。心理聴覚モデル部２は、上記の直交変換により得られる変換係数（周波数成分）から知覚エントロピーと呼ばれるパラメータを計算する。このパラメータは、変換係数から、聴感上の周波数分解能、周波数成分の拡散、予測不能性、信号の調音性（ｔｏｎａｌｉｔｙ）を解析することにより１ブロックを符号化するのに必要とされる情報量を推定するためのものであり、計算方法の詳細はＩＳＯで標準化されているＩＳ　１３８１８−７のＡＮＮＥＸ　Ｂにて規定されている。
【００２１】
ところで心理聴覚モデル部２は、窓切替え部２ａおよびＳＭＲ算出部２ｂを有する。窓切替え部２ａは、上記の知覚エントロピーに基づいて、実際に符号化する時の直交変換処理（ＭＤＣＴ処理）で用いるブロック長を判定する。窓切替え部２ａは、この判定の結果をフィルタバンク部３に与える。ＳＭＲ算出部２ｂは、聴覚上の周波数分解能を考慮した尺度（バーク、メル等）での等間隔の帯域毎に、信号に対してマスクされる音、つまりノイズとして存在しても知覚されない許容雑音量の比を示すＳＭＲを算出する。ＳＭＲ算出部２ｂは、上記算出したＳＭＲを、初期値算出部７および量子化歪み／レート制御部５へと与える。
【００２２】
フィルタバンク部３は、ブロック切り出し部１から与えられる信号を、心理聴覚モデル部２から与えられる窓情報に従って直交変換する。フィルタバンク部３は、上記の直交変換により得られた周波数変換係数をスケーリング部８および代表値算出部４へと与える。なお、符号化方式としてＡＡＣを採用している場合、フィルタバンク部３での直交変換はＭＤＣＴとなる。
【００２３】
代表値算出部４は、心理聴覚モデル部２にてＳＭＲの算出時に用いた帯域（以下、分割帯域と称する）毎の周波数変換係数について最大値を求め、これを各分割帯域の代表値として初期値算出部７に出力する。
【００２４】
量子化歪み／レート制御部５は、ホストプロセッサ６から指示される符号化レートと、心理聴覚モデル部２から与えられるＳＭＲとに基づいて、フレーム毎に割当可能な符号量を算出する。量子化歪み／レート制御部５は、上記算出した符号量を符号化フレームの目標符号量として、スケーリング部８、量子化部９、符号化部１０および初期値算出部７を制御する。例えば量子化歪み／レート制御部５は、量子化部９から与えられる量子化係数から量子化歪み量を算出し、その結果に応じて量子化部９へと出力指示を与える。また量子化歪み／レート制御部５は、符号化部１０から通知される符号量が上記目標符号量以内であるか否かを確認し、目標符号量以内であるときに符号化部１０へと出力指示を与える。
【００２５】
初期値算出部７は、代表値算出部４から与えられる各分割帯域毎の代表値と、心理聴覚モデル部２から与えられる各分割帯域毎のＳＭＲ値と、量子化歪み／レート制御部５から与えられる目標符号量とから、分割帯域スケーリング係数の初期値および全帯域スケーリング係数の初期値を算出する。初期値算出部７は、上記算出した２つの初期値をそれぞれスケーリング部８へと与える。
【００２６】
スケーリング部８は、フィルタバンク部３から与えられる周波数変換係数（ＭＤＣＴ係数）を、初期値算出部７から与えられる分割スケーリング係数の初期値および全帯域スケーリング係数の初期値でスケーリングする。具体的には、式（１）のｇｌｏｂａｌ＿ｇａｉｎを全帯域スケーリング係数の初期値、ｓｃａｌｅｆａｃｔｏｒ（ｓｂ）を分割帯域ｓｂ毎の分割帯域スケーリング係数の初期値として各周波数変換係数の乗算を行う。そしてスケーリング部８は、上記のスケーリングの結果を量子化部９に与える。またスケーリング部８は、量子化歪み／レート制御部５からの指示に応じてスケーリング係数をフォーマッタ１１へと与える。
【００２７】
量子化部９は、スケーリング部８によりスケーリングがなされた周波数変換係数を式（１）に従って補正したのち、全ての周波数変換係数について量子化を行う。量子化部９は、量子化したのちの係数を、量子化歪み誤差がＳＭＲ値に基づく許容誤差であるかを判定するための情報として量子化歪み／レート制御部５へと与える。量子化部９は、量子化歪み／レート制御部５からの出力指示に応じて、量子化後の周波数変換係数を符号化部１０へと与える。
【００２８】
符号化部１０は、量子化部９で量子化後の周波数変換係数を所定の符号化方式に従って圧縮符号化する。例えば、ＡＡＣの場合は上述の符号化方式としてハフマン符号化方式が適用される。符号化部１０は、符号化後の符号量を量子化歪み／レート制御部５へと通知する。符号化部１０は、量子化歪み／レート制御部５からの出力指示に応じて、符号化後の周波数変換係数をフォーマッタ１１へと与える。
【００２９】
フォーマッタ１１は、スケーリング部８から与えられるスケーリング係数と、符号化部１０にて量子化後の周波数変換係数とを所定のフォーマットに従って多重化する。フォーマッタ１１は、上記の多重化の結果を、符号化オーディオ信号として出力する。
【００３０】
次に以上のように構成されたオーディオ信号符号化装置の動作につき説明する。
【００３１】
このオーディオ信号符号化装置に入力されるオーディオ信号のフレームに同期して、量子化歪み／レート制御部５は図２に示すような量子化ループ制御を実行する。
【００３２】
この量子化ループ制御を開始したならば、量子化歪み／レート制御部５はまずステップＳＴ１において、初期値算出部７に対して分割帯域スケーリング係数および全帯域スケーリング係数のそれぞれの初期値を算出するよう指示する。
【００３３】
この指示を受けると初期値算出部７は、図３に示すような初期値算出処理を実行する。この初期値算出処理を開始したならば、初期値算出部７はまずステップＳＴ１１において、代表値算出部４より各分割周波数帯域の周波数変換係数の代表値を取得する。
【００３４】
次に初期値算出部７はステップＳＴ１２において、量子化歪み／レート制御部５から該フレームの目標符号量を取得し、目標符号量に基づき代表値に関するスケーリング後の量子化係数Ｑｖａｌ＿ｉを見積もる。具体的には、初期値算出部７は以下の式（５）を演算する。
【００３５】
【数３】

【００３６】
ここで、Ｔｂｉｔｓは目標符号量である。ｂｌｏｃｋ＿ｓｉｚｅは直交変換時のブロック長（係数の数）である。
【００３７】
この式（５）によれば、量子化係数Ｑｖａｌ＿ｉとして、周波数変換係数１つあたりに割り当てることが可能なｂｉｔ数で表現できる数を補正係数αで補正した値が得られる。この量子化係数Ｑｖａｌ＿ｉは、目標符号量が大きいほど大きく、ＳＭＲが大きいほど小さくなる。補正係数αでの補正は、周波数変換係数全てが知覚可能な有意な値を持っているわけではないため、本係数で割り当てられるｂｉｔ数を増やしているのである。なお、補正係数αは、固定値であっても、入力信号の特性に応じて適応的に変える値であってもよい。
【００３８】
次に初期値算出部７はステップＳＴ１３において、心理聴覚モデル部２から分割周波数帯域ｓｂ毎の信号対マスク比ＳＭＲ（ｓｂ）を取得し、このＳＭＲ（ｓｂ）に基づいて先に求めた量子化係数Ｑｖａｌ＿ｉを補正し、これにより正規化後の量子化計数Ｑｖａｌ（ｓｂ）を求める。具体的には、初期値算出部７は以下の式（６）を演算する。
【００３９】
Ｑｖａｌ（ｓｂ）＝Ｑｖａｌ＿ｉ×（１−ＳＭＲ（ｓｂ））×β　…（６）
ここで、βは補正のための固定係数である。
【００４０】
この式（６）によれば、量子化計数Ｑｖａｌ（ｓｂ）は、ＳＭＲ（ｓｂ）が大きい帯域、言い換えれば許容雑音量が大きい帯域についてはその分だけ量子化ステップが粗くされる。この結果として量子化計数Ｑｖａｌ（ｓｂ）は、より入力信号特性に適合した値に設定される。こうすることで、量子化ループ制御で最終的に得られるべき値に初期値として近づけることができ収束時間を短縮できる。
【００４１】
次に初期値算出部７はステップＳＴ１４において、先に求めた量子化係数Ｑｖａｌ（ｓｂ）と量子化前の各分割周波数帯域毎の代表値Ｐ＿ＭＤＣＴ＿ｌｉｎｅ（ｓｂ）と式（２）とから、分割帯域スケーリング係数の暫定初期値を求める。具体的には、初期値算出部７は以下の式（７）を演算する。
【００４２】
【数４】

ここで、ＳＣｄｉｖ（ｓｂ）が暫定初期値である。
【００４３】
この式（７）により求まる暫定初期値ＳＣｄｉｖ（ｓｂ）は、式（２）におけるｓｃａｌｅｆａｃｔｏｒ（ｓｂ）−ｇｌｏｂａｌ＿ｇａｉｎの値に相当する。すなわち暫定初期値ＳＣｄｉｖ（ｓｂ）は、全帯域スケーリング係数ｇｌｏｂａｌ＿ｇａｉｎにより影響を受けた値を持ち、式（１）における分割帯域スケーリング係数ｓｃａｌｅｆａｃｔｏｒ（ｓｂ）と意味合いが違う。
【００４４】
そこで初期値算出部７はステップＳＴ１５において、全帯域スケーリング係数の初期値ｓｔａｒｔ＿ｇｌｏｂａｌ＿ｇａｉｎを暫定初期値ＳＣｄｉｖ（ｓｂ）の平均値に設定する。そしてこの上で初期値算出部７はステップＳＴ１６において、暫定初期値ＳＣｄｉｖ（ｓｂ）を全帯域スケーリング係数の初期値ｓｔａｒｔ＿ｇｌｏｂａｌ＿ｇａｉｎで補正することで、分割スケーリング係数の初期値ｓｔａｒｔ＿ｓｃａｌｅｆａｃｔｏｒ（ｓｂ）を算出する。具体的には、初期値算出部７は以下の式（８）を演算する。
【００４５】
ｓｔａｒｔ＿ｓｃａｌｅｆａｃｔｏｒ（ｓｂ）＝ｓｔａｒｔ＿ｇｌｏｂａｌ＿ｇａｉｎ＋ＳＣｄｉｖ（ｓｂ）　…（８）
以上のような初期値算出処理により、初期値算出部７にて全帯域スケーリング係数の初期値ｓｔａｒｔ＿ｇｌｏｂａｌ＿ｇａｉｎおよび分割帯域スケーリング係数の初期値ｓｔａｒｔ＿ｓｃａｌｅｆａｃｔｏｒ（ｓｂ）が求められる。そしてこれらの求められた全帯域スケーリング係数の初期値ｓｔａｒｔ＿ｇｌｏｂａｌ＿ｇａｉｎおよび分割帯域スケーリング係数の初期値ｓｔａｒｔ＿ｓｃａｌｅｆａｃｔｏｒ（ｓｂ）は、それぞれスケーリング部８へと与えられ、実際にスケーリングに用いる全帯域スケーリング係数および分割帯域スケーリング計数として設定される。
【００４６】
さて量子化歪み／レート制御部５は、ステップＳＴ１において上述の初期値算出処理の実行を初期値算出部７に対して指示したのちには、ステップＳＴ２において、スケーリングの実行をスケーリング部８に指示する。そうするとスケーリング部８は、フィルタバンク部３から与えられる周波数変換係数を、その時点で設定されている全帯域スケーリング係数および分割帯域スケーリング係数に基づいてスケーリングする。量子化ループ制御の開始後に最初にスケーリングを実行する際には、スケーリング部８へは上述の初期値算出処理により算出された各初期値が設定されているから、スケーリング部８はこれら初期値に基づいてスケーリングする。
【００４７】
次に量子化歪み／レート制御部５はステップＳＴ３において、量子化の実行を量子化部９に指示し、これに応じて量子化部９にて得られる量子化係数を取得する。続いて量子化歪み／レート制御部５はステップＳＴ４において、上記取得した量子化係数とスケーリング係数とから式（２）に従って逆量子化処理を行う。そして量子化歪み／レート制御部５はステップＳＴ５において、上記逆量子化処理により逆量子化された周波数変換係数と量子化前の周波数変換係数との差分を求め、分割周波数帯域毎の量子化誤差エネルギー（パワー）を計算する。
【００４８】
次に量子化歪み／レート制御部５はステップＳＴ６において、心理聴覚モデル部２から与えられる分割周波数帯域毎の信号対マスク比ＳＭＲ（ｓｂ）と量子化前の周波数変換係数とからマスクされる信号エネルギー量、すなわち許容雑音量を求め、上記計算した量子化誤差エネルギーが上記許容雑音量以下であるか否かを確認する。ここで、量子化誤差エネルギーが許容雑音量以上であることを確認したならば、量子化歪み／レート制御部５はステップＳＴ７において、スケーリング部８に設定されている分割帯域スケーリング係数を更新する。具体的には、量子化ステップサイズを小さくする方向、つまり分割帯域スケーリング係数を増加方向に更新する。そしてこの上で量子化歪み／レート制御部５は、ステップＳＴ２以降の処理を繰り返す。すなわちこの場合には、該当する周波数分割帯域の量子化誤差減少を図った上で量子化および量子化誤差の評価が再度行われる。
【００４９】
これに対して、量子化誤差エネルギーが許容雑音量未満であることをステップＳＴ６にて確認したならば、量子化歪み／レート制御部５はステップＳＴ８において、所定の符号化方式での符号化の実行を符号化部１０に指示し、これに応じて符号化部１０からなされる符号量の通知を受ける。
【００５０】
次に量子化歪み／レート制御部５はステップＳＴ９において、上記通知された符号量が該フレームの目標符号量以下である否かを確認する。もし、符号量が目標符号量以上であることを確認したならば、量子化歪み／レート制御部５はステップＳＴ１０において、スケーリング部８に設定されている全帯域スケーリング係数を更新する。具体的には、量子化ステップサイズを粗くする方向、つまり全帯域スケーリング係数を増加方向に更新する。そしてこの上で量子化歪み／レート制御部５は、ステップＳＴ２以降の処理を繰り返す。すなわちこの場合には、全体の発生符号量削減を図った上で量子化および符号化誤差の評価が再度行われる。
【００５１】
量子化歪み／レート制御部５は、符号量が目標符号量未満であることをステップＳＴ９にて確認できるまで、上述のようなループ処理を繰り返す。そして符号量が目標符号量未満であることを確認したならば量子化歪み／レート制御部５は、この量子化ループ制御を終了する。
【００５２】
ただし、ホストプロセッサ６より指示される符号化レートが低い場合には、許容量子化雑音と目標符号量に関する両条件を満足できる解がない可能性がある。その場合には、制御ループが収束しない可能性があるため、許容雑音量を緩和し、符号量制御を優先する形で処理を打ち切る等の保護措置が必要になる。なおこのような措置としては、例えば既に知られた手法が採用できる。
【００５３】
このように本実施形態によれば、分割帯域スケーリング係数の初期値および全帯域スケーリング係数の初期値を、目標符号量が大きいほど大きく、ＳＭＲが大きいほど小さくなるような量子化係数を得られる値とすることができる。こうすることで、分割帯域スケーリング係数および全帯域スケーリング係数を許容量子化歪みと目標符号化レートに関する条件を満たす量子化係数が得られる値に近い値とした状態から量子化ループ制御を行うことができる。この結果、少ないループ回数で量子化ループ制御を収束させることが可能となり、小さな処理量での高速なオーディオ信号符号化が可能となる。
【００５４】
また本実施形態によれば、分割帯域毎の周波数変換係数についての最大値を代表値として用いるようにしているから、各分割帯域の状態を適正に考慮することになり、分割帯域スケーリング係数の初期値および全帯域スケーリング係数の初期値をよりループ制御が収束する際の分割帯域スケーリング計数および全帯域スケーリング計数に近づけることが可能である。
【００５５】
なお本発明は上記実施形態に限定されるものではない。例えば、代表値としては、入力信号の特性に応じて平均値を用いてもよい。あるいは信号の特性に応じてどちらかを適応的に選択したものの絶対値を用いても良い。これらのいずれの代表値を採用する場合でも、代表値は各分割帯域の状態の特徴を示す情報を含んでいるから、上記実施形態と同様に各初期値を適切に設定することが可能である。なお、これらの例に比べると各初期値の設定の精度が低下するおそれは有るが、例えば各分割帯域内の固定箇所の値などのような別の値を代表値とすることも可能である。
【００５６】
このほか、本発明の要旨を逸脱しない範囲で種々の変形実施が可能である。
【００５７】
【発明の効果】
本発明によれば、量子化手段により量子化された後の周波数変換係数の分割周波数帯域毎の量子化雑音が信号対マスク比に基づいて定まる許容雑音レベル以下で、かつ発生符号量が目標符号量以下となるように、スケーリング手段が使用する分割帯域スケーリング係数および前記全帯域スケーリング係数を更新する処理を行うが、スケーリング手段が使用する分割帯域スケーリング係数および前記全帯域スケーリング係数のそれぞれの初期値は、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および信号対マスク比に基づいて得られる所定の量子化係数となるような分割帯域スケーリング係数および前記全帯域スケーリング係数とする。従って、スケーリング手段が使用する分割帯域スケーリング係数および全帯域スケーリング係数を、許容量子化歪みと目標符号量とに関する条件を満たす量子化係数に近い値に設定した状態から、分割帯域スケーリング係数および全帯域スケーリング係数の更新制御がを開始することとなり、この結果、量子化符号化制御におけるループ制御の処理量を低減することができ、これにより高速で符号化を行うことが可能となる。
【図面の簡単な説明】
【図１】本発明の一実施形態に係るオーディオ信号符号化装置のブロック図。
【図２】量子化ループ制御のフローチャート。
【図３】初期値算出処理のフローチャート。
【符号の説明】
１…周波数変換係数
２…心理聴覚モデル部
２ａ…窓切替え部
２ｂ…ＳＭＲ算出部
３…フィルタバンク部
４…代表値算出部
５…レート制御部
６…ホストプロセッサ
７…初期値算出部
８…スケーリング部
９…量子化部
１０…符号化部
１１…フォーマッタ

Claims

オーディオ信号を所定のブロックサイズ毎にそれぞれ直交変換して周波数変換係数を求める直交変換手段と、
この直交変換手段により求められた前記周波数変換係数を複数の分割周波数帯域に分け、各分割周波数帯域の信号レベルに対するマスキングレベルの比となる信号対マスク比を求める算出手段と、
前記直交変換手段により求められた前記周波数変換係数を前記分割周波数帯域毎の分割帯域スケーリング係数および全帯域共通の全帯域スケーリング係数に基づいてスケーリングするスケーリング手段と、
このスケーリング手段によりスケーリングされた後の前記周波数変換係数を量子化する量子化手段と、
この量子化手段により量子化された後の前記周波数変換係数を所定の符号化方式で符号化する符号化手段と、
前記分割周波数帯域のそれぞれに関して、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を選定する選定手段と、
この選定手段により選定された前記代表値を前記分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および前記信号対マスク比に基づいて得られる所定の量子化係数となるような前記分割帯域スケーリング係数および前記全帯域スケーリング係数をそれぞれ求め、これらを前記分割帯域スケーリング係数の初期値および前記全帯域スケーリング係数の初期値に定める決定手段と、
前記スケーリング手段が使用する前記分割帯域スケーリング係数および前記全帯域スケーリング係数を、所定の単位期間の開始時には前記決定手段により定められたそれぞれの初期値に設定し、以降、前記量子化手段により量子化された後の周波数変換係数の前記分割周波数帯域毎の量子化雑音が前記信号対マスク比に基づいて定まる許容雑音レベル以下で、かつ発生符号量が前記目標符号量以下となるまで、前記スケーリング手段が使用する前記分割帯域スケーリング係数あるいは前記全帯域スケーリング係数を更新するスケーリング制御手段とを具備したオーディオ信号符号化装置。
前記量子化係数は、前記目標符号量と前記周波数帯域毎の信号対マスク比とから定まる１周波数変換係数当りのｂｉｔ長に基づいて、前記目標符号量が大きいほど大きく、前記信号対マスク比が大きいほど小さくなるよう設定する請求項１に記載のオーディオ信号符号化装置。
前記代表値を、前記分割周波数帯域内の周波数変換係数の最大値または平均値として請求項１に記載のオーディオ信号符号化装置。