JP2004021153A - オーディオ信号符号化装置 - Google Patents

オーディオ信号符号化装置 Download PDF

Info

Publication number
JP2004021153A
JP2004021153A JP2002179424A JP2002179424A JP2004021153A JP 2004021153 A JP2004021153 A JP 2004021153A JP 2002179424 A JP2002179424 A JP 2002179424A JP 2002179424 A JP2002179424 A JP 2002179424A JP 2004021153 A JP2004021153 A JP 2004021153A
Authority
JP
Japan
Prior art keywords
coefficient
band
scaling
quantization
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002179424A
Other languages
English (en)
Inventor
Hirokazu Takeuchi
竹内 広和
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2002179424A priority Critical patent/JP2004021153A/ja
Publication of JP2004021153A publication Critical patent/JP2004021153A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

【課題】量子化符号化制御におけるループ制御の処理量を低減することができ、これにより高速で符号化を行うことを可能とする。
【解決手段】代表値算出部4は、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を算出する。初期値算出部7は、代表値算出部4により算出される代表値を分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および信号対マスク比に基づいて得られる所定の量子化係数となるような分割帯域スケーリング係数および前記全帯域スケーリング係数をそれぞれの初期値として算出する。スケーリング部8は、初期には初期値算出部7により算出された分割帯域スケーリング係数および前記全帯域スケーリング係数のそれぞれの初期値を用いてスケーリングを行う。
【選択図】  図1

Description

【0001】
【発明の属する技術分野】
本発明は、オーディオ信号を周波数領域に変換して高速に量子化および圧縮符号化するオーディオ信号符号化装置に関するものである。
【0002】
【従来の技術】
近年のディジタルコンテンツの普及につれて、MPEG等をはじめとするディジタル信号の圧縮符号化技術が重要性を増している。その中でもオーディオ信号に対する符号化技術として、入力信号を時間域から周波数領域に変換し、人間の心理聴覚特性(マスキング効果)を利用することで高品質を達成する技術が注目されている。そのような方法の一つとして、ISOにより標準化されているIS 13818−7(MPEG−2 Advanced Audio Coding,AAC)が知られている。
【0003】
AACでは、まず時間域の入力信号を規定のブロックサイズ毎に切り出される。これにより得られる各ブロックが、離散フーリエ変換等の直交変換により周波数領域の信号に変換される。この周波数領域の信号から、心理聴覚モデルに基づいて適当な周波数帯域(以下、分割周波数帯域)毎のSMR(Signal to Mask Ratio)が求められる。SMRは、信号に対する知覚されない信号、つまり許容される雑音信号の比を表す。従って、各周波数成分の量子化誤差は、上記のマスク比以内に収まるよう量子化される必要がある。ただし、実際符号化する際の直交変換には、ブロック境界の歪み低減を考慮して、離散フーリエ変換でなく変形離散コサイン変換(以下、MDCT)が使用される。このため、上記の周波数成分は、MDCTにおける変換係数となる。更に量子化された係数がハフマン符号化された上、所定のフォーマットに従って出力される。これら量子化、符号化の過程で、所望の許容雑音量以内に収まるかどうか、所望の符号化レート以内に収まるかどうかの確認が行われる。もし収まっていなければ、量子化ステップサイズを変更して上記条件を満足できるように量子化、符号化を繰り返す制御が行われる。
【0004】
量子化する際の計算式は式(1)で表される。逆量子化の計算式は式(2)で表される。
【0005】
【数1】
Figure 2004021153
【0006】
ここで、MDCT_line(i)は量子化前のMDCT係数、x_quant(i)は量子化されたMDCT係数、scalefactor(sb)は分割周波数帯域に対するスケーリング係数(分割帯域スケーリング係数)、global_gainは全帯域に渡るスケーリング係数(全帯域スケーリング係数)、Int()は値を整数化する処理の意味である。
【0007】
これらの式(1)および式(2)から分かるように、同じMDCT係数を表現する場合に、分割帯域スケーリング係数を大きくするほどx_quant(i)も大きくなる。つまり、分割帯域スケーリング係数を大きくするほど量子化ステップサイズが小さくなる。このため、量子化雑音を低減できるが、量子化係数が大きくなるために一般的には符号量が増える。全帯域スケーリング係数は、その逆の挙動を示す。このように、スケーリング係数(分割帯域スケーリング係数、全帯域スケーリング係数)は、量子化ステップサイズ、つまり量子化雑音および発生符号量と密接な関係にある。そのため、SMRから求められる所望の許容雑音量以内に量子化雑音が収まり、かつ発生符号量が目標符号化レート以内に収まるように、スケーリング係数を調整して更新し再び量子化および符号化を繰り返すといったループ制御が行われている。
【0008】
IS 13818−7のANNEXでは、スケーリング係数の初期値として、以下の式(3)および式(4)に示す値を用いている。
【0009】
【数2】
Figure 2004021153
【0010】
ここで、MAX_QUANTはAACの規格上での量子化係数最大値(固定値)である。max_MDCT_lineは、全帯域の内で絶対値が最大となるMDCT係数である。
【0011】
これらの式(3)および式(4)から分かるように、MDCT係数の最大値に対応する量子化係数を規格上の最大値MAX_QUANTになるよう全帯域スケーリング係数が合わせられている。また、分割帯域スケーリング係数は「0」に合わせられている。このため、全帯域スケーリング係数から見ると、量子化ステップサイズは非常に小さく設定されていることになる。また、分割帯域スケーリング係数から見ると、平坦な周波数特性に設定されていることになる。つまり、入力信号の特性に関わらず、常に符号量が非常に大きい状態からループ制御がスタートされ、全帯域スケーリング係数を徐々に大きくしながら発生符号量が下げられ、かつ入力信号特性に応じて分割帯域スケーリング係数を大きくしながら各分割帯域の量子化歪みが調整されることになる。
【0012】
【発明が解決しようとする課題】
上述のように従来は、全帯域スケーリング係数の初期値を、全帯域に渡る周波数変換係数の最大値に基づいて設定し、かつ分割帯域スケーリング係数の初期値を「0」に設定して量子化ループ制御を行っていたため、量子化歪みおよび発生符号量に関する条件を満足するまでのループ回数が多くなり、符号化に要する処理量が非常に多くなってしまうという不具合があった。このため、上記の量子化ループ制御を比較的低い性能のプロセッサで行おうとすると、符号化に要する時間が非常に長くなってしまう。またリアルタイム符号化を行おうとする場合には、高性能なプロセッサが必要とされ、装置コストの上昇を招く。
【0013】
本発明はこのような事情を考慮してなされたものであり、その目的とするところは、量子化符号化制御におけるループ制御の処理量を低減することができ、これにより高速で符号化を行うことが可能なオーディオ信号符号化装置を提供することにある。
【0014】
【課題を解決するための手段】
以上の目的を達成するために本発明は、オーディオ信号を所定のブロックサイズ毎にそれぞれ直交変換して周波数変換係数を求める直交変換手段と、この直交変換手段により求められた前記周波数変換係数を複数の分割周波数帯域に分け、各分割周波数帯域の信号レベルに対するマスキングレベルの比となる信号対マスク比を求める算出手段と、前記直交変換手段により求められた前記周波数変換係数を前記分割周波数帯域毎の分割帯域スケーリング係数および全帯域共通の全帯域スケーリング係数に基づいてスケーリングするスケーリング手段と、このスケーリング手段によりスケーリングされた後の前記周波数変換係数を量子化する量子化手段と、この量子化手段により量子化された後の前記周波数変換係数を所定の符号化方式で符号化する符号化手段とにより前記オーディオ信号を符号化するに当り、前記分割周波数帯域のそれぞれに関して、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を選定手段により選定し、さらに決定手段が、前記選定手段により選定された前記代表値を前記分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および前記信号対マスク比に基づいて得られる所定の量子化係数となるような前記分割帯域スケーリング係数および前記全帯域スケーリング係数をそれぞれ求め、これらを前記分割帯域スケーリング係数の初期値および前記全帯域スケーリング係数の初期値に定めるようにした。そしてスケーリング制御手段が、前記スケーリング手段が使用する前記分割帯域スケーリング係数および前記全帯域スケーリング係数を、所定の単位期間の開始時には前記決定手段により定められたそれぞれの初期値に設定し、以降、前記量子化手段により量子化された後の周波数変換係数の前記分割周波数帯域毎の量子化雑音が前記信号対マスク比に基づいて定まる許容雑音レベル以下で、かつ発生符号量が前記目標符号量以下となるまで、前記スケーリング手段が使用する前記分割帯域スケーリング係数あるいは前記全帯域スケーリング係数を更新することとした。
【0015】
このような手段を講じたことにより、量子化手段により量子化された後の周波数変換係数の分割周波数帯域毎の量子化雑音が信号対マスク比に基づいて定まる許容雑音レベル以下で、かつ発生符号量が目標符号量以下となるように、スケーリング手段が使用する分割帯域スケーリング係数および前記全帯域スケーリング係数を更新する処理が行われるが、スケーリング手段が使用する分割帯域スケーリング係数および前記全帯域スケーリング係数のそれぞれの初期値は、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および信号対マスク比に基づいて得られる所定の量子化係数となるような分割帯域スケーリング係数および前記全帯域スケーリング係数とされる。従って、スケーリング手段が使用する分割帯域スケーリング係数および全帯域スケーリング係数を、許容量子化歪みと目標符号量とに関する条件を満たす量子化係数に近い値に設定した状態から、分割帯域スケーリング係数および全帯域スケーリング係数の更新制御が開始される。
【0016】
【発明の実施の形態】
以下、図面を参照して本発明の一実施形態につき説明する。
【0017】
図1は本実施形態に係るオーディオ信号符号化装置のブロック図である。
【0018】
このオーディオ信号符号化装置は、入力されるディジタルオーディオ信号に対して符号化処理を行い、符号化ビットストリームを出力するものである。このオーディオ信号符号化装置は図1に示すように、ブロック切り出し部1、心理聴覚モデル部2、フィルタバンク部3、代表値算出部4、量子化歪み/レート制御部5、ホストプロセッサ6、初期値算出部7、スケーリング部8、量子化部9、符号化部10およびフォーマッタ11を有する。なお、これらの各部は、ハードウェアによりそれぞれを構成することも可能であるし、各部の機能をDSP(Digital Signal Processor)等によるソフトウェア処理によって実現することも可能である。
【0019】
ブロック切り出し部1には、符号化の対象となるディジタルオーディオ信号が与えられる。このディジタルオーディオ信号は、時間域の信号である。ディジタルオーディオ信号は、リアルタイムで入力される信号であっても、蓄積メディアから取り出される信号であってもよい。ブロック切り出し部1は、このディジタルオーディオ信号から規定のブロックサイズのサンプル数毎にデータを切り出す。そしてブロック切り出し部1は、この切り出した信号をフィルタバンク部3および心理聴覚モデル部2へと与える。
【0020】
心理聴覚モデル部2は、ブロック切り出し部1から与えられる信号に対してDFT(Discrete Fourier Transform)、DCT(Discrete Cosine Transform)、あるいはMDCT(Modified DCT)等の直交変換を行い、これにより時間域の信号から周波数領域の信号に変換する。心理聴覚モデル部2は、上記の直交変換により得られる変換係数(周波数成分)から知覚エントロピーと呼ばれるパラメータを計算する。このパラメータは、変換係数から、聴感上の周波数分解能、周波数成分の拡散、予測不能性、信号の調音性(tonality)を解析することにより1ブロックを符号化するのに必要とされる情報量を推定するためのものであり、計算方法の詳細はISOで標準化されているIS 13818−7のANNEX Bにて規定されている。
【0021】
ところで心理聴覚モデル部2は、窓切替え部2aおよびSMR算出部2bを有する。窓切替え部2aは、上記の知覚エントロピーに基づいて、実際に符号化する時の直交変換処理(MDCT処理)で用いるブロック長を判定する。窓切替え部2aは、この判定の結果をフィルタバンク部3に与える。SMR算出部2bは、聴覚上の周波数分解能を考慮した尺度(バーク、メル等)での等間隔の帯域毎に、信号に対してマスクされる音、つまりノイズとして存在しても知覚されない許容雑音量の比を示すSMRを算出する。SMR算出部2bは、上記算出したSMRを、初期値算出部7および量子化歪み/レート制御部5へと与える。
【0022】
フィルタバンク部3は、ブロック切り出し部1から与えられる信号を、心理聴覚モデル部2から与えられる窓情報に従って直交変換する。フィルタバンク部3は、上記の直交変換により得られた周波数変換係数をスケーリング部8および代表値算出部4へと与える。なお、符号化方式としてAACを採用している場合、フィルタバンク部3での直交変換はMDCTとなる。
【0023】
代表値算出部4は、心理聴覚モデル部2にてSMRの算出時に用いた帯域(以下、分割帯域と称する)毎の周波数変換係数について最大値を求め、これを各分割帯域の代表値として初期値算出部7に出力する。
【0024】
量子化歪み/レート制御部5は、ホストプロセッサ6から指示される符号化レートと、心理聴覚モデル部2から与えられるSMRとに基づいて、フレーム毎に割当可能な符号量を算出する。量子化歪み/レート制御部5は、上記算出した符号量を符号化フレームの目標符号量として、スケーリング部8、量子化部9、符号化部10および初期値算出部7を制御する。例えば量子化歪み/レート制御部5は、量子化部9から与えられる量子化係数から量子化歪み量を算出し、その結果に応じて量子化部9へと出力指示を与える。また量子化歪み/レート制御部5は、符号化部10から通知される符号量が上記目標符号量以内であるか否かを確認し、目標符号量以内であるときに符号化部10へと出力指示を与える。
【0025】
初期値算出部7は、代表値算出部4から与えられる各分割帯域毎の代表値と、心理聴覚モデル部2から与えられる各分割帯域毎のSMR値と、量子化歪み/レート制御部5から与えられる目標符号量とから、分割帯域スケーリング係数の初期値および全帯域スケーリング係数の初期値を算出する。初期値算出部7は、上記算出した2つの初期値をそれぞれスケーリング部8へと与える。
【0026】
スケーリング部8は、フィルタバンク部3から与えられる周波数変換係数(MDCT係数)を、初期値算出部7から与えられる分割スケーリング係数の初期値および全帯域スケーリング係数の初期値でスケーリングする。具体的には、式(1)のglobal_gainを全帯域スケーリング係数の初期値、scalefactor(sb)を分割帯域sb毎の分割帯域スケーリング係数の初期値として各周波数変換係数の乗算を行う。そしてスケーリング部8は、上記のスケーリングの結果を量子化部9に与える。またスケーリング部8は、量子化歪み/レート制御部5からの指示に応じてスケーリング係数をフォーマッタ11へと与える。
【0027】
量子化部9は、スケーリング部8によりスケーリングがなされた周波数変換係数を式(1)に従って補正したのち、全ての周波数変換係数について量子化を行う。量子化部9は、量子化したのちの係数を、量子化歪み誤差がSMR値に基づく許容誤差であるかを判定するための情報として量子化歪み/レート制御部5へと与える。量子化部9は、量子化歪み/レート制御部5からの出力指示に応じて、量子化後の周波数変換係数を符号化部10へと与える。
【0028】
符号化部10は、量子化部9で量子化後の周波数変換係数を所定の符号化方式に従って圧縮符号化する。例えば、AACの場合は上述の符号化方式としてハフマン符号化方式が適用される。符号化部10は、符号化後の符号量を量子化歪み/レート制御部5へと通知する。符号化部10は、量子化歪み/レート制御部5からの出力指示に応じて、符号化後の周波数変換係数をフォーマッタ11へと与える。
【0029】
フォーマッタ11は、スケーリング部8から与えられるスケーリング係数と、符号化部10にて量子化後の周波数変換係数とを所定のフォーマットに従って多重化する。フォーマッタ11は、上記の多重化の結果を、符号化オーディオ信号として出力する。
【0030】
次に以上のように構成されたオーディオ信号符号化装置の動作につき説明する。
【0031】
このオーディオ信号符号化装置に入力されるオーディオ信号のフレームに同期して、量子化歪み/レート制御部5は図2に示すような量子化ループ制御を実行する。
【0032】
この量子化ループ制御を開始したならば、量子化歪み/レート制御部5はまずステップST1において、初期値算出部7に対して分割帯域スケーリング係数および全帯域スケーリング係数のそれぞれの初期値を算出するよう指示する。
【0033】
この指示を受けると初期値算出部7は、図3に示すような初期値算出処理を実行する。この初期値算出処理を開始したならば、初期値算出部7はまずステップST11において、代表値算出部4より各分割周波数帯域の周波数変換係数の代表値を取得する。
【0034】
次に初期値算出部7はステップST12において、量子化歪み/レート制御部5から該フレームの目標符号量を取得し、目標符号量に基づき代表値に関するスケーリング後の量子化係数Qval_iを見積もる。具体的には、初期値算出部7は以下の式(5)を演算する。
【0035】
【数3】
Figure 2004021153
【0036】
ここで、Tbitsは目標符号量である。block_sizeは直交変換時のブロック長(係数の数)である。
【0037】
この式(5)によれば、量子化係数Qval_iとして、周波数変換係数1つあたりに割り当てることが可能なbit数で表現できる数を補正係数αで補正した値が得られる。この量子化係数Qval_iは、目標符号量が大きいほど大きく、SMRが大きいほど小さくなる。補正係数αでの補正は、周波数変換係数全てが知覚可能な有意な値を持っているわけではないため、本係数で割り当てられるbit数を増やしているのである。なお、補正係数αは、固定値であっても、入力信号の特性に応じて適応的に変える値であってもよい。
【0038】
次に初期値算出部7はステップST13において、心理聴覚モデル部2から分割周波数帯域sb毎の信号対マスク比SMR(sb)を取得し、このSMR(sb)に基づいて先に求めた量子化係数Qval_iを補正し、これにより正規化後の量子化計数Qval(sb)を求める。具体的には、初期値算出部7は以下の式(6)を演算する。
【0039】
Qval(sb)=Qval_i×(1−SMR(sb))×β …(6)
ここで、βは補正のための固定係数である。
【0040】
この式(6)によれば、量子化計数Qval(sb)は、SMR(sb)が大きい帯域、言い換えれば許容雑音量が大きい帯域についてはその分だけ量子化ステップが粗くされる。この結果として量子化計数Qval(sb)は、より入力信号特性に適合した値に設定される。こうすることで、量子化ループ制御で最終的に得られるべき値に初期値として近づけることができ収束時間を短縮できる。
【0041】
次に初期値算出部7はステップST14において、先に求めた量子化係数Qval(sb)と量子化前の各分割周波数帯域毎の代表値P_MDCT_line(sb)と式(2)とから、分割帯域スケーリング係数の暫定初期値を求める。具体的には、初期値算出部7は以下の式(7)を演算する。
【0042】
【数4】
Figure 2004021153
ここで、SCdiv(sb)が暫定初期値である。
【0043】
この式(7)により求まる暫定初期値SCdiv(sb)は、式(2)におけるscalefactor(sb)−global_gainの値に相当する。すなわち暫定初期値SCdiv(sb)は、全帯域スケーリング係数global_gainにより影響を受けた値を持ち、式(1)における分割帯域スケーリング係数scalefactor(sb)と意味合いが違う。
【0044】
そこで初期値算出部7はステップST15において、全帯域スケーリング係数の初期値start_global_gainを暫定初期値SCdiv(sb)の平均値に設定する。そしてこの上で初期値算出部7はステップST16において、暫定初期値SCdiv(sb)を全帯域スケーリング係数の初期値start_global_gainで補正することで、分割スケーリング係数の初期値start_scalefactor(sb)を算出する。具体的には、初期値算出部7は以下の式(8)を演算する。
【0045】
start_scalefactor(sb)=start_global_gain+SCdiv(sb) …(8)
以上のような初期値算出処理により、初期値算出部7にて全帯域スケーリング係数の初期値start_global_gainおよび分割帯域スケーリング係数の初期値start_scalefactor(sb)が求められる。そしてこれらの求められた全帯域スケーリング係数の初期値start_global_gainおよび分割帯域スケーリング係数の初期値start_scalefactor(sb)は、それぞれスケーリング部8へと与えられ、実際にスケーリングに用いる全帯域スケーリング係数および分割帯域スケーリング計数として設定される。
【0046】
さて量子化歪み/レート制御部5は、ステップST1において上述の初期値算出処理の実行を初期値算出部7に対して指示したのちには、ステップST2において、スケーリングの実行をスケーリング部8に指示する。そうするとスケーリング部8は、フィルタバンク部3から与えられる周波数変換係数を、その時点で設定されている全帯域スケーリング係数および分割帯域スケーリング係数に基づいてスケーリングする。量子化ループ制御の開始後に最初にスケーリングを実行する際には、スケーリング部8へは上述の初期値算出処理により算出された各初期値が設定されているから、スケーリング部8はこれら初期値に基づいてスケーリングする。
【0047】
次に量子化歪み/レート制御部5はステップST3において、量子化の実行を量子化部9に指示し、これに応じて量子化部9にて得られる量子化係数を取得する。続いて量子化歪み/レート制御部5はステップST4において、上記取得した量子化係数とスケーリング係数とから式(2)に従って逆量子化処理を行う。そして量子化歪み/レート制御部5はステップST5において、上記逆量子化処理により逆量子化された周波数変換係数と量子化前の周波数変換係数との差分を求め、分割周波数帯域毎の量子化誤差エネルギー(パワー)を計算する。
【0048】
次に量子化歪み/レート制御部5はステップST6において、心理聴覚モデル部2から与えられる分割周波数帯域毎の信号対マスク比SMR(sb)と量子化前の周波数変換係数とからマスクされる信号エネルギー量、すなわち許容雑音量を求め、上記計算した量子化誤差エネルギーが上記許容雑音量以下であるか否かを確認する。ここで、量子化誤差エネルギーが許容雑音量以上であることを確認したならば、量子化歪み/レート制御部5はステップST7において、スケーリング部8に設定されている分割帯域スケーリング係数を更新する。具体的には、量子化ステップサイズを小さくする方向、つまり分割帯域スケーリング係数を増加方向に更新する。そしてこの上で量子化歪み/レート制御部5は、ステップST2以降の処理を繰り返す。すなわちこの場合には、該当する周波数分割帯域の量子化誤差減少を図った上で量子化および量子化誤差の評価が再度行われる。
【0049】
これに対して、量子化誤差エネルギーが許容雑音量未満であることをステップST6にて確認したならば、量子化歪み/レート制御部5はステップST8において、所定の符号化方式での符号化の実行を符号化部10に指示し、これに応じて符号化部10からなされる符号量の通知を受ける。
【0050】
次に量子化歪み/レート制御部5はステップST9において、上記通知された符号量が該フレームの目標符号量以下である否かを確認する。もし、符号量が目標符号量以上であることを確認したならば、量子化歪み/レート制御部5はステップST10において、スケーリング部8に設定されている全帯域スケーリング係数を更新する。具体的には、量子化ステップサイズを粗くする方向、つまり全帯域スケーリング係数を増加方向に更新する。そしてこの上で量子化歪み/レート制御部5は、ステップST2以降の処理を繰り返す。すなわちこの場合には、全体の発生符号量削減を図った上で量子化および符号化誤差の評価が再度行われる。
【0051】
量子化歪み/レート制御部5は、符号量が目標符号量未満であることをステップST9にて確認できるまで、上述のようなループ処理を繰り返す。そして符号量が目標符号量未満であることを確認したならば量子化歪み/レート制御部5は、この量子化ループ制御を終了する。
【0052】
ただし、ホストプロセッサ6より指示される符号化レートが低い場合には、許容量子化雑音と目標符号量に関する両条件を満足できる解がない可能性がある。その場合には、制御ループが収束しない可能性があるため、許容雑音量を緩和し、符号量制御を優先する形で処理を打ち切る等の保護措置が必要になる。なおこのような措置としては、例えば既に知られた手法が採用できる。
【0053】
このように本実施形態によれば、分割帯域スケーリング係数の初期値および全帯域スケーリング係数の初期値を、目標符号量が大きいほど大きく、SMRが大きいほど小さくなるような量子化係数を得られる値とすることができる。こうすることで、分割帯域スケーリング係数および全帯域スケーリング係数を許容量子化歪みと目標符号化レートに関する条件を満たす量子化係数が得られる値に近い値とした状態から量子化ループ制御を行うことができる。この結果、少ないループ回数で量子化ループ制御を収束させることが可能となり、小さな処理量での高速なオーディオ信号符号化が可能となる。
【0054】
また本実施形態によれば、分割帯域毎の周波数変換係数についての最大値を代表値として用いるようにしているから、各分割帯域の状態を適正に考慮することになり、分割帯域スケーリング係数の初期値および全帯域スケーリング係数の初期値をよりループ制御が収束する際の分割帯域スケーリング計数および全帯域スケーリング計数に近づけることが可能である。
【0055】
なお本発明は上記実施形態に限定されるものではない。例えば、代表値としては、入力信号の特性に応じて平均値を用いてもよい。あるいは信号の特性に応じてどちらかを適応的に選択したものの絶対値を用いても良い。これらのいずれの代表値を採用する場合でも、代表値は各分割帯域の状態の特徴を示す情報を含んでいるから、上記実施形態と同様に各初期値を適切に設定することが可能である。なお、これらの例に比べると各初期値の設定の精度が低下するおそれは有るが、例えば各分割帯域内の固定箇所の値などのような別の値を代表値とすることも可能である。
【0056】
このほか、本発明の要旨を逸脱しない範囲で種々の変形実施が可能である。
【0057】
【発明の効果】
本発明によれば、量子化手段により量子化された後の周波数変換係数の分割周波数帯域毎の量子化雑音が信号対マスク比に基づいて定まる許容雑音レベル以下で、かつ発生符号量が目標符号量以下となるように、スケーリング手段が使用する分割帯域スケーリング係数および前記全帯域スケーリング係数を更新する処理を行うが、スケーリング手段が使用する分割帯域スケーリング係数および前記全帯域スケーリング係数のそれぞれの初期値は、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および信号対マスク比に基づいて得られる所定の量子化係数となるような分割帯域スケーリング係数および前記全帯域スケーリング係数とする。従って、スケーリング手段が使用する分割帯域スケーリング係数および全帯域スケーリング係数を、許容量子化歪みと目標符号量とに関する条件を満たす量子化係数に近い値に設定した状態から、分割帯域スケーリング係数および全帯域スケーリング係数の更新制御がを開始することとなり、この結果、量子化符号化制御におけるループ制御の処理量を低減することができ、これにより高速で符号化を行うことが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態に係るオーディオ信号符号化装置のブロック図。
【図2】量子化ループ制御のフローチャート。
【図3】初期値算出処理のフローチャート。
【符号の説明】
1…周波数変換係数
2…心理聴覚モデル部
2a…窓切替え部
2b…SMR算出部
3…フィルタバンク部
4…代表値算出部
5…レート制御部
6…ホストプロセッサ
7…初期値算出部
8…スケーリング部
9…量子化部
10…符号化部
11…フォーマッタ

Claims (3)

  1. オーディオ信号を所定のブロックサイズ毎にそれぞれ直交変換して周波数変換係数を求める直交変換手段と、
    この直交変換手段により求められた前記周波数変換係数を複数の分割周波数帯域に分け、各分割周波数帯域の信号レベルに対するマスキングレベルの比となる信号対マスク比を求める算出手段と、
    前記直交変換手段により求められた前記周波数変換係数を前記分割周波数帯域毎の分割帯域スケーリング係数および全帯域共通の全帯域スケーリング係数に基づいてスケーリングするスケーリング手段と、
    このスケーリング手段によりスケーリングされた後の前記周波数変換係数を量子化する量子化手段と、
    この量子化手段により量子化された後の前記周波数変換係数を所定の符号化方式で符号化する符号化手段と、
    前記分割周波数帯域のそれぞれに関して、各分割周波数帯域に含まれる前記周波数変換係数に関する所定の代表値を選定する選定手段と、
    この選定手段により選定された前記代表値を前記分割周波数帯域毎に正規化する際に正規化後の係数が目標符号量および前記信号対マスク比に基づいて得られる所定の量子化係数となるような前記分割帯域スケーリング係数および前記全帯域スケーリング係数をそれぞれ求め、これらを前記分割帯域スケーリング係数の初期値および前記全帯域スケーリング係数の初期値に定める決定手段と、
    前記スケーリング手段が使用する前記分割帯域スケーリング係数および前記全帯域スケーリング係数を、所定の単位期間の開始時には前記決定手段により定められたそれぞれの初期値に設定し、以降、前記量子化手段により量子化された後の周波数変換係数の前記分割周波数帯域毎の量子化雑音が前記信号対マスク比に基づいて定まる許容雑音レベル以下で、かつ発生符号量が前記目標符号量以下となるまで、前記スケーリング手段が使用する前記分割帯域スケーリング係数あるいは前記全帯域スケーリング係数を更新するスケーリング制御手段とを具備したオーディオ信号符号化装置。
  2. 前記量子化係数は、前記目標符号量と前記周波数帯域毎の信号対マスク比とから定まる1周波数変換係数当りのbit長に基づいて、前記目標符号量が大きいほど大きく、前記信号対マスク比が大きいほど小さくなるよう設定する請求項1に記載のオーディオ信号符号化装置。
  3. 前記代表値を、前記分割周波数帯域内の周波数変換係数の最大値または平均値として請求項1に記載のオーディオ信号符号化装置。
JP2002179424A 2002-06-20 2002-06-20 オーディオ信号符号化装置 Pending JP2004021153A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002179424A JP2004021153A (ja) 2002-06-20 2002-06-20 オーディオ信号符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002179424A JP2004021153A (ja) 2002-06-20 2002-06-20 オーディオ信号符号化装置

Publications (1)

Publication Number Publication Date
JP2004021153A true JP2004021153A (ja) 2004-01-22

Family

ID=31176823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002179424A Pending JP2004021153A (ja) 2002-06-20 2002-06-20 オーディオ信号符号化装置

Country Status (1)

Country Link
JP (1) JP2004021153A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007017659A (ja) * 2005-07-07 2007-01-25 Fujitsu Ltd オーディオ符号化方法及び装置
JP2008065162A (ja) * 2006-09-08 2008-03-21 Toshiba Corp オーディオ符号化装置
EP2202724A1 (en) 2008-12-26 2010-06-30 Fujitsu Limited Audio encoding apparatus
JP2010281965A (ja) * 2009-06-03 2010-12-16 Sony Corp 量子化装置、再生装置、量子化方法およびプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007017659A (ja) * 2005-07-07 2007-01-25 Fujitsu Ltd オーディオ符号化方法及び装置
JP2008065162A (ja) * 2006-09-08 2008-03-21 Toshiba Corp オーディオ符号化装置
EP2202724A1 (en) 2008-12-26 2010-06-30 Fujitsu Limited Audio encoding apparatus
JP2010281965A (ja) * 2009-06-03 2010-12-16 Sony Corp 量子化装置、再生装置、量子化方法およびプログラム

Similar Documents

Publication Publication Date Title
KR101251813B1 (ko) 넓은-뜻의 지각적 유사성을 이용하는 디지털 미디어 스펙트럼 데이터의 효과적인 코딩
KR101278546B1 (ko) 대역폭 확장 출력 데이터를 생성하기 위한 장치 및 방법
US9009036B2 (en) Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
JP3579047B2 (ja) オーディオ復号装置と復号方法およびプログラム
KR100814673B1 (ko) 오디오 부호화
KR100547113B1 (ko) 오디오 데이터 인코딩 장치 및 방법
US6654716B2 (en) Perceptually improved enhancement of encoded acoustic signals
EP2159790B1 (en) Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
EP2317509A1 (en) Device and method for expanding frequency band, device and method for encoding, device and method for decoding, and program
KR100904605B1 (ko) 음성부호화장치, 음성복호장치, 음성부호화방법 및음성복호방법
WO2006075563A1 (ja) オーディオ符号化装置、オーディオ符号化方法およびオーディオ符号化プログラム
WO2005004113A1 (ja) オーディオ符号化装置
MX2007012735A (es) Medicion economica de la intensidad acustica de audio codificado.
KR100813193B1 (ko) 정보 신호의 양자화 방법 및 장치
CN101131820A (zh) 编码设备、解码设备、编码方法和解码方法
JP2007293118A (ja) 符号化方法および符号化装置
KR20130109793A (ko) 잡음 감쇄를 위한 오디오 신호 부호화 방법 및 장치
JP2004021153A (ja) オーディオ信号符号化装置
JP5379871B2 (ja) オーディオ符号化のための量子化
JP4625709B2 (ja) ステレオオーディオ信号符号化装置
JP4822816B2 (ja) オーディオ信号符号化装置および方法
US10332527B2 (en) Method and apparatus for encoding and decoding audio signal
JP4024185B2 (ja) デジタルデータ符号化装置
JP4409733B2 (ja) 符号化装置、符号化方法、及びその記録媒体