JP4116628B2 - オーディオ符号化方法およびオーディオ符号化装置 - Google Patents

オーディオ符号化方法およびオーディオ符号化装置 Download PDF

Info

Publication number
JP4116628B2
JP4116628B2 JP2005031967A JP2005031967A JP4116628B2 JP 4116628 B2 JP4116628 B2 JP 4116628B2 JP 2005031967 A JP2005031967 A JP 2005031967A JP 2005031967 A JP2005031967 A JP 2005031967A JP 4116628 B2 JP4116628 B2 JP 4116628B2
Authority
JP
Japan
Prior art keywords
scale
quantization
factor
scale factor
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005031967A
Other languages
English (en)
Other versions
JP2006220753A (ja
Inventor
将高 長田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2005031967A priority Critical patent/JP4116628B2/ja
Publication of JP2006220753A publication Critical patent/JP2006220753A/ja
Application granted granted Critical
Publication of JP4116628B2 publication Critical patent/JP4116628B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、時間周波数変換されたオーディオ信号について、周波数帯域における予め定められた区間毎にその区間内のスペクトルを量子化する処理を伴う、例えばAAC(Advanced Audio Coding)やMP3(MPEG-1 Audio Layer-3)などのオーディオ符号化方法およびこの符号化方法で符号化を行うオーディオ符号化装置に関する。
非特許文献1は、AACについて規定している。この非特許文献1では、量子化について次の(1)式を規定している。
Figure 0004116628
mdct_line:量子化前のMDCT係数
x:量子化後のMDCT係数
これを基に、実際の量子化誤差が許容量子化誤差を越えないための条件は(2)式のようになる。
Figure 0004116628
b:スケールファクターバンドインデックス
thr[b]:スケールファクターバンドbの許容量子化誤差(Masking Threshold)
w_high[b]:スケールファクターbの最も高域側のMDCT係数インデックス
w_low[b]:スケールファクターbの最も低域側のMDCT係数インデックス
scale_factor[b]:スケールファクターbのスケールファクター
global_gain:グローバルゲイン
(2)式を変形することにより下記(3)式が得られる。
Figure 0004116628
この(3)式における第二項および第三項は、スケールファクターバンド毎に同一の値であり、スケールファクターバンド毎の量子化ステップサイズの相対的な差分には寄与しない。そこで、(3)式より定数項を削除することにより、(4)式が得られる。この(4)式により、スケールファクターを求めるものとする。
Figure 0004116628
ビットレートが充分に大きい場合には、(4)式によって算出されたスケールファクターによる量子化によって、概ね許容量子化誤差量(thr[b])を満たすことができる。しかし、ビットレートが低くなると許容量子化誤差量を満たすことが困難になる。
非特許文献2には、ビットレートが低い状況で許容量子化誤差量を満たすために、許容量子化誤差量にノイズを混入させて、許容量子化誤差量が大きくなるように補正してからスケールファクターを求める方法が規定されている。この補正は、次のような(5)式によって行われる。
Figure 0004116628
new_thr[b]:スケールファクターバンドbにおける補正された許容量子化誤差
r:ノイズ(全スケールファクターバンドで共通)
「Advanced Audio Coding(AAC)」,ISO/IEC 13818-7 Information technology -Generic coding of moving pictures and associated audio information-,国際標準化機構/国際電気標準会議,1997年12月1日 「3rd Generation Partnership Project; Technical Specification Group Service and System Aspects; General Audio Codec audio processing functions; Enhanced aacPlus general audio codec; Encoder Specification AAC part (Release 6)」,3GPP TS 26.403 V6.0.0,3rd Generation Partnership Project,2004年9月
しかしながら、(5)式は許容量子化誤差thr[b]を1/4乗する計算を含んでいるため、有限語長処理するには比較的負荷が大きくなってしまう。
本発明はこのような事情を考慮してなされたものであり、その目的とするところは、補正されたスケールファクターに基づくスケーリング処理を簡易な処理により実現することが可能なオーディオ符号化方法およびオーディオ符号化装置を提供することにある。
本発明の一態様によるオーディオ符号化方法は、以上の目的を達成するために本発明は、時間周波数変換されたオーディオ信号について、周波数帯域における予め定められた区間毎にその区間内のスペクトルを量子化する処理を伴うオーディオ符号化方法において、前記区間毎に、前記量子化における量子化ステップサイズを、量子化誤差が許容量子化誤差を越えないように決定するためのスケールファクターを算出し、前記区間毎に、その区間について算出されたスケールファクターをscale_factor[b]、ビットレート(bps)をBitrate、サンプリング周波数(Hz)または帯域制限周波数をFs、チャネル数をCh、補正係数をMAGIC_NUMBERと表すときに、
Figure 0004116628
なる式により補正されたスケールファクターnew_scale_factor[b]を求め、前記量子化に先立ち、前記区間毎にその区間内のスペクトルを、その区間について求められた前記補正されたスケールファクターnew_scale_factor[b]に基づいてスケーリングすることとした。
本発明の別態様によるオーディオ符号化装置は、時間周波数変換されたオーディオ信号について、周波数帯域における予め定められた区間毎にその区間内のスペクトルを量子化する処理を伴うオーディオ符号化を行うオーディオ符号化装置において、前記区間毎に、前記量子化における量子化ステップサイズを、量子化誤差が許容量子化誤差を越えないように決定するためのスケールファクターを算出する手段と、前記区間毎に、その区間について算出されたスケールファクターをscale_factor[b]、ビットレート(bps)をBitrate、サンプリング周波数(Hz)または帯域制限周波数をFs、チャネル数をCh、補正係数をMAGIC_NUMBERと表すときに、
Figure 0004116628
なる式により補正されたスケールファクターnew_scale_factor[b]を求める手段と、前記量子化に先立ち、前記区間毎にその区間内のスペクトルを、その区間について求められた前記補正されたスケールファクターnew_scale_factor[b]に基づいてスケーリングする手段とを備えた。
本発明によれば、補正されたスケールファクターに基づくスケーリング処理を簡易な処理により実現することが可能となる。
以下、図面を参照して本発明の一実施形態について説明する。
図1は本実施形態に係るオーディオ符号化装置(以下、符号化装置と称する)のブロック図である。
この符号化装置は、入力されるPCM信号に対して符号化処理を行い、符号化ビットストリームを出力するものである。この符号化装置は、ブロック切り出し部1、心理聴覚モデル部2、フィルタバンク部3、量子化歪み/レート制御部4、ホストプロセッサ5、スケーリング部6、量子化部7、符号化部8およびフォーマッタ9を含む。なお、これらの各部は、ハードウェアによりそれぞれを構成することも可能であるし、各部の機能をDSP(Digital Signal Processor)等によるソフトウェア処理によって実現することも可能である。
ブロック切り出し部1には、符号化の対象となるPCM信号が与えられる。このPCM信号は、時間域の信号である。ブロック切り出し部1は、このPCM信号から規定のブロックサイズのサンプル数毎にデータを切り出す。そしてブロック切り出し部1は、この切り出した信号を出力する。
心理聴覚モデル部2は、ブロック切り出し部1が出力する信号に対してDFT(Discrete Fourier Transform)、DCT(Discrete Cosine Transform)、あるいはMDCT(Modified DCT)等の直交変換を行い、これにより時間域の信号から周波数領域の信号に変換する。心理聴覚モデル部2は、上記の直交変換により得られる変換係数(周波数成分)から知覚エントロピーと呼ばれるパラメータを計算する。このパラメータは、上記の変換係数から、聴感上の周波数分解能、周波数成分の拡散、予測不能性、信号の調音性(tonality)を解析することにより1ブロックを符号化するのに必要とされる情報量を推定するためのものであり、計算方法の詳細はISO/IECにより制定された国際標準規格13818-7にて規定されている。
ところで心理聴覚モデル部2は、ブロック切替え部2aおよびSMR算出部2bを有する。ブロック切替え部2aは、上記の知覚エントロピーに基づいて、実際に符号化する時の直交変換処理(MDCT処理)で用いるブロック長を判定する。ブロック切替え部2aは、この判定の結果を示したブロック長情報をフィルタバンク部3へ出力する。SMR算出部2bは、聴覚上の周波数分解能を考慮した尺度(バーク、メル等)での等間隔の帯域毎に、信号に対してマスクされる音、つまりノイズとして存在しても知覚されない許容雑音の量の比を示すSMR(Signal to Mask Ratio)を算出する。SMR算出部2bは、上記算出したSMRを、量子化歪み/レート制御部4へ出力する。
フィルタバンク部3は、ブロック切り出し部1の出力信号を、心理聴覚モデル部2から出力されるブロック長情報に従って直交変換する。フィルタバンク部3は、上記の直交変換により得られた周波数変換係数を出力する。なお、符号化方式としてAACを採用している場合、フィルタバンク部3での直交変換はMDCTとなる。MDCTにより得られた周波数変換係数は、MDCT係数とも呼ばれる。
量子化歪み/レート制御部4は、ホストプロセッサ5が指示する符号化レートと、心理聴覚モデル部2が出力するSMRとに基づいて、フレーム毎に割当可能な符号量を算出する。量子化歪み/レート制御部4は、上記算出した符号量を符号化フレームの目標符号量として、スケーリング部6、量子化部7および符号化部8を制御する。例えば量子化歪み/レート制御部4は、量子化部7から与えられる量子化係数から量子化歪み量を算出し、その結果に応じて量子化部7へと出力指示を与える。また量子化歪み/レート制御部4は、符号化部8から通知される符号量が上記目標符号量以内であるか否かを確認し、目標符号量以内であるときに符号化部8へと出力指示を与える。
スケーリング部6は、フィルタバンク部3から出力される周波数変換係数(MDCT係数)に基づいてスケーリングファクタを決定する。スケーリング部6は、この決定したスケーリングファクタを用いてフィルタバンク部3から出力される周波数変換係数をスケーリングする。そしてスケーリング部6は、上記のスケーリング後の周波数変換係数を量子化部7へ出力する。またスケーリング部6は、量子化歪み/レート制御部4からの指示に応じてスケーリング係数をフォーマッタ9へ出力する。
量子化部7は、スケーリング部6から出力された周波数変換係数を規定の式に従って補正したのち、全ての周波数変換係数について量子化を行う。量子化部7は、量子化したのちの係数を、量子化歪み誤差がSMR値に基づく許容誤差であるかを判定するための情報として量子化歪み/レート制御部4へと出力する。量子化部7は、量子化歪み/レート制御部4からの出力指示に応じて、量子化後の周波数変換係数を符号化部8へ出力する。
符号化部8は、量子化部7の出力を所定の符号化方式に従って圧縮符号化する。例えば、AACの場合は上述の符号化方式としてハフマン符号化方式が適用される。符号化部8は、符号化後の符号量を量子化歪み/レート制御部4へと出力する。符号化部8は、量子化歪み/レート制御部4からの出力指示に応じて、符号化後の周波数変換係数をフォーマッタ9へ出力する。
フォーマッタ9は、符号化部8の出力とスケーリング部6から出力されるスケーリング係数とを所定のフォーマットに従って多重化する。フォーマッタ9は、上記の多重化の結果を、符号化オーディオ信号として出力する。
次に以上のように構成された符号化装置の動作について説明する。なお、本願発明のポイントは、スケーリング部6における処理にある。そこでここでは、この処理についてAACを採用することとして詳細に説明する。この他の処理については、AACに準拠する既存の符号化装置と同様な処理を適用可能である。
図2は図1中のスケーリング部6における動作フローを示す図である。
スケーリング部6は、フィルタバンク部3から1つのMDCT係数が出力されると、このMDCT係数に関して図2に示す処理を実行する。
ステップSa1においてスケーリング部6は、スケールファクターバンドインデックスbに値「0」を代入する。ステップSa2においてスケーリング部6は、インデックスbのスケールファクターバンドに係わるスケールファクターscale_factor[b]を従来と同様に(4)式により算出する。
次にステップSa3においてスケーリング部6は、以下の(6)式によって、補正されたスケールファクターnew_scale_factor[b]を算出する。
Figure 0004116628
Bitrate:ビットレート(bps)
Fs:サンプリング周波数(Hz)
Ch:チャネル数
MAGIC_NUMBER:補正係数
なおMAGIC_NUMBERは、任意に定めることが可能であるが、評価などによって求めた適正な値とすることが望ましい。MAGIC_NUMBERは、例えば「0.15」とすることが想定される。
ステップSa4においてスケーリング部6は、上述のようにして補正されたスケールファクターnew_scale_factor[b]を用いて、インデックスbのスケールファクターバンドをスケーリングする。
ステップSa5においてスケーリング部6は、スケールファクターバンドインデックスbの値がスケールファクターバンドインデックスの最大値bmaxに到達しているか否かを確認する。スケールファクターバンドインデックスbの値が最大値bmaxに到達していない場合、スケーリング部6はステップSa5からステップSa6へ進む。ステップSa6においてスケーリング部6は、スケールファクターバンドインデックスbの値を1つ増加させる。こののちにスケーリング部6は、ステップSa2以降の処理を繰り返す。
そして、ステップSa5にてスケールファクターバンドインデックスbが最大値bmaxに到達していたならば、スケーリング部6はこの処理を終了する。
このようにして、各スケールファクターバンドが、(6)式によって補正されたスケールファクターnew_scale_factor[b]を用いてスケーリングされる。(6)式による補正は、1フレームで利用可能なビット数が少なくなるほど、各スケールファクターバンド毎の量子化ステップサイズの差分を小さくするように働く。これは、1フレームで利用可能なビット数が少なくなるほど、(4)式により算出されるスケールファクターscale_factor[b]の概形の凹凸を抑制することと等価である。
一方、従来の(5)式によって補正された許容量子化誤差new_thr[b]に基づいて求められるスケールファクターの概形は、補正前の許容量子化誤差thr[b]に基づいて求められるスケールファクターの概形に比べて凹凸が少なくなる。すなわち本実施形態におけるスケールファクターの補正は、従来の許容量子化誤差の補正と同様な作用をもたらす。そしてこの結果として本実施形態によれば、ビットレートが低い状況においても、許容量子化誤差量を満たすことが可能となる。しかも本実施形態で補正されたスケールファクターnew_scale_factor[b]を算出するために用いる(6)式は、単純な乗算や除算の組み合わせにより構成されており、(5)式に含まれる1/4乗のような複雑な演算を含まない。このため、(6)式は有限語長処理する場合でも小さな負荷で済み、簡易に行うことができる。
この実施形態は、次のような種々の変形実施が可能である。
帯域制限をした場合には、サンプリング周波数Fsに代えて帯域制限周波数を利用しても良い。
MP3などのようなAAC以外の方式を採用する場合にも本発明の適用が可能である。
スケールファクターscale_factor[b]を算出するための式および補正されたスケールファクターnew_scale_factor[b]を算出するための式は、(4)式および(6)式には限定されず、これらの式を変形した式を利用しても良い。特にMP3などのような他方式を採用する場合には、その方式に適合するように各式を変更する必要がある。
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明の一実施形態に係るオーディオ符号化装置のブロック図。 図1中のスケーリング部6における動作フローを示す図。
符号の説明
1…ブロック切り出し部、2…心理聴覚モデル部、3…フィルタバンク部、4…量子化歪み/レート制御部、5…ホストプロセッサ、6…スケーリング部、7…量子化部、8…符号化部、9…フォーマッタ。

Claims (2)

  1. 時間周波数変換されたオーディオ信号について、周波数帯域における予め定められた区間毎にその区間内のスペクトルを量子化する処理を伴うオーディオ符号化方法において、
    前記区間毎に、前記量子化における量子化ステップサイズを、量子化誤差が許容量子化誤差を越えないように決定するためのスケールファクターを算出し、
    前記区間毎に、その区間について算出されたスケールファクターをscale_factor[b]、ビットレート(bps)をBitrate、サンプリング周波数(Hz)または帯域制限周波数をFs、チャネル数をCh、補正係数をMAGIC_NUMBERと表すときに、
    Figure 0004116628
    なる式により補正されたスケールファクターnew_scale_factor[b]を求め、
    前記量子化に先立ち、前記区間毎にその区間内のスペクトルを、その区間について求められた前記補正されたスケールファクターnew_scale_factor[b]に基づいてスケーリングすることを特徴とするオーディオ符号化方法。
  2. 時間周波数変換されたオーディオ信号について、周波数帯域における予め定められた区間毎にその区間内のスペクトルを量子化する処理を伴うオーディオ符号化を行うオーディオ符号化装置において、
    前記区間毎に、前記量子化における量子化ステップサイズを、量子化誤差が許容量子化誤差を越えないように決定するためのスケールファクターを算出する手段と、
    前記区間毎に、その区間について算出されたスケールファクターをscale_factor[b]、ビットレート(bps)をBitrate、サンプリング周波数(Hz)または帯域制限周波数をFs、チャネル数をCh、補正係数をMAGIC_NUMBERと表すときに、
    Figure 0004116628
    なる式により補正されたスケールファクターnew_scale_factor[b]を求める手段と、
    前記量子化に先立ち、前記区間毎にその区間内のスペクトルを、その区間について求められた前記補正されたスケールファクターnew_scale_factor[b]に基づいてスケーリングする手段とを具備したことを特徴とするオーディオ符号化装置。
JP2005031967A 2005-02-08 2005-02-08 オーディオ符号化方法およびオーディオ符号化装置 Expired - Fee Related JP4116628B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005031967A JP4116628B2 (ja) 2005-02-08 2005-02-08 オーディオ符号化方法およびオーディオ符号化装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005031967A JP4116628B2 (ja) 2005-02-08 2005-02-08 オーディオ符号化方法およびオーディオ符号化装置

Publications (2)

Publication Number Publication Date
JP2006220753A JP2006220753A (ja) 2006-08-24
JP4116628B2 true JP4116628B2 (ja) 2008-07-09

Family

ID=36983141

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005031967A Expired - Fee Related JP4116628B2 (ja) 2005-02-08 2005-02-08 オーディオ符号化方法およびオーディオ符号化装置

Country Status (1)

Country Link
JP (1) JP4116628B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection

Also Published As

Publication number Publication date
JP2006220753A (ja) 2006-08-24

Similar Documents

Publication Publication Date Title
KR101428487B1 (ko) 멀티 채널 부호화 및 복호화 방법 및 장치
JP5219800B2 (ja) コード化されたオーディオの経済的な音量計測
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
TWI585749B (zh) 無損編碼方法
KR100852482B1 (ko) 추정을 결정하는 방법 및 장치
TWI713927B (zh) 使用尺度參數之降低取樣或內插來編碼及解碼音訊信號之設備及方法
EP3175457B1 (en) Method for estimating noise in an audio signal, noise estimator, audio encoder, audio decoder, and system for transmitting audio signals
JP4639073B2 (ja) オーディオ信号符号化装置および方法
JP4116628B2 (ja) オーディオ符号化方法およびオーディオ符号化装置
JP2008261999A (ja) オーディオ復号装置
JP4625709B2 (ja) ステレオオーディオ信号符号化装置
JP4822816B2 (ja) オーディオ信号符号化装置および方法
JP2010175633A (ja) 符号化装置及び方法、並びにプログラム
JP4721355B2 (ja) 符号化データの符号化則変換方法および装置
JP2008058727A (ja) 音声符号化装置
JP2002182695A (ja) 高能率符号化方法及び装置
JP2006201375A (ja) オーディオ符号化方法およびオーディオ符号化装置
JP2009193015A (ja) 符号化装置、復号化装置、符号化方法、復号化方法及びプログラム
JP2001148632A (ja) 符号化装置、符号化方法、及びその記録媒体
JP2004021153A (ja) オーディオ信号符号化装置
KR101386645B1 (ko) 모바일 기기에서 지각적 오디오 코딩 장치 및 방법
CN110534119A (zh) 一种基于人耳听觉频率尺度信号分解的音频编解码方法
JP2005351977A (ja) オーディオ信号符号化装置及びオーディオ信号符号化方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20071218

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080321

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080415

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080417

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110425

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130425

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140425

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees