JP2004233570A - デジタルデータの符号化装置 - Google Patents
デジタルデータの符号化装置 Download PDFInfo
- Publication number
- JP2004233570A JP2004233570A JP2003020951A JP2003020951A JP2004233570A JP 2004233570 A JP2004233570 A JP 2004233570A JP 2003020951 A JP2003020951 A JP 2003020951A JP 2003020951 A JP2003020951 A JP 2003020951A JP 2004233570 A JP2004233570 A JP 2004233570A
- Authority
- JP
- Japan
- Prior art keywords
- digital data
- bit allocation
- unit
- quantization
- spectrum
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】ミニディスク装置等に使用され、データ圧縮しながら、音質等のデータ品質を改善できるデジタルデータの符号化装置を提供する。
【解決手段】デジタルデータの所定時間分を帯域分割する帯域分割フィルタ801を設ける。帯域分割フィルタ801にて分割されたそれぞれの分割信号を修正離散コサイン変換する修正離散コサイン変換部802を設ける。帯域分割フィルタ801にて分割されたそれぞれの分割信号を高速フーリエ変換するフーリエ変換部803を設ける。フーリエ変換部にてフーリエ変換された信号にて量子化ビット割り当てを行う量子化ビット割り当て部804を設ける。修正離散コサイン変換部802によって修正離散コサイン変換された結果と量子化ビット割り当て部804によるビット割り当て結果とで量子化パッキング(圧縮化)を行う量子化パッキング部805を設ける。
【選択図】 図1
【解決手段】デジタルデータの所定時間分を帯域分割する帯域分割フィルタ801を設ける。帯域分割フィルタ801にて分割されたそれぞれの分割信号を修正離散コサイン変換する修正離散コサイン変換部802を設ける。帯域分割フィルタ801にて分割されたそれぞれの分割信号を高速フーリエ変換するフーリエ変換部803を設ける。フーリエ変換部にてフーリエ変換された信号にて量子化ビット割り当てを行う量子化ビット割り当て部804を設ける。修正離散コサイン変換部802によって修正離散コサイン変換された結果と量子化ビット割り当て部804によるビット割り当て結果とで量子化パッキング(圧縮化)を行う量子化パッキング部805を設ける。
【選択図】 図1
Description
【0001】
【発明の属する技術分野】
本発明は、ミニディスクなどの記録媒体に楽音や音声等のデジタルオーディオデータを記録するにあたって、楽音や音声等に適応して各周波数帯域のスペクトルに対するビット割当てを行い、データ量を圧縮することができる符号化方法に関するものである。
【0002】
【従来の技術】
従来、楽音や音声等のアナログ信号からのデジタルオーディオデータを高能率で圧縮符号化して、記録できる情報量を見かけ上大きくする方法としては、光磁気記録媒体であるミニディスク(MD)で用いられているATRAC(Adaptive Transform Acoustic Coding)が知られている。
【0003】
圧縮符号化を実現するATRACでは、図2の代表的なブロック図に示すように、アナログオーディオ信号から44.1kHzでサンプリングされたデジタルオーディオデータは、帯域分割フィルタ(QMF: Quadrature Mirror Filter)101にて所定の3または4つの各周波数帯域に分割される。
【0004】
その後、ATRACにおいては、分割された各デジタルオーディオデータは、修正離散コサイン変換(MDCT、Modified Discrete Cosine Transform)するMDCT部102にて、それぞれの帯域ごとにブロックサイズNにブロック化され、MDCT変換により、周波数スペクトルに直交変換されてそれぞれ符号化される。
【0005】
MDCTは、アナログオーディオデータ(音声データ)や、アナロググラフィックデータ(画像データ)などの多くの信号を、他の、例えばフーリエ変換と比べると比較的少ない項数で精度よく表すことができて有利なものであることから、ATRACにおいて採用されている。各周波数の係数であるMDCT係数の算出式は次式(1)である。
【0006】
【数1】
【0007】
ここで、ブロックサイズNの具体例を図3(a)および図3(c)に示す。この図3は、帯域分割フィルタ101にて0〜5.5kHzのLo帯域、5.5kHz〜11kHzのMiddle帯域および11kHz〜22kHzのHi帯域、3つの周波数帯域に分割したときのものであり、図3(a)には、ブロックサイズが長い場合(ロングモードにおけるブロックサイズ)を、図3(c)にはブロックサイズが短い場合(ショートモードにおけるブロックサイズ)を示している。
【0008】
この図3の具体例においては、3つの帯域で、それぞれ2つのブロックサイズを備えている。すなわち、0〜5.5kHzのLo帯域、5.5kHz〜11kHzのMiddle帯域では、長いブロックサイズの場合(図3(a))、1/2ブロック内のサンプル数を256サンプルとし、短いブロックサイズの場合(図3(c))には1/2ブロック内のサンプル数を64サンプル毎のブロックとしている。
【0009】
これに対し11kHz〜22kHzのHi帯域では、長いブロックサイズの場合(図3(a))は1/2ブロック内のサンプル数を256サンプルとし、短いブロックサイズの場合(図3(c))には1/2ブロック内のサンプル数を32サンプル毎のブロックとしている。
【0010】
これは、定常的な信号のみが存在する場合は長いブロックサイズ(図3(a))を用いて周波数分解能を向上させる一方、急な信号変化のある場合は短いブロックサイズ(図3(c))を用いることで時間分解能を向上させている。
【0011】
また、(1)式の変換用ウインド関数h(n)には、図3(b)および図3(d)のようなオーバーラッピングウインド関数を用いる。このようにオーバーラッピングさせながら直交変換することは、ブロックの継ぎ目の雑音を軽減させる作用がある。
【0012】
さて、このように導き出される前記MDCT係数y(m,k)は、複数の周波数帯域に分割される。この複数の周波数帯域とは、通常、臨界帯域幅、すなわち人間が聴覚で周波数分析を行っていると仮定した場合の分析単位となる帯域に基づき決定されるものである。複数の周波数帯域毎にMDCT係数y(m,k)を2乗和等して各スペクトルパワーSi(i=1,2,3 …I、例えばI=25)を求める。
【0013】
量子化ビット割り当て部103では、MDCT係数y(m,k)の基づいて算出されたスペクトルパワーSiに基づき、上記スペクトルパワーSiに対する聴覚心理特性を利用して割り当てるビット数を算出する。この聴覚心理特性には、等ラウドネス特性やマスキング効果が挙げられる。
【0014】
等ラウドネス特性は、同じ音圧レベルの音であっても、人間が感じ取る音の大きさが周波数によって変化することを表すものであり、したがって、人間が感じ取ることができる音の大きさである最小可聴限が、周波数によって変化することを表している。
【0015】
一方、マスキング効果には、同時マスキングと経時マスキングとがあり、同時マスキングは、複数の周波数成分の音が同時に発生しているときに、或る音が別の音を聴き取り難くさせる現象であり、経時マスキングは、大きな音の時間軸方向の前後では、マスキングを受ける現象である。
【0016】
例えば、図4に示すようなスペクトルパワー分布に対し、最小可聴限特性とマスキング特性は、図4に合わせて示されるような曲線となる。このような最小可聴限特性、マスキング特性等を考慮してマスキング閾値Miが決定される。スペクトルパワーSiと、各周波数帯域のマスキング閾値Miとの比SMRi=Si/Miが、全ての周波数帯域に亘って計算される。
【0017】
次に、各周波数帯域の前記スペクトルパワーSiをnビットで量子化したときの、該スペクトルパワーSiと量子化雑音パワーNi(n)との比SNR(n)=Si/Ni(n)を求める。この比SNR(n)と前記比SMRiとの比から、マスキング閾値と量子化雑音パワーとの比MNRi(n)=SNRi(n)/SMRiが求められる。
【0018】
以後、前記ビット数nを順に大きくしてゆき、その都度、各周波数帯域のマスキング閾値と量子化雑音パワーとの比MNRi(n)を計算し、その比MNRi(n)が最小となる周波数帯域から順にビットを割り当ててゆき、前記量子化ビット数nを更新する度毎に、同様に比MNRi(n)が最小となる周波数帯域にビットの割当てを行い、所定の割当て可能ビット数となるまで割当てを行うと、各周波数帯域の量子化語長が決定されて出力される。すなわち、前記スペクトルパワーSiの絶対値が、マスキング閾値Miを超えた部分の長さが最も長い周波数帯域から順次ビット割当てが行われることになる。
【0019】
このように算出されたビット数は、同一周波数帯域内のスペクトルに対し、同一に配分される。最後に、量子化パッキング部104にて、MDCT部102にて算出されたMDCT係数と、量子化ビット割り当て部103にて算出された割り当てビット数より符号化デジタルオーディオデータが圧縮されて生成される。
【0020】
【特許文献1】
特開平10−207489号公報(公開日:1998年8月7日)
【0021】
【発明が解決しようとする課題】
上記従来技術の中で述べたように、MDCT係数は上述した算出式(1)が示すとおりコサインの和から計算される。これは、MDCT係数が振幅情報と位相情報とを含んでいることを示す。
【0022】
MDCT係数が位相情報を含んでいることの具体例を図5ないし図8に基づいて以下に示す。図5には、1kHzで0dBの正弦波を入力した時のMDCT係数を示す。図5では、横軸は周波数であり、縦軸の目盛1は0dBに相当する。
【0023】
この図5におけるMDCT係数は、入力信号を帯域分割フィルタ101にて0〜5.5kHzのLo帯域、5.5kHz〜11kHzのMiddle帯域および11kHz〜22kHzのHi帯域、3つの周波数帯域に分割したときのものであり、また、長いブロックサイズ、それに対応する変換用ウインド関数(図3(b))を用いて算出してある。
【0024】
図6には、1kHzの正弦波の位相をπ/2ずらした信号を入力し、図5と同様の方法で算出したMDCT係数を示す。図5および図6に示した結果から、位相が異なることによりMDCT係数が互いに異なるものになっていることが分かる。
【0025】
さらに、図7および図8には、それぞれ図5および図6のMDCT係数の結果を2乗することで算出したスペクトルパワー値を示している。図7および図8では、横軸は周波数であり、縦軸の目盛1は0dBに相当する。
【0026】
この2つのスペクトルパワー値は、明らかに異なった結果となっており、位相情報を持ったMDCT係数ではスペクトルパワーを正しく算出できていないことを表している。結果、上記従来においては、スペクトルパワーを用いて算出されるSMRi、SNR(n)、MNRi(n)も正しく計算されているとは言えず、適切なビット配分(つまり、最適なデータ圧縮)はできないという問題を生じている。
【0027】
本発明は、そのような状況に鑑みてなされたもので、正確なスペクトルパワーを求めることで、より適切なビット割り当てを実現し、音質の更なる向上を目的とするものである。
【0028】
【課題を解決するための手段】
本発明のデジタルデータの符号化装置は、以上の課題を解決するために、デジタルデータを、周波数毎の第一スペクトルに周波数情報と位相情報とを含んで変換する第一変換手段と、上記第一スペクトルに対する感覚心理特性を利用した、圧縮化のためのビット割り当てを算出する割り当て手段と、上記第一スペクトルに対して、上記ビット割り当てにより圧縮化する圧縮化手段と、上記ビット割り当てのために、位相情報を排除した第二スペクトルをデジタルデータから変換する第二変換手段とを有することを特徴としている。
【0029】
上記構成によれば、圧縮化のためのビット割り当てを行うビット割り当て手段は、第二変換手段にて変換された位相情報を排除つまり含まない第二スペクトルを用いて、ビット割り当て結果を算出するので、上記ビット割り当て結果により圧縮化する、圧縮化手段での圧縮化を精度よく行うことができる。
【0030】
本発明の他の、デジタルデータの符号化装置は、以上の課題を解決するために、デジタルデータの所定時間分をMDCTするMDCT手段と、上記デジタルデータをフーリエ変換するフーリエ変換手段と、フーリエ変換手段にてフーリエ変換されたフーリエ変換データにて、圧縮化のための量子化ビット割り当てを行う量子化ビット割り当て手段と、MDCT手段によってMDCTされた結果に対して、量子化ビット割り当て手段によるビット割り当て結果により量子化パッキングを行う量子化パッキング手段とを含むことを特徴としている。
【0031】
上記構成によれば、圧縮化のための量子化ビット割り当てを行う量子化ビット割り当て手段は、フーリエ変換手段にてフーリエ変換された位相情報を排除つまり含まないフーリエ変換データを用いて、ビット割り当て結果を算出するので、上記ビット割り当て結果による、量子化パッキング手段での量子化パッキングすなわち圧縮化を精度よく行うことができる。
【0032】
上記デジタルデータの符号化装置では、デジタルデータの所定時間分を帯域分割して、それぞれの分割信号を修正離散コサイン変換手段に出力する帯域分割手段を含んでいてもよい。
【0033】
上記構成によれば、帯域分割手段を含むことにより、データの変換レートを低減できることから、精度を向上できる。
【0034】
【発明の実施の形態】
本発明に係る、デジタルデータの符号化装置における実施の形態の一例を図1に基づいて以下に説明する。上記符号化装置は、図1に示すように、デジタルデータを帯域分割するための帯域分割フィルタ(QMF、帯域分割手段)801と、帯域分割された各デジタルデータに対してMDCTを行うMDCT部(第一変換手段)802と、帯域分割された各デジタルデータに対して離散フーリエ変換するための高速フーリエ変換(以下、FFTと記す)を行うFFT部(第二変換手段)803と、FFTされた各デジタルデータに基づき量子化ビット割り当てを行う量子化ビット割り当て部(量子化ビット割り当て手段)804と、MDCTされた各デジタルデータおよび量子化ビット割り当てから量子化・パッキングを行い、圧縮化された符号化デジタルデータを出力する量子化パッキング部(量子化パッキング手段)805とを有している。
【0035】
上記デジタルデータとしては、楽音や音声等のアナログオーディオ信号から、例えばPCM(Pulse Code Modulation)化によりデジタル化されたデジタルオーディオデータ等が挙げられる。
【0036】
すなわち、上記符号化装置では、アナログオーディオ信号が、例えば44.1kHzでサンプリングされたデジタルオーディオデータは、帯域分割フィルタ(QMF)801にて所定の3つまたは4つの周波数帯域に分割される。その後、MDCT部802にてそれぞれの帯域ごとにブロックサイズNにブロック化され、MDCT変換により、周波数スペクトル(第一スペクトル)に直交変換される。
【0037】
図3において、3つの周波数帯域に分割した時のブロックサイズN、および変換用ウインド関数の一例を示しているが、本発明の実施の形態では、このブロックサイズNの指定方法、変換用ウインド関数の形状は問わない。
【0038】
また、帯域分割フィルタ801にて帯域分割されたデジタルオーディオデータは、同時に、FFT部803にて位相情報を含まない非位相周波数スペクトル(第二スペクトル)にFFTされる。量子化ビット割り当て部804にて、非位相周波数スペクトルは複数の周波数帯域に分割される。この複数の周波数帯域とは、通常、臨界帯域幅、すなわち人間が聴覚(感覚心理特性)で周波数分析を行っていると仮定した場合の分析単位となる帯域に基づき決定される。
【0039】
複数の周波数帯域毎に周波数スペクトルを2乗和等して各スペクトルパワーSi(i=1,2,3 …I、例えばI=25)を求める。ただし、このスペクトルパワーSiの求め方については特に限定しない。
【0040】
さらに、スペクトルパワーSiを基に、聴覚心理特性(感覚心理特性)を利用して各周波数帯域に配分するビット数を算出する。まず、最小可聴限特性、マスキング特性等の聴覚心理特性を考慮してマスキング閾値Miが決定される。スペクトルパワーSiと、各周波数帯域のマスキング閾値Miとの比SMRi=Si/Miが、全ての周波数帯域に亘って計算される。
【0041】
次に、各周波数帯域の前記スペクトルパワーSiをnビットで量子化したときの、該スペクトルパワーSiと量子化雑音パワーNi(n)との比SNR(n)=Si/Ni(n)を求める。この比SNR(n)と前記比SMRiとの比から、マスキング閾値と量子化雑音パワーとの比MNRi(n)=SNRi(n)/SMRiが求められる。
【0042】
以後、前記ビット数nを順に大きくしてゆき、その都度、各周波数帯域のマスキング閾値と量子化雑音パワーとの比MNRi(n)を計算し、その比MNRi(n)が最小となる周波数帯域から順にビットを割り当ててゆき、前記量子化ビット数nを更新する度毎に、同様に比MNRi(n)が最小となる周波数帯域にビットの割当てを行い、所定の割当て可能ビット数となるまで割当てを行うと、各周波数帯域の量子化語長が決定されて出力される。
【0043】
すなわち、前記スペクトルパワーSiの絶対値が、マスキング閾値Miを超えた部分の長さが最も長い周波数帯域から順次ビット割当てが行われることになる。このように算出されたビット数は、同一周波数帯域内のスペクトルに対し、同一に配分される。ただし、スペクトルパワーSiを基に、聴覚心理特性を利用するビット配分の方法は、これに限ったものではない。
【0044】
最後に、量子化パッキング部805にて、MDCT部802にて算出されたMDCT係数と、量子化ビット割り当て部804にて算出された割り当てビット数より符号化デジタルオーディオデータが生成される。
【0045】
このように上記符号化装置では、FFT部803からの、位相情報を排除したて量子化ビット割り当て部804において量子化ビットを割り当てることができて、より正確なスペクトルパワーを求めることで、より適切なビット割り当てを実現し、音質の更なる向上が図れる。
【0046】
なお、上記実施の形態では、圧縮化するデジタルデータとして、オーディオ信号に基づくものを挙げたが、デジタルデータであれば本発明は適用でき、例えば、通常の生活者レベル程度の速度で変化するアナログ画像信号を、視覚心理特性等に基づいて圧縮化しながら符号化デジタルデータに精度よく変換する際に対しても適用可能である。また、上記実施の形態において、符号化デジタルデータを生成するための変換方法としては、MDCTを挙げたが、DCTといった直交変換する変換方法であれば適用可能である。
【0047】
本発明のデジタルデータの符号化装置は、デジタルデータを圧縮化して記録する記録装置に好適なものである。上記記録装置としては、ミニディスク(MD)装置、コンパクトディスク(CD)装置、デジタルビデオディスク(DVD)装置、ハードディスク装置、スマートメディアなどのメモリ装置が挙げられる。
【0048】
本発明のデジタルデータの符号化方法は、オーディオ信号やグラフィック信号をデジタル化したデジタル信号といったデジタルデータを、周波数毎の第一スペクトルに周波数情報と位相情報とを含んで変換し、上記第一スペクトルに対する感覚心理特性を利用した、圧縮化のためのビット割り当てを算出し、上記第一スペクトルに対して、上記ビット割り当てにより圧縮化するデジタルデータの符号化方法であって、上記ビット割り当ての算出のために、位相情報を排除した第二スペクトルをデジタルデータから変換する第二変換手段とを有することを特徴としている。
【0049】
上記方法は、コンピュータにより読み取り、実行可能なプログラムの形態にできる。上記プログラムは、コンピュータによって読み取り可能な記録媒体にて市場に流通させることができる。
【0050】
【発明の効果】
本発明のデジタルデータの符号化装置は、以上のように、デジタルデータからの、第一変換手段による第一スペクトルを、感覚心理特性を利用した、圧縮化のためのビット割り当てにより圧縮化する圧縮化手段と、上記ビット割り当てのために、位相情報を排除した第二スペクトルをデジタルデータから変換する第二変換手段とを有する構成である。
【0051】
それゆえ、上記構成は、圧縮化のためのビット割り当てを行うビット割り当て手段は、第二変換手段にて変換された位相情報を排除つまり含まない第二スペクトルを用いて、ビット割り当て結果を算出するので、上記ビット割り当て結果により圧縮化する、圧縮化手段での圧縮化を精度よく行うことができて、更なる音質の向上といったデータ品質改善を達成できるという効果を奏する。
【0052】
本発明の他のデジタルデータの符号化装置は、以上のように、デジタルデータの所定時間分をMDCTするMDCT手段と、上記デジタルデータをフーリエ変換するフーリエ変換手段と、フーリエ変換手段にてフーリエ変換されたフーリエ変換データにて、圧縮化のための量子化ビット割り当てを行う量子化ビット割り当て手段と、MDCT手段によってMDCTされた結果に対して、量子化ビット割り当て手段によるビット割り当て結果により量子化パッキングを行う量子化パッキング手段とを含む構成である。
【0053】
それゆえ、上記構成は、デジタルデータをフーリエ変換するフーリエ変換手段を設けたことにより、正確なスペクトルパワーから的確なビット割り当てを行える結果、更なる音質の向上といったデータ品質改善を達成することが可能となるという効果を奏する。
【図面の簡単な説明】
【図1】本発明による高音質圧縮符号化装置の一実施形態例を示す機能ブロック図である。
【図2】従来における、ATRACにて圧縮符号化を実現する代表的な機能ブロック図である。
【図3】上記ATRACにおける、ブロックサイズ、変換用ウインド関数の具体例であり、(a)は、ブロックサイズが長い場合(ロングモードにおけるブロックサイズ)を示し、(b)は、ブロックサイズが長い場合のウインド関数を示し、(c)は、ブロックサイズが短い場合(ショートモードにおけるブロックサイズ)を示し、(d)は、ブロックサイズが短い場合のウインド関数を示す。
【図4】最小可聴限特性とマスキング特性とスペクトラムパワーとの一例を表記したグラフである。
【図5】1kHzで0dBのPCM信号(sin波)を入力した時の、各周波数における各MDCT係数を示すグラフである。
【図6】図5の入力信号の位相をπ/2ずらした信号を入力した時の、各周波数における各MDCT係数を示すグラフである。
【図7】図5に対応する、各周波数における各スペクトルパワーのグラフである。
【図8】図6に対応する、各周波数における各スペクトルパワーのグラフである。
【符号の説明】
101 帯域分割フィルタ(QMF)
102 MDCT部
103 量子化ビット割り当て部
104 量子化パッキング部
801 帯域分割フィルタ(QMF)部
802 MDCT部
803 FFT部
804 量子化ビット割り当て部
805 量子化パッキング部
【発明の属する技術分野】
本発明は、ミニディスクなどの記録媒体に楽音や音声等のデジタルオーディオデータを記録するにあたって、楽音や音声等に適応して各周波数帯域のスペクトルに対するビット割当てを行い、データ量を圧縮することができる符号化方法に関するものである。
【0002】
【従来の技術】
従来、楽音や音声等のアナログ信号からのデジタルオーディオデータを高能率で圧縮符号化して、記録できる情報量を見かけ上大きくする方法としては、光磁気記録媒体であるミニディスク(MD)で用いられているATRAC(Adaptive Transform Acoustic Coding)が知られている。
【0003】
圧縮符号化を実現するATRACでは、図2の代表的なブロック図に示すように、アナログオーディオ信号から44.1kHzでサンプリングされたデジタルオーディオデータは、帯域分割フィルタ(QMF: Quadrature Mirror Filter)101にて所定の3または4つの各周波数帯域に分割される。
【0004】
その後、ATRACにおいては、分割された各デジタルオーディオデータは、修正離散コサイン変換(MDCT、Modified Discrete Cosine Transform)するMDCT部102にて、それぞれの帯域ごとにブロックサイズNにブロック化され、MDCT変換により、周波数スペクトルに直交変換されてそれぞれ符号化される。
【0005】
MDCTは、アナログオーディオデータ(音声データ)や、アナロググラフィックデータ(画像データ)などの多くの信号を、他の、例えばフーリエ変換と比べると比較的少ない項数で精度よく表すことができて有利なものであることから、ATRACにおいて採用されている。各周波数の係数であるMDCT係数の算出式は次式(1)である。
【0006】
【数1】
【0007】
ここで、ブロックサイズNの具体例を図3(a)および図3(c)に示す。この図3は、帯域分割フィルタ101にて0〜5.5kHzのLo帯域、5.5kHz〜11kHzのMiddle帯域および11kHz〜22kHzのHi帯域、3つの周波数帯域に分割したときのものであり、図3(a)には、ブロックサイズが長い場合(ロングモードにおけるブロックサイズ)を、図3(c)にはブロックサイズが短い場合(ショートモードにおけるブロックサイズ)を示している。
【0008】
この図3の具体例においては、3つの帯域で、それぞれ2つのブロックサイズを備えている。すなわち、0〜5.5kHzのLo帯域、5.5kHz〜11kHzのMiddle帯域では、長いブロックサイズの場合(図3(a))、1/2ブロック内のサンプル数を256サンプルとし、短いブロックサイズの場合(図3(c))には1/2ブロック内のサンプル数を64サンプル毎のブロックとしている。
【0009】
これに対し11kHz〜22kHzのHi帯域では、長いブロックサイズの場合(図3(a))は1/2ブロック内のサンプル数を256サンプルとし、短いブロックサイズの場合(図3(c))には1/2ブロック内のサンプル数を32サンプル毎のブロックとしている。
【0010】
これは、定常的な信号のみが存在する場合は長いブロックサイズ(図3(a))を用いて周波数分解能を向上させる一方、急な信号変化のある場合は短いブロックサイズ(図3(c))を用いることで時間分解能を向上させている。
【0011】
また、(1)式の変換用ウインド関数h(n)には、図3(b)および図3(d)のようなオーバーラッピングウインド関数を用いる。このようにオーバーラッピングさせながら直交変換することは、ブロックの継ぎ目の雑音を軽減させる作用がある。
【0012】
さて、このように導き出される前記MDCT係数y(m,k)は、複数の周波数帯域に分割される。この複数の周波数帯域とは、通常、臨界帯域幅、すなわち人間が聴覚で周波数分析を行っていると仮定した場合の分析単位となる帯域に基づき決定されるものである。複数の周波数帯域毎にMDCT係数y(m,k)を2乗和等して各スペクトルパワーSi(i=1,2,3 …I、例えばI=25)を求める。
【0013】
量子化ビット割り当て部103では、MDCT係数y(m,k)の基づいて算出されたスペクトルパワーSiに基づき、上記スペクトルパワーSiに対する聴覚心理特性を利用して割り当てるビット数を算出する。この聴覚心理特性には、等ラウドネス特性やマスキング効果が挙げられる。
【0014】
等ラウドネス特性は、同じ音圧レベルの音であっても、人間が感じ取る音の大きさが周波数によって変化することを表すものであり、したがって、人間が感じ取ることができる音の大きさである最小可聴限が、周波数によって変化することを表している。
【0015】
一方、マスキング効果には、同時マスキングと経時マスキングとがあり、同時マスキングは、複数の周波数成分の音が同時に発生しているときに、或る音が別の音を聴き取り難くさせる現象であり、経時マスキングは、大きな音の時間軸方向の前後では、マスキングを受ける現象である。
【0016】
例えば、図4に示すようなスペクトルパワー分布に対し、最小可聴限特性とマスキング特性は、図4に合わせて示されるような曲線となる。このような最小可聴限特性、マスキング特性等を考慮してマスキング閾値Miが決定される。スペクトルパワーSiと、各周波数帯域のマスキング閾値Miとの比SMRi=Si/Miが、全ての周波数帯域に亘って計算される。
【0017】
次に、各周波数帯域の前記スペクトルパワーSiをnビットで量子化したときの、該スペクトルパワーSiと量子化雑音パワーNi(n)との比SNR(n)=Si/Ni(n)を求める。この比SNR(n)と前記比SMRiとの比から、マスキング閾値と量子化雑音パワーとの比MNRi(n)=SNRi(n)/SMRiが求められる。
【0018】
以後、前記ビット数nを順に大きくしてゆき、その都度、各周波数帯域のマスキング閾値と量子化雑音パワーとの比MNRi(n)を計算し、その比MNRi(n)が最小となる周波数帯域から順にビットを割り当ててゆき、前記量子化ビット数nを更新する度毎に、同様に比MNRi(n)が最小となる周波数帯域にビットの割当てを行い、所定の割当て可能ビット数となるまで割当てを行うと、各周波数帯域の量子化語長が決定されて出力される。すなわち、前記スペクトルパワーSiの絶対値が、マスキング閾値Miを超えた部分の長さが最も長い周波数帯域から順次ビット割当てが行われることになる。
【0019】
このように算出されたビット数は、同一周波数帯域内のスペクトルに対し、同一に配分される。最後に、量子化パッキング部104にて、MDCT部102にて算出されたMDCT係数と、量子化ビット割り当て部103にて算出された割り当てビット数より符号化デジタルオーディオデータが圧縮されて生成される。
【0020】
【特許文献1】
特開平10−207489号公報(公開日:1998年8月7日)
【0021】
【発明が解決しようとする課題】
上記従来技術の中で述べたように、MDCT係数は上述した算出式(1)が示すとおりコサインの和から計算される。これは、MDCT係数が振幅情報と位相情報とを含んでいることを示す。
【0022】
MDCT係数が位相情報を含んでいることの具体例を図5ないし図8に基づいて以下に示す。図5には、1kHzで0dBの正弦波を入力した時のMDCT係数を示す。図5では、横軸は周波数であり、縦軸の目盛1は0dBに相当する。
【0023】
この図5におけるMDCT係数は、入力信号を帯域分割フィルタ101にて0〜5.5kHzのLo帯域、5.5kHz〜11kHzのMiddle帯域および11kHz〜22kHzのHi帯域、3つの周波数帯域に分割したときのものであり、また、長いブロックサイズ、それに対応する変換用ウインド関数(図3(b))を用いて算出してある。
【0024】
図6には、1kHzの正弦波の位相をπ/2ずらした信号を入力し、図5と同様の方法で算出したMDCT係数を示す。図5および図6に示した結果から、位相が異なることによりMDCT係数が互いに異なるものになっていることが分かる。
【0025】
さらに、図7および図8には、それぞれ図5および図6のMDCT係数の結果を2乗することで算出したスペクトルパワー値を示している。図7および図8では、横軸は周波数であり、縦軸の目盛1は0dBに相当する。
【0026】
この2つのスペクトルパワー値は、明らかに異なった結果となっており、位相情報を持ったMDCT係数ではスペクトルパワーを正しく算出できていないことを表している。結果、上記従来においては、スペクトルパワーを用いて算出されるSMRi、SNR(n)、MNRi(n)も正しく計算されているとは言えず、適切なビット配分(つまり、最適なデータ圧縮)はできないという問題を生じている。
【0027】
本発明は、そのような状況に鑑みてなされたもので、正確なスペクトルパワーを求めることで、より適切なビット割り当てを実現し、音質の更なる向上を目的とするものである。
【0028】
【課題を解決するための手段】
本発明のデジタルデータの符号化装置は、以上の課題を解決するために、デジタルデータを、周波数毎の第一スペクトルに周波数情報と位相情報とを含んで変換する第一変換手段と、上記第一スペクトルに対する感覚心理特性を利用した、圧縮化のためのビット割り当てを算出する割り当て手段と、上記第一スペクトルに対して、上記ビット割り当てにより圧縮化する圧縮化手段と、上記ビット割り当てのために、位相情報を排除した第二スペクトルをデジタルデータから変換する第二変換手段とを有することを特徴としている。
【0029】
上記構成によれば、圧縮化のためのビット割り当てを行うビット割り当て手段は、第二変換手段にて変換された位相情報を排除つまり含まない第二スペクトルを用いて、ビット割り当て結果を算出するので、上記ビット割り当て結果により圧縮化する、圧縮化手段での圧縮化を精度よく行うことができる。
【0030】
本発明の他の、デジタルデータの符号化装置は、以上の課題を解決するために、デジタルデータの所定時間分をMDCTするMDCT手段と、上記デジタルデータをフーリエ変換するフーリエ変換手段と、フーリエ変換手段にてフーリエ変換されたフーリエ変換データにて、圧縮化のための量子化ビット割り当てを行う量子化ビット割り当て手段と、MDCT手段によってMDCTされた結果に対して、量子化ビット割り当て手段によるビット割り当て結果により量子化パッキングを行う量子化パッキング手段とを含むことを特徴としている。
【0031】
上記構成によれば、圧縮化のための量子化ビット割り当てを行う量子化ビット割り当て手段は、フーリエ変換手段にてフーリエ変換された位相情報を排除つまり含まないフーリエ変換データを用いて、ビット割り当て結果を算出するので、上記ビット割り当て結果による、量子化パッキング手段での量子化パッキングすなわち圧縮化を精度よく行うことができる。
【0032】
上記デジタルデータの符号化装置では、デジタルデータの所定時間分を帯域分割して、それぞれの分割信号を修正離散コサイン変換手段に出力する帯域分割手段を含んでいてもよい。
【0033】
上記構成によれば、帯域分割手段を含むことにより、データの変換レートを低減できることから、精度を向上できる。
【0034】
【発明の実施の形態】
本発明に係る、デジタルデータの符号化装置における実施の形態の一例を図1に基づいて以下に説明する。上記符号化装置は、図1に示すように、デジタルデータを帯域分割するための帯域分割フィルタ(QMF、帯域分割手段)801と、帯域分割された各デジタルデータに対してMDCTを行うMDCT部(第一変換手段)802と、帯域分割された各デジタルデータに対して離散フーリエ変換するための高速フーリエ変換(以下、FFTと記す)を行うFFT部(第二変換手段)803と、FFTされた各デジタルデータに基づき量子化ビット割り当てを行う量子化ビット割り当て部(量子化ビット割り当て手段)804と、MDCTされた各デジタルデータおよび量子化ビット割り当てから量子化・パッキングを行い、圧縮化された符号化デジタルデータを出力する量子化パッキング部(量子化パッキング手段)805とを有している。
【0035】
上記デジタルデータとしては、楽音や音声等のアナログオーディオ信号から、例えばPCM(Pulse Code Modulation)化によりデジタル化されたデジタルオーディオデータ等が挙げられる。
【0036】
すなわち、上記符号化装置では、アナログオーディオ信号が、例えば44.1kHzでサンプリングされたデジタルオーディオデータは、帯域分割フィルタ(QMF)801にて所定の3つまたは4つの周波数帯域に分割される。その後、MDCT部802にてそれぞれの帯域ごとにブロックサイズNにブロック化され、MDCT変換により、周波数スペクトル(第一スペクトル)に直交変換される。
【0037】
図3において、3つの周波数帯域に分割した時のブロックサイズN、および変換用ウインド関数の一例を示しているが、本発明の実施の形態では、このブロックサイズNの指定方法、変換用ウインド関数の形状は問わない。
【0038】
また、帯域分割フィルタ801にて帯域分割されたデジタルオーディオデータは、同時に、FFT部803にて位相情報を含まない非位相周波数スペクトル(第二スペクトル)にFFTされる。量子化ビット割り当て部804にて、非位相周波数スペクトルは複数の周波数帯域に分割される。この複数の周波数帯域とは、通常、臨界帯域幅、すなわち人間が聴覚(感覚心理特性)で周波数分析を行っていると仮定した場合の分析単位となる帯域に基づき決定される。
【0039】
複数の周波数帯域毎に周波数スペクトルを2乗和等して各スペクトルパワーSi(i=1,2,3 …I、例えばI=25)を求める。ただし、このスペクトルパワーSiの求め方については特に限定しない。
【0040】
さらに、スペクトルパワーSiを基に、聴覚心理特性(感覚心理特性)を利用して各周波数帯域に配分するビット数を算出する。まず、最小可聴限特性、マスキング特性等の聴覚心理特性を考慮してマスキング閾値Miが決定される。スペクトルパワーSiと、各周波数帯域のマスキング閾値Miとの比SMRi=Si/Miが、全ての周波数帯域に亘って計算される。
【0041】
次に、各周波数帯域の前記スペクトルパワーSiをnビットで量子化したときの、該スペクトルパワーSiと量子化雑音パワーNi(n)との比SNR(n)=Si/Ni(n)を求める。この比SNR(n)と前記比SMRiとの比から、マスキング閾値と量子化雑音パワーとの比MNRi(n)=SNRi(n)/SMRiが求められる。
【0042】
以後、前記ビット数nを順に大きくしてゆき、その都度、各周波数帯域のマスキング閾値と量子化雑音パワーとの比MNRi(n)を計算し、その比MNRi(n)が最小となる周波数帯域から順にビットを割り当ててゆき、前記量子化ビット数nを更新する度毎に、同様に比MNRi(n)が最小となる周波数帯域にビットの割当てを行い、所定の割当て可能ビット数となるまで割当てを行うと、各周波数帯域の量子化語長が決定されて出力される。
【0043】
すなわち、前記スペクトルパワーSiの絶対値が、マスキング閾値Miを超えた部分の長さが最も長い周波数帯域から順次ビット割当てが行われることになる。このように算出されたビット数は、同一周波数帯域内のスペクトルに対し、同一に配分される。ただし、スペクトルパワーSiを基に、聴覚心理特性を利用するビット配分の方法は、これに限ったものではない。
【0044】
最後に、量子化パッキング部805にて、MDCT部802にて算出されたMDCT係数と、量子化ビット割り当て部804にて算出された割り当てビット数より符号化デジタルオーディオデータが生成される。
【0045】
このように上記符号化装置では、FFT部803からの、位相情報を排除したて量子化ビット割り当て部804において量子化ビットを割り当てることができて、より正確なスペクトルパワーを求めることで、より適切なビット割り当てを実現し、音質の更なる向上が図れる。
【0046】
なお、上記実施の形態では、圧縮化するデジタルデータとして、オーディオ信号に基づくものを挙げたが、デジタルデータであれば本発明は適用でき、例えば、通常の生活者レベル程度の速度で変化するアナログ画像信号を、視覚心理特性等に基づいて圧縮化しながら符号化デジタルデータに精度よく変換する際に対しても適用可能である。また、上記実施の形態において、符号化デジタルデータを生成するための変換方法としては、MDCTを挙げたが、DCTといった直交変換する変換方法であれば適用可能である。
【0047】
本発明のデジタルデータの符号化装置は、デジタルデータを圧縮化して記録する記録装置に好適なものである。上記記録装置としては、ミニディスク(MD)装置、コンパクトディスク(CD)装置、デジタルビデオディスク(DVD)装置、ハードディスク装置、スマートメディアなどのメモリ装置が挙げられる。
【0048】
本発明のデジタルデータの符号化方法は、オーディオ信号やグラフィック信号をデジタル化したデジタル信号といったデジタルデータを、周波数毎の第一スペクトルに周波数情報と位相情報とを含んで変換し、上記第一スペクトルに対する感覚心理特性を利用した、圧縮化のためのビット割り当てを算出し、上記第一スペクトルに対して、上記ビット割り当てにより圧縮化するデジタルデータの符号化方法であって、上記ビット割り当ての算出のために、位相情報を排除した第二スペクトルをデジタルデータから変換する第二変換手段とを有することを特徴としている。
【0049】
上記方法は、コンピュータにより読み取り、実行可能なプログラムの形態にできる。上記プログラムは、コンピュータによって読み取り可能な記録媒体にて市場に流通させることができる。
【0050】
【発明の効果】
本発明のデジタルデータの符号化装置は、以上のように、デジタルデータからの、第一変換手段による第一スペクトルを、感覚心理特性を利用した、圧縮化のためのビット割り当てにより圧縮化する圧縮化手段と、上記ビット割り当てのために、位相情報を排除した第二スペクトルをデジタルデータから変換する第二変換手段とを有する構成である。
【0051】
それゆえ、上記構成は、圧縮化のためのビット割り当てを行うビット割り当て手段は、第二変換手段にて変換された位相情報を排除つまり含まない第二スペクトルを用いて、ビット割り当て結果を算出するので、上記ビット割り当て結果により圧縮化する、圧縮化手段での圧縮化を精度よく行うことができて、更なる音質の向上といったデータ品質改善を達成できるという効果を奏する。
【0052】
本発明の他のデジタルデータの符号化装置は、以上のように、デジタルデータの所定時間分をMDCTするMDCT手段と、上記デジタルデータをフーリエ変換するフーリエ変換手段と、フーリエ変換手段にてフーリエ変換されたフーリエ変換データにて、圧縮化のための量子化ビット割り当てを行う量子化ビット割り当て手段と、MDCT手段によってMDCTされた結果に対して、量子化ビット割り当て手段によるビット割り当て結果により量子化パッキングを行う量子化パッキング手段とを含む構成である。
【0053】
それゆえ、上記構成は、デジタルデータをフーリエ変換するフーリエ変換手段を設けたことにより、正確なスペクトルパワーから的確なビット割り当てを行える結果、更なる音質の向上といったデータ品質改善を達成することが可能となるという効果を奏する。
【図面の簡単な説明】
【図1】本発明による高音質圧縮符号化装置の一実施形態例を示す機能ブロック図である。
【図2】従来における、ATRACにて圧縮符号化を実現する代表的な機能ブロック図である。
【図3】上記ATRACにおける、ブロックサイズ、変換用ウインド関数の具体例であり、(a)は、ブロックサイズが長い場合(ロングモードにおけるブロックサイズ)を示し、(b)は、ブロックサイズが長い場合のウインド関数を示し、(c)は、ブロックサイズが短い場合(ショートモードにおけるブロックサイズ)を示し、(d)は、ブロックサイズが短い場合のウインド関数を示す。
【図4】最小可聴限特性とマスキング特性とスペクトラムパワーとの一例を表記したグラフである。
【図5】1kHzで0dBのPCM信号(sin波)を入力した時の、各周波数における各MDCT係数を示すグラフである。
【図6】図5の入力信号の位相をπ/2ずらした信号を入力した時の、各周波数における各MDCT係数を示すグラフである。
【図7】図5に対応する、各周波数における各スペクトルパワーのグラフである。
【図8】図6に対応する、各周波数における各スペクトルパワーのグラフである。
【符号の説明】
101 帯域分割フィルタ(QMF)
102 MDCT部
103 量子化ビット割り当て部
104 量子化パッキング部
801 帯域分割フィルタ(QMF)部
802 MDCT部
803 FFT部
804 量子化ビット割り当て部
805 量子化パッキング部
Claims (3)
- デジタルデータを、周波数毎の第一スペクトルに周波数情報と位相情報とを含んで変換する第一変換手段と、
上記第一スペクトルに対する感覚心理特性を利用した、圧縮化のためのビット割り当てを算出する割り当て手段と、
上記第一スペクトルに対して、上記ビット割り当てにより圧縮化する圧縮化手段と、
上記ビット割り当てのために、位相情報を排除した第二スペクトルをデジタルデータから変換する第二変換手段とを有することを特徴とするデジタルデータの符号化装置。 - デジタルデータの所定時間分を修正離散コサイン変換する修正離散コサイン変換手段と、
上記デジタルデータをフーリエ変換するフーリエ変換手段と、
フーリエ変換手段にてフーリエ変換されたフーリエ変換データにて、圧縮化のための量子化ビット割り当てを行う量子化ビット割り当て手段と、
修正離散コサイン変換手段によって修正離散コサイン変換された結果、および量子化ビット割り当て手段によるビット割り当て結果により量子化パッキングを行う量子化パッキング手段とを含むことを特徴とするデジタルデータの符号化装置。 - デジタルデータの所定時間分を帯域分割して、それぞれの分割信号を修正離散コサイン変換手段に出力する帯域分割手段を含むことを特徴とする請求項1記載のデジタルデータの符号化装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003020951A JP2004233570A (ja) | 2003-01-29 | 2003-01-29 | デジタルデータの符号化装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003020951A JP2004233570A (ja) | 2003-01-29 | 2003-01-29 | デジタルデータの符号化装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004233570A true JP2004233570A (ja) | 2004-08-19 |
Family
ID=32950438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003020951A Pending JP2004233570A (ja) | 2003-01-29 | 2003-01-29 | デジタルデータの符号化装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004233570A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009532738A (ja) * | 2006-04-04 | 2009-09-10 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | Mdct領域におけるオーディオ信号音量測定と改良 |
-
2003
- 2003-01-29 JP JP2003020951A patent/JP2004233570A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009532738A (ja) * | 2006-04-04 | 2009-09-10 | ドルビー・ラボラトリーズ・ライセンシング・コーポレーション | Mdct領域におけるオーディオ信号音量測定と改良 |
US8504181B2 (en) | 2006-04-04 | 2013-08-06 | Dolby Laboratories Licensing Corporation | Audio signal loudness measurement and modification in the MDCT domain |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP1440300B1 (en) | Encoding device, decoding device and audio data distribution system | |
JP5175028B2 (ja) | デジタル信号の符号化方法及び装置ならびに復号化方法及び装置 | |
Johnston | Transform coding of audio signals using perceptual noise criteria | |
JP5253565B2 (ja) | 合成されたスペクトル成分に適合するようにデコードされた信号の特性を使用するオーディオコーディングシステム | |
KR100550399B1 (ko) | 다중 오디오 채널을 저 비트율로 부호화 및 복호화하기위한 장치와 그 방법 | |
JP4345890B2 (ja) | 不完全なスペクトルを持つオーディオ信号の周波数変換に基づくスペクトルの再構築 | |
CN103765509B (zh) | 编码装置及方法、解码装置及方法 | |
JP2006011456A (ja) | 低ビット率符号化/復号化方法及び装置並びにコンピュータ可読媒体 | |
JP3278900B2 (ja) | データ符号化装置及び方法 | |
JP3765622B2 (ja) | オーディオ符号化復号化システム | |
JPH08190764A (ja) | ディジタル信号処理方法、ディジタル信号処理装置及び記録媒体 | |
JP3277682B2 (ja) | 情報符号化方法及び装置、情報復号化方法及び装置、並びに情報記録媒体及び情報伝送方法 | |
JPH1084284A (ja) | 信号再生方法および装置 | |
JP2005530206A (ja) | 合成されたスペクトル成分に適合するようにデコードされた信号の特性を使用するオーディオコーディングシステム | |
JP4760278B2 (ja) | 補間装置、オーディオ再生装置、補間方法および補間プログラム | |
US8149927B2 (en) | Method of and apparatus for encoding/decoding digital signal using linear quantization by sections | |
KR100750115B1 (ko) | 오디오 신호 부호화 및 복호화 방법 및 그 장치 | |
JP3557674B2 (ja) | 高能率符号化方法及び装置 | |
JP2004012908A (ja) | 音声信号補間装置、音声信号補間方法及びプログラム | |
US6463405B1 (en) | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband | |
JP4627737B2 (ja) | デジタルデータ復号化装置 | |
JP2004233570A (ja) | デジタルデータの符号化装置 | |
JP3297238B2 (ja) | 適応的符号化システム及びビット割当方法 | |
JPH1083623A (ja) | 信号記録方法、信号記録装置、記録媒体および信号処理方法 | |
JPH11330974A (ja) | エンコード方法、デコード方法、エンコード装置、デコード装置、ディジタル信号記録方法、ディジタル信号記録装置、記録媒体、ディジタル信号送信方法及びディジタル信号送信装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050810 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20080515 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20080610 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090331 |