JP3698418B2 - オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 - Google Patents
オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 Download PDFInfo
- Publication number
- JP3698418B2 JP3698418B2 JP2001157549A JP2001157549A JP3698418B2 JP 3698418 B2 JP3698418 B2 JP 3698418B2 JP 2001157549 A JP2001157549 A JP 2001157549A JP 2001157549 A JP2001157549 A JP 2001157549A JP 3698418 B2 JP3698418 B2 JP 3698418B2
- Authority
- JP
- Japan
- Prior art keywords
- quantization
- audio signal
- quantizer
- auditory
- frequency
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
【発明の属する技術分野】
この発明は、オーディオ信号(音楽,音声)の、少ない容量の伝送路での情報伝送,記録メディアへの効率的な蓄積を可能とするために、特にベクトル量子化手法を応用してオーディオ信号を圧縮する場合に、従来よりも効率よく、高音質を保ったまま圧縮することのできるオーディオ信号圧縮方式,およびオーディオ信号圧縮装置に関するものである。
【0002】
【従来の技術】
図13は従来のオーディオ信号圧縮装置の構成を示すブロック図であり、図において、101は、例えば、MDCT(modified discrete cosine transform:変形離散コサイン変換)、あるいはFFT(高速フーリエ変換)等により入力されたディジタルオーディオ信号の時系列を、一定周期の長さ(フレーム)毎に周波数特性信号系列に変換する時間周波数変換部である。また、102は入力オーディオ信号をフレーム毎に線形予測分析(LPC分析)することにより、LSP係数(line spectrum pair coefficeent),あるいは偏自己相関係数等を抽出するとともに、これらの係数からLPCスペクトル包絡を求めるスペクトル包絡算出部である。103は時間周波数変換部101で算出された周波数特性信号系列をスペクトル包絡算出部102で求めたLPCスペクトル包絡で割り算して正規化することにより、周波数特性を平坦化し、さらにパワーの最大値,あるいは平均値等に基づいてパワーの正規化を行なう正規化部である。以降の説明では、このパワーの正規化が行なわれた時点の出力係数を残差信号とも呼ぶ。105は正規化部103で平坦化された残差信号をスペクトル包絡を重み付けとしてベクトル量子化する量子化部である。この量子化部105は、正規化された残差信号を量子化する第1段の量子化部151と、第1段の量子化部151での量子化誤差成分を量子化する第2段の量子化部152を含む多段構成を有する。
【0003】
次に動作について説明する。入力されたオーディオ信号の時系列は、時間周波数変換部101において、MDCT,あるいはFFT等により、一定周期の長さ(フレーム)毎に周波数特性信号系列に変換される。また、入力されたオーディオ信号は、スペクトル包絡算出部102において、LPCスペクトル包絡が求められる。正規化部103では、時間周波数変換部101の出力をLPCスペクトル包絡で割り算することにより周波数特性信号系列の周波数特性を平坦化した残差信号を求め、さらにこの残差信号について、パワーの最大値,あるいは平均値等に基づいてパワーの正規化が行なわれる。正規化された残差信号は、量子化部105の第1段の量子化部151においてスペクトル包絡を重み付けとして全周波数帯域にわたってベクトル量子化され、さらに、第1段の量子化部151での量子化誤差信号が量子化部105の第2段の量子化部152においてスペクトル包絡を重み付けとして全周波数帯域にわたってベクトル量子化される。このように、本従来例では、量子化による誤差を少なくするために、ベクトル量子化を行なう量子化部を多段構成とし、初段のベクトル量子化器での誤差信号成分を次段のベクトル量子化器でベクトル量子化しているものである。
【0004】
図14は従来の他のオーディオ信号圧縮装置の構成を示すブロック図であり、図において、201は入力されたオーディオ信号を複数の帯域毎の信号に分割する帯域分割部、202は帯域分割された帯域毎の信号のそれぞれについて、最小可聴限特性やノイズマスキング特性等の聴覚感度特性に基づいて、これらの量子化の際の重み付けを計算する聴覚重み付け計算部、203は帯域分割された帯域毎の信号をそれぞれ聴覚的重み付け計算部202で算出された重み付けを用いてスカラ量子化を行なう量子化部である。
【0005】
次に動作について説明する。
入力されたオーディオ信号は帯域分割部201において周波数帯域別に複数の信号に分割され、聴覚重み付け計算部202に入力される。聴覚重み付け計算部202では、入力された信号について、最小可聴限特性やノイズマスキング特性等の聴覚感度特性に基づいて、各周波数帯域毎に量子化の際の重み付けを求める。量子化部203では、分割された信号のそれぞれを、聴覚重み付け計算部202で求められた各周波数帯域毎の重み付け係数を重み付けとしてスカラ量子化する。
【0006】
【発明が解決しようとする課題】
図13に示す従来例では、第2段の量子化部で、第1段の量子化部での量子化誤差信号をその全周波数帯域にわたって、スペクトル包絡を重み付けとして量子化しており、この第2段の量子化部での量子化では第1段の量子化部での量子化が良好で量子化誤差が小さい周波数帯域についても量子化のためのビットが割り当てられるため、この量子化誤差が小さい周波数帯域を量子化することによって、逆に誤差を大きくしてしまうことがあるという問題があった。また、量子化の際の重み付けをスペクトル包絡のみに基づいて行なっているため、人間の聴覚的な性質を利用して効率よく量子化することができないという問題があった。
【0007】
また、図14に示す従来例は、聴覚感度特性に基づいて重み付けをして量子化しているが、スカラ量子化を行なうものであるため、ベクトル量子化を行なうものに比して量子化効率が良くないという問題があった。
【0008】
この発明は、上記のような問題を解消するためになされたものであり、ベクトル量子化を用いてオーディオ信号を圧縮する場合に、従来よりも効率よく、高音質を保ったまま圧縮することのできるオーディオ信号圧縮方法,およびオーディオ信号圧縮装置を提供することを目的とする。
【0009】
【課題を解決するための手段】
上記課題を解決するために、本発明(請求項1)に係るオーディオ信号圧縮方法は、入力オーディオ信号をフレーム毎に平滑化した周波数特性信号系列にMDCT変換し、変換した周波数特性信号系列の少なくとも一部の系列を量子化することにより情報量を圧縮するオーディオ信号圧縮装置のオーディオ信号圧縮方法であって、前記オーディオ信号圧縮装置は、フレーム毎に平滑化した周波数特性信号系列の少なくとも一部の系列に対して量子化を行い第1のコードを出力する第1の量子化器と、前記第1の量子化器での量子化誤差成分に対して量子化を行い第2のコードを出力する第2の量子化器とを有する多段量子化手段を備え、前記オーディオ信号圧縮方法は、入力オーディオ信号のスペクトル包絡と人間の聴覚的な性質である聴覚感度特性とに基づいて、前記第1の量子化器での量子化誤差成分の周波数ブロックのうち量子化する重要度の高い周波数ブロックを選択し、前記第2の量子化器で、前記選択された周波数ブロックについて前記第1の量子化器の量子化誤差成分の量子化を行なうようにしたものである。
【0010】
また、本発明(請求項2)に係るオーディオ信号圧縮装置は、入力されたオーディオ信号に対してMDCT変換を施して周波数領域信号に変換する時間周波数変換部と、前記入力されたオーディオ信号のスペクトル包絡を算出するスペクトル包絡算出部と、前記時間周波数変換部で得られた周波数領域信号を前記スペクトル包絡算出部で得られたスペクトル包絡で正規化し残差信号を得る正規化部と、前記残差信号をパワーにより正規化するパワー正規化部と、前記パワー正規化部で正規化された残差信号に対して量子化を行い第1のコードを出力する第1の量子化器と、入力オーディオ信号のスペクトル包絡と人間の聴覚的な性質である聴覚感度特性とに基づき、前記第1の量子化器での量子化誤差成分の周波数ブロックのうち量子化する重要度の高い周波数ブロックを選択する聴覚的選択手段と、前記聴覚的選択手段で選択された周波数ブロックについて前記第1の量子化器の量子化誤差成分に対して量子化を行い第2のコードを出力する第2の量子化器とを備えたことを特徴とするものである。
【0012】
【発明の実施の形態】
実施の形態1.
図1は本発明の実施の形態1によるオーディオ信号圧縮装置の構成を示すブロック図であり、図において、1は、例えば、MDCT、あるいはFFT等により入力されたディジタルオーディオ信号の時系列を、一定周期の長さ(フレーム)毎に周波数特性信号系列に変換する時間周波数変換部である。また、2は入力オーディオ信号をフレーム毎に線形予測分析(LPC分析)することにより、LSP係数,あるいは偏自己相関係数等を抽出するとともに、これらの係数からLPCスペクトル包絡を求めるスペクトル包絡算出部である。3は時間周波数変換部1で算出された周波数特性信号系列をスペクトル包絡算出部2で求めたLPCスペクトル包絡で割り算して正規化することにより、周波数特性を平坦化する正規化部、4は正規化部3で平坦化された周波数特性信号系列をパワーの最大値,あるいは平均値等に基づいてパワーの正規化を行なうパワー正規化部である。5は正規化部3,パワー正規化部4で平坦化された周波数特性信号系列をベクトル量子化する多段量子化部である。多段量子化部5は縦列接続された第1段の量子化器51,第2段の量子化器52,…,第N段の量子化器53を含む。6は時間周波数変換部1から出力された周波数特性信号系列とスペクトル包絡算出部2で求めたLPCスペクトル包絡を入力とし、聴覚感度特性に基づいて、量子化部5での量子化の際に用いる重み付け係数を求める聴覚重み付け計算部である。
【0013】
次に動作について説明する。入力されたディジタルオーディオ信号(以下入力信号とも記す)の時系列は、一定周期の長さ(フレーム)毎に時間周波数変換部1でMDCT,FFT等により周波数特性信号系列に変換される。また入力信号は、フレーム毎にスペクトル包絡算出部2で、線形予測分析(LPC分析)によりLSP係数,あるいは偏自己相関係数等が抽出され、さらにこれらの係数からLPCスペクトル包絡が求められる。正規化部3では、上記で算出された周波数特性信号系列をLPCスペクトル包絡で割り算し正規化することにより、周波数特性信号系列を平坦化する。正規化部3で平坦化された周波数特性信号系列は、パワー正規化部4において、さらにパワーの最大値,あるいは平均値等に基づいてパワーの正規化が行われる。
【0014】
一方、聴覚重み付け計算部6は、時間周波数変換部1から出力された周波数特性信号系列とスペクトル包絡算出部2で求めたLPCスペクトル包絡が入力され、時間周波数変換部1から出力された周波数特性信号系列のスペクトルについて、最小可聴限特性や聴覚マスキング特性等の人間の聴覚的な性質である聴覚感度特性に基づいて、この聴覚感度特性を考慮した特性信号を算出し、さらにこの特性信号とLPCスペクトル包絡に基づいて量子化に用いる重み付け係数を求める。
【0015】
パワー正規化部4から出力された残差信号は、多段量子化部5の第1段の量子化部51で聴覚重み付け計算部6によって求められた重み付け係数を用いて量子化され、第1段の量子化部51での量子化による量子化誤差成分が、多段量子化部5の第2段の量子化部52で聴覚重み付け計算部6によって求められた重み付け係数を用いて量子化され、以下同様にして複数段の量子化部のそれぞれにおいて、前段の量子化部での量子化による量子化誤差成分の量子化が行なわれる。そして第N−1段の量子化部での量子化による量子化誤差成分を第N段の量子化部53で聴覚重み付け計算部6によって求められた重み付け係数を用いて量子化が行なわれることによりオーディオ信号の圧縮符号化が完了する。
【0016】
このように、本実施の形態1によるオーディオ信号圧縮方法,およびオーディオ信号圧縮装置によれば、多段量子化手段5の複数段のベクトル量子化部51ないし53で、聴覚重み付け計算部6において入力オーディオ信号のスペクトル,人間の聴覚的な性質である聴覚感度特性,及びLPCスペクトル包絡に基づいて算出された周波数上の重み付け係数を量子化の際の重み付けとして用いてベクトル量子化を行なう構成としたので、人間の聴覚的な性質を利用して効率の良い量子化を行なうことができる。
【0017】
なお、図1のオーディオ信号圧縮装置では、聴覚重み付け計算部6が重み付け係数の算出にLPCスペクトル包絡も用いる構成としているが、入力オーディオ信号のスペクトルと人間の聴覚的な性質である聴覚感度特性のみを用いて重み付け係数を算出するようにしてもよい。
【0018】
また、図1のオーディオ信号圧縮装置では、多段量子化手段5の複数段のベクトル量子化部の全てが聴覚重み付け計算部6において求められた聴覚感度特性に基づく重み付け係数を用いて量子化するようにしているが、多段量子化手段5の複数段のベクトル量子化器のいずれか1つが聴覚感度特性に基づく重み付け係数を用いて量子化を行なうものであれば、このような聴覚感度特性に基づく重み付け係数を用いない場合に比して、効率のよい量子化を行なうことができる。
【0019】
実施の形態2.
図2は本発明の実施の形態2によるオーディオ信号圧縮装置の構成を示すブロック図であり、図において、図1と同一符号は同一または相当部分である。61は入力オーディオ信号のスペクトル,人間の聴覚的な性質である聴覚感度特性,及びLPCスペクトル包絡に基づいて、多段量子化手段5の第1段の量子化部51が用いる重み付け係数を求める第1の聴覚重み付け計算部、62は同じく入力オーディオ信号のスペクトル,人間の聴覚的な性質である聴覚感度特性,及びLPCスペクトル包絡に基づいて、多段量子化手段5の第2段の量子化部52が用いる重み付け係数を求める第2の聴覚重み付け計算部、63は同じく入力オーディオ信号のスペクトル,人間の聴覚的な性質である聴覚感度特性,及びLPCスペクトル包絡に基づいて、多段量子化手段5の第N段の量子化部53が用いる重み付け係数を求める第3の聴覚重み付け計算部である。
【0020】
上記実施の形態1によるオーディオ信号圧縮装置では、多段量子化手段5の複数段のベクトル量子化部の全てが聴覚重み付け計算部6において求められた同一の重み付け係数を用いて量子化するようにしているのに対し、本実施の形態2によるオーディオ信号圧縮装置では、多段量子化手段5の複数段のベクトル量子化部が、それぞれ第1ないし第3の聴覚重み付け計算部で求められた個別の重み付け係数を用いて量子化する構成としている。このような本実施の形態2によるオーディオ信号圧縮装置では、多段量子化手段5の各段で量子化による誤差が最小となるように、聴覚重み付け部61ないし63で求められた聴覚的な性質に基づいた周波数重み付け特性に従った重み付けによる量子化を行なうことができる。
【0021】
たとえば、第1の聴覚重み付け部61ではスペクトル包絡を主体として重み付け係数を算出し、第2の聴覚重み付け部62では最小可聴限特性を主体として重み付け係数を算出し、第3の聴覚重み付け部63では聴覚マスキング特性を主体として重み付け係数を算出するものである。
【0022】
このように、本実施の形態2によるオーディオ信号圧縮方法,およびオーディオ信号圧縮装置によれば、多段量子化部5の上記複数段の量子化部の複数の量子化部51ないし53がそれぞれ聴覚重み付け計算部61ないし63で得られたそれぞれ個別の重み付け係数を用いて量子化を行なう構成としたので、人間の聴覚的な性質をより有効に利用して効率の良い量子化を行なうことができる。
【0023】
実施の形態3.
図3は本発明の実施の形態3によるオーディオ信号圧縮装置の構成を示すブロック図であり、図において、図2と同一符号は同一または相当部分である。21はパワー正規化された残差信号をベクトル量子化する第1段の量子化部、23は第1段の量子化部21における量子化による量子化誤差信号を量子化する第2段の量子化部、22は第1段の量子化部21における量子化による量子化誤差のうち、第2段の量子化部23で量子化すべき重要度の高い周波数領域を聴覚感度特性を考慮した基準により選択する聴覚的選択手段である。
【0024】
次に動作について説明する。ディジタル入力信号は時間周波数変換部1において、フレーム長N(Nは1フレーム内のサンプル数)ごとに例えばMDCT変換により、周波数領域係数に変換される。また入力信号はスペクトル包絡算出部(LPC分析部)2で線形予測分析され、例えばLSP係数が求められ、それらが量子化されコードとして出力されるとともに、さらに線形予測係数を高速フーリエ変換することによりLPCスペクトルの包絡が求められる。
【0025】
MDCT変換により得られた周波数領域係数系列は、正規化部3においてLPCスペクトル包絡で除算(正規化)され、スペクトルの平坦化された係数が得られる。スペクトルの平坦化された係数は、さらにパワー正規化部4で、例えばフレーム内のパワーの最大値で除算することにより正規化が行われる。パワー正規化部4からは正規化のために用いたパワーを示すコードが出力される。
【0026】
パワー正規化された残差信号は、第1段の量子化部21でベクトル量子化される。聴覚的選択手段22では、ベクトル量子化での誤差信号が大きい部分を聴覚的な尺度に基づき判別し、そのブロックを抽出する。第2段の量子化部23では選択されたブロック部分の誤差信号に対してベクトル量子化を施す。そして各量子化部の結果がコードとして出力される。
【0027】
図4は図3に示すオーディオ信号圧縮装置の各量子化部,及び聴覚的選択部の詳細な構成を示すブロック図である。図において31は残差信号をベクトル量子化する第1のベクトル量子化器、32は第1の量子化器31の量子化結果を逆量子化する逆量子化器であり、この逆量子化器32の出力と残差信号siの差分をとることにより第1の量子化器31による量子化の量子化誤差信号ziが得られる。33は人間の聴覚的な性質を示す聴覚感度特性hiであり、ここでは最小可聴限特性を用いる。35は第1の量子化器31による量子化の量子化誤差信号ziのうち、第2のベクトル量子化器36で量子化すべき周波数領域を選択する選択器である。34は、誤差信号zi,LCPスペクトル包絡li,及び聴覚感度特性hiに基づいて選択器35の選択動作における選択尺度を計算する選択尺度計算部である。
【0028】
次に、聴覚的選択部による選択動作について詳細に説明する。
第1のベクトル量子化器31では、まずN個の要素により構成される1フレーム内の残差信号を、図9(a) に示す,第1のベクトル量子化器31内のベクトル分割部で複数個のサブベクトルに分割し、第1のベクトル量子化器31内のN個の量子化器1〜Nでサブベクトルのそれぞれをベクトル量子化する。ベクトル分割,及び量子化の方法は、例えば図9(b) に示すように、周波数の低い方から順に並んでいるN個の要素をNS個のサブブロックに等間隔に分割し、それぞれのサブブロックの第1要素のみを集めたサブベクトル、第2要素を集めたサブベクトルというようにN/NS個の要素で構成されるNS個のサブベクトルを作成し、それぞれのサブベクトル毎にベクトル量子化を実行する。分割数等は要求される圧縮率に基づき決定される。
【0029】
ベクトル量子化後、逆量子化器32により量子化コードを逆量子化して入力信号との差をとることにより、図8(a) に示すような、第1のベクトル量子化器31での誤差信号ziを得る。
【0030】
次に、選択器35では誤差信号Ziのうち第2の量子化器36によりさらに精密に量子化すべき周波数ブロックを、選択尺度計算部34で選択された結果に基づき選択する。
【0031】
選択尺度計算部34では、誤算信号Zi,LPC分析部で得られた、図8(b) に示すようなLPCスペクトル包絡li,及び聴覚感度特性hiを用い、周波数軸上でN個の要素に分割されたフレームの各要素毎に、
g=(zi*li)/hi
を計算する。
【0032】
聴覚感度特性hiとしては、例えば図8(c) に示す最小可聴限界特性といわれるものを使う。これは実験的に求められた本来人間には聞こえない領域を表す特性である。従って、この聴覚感度特性hiの逆数であるl/hiは人間の聴覚的な重要性を表すといえるものである。そして、誤差信号zi,スペクトル包絡li,及び聴覚感度特性hiの逆数を乗算した値gはその周波数でのさらに精密に量子化する重要度を表すと言える。
【0033】
また、図5は図3に示すオーディオ信号圧縮装置の各量子化部,及び聴覚的選択部の他の例の詳細な構成を示すブロック図である。図において、図4と同一符号は同一または相当部分である。図5に示す例では、選択尺度(重要度)gを誤差信号ziを使用せずに、スペクトル包絡liと聴覚感度特性hiを用いて、
g=li/hi
を計算して求める。
【0034】
また、図6は図3に示すオーディオ信号圧縮装置の各量子化部,及び聴覚的選択部のさらに他の例の詳細な構成を示すブロック図である。図において、図4と同一符号は同一または相当部分であり、42は時間周波数変換部でMDCT変換された入力オーディオ周波数のスペクトルから聴覚マスキング特性によりマスキングされる量を算出するマスキング量算出部である。
【0035】
図6に示す例では、聴覚感度特性hiは以下のようにしてフレームごとに逐次求める。すなわち、入力信号の周波数スペクトル分布からマスキング特性を算出し、そのマスキング特性に最小可聴限界特性を加えることにより、そのフレームの聴覚感度特性hiを求めることができる。選択尺度計算部34の動作は図5のものと同じである。
【0036】
また、図7は図3に示すオーディオ信号圧縮装置の各量子化部,及び聴覚的選択部のさらに他の例の詳細な構成を示すブロック図である。図において、図4と同一符号は同一または相当部分であり、43はマスキング量計算部42で得られたマスキング特性を、スペクトル包絡li,残差信号si,及び誤差信号ziを用いて補正するマスキング量補正部である。
【0037】
図7に示す例では、聴覚感度特性hiは以下のようにしてフレームごとに逐次求める。まず、入力信号の周波数スペクトル分布からマスキング量計算部42でマスキング特性を算出する。次にマスキング量補正部43で、スペクトル包絡li,残差信号si,及び誤差信号ziに応じて、上記算出されたマスキング特性を補正する。この補正されたマスキング特性に最小可聴限界特性を加えることにより、そのフレームの聴覚感度特性hiを求めることができる。ここで、マスキング特性を補正する方法の一例を示す。
【0038】
まず、すでに算出されているマスキング量Miの特性が極大値を示す周波数(fm)を求める。次にその周波数fmの信号がどれほどの正確さで再生されるかを、入力時の周波数fmのスペクトルの強さと量子化誤差スペクトルの大きさから求める。例えば、
γ=1−(fmの量子化誤差のゲイン)/(fmの入力時のゲイン)
とする。
【0039】
このγの値が1に近ければ、すでに求めているマスキング特性を変形する必要はないが、0に近ければ、小さくする方向で補正する。例えば、
【数1】
のように、マスキング特性にγを乗ずることで変形することにより補正することができる。
【0040】
次に、選択器35の動作について説明する。
選択器35ではフレーム内の連続した要素毎に窓(長さWとする)を掛け、その窓内での重要度gの値を累積した値Gが最大値を示す周波数ブロックを選択する。図10は重要度が最も高い周波数ブロック(長さW)を選択する一例を示す図である。窓の長さは簡単のためにはN/NSの整数倍に設定するのがよい(図10では整数倍でないものを示している)。この窓をN/NS個ずつずらしながら、その窓枠内の重要度gの累積値Gを計算しその最大値を与える長さWの周波数ブロックを選択する。
【0041】
選択された窓枠内のブロックに対して、第2のベクトル量子化器32でベクトル量子化が行われる。第2のベクトル量子化器32の動作は第1のベクトル量子化器31と同様であるが、上述のように誤差信号ziのうち、選択器35で選択された周波数ブロックのみを量子化するものであるのでベクトル量子化されるフレーム内の要素の数は少ないものである。
【0042】
最終的にはスペクトル包絡係数のコード,各ベクトル量子化器の量子化結果であるそれぞれのコード,及び図4,図6,及び図7に示す構成で求めた選択尺度gを使用する場合は、選択器35で、どの要素から始まるブロックが選択されたかの情報がコードとして出力される。
【0043】
一方、図5に示す構成で求めた選択尺度gを使用する場合は、スペクトル包絡liと聴覚感度特性hiのみを用いているので、逆量子化時に、どの要素から始まるブロックが選択されたかの情報はスペクトル包絡係数のコードと既知の聴覚感度特性hiから求めることが可能であるので、ブロックの選択情報をコードとして出力する必要がなく、圧縮率の点で有利となる。
【0044】
このように、本実施の形態3によるオーディオ信号圧縮方法,およびオーディオ信号圧縮装置によれば、入力オーディオ信号のスペクトルと人間の聴覚的な性質である聴覚感度特性に基づいて、第1のベクトル量子化器での量子化誤差成分の周波数ブロックのうち量子化する重要度の高い周波数ブロックを選択し、第2のベクトル量子化器で、上記選択された周波数ブロックについて上記第1の量子化器の量子化誤差成分の量子化を行なうようにしたから、人間の聴覚的な性質を利用して効率の良い量子化を行なうことができる。また、図4,図6,及び図7に示す構成では、量子化する重要度の高い周波数ブロックの選択の際に第1のベクトル量子化器での量子化誤差に基づいて重要度を算出するようにしたから、第1のベクトル量子化器での量子化が良好である部分が再度量子化されて逆に誤差が生じてしまうことを防止でき、高品質を保持した量子化を行なうことができる。また、図5に示す構成で重要度gを求める場合は、図4,図6,及び図7に示す構成で重要度gを求める場合に比して、出力すべきコードを少なくでき、圧縮率を向上できる。
【0045】
なお、上記実施の形態3では、量子化部が第1段の量子化部21,第2段の量子化部23の2段構成で、この第1段の量子化部21と第2段の量子化部23の間に聴覚的選択手段22を設けたものについて説明したが、量子化部を3段以上の複数段構成とし、各量子化部の間にそれぞれ聴覚的選択手段を設ける構成としてもよく、かかる構成とした場合も、上記実施の形態3と同様、人間の聴覚的な性質を利用して効率の良い量子化を行なうことができる。
【0046】
実施の形態4.
図11は本発明の実施の形態4によるオーディオ信号圧縮装置の構成を示すブロック図であり、図において、図1と同一符号は同一または相当部分である。11はパワー正規化部4から出力された残差信号siをスペクトル包絡の値liを重み係数としてベクトル量子化する第1段の量子化器、12は第1段の量子化器11の量子化結果を逆量子化する逆量子化器であり、この逆量子化器12の出力とパワー正規化部4から出力された残差信号の差分をとることにより第1段の量子化器11による量子化の量子化誤差信号ziが得られる。13は第1段の量子化器11による量子化の量子化誤差信号ziを後述する重み計算部17の計算結果を重み係数としてベクトル量子化する第2段の量子化器、14は第2段の量子化器13の量子化結果を逆量子化する逆量子化器であり、この逆量子化器14の出力と第1段の量子化器11による量子化の量子化誤差信号の差分をとることにより第2段の量子化器13による量子化の量子化誤差信号z2iが得られる。15は第2段の量子化器13による量子化の量子化誤差信号z2iを聴覚重み計算部6の計算結果を重み係数としてベクトル量子化する第3段の量子化器である。
【0047】
16は第1段の量子化器11による量子化の量子化誤差信号ziとスペクトル包絡の値liの相関を計算する相関計算部、17は相関計算部の計算結果とスペクトル包絡の値liに基づいて第2段の量子化器13による量子化での重み付け係数を算出する重み計算部である。
【0048】
次に動作について説明する。本実施の形態4のオーディオ信号圧縮装置は、3段の量子化器を用い、それぞれの量子化器で異なる重み付けでベクトル量子化を行なうものである。
まず第1段の量子化器13において、入力された残差信号siが、LPC分析部2で求められたLPCスペクトル包絡の値liを重み係数としてベクトル量子化が実行される。これにより、スペクトルのエネルギーの大きな(集中した)部分に重み付けを施されることになり、結果として聴覚的に重要な部分をより高精度に量子化させる効果がある。この第1段のベクトル量子化器13は、例えば実施の形態3における第1のベクトル量子化器31と同様のものを使用すればよい。量子化結果は逆量子化器12で逆量子化され、これともとの入力残差信号siの差分により量子化による誤差信号ziが得られる。
【0049】
この誤差信号ziは第2段の量子化器13でさらにベクトル量子化される。ここでは、LPCスペクトル包絡liと誤差信号ziとの相関をもとに、相関計算部16,及び重み計算部17において重み係数を算出する。
具体的には相関計算部16で、
α=(Σli*zi)/(Σli*li)
を計算する。このαは0<α<1の値をとり、両者の相関度を表す。αが0に近い時は,第1段目の量子化がスペクトル包絡の重み付けに基づき精度よく行われたことを示しており、αが1に近い時はまだ精度よく量子化できていないことを示す。そこで、このαによりスペクトル包絡liの重み付け度合いを調整する係数として、
【数2】
を求め、ベクトル量子化の際の重み付け係数とする。このように第1段目の量子化の精度に応じて再度スペクトルの包絡で重み付けし、量子化することで、量子化精度が向上する。
【0050】
第2段目の量子化器13による量子化結果も同様に逆量子化器14で逆量子化され、誤差信号z2iが抽出され、この誤差信号z2iが第3段の量子化器15でベクトル量子化される。この時の聴覚的重み係数は、聴覚重み付け計算部6の重み計算部19で計算される。たとえば、誤差信号z2i,LPCスペクトル包絡li,及び残差信号siを用いて、
N=Σz2i*li
S=Σsi*li
β=1−(N/S)
を求める。
【0051】
一方、聴覚重み付け計算部6の聴覚マスキング計算部18では、たとえばMPEG(エムペグ)オーディオ標準方式の中で用いられている聴覚モデルにより聴覚マスキング特性miを計算する。これに上述した最小可聴限界特性hiを重ねあわせて最終的なマスキング特性Miを求める。
【0052】
そして、この最終的なマスキング特性Miに重み計算部19で計算された係数βを乗じた
【数3】
第3段のベクトル量子化の際の重み係数として用いる。
【0053】
このように、本実施の形態4によるオーディオ信号圧縮方法,およびオーディオ信号圧縮装置によれば、複数の量子化器11,13,15が聴覚感度特性を考慮した重み付けを含む,それぞれ異なる重み付け係数を用いて量子化を行なう構成としたので、人間の聴覚的な性質をより有効に利用して効率の良い量子化を行なうことができる。
【0054】
実施の形態5.
図12は本発明の実施の形態5によるオーディオ信号圧縮装置の構成を示すブロック図であり、図において、図1,図3と同一符号は同一または相当部分である。
本実施の形態5によるオーディオ信号圧縮装置は、図3に示す実施の形態3と図1に示す実施の形態1とを組み合わせたものであり、図3に示す実施の形態3によるオーディオ信号圧縮装置において、各量子化部での量子化の際に、聴覚重み付け計算部6において聴覚感度特性を用いて求めた重み付け係数を用いるようにしたものである。本実施の形態5によるオーディオ信号圧縮装置では、かかる構成とすることにより、上記実施の形態1と実施の形態3により得られる効果の両方を得ることができるものである。
【0055】
また、同様にして、図3に示す実施の形態3に実施の形態2,または実施の形態4の構成を組み合わせることも可能であり、それぞれの組み合わせにより得られるオーディオ信号圧縮装置は、それぞれ実施の形態2と実施の形態3により得られる効果の両方,及び実施の形態4と実施の形態3により得られる効果の両方が得られるものである。
【0056】
なお、上記実施の形態1ないし5では多段量子化部は量子化部の段数が2段,または3段のものを示したが、量子化部の段数を4段以上の多段構成としてもよいことは言うまでもない。
【0057】
また、多段量子化部の各段におけるベクトル量子化の際に用いる重み係数の順序は、上記実施の形態に示したものに限られるものではなく、たとえば、第1段で聴覚感度特性を考慮した重み付けを用い、2段目以降でLPCスペクトル包絡を用いるようにしてもよい。
【0058】
【発明の効果】
以上のように、本発明(請求項1)のオーディオ信号圧縮方法によれば、入力オーディオ信号をフレーム毎に平滑化した周波数特性信号系列にMDCT変換し、変換した周波数特性信号系列の少なくとも一部の系列を量子化することにより情報量を圧縮するオーディオ信号圧縮装置のオーディオ信号圧縮方法であって、前記オーディオ信号圧縮装置は、フレーム毎に平滑化した周波数特性信号系列の少なくとも一部の系列に対して量子化を行い第1のコードを出力する第1の量子化器と、前記第1の量子化器での量子化誤差成分に対して量子化を行い第2のコードを出力する第2の量子化器とを有する多段量子化手段を備え、前記オーディオ信号圧縮方法は、入力オーディオ信号のスペクトル包絡と人間の聴覚的な性質である聴覚感度特性とに基づいて、前記第1の量子化器での量子化誤差成分の周波数ブロックのうち量子化する重要度の高い周波数ブロックを選択し、前記第2の量子化器で、前記選択された周波数ブロックについて前記第1の量子化器の量子化誤差成分の量子化を行なうようにしたから、人間の聴覚的な性質を利用して効率の良い量子化を行なうことができる効果がある。
【0059】
また、本発明(請求項2)のオーディオ信号圧縮装置によれば、入力されたオーディオ信号に対してMDCT変換を施して周波数領域信号に変換する時間周波数変換部と、前記入力されたオーディオ信号のスペクトル包絡を算出するスペクトル包絡算出部と、前記時間周波数変換部で得られた周波数領域信号を前記スペクトル包絡算出部で得られたスペクトル包絡で正規化し残差信号を得る正規化部と、前記残差信号をパワーにより正規化するパワー正規化部と、前記パワー正規化部で正規化された残差信号に対して量子化を行い第1のコードを出力する第1の量子化器と、入力オーディオ信号のスペクトル包絡と人間の聴覚的な性質である聴覚感度特性とに基づき、前記第1の量子化器での量子化誤差成分の周波数ブロックのうち量子化する重要度の高い周波数ブロックを選択する聴覚的選択手段と、前記聴覚的選択手段で選択された周波数ブロックについて前記第1の量子化器の量子化誤差成分に対して量子化を行い第2のコードを出力する第2の量子化器とを備えた構成としたから、人間の聴覚的な性質を利用して効率の良い量子化を行なうことができる効果がある。
【0061】
【発明の効果】
【図面の簡単な説明】
【図1】本発明の実施の形態1によるオーディオ信号圧縮装置の構成を示すブロック図である。
【図2】本発明の実施の形態2によるオーディオ信号圧縮装置の構成を示すブロック図である。
【図3】本発明の実施の形態3によるオーディオ信号圧縮装置の構成を示すブロック図である。
【図4】本発明の実施の形態3によるオーディオ信号圧縮装置の各量子化部,及び聴覚的選択手段の詳細な構成の一例を示すブロック図である。
【図5】本発明の実施の形態3によるオーディオ信号圧縮装置の各量子化部,及び聴覚的選択手段の詳細な構成の他の例を示すブロック図である。
【図6】本発明の実施の形態3によるオーディオ信号圧縮装置の各量子化部,及び聴覚的選択手段の詳細な構成のさらに他の例を示すブロック図である。
【図7】本発明の実施の形態3によるオーディオ信号圧縮装置の各量子化部,及び聴覚的選択手段の詳細な構成のさらに他の例を示すブロック図である。
【図8】誤差信号zi,スペクトル包絡li,及び最小可聴限特性hiを示す図である。
【図9】ベクトル量子化器での量子化の動作を説明するための図である。
【図10】選択器の動作を説明するための図である。
【図11】本発明の実施の形態4によるオーディオ信号圧縮装置の構成を示すブロック図である。
【図12】本発明の実施の形態5によるオーディオ信号圧縮装置の構成を示すブロック図である。
【図13】従来のオーディオ信号圧縮装置の構成を示すブロック図である。
【図14】従来の他のオーディオ信号圧縮装置の構成を示すブロック図である。
【符号の説明】
1 時間周波数変換部
2 スペクトル包絡算出部
3 正規化部
4 パワー正規化部
5 多段量子化部
6 聴覚重み付け計算部
11 第1段の量子化器
12 逆量子化器
13 第2段の量子化器
14 逆量子化器
15 第3段の量子化器
16 相関計算部
17 重み計算部
18 聴覚マスキング計算部
19 重み計算部
21 第1段の量子化部
22 聴覚的選択手段
23 第2段の量子化部
31 第1のベクトル量子化器
32 逆量子化器
33 聴覚感度特性(最小可聴限特性)
34 選択尺度計算部
35 選択器
36 第2のベクトル量子化器
42 マスキング量算出部
43 マスキング量補正部
Claims (2)
- 入力オーディオ信号をフレーム毎に平滑化した周波数特性信号系列にMDCT(MDCT : Modified Discrete Cosine Transform )変換し、変換した周波数特性信号系列の少なくとも一部の系列を量子化することにより情報量を圧縮するオーディオ信号圧縮装置のオーディオ信号圧縮方法であって、
前記オーディオ信号圧縮装置は、フレーム毎に平滑化した周波数特性信号系列の少なくとも一部の系列に対して量子化を行い第1のコードを出力する第1の量子化器と、前記第1の量子化器での量子化誤差成分に対して量子化を行い第2のコードを出力する第2の量子化器とを有する多段量子化手段を備え、
前記オーディオ信号圧縮方法は、
入力オーディオ信号のスペクトル包絡と人間の聴覚的な性質である聴覚感度特性とに基づいて、前記第1の量子化器での量子化誤差成分の周波数ブロックのうち量子化する重要度の高い周波数ブロックを選択し、前記第2の量子化器で、前記選択された周波数ブロックについて前記第1の量子化器の量子化誤差成分の量子化を行なうことを特徴とするオーディオ信号圧縮方法。 - 入力されたオーディオ信号に対してMDCT変換を施して周波数領域信号に変換する時間周波数変換部と、
前記入力されたオーディオ信号のスペクトル包絡を算出するスペクトル包絡算出部と、
前記時間周波数変換部で得られた周波数領域信号を前記スペクトル包絡算出部で得られたスペクトル包絡で正規化し残差信号を得る正規化部と、
前記残差信号をパワーにより正規化するパワー正規化部と、
前記パワー正規化部で正規化された残差信号に対して量子化を行い第1のコードを出力する第1の量子化器と、
入力オーディオ信号のスペクトル包絡と人間の聴覚的な性質である聴覚感度特性とに基づき、前記第1の量子化器での量子化誤差成分の周波数ブロックのうち量子化する重要度の高い周波数ブロックを選択する聴覚的選択手段と、
前記聴覚的選択手段で選択された周波数ブロックについて前記第1の量子化器の量子化誤差成分に対して量子化を行い第2のコードを出力する第2の量子化器 とを備えたことを特徴とするオーディオ信号圧縮装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001157549A JP3698418B2 (ja) | 2001-05-25 | 2001-05-25 | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001157549A JP3698418B2 (ja) | 2001-05-25 | 2001-05-25 | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17129696A Division JP3246715B2 (ja) | 1996-07-01 | 1996-07-01 | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2002023797A JP2002023797A (ja) | 2002-01-25 |
JP3698418B2 true JP3698418B2 (ja) | 2005-09-21 |
Family
ID=19001394
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001157549A Expired - Lifetime JP3698418B2 (ja) | 2001-05-25 | 2001-05-25 | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3698418B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4626261B2 (ja) * | 2004-10-21 | 2011-02-02 | カシオ計算機株式会社 | 音声符号化装置及び音声符号化方法 |
JP5188913B2 (ja) * | 2008-09-26 | 2013-04-24 | 株式会社エヌ・ティ・ティ・ドコモ | 量子化装置、量子化方法、逆量子化装置、逆量子化方法、音声音響符号化装置および音声音響復号装置 |
JP5355244B2 (ja) * | 2009-06-23 | 2013-11-27 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化器、復号器およびプログラム |
JP5336943B2 (ja) * | 2009-06-23 | 2013-11-06 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化器、復号器、プログラム |
JP5336942B2 (ja) * | 2009-06-23 | 2013-11-06 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化器、復号器、プログラム |
JP5361565B2 (ja) * | 2009-06-23 | 2013-12-04 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化器、復号器およびプログラム |
-
2001
- 2001-05-25 JP JP2001157549A patent/JP3698418B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
JP2002023797A (ja) | 2002-01-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3246715B2 (ja) | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 | |
US6871106B1 (en) | Audio signal coding apparatus, audio signal decoding apparatus, and audio signal coding and decoding apparatus | |
EP0673014B1 (en) | Acoustic signal transform coding method and decoding method | |
US7243061B2 (en) | Multistage inverse quantization having a plurality of frequency bands | |
JP3344962B2 (ja) | オーディオ信号符号化装置、及びオーディオ信号復号化装置 | |
US6593872B2 (en) | Signal processing apparatus and method, signal coding apparatus and method, and signal decoding apparatus and method | |
JP3186007B2 (ja) | 変換符号化方法、復号化方法 | |
JPH11510274A (ja) | 線スペクトル平方根を発生し符号化するための方法と装置 | |
JP3344944B2 (ja) | オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法 | |
JP3087814B2 (ja) | 音響信号変換符号化装置および復号化装置 | |
JP2000338998A (ja) | オーディオ信号符号化方法及び復号化方法、これらの装置及びプログラム記録媒体 | |
JP3357829B2 (ja) | 音声符号化/復号化方法 | |
JP3698418B2 (ja) | オーディオ信号圧縮方法,およびオーディオ信号圧縮装置 | |
JP4359949B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JP3353266B2 (ja) | 音響信号変換符号化方法 | |
JP3353267B2 (ja) | 音響信号変換符号化方法及び復号化方法 | |
JP4191503B2 (ja) | 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム | |
JP4274614B2 (ja) | オーディオ信号復号方法 | |
JP4024185B2 (ja) | デジタルデータ符号化装置 | |
JP4327420B2 (ja) | オーディオ信号符号化方法、及びオーディオ信号復号化方法 | |
JP4618823B2 (ja) | 信号符号化装置及び方法 | |
JP3361790B2 (ja) | オーディオ信号符号化方法、オーディオ信号復号化方法およびオーディオ信号符号化/復号化装置と前記方法を実施するプログラムを記録した記録媒体 | |
JP2899024B2 (ja) | ベクトル量子化方法 | |
MXPA98010783A (en) | Audio signal encoder, audio signal decoder, and method for encoding and decoding audio signal |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050622 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20050628 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20050704 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090715 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090715 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100715 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110715 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110715 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120715 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120715 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130715 Year of fee payment: 8 |
|
EXPY | Cancellation because of completion of term |