JP4168976B2 - オーディオ信号符号化装置及び方法 - Google Patents

オーディオ信号符号化装置及び方法 Download PDF

Info

Publication number
JP4168976B2
JP4168976B2 JP2004159981A JP2004159981A JP4168976B2 JP 4168976 B2 JP4168976 B2 JP 4168976B2 JP 2004159981 A JP2004159981 A JP 2004159981A JP 2004159981 A JP2004159981 A JP 2004159981A JP 4168976 B2 JP4168976 B2 JP 4168976B2
Authority
JP
Japan
Prior art keywords
scale factor
signal
value
frequency band
spectrum signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004159981A
Other languages
English (en)
Other versions
JP2005338637A (ja
Inventor
ベンジャミン ネットル
恵祐 東山
志朗 鈴木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2004159981A priority Critical patent/JP4168976B2/ja
Priority to US11/132,985 priority patent/US7627469B2/en
Publication of JP2005338637A publication Critical patent/JP2005338637A/ja
Application granted granted Critical
Publication of JP4168976B2 publication Critical patent/JP4168976B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Description

本発明は、音声や音楽等のオーディオ信号を高能率符号化するオーディオ信号符号化装置及びその方法に関し、特に、オーディオ信号を周波数領域に変換したスペクトル信号を複数の周波数帯域(サブバンド)に分割し、このサブバンド毎にスケールファクタを用いて正規化を行う音響信号符号化装置及びその方法に関する。
従来より、音声や音楽等のオーディオ信号を高能率符号化する手法としては、例えば帯域分割符号化(サブバンドコーディング)等に代表される非ブロック化周波数帯域分割方式や、変換符号化等に代表されるブロック化周波数帯域分割方式などが知られている。
非ブロック化周波数帯域分割方式では、時間領域のオーディオ信号をブロック化せずに複数の帯域に分割して符号化を行う。また、ブロック化周波数帯域分割方式では、時間領域のオーディオ信号を周波数領域のスペクトル信号に変換(スペクトル変換)して複数の帯域に分割して、すなわちスペクトル変換して得られるスペクトル信号を所定の帯域毎にまとめて、各帯域毎に符号化を行う。
また、符号化効率をより向上させる手法として、上述の非ブロック化周波数帯域分割方式とブロック化周波数帯域分割方式とを組み合わせた高能率符号化の手法も提案されている。この手法によれば、例えば、帯域分割符号化で帯域分割を行った後、各帯域毎のオーディオ信号を周波数領域のスペクトル信号にスペクトル変換し、このスペクトル変換された各帯域毎に符号化が行われる。
ここで、周波数帯域分割を行う際には、処理が簡単であり、且つ、折り返し歪みが消去されることから、例えば、QMF(Quadrature Mirror Filter)が用いられることが多い。なお、QMFによる帯域分割の詳細については、「R.E.Crochiere, Digital coding of speech in subbands, Bell Syst. Tech. J., Vol.55, No.8, 1976」等に記載されている。
また、周波数帯域分割を行う手法としては、この他に、例えば等バンド幅のフィルタ分割手法であるPQF(Polyphase Quadrature Filter)等がある。このPQFの詳細については、「ICASSP 83 BOSTON, Polyphase Quadrature filters - A new subband coding technique, Joseph H. Rothweiler」等に記載されている。
一方、上述したスペクトル変換としては、例えば、入力されたオーディオ信号を所定単位時間のフレームでブロック化し、ブロック毎に離散フーリエ変換(Discrete Fourier Transformation;DFT)、離散コサイン変換(Discrete Cosine Transformation;DCT)、改良DCT変換(Modified Discrete Cosine Transformation;MDCT)等を行うことで時間領域のオーディオ信号を周波数領域のオーディオ信号に変換するものがある。
なお、MDCTについては、「ICASSP 1987, Subband/Transform Coding Using Filter Bank Designs Based on Time Domain Aliasing Cancellation, J.P.Princen, A.B.Bradley, Univ. of Surrey Royal Melbourne Inst. of Tech.」等に、その詳細が記載されている。
このように、フィルタやスペクトル変換によって得られる帯域毎の信号を量子化することにより、量子化雑音が発生する帯域を制御することができ、これによりマスキング効果等の性質を利用して聴覚的により高能率な符号化を行うことができる。また、量子化を行う前に、各帯域毎の信号成分が所定の範囲内に収まるようにスケールファクタで正規化するようにすれば、さらに高能率な符号化を行うことができる。
周波数帯域分割を行う際の各帯域の幅は、例えば、人間の聴覚特性を考慮して決定される。すなわち一般的には、例えば、臨界帯域(クリティカルバンド)と呼ばれている、高域ほど幅が広くなるような帯域幅で、オーディオ信号を複数(例えば32バンドなど)の帯域に分割することがある。
また、各帯域毎のデータを符号化する際には、各帯域毎に所定のビット配分、或いは各帯域毎に適応的なビット割当(ビットアロケーション)が行われる。すなわち、例えばMDCT処理されて得られた係数データをビットアロケーションによって符号化する際には、ブロック毎の信号をMDCT処理して得られる各帯域のMDCT係数データに対して、適応的にビット数が割り当てられて符号化が行われる。
ビットアロケーション手法としては、例えば、帯域毎の信号成分の大きさに基づいてビット割当を行う手法(以下、適宜「第1のビット割当手法」という。)や、聴覚マスキングを利用することで帯域毎に必要な信号対雑音比を得て固定的なビット割当を行う手法(以下、適宜「第2のビット割当手法」という。)等が知られている。
なお、第1のビット割当手法については、例えば、「Adaptive Transform Coding of Speech Signals, R.Zelinski and P.Noll, IEEE Transactions of Accoustics, Speech and Signal Processing, vol.ASSP-25, No.4, August 1977」等にその詳細が記載されている。また、第2のビット割当手法については、例えば、「ICASSP 1980, The critical band coder digital encoding of the perceptual requirements of the auditory system, M.A.Kransner MIT」等にその詳細が記載されている。
第1のビット割当手法によれば、量子化雑音スペクトルが平坦となり、雑音エネルギが最小となる。しかしながら、聴感覚的にはマスキング効果が利用されていないために、実際の聴感上の雑音感は最適にはならない。また、第2のビット割当手法では、ある周波数にエネルギが集中する場合、例えば、サイン波等を入力した場合であっても、ビット割当が固定的であるために、特性値がそれほどよい値とはならない。
そこで、ビットアロケーションに使用できる全ビットを、各小ブロック毎に予め定められた固定ビット割当パターン分と、各ブロックの信号の大きさに依存したビット配分を行う分とに分割して使用し、その分割比を入力信号に関係する信号に依存させる、すなわち、例えば、その信号のスペクトルが滑らかなほど固定ビット割当パターン分への分割比率を大きくする高能率符号化装置が提案されている。
この方法によれば、サイン波入力のように特定のスペクトルにエネルギが集中する場合には、そのスペクトルを含むブロックに多くのビットが割り当てられ、これにより全体の信号対雑音特性を飛躍的に改善することができる。一般に、急峻なスペクトル成分を持つ信号に対して人間の聴覚は極めて敏感であるため、上述のようにして信号対雑音特性を改善することは、単に測定上の数値を向上させるばかりでなく、聴感上の音質を改善するのにも有効である。
ビットアロケーション手法としては、この他にも数多く提案されており、さらに聴覚に関するモデルが精緻化され、符号化装置の能力が向上すれば、聴覚的な観点からより高能率な符号化が可能となる。
時間領域のオーディオ信号を周波数領域のスペクトル信号に変換する方法としてDFTやDCTを使用した場合には、M個のサンプルからなる時間ブロックで変換を行うと、M個の独立な実数データが得られる。しかしながら、通常は時間ブロック(フレーム)間の接続歪みを軽減するために、1つのブロックは両隣のブロックとそれぞれ所定の数M1個のサンプルずつオーバラップさせて構成されるので、DFTやDCTを利用した符号化方法では、平均して(M−M1)個のサンプルに対してM個の実数データを量子化して符号化することになる。
また、オーディオ信号をスペクトル信号に変換する方法としてMDCTを使用した場合には、両隣のブロックとM個ずつオーバラップさせた2M個のサンプルから、独立なM個の実数データが得られる。したがって、この場合には平均してM個のサンプルに対してM個の実数データを量子化して符号化することになる。この場合、復号装置においては、上述のようにしてMDCTを用いて得られる符号から、各ブロックにおいて逆変換を施して得られる波形要素を互いに干渉させながら加え合わせることにより、オーディオ信号が再構成される。
一般に、変換のための時間ブロック(フレーム)を長くすることによって、スペクトル信号の周波数分解能が高まり、特定のスペクトル係数にエネルギが集中する。したがって、両隣のブロックと半分ずつオーバラップさせて長いブロック長で変換を行い、しかも得られたスペクトル係数の数が元の時間領域のサンプル数に対して増加しないMDCTを使用する場合、DFTやDCTを使用した場合よりも効率のよい符号化を行うことが可能となる。また、隣接するブロック同士に充分長いオーバラップを持たせることによって、オーディオ信号のブロック間歪みを軽減することもできる。
実際の符号列を構成するに際しては、先ず正規化及び量子化が行われる帯域毎に、量子化を行うときの量子化ステップを表す情報である量子化精度情報と各信号成分を正規化するのに用いたスケールファクタとを所定のビット数で符号化し、次に正規化及び量子化された量子化係数を符号化する。
例えばオーディオ信号を周波数帯域分割して符号化する従来のオーディオ信号符号化装置の概略構成の一例を図5に示す。図5に示すオーディオ信号符号化装置100において、帯域分割部110は、符号化すべきオーディオ信号を入力し、上述したQMF又はPQF等のフィルタを用いて、このオーディオ信号を例えば4つのサブバンドのオーディオ信号に帯域分割する。なお、各サブバンドの帯域幅は、均一であっても、また臨界帯域幅に合わせるように不均一にしてもよい。また、オーディオ信号は、4つのサブバンドに分割されるようになされているが、サブバンドの数は、これに限定されるものではない。そして、帯域分割部110は、4つのサブバンド(以下、4つのサブバンドそれぞれを、適宜「第1〜第4のサブバンド」という。)に分割されたオーディオ信号を、所定の時間ブロック(フレーム)毎に、スペクトル変換部111〜111に供給する。
スペクトル変換部111〜111は、各サブバンドの時間領域のオーディオ信号に対してMDCT等のスペクトル変換を行って周波数領域のスペクトル信号を生成し、このスペクトル信号を正規化部112〜112及び量子化精度決定部113に供給する。
正規化部112〜112は、第1〜第4のサブバンドのスペクトル信号に応じて、予め設定された複数のスケールファクタの中から最適なものを選択する。この際、正規化部112〜112は、正規化後の正規化スペクトル信号が所定の範囲内に収まり、且つ正確性を維持するため、できる限りその範囲全体に亘るようなスケールファクタを選択する。そして、正規化部112〜112は、第1〜第4のサブバンドのスペクトル信号を構成する各スペクトル係数を、第1〜第4のサブバンドのそれぞれについて選択されたスケールファクタでそれぞれ正規化する(除算する)。正規化部112〜112は、第1〜第4のサブバンドの正規化スペクトル信号を、それぞれ量子化部114〜114に供給すると共に、第1〜第4のサブバンドのスケールファクタをマルチプレクサ115に供給する。
量子化精度決定部113は、スペクトル変換部111〜111から供給された第1〜第4のサブバンドのスペクトル信号に基づいて、第1〜第4のサブバンドの正規化スペクトル信号それぞれを量子化する際の量子化ステップを決定する。そして量子化精度決定部113は、その量子化ステップに対応する第1〜第4のサブバンドの量子化精度情報を、量子化部114〜114にそれぞれ供給するとともに、マルチプレクサ115にも供給する。
量子化部114〜114は、第1〜第4のサブバンドの正規化スペクトル信号を、第1〜第4のサブバンドの量子化精度情報に対応する量子化ステップでそれぞれ量子化し、その結果得られる第1〜第4のサブバンドの量子化スペクトル信号をマルチプレクサ115に供給する。
マルチプレクサ115は、第1〜第4のサブバンドの量子化スペクトル信号、量子化精度情報及びスケールファクタを例えばハフマン符号化により符号化した後、多重化する。そして、マルチプレクサ115は、多重化の結果得られる符号化ビットストリームを伝送路を介して伝送し、或いは図示しない記録媒体に記録する。
特願平9−214355号公報
ところで、例えば高い圧縮率が要求される場合、符号化側では、聴感上重要でないサブバンド、特に高域のサブバンドに対する割当ビット数が減らされることがある。また、サブバンド内においても、聴感上重要なスペクトル係数をより正確に符号化するため、一部のスペクトル係数が0又は小さい値に置き換えられることがある(例えば、特許文献1参照。)。この結果、割当ビット数が減らされたサブバンドでは、符号化前のオーディオ信号と復号後のオーディオ信号とでパワーの不一致が生じ、聴感上問題となる。
具体的に、周波数帯域幅が22kHzのオーディオ信号をサブバンド0(0〜5.5kHz)、サブバンド1(5.5〜11kHz)、サブバンド2(11〜16.5kHz)及びサブバンド3(16.5〜22kHz)の4つのサブバンドのオーディオ信号に分割し、MDCTによりスペクトル変換した場合のスペクトル信号と、各サブバンドにおけるスペクトル係数の平均エネルギE(dB)とを図6に示す。また、符号化されたオーディオ信号を復号した場合のスペクトル信号と、各サブバンドにおけるスペクトル係数の平均エネルギF(dB)とを図7に示す。図6、図7を比較して分かるように、特にサブバンド2、サブバンド3においてスペクトル係数の平均エネルギFが元の平均エネルギEと比較して大きく減少しており、再生時にパワー感の欠如として知覚されることとなる。
本発明は、このような従来の実情に鑑みて提案されたものであり、符号化の前後におけるパワーの不一致を補正し、聴感上の品質を向上させるオーディオ信号符号化装置及びその方法を提供することを目的とする。
上述した目的を達成するために、本発明に係るオーディオ信号符号化装置は、入力されたオーディオ信号を複数の周波数帯域に分割する帯域分割手段と、各周波数帯域のオーディオ信号をスペクトル信号に変換するスペクトル変換手段と、各スペクトル信号をスケールファクタを用いて正規化し、正規化スペクトル信号を生成する正規化手段と、各正規化スペクトル信号を量子化し、量子化スペクトル信号を生成する量子化手段と、
上記正規化スペクトル信号及び上記量子化スペクトル信号に基づいて、上記正規化手段で用いられたスケールファクタの値を調整するスケールファクタ調整手段と、各量子化スペクトル信号と上記正規化手段で用いられたスケールファクタ又は上記スケールファクタ調整手段によって調整されたスケールファクタとを少なくとも符号化する符号化手段とを備え、上記スケールファクタ調整手段は、上記正規化スペクトル信号のエネルギと上記量子化スペクトル信号のエネルギとの差分絶対値を周波数帯域毎に第1の閾値と比較し、該差分絶対値が該第1の閾値よりも大きい場合には、該エネルギの差分絶対値が第2の閾値以内となるように、上記正規化手段で用いられたスケールファクタの値を調整することを特徴とする。
ここで、上記スケールファクタ調整手段は、上記正規化スペクトル信号の周波数帯域毎のトーナリティ、又は上記正規化スペクトル信号の周波数帯域毎のトーナリティ及び上記量子化スペクトル信号の周波数帯域毎のトーナリティに基づいて、スケールファクタを調整するか否かを決定することができ、また、上記正規化スペクトル信号の周波数帯域毎のトーナリティ及び上記量子化スペクトル信号の周波数帯域毎のトーナリティに基づいて、上記第2の閾値を設定することができる。
また、上述した目的を達成するために、本発明に係るオーディオ信号符号化方法は、入力されたオーディオ信号を複数の周波数帯域に分割する帯域分割工程と、各周波数帯域のオーディオ信号をスペクトル信号に変換するスペクトル変換工程と、各スペクトル信号をスケールファクタを用いて正規化し、正規化スペクトル信号を生成する正規化工程と、各正規化スペクトル信号を量子化し、量子化スペクトル信号を生成する量子化工程と、上記正規化スペクトル信号及び上記量子化スペクトル信号に基づいて、上記正規化工程で用いられたスケールファクタの値を調整するスケールファクタ調整工程と、各量子化スペクトル信号と上記正規化工程で用いられたスケールファクタ又は上記スケールファクタ調整工程にて調整されたスケールファクタとを少なくとも符号化する符号化工程とを有し、上記スケールファクタ調整工程では、上記正規化スペクトル信号のエネルギと上記量子化スペクトル信号のエネルギとの差分絶対値を周波数帯域毎に第1の閾値と比較し、該差分絶対値が該第1の閾値よりも大きい場合には、該エネルギの差分絶対値が第2の閾値以内となるように、上記正規化工程で用いられたスケールファクタの値を調整することを特徴とする。
本発明に係るオーディオ信号符号化装置及びその方法によれば、正規化スペクトル信号の周波数帯域毎のエネルギと量子化スペクトル信号の周波数帯域毎のエネルギとを比較し、両者に不一致が見られる場合には、その周波数帯域におけるスケールファクタを調整することにより、両者のエネルギの不一致を補正することができ、これにより、そのオーディオ信号を再生する際に聴感上の問題が発生することを防止することができる。
以下、本発明を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。この実施の形態は、本発明を、オーディオ信号を周波数領域に変換したスペクトル信号を複数のサブバンドに分割し、このサブバンド毎にスケールファクタを用いて正規化を行い、さらにビットアロケーションを行って符号化するオーディオ信号符号化装置に適用したものである。
詳細は後述するが、このオーディオ信号符号化装置においては、正規化後量子化前の正規化スペクトル信号のサブバンド毎のスペクトル係数の平均エネルギと、量子化後の量子化スペクトル信号のサブバンド毎のスペクトル係数の平均エネルギとを比較し、両者に不一致が見られる場合、例えば量子化後のサブバンドのエネルギが減少している場合には、そのサブバンドにおけるスケールファクタの値を調整する。以下では、先ずこのようなオーディオ信号符号化装置の概略構成について説明し、次いでこのオーディオ信号符号化装置における本発明の適用部分について説明する。
本実施の形態におけるオーディオ信号符号化装置の構成の一例を図1に示す。図1に示すオーディオ信号符号化装置1において、帯域分割部10は、符号化すべきオーディオ信号を入力し、QMF(Quadrature Mirror Filter)又はPQF(Polyphase Quadrature Filter)等のフィルタを用いて、このオーディオ信号を例えば4つのサブバンドのオーディオ信号に帯域分割する。なお、各サブバンドの帯域幅は、均一であっても、また臨界帯域幅に合わせるように不均一にしてもよい。また、オーディオ信号は、4つのサブバンドに分割されるようになされているが、サブバンドの数は、これに限定されるものではない。そして、帯域分割部10は、4つのサブバンド(以下、4つのサブバンドそれぞれを、適宜「第1〜第4のサブバンド」という。)に分割されたオーディオ信号を、所定の時間ブロック(フレーム)毎に、スペクトル変換部11〜11に供給する。
スペクトル変換部11〜11は、各サブバンドの時間領域のオーディオ信号に対してMDCT等のスペクトル変換を行って周波数領域のスペクトル信号を生成し、このスペクトル信号を正規化部12〜12、量子化精度決定部13及びスケールファクタ調整部15に供給する。
正規化部12〜12は、第1〜第4のサブバンドのスペクトル信号に応じて、予め設定された複数のスケールファクタの中から最適なものを選択する。この際、正規化部12〜12は、正規化後の正規化スペクトル信号が所定の範囲内に収まり、且つ正確性を維持するため、できる限りその範囲全体に亘るようなスケールファクタを選択する。そして、正規化部12〜12は、第1〜第4のサブバンドのスペクトル信号を構成する各スペクトル係数を、第1〜第4のサブバンドのそれぞれについて選択されたスケールファクタでそれぞれ正規化する(除算する)。正規化部12〜12は、第1〜第4のサブバンドの正規化スペクトル信号をそれぞれ量子化部14〜14に供給すると共に、第1〜第4のサブバンドのスケールファクタをスケールファクタ調整部15に供給する。
量子化精度決定部13は、スペクトル変換部11〜11から供給された第1〜第4のサブバンドのスペクトル信号に基づいて、第1〜第4のサブバンドの正規化スペクトル信号それぞれを量子化する際の量子化ステップを決定する。そして量子化精度決定部13は、その量子化ステップに対応する第1〜第4のサブバンドの量子化精度情報を、量子化部14〜14にそれぞれ供給するとともに、マルチプレクサ16にも供給する。
量子化部14〜14は、第1〜第4のサブバンドの正規化スペクトル信号を、第1〜第4のサブバンドの量子化精度情報に対応する量子化ステップでそれぞれ量子化し、その結果得られる第1〜第4のサブバンドの量子化スペクトル信号をスケールファクタ調整部15及びマルチプレクサ16に供給する。
スケールファクタ調整部15は、スペクトル変換部11〜11から供給された第1〜第4のサブバンドのそれぞれのスペクトル係数の平均エネルギと、量子化部14〜14から供給された第1〜第4のサブバンドのそれぞれのスペクトル係数の平均エネルギとを比較する。そして、その差分絶対値が閾値未満である場合には、正規化部12〜12から供給されたスケールファクタをそのままマルチプレクサ16に供給する。一方、差分絶対値が閾値以上である場合、例えば量子化後のサブバンドの平均エネルギが減少している場合には、量子化後のサブバンドの平均エネルギが量子化前のサブバンドの平均エネルギに近付くようにそのサブバンドにおけるスケールファクタの値を調整し、調整後のスケールファクタをマルチプレクサ16に供給する。なお、スケールファクタ調整部15は、サブバンド位置や局所的なスペクトル特徴(例えばトーナリティ)に応じてスケールファクタの調整量等を変化させるが、詳細については後述する。
マルチプレクサ16は、第1〜第4のサブバンドの量子化スペクトル信号、量子化精度情報及びスケールファクタを例えばハフマン符号化により符号化した後、多重化する。そして、マルチプレクサ16は、多重化の結果得られる符号化ビットストリームを伝送路を介して伝送し、或いは図示しない記録媒体に記録する。
以下、上述したスケールファクタ調整部15におけるスケールファクタの調整処理について、図2のフローチャートを用いて説明する。
先ずステップS1において、現在処理しているサブバンドがスケールファクタの調整対象であるか否か、具体的には現在のサブバンドが所定の境界周波数以上であるか否かを判別し、所定の境界周波数以上である場合(Yes)にはステップS2に進む。一方、現在のサブバンドが所定の境界周波数未満である場合(No)にはスケールファクタを調整せずに処理を終了する。これは、低域のサブバンドではスケールファクタを調整してパワーを一致させることによる聴感上の影響よりもその調整によってスペクトル信号の波形が変化してしまうことによる影響の方が大きく、高域のサブバンドではその逆だからである。スケールファクタを調整するか否かの境界周波数はビットレートに応じて決定することが好ましい。例えば低ビットレートの場合、量子化後の量子化スペクトル信号は本来的にあまり正確なものではないため、より低域のサブバンドまでスケールファクタの調整対象としても構わない。
次にステップS2において、正規化後量子化前のサブバンドのスペクトル係数の平均エネルギEを算出し、ステップS3において、量子化後のサブバンドのスペクトル係数の平均エネルギFを算出する。
続いてステップS4において、平均エネルギEと平均エネルギFとの差分絶対値|E−F|が所定の閾値Vよりも大きいか否かを判別する。ここで、閾値Vは、例えば予め複数設定されているスケールファクタの値を1段階増減させることにより変化するエネルギ(例えば2dB)とすることができる。ステップS4において差分絶対値|E−F|が閾値V以下である場合(No)には、スケールファクタを調整してもこれ以上両者のエネルギを近づけることができないため、処理を終了する。一方、差分絶対値|E−F|が閾値Vよりも大きい場合(Yes)にはステップS5に進み、スケールファクタの調整処理を行う。
ステップS5におけるスケールファクタの調整処理について、図3のフローチャートを用いてさらに説明する。
先ずステップS10において、正規化後量子化前のサブバンドのトーナリティtを算出し、ステップS11において、量子化後のサブバンドのトーナリティt’を算出する。サブバンド内にn個のスペクトル係数X(i=1,2,・・・,n)が存在する場合、例えば以下の式(1)に従ってトーナリティtを算出することができる。
Figure 0004168976
次にステップS12において、トーナリティt及びトーナリティtとトーナリティt’との比t’/tに基づいて、量子化及びビットアロケーションによるスペクトルの変化が、心理音響モデルに基づいたスケールファクタの調整を行うのに十分な程度に小さいか否かを判断する。例えばサブバンドに高調波が含まれトーナリティtが高い場合には、スケールファクタを調整しないことが好ましく、逆にノイズ性でトーナリティtが1に近い場合にはエネルギの不一致を解消するためにスケールファクタを調整することが好ましい。ステップS12においてスペクトルの変化が大きい場合(No)には処理を終了し、スペクトルの変化が小さい場合(Yes)にはステップS13に進む。
続いてステップS13において、トーナリティt及びトーナリティtとトーナリティt’との比t’/tに基づいて、差分絶対値|E−F|と比較する新たな閾値V’を設定し、ステップS14において、差分絶対値|E−F|が閾値V’以下となるようにスケールファクタを修正する。例えば、値を1段階増減させることによりエネルギが一定量(例えば2dB)変化するように予めスケールファクタが設定されている場合には、差分絶対値|E−F|と閾値V’との差分に応じた段階数だけスケールファクタを修正することができる。それ以外の場合も、1段階ずつ増減させてその都度エネルギを算出することで、差分絶対値|E−F|を閾値V’以下とすることができる。ここで、閾値V’を設定する際、例えば比t’/tが1に近い場合には、スペクトルの変化が小さいと考えられるので、閾値V’を上述の閾値Vと同じ値に設定し、エネルギの差を最小とすることが好ましい。逆に、比t’/tが大きすぎるか又は小さすぎる場合には、スペクトルの変化が大きいと考えられるので、閾値V’を閾値Vよりも大きな値に設定し、調整量を小さくすることが好ましい。このようにして、エネルギの調整量と符号化の精度とのトレードオフをとることができる。
具体的に、図6に示したスペクトル信号を正規化及び量子化し、上述のようにスケールファクタを調整して符号化した場合における復号後のスペクトル信号と、各サブバンドにおけるスペクトル係数の平均エネルギF(dB)とを図4に示す。この図4から、サブバンド2、サブバンド3においてスペクトル係数の平均エネルギFがそれぞれ4dB、2dB増加しており、元の平均エネルギEに近付いていることが分かる。なお、スケールファクタの値を1段階増減させることによりエネルギが2dB変化する場合、サブバンド2については2段階、サブバンド3については1段階だけスケールファクタを調整したことに相当する。
以上説明したように、本実施の形態におけるオーディオ信号符号化装置1によれば、正規化後量子化前の正規化スペクトル信号のサブバンド毎のスペクトル係数の平均エネルギと、量子化後の量子化スペクトル信号のサブバンド毎のスペクトル係数の平均エネルギとを比較し、両者に不一致が見られる場合、例えば量子化後のサブバンドのエネルギが減少している場合には、そのサブバンドにおけるスケールファクタを調整することにより、両者のエネルギの不一致を補正することができ、これにより、そのオーディオ信号を再生する際に聴感上の問題が発生することを防止することができる。
なお、本発明は上述した実施の形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能であることは勿論である。
本実施の形態におけるオーディオ信号符号化装置の概略構成を示す図である。 同オーディオ信号符号化装置におけるスケールファクタの修正処理について説明するフローチャートである。 同オーディオ信号符号化装置におけるスケールファクタの修正処理について説明するフローチャートである。 図6のスペクトル信号をスケールファクタを調整した上で符号化して復号した後のスペクトル信号と、各サブバンドにおけるスペクトル係数の平均エネルギF(dB)とを示す図である。 従来のオーディオ信号符号化装置の概略構成を示す図である。 周波数帯域幅が22kHzのオーディオ信号を4つのサブバンドのオーディオ信号に分割し、MDCTによりスペクトル変換した場合のスペクトル信号と、各サブバンドにおけるスペクトル係数の平均エネルギE(dB)とを示す図である。 図6のスペクトル信号を符号化して復号した後のスペクトル信号と、各サブバンドにおけるスペクトル係数の平均エネルギF(dB)とを示す図である。
符号の説明
1 オーディオ信号符号化装置、10 帯域分割部、11〜11 スペクトル変換部、12〜12 正規化部、13 量子化精度決定部、14〜14 量子化部、15 スケールファクタ調整部、16 マルチプレクサ

Claims (8)

  1. 入力されたオーディオ信号を複数の周波数帯域に分割する帯域分割手段と、
    各周波数帯域のオーディオ信号をスペクトル信号に変換するスペクトル変換手段と、
    各スペクトル信号をスケールファクタを用いて正規化し、正規化スペクトル信号を生成する正規化手段と、
    各正規化スペクトル信号を量子化し、量子化スペクトル信号を生成する量子化手段と、
    上記正規化スペクトル信号及び上記量子化スペクトル信号に基づいて、上記正規化手段で用いられたスケールファクタの値を調整するスケールファクタ調整手段と、
    各量子化スペクトル信号と上記正規化手段で用いられたスケールファクタ又は上記スケールファクタ調整手段によって調整されたスケールファクタとを少なくとも符号化する符号化手段とを備え、
    上記スケールファクタ調整手段は、上記正規化スペクトル信号のエネルギと上記量子化スペクトル信号のエネルギとの差分絶対値を周波数帯域毎に第1の閾値と比較し、該差分絶対値が該第1の閾値よりも大きい場合には、該エネルギの差分絶対値が第2の閾値以内となるように、上記正規化手段で用いられたスケールファクタの値を調整する
    ことを特徴とするオーディオ信号符号化装置。
  2. 上記スケールファクタ調整手段は、所定の境界よりも高域の周波数帯域においてのみ上記正規化手段で用いられたスケールファクタの値を調整することを特徴とする請求項1記載のオーディオ信号符号化装置。
  3. 上記スケールファクタ調整手段は、上記正規化スペクトル信号の周波数帯域毎のトーナリティ、又は上記正規化スペクトル信号の周波数帯域毎のトーナリティ及び上記量子化スペクトル信号の周波数帯域毎のトーナリティに基づいて、スケールファクタを調整するか否かを決定することを特徴とする請求項1記載のオーディオ信号符号化装置。
  4. 上記スケールファクタ調整手段は、上記正規化スペクトル信号の周波数帯域毎のトーナリティ及び上記量子化スペクトル信号の周波数帯域毎のトーナリティに基づいて、上記第2の閾値を設定することを特徴とする請求項1記載のオーディオ信号符号化装置。
  5. 入力されたオーディオ信号を複数の周波数帯域に分割する帯域分割工程と、
    各周波数帯域のオーディオ信号をスペクトル信号に変換するスペクトル変換工程と、
    各スペクトル信号をスケールファクタを用いて正規化し、正規化スペクトル信号を生成する正規化工程と、
    各正規化スペクトル信号を量子化し、量子化スペクトル信号を生成する量子化工程と、
    上記正規化スペクトル信号及び上記量子化スペクトル信号に基づいて、上記正規化工程で用いられたスケールファクタの値を調整するスケールファクタ調整工程と、
    各量子化スペクトル信号と上記正規化工程で用いられたスケールファクタ又は上記スケールファクタ調整工程にて調整されたスケールファクタとを少なくとも符号化する符号化工程とを有し、
    上記スケールファクタ調整工程では、上記正規化スペクトル信号のエネルギと上記量子化スペクトル信号のエネルギとの差分絶対値を周波数帯域毎に第1の閾値と比較し、該差分絶対値が該第1の閾値よりも大きい場合には、該エネルギの差分絶対値が第2の閾値以内となるように、上記正規化工程で用いられたスケールファクタの値を調整する
    ことを特徴とするオーディオ信号符号化方法。
  6. 上記スケールファクタ調整工程では、所定の境界よりも高域の周波数帯域においてのみ上記正規化工程で用いられたスケールファクタの値を調整することを特徴とする請求項5記載のオーディオ信号符号化方法。
  7. 上記スケールファクタ調整工程では、上記正規化スペクトル信号の周波数帯域毎のトーナリティ、又は上記正規化スペクトル信号の周波数帯域毎のトーナリティ及び上記量子化スペクトル信号の周波数帯域毎のトーナリティに基づいて、スケールファクタを調整するか否かを決定することを特徴とする請求項5記載のオーディオ信号符号化方法。
  8. 上記スケールファクタ調整工程では、上記正規化スペクトル信号の周波数帯域毎のトーナリティ及び上記量子化スペクトル信号の周波数帯域毎のトーナリティに基づいて、上記第2の閾値を設定することを特徴とする請求項5記載のオーディオ信号符号化方法。
JP2004159981A 2004-05-28 2004-05-28 オーディオ信号符号化装置及び方法 Expired - Fee Related JP4168976B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2004159981A JP4168976B2 (ja) 2004-05-28 2004-05-28 オーディオ信号符号化装置及び方法
US11/132,985 US7627469B2 (en) 2004-05-28 2005-05-19 Audio signal encoding apparatus and audio signal encoding method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004159981A JP4168976B2 (ja) 2004-05-28 2004-05-28 オーディオ信号符号化装置及び方法

Publications (2)

Publication Number Publication Date
JP2005338637A JP2005338637A (ja) 2005-12-08
JP4168976B2 true JP4168976B2 (ja) 2008-10-22

Family

ID=35426531

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004159981A Expired - Fee Related JP4168976B2 (ja) 2004-05-28 2004-05-28 オーディオ信号符号化装置及び方法

Country Status (2)

Country Link
US (1) US7627469B2 (ja)
JP (1) JP4168976B2 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4734859B2 (ja) * 2004-06-28 2011-07-27 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
DK2011234T3 (da) 2006-04-27 2011-03-14 Dolby Lab Licensing Corp Audioforstærkningskontrol anvendende specifik-lydstyrke-baseret auditiv hændelsesdetektering
JP2008015357A (ja) * 2006-07-07 2008-01-24 Toshiba Corp 符号化装置
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
US8010370B2 (en) * 2006-07-28 2011-08-30 Apple Inc. Bitrate control for perceptual coding
JP4984983B2 (ja) * 2007-03-09 2012-07-25 富士通株式会社 符号化装置および符号化方法
JP4872748B2 (ja) * 2007-03-27 2012-02-08 カシオ計算機株式会社 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム
KR101355376B1 (ko) * 2007-04-30 2014-01-23 삼성전자주식회사 고주파수 영역 부호화 및 복호화 방법 및 장치
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
JP5071479B2 (ja) 2007-07-04 2012-11-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
JP5098530B2 (ja) 2007-09-12 2012-12-12 富士通株式会社 復号化装置、復号化方法および復号化プログラム
CA2711539C (en) * 2008-01-24 2013-10-08 Nippon Telegraph And Telephone Corporation Coding method, decoding method, apparatuses thereof, programs thereof, and recording medium
JP5262171B2 (ja) 2008-02-19 2013-08-14 富士通株式会社 符号化装置、符号化方法および符号化プログラム
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
WO2010028301A1 (en) * 2008-09-06 2010-03-11 GH Innovation, Inc. Spectrum harmonic/noise sharpness control
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
WO2010031003A1 (en) * 2008-09-15 2010-03-18 Huawei Technologies Co., Ltd. Adding second enhancement layer to celp based core layer
WO2010031049A1 (en) * 2008-09-15 2010-03-18 GH Innovation, Inc. Improving celp post-processing for music signals
US8498874B2 (en) * 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
TWI476760B (zh) * 2011-02-14 2015-03-11 Fraunhofer Ges Forschung 用以使用暫態檢測及品質結果將音訊信號的部分編碼之裝置與方法
PL3471092T3 (pl) 2011-02-14 2020-12-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekodowanie pozycji impulsów ścieżek sygnału audio
AU2012217156B2 (en) 2011-02-14 2015-03-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Linear prediction based coding scheme using spectral domain noise shaping
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
PL3232437T3 (pl) * 2012-12-13 2019-05-31 Fraunhofer Ges Forschung Urządzenie do kodowania głosowego audio, urządzenie do dekodowania głosowego audio, sposób kodowania głosowego audio i sposób dekodowania głosowego audio
WO2014118159A1 (en) * 2013-01-29 2014-08-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a frequency enhanced signal using shaping of the enhancement signal
EP2939235B1 (en) * 2013-01-29 2016-11-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low-complexity tonality-adaptive audio signal quantization
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
ES2742420T3 (es) * 2013-12-02 2020-02-14 Huawei Tech Co Ltd Método y aparato de codificación
BR112017000629B1 (pt) 2014-07-25 2021-02-17 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschug E.V. aparelho de codificação de sinal de áudio e método de codificação de sinal de áudio
JP6552986B2 (ja) * 2016-03-08 2019-07-31 Kddi株式会社 音声符号化装置、方法及びプログラム
WO2018133043A1 (zh) * 2017-01-20 2018-07-26 华为技术有限公司 量化器与量化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR960003628B1 (ko) * 1993-12-06 1996-03-20 Lg전자주식회사 디지탈신호의 부호화/복호화 방법 및 장치
JPH08335979A (ja) * 1995-06-06 1996-12-17 Hashimoto Corp 留守番電話装置付携帯電話システム
JP2002196792A (ja) * 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
US20050010396A1 (en) * 2003-07-08 2005-01-13 Industrial Technology Research Institute Scale factor based bit shifting in fine granularity scalability audio coding
US7460990B2 (en) * 2004-01-23 2008-12-02 Microsoft Corporation Efficient coding of digital media spectral data using wide-sense perceptual similarity

Also Published As

Publication number Publication date
US20050267744A1 (en) 2005-12-01
US7627469B2 (en) 2009-12-01
JP2005338637A (ja) 2005-12-08

Similar Documents

Publication Publication Date Title
JP4168976B2 (ja) オーディオ信号符号化装置及び方法
US10685660B2 (en) Voice audio encoding device, voice audio decoding device, voice audio encoding method, and voice audio decoding method
US5737718A (en) Method, apparatus and recording medium for a coder with a spectral-shape-adaptive subband configuration
JP4296752B2 (ja) 符号化方法及び装置、復号方法及び装置、並びにプログラム
US7627482B2 (en) Methods, storage medium, and apparatus for encoding and decoding sound signals from multiple channels
EP1701452B1 (en) System and method for masking quantization noise of audio signals
EP1600946A1 (en) Method and apparatus for encoding/decoding a digital signal
CN109313908B (zh) 用于对音频信号进行编码的音频编码器以及方法
US6604069B1 (en) Signals having quantized values and variable length codes
WO2015010949A1 (en) Apparatus and method for decoding or encoding an audio signal using energy information values for a reconstruction band
US20040162720A1 (en) Audio data encoding apparatus and method
EP3096316B1 (en) Signal decoding apparatus and method thereof
US6199038B1 (en) Signal encoding method using first band units as encoding units and second band units for setting an initial value of quantization precision
JPH0846518A (ja) 情報符号化方法及び復号化方法、情報符号化装置及び復号化装置、並びに情報記録媒体
US7613609B2 (en) Apparatus and method for encoding a multi-channel signal and a program pertaining thereto
JP4297078B2 (ja) 復号方法及び装置
US6064698A (en) Method and apparatus for coding
JP4024185B2 (ja) デジタルデータ符号化装置
JP2010175633A (ja) 符号化装置及び方法、並びにプログラム
Boland et al. Hybrid LPC And discrete wavelet transform audio coding with a novel bit allocation algorithm
JPH05114863A (ja) 高能率符号化装置及び復号化装置
JPH0591062A (ja) オーデイオ信号処理方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080313

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20080715

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20080728

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110815

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110815

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110815

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120815

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120815

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130815

Year of fee payment: 5

LAPS Cancellation because of no payment of annual fees