JP4903130B2 - 知覚コーディングのビット割り当てにおける複雑さを軽減した計算方法 - Google Patents

知覚コーディングのビット割り当てにおける複雑さを軽減した計算方法 Download PDF

Info

Publication number
JP4903130B2
JP4903130B2 JP2007509471A JP2007509471A JP4903130B2 JP 4903130 B2 JP4903130 B2 JP 4903130B2 JP 2007509471 A JP2007509471 A JP 2007509471A JP 2007509471 A JP2007509471 A JP 2007509471A JP 4903130 B2 JP4903130 B2 JP 4903130B2
Authority
JP
Japan
Prior art keywords
coding parameter
estimate
audio signal
coding
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007509471A
Other languages
English (en)
Other versions
JP2007534986A (ja
Inventor
バーナン、スティーブン・デカー
ロビンソン、チャールズ・キト
アンデルセン、ロバート・ローリン
Original Assignee
ドルビー ラボラトリーズ ライセンシング コーポレイション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ドルビー ラボラトリーズ ライセンシング コーポレイション filed Critical ドルビー ラボラトリーズ ライセンシング コーポレイション
Publication of JP2007534986A publication Critical patent/JP2007534986A/ja
Application granted granted Critical
Publication of JP4903130B2 publication Critical patent/JP4903130B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients

Description

本発明は、一般に知覚コーディングに関し、さらに詳細にはエンコーディングソース信号にビットを分配する知覚コーディングシステムにおける計算の複雑なプロセスを軽減する技法に関する。
ソース信号を適切に表現するために必要な情報の容量(情報容量要件)を減らすために多くのコーディングシステムが用いられている。情報容量要件を軽減させることにより、表現するための信号を狭い帯域幅を持つチャンネルで伝達することができ、あるいは、余裕の少ない媒体に記憶させることができる。
知覚コーディングで、信号中の冗長な成分又は不適切な成分を削減することにより、ソースオーディオ信号情報容量要件を減らすことができる。この形式のコーディングはフィルターバンクを用いて、スペクトル成分の基本セットを使ってソース信号をデコリレーティング(decorrelating)することにより冗長性を減らし、知覚心理学的基準に従いスペクトル成分の適応量子化により不適合性を減少させる。大雑把に量子化分解能に適応させたコーディングプロセスにより広い範囲で情報容量を減少させることができるが、これにより信号中に高いレベルの量子化誤差あるいは「量子化ノイズ」をもたらすことにもなる。知覚コーディングシステムにより、信号のスペクトルの内容でノイズを「マスク」するか、あるいは知覚されないようにするために、量子化ノイズのレベルを制御することが試みられる。このシステムは一般に、ソース信号でマスクすることができる量子化ノイズのレベルを予測するために知覚モデルを用いる。
知覚できないと予測されるため不適切であるとみなされたスペクトル成分をエンコードされた信号の中に含ませる必要はない。適切であるとみなされた他のスペクトル成分は、ソース信号のスペクトル成分によりちょうど知覚されないようにされる程度の量子化ノイズしか持たない位に十分細かくした量子化分解能を用いて量子化される。この量子化分解能は、各量子化されたスペクトルの成分を表現するために、用いるビット数を定めるビット割り当てプロセスにより調整される。
現実のコーディングシステムでは、通常、量子化されたスペクトル成分を伝達するエンコードされた信号のビットレートが不変で目標ビットレートに等しいか、又は、おそらく所定の範囲で可変の、平均レートが目標ビットレートに等しいようなビット割り当てを余儀なくされる。いずれにしろビット割り当てを定めるために、コーディングシステムでは反復手順が用いられる。この反復手順では、量子化ノイズが知覚モデルに従いビットレートの制約を受けて最適にマスクされるとみなされるようなビット割り当てを定める1以上のコーディングパラメータの値を捜す。このコーディングパラメータで、例えば、エンコードすべき信号の帯域幅、エンコードすべきチャンネルの数、又は目標ビットレートを指定することができる。
多くのコーディングシステムにおいて、ビット割り当てプロセスの反復において、コーディングパラメータだけからではビット割り当てを簡単に決めることができないので、多大な計算リソースが必要とされる。その結果、民生用ビデオレコーダのような低価格な用途に高品質の知覚オーディオエンコーダを導入することは難しい。
この問題を解決する1つの手段は、ビット割り当てがビットレートの制約を満足するコーディングパラメータの値を見つけたらすぐに反復処理を終わらせるようなビット割り当てプロセスを用いることである。この方法は、一般に、コーディングパラメータの最適値を見つけるような方法ではないので、計算の複雑性を減らすためにエンコーディングの質を犠牲にしている。このような犠牲は、目標ビットレートが十分高いときは許容されるかも知れないが、ビットレートに厳しい制限が課せられる多くの用途では許容されない。さらに、この方法では、最適値を見つけるのに必要な反復処理より少ない反復処理で、許容できるコーディングパラメータの値を保証することはできないので、この方法は計算の複雑さを軽減することを保証するものではない。
コーディングシステムにおいて、少ない計算リソースを用いてコーディングパラメータの最適値を定めることができるように、効率的にビット割り当て処理を実現させることが本発明の目的である。
本発明の1つの特徴によれば、オーディオ信号の知覚マスキング効果を表す第1のマスキングカーブを取得し、オーディオ信号をエンコーディングするのに用いることのできるビット数に応じて、第2のマスキングカーブと前記第1のマスキングカーブとの間のオフセットを特定するコーディングパラメータの推定値を導き出し、このコーディングパラメータの最適値を捜す反復プロセスにおいてコーディングパラメータの推定値を修正することにより、コーディングパラメータの最適値を取得し、このコーディングパラメータの最適値と前記第1のマスキングカーブとのオフセットである第2のマスキングカーブに従ってスペクトル成分を量子化することによりエンコードされたスペクトル成分を作り、このエンコードされたスペクトル成分の表現を出力信号に組み立てることで、ソース信号がエンコードされる。
本発明の他の特徴によれば、コーディングパラメータの初期値を選択し、このコーディングパラメータの初期値に応じて第1のビット数を決定し、この第1のビット数と前記オーディオ信号をエンコードするのに用いることのできるビット数に該当する第3のビット数との差から第2のビット数を決定し、前記コーディングパラメータの初期値とこの第2のビット数に応じて前記コーディングパラメータの最適値の推定値を導き出し、このコーディングパラメータに従いソース信号のスペクトルの内容を表現する情報を量子化することによりエンコードされたスペクトル成分を作り、エンコードされたスペクトル成分の表現を出力信号に組み立てることで、ソース信号がエンコードされる。
本発明の様々な特徴およびその好ましい実施形態は、以下の説明と図面を参照することによりよく理解できるであろう。以下の説明と図面の内容は例示のためのものであり、本発明の範囲を制限するためのものと理解すべきではない。
A.序論
本発明は、知覚コーディングシステムに用いるのに適したビット割り当て処理を効率的な実施を提供するものである。このビット割り当て処理は、次世代テレビジョン方式協会(Advanced Television System Committee)(ATSC)、標題「ディジタルオーディオ圧縮(AC-3)標準」、2001年8月20日発行、に記載されたエンコードされたビットストリーム標準に従うようなエンコードされたビットストリームを出力するエンコーダ又はトランスコーダを備える伝送器に組み込むことができる。このATSC標準に適合する具体的なエンコーダへの実施の形態を以下に記載する。しかしながら、本発明のいろいろな特徴を、広くいろいろなコーディングシステムに用いる装置に組み込むことができる。
図1は、上述のATSC標準に適合するコーディングシステムに組み込むことのできる知覚エンコーダを有する伝送器を図解したものである。この伝送器は、経路1から受け取ったソース信号に分析フィルターバンク2を適用してソース信号のスペクトルの内容を表すスペクトル成分を生成し、コントローラ4にてこのスペクトル成分を分析してエンコーダ制御情報を経路5に出力し、このエンコーダ制御情報に応じて改変したスペクトル成分にエンコーディングプロセスを適用してエンコーダ6にてエンコードされた情報を生成し、このエンコードされた情報にフォーマッタ8を適用して伝送に適した出力信号を経路9に出力する。この出力信号を直ちに対応する受信器に送信することもでき、又はその後送信するために記憶媒体に記憶させることもできる。
分析フィルターバンク2は、無限インパルス応答フィルター(IIRフィルター)、有限インパルス応答フィルター(FIRフィルター)、ラティス型フィルター(Latticeフィルター)、およびウェーブレット変換を含むいろいろな方法で実施することができる。ATSC標準に適合する好ましい実施の形態では、分析フィルターバンク2は、プリンセン他の「高効率変換符号化(Time Domain Aliasing Cancellation)に基づくフィルターバンク設計を用いたサブ帯域/変換コーディング」、Proc. of the 1987 International Conference on Acoustics, Speech and Signal Processing (ICASSP), May 1987, pp. 2161-64、に記載された、修正離散コサイン変換(MDCT)により実施される。
エンコーダ6は、基本的に、特定のアプリケーションに求められるどんなエンコーディングプロセスも実行することができる。本明細書において、「エンコーダ」および「エンコーディング」のような用語は、適応ビット割り当て量子化以外のいかなる形式の情報処理も意味することを意図するものではない。この形式の処理(適応ビット割り当て量子化処理)はコーディングシステムにしばしば用いられ、ソース信号の情報容量要件を減少させる。付加的な処理として、エンコーダ6において、信号帯域幅の一部のスペクトル成分を廃棄しエンコードされた情報において廃棄された部分のスペクトルのエンベロープを推定するような処理がなされる。
コントローラ4は、広く様々な処理を実行しエンコーダ制御情報を生成することができる。好ましい実施の形態において、コントローラ4は、スペクトル成分に知覚モデルを適用して、ソース信号のマスク効果の予測を表す「マスキングカーブ」を取得し、マスキングカーブとともに用いられる1以上のコーディングパラメータを導き出して、ビットをどのように割り当ててスペクトル成分を量子化するかを決定する。いくつかの実施例を以下に記載する。
フォーマッタ8は、多重化又は他の公知のプロセスを用いて特定のアプリケーションに適した形式の出力信号を生成する。
B.エンコーダ制御
知覚コーディングシステムにおける典型的なコントローラ4は、分析フィルターバンク2から受け取ったスペクトル成分に知覚モデルを適用して、マスキングカーブを取得する。このマスキングカーブにより、ソース信号におけるスペクトル成分のマスキング効果を推定する。知覚コーディングシステムにおける伝送器と受信器では、量子化ノイズレベルがちょうどマスキングカーブの下に来るように、伝送器においてビット割り当てとスペクトル成分の量子化を制御することにより、主観的に又は知覚的に良質な出力信号を生成することができる。残念ながら、エンコードされたこの形式の信号には、固定されたビットレート又は非常に限られた範囲に変化が制限されているビットレートを有するよう多くの標準が要求しているので、この形式のエンコーディングプロセスは、上述のATSC標準を含む種々のコーディング標準に準拠したエンコーディングシステムに用いることができない。このような標準に準拠したエンコーダは、一般に反復法を用いて、許容できる制限内のビットレートを有するエンコードされた信号を生成するのに使うことのできるコーディング
パラメータを探す。
1.好ましい技法
ATSC標準に準拠したエンコーディングとともに用いるための1つの実施例において、コントローラ4は、(1)分析フィルターバンク2から受け取ったスペクトル成分に知覚モデルを適用して、初期マスキングカーブを取得し、(2)この初期マスキングカーブと、同様の形を持つ暫定的なマスキングカーブとのレベル差を表すオフセットコーディングパラメータを選択し、(3)量子化ノイズのレベルが暫定的なマスキングカーブのすぐ下に来るように、スペクトル成分を量子化するのに必要とするビット数を計算し、(4)計算したビット数と量子化のために割り当てることのできるビット数とを比較し、(5)オフセットコーディングパラメータの値を調整して、計算したビット数が大きすぎるか又は小さすぎたとき、それぞれ暫定的なマスキングカーブを増加又は減少させ、(6)ビット数の計算し、計算したビット数と許容されるビット数との比較し、オフセットコーディングパラメータの値を調整して、計算したビット数が許容範囲内になるようなオフセットコーディングパラメータを見つけるという、反復プロセスを行う。反復処理において、オフセットコーディングパラメータの最適値を特定する「二分法」又は「バイナリーサーチ」として知られている数値計算法が用いられる。この数値計算法の詳細を補足するものは、プレス他の「数値計算法」、Cambridge University Press, 1986, pp. 89-92、により得ることができる。
本発明は、1以上のコーディングパラメータの正確な推定値を効率よく導き出すことにより上述のような反復プロセスを行うコントローラ4に必要とされる計算リソースを減らすものである。上述の特定のプロセスに対して、オフセットコーディングパラメータの正確な推定値を出力させるために本発明を用いることができる。これは、図2に示したプロセスを用いることにより実行することができる。このプロセスによれば、ステップ51にて、コーディングパラメータの初期値Pが選択されて、暫定的なマスキングカーブが得られる。ステップ52で、量子化ノイズレベルが暫定的なマスキングカーブのすぐ下に来るようにスペクトル成分を量子化するのに必要なビット数bが計算される。この計算は概念的にはb=F(p)で表現することができ、ここで関数F( )は、このコーディングパラメータに応答してビット数を計算するために用いるプロセスを表す。ステップ53では、第1のビット数bと、スペクトル成分を量子化するために割り当てが可能なビット数に対応した第3のビット数bとの差を計算することで第2のビット数bを決定する。この差は概念的にはb=(b−b)で表現できるかもしれないが、この概念的な表現におけるいくつか又はすべての値は必要に応じて、適切な値の倍率をかけてもよい。ステップ55では、第2のビット数bから、オフセットコーディングパラメータの最適値の正確な推定値を導き出す。これは概念的にはp=E(b)で表現できるかもしれないが、ここで関数E( )は第2のビット数に対応した最適値を推定するためのプロセスを表す。
本発明者は、関数E( )の式が経験的に導き出されることを発見した。ATSC標準に準拠したエンコードされた情報を生成する特定のエンコーダの実行により導き出されたこの関数を表す式の1つを以下に説明する。この実施の形態において、5チャンネルのソース信号がそれぞれ48kHzでサンプリングされている。各チャンネルは約20.3kHzの帯域幅を持っている。エンコードされた完全なビットストリームのビットレートは固定され、448kbits/secとなっている。各チャンネルのスペクトル成分は、お互いに256サンプルが重なり合った512のソース信号サンプルに適用して256のMDCT係数を得る、上述のMDCTフィルターバンクにより生成される。各チャンネルの係数の6個のブロックがフレームに組み立てられる。各ブロックのスペクトル成分は、指数関数値で表したスケールファクタまたは指数で縮小拡大した値からなる形で表現される。1以上の縮小拡大した値は、上述のATSC A/52A書面に記載されている共通指数と関係付けてもよい。ビットb3の数は、フレーム中の縮小拡大した値を量子化するために役立つビット数を表す。複数チャンネルのスペクトル成分を結合して合成したスペクトル表現の形式にする、カップリングとして知られたコーディング技法は、この特定の実施例では禁じられる。関数E( )により推定される特定のコーディングパラメータは、先に概説したように、初期マスキングカーブと暫定的なマスキングカーブとのオフセットを定める。詳細は、ATSC A/52A書面に補足説明がある。
図3のグラフは、いろいろなソース信号のスペクトルの内容を表すスペクトル成分のフレームに対するオフセットコーディングパラメータの、経験的に導き出された差分値bと最適値pとの関係を表す。オフセットに対する値は、初期マスキングカーブのレベルと比較してdBで表現され、ここで、6.02dB(20log2)は、スペクトル成分の割り当てにおける1ビットの変化に起因する量子化ノイズレベルの変化にほぼ相当する。このグラフは、フレーム中の各ブロックに対する初期マスキング閾値を決定し、各ブロックに対し初期オフセット値pを−1.875dBに等しくなるよう選択し、このオフセットに対するフレームにおける縮小拡大されたスペクトル成分値を量子化するために必要なビット数bを計算し、そして、計算されたビット数bと縮小拡大された量子化されたスペクトル成分値を表現するのに利用可能なビット数bとの差分値から「残りのビット」数b2を計算することにより、得られたものである。
オフセットコーディングパラメータの最適値pは、上述の反復バイナリーサーチプロセスを用いてフレーム内のすべてのブロックに対して決定された。図3のグラフにおける各点は、計算された差分値bと、その後決定されたそれぞれのフレームに対するオフセットコーディングパラメータの最適値pを表す。オフセットコーディングパラメータの最適値pは、x軸上の残りのビット数bに対してy軸上に示される。経験からは、オフセットコーディングパラメータの初期値pの選択は推定した最適値pの精度に影響を与えることを示しているが、これらの結果はまた、この影響は小さくまた推定値の誤差は初期値pの選択に対して比較的鈍感であることも示している。上述のバイナリーサーチプロセスの開始オフセットとしてこの推定値pを用いることで、実験では、この反復サーチでほんの5回の反復の後、約99%のフレームのコーディングパラメータの最適値pに収束させることができ、これは、このパラメータの開始値を選択する従来の方法で用いた反復数の半分である。
図3のグラフにおける各点は、ライン沿いにしっかり群がっており、これは、ラインを点に合わせることにより導き出された線形関数E(b)から、オフセットコーディングパラメータの最適値pの正確な推定値pを得ることができることを示している。グラフに示された、群がった点の形から推定値pの分散は差分値bの正の大きな値に対して増大していることを示している。このように分散が増大することは推定値の精度が低くなることを意味するが、bが大きな正の値であることは、スペクトル成分を量子化するために用いることのできるたくさんの余剰ビットがあることを示しているので、このように推定値が不正確であることは実際の実施例ではそれほど問題にならない。そういった場合は、最適値を適当に推定することによりすべての量子化ノイズがマスクされると思われるので、コーディングパラメータの最適値を見つけることはそれほど重要ではない。
関数E(b)は、直線または曲線を点に合わせることで導き出すことができ、b2の負の値または小さな正の値に対する誤差が最小限になることに重点を置くことが好ましい。図3のグラフに示された特定の関係は、線形方程式p=E(b)=1.196・b−1.915で妥当な制度を持って近似することができる。
2.代替的技法
上述の好ましい技法では、このパラメータ真の最適値pに対するバイナリーサーチにおいて、開始値としてオフセットコーディングパラメータの推定最適値pを用いる。このサーチにより見つけた最適オフセット値pと初期マスキングカーブとが共同で、フレーム中のすべてのスペクトル成分の量子化に対するビット割り当てを計算するために用いられる。
代替的技法では、フレーム中のすべてではないが少なくともいくつかのスペクトル成分に対するビット割り当てを計算するために、推定最適値pが初期マスキングカーブとともに用いられ、フレーム中の残りのブロックに対するビット割り当てを計算するために、最適値pが初期マスキングカーブとともに用いられる。
代替的技法の1つの実施例において、フレーム中の各チャンネルの5つのブロックでスペクトル成分に対するビット割り当てを計算するために、推定値pが用いられる。この割り当てに続いて、反復法により決定された最適値pを用いて、各チャンネルの残りの1ブロックにおけるスペクトル成分に残りのビットが割り当てられる。この反復は、上述のように推定した開始値を用いることが好ましい。この技法は以下のステップを実行することにより実施することができる。
(1)オフセットコーディングパラメータの初期値を選択する
(2)初期ビット割り当てb=F(p)を計算する
(3)残りのビットb=b−bを計算する
(4)コーディングパラメータの最適値p=E(b)を推定する
(5)ビット割り当てb=F(p)を計算する
(6)オフセットpと割り当てbとを用いて1チャンネル毎に5つのブロックを量子化する
(7)残りのビットb=b−bを計算する
(8)pを開始値として用いて、残りのブロックに対する最適値pを反復法により決定する
(9)オフセットpと割り当てbとを用いて1チャンネル毎に残りのブロックを量子化する
他の実施例では、フレームのいくつかのチャンネルのすべてのブロックにおけるスペクトル成分に対するビット割り当ての計算にこの推定値を用い、そのフレームの他のチャンネルの少なくとも1つのブロックにおけるスペクトル成分に対するビット割り当ての計算に、反復法により決定された最適値pを用いる。オフセットコーディングパラメータの推定値および最適値は、スペクトル成分のそれぞれのブロックに対するビット割り当ての様々な計算方法において用いられる。上述のしたように、最適値pを決定する反復バイナリーサーチプロセスでは開始値として推定値pを用いることが好ましい。
C.実施
本発明のいろいろな特徴を組み込んだ装置は、コンピュータまたは汎用コンピュータのと類似する構成要素と結びついたディジタル信号プロセッサ(DSP)回路のような特殊な構成要素を有する他の装置により実行するソフトウェアを含むさまざまな方法で実施することができる。図4は本発明の特徴を実施するために用いることのできる装置70の概略ブロック図である。DSP72は計算資源を提供する。RAM73は信号処理のためにDSP72により用いられるシステムランダムアクセスメモリ(RAM)である。ROM74は、装置を作動させ本発明のさまざまな特徴を実行するのに必要なプログラムを記憶させるリードオンリーメモリ(ROM)のような形式の永久記憶装置を表す。I/Oコントロール75は、通信チャンネル76,77により信号の送受信を行うインターフェース回路を表す。アナログ・ディジタル変換器とディジタル・アナログ変換器を、アナログ信号の送受信の要望があれば、I/Oコントロール75に含ませてもよい。図示の実施の形態では、すべての主なシステム構成要素は、2以上の物理的なバスを示す場合もあるバス71に接続されている。しかしながら、バス構成は本発明を実行ために必要なものではない。
汎用コンピュータシステムにより実行される実施形態において、装置とのインターフェースのためのキーボードやマウス及びディスプレイ、及び磁気テープまたはディスクまたは光学媒体のような記憶媒体を有する記憶装置を制御するための付加的な構成要素を含ませることもできる。この記憶媒体はオペレーティングシステム、ユーティリティー、及びアプリケーションの命令プログラムを記憶するために用いることもでき、本発明の種々の特徴を実行するプログラムの実施の形態を含めることができる。
本発明の種々の特徴を実行するために必要な機能は、個別ロジック構成要素、集積回路、1以上のASIC及び/又はプログラム制御プロセッサを含む広くさまざまな方法により実施される。これらの構成要素を実施する方法は本発明にとって重要ではない。
本発明を実施するソフトウェアは、超音波から紫外線周波数を含むスペクトル範囲でのベース帯域通信経路又は変調された通信経路のような種々の機械的読み込み媒体、又は、磁気テープ、磁気カード又は磁気ディスク、光学カード又は光学ディスク、及び紙の上に印された検知可能なマーキングを含む、本来的な記憶技術を用いた情報伝達を行う記憶媒体により伝達することができる。
本発明のいろいろな特徴を組み込むことのできるコーディングシステムに用いられる伝送器の1実施の形態の概略ブロック線図である。 コーディングパラメータの推定値を導き出す1つの方法のプロセスフロー線図である。 ビットの計算値とコーディングパラメータの最適値との関係を示したグラフである。 本発明のいろいろな特徴を実施するために用いることのできる装置の概略ブロック線図である。

Claims (18)

  1. オーディオ信号をエンコーディングする方法であって、
    前記オーディオ信号のスペクトルの内容を表すスペクトル成分を受け取るステップと、
    前記オーディオ信号の知覚マスキング効果を表す第1のマスキングカーブを取得するために、前記スペクトル成分に知覚モデルを適用するステップと、
    第2のマスキングカーブと前記第1のマスキングカーブとの間のオフセットを特定するコーディングパラメータの推定値を導き出すステップであって、前記コーディングパラメータの推定値は、前記オーディオ信号をエンコーディングするのに役に立つビット数に応じて導き出されたものであることを特徴とするステップと、
    前記知覚モデルにより前記コーディングパラメータの最適値を探す反復プロセスにおいて、前記コーディングパラメータの推定値を修正することによりコーディングパラメータの最適値を取得するステップと、
    前記第2のマスキングカーブに従ってスペクトル成分を量子化することによりエンコードされたスペクトル成分を作るステップであって、前記コーディングパラメータの最適値により知覚モデルによる知覚できる量子化ノイズが最小限になるように、量子化の分解能が前記第1のマスキングカーブと前記コーディングパラメータに対応していることを特徴とするステップと、
    前記エンコードされたスペクトル成分の表現を出力信号に組み立てるステップと、
    を具備することを特徴とするオーディオ信号をエンコーディングする方法。
  2. 前記コーディングパラメータの推定値を導き出すステップは、
    前記コーディングパラメータの初期値を選択するステップと、
    前記スペクトル成分の量子化に用いるために前記コーディングパラメータの初期値に応じて第1のビット数を決定するステップと、
    前記第1のビット数と第3のビット数との差から第2のビット数を決定するステップであって、前記第3のビット数は、前記オーディオ信号のエンコーディングに利用可能なビット数に該当することを特徴とするステップと、
    前記コーディングパラメータの初期値とこの第2のビット数に応じて前記コーディングパラメータの推定値を導き出すステップと、
    を具備することを特徴とする請求項1に記載の方法。
  3. 前記スペクトル成分は複数のブロック内に配置され、該複数のブロックはブロックのフレーム内に配置され、エンコードされたスペクトル成分は、前記フレーム中のすべてではないが少なくともいくつかのスペクトル成分を前記コーディングパラメータの推定値に従い量子化することにより作られることを特徴とする請求項1に記載の方法。
  4. オーディオ信号をエンコーディングする方法であって、
    前記オーディオ信号のスペクトルの内容を表すスペクトル成分を受け取るステップと、
    コーディングパラメータの推定値を導き出すステップであって、前記推定値は、前記コーディングパラメータの最適値の推定値であり、
    前記コーディングパラメータの初期値を選択するステップと、
    前記コーディングパラメータの初期値に応じて、第1のビット数を決定するステップと、
    前記第1のビット数と前記オーディオ信号をエンコードするのに利用可能なビット数に該当する第3のビット数との差から第2のビット数を決定するステップと、
    前記前記コーディングパラメータの初期値と前記第2のビット数に応じてコーディングパラメータの推定値を導き出すステップと、
    により導き出されることを特徴とするステップと、
    前記コーディングパラメータに従いスペクトル成分を量子化することによりエンコードされたスペクトル成分を作るステップであって、前記コーディングパラメータの最適値により知覚モデルによる知覚できる量子化ノイズが最小限になるように、量子化の分解能が前記コーディングパラメータに対応していることを特徴とするステップと、
    前記エンコードされたスペクトル成分の表現を出力信号に組み立てるステップと、
    を具備することを特徴とするオーディオ信号をエンコーディングする方法。
  5. 前記スペクトル成分は、ブロック内に配置され、前記方法により、前記エンコードされたスペクトル成分が、コーディングパラメータの推定値に従いいくつかのブロックのスペクトル成分を量子化し、前記コーディングパラメータの最適値に従い他のブロックのスペクトル成分を量子化することにより作られ、前記コーディングパラメータの最適値は、知覚モデルに従いコーディングパラメータの最適値を探す反復プロセスを実行することにより得られることを特徴とする請求項4に記載の方法。
  6. 前記反復プロセスは、コーディングパラメータの推定値に等しい初期値から始めて前記コーディング処理の最適値を探すことを特徴とする請求項5に記載の方法。
  7. オーディオ信号をエンコーディングする方法を実行する装置において実施可能な命令のプログラムを運ぶ媒体であって、
    オーディオ信号のスペクトルの内容を表すスペクトル成分を受け取るステップと、
    オーディオ信号の知覚マスキング効果を表す第1のマスキングカーブを取得するためにスペクトル成分に知覚モデルを適用するステップと、
    第2のマスキングカーブと前記第1のマスキングカーブとの間のオフセットを特定するコーディングパラメータの推定値を導き出すステップであって、前記コーディングパラメータの推定値は、前記オーディオ信号をエンコーディングするのに役に立つビット数に応じて導き出されたものであることを特徴とするステップと、
    前記知覚モデルに従い前記コーディングパラメータの最適値を探す反復プロセスにおいて前記コーディングパラメータの推定値を修正することにより前記コーディングパラメータの最適値を取得するステップと、
    前記第2のマスキングカーブに従いスペクトル成分を量子化することによりエンコードされたスペクトル成分を作るステップであって、前記コーディングパラメータの最適値により知覚モデルによる知覚できる量子化ノイズが最小限になるように、量子化の分解能が前記第1のマスキングカーブと前記コーディングパラメータに対応していることを特徴とするステップと、
    前記エンコードされたスペクトル成分の表現を出力信号に組み立てるステップと、
    を具備することを特徴とする命令のプログラムを運ぶ媒体。
  8. 前記コーディングパラメータの推定値を導き出すステップは、
    前記コーディングパラメータの初期値を選択するステップと、
    前記スペクトル成分の量子化に用いるために前記コーディングパラメータの初期値に応じて第1のビット数を決定するステップと、
    前記第1のビット数と第3のビット数との差から第2のビット数を決定するステップであって、前記第3のビット数は、前記オーディオ信号のエンコーディングに利用可能なビット数に該当することを特徴とするステップと、
    前記コーディングパラメータの初期値とこの第2のビット数に応じて前記コーディングパラメータの推定値を導き出すステップと、
    を具備することを特徴とする請求項7に記載の媒体。
  9. 前記スペクトル成分は複数のブロック内に配置され、該複数のブロックはブロックのフレーム内に配置され、エンコードされたスペクトル成分は、前記フレーム中のすべてではないが少なくともいくつかのスペクトル成分を前記コーディングパラメータの推定値に従い量子化することにより作られることを特徴とする請求項7に記載の媒体。
  10. オーディオ信号をエンコーディングする方法を実行する装置において実施可能な命令のプログラムを運ぶ媒体であって、
    前記オーディオ信号のスペクトルの内容を表すスペクトル成分を受け取るステップと、
    コーディングパラメータの推定値を導き出すステップであって、前記推定値は、前記コーディングパラメータの最適値の推定値であり、
    前記コーディングパラメータの初期値を選択するステップと、
    前記コーディングパラメータの初期値に応じて、第1のビット数を決定するステップと、
    前記第1のビット数と前記オーディオ信号をエンコードするのに利用可能なビット数に該当する第3のビット数の差から第2のビット数を決定するステップと、
    前記前記コーディングパラメータの初期値と前記第2のビット数に応じてコーディングパラメータの推定値を導き出すステップと、
    により導き出されることを特徴とするステップと、
    前記コーディングパラメータに従いスペクトル成分を量子化することによりエンコードされたスペクトル成分を作るステップであって、前記コーディングパラメータの最適値により知覚モデルによる知覚できる量子化ノイズが最小限になるように、量子化の分解能が前記コーディングパラメータに対応していることを特徴とするステップと、
    前記エンコードされたスペクトル成分の表現を出力信号に組み立てるステップと、
    を具備することを特徴とする命令のプログラムを運ぶ媒体。
  11. 前記スペクトル成分は、ブロック内に配置され、前記方法により、前記エンコードされたスペクトル成分が、コーディングパラメータの推定値に従いいくつかのブロックのスペクトル成分を量子化し、前記コーディングパラメータの最適値に従い他のブロックのスペクトル成分を量子化することにより作られ、前記コーディングパラメータの最適値は、知覚モデルに従いコーディングパラメータの最適値を探す反復プロセスを実行することにより得られることを特徴とする請求項10に記載の媒体。
  12. 前記反復プロセスは、コーディングパラメータの推定値に等しい初期値から始めて前記コーディング処理の最適値を探すことを特徴とする請求項11に記載の媒体。
  13. オーディオ信号をエンコーディングする装置であって、
    (a)入力ターミナルと
    (b)出力ターミナルと
    (c)前記入力ターミナルと前記出力ターミナルとに接続された信号処理回路と、
    を具備し、前記信号処理回路は、
    前記入力ターミナルから信号を受け取りオーディオ信号のスペクトルの内容を表すスペクトル成分を取得するステップと、
    前記オーディオ信号の知覚マスキング効果を表す第1のマスキングカーブを取得するために、前記スペクトル成分に知覚モデルを適用するステップと、
    第2のマスキングカーブと前記第1のマスキングカーブとの間のオフセットを特定するコーディングパラメータの推定値を導き出すステップであって、前記コーディングパラメータの推定値は、前記オーディオ信号をエンコーディングするのに利用可能なビット数に応じて導き出されたものであることを特徴とするステップと、
    前記知覚モデルにより前記コーディングパラメータの最適値を探す反復プロセスにおいて、前記コーディングパラメータの推定値を修正することによりコーディングパラメータの最適値を取得するステップと、
    前記第2のマスキングカーブに従ってスペクトル成分を量子化することによりエンコードされたスペクトル成分を作るステップであって、前記コーディングパラメータの最適値により知覚モデルによる知覚できる量子化ノイズが最小限になるように、量子化の分解能が前記第1のマスキングカーブと前記コーディングパラメータに対応していることを特徴とするステップと、
    前記エンコードされたスペクトル成分の表現を出力信号に組み立てるステップと、
    を具備するよう作られることを特徴とするオーディオ信号をエンコーディングする装置。
  14. 前記コーディングパラメータの推定値を導き出すステップは、
    前記コーディングパラメータの初期値を選択するステップと、
    前記スペクトル成分の量子化に用いるために前記コーディングパラメータの初期値に応じて第1のビット数を決定するステップと、
    前記第1のビット数と第3のビット数との差から第2のビット数を決定するステップであって、前記第3のビット数は、前記オーディオ信号のエンコーディングに利用可能なビット数に該当することを特徴とするステップと、
    前記コーディングパラメータの初期値とこの第2のビット数に応じて前記コーディングパラメータの推定値を導き出すステップと、
    を具備することを特徴とする請求項13に記載の装置。
  15. 前記スペクトル成分は複数のブロック内に配置され、該複数のブロックはブロックのフレーム内に配置され、エンコードされたスペクトル成分は、前記フレーム中のすべてではないが少なくともいくつかのスペクトル成分を前記コーディングパラメータの推定値に従い量子化することにより作られることを特徴とする請求項13に記載の装置。
  16. オーディオ信号をエンコーディングする装置であって、
    (a)入力ターミナルと
    (b)出力ターミナルと
    (c)前記入力ターミナルと前記出力ターミナルとに接続された信号処理回路と、
    を具備し、前記信号処理回路は、
    前記オーディオ信号のスペクトルの内容を表すスペクトル成分を受け取るステップと、
    コーディングパラメータの推定値を導き出すステップであって、前記推定値は、前記コーディングパラメータの最適値の推定値であり、
    前記コーディングパラメータの初期値を選択するステップと、
    前記コーディングパラメータの初期値に応じて、第1のビット数を決定するステップと、
    前記第1のビット数と前記オーディオ信号をエンコードするのに利用可能なビット数に該当する第3のビット数の差から第2のビット数を決定するステップと、
    前記前記コーディングパラメータの初期値と前記第2のビット数に応じてコーディングパラメータの推定値を導き出すステップと、
    により導き出されることを特徴とするステップと、
    前記コーディングパラメータに従いスペクトル成分を量子化することによりエンコードされたスペクトル成分を作るステップであって、前記コーディングパラメータの最適値により知覚モデルによる知覚できる量子化ノイズが最小限になるように、量子化の分解能が前記コーディングパラメータに対応していることを特徴とするステップと、
    前記エンコードされたスペクトル成分の表現を出力信号に組み立てるステップと、
    を具備するよう作られていることを特徴とするオーディオ信号をエンコーディングする装置。
  17. 前記スペクトル成分は、ブロック内に配置され、前記方法により、前記エンコードされたスペクトル成分が、コーディングパラメータの推定値に従いいくつかのブロックのスペクトル成分を量子化し、前記コーディングパラメータの最適値に従い他のブロックのスペクトル成分を量子化することにより作られ、前記コーディングパラメータの最適値は、知覚モデルに従いコーディングパラメータの最適値を探す反復プロセスを実行することにより得られることを特徴とする請求項16に記載の装置。
  18. 前記反復プロセスは、コーディングパラメータの推定値に等しい初期値から始めて前記コーディング処理の最適値を探すことを特徴とする請求項17に記載の装置。
JP2007509471A 2004-04-20 2005-03-18 知覚コーディングのビット割り当てにおける複雑さを軽減した計算方法 Expired - Fee Related JP4903130B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/829,453 2004-04-20
US10/829,453 US7406412B2 (en) 2004-04-20 2004-04-20 Reduced computational complexity of bit allocation for perceptual coding
PCT/US2005/009083 WO2005106851A1 (en) 2004-04-20 2005-03-18 Reduced computational complexity of bit allocation for perceptual coding

Publications (2)

Publication Number Publication Date
JP2007534986A JP2007534986A (ja) 2007-11-29
JP4903130B2 true JP4903130B2 (ja) 2012-03-28

Family

ID=34963473

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007509471A Expired - Fee Related JP4903130B2 (ja) 2004-04-20 2005-03-18 知覚コーディングのビット割り当てにおける複雑さを軽減した計算方法

Country Status (14)

Country Link
US (1) US7406412B2 (ja)
EP (1) EP1738354B1 (ja)
JP (1) JP4903130B2 (ja)
KR (1) KR101126535B1 (ja)
CN (1) CN1942930B (ja)
AU (1) AU2005239290B2 (ja)
BR (1) BRPI0510065A (ja)
CA (1) CA2561435C (ja)
HK (1) HK1097081A1 (ja)
IL (1) IL178124A0 (ja)
MX (1) MXPA06010866A (ja)
MY (1) MY142333A (ja)
TW (1) TWI367478B (ja)
WO (1) WO2005106851A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4635709B2 (ja) * 2005-05-10 2011-02-23 ソニー株式会社 音声符号化装置及び方法、並びに音声復号装置及び方法
CN101101755B (zh) * 2007-07-06 2011-04-27 北京中星微电子有限公司 一种音频编码的比特分配及量化方法及音频编码装置
US20100080286A1 (en) * 2008-07-22 2010-04-01 Sunghoon Hong Compression-aware, video pre-processor working with standard video decompressors
CN101425293B (zh) * 2008-09-24 2011-06-08 天津大学 一种高效感知音频比特分配方法
KR101610765B1 (ko) * 2008-10-31 2016-04-11 삼성전자주식회사 음성 신호의 부호화/복호화 방법 및 장치
US8700410B2 (en) * 2009-06-18 2014-04-15 Texas Instruments Incorporated Method and system for lossless value-location encoding
KR20140017338A (ko) * 2012-07-31 2014-02-11 인텔렉추얼디스커버리 주식회사 오디오 신호 처리 장치 및 방법
CN104703093B (zh) * 2013-12-09 2018-07-17 中国移动通信集团公司 一种音频输出方法及装置
CN111933162B (zh) * 2020-08-08 2024-03-26 北京百瑞互联技术股份有限公司 一种优化lc3编码器残差编码和噪声估计编码的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202823A (ja) * 1993-11-25 1995-08-04 Sharp Corp 符号化復号化装置
JPH09274500A (ja) * 1996-04-09 1997-10-21 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化方法
JPH10116098A (ja) * 1996-09-20 1998-05-06 Deutsche Thomson Brandt Gmbh オーディオ信号を符号化又は復号化する方法及び回路配置
US5924060A (en) * 1986-08-29 1999-07-13 Brandenburg; Karl Heinz Digital coding process for transmission or storage of acoustical signals by transforming of scanning values into spectral coefficients
JP2002268693A (ja) * 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置
JP2003177797A (ja) * 2001-12-10 2003-06-27 Sharp Corp ディジタル信号符号化装置およびそれを備えたディジタル信号記録装置
US20040002859A1 (en) * 2002-06-26 2004-01-01 Chi-Min Liu Method and architecture of digital conding for transmitting and packing audio signals

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3639753A1 (de) * 1986-11-21 1988-06-01 Inst Rundfunktechnik Gmbh Verfahren zum uebertragen digitalisierter tonsignale
JP3188013B2 (ja) 1993-02-19 2001-07-16 松下電器産業株式会社 変換符号化装置のビット配分方法
KR0144011B1 (ko) 1994-12-31 1998-07-15 김주용 엠펙 오디오 데이타 고속 비트 할당 및 최적 비트 할당 방법
US5825320A (en) * 1996-03-19 1998-10-20 Sony Corporation Gain control method for audio encoding device
DE19629132A1 (de) * 1996-07-19 1998-01-22 Daimler Benz Ag Verfahren zur Verringerung von Störungen eines Sprachsignals
JP3515903B2 (ja) 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5924060A (en) * 1986-08-29 1999-07-13 Brandenburg; Karl Heinz Digital coding process for transmission or storage of acoustical signals by transforming of scanning values into spectral coefficients
JPH07202823A (ja) * 1993-11-25 1995-08-04 Sharp Corp 符号化復号化装置
JPH09274500A (ja) * 1996-04-09 1997-10-21 Matsushita Electric Ind Co Ltd ディジタルオーディオ信号の符号化方法
JPH10116098A (ja) * 1996-09-20 1998-05-06 Deutsche Thomson Brandt Gmbh オーディオ信号を符号化又は復号化する方法及び回路配置
JP2002268693A (ja) * 2001-03-12 2002-09-20 Mitsubishi Electric Corp オーディオ符号化装置
JP2003177797A (ja) * 2001-12-10 2003-06-27 Sharp Corp ディジタル信号符号化装置およびそれを備えたディジタル信号記録装置
US20040002859A1 (en) * 2002-06-26 2004-01-01 Chi-Min Liu Method and architecture of digital conding for transmitting and packing audio signals

Also Published As

Publication number Publication date
KR20070001233A (ko) 2007-01-03
IL178124A0 (en) 2006-12-31
MXPA06010866A (es) 2006-12-15
CA2561435C (en) 2013-12-24
MY142333A (en) 2010-11-15
CN1942930B (zh) 2010-11-03
WO2005106851A1 (en) 2005-11-10
EP1738354A1 (en) 2007-01-03
HK1097081A1 (en) 2007-06-15
BRPI0510065A (pt) 2007-10-16
TW200620244A (en) 2006-06-16
CA2561435A1 (en) 2005-11-10
US20050234716A1 (en) 2005-10-20
US7406412B2 (en) 2008-07-29
EP1738354B1 (en) 2013-07-24
AU2005239290A1 (en) 2005-11-10
KR101126535B1 (ko) 2012-03-23
JP2007534986A (ja) 2007-11-29
CN1942930A (zh) 2007-04-04
AU2005239290B2 (en) 2008-12-11
TWI367478B (en) 2012-07-01

Similar Documents

Publication Publication Date Title
JP4903130B2 (ja) 知覚コーディングのビット割り当てにおける複雑さを軽減した計算方法
EP2054882B1 (en) Arbitrary shaping of temporal noise envelope without side-information
EP2207169B1 (en) Audio decoding with filling of spectral holes
JP6184519B2 (ja) 音声信号復号化または符号化の時間領域レベル調整
JP4504414B2 (ja) 冗長性低減方法
JP4810422B2 (ja) 符号化装置、復号化装置、およびこれらの方法
US20080140405A1 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
IL181407A (en) Formulation of a temporary envelope for spatial roll coding using DOMAIN WEINER filtering for frequency
MXPA05007183A (es) Reduccion del costo de transmision de factores de escala para codificacion de audio avanzada mpeg-2 usando una celosia.
US7650277B2 (en) System, method, and apparatus for fast quantization in perceptual audio coders
IL216068A (en) An audio broadcast system that uses decoded signal properties to coordinate synthesized spectral components
IL165648A (en) An audio coding system that uses decoded signal properties to coordinate synthesized spectral components

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110215

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20111011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111213

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120104

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150113

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees