JP5313669B2 - ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化 - Google Patents
ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化 Download PDFInfo
- Publication number
- JP5313669B2 JP5313669B2 JP2008521648A JP2008521648A JP5313669B2 JP 5313669 B2 JP5313669 B2 JP 5313669B2 JP 2008521648 A JP2008521648 A JP 2008521648A JP 2008521648 A JP2008521648 A JP 2008521648A JP 5313669 B2 JP5313669 B2 JP 5313669B2
- Authority
- JP
- Japan
- Prior art keywords
- subband
- band
- baseband
- vector
- subbands
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title abstract description 76
- 230000003595 spectral effect Effects 0.000 claims abstract description 120
- 238000000034 method Methods 0.000 claims abstract description 65
- 238000005259 measurement Methods 0.000 claims abstract description 10
- 238000001228 spectrum Methods 0.000 claims description 28
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 230000008859 change Effects 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 2
- 239000013598 vector Substances 0.000 abstract description 193
- 230000000694 effects Effects 0.000 abstract description 7
- 230000001419 dependent effect Effects 0.000 abstract description 3
- 230000009466 transformation Effects 0.000 description 40
- 238000013139 quantization Methods 0.000 description 31
- 230000004048 modification Effects 0.000 description 14
- 238000012986 modification Methods 0.000 description 14
- 230000009471 action Effects 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000000844 transformation Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000008447 perception Effects 0.000 description 6
- 230000003044 adaptive effect Effects 0.000 description 5
- 239000000872 buffer Substances 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000002441 reversible effect Effects 0.000 description 3
- 206010021403 Illusion Diseases 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 210000000883 ear external Anatomy 0.000 description 1
- 210000000959 ear middle Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000002427 irreversible effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000010899 nucleation Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002829 reductive effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0204—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
- G10L19/0208—Subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/06—Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/24—Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Quality & Reliability (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Investigating Or Analysing Materials By Optical Means (AREA)
Description
2004年6月29日に出願した特許文献1、名称「Efficient coding of digital media spectral data using wide-sense perceptual similarity」で、スペクトル・データのある部分をコード・ベクトルのスケーリングされたバージョンとして表すことによって、スペクトル・データのコーディングを可能にするアルゴリズムが提供され、ここで、コード・ベクトルは、固定された所定のコードブック(たとえば、ノイズ・コードブック)またはベースバンドから引き出されるコードブック(たとえば、ベースバンド・コードブック)のいずれかから選択される。そのコードブックが適応的に作成されるときに、そのコードブックを、以前にエンコードされたスペクトル・データからなるものとすることができる。
図1および2は、一般化されたオーディオ・エンコーダ(100)および一般化されたオーディオ・デコーダ(200)のブロック図であり、ここで説明されている技法は、コードワードの変更(modification)および/または初期周波数セグメント化の変更(modification)を使用するオーディオ・スペクトル・データのオーディオ・エンコーディング/デコーディングである。そのエンコーダおよびデコーダ内のモジュールの間に示される関係は、そのエンコーダおよびデコーダ内の情報の主な流れを示し、他の関係は、図を単純にするために図示されていない。所望される圧縮の実装およびタイプに依存して、エンコーダまたはデコーダのモジュールは、追加し、省略し、複数のモジュールに分割し、他のモジュールと組合せ、かつ/または類似するモジュールに置換することができる。代替実施形態では、異なるモジュールおよび/またはモジュールの他の構成を有するエンコーダまたはデコーダが、知覚オーディオ品質を測定する。
一般化されたオーディオ・エンコーダ(100)は、周波数トランスフォーマ(110)、マルチ・チャネル・トランスフォーマ(120)、知覚モデラ(130)、ウエイタ(weighter)(140)、クォンタイザ(量子化器)(150)、エントロピー・エンコーダ(160)、レート/品質コントローラ(170)、およびビットストリーム・マルチプレクサ[「MUX」](180)を含む。
図2を参照すると、一般化されたオーディオ・デコーダ(200)は、ビットストリーム・デマルチプレクサ[「DEMUX」](210)、エントロピー・デコーダ(220)、逆クォンタイザ(230)、ノイズ・ジェネレータ(240)、逆ウエイタ(250)、逆マルチ・チャネル・トランスフォーマ(260)、および逆周波数トランスフォーマ(270)を含む。デコーダ(200)は、レート/品質制御に関するモジュールを含まないので、エンコーダ(100)より単純である。
図3に、図1および2の一般化されたオーディオ・エンコーダ(100)およびデコーダ(200)の全体的なオーディオ・エンコーディング/デコーディング・プロセスに組み込むことができる、広義知覚類似性などの、適応サブバンド構成および/または変更されたコードワードを用いるエンコーディングを使用するオーディオ・エンコーダ(300)の一実装を示す。この実装では、オーディオ・エンコーダ(300)は、サブバンド変換またはMDCTもしくはMLTなどのオーバーラップした直交変換のいずれかを使用することによって、変換(320)でスペクトル分解を実行して、オーディオ信号の入力ブロックごとにスペクトル係数の一つの集合を作る。周知のように、オーディオ・エンコーダは、デコーダに出力ビットストリームの形で送るために、これらのスペクトル係数をコーディングする。これらのスペクトル係数の値のコーディングが、オーディオ・コーデックで使用されるビットレートのほとんどを構成する。低ビットレートでは、オーディオ・エンコーダ(300)は、ベースバンド・コーダ(340)を使用して、スペクトルの下側部分すなわちベースバンド部分など、より少数のスペクトル係数(すなわち、周波数トランスフォーマ(110)から出力されるスペクトル係数の、帯域幅のあるパーセンテージでエンコードできる個数の係数)をコーディングするように選択する。ベースバンド・コーダ(340)は、上で一般化されたオーディオ・エンコーダに関して説明したように、周知のコーディング構文を使用して、これらのベースバンド・スペクトル係数をエンコードする。これは、一般に、マッフルされて(mauffled)、または低域フィルタリングされて聞こえる、再構成されたオーディオをもたらす。
図4は、拡張バンド・スペクトル係数をエンコードするために図3の拡張バンドコーダ(350)によって実行されるオーディオ・エンコーディング・プロセス(400)を示す流れ図である。このオーディオ・エンコーディング・プロセス(400)では、拡張バンド・コーダ(350)は、拡張バンド・スペクトル係数を複数のサブバンドに分割する。通常の実装では、これらのサブバンドは、一般に、それぞれ64個または128個のスペクトル係数からなる。代替として、他のサイズのサブバンド(たとえば、16個、32個、または他の個数のスペクトル係数)を使用することができる。拡張バンド・エンコーダが、サブバンドのサイズを変更する可能性を提供する場合には、拡張バンド構成プロセス(360)が、サブバンドを変更し、拡張バンド構成をエンコードする。サブバンドは、互いに素とすることができ、あるいは、オーバーラップする(ウィンド・ウイングを使用する)ものとすることができる。オーバーラップするサブバンドを用いると、より多くのバンドがコーディングされる。たとえば、128個のスペクトル係数を、サイズ64のサブバンドを用いて拡張バンド・コーダを使用してコーディングしなければならない場合に、この方法は、係数をコーディングするのに2つの互いに素なバンドを使用し、係数0から63を一方のサブバンドとして、係数64から127を他方のサブバンドとしてコーディングする。代替として、50%オーバーラップを有する3つのオーバーラップするバンドを使用し、0から63を1つのバンド、32から95をもう1つのバンド、64から127を第3のバンドとしてコーディングすることができる。サブバンドの周波数セグメント化のさまざまな他の動的方法を、本明細書で後で述べる。
図5に、オーディオ・エンコーダ(300)によって作られたビットストリーム用のオーディオ・デコーダ(500)を示す。このデコーダでは、エンコードされたビットストリーム(205)が、ビットストリーム・デマルチプレクサ(210)によってベースバンド・コード・ストリームおよび拡張バンド・コード・ストリームに逆多重化され(たとえば、コーディングされたベースバンド幅および拡張バンド構成に基づいて)、このベースバンド・コード・ストリームおよび拡張バンド・コード・ストリームは、ベースバンド・デコーダ(540)および拡張バンド・デコーダ(550)内でデコードされる。ベースバンド・デコーダ(540)は、ベースバンド・コーデックの従来のデコーディングを使用して、ベースバンド・スペクトル係数をデコードする。拡張バンド構成デコーダ(545)は、デフォルト・バンド構成からの最適化が利用される場合に、最適化されたバンド・サイズをデコードする。拡張バンド・デコーダ(550)は、拡張バンド・コード・ストリームを、形状パラメータ(および動きベクトルによってポイントされる係数の線形変換または非線形変換に関するすべての任意選択の情報)の動きベクトルによってポイントされるオリジナルのまたは変換されたベースバンド・スペクトル係数(または任意の以前のバンドもしくはコードブック)の1つまたは複数の部分をコピーオーバーすることによって、スケール・パラメータのスケーリング係数によってスケーリングすることによって、を含み、デコードする。ベースバンド・スペクトル係数および拡張バンド・スペクトル係数は、単一のスペクトルに組み合わされ、この単一のスペクトルが、逆変換580によって変換されて、オーディオ信号が再構成される。
図7は、スペクトル係数の一つの集合を表すグラフである。たとえば、係数(複数)(700)は、オーディオ信号の入力ブロックごとにスペクトル係数の一つの集合を作る、ある変換、またはMDCTもしくはMCTなどのオーバーラップした直交変換の、出力である。
図8は、コードワードと、そのコードワードのさまざまな線形変換および非線形変換とを示すグラフである。たとえば、コードワード(802)は、ベースバンド、固定コードブック、および/またはランダムに生成されたコードワードからのものである。さまざまな線形変換および非線形変換が、コーディングされるベクトルをマッチングさせる際に最良の形状を識別するための形状のより大きいまたはより多様な集合を得るために、ライブラリ内の1つまたは複数のコードワードに対して実行される。1つの例で、コードワードは、形状マッチング用の別のコードワードを得るために、係数順序において逆転(804)される。係数値<1,1.5,2.2,3.2>を含むコードワードの逆は、<3.2,2.2,1.5,1>になる。もう1つの例で、コードワードのダイナミック・レンジまたは変動が、各係数で1未満の指数を用いる累乗を使用して減らされる(806)。同様に、図示されていないが、コードワードの変動は、1より大きい指数を使用して誇張される(たとえば、増大する変動)。たとえば、係数<1,1,2,1,4,2,1>を含むコードワードを2乗して、コードワード<1,1,4,1,16,4,1>を作成する。もう1つの例で、コードワード<−1,1,2,3>(802)の係数が、<1,−1,−2,−3>(808)にネゲート(negate)される。もちろん、サブバンドのマッチング用のより大きいまたはより多様なユニバースまたはライブラリあるいは他のベクトルを提供するために、多数の他の線形変換および非線形変換(たとえば、806)を、1つまたは複数のコードワードに対して実行することができる。さらに、使用可能な形状のより高い多様性をもたらすために、1つまたは複数の変換を、組み合わせてコードワードに適用することもできる。
1つの例で、2つの異なるコードワードが、サブバンド・エンコーディングを提供するのに利用される。たとえば、長さuの2つのコードワードbおよびnを与えられて、コーディングされるサブバンドをよりよく記述するために、b=<b0,b1,...bu>およびn=<n0,n1,...nu>が提供される。ベクトルbは、ベースバンド、任意の以前のバンド、ノイズ・コードブック、またはライブラリからとすることができ、ベクトルnは、同様に、任意のそのようなソースからとすることができる。デコーダが、暗黙のうちにまた明示的に、コードワードbおよびnからどの係数をとるべきかを知るように、2つのあるいはそれ以上のコードワードbおよびnのそれぞれから係数をインターリーブするルールを提供する。このルールは、ビットストリーム内で提供することができ、あるいは、暗黙のうちにデコーダによって知られるものとすることができる。
低ビットレート応用例など、ある種の条件の下で、ベースバンド自体が、良好にコーディングされない場合がある(たとえば、複数の連続する0係数または0が混在する係数)。1つのそのような例で、ベースバンドは、強度のピークを良好に表すが、ピークの間のより低い強度を表す係数での微妙な変化を良好には表さない。そのような場合に、ベースバンド自体からのコードワードのピークが、第1ベクトル(たとえば、b)として選択され、0の係数または非常に低い相対的な係数が、ピークの間の低いエネルギーに非常によく似た第2ベクトル(たとえば、n)と置換される。したがって、この2つのコードワード法を、ベースバンドまたはそのベースバンドのサブバンドで使用して、ベースバンド・エンハンスメントをもたらすことができる。前と同様に、第1または第2のベクトルから選択するのに使用されるルールは、明示的でありデコーダに送られるものとすることができ、あるいは、暗黙とすることができる。いくつかの場合に、第2のベクトルは、ノイズ・コードワードを介して最もよく提供することができる。
ベースバンド、以前のバンド、または他のコードブックは、連続する係数のライブラリを提供し、各係数は、潜在的に、コードワードとして働くことができる連続する係数の系列の最初の係数として働く。ライブラリ内の最良マッチングのコードワードが、識別され、スケール係数と一緒にデコーダに送られ、デコーダによって、拡張サブバンド内のサブバンドを作成するのに使用される。
「エンベロープ」と呼ばれる信号(たとえば、Env(i))は、以下に示すように、入力信号x(i)(たとえば、オーディオ、ビデオなど)に対して加重平均を実行することによって生成される。
コード・ベクトルからなるコードブックを与えられると、そのコードブック内のコード・ベクトルがコーディングされるベクトルをよりよく表すようにする、それらのコード・ベクトルの変更が試みられる。コードブック/コードワード変更は、次の変換のうちの1つまたは複数の任意の組合せからなるものとすることができる。
(2)新しいベクトルを形成するための2つ(またはそれより多数)のベクトルの組合せ、ここで、2つのベクトルのそれぞれは、ベクトルのうちで異なる特性を有する部分を表すのに使用される、および
(3)ベース・コーディングを用いるコード・ベクトルの組合せ。次の議論では、vは、コーディングされるベクトルを表すのに使用され、xは、vをコーディングするのに使用されるコード・ベクトルまたはコードワードであり、yは、変更されたコード・ベクトルである。ベクトルvは、近似v’=Sxを使用してコーディングされ、Sはスケール係数である。使用されるスケール係数は、vとxとの間のパワーの比の量子化されたバージョンである。
第1の例は、コード・ベクトルの各要素に指数を適用することからなる。表3に、コードワードの係数の系列の非線形変換を示す。
ここで、‘j’は、要素インデックスである。この非線形変換は、1未満のpの値を使用することによって、ピークを有しないベクトルをコーディングするのに、ピークを有するコード・ベクトルを使用することを可能にする。同様に、この非線形変換は、p>1を使用することによって、ピークを有するコード・ベクトルを表すのに、ピーキーでないコード・ベクトルを使用することを可能にする。
もう1つの変換は、新しいコード・ベクトルを形成するために複数のベクトル(multiple vectors)を組み合わせる。これは、本質的に複数ステージ・コーディング(multistage coding)であり、各ステージでは、まだコーディングされていないベクトルの最も重要な部分と最もよくマッチングするマッチングが見つけられる。2つのベクトルに関する例として、まず、最良マッチングを見つけ、次に、ベクトルのどの部分が良好にコーディングされているかを調べる。このセグメント化は、明示的に送ることができるが、これが、多すぎるビットを要する場合がある。したがって、セグメント化は、1つの例ではベクトルのどの部分を使用するかを示すことによって、暗黙のうちに提供される。残りの部分は、ランダム・コード・ベクトルまたは残りの要素をよりよく表すコードブックからの別のコード・ベクトルのいずれかを使用して表される。xが、第1コード・ベクトルであり、wが、第2コード・ベクトルであるものとする。集合Tが、第1コード・ベクトルを使用してコーディングされなければならないと考えられる、ベクトルの部分を指定するものとする。集合Tの濃度は、0とLとの間になる、すなわち、集合Tは、この第1コード・ベクトルを使用してコーディングされなければならないと考えられるベクトルのインデックスを表す0個とL個との間の要素を有する。どの要素が第1ベクトルによって良好に表されるかを算定するルールを提供し、このルールは、潜在的な係数が第1ベクトルの最大の係数のあるパーセンテージより大きいかどうかを決定するなど、メトリックスを使用することができる。したがって、第1ベクトルの最大係数のあるパーセンテージ以内の第1ベクトルのすべての係数について、その係数は、第1ベクトルからとられ、そうでない場合には、そのコードワード係数は、第2コードワードからとられる。Mが、第1コード・ベクトルxの最大値であるものとする。すると、集合Tを、
T={j:x[j]>aM,j=0,1,...L−1}
を使用して定義することができ、ここで、‘a’は、0と1との間のある定数である。たとえば、a=0の場合に、すべての非0値は、コーディングされたベクトルの集合Tに属すると考えられる。a=1−εの場合には、εが十分に小さくなるようにとられているならば、最大値自体だけをコーディングしなければならないと考えられる。すると、集合Tを与えられて、集合Nは、次のようにベクトルwからとられる相補的な残りの集合である。
したがって、x[j]の係数は、aMの値に依存してxまたはwからとられる。NまたはTを、3つ以上のベクトルを得るために他の類似するルールを使用してさらに分割することができることに留意されたい。第1コード・ベクトル(x)および第2コード・ベクトル(w)を使用してインデックス・コーディングされた複数の集合としてTおよびNを与えられて、新しいベクトルyは、
複数コード・ベクトル(multi codevectors)(たとえば、複数コードワード(multi -codewords))の代替バージョンは、ある選択された係数について第1コード・ベクトルに置換するのではなく、第1コード・ベクトルを追加する。これは、次の式を適用することによって行うことができる。
この例では、コード・ベクトルが、ベース・コーディングと組み合わされる。これは、第1ベクトルxが、コーディングされるベクトルであり、かつ、それ自体をエンコードするための2つのベクトルのうちの1つとしてそれ自体が使用されるということを除いて、2ベクトル(または複数ベクトル(multi vector))手法に似ている。たとえば、ベース・コーディングはこれらの係数を含むように変更され、そこでは、ベース・コーディングが良好に動作し、、よりよい係数が、前と同様に第2ベクトルからとられる。コーディングされるベクトル(サブバンド)ごとに、ベース・コーディングが既に存在する場合に、このベース・コーディングは、複数ベクトル方式(multi-vector scheme)の第1ベクトルになり、領域TおよびN(またはより多くの領域)にセグメント化される。このセグメント化(たとえば、係数選択)は、複数コード・ベクトル手法(multi code-vector approach)と同一の技法を使用してもたらすことができる。
0,...,T−1の間のいくつかのKについて、
N={j:x[j−K]≦aM && x[j−K+1]≦aM && K && x[j−K+T−1]≦aM, j=0,1,...,L−1}
したがって、x[j]が集合Nに含まれるためには、x[j]は、T個の連続する係数のグループの一部でなければならず、この係数のすべてが、(aM)以下の値を有する。これは、2ステップで、すなわち、まず値が閾値未満であるかどうかを係数ごとに計算することと、次にこれらが「連続」要件を満足するかどうかを調べるためにこれらを一緒にグループ化することとによって、計算することができる。サイズTの真のスペクトルの穴について、a=0である。最小周波数制約などの他の条件は、集合Nに属するためにはj>Tminfreqであるという追加の制約を追加する。
よい周波数セグメント化は、スペクトル・データのエンコーディングの品質に重要である。セグメント化は、スペクトル・データを、サブバンドまたはベクトルと呼ばれる単位に分割することを伴う。単純なセグメント化は、スペクトルを所望の個数の均一のセグメントまたはサブバンドに均一に分割することである。均一セグメント化は、準最適である場合がある。より大きいサブバンド・サイズを用いて表現できるスペクトルの領域がある場合があり、他の領域は、より小さいサブバンド・サイズを用いてよりよく表される。スペクトル・データ強度依存セグメント化を提供するさまざまな特徴を、説明する。より細かいセグメント化を、より大きいスペクトル変動を有する領域について提供し、より粗いセグメント化を、より均一な領域について提供する。たとえば、デフォルト・セグメント化または初期セグメント化を、最初に提供し、最適化または後続構成が、スペクトル・データ変動の強度に基づいてセグメント化を変更する。
スペクトル・データは、最初にサブバンドにセグメント化される。任意選択で、初期セグメント化を変更して、最適セグメント化または後続セグメント化を作ることができる。2つのそのような初期セグメント化またはデフォルト・セグメント化を、均一分割セグメント化および不均一分割構成と呼ぶ。上記および他のサブバンド構成を、最初にまたはデフォルトで提供することができる。任意選択で、初期構成またはデフォルト構成を再構成して、後続サブバンド構成を提供することができる。
したがって、デフォルト不均一バンド・サイズ・マルチプライヤは、分割構成であり、ここで、バンド・サイズは、単調非減少である(最初の少数のサブバンドは、より小さく、より高い周波数のサブバンドは、より大きい)。より高い周波数のサブバンドは、しばしば、元来より小さいバリエーションを有し、したがって、より少数のより大きいサブバンドが、それらのバンドのスケールおよび形状を取り込むことができる。さらに、より高い周波数のサブバンドは、より少ないエネルギーを有し、知覚的に重要性がより低いので、全体的な知覚的歪みにおいてより低い重要性を有する。均一分割も、すべてのjについてa[j]=1であることを除いて、サブバンド・マルチプライヤを使用して説明できることに留意されたい。
デフォルト・セグメント化(均一セグメント化または不均一セグメント化など)から開始して、サブバンドは、最適化されたセグメント化または後続セグメント化を得るために分割され、またはマージされる。1つのサブバンドを2つのサブバンドに分割するか、あるいは2つのサブバンドを1つのサブバンドにマージするかに関する判断を行う。分割するかマージするかの判断は、サブバンドにまたがる変化の強度の測定値など、初期サブバンド内のスペクトル・データのさまざまな特性に基づくものとすることができる。1つの例では、サブバンド内の調性またはスペクトルの平坦度などのサブバンド・スペクトル・データ特性に基づいて、分割するかマージするかの判断を行う。
サブバンドが分割され、かつまたはマージされた後に、オリジナルの最小のサブバンド・サイズと新しい最小のサブバンド・サイズとの間の比が、計算される。minRatioBandSize=max(1,オリジナルの最小サブバンド・サイズ/新しい最小サブバンド・サイズ)として比が定義される。次に、最小のサイズ(たとえば、サブバンド内の係数の個数)を有する最適化されたサブバンドが、1のサブバンド・マルチプライヤを割り当てられ、他のサブバンド・サイズは、round(このサブバンド・サイズ/最小サブバンド・サイズ)としてセットされるバンド・マルチプライヤを有する。したがって、サブバンド・マルチプライヤは、1以上の整数であり、minRatioBandSizeも、1以上の整数である。サブバンド・マルチプライヤは、本質的に、テーブルレス可変長コードを使用して、期待されるサブバンド・マルチプライヤと最適化されたサブバンド・マルチプライヤとの間の差をコーディングすることによってコーディングされる。0の差は、1ビットを用いてコーディングされ、0を超える15個の最小の可能な差のうちの1つである差は、5ビットを用いてコーディングされ、残りの差は、テーブルレス・コードを使用してコーディングされる。
さらに、分割/マージの後に、次の最適化されたサブバンド構成が、表5に示されているように作成されると仮定する。
図14は、サブバンド・サイズ変換の例示的な系列の図である。たとえば、表5のサブバンド・サイズは、図14の変換を介して表4から達成することができる。
a[j]=(sa[j+1]−sa[j])/ma
ここで、‘r’は、minRatioBandSizeであり、a[j]は、第‘j’バンドのバンド・マルチプライヤである。第‘j’バンドの期待されるマルチプライヤを計算するためには、まず、実際のバンドの開始位置を含むデフォルト・バンド構成のインデックス‘i’を計算する。次に、第‘j’バンドの期待されるマルチプライヤになるaexpected[j]を計算する。これは、次のように計算することができる。
aexpected[j]=(sd[i+1]−sa[j])/ma
あるバンドが、分割またはマージされない場合に、期待されるバンド・マルチプライヤが、実際のバンド・マルチプライヤと同一になることに留意されたい。また、sd[i+1]がsa[j+1]と同一である限り、期待されるバンド・マルチプライヤは、実際のバンド・マルチプライヤと同一になる。
図15に、例示的な実施形態を実施できる適切なコンピューティング環境(1500)の一般化された例を示す。コンピューティング環境(1500)は、本発明を別個の汎用のまたは特殊目的のコンピューティング環境で実装できるので、本発明の使用または機能性の範囲に関する限定を暗示することを意図されたものではない。
Claims (16)
- オーディオ信号を符号化する方法であって、
前記オーディオ信号の入力ブロックをスペクトル・データに変換することと、
ここで、前記スペクトル・データは、ベースバンド部と拡張バンド部とを有し、
前記スペクトル・データのうちの前記ベースバンド部をコーディングして出力ビットストリームに含ませることと、
前記スペクトル・データのうちの前記拡張バンド部で、スペクトル・データの特性を決定することと、
ここで、スペクトル・データの特性は、調性、エネルギー、または形状のうちの少なくとも1つの測定値を含み、
前記決定されたスペクトル・データの特性を使用して、前記拡張バンド部を複数のサブバントにセグメント化することによって、初期の構成のサブバンドのサイズを変更することと、
ここで、前記初期の構成のサブバンドのサイズを変更することは、前記ベースバンド部の複数のセグメントを使用して、該ベースバンド部のどの部分が前記拡張バンド部内のデータに最も似ているかを決定することを含み、
前記初期の構成から変更された、前記拡張バンド部内の個々のサブバンドを示すデータからなる、サブバンドのサイズが変更された構成部分をコーディングすることと
を具えたことを特徴とする方法。 - 前記スペクトル・データは、変換領域の複数の係数を具え、前記変更された構成部分は、個々のサブバンドがサイズにおいて初期の構成からどれほど異なるかを示す各差分値を具えたことを特徴とする請求項1記載の方法。
- 前記初期の構成は、均一分割構成または不均一分割構成であることを特徴とする請求項1記載の方法。
- バンド構成がデフォルトまたは最適化済みのどちらであるかの符号用に第1ビットが提供され、前記初期の構成が均一分割構成または不均一分割構成のどちらであるかの符号用に第2ビットが提供されることを特徴とする請求項2記載の方法。
- 前記変更された構成部分は、最小のサブバンド・サイズに対するサブバンド・サイズの相対比を反映するサブバンド・マルチプライヤを具えたことを特徴とする請求項1記載の方法。
- 前記変更された構成部分は、前記初期の構成からのサブバンドの分割およびマージを反映するサブバンド・マルチプライヤを具えたことを特徴とする請求項1記載の方法。
- 前記初期の構成は、調性に少なくとも部分的に基づいて変更され、前記方法は、
前記オーディオ信号を周波数変換ブロックに変換すること、
隣接する周波数変換ブロックの時間平均をとること、
前記時間平均をとられた隣接する周波数変換ブロックを中央値フィルタリングすることによって中央値フィルタリングされた値を決定すること、
前記時間平均をとられた隣接する周波数変換ブロックを前記中央値フィルタリングされた値と比較して、調性測定値を得ることと、
前記隣接する周波数変換ブロックに関係付けられる対応するサブバンドを決定すること、および
前記調性測定値が、絶対閾値、前記中央値フィルタリングされた値の所与のパーセンテージ、または前記中央値フィルタリングされた値の局所標準偏差のパーセンテージによって表すことができる閾値を超える場合に、前記対応するサブバンドに調性特性を割り当てること
をさらに具えたことを特徴とする請求項1記載の方法。 - 前記調性特性は、前記対応するサブバンドを分割しまたはマージするか否かを決定するのに使用される要因のうちの少なくとも1つであることを特徴とする請求項7記載の方法。
- 隣接するサブバンドのエネルギーの比が、前記初期の構成を変更するか否かを少なくとも部分的に決定することを特徴とする請求項1記載の方法。
- 前記サブバンドの形状差が、サブバンドを分割するか否かを少なくとも部分的に決定することを特徴とする請求項1記載の方法。
- 個々のサブバンドを2つのサブバンドに分割するとの判断が、前記2つの分割されたサブバンドが前記個々のサブバンドより閾値量だけ少ない平均二乗ユークリッド差を有するときに少なくとも部分的に行われることを特徴とする請求項1記載の方法。
- 前記変更された構成部分のコーディングは、さらに、最小比サブバンド・サイズをコーディングすることを具え、
前記最小比サブバンド・サイズは、オリジナルの最小のサブバンド・サイズと、分割又はマージされた最小のサブバンド・サイズとの間の比であることを特徴とする請求項1記載の方法。 - オーディオ・エンコーダ装置であって、
オーディオ信号の入力ブロックをスペクトル・データに変換するトランスフォーマと、
ここで、前記スペクトル・データは、ベースバンド部と拡張バンド部とを有し、
前記スペクトル・データのうちの前記ベースバンド部をコーディングして出力ビットストリームに含ませるベースコーダと、
拡張バンド・コーダと
を具え、該拡張バンド・コーダは、
前記スペクトル・データのうちの前記拡張バンド部で、スペクトル・データの特性を決定することと、
ここで、スペクトル・データの特性は、調性、エネルギー、または形状のうちの少なくとも1つの測定値を含み、
前記決定されたスペクトル・データの特性を使用して、前記拡張バンド部を複数のサブバントにセグメント化することによって、初期の構成のサブバンドのサイズを変更することと、
ここで、前記初期の構成のサブバンドのサイズを変更することは、前記ベースバンド部の複数のセグメントを使用して、該ベースバンド部のどの部分が前記拡張バンド部内のデータに最も似ているかを決定することを含み、
前記初期の構成から変更された、前記拡張バンド部内の個々のサブバンドを示すデータからなる、サブバンドのサイズが変更された構成部分をコーディングすることと
を実行するように構成されたことを特徴とするオーディオ・エンコーダ装置。 - 前記スペクトル・データは、変換領域の複数の係数を具え、前記変更された構成部分は、個々のサブバンドがサイズにおいて初期の構成からどれほど異なるかを示す各差分値を具えたことを特徴とする請求項13記載のオーディオ・エンコーダ装置。
- コンピュータにより、請求項1ないし12のいずれかに記載の方法を実行することが可能な命令を有するコンピュータプログラム。
- 請求項15記載のコンピュータプログラムを有するコンピュータ読取り可能な記録媒体。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/183,087 US7630882B2 (en) | 2005-07-15 | 2005-07-15 | Frequency segmentation to obtain bands for efficient coding of digital media |
US11/183,087 | 2005-07-15 | ||
PCT/US2006/027420 WO2007011749A2 (en) | 2005-07-15 | 2006-07-14 | Frequency segmentation to obtain bands for efficient coding of digital media |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013087698A Division JP5658307B2 (ja) | 2005-07-15 | 2013-04-18 | ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009501945A JP2009501945A (ja) | 2009-01-22 |
JP5313669B2 true JP5313669B2 (ja) | 2013-10-09 |
Family
ID=37662734
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008521648A Active JP5313669B2 (ja) | 2005-07-15 | 2006-07-14 | ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化 |
JP2013087698A Active JP5658307B2 (ja) | 2005-07-15 | 2013-04-18 | ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013087698A Active JP5658307B2 (ja) | 2005-07-15 | 2013-04-18 | ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化 |
Country Status (14)
Country | Link |
---|---|
US (1) | US7630882B2 (ja) |
EP (1) | EP1904999B1 (ja) |
JP (2) | JP5313669B2 (ja) |
KR (1) | KR101343267B1 (ja) |
CN (1) | CN101223570B (ja) |
AU (1) | AU2006270171B2 (ja) |
CA (2) | CA2610595C (ja) |
EG (1) | EG26092A (ja) |
IL (1) | IL187883A (ja) |
MX (1) | MX2008000523A (ja) |
NO (1) | NO20076259L (ja) |
NZ (1) | NZ564311A (ja) |
WO (1) | WO2007011749A2 (ja) |
ZA (1) | ZA200711042B (ja) |
Families Citing this family (54)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7240001B2 (en) | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
ES2297083T3 (es) | 2002-09-04 | 2008-05-01 | Microsoft Corporation | Codificacion entropica por adaptacion de la codificacion entre modos por longitud de ejecucion y por nivel. |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US7953605B2 (en) * | 2005-10-07 | 2011-05-31 | Deepen Sinha | Method and apparatus for audio encoding and decoding using wideband psychoacoustic modeling and bandwidth extension |
US20070270987A1 (en) * | 2006-05-18 | 2007-11-22 | Sharp Kabushiki Kaisha | Signal processing method, signal processing apparatus and recording medium |
KR100868763B1 (ko) * | 2006-12-04 | 2008-11-13 | 삼성전자주식회사 | 오디오 신호의 중요 주파수 성분 추출 방법 및 장치와 이를이용한 오디오 신호의 부호화/복호화 방법 및 장치 |
JP5171842B2 (ja) * | 2006-12-12 | 2013-03-27 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法 |
ES2404408T3 (es) * | 2007-03-02 | 2013-05-27 | Panasonic Corporation | Dispositivo de codificación y método de codificación |
KR101355376B1 (ko) * | 2007-04-30 | 2014-01-23 | 삼성전자주식회사 | 고주파수 영역 부호화 및 복호화 방법 및 장치 |
US8046214B2 (en) | 2007-06-22 | 2011-10-25 | Microsoft Corporation | Low complexity decoder for complex transform coding of multi-channel sound |
US7885819B2 (en) | 2007-06-29 | 2011-02-08 | Microsoft Corporation | Bitstream syntax for multi-process audio decoding |
ES2704286T3 (es) * | 2007-08-27 | 2019-03-15 | Ericsson Telefon Ab L M | Método y dispositivo para la descodificación espectral perceptual de una señal de audio, que incluyen el llenado de huecos espectrales |
US8249883B2 (en) | 2007-10-26 | 2012-08-21 | Microsoft Corporation | Channel extension coding for multi-channel source |
US8352249B2 (en) * | 2007-11-01 | 2013-01-08 | Panasonic Corporation | Encoding device, decoding device, and method thereof |
CA2704807A1 (en) | 2007-11-06 | 2009-05-14 | Nokia Corporation | Audio coding apparatus and method thereof |
CN101896967A (zh) * | 2007-11-06 | 2010-11-24 | 诺基亚公司 | 编码器 |
US20100250260A1 (en) * | 2007-11-06 | 2010-09-30 | Lasse Laaksonen | Encoder |
CN101868821B (zh) * | 2007-11-21 | 2015-09-23 | Lg电子株式会社 | 用于处理信号的方法和装置 |
CA2708861C (en) * | 2007-12-18 | 2016-06-21 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
KR20090110244A (ko) * | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치 |
KR101599875B1 (ko) * | 2008-04-17 | 2016-03-14 | 삼성전자주식회사 | 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치 |
KR20090110242A (ko) * | 2008-04-17 | 2009-10-21 | 삼성전자주식회사 | 오디오 신호를 처리하는 방법 및 장치 |
US8179974B2 (en) | 2008-05-02 | 2012-05-15 | Microsoft Corporation | Multi-level representation of reordered transform coefficients |
US8406307B2 (en) | 2008-08-22 | 2013-03-26 | Microsoft Corporation | Entropy coding/decoding of hierarchically organized data |
KR101301245B1 (ko) * | 2008-12-22 | 2013-09-10 | 한국전자통신연구원 | 스펙트럼 계수의 서브대역 할당 방법 및 장치 |
US8526756B2 (en) * | 2009-04-09 | 2013-09-03 | Freescale Semiconductor, Inc. | Method and system arranged for filtering an image |
WO2010150767A1 (ja) * | 2009-06-23 | 2010-12-29 | 日本電信電話株式会社 | 符号化方法、復号方法、それらの方法を用いた装置、プログラム |
WO2011048820A1 (ja) | 2009-10-23 | 2011-04-28 | パナソニック株式会社 | 符号化装置、復号装置およびこれらの方法 |
US20110257978A1 (en) * | 2009-10-23 | 2011-10-20 | Brainlike, Inc. | Time Series Filtering, Data Reduction and Voice Recognition in Communication Device |
WO2012008891A1 (en) * | 2010-07-16 | 2012-01-19 | Telefonaktiebolaget L M Ericsson (Publ) | Audio encoder and decoder and methods for encoding and decoding an audio signal |
US9236063B2 (en) * | 2010-07-30 | 2016-01-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for dynamic bit allocation |
WO2012037515A1 (en) | 2010-09-17 | 2012-03-22 | Xiph. Org. | Methods and systems for adaptive time-frequency resolution in digital data coding |
US8924200B2 (en) * | 2010-10-15 | 2014-12-30 | Motorola Mobility Llc | Audio signal bandwidth extension in CELP-based speech coder |
WO2012122297A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Methods and systems for avoiding partial collapse in multi-block audio coding |
WO2012122299A1 (en) * | 2011-03-07 | 2012-09-13 | Xiph. Org. | Bit allocation and partitioning in gain-shape vector quantization for audio coding |
WO2012122303A1 (en) | 2011-03-07 | 2012-09-13 | Xiph. Org | Method and system for two-step spreading for tonal artifact avoidance in audio coding |
CN104040624B (zh) * | 2011-11-03 | 2017-03-01 | 沃伊斯亚吉公司 | 改善低速率码激励线性预测解码器的非语音内容 |
US9161035B2 (en) * | 2012-01-20 | 2015-10-13 | Sony Corporation | Flexible band offset mode in sample adaptive offset in HEVC |
BR122021018240B1 (pt) | 2012-02-23 | 2022-08-30 | Dolby International Ab | Método para codificar um sinal de áudio multicanal, método para decodificar um fluxo de bits de áudio codificado, sistema configurado para codificar um sinal de áudio, e sistema para decodificar um fluxo de bits de áudio codificado |
EP2693431B1 (en) * | 2012-08-01 | 2022-01-26 | Nintendo Co., Ltd. | Data compression apparatus, data compression program, data compression method and data compression/decompression system |
JP6021498B2 (ja) | 2012-08-01 | 2016-11-09 | 任天堂株式会社 | データ圧縮装置、データ圧縮プログラム、データ圧縮システム、データ圧縮方法、データ伸張装置、データ圧縮伸張システム、および圧縮データのデータ構造 |
WO2014053518A1 (en) | 2012-10-01 | 2014-04-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Scalable video coding using subblock-based coding of transform coefficient blocks in the enhancement layer |
CN105976824B (zh) * | 2012-12-06 | 2021-06-08 | 华为技术有限公司 | 信号解码的方法和设备 |
JP6224233B2 (ja) | 2013-06-10 | 2017-11-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 分配量子化及び符号化を使用したオーディオ信号包絡の分割によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 |
JP6224827B2 (ja) | 2013-06-10 | 2017-11-01 | フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン | 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法 |
JP2016038435A (ja) * | 2014-08-06 | 2016-03-22 | ソニー株式会社 | 符号化装置および方法、復号装置および方法、並びにプログラム |
EP2993665A1 (en) * | 2014-09-02 | 2016-03-09 | Thomson Licensing | Method and apparatus for coding or decoding subband configuration data for subband groups |
CN104282311B (zh) * | 2014-09-30 | 2018-04-10 | 武汉大学深圳研究院 | 一种音频编码带宽扩展中子带划分的量化方法及装置 |
CN105632503B (zh) * | 2014-10-28 | 2019-09-03 | 南宁富桂精密工业有限公司 | 信息隐藏方法及系统 |
JP2016153933A (ja) * | 2015-02-20 | 2016-08-25 | 株式会社リコー | 画像処理装置、画像処理システム、画像処理方法、プログラム、及び記録媒体 |
WO2017125559A1 (en) | 2016-01-22 | 2017-07-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatuses and methods for encoding or decoding an audio multi-channel signal using spectral-domain resampling |
US10699723B2 (en) * | 2017-04-25 | 2020-06-30 | Dts, Inc. | Encoding and decoding of digital audio signals using variable alphabet size |
CN107037262B (zh) * | 2017-04-25 | 2020-02-11 | 成都玖锦科技有限公司 | 一种大数据频谱分析系统及其方法 |
CN111901271B (zh) * | 2020-05-13 | 2021-08-31 | 华中科技大学 | 一种数据传输方法及装置 |
Family Cites Families (96)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5539829A (en) * | 1989-06-02 | 1996-07-23 | U.S. Philips Corporation | Subband coded digital transmission system using some composite signals |
US5054075A (en) * | 1989-09-05 | 1991-10-01 | Motorola, Inc. | Subband decoding method and apparatus |
US5040217A (en) * | 1989-10-18 | 1991-08-13 | At&T Bell Laboratories | Perceptual coding of audio signals |
JP2560873B2 (ja) * | 1990-02-28 | 1996-12-04 | 日本ビクター株式会社 | 直交変換符号化復号化方法 |
DE69127842T2 (de) * | 1990-03-09 | 1998-01-29 | At & T Corp | Hybride wahrnehmungsgebundene Kodierung von Audiosignalen |
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
JP3033156B2 (ja) * | 1990-08-24 | 2000-04-17 | ソニー株式会社 | ディジタル信号符号化装置 |
SG49883A1 (en) * | 1991-01-08 | 1998-06-15 | Dolby Lab Licensing Corp | Encoder/decoder for multidimensional sound fields |
AU1996292A (en) * | 1991-05-17 | 1992-12-30 | Analytic Sciences Corporation, The | Continuous-tone image compression |
KR100268623B1 (ko) * | 1991-06-28 | 2000-10-16 | 이데이 노부유끼 | 압축 데이타 기록 재생 장치 및 신호 처리 방법 |
US5369724A (en) * | 1992-01-17 | 1994-11-29 | Massachusetts Institute Of Technology | Method and apparatus for encoding, decoding and compression of audio-type data using reference coefficients located within a band of coefficients |
EP0559348A3 (en) * | 1992-03-02 | 1993-11-03 | AT&T Corp. | Rate control loop processor for perceptual encoder/decoder |
DE4209544A1 (de) * | 1992-03-24 | 1993-09-30 | Inst Rundfunktechnik Gmbh | Verfahren zum Übertragen oder Speichern digitalisierter, mehrkanaliger Tonsignale |
US5295203A (en) * | 1992-03-26 | 1994-03-15 | General Instrument Corporation | Method and apparatus for vector coding of video transform coefficients |
JP3186307B2 (ja) * | 1993-03-09 | 2001-07-11 | ソニー株式会社 | 圧縮データ記録装置及び方法 |
US5581653A (en) * | 1993-08-31 | 1996-12-03 | Dolby Laboratories Licensing Corporation | Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder |
US5737720A (en) * | 1993-10-26 | 1998-04-07 | Sony Corporation | Low bit rate multichannel audio coding methods and apparatus using non-linear adaptive bit allocation |
JP3125543B2 (ja) * | 1993-11-29 | 2001-01-22 | ソニー株式会社 | 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体 |
KR960012475B1 (ko) | 1994-01-18 | 1996-09-20 | 대우전자 주식회사 | 디지탈 오디오 부호화장치의 채널별 비트 할당 장치 |
JP3277692B2 (ja) * | 1994-06-13 | 2002-04-22 | ソニー株式会社 | 情報符号化方法、情報復号化方法及び情報記録媒体 |
EP0738441B1 (en) * | 1994-11-04 | 2002-03-13 | Koninklijke Philips Electronics N.V. | Encoding and decoding of a wideband digital information signal |
US5654702A (en) * | 1994-12-16 | 1997-08-05 | National Semiconductor Corp. | Syntax-based arithmetic coding for low bit rate videophone |
JPH08211899A (ja) * | 1995-02-06 | 1996-08-20 | Nippon Columbia Co Ltd | 音声符号化方法及びその装置 |
DE19549621B4 (de) * | 1995-10-06 | 2004-07-01 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung zum Codieren von Audiosignalen |
US5819215A (en) * | 1995-10-13 | 1998-10-06 | Dobson; Kurt | Method and apparatus for wavelet based data compression having adaptive bit rate control for compression of digital audio or other sensory data |
US5777678A (en) * | 1995-10-26 | 1998-07-07 | Sony Corporation | Predictive sub-band video coding and decoding using motion compensation |
US5956674A (en) * | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5686964A (en) * | 1995-12-04 | 1997-11-11 | Tabatabai; Ali | Bit rate control mechanism for digital image and video data compression |
EP0880235A1 (en) * | 1996-02-08 | 1998-11-25 | Matsushita Electric Industrial Co., Ltd. | Wide band audio signal encoder, wide band audio signal decoder, wide band audio signal encoder/decoder and wide band audio signal recording medium |
US5852806A (en) * | 1996-03-19 | 1998-12-22 | Lucent Technologies Inc. | Switched filterbank for use in audio signal coding |
SE506341C2 (sv) * | 1996-04-10 | 1997-12-08 | Ericsson Telefon Ab L M | Metod och anordning för rekonstruktion av en mottagen talsignal |
DE19628293C1 (de) * | 1996-07-12 | 1997-12-11 | Fraunhofer Ges Forschung | Codieren und Decodieren von Audiosignalen unter Verwendung von Intensity-Stereo und Prädiktion |
DE19628292B4 (de) * | 1996-07-12 | 2007-08-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Verfahren zum Codieren und Decodieren von Stereoaudiospektralwerten |
US6697491B1 (en) * | 1996-07-19 | 2004-02-24 | Harman International Industries, Incorporated | 5-2-5 matrix encoder and decoder system |
US5870480A (en) * | 1996-07-19 | 1999-02-09 | Lexicon | Multichannel active matrix encoder and decoder with maximum lateral separation |
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
US20010017941A1 (en) * | 1997-03-14 | 2001-08-30 | Navin Chaddha | Method and apparatus for table-based compression with embedded coding |
SE512719C2 (sv) * | 1997-06-10 | 2000-05-02 | Lars Gustaf Liljeryd | En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion |
DE19730129C2 (de) | 1997-07-14 | 2002-03-07 | Fraunhofer Ges Forschung | Verfahren zum Signalisieren einer Rauschsubstitution beim Codieren eines Audiosignals |
JPH11122120A (ja) * | 1997-10-17 | 1999-04-30 | Sony Corp | 符号化方法及び装置、並びに復号化方法及び装置 |
US6959220B1 (en) * | 1997-11-07 | 2005-10-25 | Microsoft Corporation | Digital audio signal filtering mechanism and method |
US6115689A (en) * | 1998-05-27 | 2000-09-05 | Microsoft Corporation | Scalable audio coder and decoder |
US6029126A (en) * | 1998-06-30 | 2000-02-22 | Microsoft Corporation | Scalable audio coder and decoder |
US7272556B1 (en) * | 1998-09-23 | 2007-09-18 | Lucent Technologies Inc. | Scalable and embedded codec for speech and audio signals |
SE519552C2 (sv) * | 1998-09-30 | 2003-03-11 | Ericsson Telefon Ab L M | Flerkanalig signalkodning och -avkodning |
CA2252170A1 (en) * | 1998-10-27 | 2000-04-27 | Bruno Bessette | A method and device for high quality coding of wideband speech and audio signals |
US6498865B1 (en) * | 1999-02-11 | 2002-12-24 | Packetvideo Corp,. | Method and device for control and compatible delivery of digitally compressed visual data in a heterogeneous communication network |
US6778709B1 (en) * | 1999-03-12 | 2004-08-17 | Hewlett-Packard Development Company, L.P. | Embedded block coding with optimized truncation |
EP1173925B1 (en) * | 1999-04-07 | 2003-12-03 | Dolby Laboratories Licensing Corporation | Matrixing for lossless encoding and decoding of multichannels audio signals |
US6226616B1 (en) * | 1999-06-21 | 2001-05-01 | Digital Theater Systems, Inc. | Sound quality of established low bit-rate audio coding systems without loss of decoder compatibility |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
FI19992351A (fi) * | 1999-10-29 | 2001-04-30 | Nokia Mobile Phones Ltd | Puheentunnistus |
US6601032B1 (en) * | 2000-06-14 | 2003-07-29 | Intervideo, Inc. | Fast code length search method for MPEG audio encoding |
US6760698B2 (en) * | 2000-09-15 | 2004-07-06 | Mindspeed Technologies Inc. | System for coding speech information using an adaptive codebook with enhanced variable resolution scheme |
US7003467B1 (en) * | 2000-10-06 | 2006-02-21 | Digital Theater Systems, Inc. | Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio |
KR100433516B1 (ko) * | 2000-12-08 | 2004-05-31 | 삼성전자주식회사 | 트랜스코딩 방법 |
WO2002052896A2 (en) * | 2000-12-22 | 2002-07-04 | Koninklijke Philips Electronics N.V. | Multi-channel audio converter |
US7062445B2 (en) * | 2001-01-26 | 2006-06-13 | Microsoft Corporation | Quantization loop with heuristic approach |
EP1231793A1 (en) * | 2001-02-09 | 2002-08-14 | STMicroelectronics S.r.l. | A process for changing the syntax, resolution and bitrate of MPEG bitstreams, a system and a computer program product therefor |
GB0108080D0 (en) * | 2001-03-30 | 2001-05-23 | Univ Bath | Audio compression |
MXPA03010237A (es) * | 2001-05-10 | 2004-03-16 | Dolby Lab Licensing Corp | Mejoramiento del funcionamiento de transitorios en sistemas de codificacion de audio de baja tasa de transferencia de bitios mediante la reduccion del pre-ruido. |
JP4506039B2 (ja) | 2001-06-15 | 2010-07-21 | ソニー株式会社 | 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム |
DE60214027T2 (de) * | 2001-11-14 | 2007-02-15 | Matsushita Electric Industrial Co., Ltd., Kadoma | Kodiervorrichtung und dekodiervorrichtung |
US7146313B2 (en) * | 2001-12-14 | 2006-12-05 | Microsoft Corporation | Techniques for measurement of perceptual audio quality |
US6934677B2 (en) * | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US7460993B2 (en) * | 2001-12-14 | 2008-12-02 | Microsoft Corporation | Adaptive window-size selection in transform coding |
US7027982B2 (en) * | 2001-12-14 | 2006-04-11 | Microsoft Corporation | Quality and rate control strategy for digital audio |
JP4272897B2 (ja) * | 2002-01-30 | 2009-06-03 | パナソニック株式会社 | 符号化装置、復号化装置およびその方法 |
US7310598B1 (en) * | 2002-04-12 | 2007-12-18 | University Of Central Florida Research Foundation, Inc. | Energy based split vector quantizer employing signal representation in multiple transform domains |
US7158539B2 (en) * | 2002-04-16 | 2007-01-02 | Microsoft Corporation | Error resilient windows media audio coding |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7072726B2 (en) * | 2002-06-19 | 2006-07-04 | Microsoft Corporation | Converting M channels of digital audio data into N channels of digital audio data |
US7043423B2 (en) * | 2002-07-16 | 2006-05-09 | Dolby Laboratories Licensing Corporation | Low bit-rate audio coding systems and methods that use expanding quantizers with arithmetic coding |
US7299190B2 (en) * | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
AU2003272037A1 (en) * | 2002-09-24 | 2004-04-19 | Rad Data Communications | A system and method for low bit-rate compression of combined speech and music |
JP2004198485A (ja) * | 2002-12-16 | 2004-07-15 | Victor Co Of Japan Ltd | 音響符号化信号復号化装置及び音響符号化信号復号化プログラム |
KR100908117B1 (ko) * | 2002-12-16 | 2009-07-16 | 삼성전자주식회사 | 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치 |
US6965859B2 (en) * | 2003-02-28 | 2005-11-15 | Xvd Corporation | Method and apparatus for audio compression |
SG135920A1 (en) * | 2003-03-07 | 2007-10-29 | St Microelectronics Asia | Device and process for use in encoding audio data |
US7318035B2 (en) * | 2003-05-08 | 2008-01-08 | Dolby Laboratories Licensing Corporation | Audio coding systems and methods using spectral component coupling and spectral component regeneration |
ES2291939T3 (es) * | 2003-09-29 | 2008-03-01 | Koninklijke Philips Electronics N.V. | Codificacion de señales de audio. |
US7447317B2 (en) * | 2003-10-02 | 2008-11-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V | Compatible multi-channel coding/decoding by weighting the downmix channel |
US7809579B2 (en) * | 2003-12-19 | 2010-10-05 | Telefonaktiebolaget Lm Ericsson (Publ) | Fidelity-optimized variable frame length encoding |
US7460990B2 (en) * | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
US7805313B2 (en) * | 2004-03-04 | 2010-09-28 | Agere Systems Inc. | Frequency-based coding of channels in parametric multi-channel coding systems |
SE0400997D0 (sv) * | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Efficient coding of multi-channel audio |
KR100634506B1 (ko) * | 2004-06-25 | 2006-10-16 | 삼성전자주식회사 | 저비트율 부호화/복호화 방법 및 장치 |
US20060025991A1 (en) * | 2004-07-23 | 2006-02-02 | Lg Electronics Inc. | Voice coding apparatus and method using PLP in mobile communications terminal |
US7630396B2 (en) | 2004-08-26 | 2009-12-08 | Panasonic Corporation | Multichannel signal coding equipment and multichannel signal decoding equipment |
US7630902B2 (en) * | 2004-09-17 | 2009-12-08 | Digital Rise Technology Co., Ltd. | Apparatus and methods for digital audio coding using codebook application ranges |
SE0402652D0 (sv) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi- channel reconstruction |
US7548853B2 (en) * | 2005-06-17 | 2009-06-16 | Shmunk Dmitry V | Scalable compressed audio bit stream and codec using a hierarchical filterbank and multichannel joint coding |
US7693709B2 (en) * | 2005-07-15 | 2010-04-06 | Microsoft Corporation | Reordering coefficients for waveform coding or decoding |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
US7684981B2 (en) * | 2005-07-15 | 2010-03-23 | Microsoft Corporation | Prediction of spectral coefficients in waveform coding and decoding |
-
2005
- 2005-07-15 US US11/183,087 patent/US7630882B2/en active Active
-
2006
- 2006-07-14 CA CA2610595A patent/CA2610595C/en active Active
- 2006-07-14 NZ NZ564311A patent/NZ564311A/en unknown
- 2006-07-14 AU AU2006270171A patent/AU2006270171B2/en active Active
- 2006-07-14 MX MX2008000523A patent/MX2008000523A/es active IP Right Grant
- 2006-07-14 JP JP2008521648A patent/JP5313669B2/ja active Active
- 2006-07-14 EP EP06787341.4A patent/EP1904999B1/en active Active
- 2006-07-14 ZA ZA200711042A patent/ZA200711042B/xx unknown
- 2006-07-14 CN CN2006800255358A patent/CN101223570B/zh active Active
- 2006-07-14 WO PCT/US2006/027420 patent/WO2007011749A2/en active Application Filing
- 2006-07-14 CA CA2895916A patent/CA2895916C/en active Active
-
2007
- 2007-12-04 IL IL187883A patent/IL187883A/en active IP Right Review Request
- 2007-12-05 NO NO20076259A patent/NO20076259L/no not_active Application Discontinuation
-
2008
- 2008-01-14 KR KR1020087001012A patent/KR101343267B1/ko active IP Right Grant
- 2008-01-15 EG EG2008010074A patent/EG26092A/en active
-
2013
- 2013-04-18 JP JP2013087698A patent/JP5658307B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
IL187883A (en) | 2012-01-31 |
CA2895916A1 (en) | 2007-01-25 |
MX2008000523A (es) | 2008-03-06 |
AU2006270171A1 (en) | 2007-01-25 |
JP5658307B2 (ja) | 2015-01-21 |
US20070016412A1 (en) | 2007-01-18 |
US7630882B2 (en) | 2009-12-08 |
CA2610595C (en) | 2015-10-06 |
NZ564311A (en) | 2010-02-26 |
NO20076259L (no) | 2008-02-11 |
EP1904999A2 (en) | 2008-04-02 |
WO2007011749A2 (en) | 2007-01-25 |
EP1904999B1 (en) | 2017-03-08 |
KR101343267B1 (ko) | 2013-12-18 |
KR20080025403A (ko) | 2008-03-20 |
CA2610595A1 (en) | 2007-01-25 |
EG26092A (en) | 2013-02-13 |
IL187883A0 (en) | 2008-03-20 |
AU2006270171B2 (en) | 2011-03-03 |
CN101223570B (zh) | 2012-09-05 |
CN101223570A (zh) | 2008-07-16 |
EP1904999A4 (en) | 2011-10-12 |
ZA200711042B (en) | 2009-03-25 |
WO2007011749A3 (en) | 2007-06-28 |
JP2009501945A (ja) | 2009-01-22 |
CA2895916C (en) | 2016-12-13 |
JP2013178546A (ja) | 2013-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5658307B2 (ja) | ディジタルメディアの効率的コーディング用のバンドを入手するための周波数セグメント化 | |
JP5456310B2 (ja) | ディジタル・メディア・スペクトル・データの効率的コーディングに使用される辞書内のコードワードの変更 | |
JP6262820B2 (ja) | 広義知覚類似性(wide−sense perceptual similarity)を使用するデジタルメディアスペクトルデータの効率的な復号 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090616 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111005 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111018 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20120117 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20120124 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121019 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130121 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130128 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130219 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130226 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20130319 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20130327 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130418 |
|
TRDD | Decision of grant or rejection written | ||
RD13 | Notification of appointment of power of sub attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7433 Effective date: 20130531 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20130531 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130704 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5313669 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |