JP4742087B2 - オーディオ信号の2重変換符号化 - Google Patents
オーディオ信号の2重変換符号化 Download PDFInfo
- Publication number
- JP4742087B2 JP4742087B2 JP2007269116A JP2007269116A JP4742087B2 JP 4742087 B2 JP4742087 B2 JP 4742087B2 JP 2007269116 A JP2007269116 A JP 2007269116A JP 2007269116 A JP2007269116 A JP 2007269116A JP 4742087 B2 JP4742087 B2 JP 4742087B2
- Authority
- JP
- Japan
- Prior art keywords
- coefficients
- transform
- transform coefficients
- frame
- quantization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000005236 sound signal Effects 0.000 title claims abstract description 43
- 238000013139 quantization Methods 0.000 claims abstract description 138
- 238000000034 method Methods 0.000 claims abstract description 98
- 238000006243 chemical reaction Methods 0.000 claims description 37
- 238000009527 percussion Methods 0.000 claims description 21
- 230000003044 adaptive effect Effects 0.000 claims description 12
- 230000001131 transforming effect Effects 0.000 claims description 8
- 238000005070 sampling Methods 0.000 claims description 6
- 238000000926 separation method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 239000013598 vector Substances 0.000 abstract description 72
- 230000008569 process Effects 0.000 description 22
- 238000001228 spectrum Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 241000282412 Homo Species 0.000 description 3
- 230000002427 irreversible effect Effects 0.000 description 3
- 238000010845 search algorithm Methods 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/0212—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
ITU-T Recommendation G.722(1998) ITU-T Recommendation G.722.1(1999)
一実施例では、ロングフレーム及びショートフレームと呼ばれる2つのフレームサイズが使用される。簡単にするために、この開示は2重変換を示すが、2より多くのフレームサイズが使用されてもよいことがわかる。
サブフレームの振幅エンベロープは量子化及び分析され、Huffman符号化が使用されるべきか否かを決定する。固定のビット割り当てが、初期設定及びベンチマークとして各振幅エンベロープに割り当てられてもよい。Huffman符号化の使用が固定のビットに比べていくつかのビットを節約することができる場合、これが使用されてもよい。振幅エンベロープのHuffmanフラグが設定されるため、デコーダはHuffman符号化を適用するか否かを認識する。節約されるビット数は、残りのエンコードに利用可能なビットに格納される。そうでない場合、Huffman符号化は使用されず、フラグがクリアされ、初期設定の固定のビットが使用される。
1≦r≦10である場合、M(r)は16であり、全てのこれらのサブフレームは第1のグループ0〜4kHzになる。
11≦r≦15である場合、M(r)は24であり、全てのこれらのサブフレームは第2のグループ4kHz〜7kHzになる。
16≦r≦24である場合、M(r)は32であり、全てのこれらのサブフレームは第3のグループ6.8kHz〜14kHzになる。
25≦r≦34である場合、M(r)は32であり、全てのこれらのサブフレームは第4のグループ14〜22kHzになる。
変換係数のグループのエネルギーに基づく適応ビット割り当て方式は、フレームの利用可能なビットをサブフレーム間に割り当てるために使用され得る。一実施例では、改善したビット割り当て方式が使用されてもよい。G.722.1に使用される方式とは異なり、係数インデックスの適応ビット割り当てはカテゴリにより固定されず、振幅エンベロープが量子化されるのと同時の割り当て処理により固定される。ビット割り当ては次のようにされてもよい。
従来技術の量子化及びエンコード方法は、前記の実施例を実装し、処理されたオーディオ信号を完全なオーディオスペクトルに拡張するために使用されてもよいが、広い視聴者に最大の可能性をもたらさないことがある。従来技術の方法を使用すると、ビットレートの要件は高くなり、処理された完全なスペクトルのオーディオ信号を送信することが困難になる。この開示の一実施例による新しい高速格子ベクトル量子化(FLVQ:Fast Lattice Vector Quantization)が使用可能であり、これは符号化効率を改善し、ビット要件を低減する。FLVQは、如何なるオーディオ信号の量子化及びエンコードに使用されてもよい。
高レート量子化器は、格子D8のVoronoiコードに基づき、2〜6ビット/係数のレートで正規化されたMLT係数を量子化するように設計されてもよい。このサブ量子化器のコードブックは格子D8の有限領域から構成されてもよく、メモリには格納されない。コードベクトルは簡単な代数方法により生成され得る。
いわゆる循環Gosset格子(rotated Gosset lattice)RE8に基づく低レート量子化は、1ビット/係数のレートで正規化されたMLT係数を量子化するように提供されてもよい。
MLT係数は均一に分布していない。8次元の係数ベクトルは原点の周囲で高い集積率を有することが観測されている。従って、格子ベクトル量子化器のコードブックは不均一のソースには最適ではない。
図3Aは、この開示の実施例によるエンコードされたビットストリームの例を示している。一実施例では、フレームの合計ビット数は、それぞれ32kbps、48kbps及び64kbpsのビットレートに対応して、640、960及び1280ビットである。チャネルで送信されるビットストリームは3つの部分(フラグビット、ノルムコードビット及びMLT係数のコードビット)で構成されてもよい。フラグビットが最初に送信され、ノルムコードビットが次に送信され、MLT係数のコードビットが最後に送信されてもよい。
この開示の一実施例による全体のエンコード処理の例示的な処理フロー図を示す図4を参照する。エンコード処理はステップ400で始まる。ステップ410において、時間内にオーディオサンプルが変換係数のフレームに変換されるように、2つのMLT変換がオーディオ信号に適用されてもよい。ロングフレーム変換係数は、低周波数(例えば、約20Hz〜約7kHz)の信号に使用され、ショートフレーム変換係数は、高周波数(例えば、約6.8kHz〜約22kHz)の信号に使用される。
デコーダは、基本的にエンコーダの逆の順序で、エンコードされたビットストリームを処理する。合計のビットはわかっており、合意されている。デコーダでは、適切なデコーダがビットストリームに使用されることを確保するために、データ整合性及びエンコードプロトコルが検査される。ビットストリームが前記の例に従ってエンコーダでエンコードされることをデコーダが確かめると、図5に示して以下に説明するようにビットストリームをデコードする。
812 オーディオコーデック
814 オーディオI/Oインタフェース
816 マイクロフォン
818 スピーカ
820 ネットワークインタフェース
822 ビデオI/Oインタフェース
824 ビデオコーデック
826 カメラ
828 ディスプレイ
832 CPU
834 メモリ
840 エンドポイント
850 ネットワーク
Claims (38)
- オーディオ信号をエンコードする方法であって
前記オーディオ信号の時間ドメインのサンプルのフレームを周波数ドメインに変換し、変換係数のロングフレームを形成し、
前記オーディオ信号の時間ドメインのサンプルのフレームのnの部分を周波数ドメインに変換し、変換係数のnのショートフレームを形成し、
前記時間ドメインのサンプルのフレームは第1の長さ(L)を有し、
前記時間ドメインのサンプルのフレームの各部分は第2の長さ(S)を有し、
L=n×Sであり、
nは整数であり、
前記変換係数のロングフレームの変換係数のセットと、前記変換係数のnのショートフレームの変換係数のセットとをグループ化し、変換係数の結合されたセットを形成し、
前記変換係数の結合されたセットを量子化し、変換係数の量子化後の結合されたセットの量子化インデックスのセットを形成し、
前記変換係数の量子化後の結合されたセットの前記量子化インデックスを符号化することを有する方法。 - 前記変換する動作は、MLT(Modulated Lapped Transform)を適用することを有する、請求項1に記載の方法。
- 前記サンプリングする動作は、約48kHzである、請求項1に記載の方法。
- 前記変換係数の結合されたセットは、第1の周波数帯域での前記ロングフレームの変換係数と、第2の周波数帯域での前記nのショートフレームの変換係数とを有する、請求項1に記載の方法。
- 前記第1の周波数帯域及び前記第2の周波数帯域は重複する、請求項4に記載の方法。
- 前記第1の周波数帯域は、約800Hz〜約7kHzの範囲で上限を有する、請求項4に記載の方法。
- 前記第1の周波数帯域は、約7kHzまでのオーディオ周波数を有し、
前記第2の周波数帯域は、約6.8kHz〜約22kHzの範囲のオーディオ周波数を有する、請求項4に記載の方法。 - 前記オーディオ信号がパーカッション形式の信号を有するか否かを検出することを更に有する、請求項1に記載の方法。
- 前記検出する動作は、
約10kHzまでの周波数帯域でのロング変換係数の平均勾配傾斜が所定の傾斜閾値を超過するか否かを決定し、
前記変換係数のロングフレームの第1の変換係数が前記変換係数のロングフレームの最大値であるか否かを決定し、
前記変換係数のロングフレームの変換係数のゼロ交差レートが所定のレート閾値未満であるか否かを決定することを有する、請求項8に記載の方法。 - 前記係数の結合されたセットは、第1の周波数帯域での前記ロングフレームの変換係数と、第2の周波数帯域での前記nのショートフレームの変換係数とを有し、
前記パーカッション形式の信号が検出された場合、前記第1の周波数帯域は、約800Hzまでのオーディオ周波数を有し、
前記パーカッション形式の信号が検出された場合、前記第2の周波数帯域は、約600Hz〜約22kHzの範囲のオーディオ周波数を有する、請求項8に記載の方法。 - 前記符号化する動作は、Huffman符号化を有する、請求項1に記載の方法。
- 前記係数の結合されたセットを複数のグループにグループ化し、各グループは、複数のサブフレームを有し、各サブフレームは特定の数の係数を有し、
前記サブフレームのrmsに基づいて前記サブフレームのそれぞれのノルムを決定し、
各サブフレームの前記rmsを量子化し、
前記サブフレームの前記量子化されたrmsで前記サブフレーム内の各係数を分割することにより、各サブフレームの係数を正規化し、
各サブフレームの前記係数を量子化し、
サブフレームの各グループについてHuffman符号化フラグを維持し、
各グループを符号化するための固定のビット数を維持し、
各グループについてHuffman符号化を使用するために必要なビット数を計算し、
Huffman符号化を使用するために必要なビット数がそのグループの前記固定のビット数より小さい場合に、前記Huffmanフラグを設定し、Huffman符号化を使用し、
Huffman符号化を使用するために必要なビット数がサブグループの前記固定のビット数より小さくない場合に、前記Huffmanフラグをクリアし、固定のビット数の符号化を使用することを更に有する、請求項1に記載の方法。 - 前記係数の結合されたセットを複数のグループにグループ化し、各グループは、複数のサブフレームを有し、各サブフレームは特定の数の係数を有し、
前記サブフレームのrmsに基づいて前記サブフレームのそれぞれのノルムを決定し、
各サブフレームの前記rmsを量子化し、各ノルムの量子化インデックスを形成し、
Huffman符号化に使用される合計のビット数がノルム量子化に割り当てられた合計のビット数より小さい場合、各ノルムの前記量子化インデックスをHuffman符号化することを更に有する、請求項1に記載の方法。 - 前記係数の結合されたセットを複数のグループにグループ化し、各グループは、複数のサブフレームを有し、各サブフレームは特定の数の係数を有し、
前記サブフレームのrmsに基づいて前記サブフレームのそれぞれのノルムを決定し、
各サブフレームの前記rmsを量子化し、
前記サブフレームの前記量子化されたrmsに基づいて各サブフレームに利用可能なビットを動的に割り当てることを更に有する、請求項1に記載の方法。 - コンピュータに請求項1に記載の方法の各手順を実行させるためのコンピュータ読み取り可能なプログラムを記録したコンピュータ可読媒体。
- オーディオ信号を表すエンコードされたビットストリームをデコードする方法であって、
前記エンコードされたビットストリームの一部をデコードし、変換係数の複数のグループの量子化インデックスを形成し、
前記変換係数の複数のグループの前記量子化インデックスを逆量子化し、
前記変換係数をロングフレーム係数のセットと、ショートフレーム係数のnのセットとに分離し、
前記ロングフレーム係数のセットを周波数ドメインから時間ドメインに変換し、長い時間ドメインの信号を形成し、
前記ショートフレーム係数のnのセットを周波数ドメインから時間ドメインに変換し、一連のnの短い時間ドメインの信号を形成し、
前記長い時間ドメインの信号は、第1の長さ(L)を有し、
それぞれ短い時間ドメインの信号は、第2の長さ(S)を有し、
L=n×Sであり、
nは整数であり、
前記長い時間ドメインの信号と前記一連のnの短い時間ドメインの信号とを結合し、前記オーディオ信号を形成することを有する方法。 - 前記ロングフレーム係数は第1の周波数帯域内にあり、
前記ショートフレーム係数は第2の周波数帯域内にある、請求項16に記載の方法。 - 前記第1の周波数帯域は、約800Hz〜約7kHzの範囲で上限を有する、請求項17に記載の方法。
- 前記第1の周波数帯域は、約7kHzまでのオーディオ周波数を有し、
前記第2の周波数帯域は、約6.8kHz〜約22kHzの範囲のオーディオ周波数を有する、請求項17に記載の方法。 - 前記第1の周波数帯域は、約800Hzまでのオーディオ周波数を有し、
前記第2の周波数帯域は、約600Hz〜約22kHzの範囲のオーディオ周波数を有する、請求項17に記載の方法。 - 前記エンコードされたビットストリームの第2の部分をデコードし、各サブフレームのノルムの量子化インデックスを形成し、
各サブフレームの前記量子化インデックスを逆量子化することを更に有する、請求項16に記載の方法。 - 前記サブフレームの前記量子化されたノルムに従って各サブフレームに利用可能なビットを動的に割り当てることを更に有する、請求項21に記載の方法。
- Huffman符号化が前記ノルムを符号化するために使用されたというインジケータを前記エンコードされたビットストリームが有する場合、前記ノルムに割り当てるビット数を決定し、
前記ノルムをHuffmanデコードすることを更に有する、請求項21に記載の方法。 - Huffman符号化がサブフレームの特定のグループを符号化するために使用されたというインジケータを前記エンコードされたビットストリームが有する場合、サブフレームの特定のグループに割り当てるビット数を決定し、
係数の前記サブフレームの特定のグループをHuffmanデコードすることを更にする、請求項16に記載の方法。 - コンピュータに請求項16に記載の方法の各手順を実行させるためのコンピュータ読み取り可能なプログラムを記録したコンピュータ可読媒体。
- エンコーダとデコーダとを有する22kHzオーディオコーデックであって、
前記エンコーダは、
オーディオ信号の時間ドメインのサンプルのフレームを周波数ドメインに変換し、変換係数のロングフレームを形成するように動作可能な第1の変換モジュールと、
前記オーディオ信号の時間ドメインのサンプルのフレームのnの部分を周波数ドメインに変換し、変換係数のnのショートフレームを形成するように動作可能な第2の変換モジュールであり、
前記時間ドメインのサンプルのフレームは第1の長さ(L)を有し、
前記時間ドメインのサンプルのフレームの各部分は第2の長さ(S)を有し、
L=n×Sであり、
nは整数である第2の変換モジュールと、
前記変換係数のロングフレームの変換係数のセットと、前記変換係数のnのショートフレームの変換係数のセットとを結合し、変換係数の結合されたセットを形成するように動作可能な結合モジュールと、
前記変換係数の結合されたセットを量子化し、変換係数の量子化後の結合されたセットの量子化インデックスのセットを形成するように動作可能な量子化モジュールと、
前記変換係数の量子化後の結合されたセットの前記量子化インデックスを符号化するように動作可能な符号化モジュールと
を有し、
前記デコーダは、
エンコードされたビットストリームの一部をデコードし、変換係数の複数のグループの量子化インデックスを形成するように動作可能なデコードモジュールと、
前記変換係数の複数のグループの前記量子化インデックスを逆量子化するように動作可能な逆量子化モジュールと、
前記変換係数をロングフレーム係数のセットと、ショートフレーム係数のnのセットとに分離するように動作可能な分離モジュールと、
前記ロングフレーム係数のセットを周波数ドメインから時間ドメインに変換し、長い時間ドメインの信号を形成するように動作可能な第1の逆変換モジュールと、
前記ショートフレーム係数のnのセットを周波数ドメインから時間ドメインに変換し、一連のnの短い時間ドメインの信号を形成するように動作可能な第2の逆変換モジュールと、
前記長い時間ドメインの信号と前記一連のnの短い時間ドメインの信号とを結合する合計モジュールと
を有する22kHzオーディオコーデック。 - 前記変換係数の結合されたセットは、第1の周波数帯域での前記ロングフレームの変換係数と、第2の周波数帯域での前記nのショートフレームの変換係数とを有する、請求項26に記載のコーデック。
- 前記第1の周波数帯域は、約800Hz〜約7kHzの範囲で上限を有する、請求項27に記載のコーデック。
- 前記第1の周波数帯域は、約7kHzまでのオーディオ周波数を有し、
前記第2の周波数帯域は、約6.8kHz〜約22kHzの範囲のオーディオ周波数を有する、請求項27に記載のコーデック。 - 前記第1の周波数帯域は、約800Hzまでのオーディオ周波数を有し、
前記第2の周波数帯域は、約600Hz〜約22kHzの範囲のオーディオ周波数を有する、請求項27に記載のコーデック。 - 前記変換係数のロングフレームの1つ以上の特性に基づいて、前記オーディオ信号がパーカッション形式の信号を有するか否かを検出するように動作可能なモジュールを更に有する、請求項26に記載のコーデック。
- 前記第1の変換モジュールは、第1のMLT(Modulated Lapped Transform)モジュールを有し、
前記第2の変換モジュールは、第2のMLTモジュールを有する、請求項26に記載のコーデック。 - 前記エンコーダは、
各サブフレームの振幅エンベロープを量子化するように動作可能なノルム量子化モジュールと、
前記サブフレームの前記振幅エンベロープの前記量子化インデックスを符号化するように動作可能なノルム符号化モジュールと、
利用可能なビットを変換係数のサブフレームに割り当てるように動作可能な適応ビット割り当てモジュールと
を更に有する、請求項26に記載のコーデック。 - 前記デコーダは、
前記エンコードされたビットストリームの第2の部分をデコードし、前記サブフレームのそれぞれの各振幅エンベロープの量子化インデックスを形成するように動作可能なノルムデコードモジュールと、
前記サブフレームの前記振幅エンベロープの前記量子化インデックスを逆量子化するように動作可能な逆量子化モジュールと、
利用可能なビットを変換係数のサブフレームに割り当てるように動作可能な適応ビット割り当てモジュールと
を更に有する、請求項26に記載のコーデック。 - オーディオ入出力インタフェースと、
前記オーディオ入出力インタフェースに通信可能に結合されたマイクロフォンと、
前記オーディオ入出力インタフェースに通信可能に結合されたスピーカと、
前記オーディオ入出力インタフェースに通信可能に結合された22kHzオーディオコーデックと
を有するエンドポイントであって、
前記22kHzオーディオコーデックは、エンコーダとデコーダとを有し、
前記エンコーダは、
オーディオ信号の時間ドメインのサンプルのフレームを周波数ドメインに変換し、変換係数のロングフレームを形成するように動作可能な第1の変換モジュールと、
前記オーディオ信号の時間ドメインのサンプルのフレームのnの部分を周波数ドメインに変換し、変換係数のnのショートフレームを形成するように動作可能な第2の変換モジュールであり、
前記時間ドメインのサンプルのフレームは第1の長さ(L)を有し、
前記時間ドメインのサンプルのフレームの各部分は第2の長さ(S)を有し、
L=n×Sであり、
nは整数である第2の変換モジュールと、
前記変換係数のロングフレームの変換係数のセットと、前記変換係数のnのショートフレームの変換係数のセットとを結合し、変換係数の結合されたセットを形成するように動作可能な結合モジュールと、
前記変換係数の結合されたセットを量子化し、変換係数の量子化後の結合されたセットの量子化インデックスのセットを形成するように動作可能な量子化モジュールと、
前記変換係数の量子化後の結合されたセットの前記量子化インデックスを符号化するように動作可能な符号化モジュールと
を有し、
前記デコーダは、
エンコードされたビットストリームの一部をデコードし、変換係数の複数のグループの量子化インデックスを形成するように動作可能なデコードモジュールと、
前記変換係数の複数のグループの前記量子化インデックスを逆量子化するように動作可能な逆量子化モジュールと、
前記変換係数をロングフレーム係数のセットと、ショートフレーム係数のnのセットとに分離するように動作可能な分離モジュールと、
前記ロングフレーム係数のセットを周波数ドメインから時間ドメインに変換し、長い時間ドメインの信号を形成するように動作可能な第1の逆変換モジュールと、
前記ショートフレーム係数のnのセットを周波数ドメインから時間ドメインに変換し、一連のnの短い時間ドメインの信号を形成するように動作可能な第2の逆変換モジュールと、
前記長い時間ドメインの信号と前記一連のnの短い時間ドメインの信号とを結合する合計モジュールと
を有するエンドポイント。 - 前記オーディオ入出力インタフェースに通信可能に結合されたバスと、
前記バスに通信可能に結合されたビデオ入出力インタフェースと、
前記ビデオ入出力インタフェースに通信可能に結合されたカメラと、
前記ビデオ入出力インタフェースに通信可能に結合されたディスプレイ装置と
を更に有する、請求項35に記載のエンドポイント。 - 前記エンコーダは、
各サブフレームの振幅エンベロープを量子化するように動作可能なノルム量子化モジュールと、
前記サブフレームの前記振幅エンベロープの前記量子化インデックスを符号化するように動作可能なノルム符号化モジュールと、
利用可能なビットを変換係数のサブフレームに割り当てるように動作可能な適応ビット割り当てモジュールと
を更に有する、請求項35に記載のエンドポイント。 - 前記デコーダは、
前記エンコードされたビットストリームの第2の部分をデコードし、前記サブフレームのそれぞれの各振幅エンベロープの量子化インデックスを形成するように動作可能なノルムデコードモジュールと、
前記サブフレームの前記振幅エンベロープの前記量子化インデックスを逆量子化するように動作可能な逆量子化モジュールと、
利用可能なビットを変換係数のサブフレームに割り当てるように動作可能な適応ビット割り当てモジュールと
を更に有する、請求項35に記載のエンドポイント。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/550,629 | 2006-10-18 | ||
US11/550,629 US7953595B2 (en) | 2006-10-18 | 2006-10-18 | Dual-transform coding of audio signals |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008102520A JP2008102520A (ja) | 2008-05-01 |
JP4742087B2 true JP4742087B2 (ja) | 2011-08-10 |
Family
ID=38830404
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007269116A Expired - Fee Related JP4742087B2 (ja) | 2006-10-18 | 2007-10-16 | オーディオ信号の2重変換符号化 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7953595B2 (ja) |
EP (1) | EP1914724B1 (ja) |
JP (1) | JP4742087B2 (ja) |
CN (1) | CN101165778B (ja) |
HK (1) | HK1111801A1 (ja) |
TW (1) | TWI347589B (ja) |
Families Citing this family (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8160890B2 (en) * | 2006-12-13 | 2012-04-17 | Panasonic Corporation | Audio signal coding method and decoding method |
CN100583649C (zh) * | 2007-07-23 | 2010-01-20 | 华为技术有限公司 | 矢量编/解码方法、装置及流媒体播放器 |
US8386271B2 (en) * | 2008-03-25 | 2013-02-26 | Microsoft Corporation | Lossless and near lossless scalable audio codec |
EP2274833B1 (en) * | 2008-04-16 | 2016-08-10 | Huawei Technologies Co., Ltd. | Vector quantisation method |
WO2010000305A1 (en) * | 2008-06-30 | 2010-01-07 | Nokia Corporation | An apparatus |
CA2750795C (en) * | 2009-01-28 | 2015-05-26 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder, encoded audio information, methods for encoding and decoding an audio signal and computer program |
EP3723090B1 (en) | 2009-10-21 | 2021-12-15 | Dolby International AB | Oversampling in a combined transposer filter bank |
US8386266B2 (en) | 2010-07-01 | 2013-02-26 | Polycom, Inc. | Full-band scalable audio codec |
CN102081926B (zh) | 2009-11-27 | 2013-06-05 | 中兴通讯股份有限公司 | 格型矢量量化音频编解码方法和系统 |
EP2510515B1 (en) | 2009-12-07 | 2014-03-19 | Dolby Laboratories Licensing Corporation | Decoding of multichannel audio encoded bit streams using adaptive hybrid transformation |
US8428959B2 (en) * | 2010-01-29 | 2013-04-23 | Polycom, Inc. | Audio packet loss concealment by transform interpolation |
CN102158692B (zh) * | 2010-02-11 | 2013-02-13 | 华为技术有限公司 | 编码方法、解码方法、编码器和解码器 |
US8831932B2 (en) | 2010-07-01 | 2014-09-09 | Polycom, Inc. | Scalable audio in a multi-point environment |
TWI476761B (zh) * | 2011-04-08 | 2015-03-11 | Dolby Lab Licensing Corp | 用以產生可由實施不同解碼協定之解碼器所解碼的統一位元流之音頻編碼方法及系統 |
KR101995694B1 (ko) | 2011-04-20 | 2019-07-02 | 파나소닉 인텔렉츄얼 프로퍼티 코포레이션 오브 아메리카 | 허프만 부호화를 실행하기 위한 장치 및 방법 |
AU2012256550B2 (en) * | 2011-05-13 | 2016-08-25 | Samsung Electronics Co., Ltd. | Bit allocating, audio encoding and decoding |
RU2464649C1 (ru) * | 2011-06-01 | 2012-10-20 | Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." | Способ обработки звукового сигнала |
EP2767977A4 (en) * | 2011-10-21 | 2015-04-29 | Samsung Electronics Co Ltd | METHOD AND DEVICE FOR LOSS-FREE ENERGY CODING, AUDIO CODING METHOD AND DEVICE, METHOD AND APPARATUS FOR LOSS-FREE ENERGY DECODING AND AUDIO CODING METHOD AND DEVICE |
BR112015018021B1 (pt) | 2013-01-29 | 2022-10-11 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V | Aparelho e método para selecionar um dentre um primeiro algoritmo de codificação e um segundo algoritmo de codificação |
ES2834929T3 (es) | 2013-01-29 | 2021-06-21 | Fraunhofer Ges Forschung | Llenado con ruido en la codificación de audio por transformada perceptual |
JP6026678B2 (ja) * | 2013-04-05 | 2016-11-16 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法 |
SG10201710019SA (en) | 2013-05-24 | 2018-01-30 | Dolby Int Ab | Audio Encoder And Decoder |
EP2830058A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Frequency-domain audio coding supporting transform length switching |
KR101861787B1 (ko) * | 2014-05-01 | 2018-05-28 | 니폰 덴신 덴와 가부시끼가이샤 | 부호화 장치, 복호 장치, 부호화 방법, 복호 방법, 부호화 프로그램, 복호 프로그램, 기록매체 |
US11540009B2 (en) | 2016-01-06 | 2022-12-27 | Tvision Insights, Inc. | Systems and methods for assessing viewer engagement |
WO2017120469A1 (en) * | 2016-01-06 | 2017-07-13 | Tvision Insights, Inc. | Systems and methods for assessing viewer engagement |
CN105957533B (zh) * | 2016-04-22 | 2020-11-10 | 杭州微纳科技股份有限公司 | 语音压缩方法、语音解压方法及音频编码器、音频解码器 |
US11770574B2 (en) | 2017-04-20 | 2023-09-26 | Tvision Insights, Inc. | Methods and apparatus for multi-television measurements |
CN111402907B (zh) * | 2020-03-13 | 2023-04-18 | 大连理工大学 | 一种基于g.722.1的多描述语音编码方法 |
CN114171034B (zh) * | 2021-12-02 | 2024-05-14 | 深圳市高速达科技有限公司 | 一种高清机顶盒语音数据编解码系统及方法 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62194296A (ja) * | 1986-02-21 | 1987-08-26 | 株式会社日立製作所 | 音声符号化方式 |
US4755421A (en) | 1987-08-07 | 1988-07-05 | James River Corporation Of Virginia | Hydroentangled disintegratable fabric |
JPH04249300A (ja) * | 1991-02-05 | 1992-09-04 | Kokusai Electric Co Ltd | 音声符復号化方法及びその装置 |
US5317672A (en) | 1991-03-05 | 1994-05-31 | Picturetel Corporation | Variable bit rate speech encoder |
KR940004609B1 (ko) | 1991-09-04 | 1994-05-25 | 삼성전자 주식회사 | 마스크 리드 온리 메모리 |
US5664057A (en) | 1993-07-07 | 1997-09-02 | Picturetel Corporation | Fixed bit rate speech encoder/decoder |
US5675590A (en) | 1994-11-23 | 1997-10-07 | At&T Wireless Services, Inc. | Cyclic trellis coded modulation |
JP3152109B2 (ja) * | 1995-05-30 | 2001-04-03 | 日本ビクター株式会社 | オーディオ信号の圧縮伸張方法 |
JP3552811B2 (ja) | 1995-09-29 | 2004-08-11 | 三菱電機株式会社 | ディジタル映像信号符号化装置および復号化装置 |
KR19980022377A (ko) | 1996-09-21 | 1998-07-06 | 김광호 | 적응형 격자 양자화기법에 의한 비디오신호 부호화 및 또는 복호화방법 |
JP3707154B2 (ja) | 1996-09-24 | 2005-10-19 | ソニー株式会社 | 音声符号化方法及び装置 |
US5924064A (en) | 1996-10-07 | 1999-07-13 | Picturetel Corporation | Variable length coding using a plurality of region bit allocation patterns |
JPH10124092A (ja) | 1996-10-23 | 1998-05-15 | Sony Corp | 音声符号化方法及び装置、並びに可聴信号符号化方法及び装置 |
US5886276A (en) * | 1997-01-16 | 1999-03-23 | The Board Of Trustees Of The Leland Stanford Junior University | System and method for multiresolution scalable audio signal encoding |
JP3064947B2 (ja) * | 1997-03-26 | 2000-07-12 | 日本電気株式会社 | 音声・楽音符号化及び復号化装置 |
US5859788A (en) | 1997-08-15 | 1999-01-12 | The Aerospace Corporation | Modulated lapped transform method |
US6199037B1 (en) * | 1997-12-04 | 2001-03-06 | Digital Voice Systems, Inc. | Joint quantization of speech subframe voicing metrics and fundamental frequencies |
AU3372199A (en) * | 1998-03-30 | 1999-10-18 | Voxware, Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
JP4570250B2 (ja) * | 1998-05-27 | 2010-10-27 | マイクロソフト コーポレーション | 信号の量子化変換係数をエントロピーエンコードするシステムと方法 |
US6242936B1 (en) | 1998-08-11 | 2001-06-05 | Texas Instruments Incorporated | Circuit for driving conductive line and testing conductive line for current leakage |
JP2000134105A (ja) * | 1998-10-29 | 2000-05-12 | Matsushita Electric Ind Co Ltd | オーディオ変換符号化に用いられるブロックサイズを決定し適応させる方法 |
US6300888B1 (en) | 1998-12-14 | 2001-10-09 | Microsoft Corporation | Entrophy code mode switching for frequency-domain audio coding |
US7315815B1 (en) * | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
US6377916B1 (en) * | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
JP2002094992A (ja) | 2000-09-19 | 2002-03-29 | Sony Corp | 符号化データ長検出装置とその方法および画像符号化装置 |
JP2002196792A (ja) * | 2000-12-25 | 2002-07-12 | Matsushita Electric Ind Co Ltd | 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム |
US6734920B2 (en) | 2001-04-23 | 2004-05-11 | Koninklijke Philips Electronics N.V. | System and method for reducing error propagation in a decision feedback equalizer of ATSC VSB receiver |
US6606044B2 (en) | 2002-01-02 | 2003-08-12 | Motorola, Inc. | Method and apparatus for generating a pulse width modulated signal |
CA2388358A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for multi-rate lattice vector quantization |
US8090577B2 (en) | 2002-08-08 | 2012-01-03 | Qualcomm Incorported | Bandwidth-adaptive quantization |
US7460990B2 (en) | 2004-01-23 | 2008-12-02 | Microsoft Corporation | Efficient coding of digital media spectral data using wide-sense perceptual similarity |
EP1709743A1 (fr) | 2004-01-30 | 2006-10-11 | France Telecom S.A. | Quantification vectorielle en dimension et resolution variables |
FR2866166B1 (fr) | 2004-02-06 | 2006-06-16 | Anagram Technologies Sa | Modulateur en treillis vectoriel |
CA2457988A1 (en) | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
MXPA06012578A (es) | 2004-05-17 | 2006-12-15 | Nokia Corp | Codificacion de audio con distintos modelos de codificacion. |
CA2566368A1 (en) | 2004-05-17 | 2005-11-24 | Nokia Corporation | Audio encoding with different coding frame lengths |
EP1775718A4 (en) | 2004-07-22 | 2008-05-07 | Fujitsu Ltd | AUDIOCODING DEVICE AND AUDIOCODING METHOD |
WO2006054583A1 (ja) | 2004-11-18 | 2006-05-26 | Canon Kabushiki Kaisha | オーディオ信号符号化装置および方法 |
JP4639073B2 (ja) | 2004-11-18 | 2011-02-23 | キヤノン株式会社 | オーディオ信号符号化装置および方法 |
US7460150B1 (en) * | 2005-03-14 | 2008-12-02 | Avaya Inc. | Using gaze detection to determine an area of interest within a scene |
US7627481B1 (en) * | 2005-04-19 | 2009-12-01 | Apple Inc. | Adapting masking thresholds for encoding a low frequency transient signal in audio data |
-
2006
- 2006-10-18 US US11/550,629 patent/US7953595B2/en not_active Expired - Fee Related
-
2007
- 2007-08-29 TW TW096132103A patent/TWI347589B/zh active
- 2007-09-28 EP EP07019185A patent/EP1914724B1/en active Active
- 2007-10-16 JP JP2007269116A patent/JP4742087B2/ja not_active Expired - Fee Related
- 2007-10-18 CN CN2007101671272A patent/CN101165778B/zh active Active
-
2008
- 2008-06-03 HK HK08106189.0A patent/HK1111801A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
HK1111801A1 (en) | 2008-08-15 |
US20080097749A1 (en) | 2008-04-24 |
TW200828268A (en) | 2008-07-01 |
JP2008102520A (ja) | 2008-05-01 |
EP1914724B1 (en) | 2012-12-05 |
US7953595B2 (en) | 2011-05-31 |
CN101165778A (zh) | 2008-04-23 |
CN101165778B (zh) | 2011-10-19 |
EP1914724A2 (en) | 2008-04-23 |
TWI347589B (en) | 2011-08-21 |
EP1914724A3 (en) | 2011-12-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4742087B2 (ja) | オーディオ信号の2重変換符号化 | |
JP4942609B2 (ja) | 高速格子ベクトル量子化 | |
US5983172A (en) | Method for coding/decoding, coding/decoding device, and videoconferencing apparatus using such device | |
JP5788833B2 (ja) | オーディオ信号の符号化方法、オーディオ信号の復号化方法及び記録媒体 | |
JP4570250B2 (ja) | 信号の量子化変換係数をエントロピーエンコードするシステムと方法 | |
EP2402939B1 (en) | Full-band scalable audio codec | |
EP0884850A2 (en) | Scalable audio coding/decoding method and apparatus | |
JPWO2006049205A1 (ja) | スケーラブル復号化装置およびスケーラブル符号化装置 | |
JP3344962B2 (ja) | オーディオ信号符号化装置、及びオーディオ信号復号化装置 | |
JP4603485B2 (ja) | 音声・楽音符号化装置及び音声・楽音符号化方法 | |
JP3344944B2 (ja) | オーディオ信号符号化装置,オーディオ信号復号化装置,オーディオ信号符号化方法,及びオーディオ信号復号化方法 | |
JP3353868B2 (ja) | 音響信号変換符号化方法および復号化方法 | |
JP2006171751A (ja) | 音声符号化装置及び方法 | |
JP2003140692A (ja) | 符号化装置及び復号化装置 | |
JP4359949B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
JPWO2009153995A1 (ja) | 量子化装置、符号化装置およびこれらの方法 | |
JP2001242891A (ja) | 符号化音声信号形式変換装置 | |
JP4191503B2 (ja) | 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム | |
Ding | Wideband audio over narrowband low-resolution media | |
JPH08102678A (ja) | デイジタル信号の符号化/復号化装置及び方法 | |
Strahl et al. | An adaptive tree-based progressive audio compression scheme | |
Liu | The perceptual impact of different quantization schemes in G. 719 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110228 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110426 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110509 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |