JP6158421B2 - 先進量子化器 - Google Patents
先進量子化器 Download PDFInfo
- Publication number
- JP6158421B2 JP6158421B2 JP2016505843A JP2016505843A JP6158421B2 JP 6158421 B2 JP6158421 B2 JP 6158421B2 JP 2016505843 A JP2016505843 A JP 2016505843A JP 2016505843 A JP2016505843 A JP 2016505843A JP 6158421 B2 JP6158421 B2 JP 6158421B2
- Authority
- JP
- Japan
- Prior art keywords
- quantizers
- coefficients
- quantizer
- block
- coefficient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013139 quantization Methods 0.000 claims description 291
- 238000000034 method Methods 0.000 claims description 120
- 239000013598 vector Substances 0.000 claims description 67
- 230000003595 spectral effect Effects 0.000 claims description 62
- 238000001228 spectrum Methods 0.000 claims description 29
- 238000013179 statistical model Methods 0.000 claims description 18
- 238000009432 framing Methods 0.000 claims description 7
- 230000001174 ascending effect Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 description 44
- 230000005236 sound signal Effects 0.000 description 32
- 230000009286 beneficial effect Effects 0.000 description 20
- 230000006870 function Effects 0.000 description 20
- 238000010586 diagram Methods 0.000 description 17
- 238000004321 preservation Methods 0.000 description 15
- 230000015572 biosynthetic process Effects 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 14
- 230000001419 dependent effect Effects 0.000 description 14
- 238000003786 synthesis reaction Methods 0.000 description 14
- 238000012937 correction Methods 0.000 description 12
- 230000002829 reductive effect Effects 0.000 description 11
- 239000000203 mixture Substances 0.000 description 8
- 238000009826 distribution Methods 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 4
- 239000006185 dispersion Substances 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002441 reversible effect Effects 0.000 description 4
- 230000003068 static effect Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000003111 delayed effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 230000000996 additive effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- RZVAJINKPMORJF-UHFFFAOYSA-N Acetaminophen Chemical compound CC(=O)NC1=CC=C(O)C=C1 RZVAJINKPMORJF-UHFFFAOYSA-N 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 238000005429 filling process Methods 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000009827 uniform distribution Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/032—Quantisation or dequantisation of spectral components
- G10L19/035—Scalar quantisation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/022—Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
- G10L19/025—Detection of transients or attacks for time/frequency resolution switching
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
- G10L19/20—Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
本願は、2013年4月5日に出願された米国仮特許出願第61/808,673号および2013年9月10日に出願された米国仮特許出願第61/875,817号の優先権を主張するものである。各出願の内容はここに参照によりその全体において組み込まれる。
本稿はオーディオ・エンコードおよびデコード・システム(オーディオ・コーデック・システムと称される)に関する。特に、本稿は、音声エンコード/デコードに特に好適な変換ベースのオーディオ・コーデック・システムに関する。
・演算上の(エンコーダ)複雑さ。これは典型的には量子化およびビットストリーム生成(たとえば、可変長符号化)の計算量を含む。
・知覚的なパフォーマンス。これは理論的な考察に基づいて(レート‐歪みパフォーマンス)および関連するノイズ充填挙動に基づいて(たとえば、発話の低レートの変換符号化に実際上関連するビットレートで)推定されてもよい。
・全体的なビットレート制約条件(たとえば最大ビット数)があるときのビットレート割り当てプロセスの複雑さ;および/または
・種々のデータ・レートおよび種々の歪みレベルを可能にすることに関する柔軟性。
量子化器事後利得を適用する。
・ノイズ充填量子化器321。これは、0dBよりやや低いまたは0dBに等しいSNRを与えうる。該SNRはレート割り当てプロセスについては0dBと近似されてもよい。
・Ndith個の量子化器322。これは減算的ディザリングを使ってもよく、典型的には中間的なSNRレベルに対応する。(たとえばNdith>0)
・Ncq個の古典的量子化器323。これは減算的ディザリングを使わず、典型的には比較的高いSNRレベルに対応する(たとえばNcq>0)。ディザリングされない量子化器323はスカラー量子化器に対応しうる。
・量子化された現在の包絡134を示す包絡データ161。量子化された現在の包絡134は、変換係数のブロックの現在の集合132またはシフトされた集合332の諸ブロックの包絡を記述するために使われる。
・変換係数の現在ブロック131の補間された包絡136を調整するためのレベル補正利得aを示す利得データ162。典型的には、ブロックの現在の集合132またはシフトされた集合332の各ブロック131について異なる利得aが提供される。
・現在ブロック131についての予測誤差係数のブロック141を示す係数データ163。特に、係数データ163は、量子化された誤差係数のブロック145を示す。さらに、係数データ163は、デコーダにおいて逆量子化を実行するための量子化器を決定するために使われてもよいオフセット・パラメータを示してもよい。
・再構成された係数の以前のブロック149から、推定された係数のブロック150を決定するために使われるべき一つまたは複数の予測器係数を示す予測器データ164。
iAlloc[bandIdx]=iEnv[bandIdx]−(iMax−CONSTANT_OFFSET)+AllocOffset
によって与えられてもよい。ここで、CONSTANT_OFFSETは一定のオフセットであってもよく、たとえばCONSTANT_OFFSET=20である。例として、ビット割り当てプロセスが、ビットレート制約条件がオフセット・パラメータAllocOffset=−13を使って達成できると判定したとすると、七番目の周波数帯域の量子化器インデックス1007はiAlloc[7]=−17−(−15−20)−13=5として得られうる。上述したビット割り当て公式をすべての周波数帯域302について使うことによって、すべての周波数帯域302についての量子化器インデックス1006(および結果として量子化器321、322、323)が決定されうる。0より小さい量子化器インデックスは量子化器インデックス0に丸められてもよい。同様に、最大の利用可能な量子化器インデックスより大きい量子化器インデックスは、最大の利用可能な量子化器インデックスまで丸められてもよい。
rfu=min(1,max(g,0))
である。制御パラメータ146 rfuを決定するための代替的な諸方法が使われてもよい。特に、制御パラメータ146は、表1において与えられる擬似コードを使って決定されてもよい。
1.ターゲット・ベクトルxの要素は単位分散をもつ。これは、平坦化ユニット108によって実行される平坦化の結果であってもよい。この想定は、平坦化ユニット108によって実行される包絡ベースの平坦化の品質に依存して充足される。
2.予測残差ベクトルzの要素の分散は、i=1,…,Kおよび何らかのt≧0について、E{z2(i)}=min{t/w(i),1}の形である。この想定は、最小二乗指向の予測器探索は重み付け領域において均等に分布した誤差寄与につながり、残差ベクトル(√w)zは多少なりとも平坦になるというヒューリスティックに基づいている。さらに、予測器候補は平坦に近いことが期待されてもよく、これは合理的な限界E{z2(i)}≦1につながる。この第二の想定のさまざまな修正が使用されうることを注意しておくべきである。
・0ビット割り当てのための適応的なノイズ利得。換言すれば、ノイズ合成量子化器321のノイズ利得は分散保存フラグによって影響されてもよい。
・ディザリングされる量子化器の範囲。換言すれば、ディザリングされる量子化器322が使われるSNRの範囲324、325が、分散保存フラグによって影響されてもよい。
・ディザリングされる量子化器の事後利得。ディザリングされる量子化器の平均平方誤差パフォーマンスに影響するために、ディザリングされる量子化器の出力に対して事後利得が適用されてもよい。事後利得は、分散保存フラグに依存してもよい。
・ヒューリスティック・スケーリングの適用。(再スケーリング・ユニット111および逆再スケーリング・ユニット113における)ヒューリスティック・スケーリングの使用が分散保存フラグに依存してもよい。
いくつかの態様を記載しておく。
〔態様1〕
係数のブロック(141)の第一の係数を量子化するよう構成された量子化ユニット(112)であって、係数の前記ブロックは、複数の対応する周波数ビン(301)についての複数の係数を含み、当該量子化ユニットは、
・一組(326、327)の量子化器を提供するよう構成されており、前記一組の量子化器は、それぞれSNRと称される異なる信号対雑音比に関連付けられた限られた数の異なる量子化器を含み、前記一組の量子化器の前記異なる量子化器は、そのSNRに従って順序付けられており、前記一組の量子化器は、
・ノイズ充填量子化器(321);
・一つまたは複数のディザリングされる量子化器(322);および
・一つまたは複数のディザリングされない量子化器(323)を含み、
当該量子化ユニットはさらに、
・前記第一の係数に帰されるSNRを示すSNR指示を決定し;
・前記SNR指示に基づいて、前記一組の量子化器から第一の量子化器を選択し;
・前記第一の量子化器を使って前記第一の係数を量子化するよう構成されている、
量子化ユニット。
〔態様2〕
・前記ノイズ充填量子化器は、前記異なるSNRのうち相対的に最低のSNRに関連付けられており、
・前記一つまたは複数のディザリングされない量子化器は、前記異なるSNRのうち一つまたは複数の相対的に最高のSNRと関連付けられており、
・前記一つまたは複数のディザリングされる量子化器は、前記異なるSNRのうち、前記相対的に最低のSNRより高く、前記一つまたは複数の相対的に最高のSNRより低い、一つまたは複数の中間的なSNRに関連付けられている、
態様1記載の量子化ユニット。
〔態様3〕
前記一組の量子化器は、前記異なる量子化器に関連付けられたSNRの昇順に従って順序付けられている、態様1または2記載の量子化ユニット。
〔態様4〕
・順序付けられた前記一組の量子化器からの一対の隣接する量子化器に関連付けられたSNRの差によってSNR差が与えられ、
・前記異なる量子化器からの隣接する量子化器のすべての対についてのSNR差が、所定のSNRターゲット差を中心とする所定のSNR差区間内にはいる、
態様3記載の量子化ユニット。
〔態様5〕
前記所定のSNR差区間の幅は、前記所定のSNRターゲット差の所定の割合より小さい、態様4記載の量子化ユニット。
〔態様6〕
前記所定のSNRターゲット差は1.5dBである、態様4または5記載の量子化ユニット。
〔態様7〕
前記ノイズ充填量子化器は、
・所定の統計モデルに従って乱数を生成するよう構成された乱数発生器を有し;
・前記第一の係数の値を前記所定の統計モデルに従って前記乱数発生器によって生成された乱数で置き換えることによって、前記第一の係数を量子化するよう構成されており、
・本質的には0dBより低いまたは0dBに等しいSNRに関連付けられている、
態様1ないし6のうちいずれか一項記載の量子化ユニット。
〔態様8〕
前記一つまたは複数のディザリングされる量子化器のうちの特定のディザリングされる量子化器は、
・前記第一の係数にディザ値を適用することによって第一のディザリングされた係数を決定するよう構成されたディザ適用ユニット(611)と;
・前記第一のディザリングされた係数をスカラー量子化器のある区間に割り当てることによって第一の量子化インデックスを決定するよう構成されたスカラー量子化器(612)とを有する、
態様1ないし7のうちいずれか一項記載の量子化ユニット。
〔態様9〕
前記一つまたは複数のディザリングされる量子化器のうちの前記特定のディザリングされる量子化器はさらに、
・前記第一の量子化インデックスに第一の再構成値を割り当てるよう構成された逆スカラー量子化器(612)と;
・前記第一の再構成値から前記ディザ値を除去することによって、第一のディザリング解除された係数を決定するよう構成されたディザ除去ユニット(613)とを有する、
態様8記載の量子化ユニット。
〔態様10〕
・前記ディザ適用ユニットは、前記第一の係数から前記ディザ値を減算するよう構成されており、前記ディザ除去ユニットは前記第一の再構成値に前記ディザ値を加算するよう構成されている;または
・前記ディザ適用ユニットは前記第一の係数に前記ディザ値を加算するよう構成されており、前記ディザ除去ユニットは前記第一の再構成値から前記ディザ値を減算するよう構成されている、
態様9記載の量子化ユニット。
〔態様11〕
前記一つまたは複数のディザリングされる量子化器のうちの前記特定のディザリングされる量子化器はさらに、
・前記第一のディザリング解除された係数に量子化器事後利得γを適用することによって第一の量子化された係数を決定するよう構成された事後利得適用ユニットを有する、
態様9または10記載の量子化ユニット。
〔態様12〕
前記量子化器事後利得γは
態様11記載の量子化ユニット。
〔態様13〕
ディザ値のブロック(602)を生成するよう構成されたディザ生成器(601)をさらに有しており、ディザ値の前記ブロックは、それぞれ前記複数の周波数ビンについての複数のディザ値を含む、態様8ないし12のうちいずれか一項記載の量子化ユニット。
〔態様14〕
前記ディザ生成器は、
・Mは整数であるとして、M個の所定のディザ実現のうち一つを選択し;
・選択されたディザ実現に基づいてディザ値の前記ブロックを生成するよう構成されている、
態様13記載の量子化ユニット。
〔態様15〕
所定のディザ実現の数Mは10、5、4またはそれより少ない、態様14記載の量子化ユニット。
〔態様16〕
前記ディザ値が擬似乱数である、態様8ないし15のうちいずれか一項記載の量子化ユニット。
〔態様17〕
・前記スカラー量子化器が、所定の量子化器きざみサイズΔを有し;
・前記ディザ値は、所定のディザ区間からの値を取り;
・前記所定のディザ区間は、前記所定の量子化器きざみサイズΔ以下の幅を有する、
態様8ないし16のうちいずれか一項記載の量子化ユニット。
〔態様18〕
ディザ値の前記ブロックは、前記所定のディザ区間内に一様に分布している、態様13を引用する場合の態様17記載の量子化ユニット。
〔態様19〕
前記一つまたは複数のディザリングされる量子化器は減算的なディザリングされる量子化器である、態様1ないし18のうちいずれか一項記載の量子化ユニット。
〔態様20〕
前記一つまたは複数のディザリングされない量子化器のうちのあるディザリングされない量子化器は、所定の一様な量子化器きざみサイズをもつスカラー量子化器である、態様1ないし19のうちいずれか一項記載の量子化ユニット。
〔態様21〕
・係数の前記ブロック(141)は、スペクトル・ブロック包絡(136)に関連付けられており;
・前記スペクトル・ブロック包絡は前記複数の周波数ビンについて複数のスペクトル・エネルギー値(303)を示し;
・前記SNR指示が前記スペクトル・ブロック包絡に依存する、
態様1ないし20のうちいずれか一項記載の量子化ユニット。
〔態様22〕
・前記SNR指示がさらに、前記スペクトル・ブロック包絡をオフセットさせるためのオフセット・パラメータに依存し;
・前記オフセット・パラメータは、係数の前記ブロック(141)をエンコードするために利用可能な所定のビット数に依存する、
態様21記載の量子化ユニット。
〔態様23〕
前記第一の係数に帰されるSNRを示す前記SNR指示は、前記オフセット・パラメータを使って前記第一の係数の周波数ビンに関連付けられたスペクトル・ブロック包絡から導出される値をオフセットさせることによって決定される、態様22記載の量子化ユニット。
〔態様24〕
・前記SNR指示は、前記スペクトル・ブロック包絡から導出される割り当て包絡(138)に依存し;
・前記割り当て包絡は、割り当て分解能を有し;
・前記割り当て分解能は、前記一組の量子化器からの隣接する量子化器の間の前記SNR差に依存する、態様21ないし23のうちいずれか一項記載の量子化ユニット。
〔態様25〕
・係数の前記ブロック(141)の前記複数の係数は、複数の周波数帯域に割り当てられ;
・周波数帯域は、一つまたは複数の周波数ビンを含み;
・当該量子化ユニットは、同じ周波数帯域に割り当てられる係数が同じ量子化器を使って量子化されるよう、前記複数の周波数帯域のそれぞれについて前記一組の量子化器から量子化器を選択するよう構成されている、
態様1ないし24のうちいずれか一項記載の量子化ユニット。
〔態様26〕
周波数帯域当たりの周波数ビンの数は、周波数が増すとともに増大する、態様25記載の量子化ユニット。
〔態様27〕
当該量子化ユニットは、
・係数の前記ブロック(141)の属性を示すサイド情報(721)を決定し(701);
・前記サイド情報に依存して量子化器の前記組(326、327)を生成する(702)よう構成されている、
態様1ないし26のうちいずれか一項記載の量子化ユニット。
〔態様28〕
前記ノイズ充填量子化器の前記乱数発生器の前記所定の統計モデルは前記サイド情報に依存する、態様7を引用する場合の態様27記載の量子化ユニット。
〔態様29〕
前記一組の量子化器のうちのディザリングされる量子化器の数が前記サイド情報に依存する、態様27または28記載の量子化ユニット。
〔態様30〕
当該量子化ユニットは、当該量子化ユニットを有するエンコーダにおいておよび対応する逆量子化ユニットを有する対応するデコーダにおいて利用可能なデータから前記サイド情報を抽出するよう構成されている、態様27ないし29のうちいずれか一項記載の量子化ユニット。
〔態様31〕
前記サイド情報が:
・係数の前記ブロック(141)のトーン性内容を示す、前記エンコーダ内に含まれる予測器(117)によって決定された予測器利得;および/または
・係数の前記ブロックの摩擦性内容を示す、係数の前記ブロック(141)に基づいて導出されたスペクトル反射係数
のうちの少なくとも一つを含む、態様30記載の量子化ユニット。
〔態様32〕
前記一組の所定の量子化器に含まれるディザリングされる量子化器の数は、予測器利得の増大とともに減少し、予測器利得の減少とともに増大する、態様31記載の量子化ユニット。
〔態様33〕
・前記サイド情報が分散保存フラグを含み;
・前記分散保存フラグは、係数の前記ブロック(141)の分散がどのように調整されるべきかを示し;
・前記一組の量子化器は、前記分散保存フラグに依存して決定される、
態様27ないし32のうちいずれか一項記載の量子化ユニット。
〔態様34〕
前記ノイズ充填量子化器のノイズ利得が前記分散保存フラグに依存する、態様33記載の量子化ユニット。
〔態様35〕
前記一つまたは複数のディザリングされる量子化器によってカバーされるSNR範囲が前記分散保存フラグに依存して決定される、態様33または34記載の量子化ユニット。
〔態様36〕
前記事後利得γが前記分散保存フラグに依存する、態様33ないし35のうちいずれか一項記載の量子化ユニット。
〔態様37〕
量子化インデックスを量子化解除するよう構成された逆量子化ユニット(552)であって、前記量子化インデックスは、複数の対応する周波数ビンについて複数の係数を含む係数のブロックに関連付けられており、当該逆量子化ユニットは、
・一組の量子化器を提供するよう構成されており、前記一組の量子化器は、それぞれSNRと称される異なる信号対雑音比に関連付けられた、限られた数の異なる量子化器を含み、前記一組の量子化器の前記異なる量子化器は、そのSNRに従って順序付けられており、前記一組の量子化器は、
・ノイズ充填量子化器;
・一つまたは複数のディザリングされる量子化器;および
・一つまたは複数のディザリングされない量子化器を含み、
当該逆量子化ユニットはさらに、
・係数の前記ブロックからの第一の係数に帰されるSNRを示すSNR指示を決定し;
・前記SNR指示に基づいて前記一組の量子化器から第一の量子化器を選択し;
・前記第一の量子化器を使って前記第一の係数について第一の量子化された係数を決定するよう構成されている、
逆量子化ユニット。
〔態様38〕
オーディオ信号をビットストリームにエンコードするよう構成された変換ベースのオーディオ・エンコーダであって、
・ディザリングされる量子化器を使って、係数のブロック(141)からの複数の係数を量子化することによって複数の量子化インデックスを決定するよう構成された量子化ユニットを有しており、前記複数の係数は、複数の対応する周波数ビンに関連付けられており、係数の前記ブロックは、前記オーディオ信号から導出され、
当該オーディオ・エンコーダはさらに、
・Mが1より大きな整数であるとして、M個の所定のディザ実現のうちの一つを選択するよう構成されており、選択されたディザ実現に基づいて前記複数の係数を量子化するための複数のディザ値を生成するよう構成されたディザ生成器と;
・M個の所定のコードブックからコードブックを選択するよう構成されており、選択されたコードブックを使って前記複数の量子化インデックスをエントロピー符号化するよう構成されたエントロピー符号化器とを有しており、前記M個の所定のコードブックはそれぞれ前記M個の所定のディザ実現に関連付けられており、前記エントロピー符号化器は、前記ディザ生成器によって選択されたディザ実現に関連付けられたコードブックを選択するよう構成されており、エントロピー符号化された量子化インデックスを示す係数データが前記ビットストリーム中に挿入される、
変換ベースのオーディオ・エンコーダ。
〔態様39〕
所定のディザ実現の数Mが10、5、4またはそれより少ない、態様38記載の変換ベースの発話エンコーダ。
〔態様40〕
前記M個の所定のコードブックが、それぞれ前記M個の所定のディザ実現を使ってトレーニングされたものである、態様38または39記載の変換ベースの発話エンコーダ。
〔態様41〕
前記M個の所定のコードブックが可変長のハフマン符号語を含む、態様38ないし40のうちいずれか一項記載の変換ベースの発話エンコーダ。
〔態様42〕
ビットストリームをデコードして再構成されたオーディオ信号を提供するよう構成された変換ベースのオーディオ・デコーダであって、
・Mは1より大きな整数であるとして、M個の所定のディザ実現のうちの一つを選択するよう構成され、選択されたディザ実現に基づいて複数のディザ値を生成するよう構成されたディザ生成器を有しており、前記複数のディザ値は、対応する複数の量子化インデックスに基づいて対応する複数の量子化された係数を決定するよう構成されているディザリングされる量子化器を有する逆量子化ユニットによって使われるものであり、
当該変換ベースのオーディオ・デコーダはさらに、
・M個の所定のコードブックからコードブックを選択するよう構成され、選択されたコードブックを使って前記ビットストリームから係数データ(163)をエントロピー復号するよう構成されたエントロピー復号器を有しており、前記M個の所定のコードブックは、それぞれ前記M個の所定のディザ実現と関連付けられており、前記エントロピー復号器は、前記ディザ生成器によって選択されたディザ実現に関連付けられたコードブックを選択するよう構成されており、再構成されたオーディオ信号は、前記複数の量子化された係数に基づいて決定される、
変換ベースのオーディオ・デコーダ。
〔態様43〕
発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダであって、
・変換係数の複数の逐次的なブロック(131)を受領するよう構成されたフレーミング・ユニットであって、前記複数の逐次的なブロックは、現在ブロックおよび一つまたは複数の以前のブロックを含み、前記複数の逐次的なブロックは、発話信号のサンプルを示す、フレーミング・ユニットと;
・対応する現在ブロック包絡(136)を使って変換係数の対応する現在ブロック(131)を平坦化することによって、平坦化された変換係数の現在ブロック(140)を決定するよう構成された平坦化ユニットと;
・再構成された変換係数の一つまたは複数の以前のブロック(149)に基づいて、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在ブロック(150)を決定するよう構成された予測器であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロック(131)から導出されたものである、予測器と;
・平坦化された変換係数の現在ブロック(140)に基づいて、かつ推定された平坦化された変換係数の現在ブロック(150)に基づいて、予測誤差係数の現在ブロック(141)を決定するよう構成された差分ユニットと;
・予測誤差係数の現在ブロック(141)から導出された係数を量子化するよう構成された、態様1ないし36のうちいずれか一項記載の量子化ユニットとを有しており、前記ビットストリームについての係数データ(163)は量子化された係数に関連付けられた量子化インデックスに基づいて決定される、
変換ベースの発話エンコーダ。
〔態様44〕
・変換係数のブロック(131)がMDCT係数を含む;および/または
・変換係数のブロック(131)が、256個の周波数ビン内の256個の変換係数を含む、
態様43記載の変換ベースの発話エンコーダ。
〔態様45〕
再スケーリングされた誤差係数の現在ブロック(142)の再スケーリングされた誤差係数の分散が、平均では、予測誤差係数の現在ブロック(141)の予測誤差係数の分散より高くなるよう、一つまたは複数のスケーリング規則を使って予測誤差係数の現在ブロック(141)に基づいて、再スケーリングされた誤差係数の現在ブロック(142)を決定するよう構成されたスケーリング・ユニットをさらに有する、態様43または44記載の変換ベースの発話エンコーダ。
〔態様46〕
・予測誤差係数の現在ブロック(141)は、対応する複数の周波数ビンについての複数の予測誤差係数を含み、
・前記一つまたは複数のスケーリング規則に従って前記スケーリング・ユニットによって前記予測誤差係数に適用されるスケーリング利得は、それぞれの予測誤差係数の周波数ビンに依存する、
態様45記載の変換ベースの発話エンコーダ。
〔態様47〕
前記スケーリング規則は、前記一つまたは複数の予測器パラメータに依存する、態様45または46記載の変換ベースの発話エンコーダ。
〔態様48〕
前記スケーリング規則は、現在ブロック包絡(136)に依存する、態様45ないし47のうちいずれか一項記載の変換ベースの発話エンコーダ。
〔態様49〕
・前記予測器は、重み付けされた平均平方誤差基準を使って、推定された平坦化された変換係数の現在ブロック(150)を決定するよう構成されており、
・前記重み付けされた平均平方誤差基準は、現在ブロック包絡(136)を重みとして考慮に入れる、
態様39ないし48のうちいずれか一項記載の変換ベースの発話エンコーダ。
〔態様50〕
前記係数量子化ユニットは、再スケーリングされた誤差係数の現在ブロック(142)の再スケーリングされた誤差係数を量子化するよう構成されている、態様39ないし49のうちいずれか一項記載の変換ベースの発話エンコーダ。
〔態様51〕
・当該変換ベースの発話エンコーダが現在ブロック包絡(136)に基づいて割り当てベクトルを決定するよう構成されたビット割り当てユニット(109、110、171、172)をさらに有しており、
・前記割り当てベクトルは、予測誤差係数の現在ブロック(141)から導出された第一の係数を量子化するために使われる前記一組の所定の量子化器からの第一の量子化器を示す、
態様39ないし50のうちいずれか一項記載の変換ベースの発話エンコーダ。
〔態様52〕
前記割り当てベクトルが、それぞれ予測誤差係数の現在ブロック(141)から導出された係数全部について使われる諸量子化器を示す、態様51記載の変換ベースの発話エンコーダ。
〔態様53〕
前記ビット割り当てユニットは、前記一つまたは複数のスケーリング規則にも基づいて前記割り当てベクトルを決定するよう構成されている、態様45を引用する場合の態様51または52記載の変換ベースの発話エンコーダ。
〔態様54〕
前記ビット割り当てユニットは、
・予測誤差係数の現在ブロック(141)についての係数データ(163)が所定のビット数を超えないよう前記割り当てベクトルを決定し;
・現在ブロック包絡(136)から導出される割り当て包絡(138)に適用されるべきオフセットを示すオフセット・パラメータを決定するよう構成されており、
前記オフセット・パラメータが、前記ビットストリーム中に含められる、
態様51ないし53のうちいずれか一項記載の変換ベースの発話エンコーダ。
〔態様55〕
前記量子化された係数に関連付けられた量子化インデックスをエントロピー符号化するよう構成されたエントロピー符号化器をさらに有する、態様39ないし54のうちいずれか一項記載の変換ベースの発話エンコーダ。
〔態様56〕
前記エントロピー符号化器は、算術符号化器を使って前記量子化インデックスを符号化するよう構成されている、態様55記載の変換ベースの発話エンコーダ。
〔態様57〕
ビットストリームをデコードして再構成された発話信号を提供するよう構成された変換ベースの発話デコーダであって、
・再構成された変換係数の一つまたは複数の以前のブロック(149)に基づいて、かつ前記ビットストリームから導出される一つまたは複数の予測器パラメータ(520)に基づいて、推定された平坦化された変換係数の現在ブロック(150)を決定するよう構成された予測器と;
・一組の所定の量子化器を使って、前記ビットストリーム内に含まれる係数データ(163)に基づいて、量子化された予測誤差係数の現在ブロック(147)を決定するよう構成された、態様37記載の逆量子化ユニットと;
・推定された平坦化された変換係数の現在ブロック(150)に基づき、かつ量子化された予測誤差係数の現在ブロック(147)に基づいて、再構成された平坦化された変換係数の現在ブロック(148)を決定するよう構成された加算ユニットと;
・現在ブロック包絡(136)を使って、再構成された平坦化された変換係数の現在ブロック(148)にスペクトル形状を与えることによって、再構成された変換係数の現在ブロック(149)を決定するよう構成された逆平坦化ユニットとを有しており、
再構成された発話信号は、再構成された変換係数の現在ブロック(149)に基づいて決定される、
変換ベースの発話デコーダ。
〔態様58〕
係数のブロック(141)の第一の係数を量子化する方法であって、係数の前記ブロック(141)は、複数の対応する周波数ビンについての複数の係数を含み、当該方法は、
・一組の量子化器を提供する段階であって、前記一組の量子化器は、それぞれSNRと称される複数の異なる信号対雑音比に関連付けられた複数の異なる量子化器を含み、前記複数の異なる量子化器は、
・ノイズ充填量子化器、
・一つまたは複数のディザリングされる量子化器、および
・一つまたは複数のディザリングされない量子化器を含む、段階と;
・前記第一の係数に帰されるSNRを示すSNR指示を決定する段階と;
・前記SNR指示に基づいて、前記一組の量子化器から第一の量子化器を選択する段階と;
・前記第一の量子化器を使って前記第一の係数を量子化する段階とを含む、
方法。
〔態様59〕
量子化インデックスを量子化解除する方法であって、前記量子化インデックスは、複数の対応する周波数ビンについて複数の係数を含む係数のブロック(141)に関連付けられており、当該方法は、
・一組の量子化器を提供する段階であって、前記一組の量子化器は、それぞれSNRと称される複数の異なる信号対雑音比に関連付けられた複数の異なる量子化器を含み、前記複数の異なる量子化器は、
・ノイズ充填量子化器、
・一つまたは複数のディザリングされる量子化器、および
・一つまたは複数のディザリングされない量子化器を含む、段階と;
・係数の前記ブロック(141)からの第一の係数に帰されるSNRを示すSNR指示を決定する段階と;
・前記SNR指示に基づいて、前記一組の量子化器から第一の量子化器を選択する段階と;
・前記第一の量子化器を使って、前記第一の係数についての第一の量子化された係数を決定する段階とを含む、
方法。
〔態様60〕
オーディオ信号をビットストリームにエンコードする方法であって、
・ディザリングされる量子化器を使って係数のブロック(141)からの複数の係数を量子化することによって複数の量子化インデックスを決定する段階であって、前記複数の係数は複数の対応する周波数ビンに関連付けられており、係数の前記ブロック(141)は前記オーディオ信号から導出される、段階と;
・M個の所定のディザ実現の一つを選択する段階と;
・選択されたディザ実現に基づいて前記複数の係数を量子化するための複数のディザ値を生成する段階であって、Mは1より大きい整数である、段階と;
・M個の所定のコードブックからコードブックを選択する段階と;
・選択されたコードブックを使って前記複数の量子化インデックスをエントロピー符号化する段階であって、前記M個の所定のコードブックは、それぞれ前記M個の所定のディザ実現に関連付けられており、選択されたコードブックは、選択されたディザ実現に関連付けられている、段階と;
・エントロピー符号化された量子化インデックスを示す係数データ(163)を前記ビットストリーム中に挿入する段階とを含む、
方法。
〔態様61〕
ビットストリームをデコードして再構成されたオーディオ信号を提供する方法であって、
・M個の所定のディザ実現のうちの一つを選択する段階と;
・選択されたディザ実現に基づいて複数のディザ値を生成する段階であって、Mは1より大きい整数であり、前記複数のディザ値は、対応する複数の量子化インデックスに基づいて対応する複数の量子化された係数を決定する、ディザリングされる量子化器を有する逆量子化ユニットによって使われるものである、段階と;
・M個の所定のコードブックからコードブックを選択する段階と;
・選択されたコードブックを使って前記ビットストリームから係数データ(163)をエントロピー復号して、前記複数の量子化インデックスを提供する段階であって、前記個の所定のコードブックは、それぞれM個の所定のディザ実現と関連付けられており、選択されたコードブックは、選択されたディザ実現に関連付けられている、段階と;
・前記複数の量子化された係数に基づいて前記再構成されたオーディオ信号を決定する段階とを含む、
方法。
〔態様62〕
発話信号をビットストリームにエンコードする方法であって、
・現在ブロックおよび一つまたは複数の以前のブロックを含む変換係数の複数の逐次的なブロックを受領する段階であって、前記複数の逐次的なブロックは、発話信号のサンプルを示す、段階と;
・対応する現在ブロック包絡(136)を使って変換係数の対応する現在ブロックを平坦化することによって、平坦化された変換係数の現在ブロック(140)を決定する段階と;
・再構成された変換係数の一つまたは複数の以前のブロック(149)に基づいて、かつ一つまたは複数の予測器パラメータ(520)に基づいて、推定された平坦化された変換係数の現在ブロック(150)を決定する段階であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものである、段階と;
・平坦化された変換係数の現在ブロック(140)に基づいて、かつ推定された平坦化された変換係数の現在ブロック(150)に基づいて、予測誤差係数の現在ブロック(141)を決定する段階と;
・予測誤差係数の現在ブロック(141)から導出された係数を、態様58記載の方法に従って量子化する段階と;
・前記ビットストリームについての係数データ(163)を、前記量子化された係数に関連付けられた量子化インデックスに基づいて決定する段階とを含む、
方法。
〔態様63〕
ビットストリームをデコードして、再構成された発話信号を提供する方法であって、
・再構成された変換係数の一つまたは複数の以前のブロック(149)に基づき、かつ前記ビットストリームから導出された一つまたは複数の予測器パラメータ(520)に基づいて、推定された平坦化された変換係数の現在ブロック(150)を決定する段階と;
・態様59記載の方法を使って、前記ビットストリーム内に含まれる係数データ(163)に基づいて、量子化された予測残差係数の現在ブロック(147)を決定する段階と;
・推定された平坦化された変換係数の現在ブロック(150)に基づき、かつ量子化された予測誤差係数の現在ブロック(147)に基づいて、再構成された平坦化された変換係数の現在ブロック(148)を決定する段階と;
・現在ブロック包絡(136)を使って、再構成された平坦化された変換係数の現在ブロック(148)にスペクトル形状を与えることによって、再構成された変換係数の現在ブロック(149)を決定する段階と;
・再構成された変換係数の現在ブロック(149)に基づいて再構成された発話信号を決定する段階とを含む、
方法。
Claims (20)
- 係数のブロックの第一の係数を量子化するよう構成された量子化ユニットであって、係数の前記ブロックは、複数の対応する周波数ビンについての複数の係数を含み、当該量子化ユニットは、
・一組の量子化器を提供するよう構成されており、前記一組の量子化器は、それぞれSNRと称される異なる信号対雑音比に関連付けられた限られた数の異なる量子化器を含み、前記一組の量子化器の前記異なる量子化器は、そのSNRに従って順序付けられており、前記一組の量子化器は、
・前記第一の係数の値を所定の統計モデルに従って生成されたランダムな値で置き換えることによって、前記第一の係数を量子化するよう構成されているノイズ充填量子化器;
・一つまたは複数のディザリングされる量子化器;および
・一つまたは複数のディザリングされない決定論的な量子化器を含み、
当該量子化ユニットはさらに、
・前記第一の係数に帰されるSNRを示すSNR指示を決定し;
・前記SNR指示に基づいて、前記一組の量子化器から第一の量子化器を選択し;
・前記第一の量子化器を使って前記第一の係数を量子化するよう構成されている、
量子化ユニット。 - ・前記ノイズ充填量子化器は、前記異なるSNRのうち相対的に最低のSNRに関連付けられており、
・前記一つまたは複数のディザリングされない決定論的な量子化器は、前記異なるSNRのうち一つまたは複数の相対的に最高のSNRと関連付けられており、
・前記一つまたは複数のディザリングされる量子化器は、前記異なるSNRのうち、前記相対的に最低のSNRより高く、前記一つまたは複数の相対的に最高のSNRより低い、一つまたは複数の中間的なSNRに関連付けられている、
請求項1記載の量子化ユニット。 - 前記一組の量子化器は、前記異なる量子化器に関連付けられたSNRの昇順に従って順序付けられている、請求項1記載の量子化ユニット。
- ・順序付けられた前記一組の量子化器における順序付けにおいて隣接する一対の量子化器に関連付けられたSNRの差によってSNR差が与えられ、
・前記異なる量子化器からの隣接する量子化器のすべての対についてのSNR差が、所定のSNRターゲット差を中心とする所定のSNR差区間内にはいる、
請求項3記載の量子化ユニット。 - 前記ノイズ充填量子化器は、
・前記所定の統計モデルに従って乱数を生成するよう構成された乱数発生器を有する;および/または
・本質的には0dBより低いまたは0dBに等しいSNRに関連付けられている、
請求項1記載の量子化ユニット。 - 前記一つまたは複数のディザリングされる量子化器のうちの特定のディザリングされる量子化器は、
・前記第一の係数にディザ値を適用することによって第一のディザリングされた係数を決定するよう構成されたディザ適用ユニットと;
・前記第一のディザリングされた係数をスカラー量子化器のある区間に割り当てることによって第一の量子化インデックスを決定するよう構成されたスカラー量子化器とを有する、
請求項1記載の量子化ユニット。 - 前記一つまたは複数のディザリングされる量子化器のうちの前記特定のディザリングされる量子化器はさらに、
・前記第一の量子化インデックスに第一の再構成値を割り当てるよう構成された逆スカラー量子化器と;
・前記第一の再構成値から前記ディザ値を除去することによって、第一のディザリング解除された係数を決定するよう構成されたディザ除去ユニットとを有する、
請求項6記載の量子化ユニット。 - ・前記スカラー量子化器が、所定の量子化器きざみサイズΔを有し;
・前記ディザ値は、所定のディザ区間からの値を取り;
・前記所定のディザ区間は、前記所定の量子化器きざみサイズΔ以下の幅を有する、
請求項6記載の量子化ユニット。 - ・係数の前記ブロックは、スペクトル・ブロック包絡に関連付けられており;
・前記スペクトル・ブロック包絡は前記複数の周波数ビンについて複数のスペクトル・エネルギー値を示し;
・前記SNR指示が前記スペクトル・ブロック包絡に依存する、
請求項1記載の量子化ユニット。 - ・係数の前記ブロックの前記複数の係数は、複数の周波数帯域に割り当てられ;
・周波数帯域は、一つまたは複数の周波数ビンを含み;
・当該量子化ユニットは、同じ周波数帯域に割り当てられる係数が同じ量子化器を使って量子化されるよう、前記複数の周波数帯域のそれぞれについて前記一組の量子化器から量子化器を選択するよう構成されている、
請求項1記載の量子化ユニット。 - 当該量子化ユニットは、
・係数の前記ブロックの属性を示すサイド情報を決定し;
・前記サイド情報に依存して量子化器の前記組を生成するよう構成されている、
請求項1記載の量子化ユニット。 - 量子化インデックスを量子化解除するよう構成された逆量子化ユニットであって、前記量子化インデックスは、複数の対応する周波数ビンについて複数の係数を含む係数のブロックに関連付けられており、当該逆量子化ユニットは、
・一組の量子化器を提供するよう構成されており、前記一組の量子化器は、それぞれSNRと称される異なる信号対雑音比に関連付けられた、限られた数の異なる量子化器を含み、前記一組の量子化器の前記異なる量子化器は、そのSNRに従って順序付けられており、前記一組の量子化器は、
・係数の値を所定の統計モデルに従って生成されたランダムな値で置き換えることによって、該係数を量子化するよう構成されているノイズ充填量子化器;
・一つまたは複数のディザリングされる量子化器;および
・一つまたは複数のディザリングされない決定論的な量子化器を含み、
当該逆量子化ユニットはさらに、
・係数の前記ブロックからの第一の係数に帰されるSNRを示すSNR指示を決定し;
・前記SNR指示に基づいて前記一組の量子化器から第一の量子化器を選択し;
・前記第一の量子化器を使って前記第一の係数について第一の量子化された係数を決定するよう構成されている、
逆量子化ユニット。 - 発話信号をビットストリームにエンコードするよう構成された変換ベースの発話エンコーダであって、
・変換係数の複数の逐次的なブロックを受領するよう構成されたフレーミング・ユニットであって、前記複数の逐次的なブロックは、現在ブロックおよび一つまたは複数の以前のブロックを含み、前記複数の逐次的なブロックは、発話信号のサンプルを示す、フレーミング・ユニットと;
・対応する現在ブロック包絡を使って変換係数の対応する現在ブロックを平坦化することによって、平坦化された変換係数の現在ブロックを決定するよう構成された平坦化ユニットと;
・再構成された変換係数の一つまたは複数の以前のブロックに基づいて、かつ一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在ブロックを決定するよう構成された予測器であって、再構成された変換係数の前記一つまたは複数の以前のブロックは、変換係数の前記一つまたは複数の以前のブロックから導出されたものである、予測器と;
・平坦化された変換係数の現在ブロックに基づいて、かつ推定された平坦化された変換係数の現在ブロックに基づいて、予測誤差係数の現在ブロックを決定するよう構成された差分ユニットと;
・予測誤差係数の現在ブロックから導出された係数を量子化するよう構成された、請求項1記載の量子化ユニットとを有しており、前記ビットストリームについての係数データは量子化された係数に関連付けられた量子化インデックスに基づいて決定される、
変換ベースの発話エンコーダ。 - ・変換係数のブロックがMDCT係数を含む;および/または
・変換係数のブロックが、256個の周波数ビン内の256個の変換係数を含む、
請求項13記載の変換ベースの発話エンコーダ。 - 再スケーリングされた誤差係数の現在ブロックの再スケーリングされた誤差係数の分散が、平均では、予測誤差係数の現在ブロックの予測誤差係数の分散より高くなるよう、一つまたは複数のスケーリング規則を使って予測誤差係数の現在ブロックに基づいて、再スケーリングされた誤差係数の現在ブロックを決定するよう構成されたスケーリング・ユニットをさらに有し、
・予測誤差係数の現在ブロックは、対応する複数の周波数ビンについての複数の予測誤差係数を含み、
・前記一つまたは複数のスケーリング規則に従って前記スケーリング・ユニットによって前記予測誤差係数に適用されるスケーリング利得は、それぞれの予測誤差係数の周波数ビンに依存する、
請求項13記載の変換ベースの発話エンコーダ。 - ・前記予測器は、重み付けされた平均平方誤差基準を使って、推定された平坦化された変換係数の現在ブロックを決定するよう構成されており、
・前記重み付けされた平均平方誤差基準は、現在ブロック包絡を重みとして考慮に入れる、
請求項13記載の変換ベースの発話エンコーダ。 - ・当該変換ベースの発話エンコーダが現在ブロック包絡に基づいて割り当てベクトルを決定するよう構成されたビット割り当てユニットをさらに有しており、
・前記割り当てベクトルは、予測誤差係数の現在ブロックから導出された少なくとも一つの係数を量子化するために使われる前記一組の所定の量子化器からの量子化器を示す、
請求項15記載の変換ベースの発話エンコーダ。 - ビットストリームをデコードして再構成された発話信号を提供するよう構成された変換ベースの発話デコーダであって、
・再構成された変換係数の一つまたは複数の以前のブロックに基づいて、かつ前記ビットストリームから導出される一つまたは複数の予測器パラメータに基づいて、推定された平坦化された変換係数の現在ブロックを決定するよう構成された予測器と;
・一組の所定の量子化器を使って、前記ビットストリーム内に含まれる係数データに基づいて、量子化された予測誤差係数の現在ブロックを決定するよう構成された、請求項12記載の逆量子化ユニットと;
・推定された平坦化された変換係数の現在ブロックに基づき、かつ量子化された予測器誤差係数の現在ブロックに基づいて、再構成された平坦化された変換係数の現在ブロックを決定するよう構成された加算ユニットと;
・現在ブロック包絡を使って、再構成された平坦化された変換係数の現在ブロックにスペクトル形状を与えることによって、再構成された変換係数の現在ブロックを決定するよう構成された逆平坦化ユニットとを有しており、
再構成された発話信号は、再構成された変換係数の現在ブロックに基づいて決定される、
変換ベースの発話デコーダ。 - 係数のブロックの第一の係数を量子化する方法であって、係数の前記ブロックは、複数の対応する周波数ビンについての複数の係数を含み、当該方法は、
・一組の量子化器を提供する段階であって、前記一組の量子化器は、それぞれSNRと称される複数の異なる信号対雑音比に関連付けられた複数の異なる量子化器を含み、前記複数の異なる量子化器は、
・前記第一の係数の値を所定の統計モデルに従って生成されたランダムな値で置き換えることによって、前記第一の係数を量子化するよう構成されているノイズ充填量子化器、
・一つまたは複数のディザリングされる量子化器、および
・一つまたは複数のディザリングされない決定論的な量子化器を含む、段階と;
・前記第一の係数に帰されるSNRを示すSNR指示を決定する段階と;
・前記SNR指示に基づいて、前記一組の量子化器から第一の量子化器を選択する段階と;
・前記第一の量子化器を使って前記第一の係数を量子化する段階とを含む、
方法。 - 量子化インデックスを量子化解除する方法であって、前記量子化インデックスは、複数の対応する周波数ビンについて複数の係数を含む係数のブロックに関連付けられており、当該方法は、
・一組の量子化器を提供する段階であって、前記一組の量子化器は、それぞれSNRと称される複数の異なる信号対雑音比に関連付けられた複数の異なる量子化器を含み、前記複数の異なる量子化器は、
・係数の値を所定の統計モデルに従って生成されたランダムな値で置き換えることによって、該係数を量子化するよう構成されているノイズ充填量子化器、
・一つまたは複数のディザリングされる量子化器、および
・一つまたは複数のディザリングされない決定論的な量子化器を含む、段階と;
・係数の前記ブロックからの第一の係数に帰されるSNRを示すSNR指示を決定する段階と;
・前記SNR指示に基づいて、前記一組の量子化器から第一の量子化器を選択する段階と;
・前記第一の量子化器を使って、前記第一の係数についての第一の量子化された係数を決定する段階とを含む、
方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361808673P | 2013-04-05 | 2013-04-05 | |
US61/808,673 | 2013-04-05 | ||
US201361875817P | 2013-09-10 | 2013-09-10 | |
US61/875,817 | 2013-09-10 | ||
PCT/EP2014/056855 WO2014161994A2 (en) | 2013-04-05 | 2014-04-04 | Advanced quantizer |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017112284A Division JP6452759B2 (ja) | 2013-04-05 | 2017-06-07 | 先進量子化器 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016519787A JP2016519787A (ja) | 2016-07-07 |
JP6158421B2 true JP6158421B2 (ja) | 2017-07-05 |
Family
ID=50442507
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016505843A Active JP6158421B2 (ja) | 2013-04-05 | 2014-04-04 | 先進量子化器 |
JP2017112284A Active JP6452759B2 (ja) | 2013-04-05 | 2017-06-07 | 先進量子化器 |
JP2018231463A Active JP6779966B2 (ja) | 2013-04-05 | 2018-12-11 | 先進量子化器 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017112284A Active JP6452759B2 (ja) | 2013-04-05 | 2017-06-07 | 先進量子化器 |
JP2018231463A Active JP6779966B2 (ja) | 2013-04-05 | 2018-12-11 | 先進量子化器 |
Country Status (10)
Country | Link |
---|---|
US (2) | US9940942B2 (ja) |
EP (2) | EP3217398B1 (ja) |
JP (3) | JP6158421B2 (ja) |
KR (3) | KR102072365B1 (ja) |
CN (1) | CN105144288B (ja) |
BR (1) | BR112015025009B1 (ja) |
ES (1) | ES2628127T3 (ja) |
HK (1) | HK1215751A1 (ja) |
RU (2) | RU2640722C2 (ja) |
WO (1) | WO2014161994A2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9940942B2 (en) * | 2013-04-05 | 2018-04-10 | Dolby International Ab | Advanced quantizer |
EP3413307B1 (en) * | 2014-07-25 | 2020-07-15 | FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. | Audio signal coding apparatus, audio signal decoding device, and methods thereof |
WO2016162283A1 (en) * | 2015-04-07 | 2016-10-13 | Dolby International Ab | Audio coding with range extension |
US10321164B2 (en) * | 2015-09-29 | 2019-06-11 | Apple Inc. | System and method for improving graphics and other signal results through signal transformation and application of dithering |
GB2547877B (en) * | 2015-12-21 | 2019-08-14 | Graham Craven Peter | Lossless bandsplitting and bandjoining using allpass filters |
KR101968456B1 (ko) | 2016-01-26 | 2019-04-11 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 적응형 양자화 |
WO2018133043A1 (zh) * | 2017-01-20 | 2018-07-26 | 华为技术有限公司 | 量化器与量化方法 |
EP3544005B1 (en) * | 2018-03-22 | 2021-12-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding with dithered quantization |
JP2022523564A (ja) | 2019-03-04 | 2022-04-25 | アイオーカレンツ, インコーポレイテッド | 機械学習を使用するデータ圧縮および通信 |
CN114019449B (zh) * | 2022-01-10 | 2022-04-19 | 南京理工大学 | 信号源的波达方向估计方法、装置、电子设备及存储介质 |
Family Cites Families (42)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5388181A (en) | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
EP0588932B1 (en) | 1991-06-11 | 2001-11-14 | QUALCOMM Incorporated | Variable rate vocoder |
SE506379C3 (sv) * | 1995-03-22 | 1998-01-19 | Ericsson Telefon Ab L M | Lpc-talkodare med kombinerad excitation |
GB9509831D0 (en) | 1995-05-15 | 1995-07-05 | Gerzon Michael A | Lossless coding method for waveform data |
US5956674A (en) | 1995-12-01 | 1999-09-21 | Digital Theater Systems, Inc. | Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels |
US5805228A (en) | 1996-08-09 | 1998-09-08 | U.S. Robotics Access Corp. | Video encoder/decoder system |
US5990815A (en) * | 1997-09-30 | 1999-11-23 | Raytheon Company | Monolithic circuit and method for adding a randomized dither signal to the fine quantizer element of a subranging analog-to digital converter (ADC) |
US6170052B1 (en) | 1997-12-31 | 2001-01-02 | Intel Corporation | Method and apparatus for implementing predicated sequences in a processor with renaming |
US6029126A (en) | 1998-06-30 | 2000-02-22 | Microsoft Corporation | Scalable audio coder and decoder |
US6253165B1 (en) | 1998-06-30 | 2001-06-26 | Microsoft Corporation | System and method for modeling probability distribution functions of transform coefficients of encoded signal |
US6370502B1 (en) * | 1999-05-27 | 2002-04-09 | America Online, Inc. | Method and system for reduction of quantization-induced block-discontinuities and general purpose audio codec |
US7110953B1 (en) * | 2000-06-02 | 2006-09-19 | Agere Systems Inc. | Perceptual coding of audio signals using separated irrelevancy reduction and redundancy reduction |
US6662155B2 (en) * | 2000-11-27 | 2003-12-09 | Nokia Corporation | Method and system for comfort noise generation in speech communication |
CA2388358A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for multi-rate lattice vector quantization |
US7447631B2 (en) * | 2002-06-17 | 2008-11-04 | Dolby Laboratories Licensing Corporation | Audio coding system using spectral hole filling |
US7536305B2 (en) * | 2002-09-04 | 2009-05-19 | Microsoft Corporation | Mixed lossless audio compression |
US6812876B1 (en) * | 2003-08-19 | 2004-11-02 | Broadcom Corporation | System and method for spectral shaping of dither signals |
CA2992097C (en) * | 2004-03-01 | 2018-09-11 | Dolby Laboratories Licensing Corporation | Reconstructing audio signals with multiple decorrelation techniques and differentially coded parameters |
WO2006031737A2 (en) * | 2004-09-14 | 2006-03-23 | Gary Demos | High quality wide-range multi-layer compression coding system |
ATE378675T1 (de) | 2005-04-19 | 2007-11-15 | Coding Tech Ab | Energieabhängige quantisierung für effiziente kodierung räumlicher audioparameter |
US7885809B2 (en) | 2005-04-20 | 2011-02-08 | Ntt Docomo, Inc. | Quantization of speech and audio coding parameters using partial information on atypical subsequences |
US7805314B2 (en) * | 2005-07-13 | 2010-09-28 | Samsung Electronics Co., Ltd. | Method and apparatus to quantize/dequantize frequency amplitude data and method and apparatus to audio encode/decode using the method and apparatus to quantize/dequantize frequency amplitude data |
KR100851970B1 (ko) * | 2005-07-15 | 2008-08-12 | 삼성전자주식회사 | 오디오 신호의 중요주파수 성분 추출방법 및 장치와 이를이용한 저비트율 오디오 신호 부호화/복호화 방법 및 장치 |
CN1964244B (zh) * | 2005-11-08 | 2010-04-07 | 厦门致晟科技有限公司 | 一种用声码器收发数字信号的方法 |
GB0600141D0 (en) | 2006-01-05 | 2006-02-15 | British Broadcasting Corp | Scalable coding of video signals |
DE102006060338A1 (de) * | 2006-12-13 | 2008-06-19 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Haftfester Metall-Keramik-Verbund und Verfahren zu seiner Herstellung |
EP1981170A1 (en) | 2007-04-13 | 2008-10-15 | Global IP Solutions (GIPS) AB | Adaptive, scalable packet loss recovery |
EP2077551B1 (en) | 2008-01-04 | 2011-03-02 | Dolby Sweden AB | Audio encoder and decoder |
CA2729665C (en) | 2008-07-10 | 2016-11-22 | Voiceage Corporation | Variable bit rate lpc filter quantizing and inverse quantizing device and method |
EP2304719B1 (en) | 2008-07-11 | 2017-07-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoder, methods for providing an audio stream and computer program |
GB2466675B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
JP2012522459A (ja) * | 2009-03-31 | 2012-09-20 | アギア システムズ インコーポレーテッド | デルタシグマ変調器を用いてrf信号を直接合成するための方法および装置 |
US7868798B2 (en) * | 2009-03-31 | 2011-01-11 | Lsi Corporation | Methods and apparatus for whitening quantization noise in a delta-sigma modulator using dither signal |
US7834788B2 (en) * | 2009-03-31 | 2010-11-16 | Lsi Corporation | Methods and apparatus for decorrelating quantization noise in a delta-sigma modulator |
CN102081927B (zh) * | 2009-11-27 | 2012-07-18 | 中兴通讯股份有限公司 | 一种可分层音频编码、解码方法及系统 |
EP2372699B1 (en) | 2010-03-02 | 2012-12-19 | Google, Inc. | Coding of audio or video samples using multiple quantizers |
JP5316896B2 (ja) * | 2010-03-17 | 2013-10-16 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
US8508395B2 (en) * | 2010-07-19 | 2013-08-13 | Massachusetts Institute Of Technology | Time varying quantization-based linearity enhancement of signal converters and mixed-signal systems |
US9009036B2 (en) | 2011-03-07 | 2015-04-14 | Xiph.org Foundation | Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding |
CA3076775C (en) | 2013-01-08 | 2020-10-27 | Dolby International Ab | Model based prediction in a critically sampled filterbank |
US9940942B2 (en) * | 2013-04-05 | 2018-04-10 | Dolby International Ab | Advanced quantizer |
US9503120B1 (en) * | 2016-02-29 | 2016-11-22 | Analog Devices Global | Signal dependent subtractive dithering |
-
2014
- 2014-04-04 US US14/781,700 patent/US9940942B2/en active Active
- 2014-04-04 CN CN201480019363.8A patent/CN105144288B/zh active Active
- 2014-04-04 ES ES14715894.3T patent/ES2628127T3/es active Active
- 2014-04-04 KR KR1020197023624A patent/KR102072365B1/ko active IP Right Grant
- 2014-04-04 EP EP17164112.9A patent/EP3217398B1/en active Active
- 2014-04-04 KR KR1020177017734A patent/KR102069493B1/ko active IP Right Grant
- 2014-04-04 RU RU2015141996A patent/RU2640722C2/ru active
- 2014-04-04 JP JP2016505843A patent/JP6158421B2/ja active Active
- 2014-04-04 BR BR112015025009-2A patent/BR112015025009B1/pt active IP Right Grant
- 2014-04-04 KR KR1020157027505A patent/KR101754094B1/ko active IP Right Grant
- 2014-04-04 WO PCT/EP2014/056855 patent/WO2014161994A2/en active Application Filing
- 2014-04-04 EP EP14715894.3A patent/EP2981961B1/en active Active
-
2016
- 2016-03-30 HK HK16103658.9A patent/HK1215751A1/zh unknown
-
2017
- 2017-06-07 JP JP2017112284A patent/JP6452759B2/ja active Active
- 2017-12-13 RU RU2017143614A patent/RU2752127C2/ru active
-
2018
- 2018-03-22 US US15/933,108 patent/US10311884B2/en active Active
- 2018-12-11 JP JP2018231463A patent/JP6779966B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
KR102072365B1 (ko) | 2020-02-03 |
RU2640722C2 (ru) | 2018-01-11 |
CN105144288A (zh) | 2015-12-09 |
WO2014161994A2 (en) | 2014-10-09 |
KR20150139518A (ko) | 2015-12-11 |
EP2981961B1 (en) | 2017-05-10 |
JP6452759B2 (ja) | 2019-01-16 |
ES2628127T3 (es) | 2017-08-01 |
RU2752127C2 (ru) | 2021-07-23 |
US20180211677A1 (en) | 2018-07-26 |
BR112015025009A2 (pt) | 2017-07-18 |
JP6779966B2 (ja) | 2020-11-04 |
JP2019079057A (ja) | 2019-05-23 |
RU2015141996A (ru) | 2017-04-13 |
EP3217398B1 (en) | 2019-08-14 |
KR20190097312A (ko) | 2019-08-20 |
WO2014161994A3 (en) | 2014-11-27 |
HK1215751A1 (zh) | 2016-09-09 |
EP3217398A1 (en) | 2017-09-13 |
KR102069493B1 (ko) | 2020-01-28 |
CN105144288B (zh) | 2019-12-27 |
US20160042744A1 (en) | 2016-02-11 |
JP2016519787A (ja) | 2016-07-07 |
BR112015025009B1 (pt) | 2021-12-21 |
EP2981961A2 (en) | 2016-02-10 |
RU2017143614A3 (ja) | 2021-01-22 |
US9940942B2 (en) | 2018-04-10 |
KR20170078869A (ko) | 2017-07-07 |
JP2017182087A (ja) | 2017-10-05 |
US10311884B2 (en) | 2019-06-04 |
RU2017143614A (ru) | 2019-02-14 |
KR101754094B1 (ko) | 2017-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6452759B2 (ja) | 先進量子化器 | |
JP6227117B2 (ja) | オーディオ・エンコーダおよびデコーダ | |
RU2696292C2 (ru) | Аудиокодер и декодер | |
RU2823174C2 (ru) | Усовершенствованный квантователь | |
RU2828411C2 (ru) | Звуковые кодирующее устройство и декодирующее устройство |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20161213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170208 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170509 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170607 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6158421 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |