JP5587501B2 - 複数段階の形状ベクトル量子化のためのシステム、方法、装置、およびコンピュータ可読媒体 - Google Patents

複数段階の形状ベクトル量子化のためのシステム、方法、装置、およびコンピュータ可読媒体 Download PDF

Info

Publication number
JP5587501B2
JP5587501B2 JP2013523223A JP2013523223A JP5587501B2 JP 5587501 B2 JP5587501 B2 JP 5587501B2 JP 2013523223 A JP2013523223 A JP 2013523223A JP 2013523223 A JP2013523223 A JP 2013523223A JP 5587501 B2 JP5587501 B2 JP 5587501B2
Authority
JP
Japan
Prior art keywords
vector
codebook
rotation matrix
vectors
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013523223A
Other languages
English (en)
Other versions
JP2013539548A (ja
Inventor
ドゥニ、イーサン・アール.
クリシュナン、ベンカテシュ
ラジェンドラン、ビベク
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Publication of JP2013539548A publication Critical patent/JP2013539548A/ja
Application granted granted Critical
Publication of JP5587501B2 publication Critical patent/JP5587501B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Description

[米国特許法第119条に基づく優先権の主張]
本特許出願は、2010年7月30日に出願された、「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR EFFICIENT TRANSFORM−DOMAIN CODING OF AUDIO SIGNALS」という表題の仮出願第61/369,662号の優先権を主張する。本特許出願は、2010年7月31日に出願された、「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR DYNAMIC BIT ALLOCATION」という表題の仮出願第61/369,705号の優先権を主張する。本特許出願は、2010年8月1日に出願された、「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR MULTI−STAGE SHAPE VECTOR QUANTIZATION」という表題の仮出願第61/369,751号の優先権を主張する。本特許出願は、2010年8月17日に出願された、「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR GENERALIZED AUDIO CODING」という表題の仮出願第61/374,565号の優先権を主張する。本特許出願は、2010年9月17日に出願された、「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR GENERALIZED AUDIO CODING」という表題の仮出願第61/384,237号の優先権を主張する。本特許出願は、2011年3月31日に出願された、「SYSTEMS,METHODS,APPARATUS,AND COMPUTER−READABLE MEDIA FOR DYNAMIC BIT ALLOCATION」という表題の仮出願第61/470,438号の優先権を主張する。
[分野]
本開示は、音声信号処理の分野に関する。
[背景]
通常、修正離散コサイン変換(MDCT)に基づく符号化方式が、発話コンテンツおよび/または音楽のような非発話コンテンツを含み得る、汎用音声信号を符号化するために使われる。MDCT符号化を使う既存の音声コーデックの例には、MPEG−1 Audio Layer 3(MP3)、Dolby Digital(英国、ロンドンのDolby Labsによる、AC−3とも呼ばれATSC A/52として標準化されている)、Vorbis(マサチューセッツ州サマービルのXiph.Org Foundationによる)、Windows(登録商標) Media Audio(WMA、ワシントン州レドモンドのMicrosoft Corpによる)、Adaptive Transform Acoustic Coding(ATRAC、東京のSony Corpによる)、およびAdvanced Audio Coding(AAC、ISO/IEC 14496−3:2009において最近標準化された)がある。MDCT符号化はまた、Enhanced Variable Rate Codec(EVRC、2010年1月25日に第3世代パートナーシッププロジェクト2(3GPP2)の文書C.S0014−D v2.0で標準化された)のような、いくつかの通信規格の構成要素でもある。G.718コーデック(スイス、ジュネーブの電気通信標準化部門(ITU−T)による、2008年6月制定、2008年11月および2009年8月修正、2009年3月および2010年3月改正の、「Frame error robust narrowband and wideband embedded variable bit−rate coding of speech and audio from 8−32kbit/s」)は、MDCT符号化を使うマルチレイヤコーデックの一例である。
一般的な構成によるベクトル量子化(vector quantization)の方法は、第1のコードブックの複数の第1のコードブックベクトル(codebook vector)のうちから対応する1つを選択することによって、第1の方向を有する第1の入力ベクトルを量子化することと、選択された第1のコードブックベクトルに基づく回転行列(rotation matrix)を生成することとを含む。この方法はまた、(A)第1の方向を有するベクトルと(B)回転行列との積を計算して、第1の方向とは異なる第2の方向を有する回転されたベクトルを生成することと、第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択することによって、第2の方向を有する第2の入力ベクトルを量子化することとを含む。対応するベクトル逆量子化の方法も開示される。有形な機構を有し、その機構が、機械にその機構を読み取らせてそのような方法を実行させる、コンピュータ可読記憶媒体(たとえば、非一時的媒体)も開示される。
一般的な構成によるベクトル量子化のための装置は、第1の方向を有する第1の入力ベクトルを受け取って、第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択するように構成される、第1のベクトル量子化器(vector quantizer)と、選択された第1のコードブックベクトルに基づく回転行列を生成するように構成される、回転行列生成器とを含む。この装置はまた、(A)第1の方向を有するベクトルと(B)回転行列との積を計算して、第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するように構成される、乗算器と、第2の方向を有する第2の入力ベクトルを受け取って、第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択するように構成される、第2のベクトル量子化器とを含む。対応するベクトル逆量子化のための装置も開示される。
別の一般的な構成による音声信号のフレームを処理するための装置は、第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択することによって、第1の方向を有する第1の入力ベクトルを量子化するための手段と、選択された第1のコードブックベクトルに基づく回転行列を生成するための手段とを含む。この装置はまた、(A)第1の方向を有するベクトルと(B)回転行列との積を計算して、第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するための手段と、第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択することによって、第2の方向を有する第2の入力ベクトルを量子化するための手段とを含む。対応するベクトル逆量子化のための装置も開示される。
gain−shapeベクトル量子化操作の例を示す図。 gain−shapeベクトル量子化操作の例を示す図。 gain−shapeベクトル量子化操作の例を示す図。 gain−shapeベクトル量子化操作の例を示す図。 一般的な構成による、複数段階の形状量子化のための装置A100のブロック図。 一般的な構成による、複数段階の形状逆量子化のための装置D100のブロック図。 回転行列の生成に使うことができる式の例を示す図。 回転行列の生成に使うことができる式の例を示す図。 単純な二次元の例を使った装置A100の動作の原理を示す図。 回転行列の生成に使うことができる式の例を示す図。 回転行列の生成に使うことができる式の例を示す図。 回転行列の生成に使うことができる式の例を示す図。 図1Aの開ループの利得符号化構成への、装置A100の適用の例を示す図。 図1Bの開ループの利得符号化構成への、装置A100の適用の例を示す図。 閉ループの利得符号化構成で使うことができる、装置A100のある実装形態A110のブロック図。 図1Cの開ループの利得符号化構成への、装置A110の適用の例を示す図。 図1Dの開ループの利得符号化構成への、装置A110の適用の例を示す図。 装置A100の拡張である、3段階の形状量子化器の概略図。 装置A110の拡張である、3段階の形状量子化器の概略図。 装置D100の拡張である、3段階の形状逆量子化器の概略図。 利得量子化器GQ10のある実装形態GQ100のブロック図。 利得ベクトル計算器GVC10のある実装形態GVC20のブロック図。 利得逆量子化器DQ100のブロック図。 利得量子化器GQ10のある予測的な実装形態GQ200のブロック図。 利得量子化器GQ10のある予測的な実装形態GQ210のブロック図。 利得逆量子化器GD200のブロック図。 予測器PD10のある実装形態PD20のブロック図。 利得量子化器GQ100およびGQ200という例を含む利得符号化構成。 装置A100のある実装形態を含む、通信デバイスD10のブロック図。 一般的な構成によるベクトル量子化のための方法M100のフローチャート。 一般的な構成によるベクトル量子化のための装置MF100のブロック図。 一般的な構成によるベクトル逆量子化のための方法MD100のフローチャート。 一般的な構成によるベクトル逆量子化のための装置DF100のブロック図。 ハンドセットH100の正面図、背面図、および側面図。 UB−MDCT信号がモデル化されている例における、大きさ対周波数のプロットを示す図。
[詳細な説明]
gain−shapeベクトル量子化方式では、(たとえば、複雑さと記憶域を減らすために)複数の段階で形状ベクトル(shape vector)の符号化を実行するのが望ましいことがある。本明細書で説明されるような、複数段階の形状ベクトル量子化器の構成は、広範囲のビットレートの効果的なgain−shapeベクトル量子化を支援するような場合に、使うことができる。
文脈によって明確に限定されない限り、「信号」という用語は、本明細書では、ワイヤ、バス、または他の伝送媒体上に表された記憶場所(または記憶場所のセット)の状態を含む、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「発生(generating)」という用語は、本明細書では、計算(computing)または別様の生成(producing)など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「計算(calculating)」という用語は、本明細書では、複数の値からの計算(computing)、評価、平滑化、および/または選択など、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「得る(obtaining)」という用語は、計算、導出、(たとえば、外部デバイスからの)受信、および/または(たとえば、記憶素子のアレイからの)取り出しなど、その通常の意味のいずれをも示すのに使用される。文脈によって明確に限定されない限り、「選択(selecting)」という用語は、2つ以上のセットのうちの少なくとも1つ、かつすべてよりも少数を識別、指示、適用、および/または使用することなど、その通常の意味のいずれをも示すのに使用される。「備える(comprising)」という用語は、本明細書と特許請求の範囲とにおいて使用される場合、他の要素または動作を除外するものではない。「に基づく」(「AはBに基づく」など)という用語は、(i)「から導出される」(たとえば、「BはAの前の形である」)、(ii)「少なくとも〜に基づく」(たとえば、「Aは少なくともBに基づく」)、および特定の文脈で適当な場合に、(iii)「に等しい」(たとえば、「AはBに等しい」)という場合を含む、その通常の意味のいずれをも示すのに使用される。同様に、「に応答して」という用語は、「少なくとも〜に応答して」を含む、その通常の意味のいずれをも示すのに使用される。
別段に規定されていない限り、「一連」という用語は、2つ以上の項目の列を示すのに使用される。「対数」という用語は、10を底とする対数を示すのに使用されるが、他の底へのそのような演算の拡張も本開示の範囲内である。「周波数成分」という用語は、(たとえば、高速フーリエ変換によって生成される)信号の周波数領域表現のサンプル、または信号のサブバンド(たとえば、バーク尺度もしくはメル尺度サブバンド)など、信号の周波数または周波数帯域のセットのうちの1つを示すのに使用される。
別段に規定されていない限り、特定の特徴を有する装置の動作のいかなる開示も、類似の特徴を有する方法を開示する(その逆も同様)ことをも明確に意図し、特定の構成による装置の動作のいかなる開示も、類似の構成による方法を開示する(その逆も同様)ことをも明確に意図する。「構成」という用語は、その具体的な文脈によって示されるように、方法、装置、および/またはシステムに関して使用され得る。「方法」、「処理」、「手順」、および「技法」という用語は、具体的な文脈によって別段に規定されていない限り、一般的、互換的に使用される。「装置」および「デバイス」という用語も、具体的な文脈によって別段に規定されていない限り、一般的、互換的に使用される。「要素」および「モジュール」という用語は、一般に、より大きな構成の一部を示すのに使用される。文脈によって明確に限定されない限り、「システム」という用語は、本明細書では、「共通の目的を果たすために相互作用する要素のグループ」を含む、その通常の意味のいずれをも示すのに使用される。文書の一部分の参照による任意の組込みは、その部分内で言及された用語または変数の定義が、文書中の他の場所に現れ、ならびに組み込まれた部分で参照される図に現れた場合、そのような定義を組み込んでいることも理解されたい。
本明細書で説明されるシステム、方法、および装置は、周波数領域での音声信号の符号化表現に一般に適用可能である。そのような表現の典型的な例は、変換領域における一連の変換係数である。適切な変換の例には、正弦的ユニタリ変換のような、離散的な直交変換がある。適切な正弦的ユニタリ変換の例には、限定はされないが、離散コサイン変換(DCT)、離散サイン変換(DST)、および離散フーリエ変換(DFT)を含む、離散三角変換がある。適切な変換の他の例には、そのような変換の重複したバージョンがある。適切な変換の具体的な例は、上で紹介された修正DCT(MDCT)である。
本開示の全体で、音声周波数域の「低域」および「高域」(等価的に、「上側域」)への言及が行われ、低域の具体的な例は0から4キロヘルツ(kHz)であり、高域の具体的な例は3.5から7kHzである。本明細書で論じられる原理は、明示的に述べられていない限り、何らこの特定の例に限定されないことが、明確に指摘される。符号化、復号、割り当て、量子化、および/または他の処理のこれらの原理の適用が明確に企図され本明細書で開示される周波数域の他の例(やはり限定はされない)は、0、25、50、100、150、および200Hzのいずれかに下側境界を、3000、3500、4000、および4500Hzのいずれかに上側境界を有する低域と、3000、3500、4000、4500、および5000Hzのいずれかに下側境界を、6000、6500、7000、7500、8000、8500、および9000Hzのいずれかに上側境界を有する高域とを含む。3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、および9000Hzのいずれかに下側境界を、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、および16kHzのいずれかに上側境界を有する高域へのそのような原理の適用(やはり限定はされない)も、明確に企図され本明細書で開示される。高域信号は通常、符号化処理の早い段階でより低いサンプリングレートに変換される(たとえば、再サンプリングおよび/またはデシメーションを介して)が、高域信号は高域信号のままであり、高域信号の搬送する情報は、高域の音声周波数域を表し続けることも、明確に指摘される。
本明細書で説明されるような複数段階の形状量子化操作を含む符号化方式は、(たとえば、発話を含む)任意の音声信号の符号化に適用され得る。あるいは、そのような符号化方式を発話ではない音声(たとえば、音楽)にのみ使うのが望ましいことがある。そのような場合、その符号化方式を分類方式とともに使って、音声信号の各フレームの内容の種類を判定し、適切な符号化方式を選択することができる。
本明細書で説明されるような複数段階の形状量子化操作を含む符号化方式は、主要なコーデックとして、またはマルチレイヤ内のレイヤもしくは段階として、または複数段階のコーデックとして使われ得る。1つのそのような例では、音声信号の周波数成分の一部(たとえば、低域または高域)を符号化するのにそのような符号化方式が使われ、信号の周波数成分の別の部分を符号化するのに別の符号化方式が使われる。別のそのような例では、別の符号化レイヤの残余(すなわち、元の信号と符号化された信号との間の誤差)を符号化するのに、そのような符号化方式が使われる。
Gain−shapeベクトル量子化は、利得係数(gain factor)によって表されるベクトルエネルギーを、形状によって表されるベクトル方向から分離することによって、信号ベクトル(たとえば、音または画像データを表す)を効率的に符号化するのに使われ得る、符号化技法である。そのような技法は、発話および/または音楽のような音声信号の符号化のような、信号のダイナミックレンジが大きい可能性のある用途に、特に適していることがある。
gain−shapeベクトル量子化(GSVQ)は、入力ベクトルxの形状および利得を別々に符号化する。図1Aは、gain−shapeベクトル量子化操作の例を示す。この例では、形状量子化器(shape quantizer)SQ100は、入力ベクトルxに最も近い(たとえば、平均二乗誤差の観点で最も近い)コードブック中のベクトルとして、量子化された形状ベクトル
Figure 0005587501
をコードブックから選択し、コードブック中のベクトル
Figure 0005587501
に対してインデックスを出力することによって、ベクトル量子化(VQ)方式を実行するように構成される。別の例では、形状量子化器SQ100は、入力ベクトルxに最も近い(たとえば、平均二乗誤差の観点で最も近い)単位パルスの単位ノルムパターン(unit-norm pattern)を選択し、そのパターンに対してコードブックインデックスを出力することによって、パルス符号化量子化方式を実行するように構成される。ノルム計算器NC10は、入力ベクトルxのノルム||x||を計算するように構成され、利得量子化器(gain quantizer)GQ10は、ノルムを量子化して量子化された利得値(gain value)を生成するように構成される。
形状量子化器SQ100は通常、コードブックベクトルが単位ノルム(unit-norm)を有する(すなわち、単位超球(unit hypersphere)上のすべての点である)という制約とともに、ベクトル量子化器として実装される。この制約によって、(たとえば、内積演算に対する平均二乗誤差の計算からの)コードブックの検索が簡単になる。たとえば、形状量子化器SQ100は、arg maxk(xTk)のような演算に従って、K個の単位ノルムベクトルSk,k=0,1,…,K−1のコードブックのうちから、ベクトル
Figure 0005587501
を選択するように構成され得る。そのような検索は、網羅的であっても最適化されていてもよい。たとえば、ベクトルは、特定の検索戦略を支援するように、コードブック内で配置されてよい。
いくつかの場合には、形状量子化器SQ100への入力を、(たとえば、特定のコードブック検索戦略を可能にするために)単位ノルムに限定するのが望ましいことがある。図1Bは、gain−shapeベクトル量子化操作のそのような例を示す。この例では、正規化器NL10が、入力ベクトルxを正規化して、ベクトルノルム||x||と単位ノルム形状ベクトル(unit-norm shape vector)S=x/||x||とを生成するように構成され、形状量子化器SQ100が、入力として形状ベクトルSを受け取るように配置される。そのような場合、形状量子化器SQ100は、arg maxk(STk)のような演算に従って、K個の単位ノルムベクトルSk,k=0,1,…,K−1のコードブックのうちから、ベクトル
Figure 0005587501
を選択するように構成され得る。
あるいは、形状量子化器SQ100は、ユニットパルスのパターンのコードブックのうちから、ベクトル
Figure 0005587501
を選択するように構成され得る。この場合、量子化器SQ100は、正規化されると形状ベクトルSに最も近い(たとえば、平均二乗誤差の観点で最も近い)パターンを選択するように構成され得る。そのようなパターンは通常、パターン中の各々の専有された位置に対するパルスおよび信号の数を示す、コードブックインデックスとして符号化される。パターンを選択することは、入力ベクトルをスケーリングすることと入力ベクトルをパターンと照合することとを含んでよく、量子化されたベクトル
Figure 0005587501
は、選択されたパターンを正規化することによって生成される。そのようなパターンを符号化するために形状量子化器SQ100によって実行され得るパルス符号化方式の例には、factorial pulse codingおよびcombinatorial pulse codingがある。
利得量子化器GQ10は、利得のスカラー量子化を実行し、または、その利得を他の利得と組み合わせてベクトル量子化のための利得ベクトルにするように、構成され得る。図1Aおよび図1Bの例では、利得量子化器GQ10は、入力ベクトルxの利得をノルム||x||として受け取り量子化するように配置される(「開ループ利得」とも呼ばれる)。他の場合では、利得は、量子化された形状ベクトル
Figure 0005587501
と元の形状との相関に基づく。そのような利得は、「閉ループ利得」と呼ばれる。図1Cは、内積計算器IP10と、量子化された形状ベクトル
Figure 0005587501
も生成する形状量子化器SQ100のある実装形態SQ110とを含む、そのようなgain−shapeベクトル量子化操作の例を示す。計算器IP10は、量子化された形状ベクトル
Figure 0005587501
と元の入力ベクトル(たとえば、
Figure 0005587501
)との内積を計算するように配置され、利得量子化器GQ10は、閉ループ利得としてこの積を受け取り量子化するように配置される。形状量子化器SQ110の生成する形状量子化の結果が不良である限り、閉ループ利得はより低くなる。形状量子化器が正確に形状を量子化する限り、閉ループ利得はより高くなる。形状量子化が完璧である場合、閉ループ利得は開ループ利得に等しい。図1Dは、入力ベクトルxを正規化して、形状量子化器SQ110への入力として単位ノルム形状ベクトルS=x/||x||を生成するように構成される、正規化器NL20を含む、同様のgain−shapeベクトル量子化操作の例を示す。
音楽および発話のような音声信号では、信号ベクトルは、信号のフレームを変換領域(たとえば、高速フーリエ変換(FFT)またはMDCT領域)へと変換して、これらの変換領域係数からサブバンドを形成することによって、形成され得る。一例では、エンコーダは、所定の分割方式(たとえば、フレームが受信される前にデコーダに知られている固定分割方式)に従ってサブバンドのセットへと変換係数を分割して、ベクトル量子化(VQ)方式(たとえば、本明細書で説明されるようなGSVQ方式)を使って各サブバンドを符号化することによって、フレームを符号化するように構成される。そのような場合、形状コードブックは、均一な量子化セル(たとえば、ボロノイ領域)への単位超球の分割を表すように選択され得る。
別の例では、信号内でエネルギーが大きな領域を特定し、これらの領域を信号の残りの部分とは別に符号化するのが、望ましいことがある。たとえば、比較的多くのビットを使ってそのような領域を符号化し、比較的少ないビットを使って(またはビットを全く使わずに)信号の他の領域を符号化することによって、符号化の効率を上げることが望ましいことがある。そのような領域は、一般に特定の種類の形状を占め得るので、対応するベクトルの形状は、単位超球の何らかの領域に入る可能性が他の領域に入る可能性より高い。たとえば、高調波成分を有する信号の重要な領域は、ピークが中心に置かれた形状を有するように選択され得る。図16は、選択されたサブバンドおよびこの選択操作の残余へのフレームの分割を示す、線形予測符号化残余信号の高域部分(たとえば、3.5から7kHzの範囲の音声コンテンツを表す)の、140個のMDCT係数のフレームをそのように選択する例を示す。そのような場合、不均一な量子化セルへの単位超球の分割を表すように、形状コードブックを設計するのが望ましいことがある。
複数段階のベクトル量子化方式は、前段階の量子化誤差を符号化することによって、より正確な結果を生成するので、この誤差はデコーダにおいて低減され得る。gain−shape VQの状況で複数段階のVQを実施するのが望ましいことがある。
上で述べられたように、形状量子化器は通常、コードブックベクトルが単位ノルムを有するという制約とともに、ベクトル量子化器として実装される。しかし、形状量子化器の量子化誤差(すなわち、入力ベクトルxと対応する選択されたコードブックベクトルとの差)は、単位ノルムを有するとは考えられず、そのためスケーラビリティの問題が発生し、複数段階の量子化器の実装を難しいものにする。デコーダにおいて有用な結果を得るために、たとえば、量子化誤差ベクトルの形状と利得の両方の符号化が、通常は必要とされる。誤差利得を符号化すると、送信すべき追加の情報が発生し、これはビットが制約されている状況(たとえば、携帯電話、衛星通信)では望ましくないことがある。
図2Aは、誤差利得の量子化を回避する、一般的な構成による複数段階の形状量子化のための装置A100のブロック図を示す。装置A100は、上で説明されたような、形状量子化器SQ110の例と、形状量子化器SQ100の例SQ200とを含む。第1の形状量子化器SQ110は、第1の入力ベクトルV10aの形状(たとえば、方向)を量子化して、長さNの第1のコードブックベクトルSkと、Skに対するインデックスとを生成するように構成される。装置A100はまた、選択されたベクトルSkに基づくNxNの回転行列Rkを生成するように構成される、回転行列生成器200と、回転行列Rkと第2のベクトルV10bの積を計算して、ベクトルr=(Rk)v(vはベクトルV10bを示す)を生成するように構成される、乗算器ML10とを含む。ベクトルV10bは、ベクトルV10aと同じ方向を有し(たとえば、ベクトルV10aおよびV10bは同じベクトルであってよく、または一方が他方の正規化されたバージョンであってもよい)、ベクトルrは、ベクトルV10aおよびV10bとは異なる方向を有する。第2の形状量子化器SQ200は、ベクトルrの(またはベクトルrと同じ方向を有するベクトルの)形状(たとえば、方向)を量子化して、第2のコードブックベクトルSnと、Snに対するインデックスとを生成するように構成される。(一般的な場合では、第2の形状ベクトル量子化器SQ200は、ベクトルrではないがベクトルrと同じ方向を有するベクトルを、入力として受け取るように構成され得ることに、留意されたい。)
この手法では、第1の形状量子化器SQ110によって実行される各々の第1段階の量子化の誤差を符号化することは、(A)入力ベクトルを表すものとして選択された第1段階のコードブックベクトルSkと(B)参照方向とに基づいて、回転行列Rkによって対応する入力ベクトルの方向を回転させることを含む。その参照方向は、デコーダに知られており、一定であり得る。その参照方向はまた、入力ベクトルV10aと独立であり得る。
所望の回転を生成しつつ、ベクトルV10bに対するあらゆる他の影響を最小化する式を使うように、回転行列生成器200を構成するのが望ましいことがある。図3Aは、式中のSを、現在の選択されたベクトルSkで(長さNの列ベクトルとして)置き換えることによって、回転行列Rkを生成するために、回転行列生成器200によって使用され得る式の一例を示す。この例では、参照方向は、単位ベクトル[1,0,0,・・・,0]の方向であるが、任意の他の参照方向を選択することができる。そのような参照方向の潜在的な利点は、各入力ベクトルに対して、対応するコードブックベクトルから対応する回転行列を比較的経済的に計算できることと、対応する回転を比較的経済的にかつ他の影響をほとんど伴わずに実行できることとを含み、これらは、固定小数点の実装形態では特に重要であり得る。
乗算器ML10は、行列ベクトルの積r=Rkxvを計算するように配置される。この単位ノルムベクトルは、第2の形状量子化段階(すなわち第2の形状量子化器SQ200)への入力である。同じ参照方向に基づいて各回転行列を構築すると、その方向に関する量子化誤差の集中を引き起こし、このことは、その誤差の効果的な第2段階の量子化を助ける。
回転行列Rkによって引き起こされる回転は逆にできる(計算誤差の範囲内で)ので、回転行列の転置を伴う乗算によって、回転は逆にされ得る。図2Bは、一般的な構成による、複数段階の形状逆量子化のための装置D100のブロック図を示す。装置D100は、ベクトルSkに対するインデックスに応答して第1の選択されたコードブックベクトルSkを生成するように構成される、第1の形状逆量子化器500と、ベクトルSnに対するインデックスに応答して第2の選択されたコードブックベクトルSnを生成するように構成される、第2の形状逆量子化器600とを含む。装置D100はまた、第1段階のコードブックベクトルSkに基づいて、エンコーダにおいて(たとえば、生成器200によって)生成された対応する回転行列の転置である回転行列RkTを生成するように構成される、回転行列生成器210を含む。たとえば、生成器210は、生成器200と同じ式に従って行列を生成し、次いで、(たとえば、主対角線を中心に反転することによって)その行列の転置を計算し、または、上記の式の転置である生成式を使うように、実装され得る。装置D100はまた、出力ベクトル
Figure 0005587501
を行列ベクトル積RkTxSnとして計算する、乗算器ML30を含む。
図4は、単純な二次元の例を使った装置A100の動作の原理を示す。図の左側で、単位ノルムベクトルSが、(破線の矢印によって示されるような)コードブックベクトルのセットのうちから最も近いSk(星によって示されるような)を選択することによって、第1段階で量子化される。コードブックの検索は、(たとえば、ベクトルSとの内積が最であるコードブックベクトルを選択することによって)内積演算を使って実行され得る。コードブックベクトルは、単位超球(たとえば、図4に示されるような)の周りで均一に分布していてもよく、または本明細書で述べられたように不均一に分布していてもよい。
図4の左下で示されるように、ベクトル減算を使って第1段階の量子化誤差を求めると、もはや単位ノルムではない誤差ベクトルが発生する。代わりに、ベクトルSは、本明細書で説明されるようなコードブックベクトルSkに基づく回転行列Rkによって、図4の中心で示されるように回転される。たとえば、回転行列Rkは、規定された参照方向(点によって示される)へとコードブックベクトルSkを回転させる行列として、選択され得る。図4の右側は、第2の量子化段階を示し、この段階において、回転されたベクトルRkxSは、三角形で示されるように、RkxSに最も近い(たとえば、ベクトルRkxSとの内積が最である)ベクトルを第2のコードブックから選択することによって、量子化される。図4に示されるように、回転操作は、参照方向の周りに第1段階の量子化誤差を集中させるので、第2のコードブックは、単位超球全体よりも狭い領域しかカバーしなくてよい。
S[1]が−1(negative one)に近い場合、図3Aの生成式は、非常に小さい数による除算を伴う可能性があり、このことは、固定小数点の実装形態では特に計算上の問題を引き起こし得る。そのような場合(たとえば、除算が常に少なくとも1以上の数によるものになるようにS[1]が0未満である場合は常に)、代わりに図3Bの式を使うように回転行列生成器200と210とを構成するのが望ましいことがある。あるいは、そのような場合には、エンコーダにおいて第1の軸(たとえば、参照方向)を中心に回転行列を反転し、デコーダにおいてその反転を戻すことによって、等価的な効果を得ることができる。
参照方向の他の選択は、他の単位ベクトルのいずれをも含み得る。たとえば、図5Aおよび図5Bは、図3Aおよび図3Bで示された生成式に相当する、長さNの単位ベクトル[0,0,・・・,0,1]によって示される参照方向に対する生成式の例を示す。図6は、図3Aで示される式に相当する、0ではない唯一の要素がd番目の要素である長さN(1<d<N)の単位ベクトルによって示される参照方向に対する生成式の、一般的な例を示す。一般に、選択された第1のコードブックベクトルと参照ベクトル(reference vector)とを含む平面内での、参照ベクトル(たとえば、図3A、図3B、図4、図5A、図5B、および図6の例におけるような)の方向への選択された第1のコードブックベクトルの回転を、回転行列Rkが定義するのが望ましいことがある。ベクトルV10bは一般にこの平面上にはないが、回転行列RkによってベクトルV10bを乗算することで、この平面と平行な平面内へと、ベクトルV10bが回転する。回転行列Rkによる乗算は、選択された第1のコードブックベクトルと参照方向の両方に直交する、(N−2次元の)部分空間(subspace)の周りでベクトルを回転させる。
図7Aおよび図7Bはそれぞれ、図1Aおよび図1Bの開ループの利得符号化構成への、装置A100の適用の例を示す。図7Aでは、装置A100は、入力ベクトルV10aおよびベクトルV10bとしてベクトルxを受け取るように配置され、図7Bでは、装置A100は、入力ベクトルV10aおよびベクトルV10bとして形状ベクトルSを受け取るように配置される。
図7Cは、(たとえば、図1Cおよび図1Dに示されるような)閉ループの利得符号化構成で使われ得る、装置A100のある実装形態A110のブロック図を示す。装置A110は、回転行列Rkの転置を計算する(たとえば、主対角線を中心に行列Rkを反転する)ように構成される、転置器400と、量子化された形状ベクトル
Figure 0005587501
を行列ベクトル積RkTxSnとして計算するように構成される、乗算器ML20とを含む。図8Aおよび図8Bはそれぞれ、図1Cおよび図1Dの開ループの利得符号化構成への、装置A110の適用の例を示す。
本明細書で説明される、複数段階の形状量子化の原理は、任意の数の形状量子化の段階に拡張できる。たとえば、図9Aは、装置A100の拡張である、3段階の形状量子化器の概略図を示す。この図では、様々な標識が以下の構造または値を示す。すなわち、ベクトル方向V1およびV2、コードブックベクトルC1およびC2、コードブックインデックスX1、X2、およびX3、量子化器Q1、Q2、およびQ3、回転行列生成器G1およびG2、ならびに回転行列R1およびR2である。図9Bは、装置A110の拡張である、3段階の形状量子化器の同様の概略図を示し、量子化された形状ベクトル
Figure 0005587501
を生成する(この図では、各標識TRは行列転置器を示す)。図9Cは、装置D100の拡張である、対応する3段階の形状逆量子化器の概略図を示す。
音声信号の低ビットレートの符号化は、音声信号フレームの内容を符号化するのに利用可能なビットの最適な利用を必要とすることが多い。音声信号フレームの内容は、信号のPCMサンプルまたは、信号の変換領域での表現のいずれかであってよい。信号ベクトルを符号化することは通常、複数のサブベクトルへベクトルを分割することと、各サブベクトルへのビット割り当てを指定することと、対応する割り当てられた数のビットへと各サブベクトルを符号化することとを含む。典型的な音声符号化の用途では、たとえば、各フレームのための多数の(たとえば、10個または20個の)異なるサブバンドベクトルに対して、gain−shapeベクトル量子化を実行するのが望ましいことがある。フレームサイズの例には、100、120、140、160、および180という値(たとえば、変換係数)があり、サブバンドの長さの例には、5、6、7、8、9、10、11、および12がある。
ビット割り当ての一手法は、全体のビット割り当てBを、異なる形状ベクトルの間で均一に分割すること(および、たとえば、閉ループ利得符号化方式で使うこと)である。たとえば、各サブベクトルに割り当てられたビットの数は、フレームごとに一定であり得る。この場合、ビット割り当て方式についての情報をエンコーダが送信する必要がないように、デコーダは、ビット割り当て方式についての情報によってすでに構成されていてよい。しかし、ビットの最適な利用の目標は、音声信号フレームの様々な成分が、その知覚的な重要性に関連する(たとえば、比例する)数のビットで符号化されるのを、確実にすることであり得る。入力サブバンドベクトルの一部は、あまり重要ではないことがある(たとえば、ほとんどエネルギーを占めないことがある)ので、そうした形状ベクトルにより少数のビットを割り当て、より重要なサブバンドのベクトルにより多くのビットを割り当てることによって、より良い結果が得られ得る。
固定された割り当て方式は、サブベクトルの相対的な知覚的重要性の変動を考慮しないので、各サブベクトルに割り当てられるビットの数がフレームごとに変化し得るように、動的な割り当て方式を代わりに使うのが望ましいことがある。この場合、フレームが復号され得るように、各フレームに対して使われる具体的なビット割り当て方式に関する情報が、デコーダに提供される。
ほとんどの音声エンコーダは、ビット割り当てを副次的な情報としてデコーダに明示的に送信する。たとえば、AACのような音声符号化アルゴリズムは通常、副次的な情報、またはハフマン符号化のようなエントロピー符号化方式を使って、ビット割り当て情報を搬送する。副次的な情報は信号の符号化に直接は使われないので、ビット割り当てを搬送するためだけに副次的な情報を使うのは非効率である。ハフマン符号化または算術符号化のような可変長の符号語は、いくつかの利点をもたらし得るが、符号化の効率を下げ得る長い符号語に遭遇する可能性がある。ビット割り当て方式が、エンコーダからデコーダへ副次的な情報を明示的に送信することなく実行され得るように、エンコーダとデコーダの両方に知られている符号化された利得パラメータに基づく、動的なビット割り当て方式を代わりに使うのが望ましいことがある。そのような効率性は、携帯電話による通信のような、低ビットレートの用途では特に重要であり得る。
そのような動的なビット割り当ては、関連する利得の値に従って、形状量子化のためのビットを割り当てることによって、副次的な情報なしで実施され得る。ソースの符号化の観点では、閉ループの利得がより適していると考えられ得る。それは、開ループ利得とは異なり、閉ループ利得は具体的な形状量子化誤差を考慮するからである。しかし、この利得値に基づいて上流側の処理を実行するのが望ましいことがある。具体的には、形状をどのように量子化するかを決定するために、利得値を用いる(たとえば、量子化ビット割り当て量を複数の形状に動的に割り当てるために、利得値を用いる)のが望ましいことがある。この場合、利得がビット割り当てを制御するので、形状量子化は、エンコーダとデコーダの両方における利得に明示的に依存し、したがって、形状に依存する閉ループ利得ではなく、形状に依存しない開ループ利得の計算が使われる。
動的な割り当て方式を支援するために、量子化されるべき各形状に割り当てられる具体的なビットの数に応答して、異なる大きさのコードブックのうちから(すなわち、インデックスの長さが異なるコードブックのうちから)選択するように、形状量子化器と逆量子化器と(たとえば、量子化器SQ110、SQ200、SQ210、逆量子化器500および600)を実装するのが望ましいことがある。そのような例では、装置A100の量子化器の1つまたは複数(たとえば、量子化器SQ110およびSQ200またはSQ210)は、開ループ利得が小さいサブバンドベクトルの形状の符号化には、インデックスがより短いコードブックを使い、開ループ利得が大きいサブバンドベクトルの形状の符号化には、インデックスがより長いコードブックを使うように、実装され得る。そのような動的な割り当て方式は、対応する逆量子化器が追加の副次的な情報を何ら伴わずに同じ方式を適用できるように、一定である、または他の方式で決定的である、ベクトル利得と形状コードブックのインデックスの長さとの間のマッピングを、使うように構成され得る。
開ループ利得の符号化の場合には、形状の符号化に使われたビットの数の関数である係数γ(たとえば、形状コードブックベクトルに対するインデックスの長さ)によって、開ループ利得を乗算するように、デコーダ(たとえば、利得逆量子化器)を構成するのが望ましいことがある。形状を量子化するために使われるビットが非常に少ない場合、形状量子化器は大きな誤差を生成する可能性が高いので、ベクトルSと
Figure 0005587501
とがよく一致しないことがあり、よって、その誤差を反映するようにデコーダにおいて利得を下げるのが望ましいことがある。補正係数γは、この誤差を平均の観点でしか表さない。γは、コードブック(具体的には、コードブック中のビットの数)にしか依存せず、入力ベクトルxの具体的な詳細情報には何ら依存しない。補正係数γが送信されず、ベクトル
Figure 0005587501
の量子化にどれだけのビットが使われたかに従って、γがデコーダによってテーブルから読み出されるだけであるように、コーデックは構成され得る。
この補正係数γは、ビットレートに基づいて、平均ベクトル
Figure 0005587501
が真の形状Sにどの程度近いと予測され得るかを示す。ビットレートが上がるに従って、平均の誤差は小さくなり、補正係数γの値は1に近づき、またビットレートが非常に低くなるに従って、Sとベクトル
Figure 0005587501
の相関(たとえば、ベクトル
Figure 0005587501
とSの内積)は小さくなり、補正係数γの値も小さくなる。閉ループ利得と同じ効果を(たとえば、実際の入力ごとに、適応的な観点で)得るのが望ましい可能性があるが、開ループの場合は、補正は通常、平均の観点でしか可能ではない。
あるいは、開ループ利得と閉ループ利得を補間するような方法が実行されてもよい。そのような手法は、単に長さに基づく平均の量子化誤差ではなく、具体的な形状量子化の品質に依存する動的な補正係数によって、開ループ利得の表現を補強する。そのような係数は、量子化された形状と逆量子化された形状のドット積に基づいて計算され得る。この補正係数の値は、非常に少数のビットで送信され得るように、非常に粗く符号化する(たとえば、インデックスとして、4エントリまたは8エントリのコードブックへと符号化する)のが望ましいことがある。
利得パラメータにおける相関を、経時的に、かつ/または周波数にわたって効率的に利用するのが望ましいことがある。上で述べられたように、信号ベクトルは、信号のフレームを変換領域へと変換し、これらの変換領域係数からサブバンドを形成することによって、音声符号化において形成され得る。連続するフレームからのベクトルのエネルギーの間の相関を利用するために、予測的な利得符号化方式を使うのが望ましいことがある。さらに、またはあるいは、単一のフレーム内でのサブバンドのエネルギーの間の相関を利用するために、変換利得符号化方式を使うのが望ましいことがある。
図10Aは、本明細書で説明されるような回転行列の異なる適用形態を含む、利得量子化器GQ10ある実装形態GQ100のブロック図を示す。利得量子化器GQ100は、入力信号のフレームのM個のサブバンドベクトルx1からxMを受け取り、サブバンド利得値の対応するベクトルGV10を生成するように構成される、利得ベクトル計算器GVC10を含む。M個のサブバンドは、フレーム全体を含み得る(たとえば、所定の分割方式に従ってM個のサブバンドに分割される)。あるいは、M個のサブバンドは、フレームのすべてよりも少ないフレーム(たとえば、本明細書で述べられた例におけるような、動的なサブバンド方式に従って選択されたような)を含んでもよい。サブバンドの数Mの例には、(限定ではなく)5、6、7、8、9、10、および20がある。
図10Bは、利得ベクトル計算器GVC10のある実装形態GVC20のブロック図を示す。ベクトル計算器GVC20は、M個のサブバンドの対応する1つのための対応する利得値G10−1、G10−2、・・・、G10−Mを計算するように各々構成される、利得係数計算器のM個の例GC10−1、GC10−2、・・・、GC10−Mを含む。一例では、各々の利得係数計算器GC10−1、GC10−2、・・・、GC10−Mは、対応するサブバンドベクトルのノルムとして、対応する利得値を計算するように構成される。別の例では、各々の利得係数計算器GC10−1、GC10−2、・・・、GC10−Mは、対応する利得値を、デシベルで、または他の対数で、または知覚的な尺度で計算するように構成される。1つのそのような例では、各々の利得係数計算器GC10−1、GC10−2、・・・、GC10−Mは、1≦m≦Mとして、GC10−m=10log10||xm||2のような式に従って、対応する利得値GC10−mを計算するように構成され、ここでxmは対応するサブバンドベクトルを示す。
ベクトル量子化器GVC20はまた、M個の利得値G10−1からG10−Mの各々を、対応するフレームの長さMのベクトルの対応する要素に記憶し、このベクトルを利得ベクトルGV10として出力するように構成される、ベクトルレジスタVR10を含む。
利得量子化器GQ100はまた、回転行列Rgを生成するように構成される、回転行列生成器200のある実装形態250と、Rgと利得ベクトルGV10の行列ベクトル積としてベクトルgrを計算するように構成される、乗算器ML30とを含む。一例では、生成器250は、
Figure 0005587501
として、図3Aに示される生成式中のSを、長さMの単位ノルムベクトルYで置き換えることによって、行列Rgを生成するように構成される。得られる回転行列Rgは、利得ベクトルGV10という平均出力を有する出力ベクトルgrを、第1の要素において生成する効果を有する。
そのような第1の要素の平均を生成するために、他の変換(たとえば、FFT、MDCT、Walsh、またはウェーブレット変換)を使うことができるが、この変換によって生成される出力ベクトルgrの他の要素の各々は、この平均とベクトルGV10の対応する要素との差である。サブバンド利得の間の差から、フレームの平均の利得値を分離することで、上記のような方式は、各サブバンド中(たとえば、音量が大きなフレーム中)のエネルギーを符号化するために使われていたであろうビットを、各サブバンド中の詳細情報を符号化するのに利用できるようにする。これらの差はまた、(たとえば、本明細書で説明されるような)対応する形状ベクトルに、ビットを動的に割り当てるための方法に対する、入力として使われ得る。平均出力をベクトルgrの異なる要素に配置するのが望ましい場合、本明細書で説明される生成式の対応する1つが代わりに使われ得る。
利得量子化器GQ100はまた、ベクトルgr(たとえば、平均値を除外した長さM−1のサブベクトル)の少なくともあるサブベクトルを量子化して、(たとえば、1つまたは複数のコードブックインデックスとして)量子化された利得ベクトルQV10を生成するように構成される、ベクトル量子化器VQ10を含む。一例では、ベクトル量子化器VQ10は、分割ベクトル量子化を実行するように実装される。利得値G10−1からG10−Mが開ループ利得である場合、上で説明されたような補正係数γを、対応する符合された利得値に適用するように、対応する逆量子化器を構成するのが望ましいことがある。
図11Aは、対応する利得逆量子化器DQ100のブロック図を示す。逆量子化器DQ100は、量子化された利得ベクトルQV10を逆量子化して、逆量子化されたベクトル(gr)Dを生成するように構成される、ベクトル逆量子化器DQ10と、量子化器GQ100において適用された回転行列の転置RgTを生成するように構成される、回転行列生成器260と、行列RgTとベクトル(gr)Dの行列ベクトル積を計算して、復号された利得ベクトルDV10を生成するように構成される、乗算器ML40とを含む。量子化された利得ベクトルQV10が、ベクトルgrの平均値要素を含まない場合(たとえば、図12Aを参照して本明細書で説明されるように)、復号された平均値は、逆量子化されたベクトル(gr)Dの要素と他の方法で組み合わされ、復号された利得ベクトルDV10の対応する要素を生成することができる。
平均出力によって占有されるベクトルgrの要素に対応する利得は、(たとえば、逆量子化の後に)利得ベクトルの他の要素から(たとえば、デコーダにおいて、および場合によってはビット割り当ての目的でエンコーダにおいて)導出され得る。たとえば、この利得は、(A)平均によって示唆される全体の利得(すなわち、平均×M)と、(B)他の(M−1)個の再構築された利得の合計との差として、計算され得る。そのような導出は、他の(M−1)個の再構築された利得の量子化誤差を、導出された利得値の中に蓄積するという効果を生むことができ、また、その利得値を符号化し送信する手間をなくす。
利得量子化器GQ100は、本明細書で説明されるような複数段階の形状量子化装置A100のある実装形態とともに使われてよく(たとえば、A110)、また、関連するサブバンドベクトルのセットへの、単一段階のgain−shapeベクトル量子化の適用として、装置A100とは独立に使われてもよいことが、明確に指摘される。
上で述べられたように、予測的な利得符号化によるGSVQは、選択された(たとえば、高エネルギーの)サブバンドのセットの利得係数を、フレームごとに差動的に符号化するのに使われ得る。各サブバンドの利得係数が、互いに独立に、かつ前のフレームの対応する利得係数に対して差動的に符号化されるように、予測的な利得符号化を含むgain−shapeベクトル量子化方式を使うのが望ましいことがある。
図11Bは、予測誤差PE10を量子化して、量子化された予測誤差QP10と、誤差QP10に対応するコードブックインデックスとを生成するように構成される、スカラー量子化器CQ10と、予測された利得値PG10を利得値GN10から差し引き、予測誤差PE10を生成するように構成される、加算器AD10と、量子化された予測誤差QP10を予測された利得値PG10に加算するように構成される、加算器AD20と、量子化された予測誤差QP10の前の値と予測された利得値PG10との1つまたは複数の和に基づいて、予測された利得値PG10を計算するように構成される、予測器PD10とを含む、利得量子化器GQ10の予測的な実装形態GQ200のブロック図を示す。予測器PD10は、H(z)=a1-1+a2-2のような変換関数を有する、二次有限インパルス応答フィルタとして実装され得る。図11Eは、予測器PD10のそのような実装形態PD20のブロック図を示す。そのようなフィルタの例示的な係数値には、(a1,a2)=(0.8,0.2)がある。入力利得値GN10は、本明細書で説明されるような開ループ利得であっても閉ループ利得であってもよい。図11Cは、利得量子化器GQ10の別の予測的な実装形態GQ210のブロック図を示す。この場合、スカラー量子化器CQ10は、選択されたインデックスに対応するコードブックのエントリを出力する必要はない。図11Dは、利得量子化器GQ200とGQ210のいずれかによって生成されたような、量子化された予測誤差QP10に対するコードブックインデックスに従って、復号された利得値DN10を生成するのに使われ得る(たとえば、対応するデコーダにおいて)、利得逆量子化器GD200のブロック図を示す。逆量子化器GD200は、逆量子化された予測誤差PD10を、コードブックインデックスによって示されるように生成するように構成される、スカラー逆量子化器CD10と、復号された利得値DN10の1つまたは複数の前の値に基づいて、予測された利得値DG10を生成するように配置される、予測器PD10の例と、予測された利得値DG10と逆量子化された予測誤差PD10を加算して、復号された利得値DN10を生成するように配置される、加算器AD20の例とを含む。
利得量子化器GQ200またはGQ210は、本明細書で説明されるような複数段階の形状量子化装置A100のある実装形態(たとえば、A110)とともに使われてよく、また、関連するサブバンドベクトルのセットへの、単一段階のgain−shapeベクトル量子化の適用として、装置A100とは独立に使われてもよい。利得値GB10が開ループ利得である場合、上で説明されたような補正係数γを、対応する符合された利得値に適用するように、対応する逆量子化器を構成するのが望ましいことがある。
利得量子化器GQ200またはGQ210のような予測的な構成を、利得量子化器GQ100のような利得符号化のための変換構成と組み合わせるのが、望ましいことがある。図12Aは、利得量子化器GQ100が、本明細書で説明されるようにサブバンドベクトルx1からxMを量子化して、ベクトルgrから平均利得値AG10を、さらに、ベクトルgrの他の(たとえば、差動的な)要素に基づく量子化された利得ベクトルQV10を生成するように構成される例を示す。この例では、予測的な利得量子化器GQ200(あるいは、GQ210)は、平均利得値AG10のみに対して動作するように配置される。
図12Aに示されるような手法を、本明細書で説明されるような動的な割り当て方法とともに使うのが、望ましいことがある。サブバンド利得の平均の成分は、サブバンド間の動的な割り当てに影響しないので、過去に依存しない差動成分の符号化が、予測的な符号化操作の失敗(たとえば、前のフレームの消滅に起因する)に耐性があり過去のフレームの喪失の影響を受けにくい、動的な割り当て操作を実現するために使われ得る。そのような構成は、本明細書で説明されるような複数段階の形状量子化装置A100のある実装形態(たとえば、A110)とともに使われてよく、また、関連するサブバンドベクトルのセットへの、単一段階のgain−shapeベクトル量子化の適用として、装置A100とは独立に使われてもよいことが、明確に指摘される。
本開示で示される形状量子化操作のいずれも、本明細書で説明される複数段階の形状量子化の原理に従って実施され得ることが、明確に企図され本明細書で開示される。装置A100のある実装形態を含むエンコーダは、一連のセグメントとして音声信号を処理するように構成され得る。セグメント(または「フレーム」)は、通常約5〜10ミリ秒から約40または50ミリ秒の範囲にある長さの、時間領域セグメントに対応する、変換係数のブロックであり得る。時間領域セグメントは、(たとえば、隣接するセグメントと25%または50%)重複していてもよく、または重複していなくてもよい。
音声コーダにおいて、高い品質と少ない遅延の両方を実現するのが望ましいことがある。音声コーダは、高い品質を得るために大きなフレームを使うことができるが、残念ながらフレームサイズが大きいと通常は遅延が大きくなる。本明細書で説明されるような音声エンコーダの可能性のある利点には、フレームサイズが短くても符号化が高品質であることがある(たとえば、20ミリ秒のフレームサイズで、10ミリ秒の先読み)。1つの具体的な例では、時間領域信号が20ミリ秒の重複しない一連のセグメントに分割され、各フレームに対するMDCTが、隣接するフレームの各々と10ミリ秒重複する、40ミリ秒のウィンドウにわたって行われる。
1つの特定の例では、装置A100のある実装形態を含むエンコーダによって処理される一連のセグメント(または「フレーム」)の各々は、0から4kHzの低周波数域を表す160個のMDCT係数のセットを格納する(低域MDCTまたはLB−MDCTとも呼ばれる)。別の特定の例では、そのようなエンコーダによって処理される一連のフレームの各々は、3.5から7kHzの高周波数域を表す140個のMDCT係数のセットを格納する(高域MDCTまたはHB−MDCTとも呼ばれる)。
装置A100のある実装形態を含むエンコーダは、長さが一定で等しいサブバンドを符号化するように実装され得る。ある特定の例では、各サブバンドは7個の周波数ビンの幅(たとえば、ビン間隔が25Hzの場合は175Hz)を有するので、各サブバンドベクトルの形状の長さは7である。しかし、本明細書で説明される原理は、サブバンドの長さが標的フレームごとに変動し得る場合、および/または、標的フレーム内のサブバンドのセットの2つ以上(場合によってはすべて)の長さが異なり得る場合にも適用され得ることが、明確に企図され本明細書で開示される。
装置A100のある実装形態を含む音声エンコーダは、音声信号のフレーム(たとえば、LPC残余)を、変換領域におけるサンプルとして(たとえば、MDCT係数またはFFT係数のような変換係数として)受け取るように構成され得る。そのようなエンコーダは、所定の分割方式(すなわち、フレームが受信される前にデコーダに知られている固定分割方式)に従ってサブバンドのセットへと変換係数をグループ化して、gain−shapeベクトル量子化方式を使って各サブバンドを符号化することによって、各フレームを符号化するように実装され得る。そのような所定の分割方式の一例では、各々の100要素の入力ベクトルが、それぞれ長さが(25,35,40)である3個のサブベクトルに分割される。
高調波成分を有する音声信号(たとえば、音楽信号、声による発話信号)では、所与の時間における、周波数領域の中でエネルギーが大きな領域の位置は、長時間にわたって比較的持続し得る。そのような長時間にわたる相関を利用することによって、音声信号の効率的な変換領域での符号化を実行するのが望ましいことがある。1つのそのような例では、動的なサブバンド選択方式が、符号化されるべきフレームの知覚的に重要な(たとえば、高エネルギーの)サブバンドを、復号された前のフレームの対応する知覚的に重要なサブバンドと照合するために使われる(「従属モード符号化」とも呼ばれる)。ある特定の適用例では、そのような方式を使って、線形予測符号化(LPC)操作の残余のような、音声信号の0〜4kHzの範囲に対応するMDCT変換係数を符号化する。従属モードの符号化のさらなる説明は、本出願が優先権を主張する上で列挙された出願において見出され得る。
別の例では、高調波信号のサブバンドの選択されたセットの各々の位置が、基本周波数F0の選択された値と、周波数領域における隣接するピークの間隔の選択された値とを使って、モデル化される。そのような高調波モデリングのさらなる説明は、本出願が優先権を主張する上で列挙された出願において見出され得る。
同じ信号の異なる周波数帯を別々に符号化するように、音声コーデックを構成するのが望ましいことがある。たとえば、音声信号の低域部分を符号化する第1の符号化された信号と、同じ音声信号の高域部分を符号化する第2の符号化された信号とを生成するように、そのようなコーデックを構成するのが望ましいことがある。そのような帯域を分割した符号化が望ましいことがある適用例には、狭域の復号システムと互換性を保たなければならない広域の符号化システムがある。そのような適用例には、異なる周波数帯に対する異なる符号化方式の使用に対応することによって、様々な異なる種類の音声入力信号(たとえば、発話と音楽の両方)の効率的な符号化を実現する、汎用音声符号化方式もある。
信号の異なる周波数帯が別々に符号化される場合、一部の場合には、別の帯域からの符号化された(たとえば、量子化された)情報を使うことによって、1つの帯域での符号化効率を向上させることが可能であり得る。それは、この符号化された情報は、すでにデコーダにおいて知られているからである。たとえば、緩やかな高調波モデルを適用して、音声信号フレームの第1の帯域(「ソース」帯域とも呼ばれる)の変換係数を表す復号されたものからの情報を使って、同じ音声信号フレームの第2の帯域(「モデル化されるべき」帯域とも呼ばれる)の変換係数を符号化することができる。高調波モデルに関連がある場合には、第1の帯域を表す復号されたものがすでにデコーダにおいて利用可能なので、符号化効率を向上させることができる。
そのような拡張された方法は、符号化された第1の帯域と高調波的に関連がある第2の帯域のサブバンドを決定することを含み得る。音声信号(たとえば、複雑な音楽信号)の低ビットレート符号化アルゴリズムでは、信号のフレームを複数の帯域(たとえば、低域および高域)に分割して、これらの帯域の間の相関を利用し、帯域の時間領域での表現を効率的に符号化するのが望ましいことがある。
そのような拡張のある特定の例では、音声信号フレームの3.5〜7kHz帯に対応するMDCT係数(以後上側帯域MDCTまたはUB−MDCTと呼ばれる)は、フレームの量子化された低域MDCTスペクトル(0〜4kHz)からの高調波情報に基づいて符号化される。そのような拡張の他の例では、2つの周波数域は重複する必要がなく、分離すらされてもよいことが、明示的に指摘される(たとえば、0〜4kHz帯を表す復号されたものからの情報に基づく、フレームの7〜14kHz帯の符号化)。高調波モデリングのさらなる説明は、本出願が優先権を主張する上で列挙された出願において見出され得る。
図13Aは、タスクT100と、T200と、T300と、T400とを含む、一般的な構成によるベクトル量子化の方法M100のフローチャートを示す。タスクT100は、(たとえば、形状量子化器SQ100に関して本明細書で説明されるように)第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択することによって、第1の方向を有する第1の入力ベクトルを量子化する。タスクT200は、(たとえば、回転行列生成器200に関して本明細書で説明されるように)選択された第1のコードブックベクトルに基づく回転行列を生成する。タスクT300は、(たとえば、乗算器ML10に関して本明細書で説明されるように)(A)第1の方向を有するベクトルと(B)回転行列との積を計算して、第2の方向を有する回転されたベクトルを生成する。タスクT400は、(たとえば、第2の形状量子化器SQ200に関して本明細書で説明されるように)第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択することによって、第2の方向を有する第2の入力ベクトルを量子化する。
図13Bは、一般的な構成によるベクトル量子化のための装置MF100のブロック図を示す。装置MF100は、(たとえば、形状量子化器SQ100に関して本明細書で説明されるように)第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択することによって、第1の方向を有する第1の入力ベクトルを量子化するための手段F100を含む。装置MF100はまた、(たとえば、回転行列生成器200に関して本明細書で説明されるように)選択された第1のコードブックベクトルに基づく回転行列を生成するための手段F200を含む。装置MF100はまた、(たとえば、乗算器ML10に関して本明細書で説明されるように)(A)第1の方向を有するベクトルと(B)回転行列との積を計算して、第2の方向を有する回転されたベクトルを生成するための手段F300を含む。装置MF100はまた、(たとえば、第2の形状量子化器SQ200に関して本明細書で説明されるように)第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択することによって、第2の方向を有する第2の入力ベクトルを量子化するための手段F400を含む。
図14Aは、タスクT600と、T700と、T800と、T900とを含む、一般的な構成によるベクトル逆量子化のための方法MD100のフローチャートを示す。タスクT600は、(たとえば、第1の形状逆量子化器500に関して本明細書で説明されるように)第1のコードブックの複数の第1のコードブックベクトルのうちから、第1のコードブックインデックスによって示される第1のコードブックベクトルを選択する。タスクT700は、(たとえば、回転行列生成器200に関して本明細書で説明されるように)選択された第1のコードブックベクトルに基づく回転行列を生成する。タスクT800は、(たとえば、第2の形状逆量子化器600に関して本明細書で説明されるように)第2のコードブックの複数の第2のコードブックベクトルのうちから、第2のコードブックインデックスによって示され第1の方向を有する第2のコードブックベクトルを選択する。タスクT900は、(たとえば、乗算器ML30に関して本明細書で説明されるように)(A)第1の方向を有するベクトルと(B)回転行列との積を計算して、第1の方向とは異なる第2の方向を有する回転されたベクトルを生成する。
図14Bは、一般的な構成によるベクトル逆量子化のための装置DF100のブロック図を示す。装置DF100は、(たとえば、第1の形状逆量子化器500に関して本明細書で説明されるように)第1のコードブックの複数の第1のコードブックベクトルのうちから、第1のコードブックインデックスによって示される第1のコードブックベクトルを選択するための手段F600を含む。装置DF100はまた、(たとえば、回転行列生成器210に関して本明細書で説明されるように)選択された第1のコードブックベクトルに基づく回転行列を生成するための手段F700を含む。装置DF100はまた、(たとえば、第2の形状逆量子化器600に関して本明細書で説明されるように)第2のコードブックの複数の第2のコードブックベクトルのうちから、第2のコードブックインデックスによって示され第1の方向を有する第2のコードブックベクトルを選択するための手段F800を含む。装置DF100はまた、(たとえば、乗算器ML30に関して本明細書で説明されるように)(A)第1の方向を有するベクトルと(B)回転行列との積を計算して、第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するための手段F900を含む。
図12Bは、装置A100のある実装形態を含む、通信デバイスD10のブロック図を示す。デバイスD10は、装置A100(またはMF100)の、および場合によっては装置D100(またはDF100)の要素を具現化する、チップまたはチップセットCS10(たとえば、移動局モデム(MSM)チップセット)を含む。チップ/チップセットCS10は、装置A100またはMF100のソフトウェアおよび/またはファームウェア部を(たとえば、命令として)実行するように構成され得る、1つまたは複数のプロセッサを含み得る。
チップ/チップセットCS10は、高周波(RF)通信信号を受信し、RF信号内で符号化されたオーディオ信号を復号し再生するように構成される、受信機と、マイクロフォンMV10によって生成される信号に基づく、(たとえば、装置A100によって生成されるようなコードインデックスを含む)符号化された音声信号を表すRF通信信号を送信するように構成される、送信機とを含む。そのようなデバイスは、1つまたは複数の(「コーデック」とも呼ばれる)符号化および復号方式を介して音声通信データをワイヤレスに送信および受信するように構成され得る。そのようなコーデックの例には、「Enhanced Variable Rate Codec,Speech Service Options 3,68 and 70 for Wideband Spread Spectrum Digital Systems」と題する第3世代パートナーシッププロジェクト2(3GPP2)文書C.S0014−C、v1.0、2007年2月(www.3gpp.orgでオンライン入手可能)に記載されているEnhanced Variable Rate Codec、「Selectable Mode Vocoder(SMV) Service Option for Wideband Spread Spectrum Communication Systems」と題する3GPP2文書C.S0030−0、v3.0、2004年1月(www.3gpp.orgでオンライン入手可能)に記載されているSelectable Mode Vocoder音声コーデック、文書ETSI TS 126 092 V6.0.0(European Telecommunications Standards Institute(ETSI)、Sophia Antipolis Cedex、FR、2004年12月)に記載されているAdaptive Multi Rate(AMR)音声コーデック、および文書ETSI TS 126 192 V6.0.0(ETSI、2004年12月)に記載されているAMR Wideband音声コーデックがある。たとえば、チップまたはチップセットCS10は、1つまたは複数のそのようなコーデックに準拠するように、符号化されたフレームを生成するように構成され得る。
デバイスD10は、アンテナC30を介してRF通信信号を受信および送信するように構成される。デバイスD10はまた、アンテナC30への経路中にダイプレクサと1つまたは複数の電力増幅器とを含み得る。また、チップ/チップセットCS10は、キーパッドC10を介してユーザ入力を受信し、ディスプレイC20を介して情報を表示するように構成される。この例では、デバイスD10はまた、全地球測位システム(GPS)位置サービス、および/またはワイヤレス(たとえば、Bluetooth(登録商標))ヘッドセットなどの外部デバイスとの短距離通信をサポートするための、1つまたは複数のアンテナC40を含む。別の例では、そのような通信デバイスは、それ自体がBluetooth(登録商標)ヘッドセットであり、キーパッドC10、ディスプレイC20、およびアンテナC30がない。
通信デバイスD10は、スマートフォンおよびラップトップおよびタブレットコンピュータを含む、様々な通信デバイスに組み込まれ得る。図15は、正面に2つの音声マイクロフォンMV10−1およびMV10−3が配置され、背面に音声マイクロフォンMV10−2が配置され、正面の上側の角に誤差マイクロフォンME10が配置され、背面に雑音参照マイクロフォンMR10が配置された、ハンドセットH100(たとえば、スマートフォン)の正面図、背面図、および側面図を示す。拡声器LS10が、誤差マイクロフォンME10の近くの、正面の上側の中心に配置され、(たとえば、スピーカーフォンの用途で)2つの他の拡声器LS20L、LS20Rも設けられる。そのようなハンドセットのマイクロフォン間の最大距離は、一般に約10または12センチメートルである。
本明細書で開示される方法および装置は、概して任意の送受信および/または音声感知用途、特にそのような用途のモバイル事例または他の持ち運び可能事例において一般に適用され得る。たとえば、本明細書で開示される構成の範囲は、符号分割多元接続(CDMA)無線インターフェースを採用するように構成されたワイヤレス電話通信システムに常駐する、通信デバイスを含む。しかし、本明細書で説明した特徴を有する方法および装置は、有線ならびに/またはワイヤレス(たとえば、CDMA、TDMA、FDMA、および/もしくはTD−SCDMA)送信チャネルを介したボイスオーバIP(VoIP)を採用するシステムなど、当業者に知られている広範囲の技術を採用する様々な通信システムのいずれにも常駐し得ることが、当業者には理解されよう。
本明細書で開示される通信デバイスは、パケット交換式であるネットワーク(たとえば、VoIPなどのプロトコルに従って音声送信を搬送するように構成された有線および/もしくはワイヤレスネットワーク)ならびに/または回線交換式であるネットワークでの使用に適合され得ることが明確に企図され、本明細書で開示される。また、本明細書で開示される通信デバイスは、狭帯域符号化システム(たとえば、約4または5キロヘルツの音声周波数域を符号化するシステム)での使用、ならびに/または、全帯域の広帯域符号化システムおよび帯域を分割した広帯域符号化システムを含む広帯域符号化システム(たとえば、5キロヘルツを超える音声周波数を符号化するシステム)での使用に適合され得ることが明確に企図され、本明細書で開示される。
説明した構成の提示は、本明細書で開示される方法および他の構造物を当業者が製造または使用できるように与えたものである。本明細書で図示および説明したフローチャート、ブロック図、および他の構造は例にすぎず、これらの構造の他の変形形態も開示の範囲内である。これらの構成に対する様々な変更が可能であり、本明細書で提示した一般的な原理は他の構成にも同様に適用できる。したがって、本開示は、上に示した構成に限定されるものではなく、原開示の一部をなす、出願した添付の特許請求の範囲を含む、本明細書において任意の方法で開示される原理および新規の特徴に一致する最も広い範囲が与えられるべきである。
情報および信号は、多種多様な技術および技法のいずれかを使用して表され得ることが、当業者には理解されよう。たとえば、上記の説明全体にわたって言及され得るデータ、命令、コマンド、情報、信号、ビット、およびシンボルは、電圧、電流、電磁波、磁界もしくは磁性粒子、光場もしくは光子、またはそれらの任意の組合せによって表され得る。
本明細書で開示される構成の実装形態の重要な設計要件は、圧縮されたオーディオもしくはオーディオビジュアル情報(たとえば、本明細書で識別される例のうちの1つなど、圧縮形式に従って符号化されるファイルまたはストリーム)の再生などの計算集約的な適用例、または広帯域通信(たとえば、12、16、44.1、48、または192kHzなど、8キロヘルツよりも高いサンプリングレートにおける音声通信)の適用例では特に、(一般に百万命令毎秒またはMIPSで測定される)処理遅延および/または計算複雑性を最小にすることを含み得る。
本明細書で開示されるような装置(たとえば、装置A100、A110、D100、MF100、またはDF100)は、意図する用途に適切であると考えられる、ハードウェアとソフトウェアの任意の組合せ、および/またはハードウェアとファームウェアの任意の組合せで実装され得る。たとえば、そのような装置の要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ上に常駐する、電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。これらの要素のうちの任意の2つ以上、さらにはすべてが、同じ1つまたは複数のアレイ内に実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。
本明細書で開示される装置(たとえば、装置A100、A110、D100、MF100、またはDF100)の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA(フィールドプログラマブルゲートアレイ)、ASSP(特定用途向け標準製品)、およびASIC(特定用途向け集積回路)などの論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行されるように構成された、命令の1つまたは複数のセットとしても実装され得る。本明細書で開示される装置の実装形態の様々な要素のいずれも、1つまたは複数のコンピュータ(たとえば、「プロセッサ」とも呼ばれる、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)としても実装されてよく、これらの要素のうちの任意の2つ以上、さらにはすべてが、同じそのような1つまたは複数のコンピュータ内に実装されてよい。
本明細書で開示されるプロセッサまたは処理するための他の手段は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ上に常駐する、1つまたは複数の電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたは論理ゲートなどの論理要素の固定アレイまたはプログラマブルアレイであり、これらの要素のいずれも1つまたは複数のそのようなアレイとして実装され得る。そのような1つまたは複数のアレイは、1つまたは複数のチップ内(たとえば、2つ以上のチップを含むチップセット内)に実装され得る。そのようなアレイの例には、マイクロプロセッサ、組込みプロセッサ、IPコア、DSP、FPGA、ASSP、およびASICなどの論理要素の固定アレイまたはプログラマブルアレイがある。本明細書で開示されるプロセッサまたは処理するための他の手段は、1つまたは複数のコンピュータ(たとえば、命令の1つまたは複数のセットまたはシーケンスを実行するようにプログラムされた1つまたは複数のアレイを含む機械)、または他のプロセッサとしても実装され得る。本明細書で説明したプロセッサは、プロセッサが組み込まれているデバイスまたはシステム(たとえば、音声感知デバイス)の別の演算に関係するタスクなど、方法M100またはMD100の実装形態のプロシージャに直接関係しないタスクを実行するかまたは命令の他のセットを実行するために使用することが可能である。また、本明細書で開示される方法の一部が音声感知デバイスのプロセッサによって実行され、その方法の別の一部は1つまたは複数の他のプロセッサの制御下で実行されることが可能である。
本明細書で開示される構成に関して説明した様々な例示的なモジュール、論理ブロック、回路、およびテストならびに他の動作は、電子ハードウェア、コンピュータソフトウェア、またはその両方の組合せとして実装され得ることが、当業者には諒解されよう。そのようなモジュール、論理ブロック、回路、および動作は、本明細書で開示される構成を生成するように設計された、汎用プロセッサ、デジタル信号プロセッサ(DSP)、ASICもしくはASSP、FPGAもしくは他のプログラマブル論理デバイス、個別ゲート回路もしくはトランジスタ論理回路、個別ハードウェア構成要素、またはそれらの任意の組合せを用いて実装または実行され得る。たとえば、そのような構成は、少なくとも部分的に、ハードワイヤード回路として、特定用途向け集積回路へと作製された回路構成として、または、不揮発性記憶装置にロードされるファームウェアプログラムとして、または、汎用プロセッサもしくは他のデジタル信号処理ユニットなどの論理要素のアレイによって実行可能な命令である機械可読コードとしてデータ記憶媒体からロードされるかデータ記憶媒体にロードされるソフトウェアプログラムとして、実装され得る。汎用プロセッサはマイクロプロセッサであってよいが、代替として、プロセッサは、任意の従来のプロセッサ、コントローラ、マイクロコントローラ、または状態機械であってもよい。プロセッサは、コンピューティングデバイスの組合せ、たとえば、DSPとマイクロプロセッサとの組合せ、複数のマイクロプロセッサ、DSPコアと連携する1つもしくは複数のマイクロプロセッサ、または、任意の他のそのような構成として実装されてもよい。ソフトウェアモジュールは、RAM(ランダムアクセスメモリ)、ROM(読取り専用メモリ)、フラッシュRAMなどの不揮発性RAM(NVRAM)、消去可能プログラマブルROM(EPROM)、電気的消去可能プログラマブルROM(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、もしくはCD−ROMなど、非一時的記憶媒体中に、または当技術分野で知られている任意の他の形態の記憶媒体中に常駐し得る。例示的な記憶媒体は、プロセッサが記憶媒体から情報を読み取り、記憶媒体に情報を書き込むことができるように、プロセッサに結合される。代替として、記憶媒体はプロセッサと一体であってもよい。プロセッサおよび記憶媒体はASIC中に常駐してよい。ASICは、ユーザ端末内に常駐してよい。代替として、プロセッサおよび記憶媒体は、ユーザ端末内に個別構成要素として常駐してよい。
本明細書で開示される様々な方法(たとえば、方法M100、MD100、および本明細書で説明した様々な装置の動作に関して開示される他の方法)は、プロセッサなどの論理要素のアレイによって実行されてよく、本明細書で説明した装置の様々な要素は、そのようなアレイ上で実行されるように設計されたモジュールとして実装され得ることに留意されたい。本明細書で使用する「モジュール」または「サブモジュール」という用語は、ソフトウェア、ハードウェアまたはファームウェアの形態でコンピュータ命令(たとえば、論理式)を含む任意の方法、装置、デバイス、ユニットまたはコンピュータ可読データ記憶媒体を指し得る。複数のモジュールまたはシステムを1つのモジュールまたはシステムに結合することができ、1つのモジュールまたはシステムを、同じ機能を実行する複数のモジュールまたはシステムに分離することができることを理解されたい。ソフトウェアまたは他のコンピュータ実行可能命令で実装した場合、プロセスの要素は本質的に、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを用いて関連するタスクを実行するコードセグメントである。「ソフトウェア」という用語は、ソースコード、アセンブリ言語コード、機械コード、バイナリコード、ファームウェア、マクロコード、マイクロコード、論理要素のアレイによって実行可能な命令の1つもしくは複数のセットまたはシーケンス、およびそのような例の任意の組合せを含むことを理解されたい。プログラムまたはコードセグメントは、プロセッサ可読媒体に記憶されてよく、または、搬送波に埋め込まれたコンピュータデータ信号によって伝送媒体または通信リンクを介して送信されてよい。
本明細書で開示される方法、方式、および技法の実装形態は、(たとえば、本明細書に記載する1つまたは複数のコンピュータ可読記憶媒体の有形のコンピュータ可読特徴において)論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械によって実行可能な命令の1つまたは複数のセットとしても有形に実施され得る。「コンピュータ可読媒体」という用語は、情報を記憶または転送することができる、揮発性の、不揮発性の、取外し可能な、および取外し不可能な記憶媒体を含む、任意の媒体を含み得る。コンピュータ可読媒体の例には、電子回路、半導体メモリデバイス、ROM、フラッシュメモリ、消去可能ROM(EROM)、フロッピー(登録商標)ディスケットもしくは他の磁気ストレージ、CD−ROM/DVDもしくは他の光ストレージ、ハードディスクもしくは所望の情報を記憶するために使用され得る任意の他の媒体、光ファイバー媒体、無線周波(RF)リンク、または、所望の情報を搬送するために使用されアクセスされ得る任意の他の媒体がある。コンピュータデータ信号は、電子ネットワークチャネル、光ファイバー、無線リンク、電磁リンク、RFリンクなどの伝送媒体を介して伝播することができる、任意の信号を含み得る。コードセグメントは、インターネットまたはイントラネットなどのコンピュータネットワークを介してダウンロードされ得る。いずれの場合も、本開示の範囲は、そのような実施形態によって限定されると解釈すべきではない。
本明細書で説明した方法のタスクの各々は、ハードウェアで直接実施されてもよく、プロセッサによって実行されるソフトウェアモジュールで実施されてもよく、またはその2つの組合せで実施されてもよい。本明細書で開示される方法の実装形態の典型的な適用例では、論理要素のアレイ(たとえば、論理ゲート)は、この方法の様々なタスクのうちの1つ、複数、さらにはすべてを実行するように構成される。タスクの1つまたは複数(場合によってはすべて)は、論理要素のアレイ(たとえば、プロセッサ、マイクロプロセッサ、マイクロコントローラ、または他の有限状態機械)を含む機械(たとえば、コンピュータ)によって読取り可能および/または実行可能である、コンピュータプログラム製品(たとえば、ディスク、フラッシュもしくは他の不揮発性メモリカード、半導体メモリチップなどの1つまたは複数のデータ記憶媒体など)に埋め込まれたコード(たとえば、命令の1つまたは複数のセット)としても実装され得る。本明細書で開示される方法の実装形態のタスクは、2つ以上のそのようなアレイまたは機械によっても実行され得る。これらのまたは他の実装形態では、タスクは、携帯電話のようなワイヤレス通信用のデバイス、またはそのような通信機能をもつ他のデバイス内で実行され得る。そのようなデバイスは、(VoIPなどの1つまたは複数のプロトコルを使用して)回線交換および/またはパケット交換ネットワークと通信するように構成され得る。たとえば、そのようなデバイスは、符号化フレームを受信および/または送信するように構成されたRF回路を含み得る。
本明細書で開示される様々な方法は、ハンドセット、ヘッドセット、または携帯情報端末(PDA)などのポータブル通信デバイスによって実行されてよく、本明細書で説明した様々な装置は、そのようなデバイス内に含まれ得ることが明確に開示される。典型的なリアルタイム(たとえば、オンライン)適用例は、そのようなモバイルデバイスを使用して行われる電話による会話である。
1つまたは複数の例示的な実施形態では、本明細書で説明した動作は、ハードウェア、ソフトウェア、ファームウェア、またはそれらの任意の組合せで実施され得る。ソフトウェアで実施される場合、そのような動作は、1つまたは複数の命令またはコードとしてコンピュータ可読媒体に記憶され得るか、あるいはコンピュータ可読媒体を介して送信され得る。「コンピュータ可読媒体」という用語は、コンピュータ可読記憶媒体と通信(たとえば、伝送)媒体の両方を含む。限定ではなく、例として、コンピュータ可読記憶媒体は、(限定はしないが、ダイナミックRAMもしくはスタティックRAM、ROM、EEPROM、および/またはフラッシュRAMを含み得る)半導体メモリ、または強誘電体メモリ、磁気抵抗メモリ、オボニックメモリ、高分子メモリ、または相変化メモリなどの記憶要素のアレイ、CD−ROMもしくは他の光ディスクストレージ、および/または、磁気ディスクストレージもしくは他の磁気ストレージデバイスを備え得る。そのような記憶媒体は、コンピュータによってアクセスされ得る命令またはデータ構造の形態で情報を記憶し得る。通信媒体は、ある場所から別の場所へのコンピュータプログラムの転送を可能にする任意の媒体を含む、命令またはデータ構造の形態の所望のプログラムコードを搬送するために使用されコンピュータによってアクセスされ得る、任意の媒体を備え得る。同様に、いかなる接続も適切にコンピュータ可読媒体と称される。たとえば、ソフトウェアが、同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線(DSL)、または、赤外線、無線、および/もしくはマイクロ波のようなワイヤレス技術を使用して、ウェブサイト、サーバ、または他のリモートソースから送信される場合、同軸ケーブル、光ファイバケーブル、ツイストペア、DSL、または、赤外線、無線、および/もしくはマイクロ波のようなワイヤレス技術は、媒体の定義に含まれる。本明細書で使用するディスク(disk)およびディスク(disc)は、コンパクトディスク(disc)(CD)、レーザディスク(disc)、光ディスク(disc)、デジタル多用途ディスク(disc)(DVD)、フロッピーディスク(disk)およびブルーレイ(登録商標)ディスク(disc)(Blu−Ray Disc Association、カリフォルニア州ユニヴァーサルシティー)を含み、ディスク(disk)は、通常、データを磁気的に再生し、ディスク(disc)はデータをレーザで光学的に再生する。上記の組合せもコンピュータ可読媒体の範囲内に含めるべきである。
本明細書で説明した音響信号処理装置は、いくつかの動作を制御するために音声入力を受け取り、またはバックグラウンドノイズから所望のノイズを分離することから利益を得ることができる、通信デバイスなどの電子デバイスに組み込まれ得る。多くの適用例において、複数の方向から発生した背景音から、明瞭な所望の音を強調または分離することから利益を得ることができる。そのような適用例は、音声認識および検出、音声強調および分離、音声により有効になる制御などの機能を組み込んだ、電子デバイスまたはコンピューティングデバイスにおける人と機械の間のインターフェースを含み得る。そのような音響信号処理装置を、限定された処理機能のみを与えるデバイスに適するように実装するのが望ましいことがある。
本明細書で説明したモジュール、要素、およびデバイスの様々な実装形態の要素は、たとえば、同じチップ上に、またはチップセット中の2つ以上のチップ上に常駐する、電子デバイスおよび/または光デバイスとして作製され得る。そのようなデバイスの一例は、トランジスタまたはゲートなど、論理要素の固定アレイまたはプログラマブルアレイである。本明細書で説明した装置の様々な実装形態の1つまたは複数の要素は、全体または一部が、マイクロプロセッサ、組込みプロセッサ、IPコア、デジタル信号プロセッサ、FPGA、ASSP、およびASICのような論理要素の1つまたは複数の固定アレイまたはプログラマブルアレイ上で実行されるように構成された、命令の1つまたは複数のセットとしても実装され得る。
本明細書で説明した装置の一実装形態の1つまたは複数の要素は、装置が組み込まれているデバイスまたはシステムの別の動作に関係するタスクなど、装置の動作に直接関係しないタスクを実施し、または装置の動作に直接関係しない命令の他のセットを実行するために使用することが可能である。また、そのような装置の実装形態の1つまたは複数の要素は、共通の構造(たとえば、異なる要素に対応するコードの部分を異なる時間に実行するために使用されるプロセッサ、異なる要素に対応するタスクを異なる時間に実施するように実行される命令のセット、または、異なる要素向けの動作を異なる時間に実施する電子デバイスおよび/もしくは光デバイスの構成)を有することが可能である。
以下に、本願出願の当初の特許請求の範囲に記載された発明を付記する。
[1]
第1の方向を有する第1の入力ベクトルを受け取り、第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択するように構成される、第1のベクトル量子化器と、
前記選択された第1のコードブックベクトルに基づく回転行列を生成するように構成される、回転行列生成器と、
(A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するように構成される、乗算器と、
前記第2の方向を有する第2の入力ベクトルを受け取り、第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択するように構成される、第2のベクトル量子化器とを備える、ベクトル量子化のための装置。
[2]
前記複数の第1のコードブックベクトルと前記複数の第2のコードブックベクトルの各々が、単位ノルムベクトルである、上記[1]に記載の装置。
[3]
前記第1のベクトル量子化器が、前記第1の入力ベクトルの利得値に基づいて、複数のコードブックのうちから前記第1のコードブックを選択するように構成される、上記[1]および上記[2]のいずれか一項に記載の装置。
[4]
前記複数の第1のコードブックベクトルの各々に対して、前記第1の入力ベクトルと前記コードブックベクトルの内積が、前記第1の入力ベクトルと前記選択された第1のコードブックベクトルの内積よりも大きくない、上記[1]から上記[3]のいずれか一項に記載の装置。
[5]
前記第1の入力ベクトルが、音声信号のフレームの複数のサブバンドベクトルのうちの1つである、上記[1]から上記[4]のいずれか一項に記載の装置であって、
前記音声信号の前のフレームの平均利得値に基づいて、前記複数のサブバンドベクトルの平均利得値を符号化するように構成される、利得量子化器を含む、装置。
[6]
前記回転行列の少なくとも1つの行の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、上記[1]から上記[5]のいずれか一項に記載の装置。
[7]
前記回転行列の少なくとも1つの列の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、上記[1]から上記[6]のいずれか一項に記載の装置。
[8]
前記回転行列が、前記第1の入力ベクトルとは独立の参照ベクトルに基づく、上記[1]から上記[7]のいずれか一項に記載の装置。
[9]
前記参照ベクトルが、0ではない要素を1つしか有さない、上記[8]に記載の装置。
[10]
前記回転行列が、前記選択された第1のコードブックベクトルと前記参照ベクトルとを含む平面内での、前記選択された第1のコードブックベクトルの前記参照ベクトルの方向への回転を定義する、上記[8]および上記[9]のいずれか一項に記載の装置。
[11]
前記乗算器が、前記回転行列と前記第1の入力ベクトルとの積を計算することによって、前記第1の方向を有するベクトルと前記回転行列との前記積を計算するように構成される、上記[1]から上記[10]のいずれか一項に記載の装置。
[12]
前記選択された第1のコードブックベクトルが、単位パルスのパターンに基づく、上記[1]から上記[11]のいずれか一項に記載の装置。
[13]
第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択することによって、第1の方向を有する第1の入力ベクトルを量子化することと、
前記選択された第1のコードブックベクトルに基づく回転行列を生成することと、
(A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成することと、
第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択することによって、前記第2の方向を有する第2の入力ベクトルを量子化することとを備える、ベクトル量子化の方法。
[14]
前記複数の第1のコードブックベクトルと前記複数の第2のコードブックベクトルの各々が、単位ノルムベクトルである、上記[13]に記載の方法。
[15]
第1の入力ベクトルを前記量子化することが、前記第1の入力ベクトルの利得値に基づいて、複数のコードブックのうちから前記第1のコードブックを選択することを含む、上記[13]および上記[14]のいずれか一項に記載の方法。
[16]
前記複数の第1のコードブックベクトルの各々に対して、前記第1の入力ベクトルと前記コードブックベクトルの内積が、前記第1の入力ベクトルと前記選択された第1のコードブックベクトルの内積よりも大きくない、上記[13]から上記[15]のいずれか一項に記載の方法。
[17]
前記第1の入力ベクトルが、音声信号のフレームの複数のサブバンドベクトルのうちの1つである、上記[13]から上記[16]のいずれか一項に記載の方法であって、
前記音声信号の前のフレームの平均利得値に基づいて、前記複数のサブバンドベクトルの平均利得値を符号化することを含む、方法。
[18]
前記回転行列の少なくとも1つの行の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、上記[13]から上記[17]のいずれか一項に記載の方法。
[19]
前記回転行列の少なくとも1つの列の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、上記[13]から上記[18]のいずれか一項に記載の方法。
[20]
前記回転行列が、前記第1の入力ベクトルとは独立の参照ベクトルに基づく、上記[13]から上記[19]のいずれか一項に記載の方法。
[21]
前記参照ベクトルが、0ではない要素を1つしか有さない、上記[20]に記載の方法。
[22]
前記回転行列が、前記選択された第1のコードブックベクトルと前記参照ベクトルとを含む平面内での、前記選択された第1のコードブックベクトルの前記参照ベクトルの方向への回転を定義する、上記[20]および上記[21]のいずれか一項に記載の方法。
[23]
前記回転行列と前記第1の入力ベクトルとの積を計算することによって、前記第1の方向を有する前記ベクトルと前記回転行列との前記積を前記計算することが実行される、上記[13]から上記[22]のいずれか一項に記載の方法。
[24]
前記選択された第1のコードブックベクトルが、単位パルスのパターンに基づく、上記[13]から上記[23]のいずれか一項に記載の方法。
[25]
第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択することによって、第1の方向を有する第1の入力ベクトルを量子化するための手段と、
前記選択された第1のコードブックベクトルに基づく回転行列を生成するための手段と、
(A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するための手段と、
第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択することによって、前記第2の方向を有する第2の入力ベクトルを量子化するための手段とを備える、ベクトル量子化のための装置。
[26]
前記複数の第1のコードブックベクトルと前記複数の第2のコードブックベクトルの各々が、単位ノルムベクトルである、上記[25]に記載の装置。
[27]
第1の入力ベクトルを量子化するための前記手段が、前記第1の入力ベクトルの利得値に基づいて、複数のコードブックのうちから前記第1のコードブックを選択するように構成される、上記[25]および上記[26]のいずれか一項に記載の装置。
[28]
前記複数の第1のコードブックベクトルの各々に対して、前記第1の入力ベクトルと前記コードブックベクトルの内積が、前記第1の入力ベクトルと前記選択された第1のコードブックベクトルの内積よりも大きくない、上記[25]から上記[27]のいずれか一項に記載の装置。
[29]
前記第1の入力ベクトルが、音声信号のフレームの複数のサブバンドベクトルのうちの1つである、上記[25]から上記[28]のいずれか一項に記載の装置であって、
前記音声信号の前のフレームの平均利得値に基づいて、前記複数のサブバンドベクトルの平均利得値を符号化するための手段を含む、装置。
[30]
前記回転行列の少なくとも1つの行の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、上記[25]から上記[29]のいずれか一項に記載の装置。
[31]
前記回転行列の少なくとも1つの列の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、上記[25]から上記[30]のいずれか一項に記載の装置。
[32]
前記回転行列が、前記第1の入力ベクトルとは独立の参照ベクトルに基づく、上記[25]から上記[31]のいずれか一項に記載の装置。
[33]
前記参照ベクトルが、0ではない要素を1つしか有さない、上記[32]に記載の装置。
[34]
前記回転行列が、前記選択された第1のコードブックベクトルと前記参照ベクトルとを含む平面内での、前記選択された第1のコードブックベクトルの前記参照ベクトルの方向への回転を定義する、上記[32]および上記[33]のいずれか一項に記載の装置。
[35]
積を計算するための前記手段が、前記回転行列と前記第1の入力ベクトルとの積を計算することによって、前記第1の方向を有するベクトルと前記回転行列との前記積を計算するように構成される、上記[25]から上記[34]のいずれか一項に記載の装置。
[36]
前記選択された第1のコードブックベクトルが、単位パルスのパターンに基づく、上記[25]から上記[35]のいずれか一項に記載の装置。
[37]
第1のコードブックインデックスと第2のコードブックインデックスとを含む、量子化されたベクトルを逆量子化するための装置であって、
前記第1のコードブックインデックスを受け取り、第1のコードブックから対応する第1のコードブックベクトルを生成するように構成される、第1のベクトル逆量子化器と、
前記第1のコードブックベクトルに基づく回転行列を生成するように構成される、回転行列生成器と、
第2のコードブックインデックスを受け取り、第1の方向を有する対応する第2のコードブックベクトルを第2のコードブックから生成するように構成される、第2のベクトル逆量子化器と、
(A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するように構成される、乗算器とを備える、装置。
[38]
第1のコードブックインデックスと第2のコードブックインデックスとを含む、量子化されたベクトルを逆量子化する方法であって、
第1のコードブックの複数の第1のコードブックベクトルのうちから、前記第1のコードブックインデックスによって示される第1のコードブックベクトルを選択することと、
前記選択された第1のコードブックベクトルに基づく回転行列を生成することと、
第2のコードブックの複数の第2のコードブックベクトルのうちから、前記第2のコードブックインデックスによって示され第1の方向を有する第2のコードブックベクトルを選択することと、
(A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成することとを備える、方法。
[39]
第1のコードブックインデックスと第2のコードブックインデックスとを含む、量子化されたベクトルを逆量子化するための装置であって、
第1のコードブックの複数の第1のコードブックベクトルのうちから、前記第1のコードブックインデックスによって示される第1のコードブックベクトルを選択するための手段と、
前記選択された第1のコードブックベクトルに基づく回転行列を生成するための手段と、
第2のコードブックの複数の第2のコードブックベクトルのうちから、前記第2のコードブックインデックスによって示され第1の方向を有する第2のコードブックベクトルを選択するための手段と、
(A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するための手段とを備える、装置。
[40]
有形な機構を有し、前記有形な機構が、機械に前記機構を読み取らせて、上記[13]から上記[24]および上記[38]のいずれか一項に記載の方法を実行させる、コンピュータ可読記憶媒体。

Claims (40)

  1. 第1の方向を有する第1の入力ベクトルを受け取り、第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択するように構成される、第1のベクトル量子化器と、
    前記選択された第1のコードブックベクトルに基づく回転行列を生成するように構成される、回転行列生成器と、
    (A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するように構成される、乗算器と、
    前記第2の方向を有する第2の入力ベクトルを受け取り、第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択するように構成される、第2のベクトル量子化器とを備える、ベクトル量子化のための装置。
  2. 前記複数の第1のコードブックベクトルと前記複数の第2のコードブックベクトルの各々が、単位ノルムベクトルである、請求項1に記載の装置。
  3. 前記第1のベクトル量子化器が、前記第1の入力ベクトルの利得値に基づいて、複数のコードブックのうちから前記第1のコードブックを選択するように構成される、請求項1および2のいずれか一項に記載の装置。
  4. 前記複数の第1のコードブックベクトルの各々に対して、前記第1の入力ベクトルと前記複数の第1のコードブックベクトルの各々の内積が、前記第1の入力ベクトルと前記選択された第1のコードブックベクトルの内積よりも大きくない、請求項1から3のいずれか一項に記載の装置。
  5. 前記第1の入力ベクトルが、音声信号のフレームの複数のサブバンドベクトルのうちの1つである、請求項1から4のいずれか一項に記載の装置であって、
    前記音声信号の前のフレームの平均利得値に基づいて、前記複数のサブバンドベクトルの平均利得値を符号化するように構成される、利得量子化器を含む、装置。
  6. 前記回転行列の少なくとも1つの行の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、請求項1から5のいずれか一項に記載の装置。
  7. 前記回転行列の少なくとも1つの列の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、請求項1から6のいずれか一項に記載の装置。
  8. 前記回転行列が、前記第1の入力ベクトルとは独立の参照ベクトルに基づく、請求項1から7のいずれか一項に記載の装置。
  9. 前記参照ベクトルが、0ではない要素を1つしか有さない、請求項8に記載の装置。
  10. 前記回転行列が、前記選択された第1のコードブックベクトルと前記参照ベクトルとを含む平面内での、前記選択された第1のコードブックベクトルの前記参照ベクトルの方向への回転を定義する、請求項8および9のいずれか一項に記載の装置。
  11. 前記乗算器が、前記回転行列と前記第1の入力ベクトルとの積を計算することによって、前記第1の方向を有するベクトルと前記回転行列との前記積を計算するように構成される、請求項1から10のいずれか一項に記載の装置。
  12. 前記選択された第1のコードブックベクトルが、単位パルスのパターンに基づく、請求項1から11のいずれか一項に記載の装置。
  13. 第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択することによって、第1の方向を有する第1の入力ベクトルを量子化することと、
    前記選択された第1のコードブックベクトルに基づく回転行列を生成することと、
    (A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成することと、
    第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択することによって、前記第2の方向を有する第2の入力ベクトルを量子化することとを備える、ベクトル量子化の方法。
  14. 前記複数の第1のコードブックベクトルと前記複数の第2のコードブックベクトルの各々が、単位ノルムベクトルである、請求項13に記載の方法。
  15. 第1の入力ベクトルを前記量子化することが、前記第1の入力ベクトルの利得値に基づいて、複数のコードブックのうちから前記第1のコードブックを選択することを含む、請求項13および14のいずれか一項に記載の方法。
  16. 前記複数の第1のコードブックベクトルの各々に対して、前記第1の入力ベクトルと前記複数の第1のコードブックベクトルの各々の内積が、前記第1の入力ベクトルと前記選択された第1のコードブックベクトルの内積よりも大きくない、請求項13から15のいずれか一項に記載の方法。
  17. 前記第1の入力ベクトルが、音声信号のフレームの複数のサブバンドベクトルのうちの1つである、請求項13から16のいずれか一項に記載の方法であって、
    前記音声信号の前のフレームの平均利得値に基づいて、前記複数のサブバンドベクトルの平均利得値を符号化することを含む、方法。
  18. 前記回転行列の少なくとも1つの行の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、請求項13から17のいずれか一項に記載の方法。
  19. 前記回転行列の少なくとも1つの列の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、請求項13から18のいずれか一項に記載の方法。
  20. 前記回転行列が、前記第1の入力ベクトルとは独立の参照ベクトルに基づく、請求項13から19のいずれか一項に記載の方法。
  21. 前記参照ベクトルが、0ではない要素を1つしか有さない、請求項20に記載の方法。
  22. 前記回転行列が、前記選択された第1のコードブックベクトルと前記参照ベクトルとを含む平面内での、前記選択された第1のコードブックベクトルの前記参照ベクトルの方向への回転を定義する、請求項20および21のいずれか一項に記載の方法。
  23. 前記回転行列と前記第1の入力ベクトルとの積を計算することによって、前記第1の方向を有する前記ベクトルと前記回転行列との前記積を前記計算することが実行される、請求項13から22のいずれか一項に記載の方法。
  24. 前記選択された第1のコードブックベクトルが、単位パルスのパターンに基づく、請求項13から23のいずれか一項に記載の方法。
  25. 第1のコードブックの複数の第1のコードブックベクトルのうちから対応する1つを選択することによって、第1の方向を有する第1の入力ベクトルを量子化するための手段と、
    前記選択された第1のコードブックベクトルに基づく回転行列を生成するための手段と、
    (A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するための手段と、
    第2のコードブックの複数の第2のコードブックベクトルのうちから対応する1つを選択することによって、前記第2の方向を有する第2の入力ベクトルを量子化するための手段とを備える、ベクトル量子化のための装置。
  26. 前記複数の第1のコードブックベクトルと前記複数の第2のコードブックベクトルの各々が、単位ノルムベクトルである、請求項25に記載の装置。
  27. 第1の入力ベクトルを量子化するための前記手段が、前記第1の入力ベクトルの利得値に基づいて、複数のコードブックのうちから前記第1のコードブックを選択するように構成される、請求項25および26のいずれか一項に記載の装置。
  28. 前記複数の第1のコードブックベクトルの各々に対して、前記第1の入力ベクトルと前記複数の第1のコードブックベクトルの各々の内積が、前記第1の入力ベクトルと前記選択された第1のコードブックベクトルの内積よりも大きくない、請求項25から27のいずれか一項に記載の装置。
  29. 前記第1の入力ベクトルが、音声信号のフレームの複数のサブバンドベクトルのうちの1つである、請求項25から28のいずれか一項に記載の装置であって、
    前記音声信号の前のフレームの平均利得値に基づいて、前記複数のサブバンドベクトルの平均利得値を符号化するための手段を含む、装置。
  30. 前記回転行列の少なくとも1つの行の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、請求項25から29のいずれか一項に記載の装置。
  31. 前記回転行列の少なくとも1つの列の要素の各々が、前記選択された第1のコードブックベクトルの対応する要素に基づく、請求項25から30のいずれか一項に記載の装置。
  32. 前記回転行列が、前記第1の入力ベクトルとは独立の参照ベクトルに基づく、請求項25から31のいずれか一項に記載の装置。
  33. 前記参照ベクトルが、0ではない要素を1つしか有さない、請求項32に記載の装置。
  34. 前記回転行列が、前記選択された第1のコードブックベクトルと前記参照ベクトルとを含む平面内での、前記選択された第1のコードブックベクトルの前記参照ベクトルの方向への回転を定義する、請求項32および33のいずれか一項に記載の装置。
  35. 積を計算するための前記手段が、前記回転行列と前記第1の入力ベクトルとの積を計算することによって、前記第1の方向を有するベクトルと前記回転行列との前記積を計算するように構成される、請求項25から34のいずれか一項に記載の装置。
  36. 前記選択された第1のコードブックベクトルが、単位パルスのパターンに基づく、請求項25から35のいずれか一項に記載の装置。
  37. 第1のコードブックインデックスと第2のコードブックインデックスとを含む、量子化されたベクトルを逆量子化するための装置であって、
    前記第1のコードブックインデックスを受け取り、第1のコードブックから対応する第1のコードブックベクトルを生成するように構成される、第1のベクトル逆量子化器と、
    前記第1のコードブックベクトルに基づく回転行列を生成するように構成される、回転行列生成器と、
    第2のコードブックインデックスを受け取り、第1の方向を有する対応する第2のコードブックベクトルを第2のコードブックから生成するように構成される、第2のベクトル逆量子化器と、
    (A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するように構成される、乗算器とを備える、装置。
  38. 第1のコードブックインデックスと第2のコードブックインデックスとを含む、量子化されたベクトルを逆量子化する方法であって、
    第1のコードブックの複数の第1のコードブックベクトルのうちから、前記第1のコードブックインデックスによって示される第1のコードブックベクトルを選択することと、
    前記選択された第1のコードブックベクトルに基づく回転行列を生成することと、
    第2のコードブックの複数の第2のコードブックベクトルのうちから、前記第2のコードブックインデックスによって示され第1の方向を有する第2のコードブックベクトルを選択することと、
    (A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成することとを備える、方法。
  39. 第1のコードブックインデックスと第2のコードブックインデックスとを含む、量子化されたベクトルを逆量子化するための装置であって、
    第1のコードブックの複数の第1のコードブックベクトルのうちから、前記第1のコードブックインデックスによって示される第1のコードブックベクトルを選択するための手段と、
    前記選択された第1のコードブックベクトルに基づく回転行列を生成するための手段と、
    第2のコードブックの複数の第2のコードブックベクトルのうちから、前記第2のコードブックインデックスによって示され第1の方向を有する第2のコードブックベクトルを選択するための手段と、
    (A)前記第1の方向を有するベクトルと(B)前記回転行列との積を計算して、前記第1の方向とは異なる第2の方向を有する回転されたベクトルを生成するための手段とを備える、装置。
  40. コンピュータに、請求項13から24および38のいずれか一項に記載の方法を実行させるためのプログラムを記憶するコンピュータ可読記憶媒体。
JP2013523223A 2010-07-30 2011-07-29 複数段階の形状ベクトル量子化のためのシステム、方法、装置、およびコンピュータ可読媒体 Active JP5587501B2 (ja)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US36966210P 2010-07-30 2010-07-30
US61/369,662 2010-07-30
US36970510P 2010-07-31 2010-07-31
US61/369,705 2010-07-31
US36975110P 2010-08-01 2010-08-01
US61/369,751 2010-08-01
US37456510P 2010-08-17 2010-08-17
US61/374,565 2010-08-17
US38423710P 2010-09-17 2010-09-17
US61/384,237 2010-09-17
US201161470438P 2011-03-31 2011-03-31
US61/470,438 2011-03-31
US13/193,476 US8831933B2 (en) 2010-07-30 2011-07-28 Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization
US13/193,476 2011-07-28
PCT/US2011/045858 WO2012016122A2 (en) 2010-07-30 2011-07-29 Systems, methods, apparatus, and computer-readable media for multi-stage shape vector quantization

Publications (2)

Publication Number Publication Date
JP2013539548A JP2013539548A (ja) 2013-10-24
JP5587501B2 true JP5587501B2 (ja) 2014-09-10

Family

ID=45527629

Family Applications (4)

Application Number Title Priority Date Filing Date
JP2013523225A Active JP5694532B2 (ja) 2010-07-30 2011-07-29 ダイナミックなビット割り当てのためのシステム、方法、装置およびコンピュータ読取り可能媒体
JP2013523227A Ceased JP2013537647A (ja) 2010-07-30 2011-07-29 オーディオ信号の従属モードコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013523223A Active JP5587501B2 (ja) 2010-07-30 2011-07-29 複数段階の形状ベクトル量子化のためのシステム、方法、装置、およびコンピュータ可読媒体
JP2013523220A Active JP5694531B2 (ja) 2010-07-30 2011-07-29 高調波信号のコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体

Family Applications Before (2)

Application Number Title Priority Date Filing Date
JP2013523225A Active JP5694532B2 (ja) 2010-07-30 2011-07-29 ダイナミックなビット割り当てのためのシステム、方法、装置およびコンピュータ読取り可能媒体
JP2013523227A Ceased JP2013537647A (ja) 2010-07-30 2011-07-29 オーディオ信号の従属モードコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013523220A Active JP5694531B2 (ja) 2010-07-30 2011-07-29 高調波信号のコーディングのためのシステム、方法、装置、およびコンピュータ可読媒体

Country Status (10)

Country Link
US (4) US20120029926A1 (ja)
EP (5) EP3021322B1 (ja)
JP (4) JP5694532B2 (ja)
KR (4) KR101445510B1 (ja)
CN (4) CN103038821B (ja)
BR (1) BR112013002166B1 (ja)
ES (1) ES2611664T3 (ja)
HU (1) HUE032264T2 (ja)
TW (1) TW201214416A (ja)
WO (4) WO2012016110A2 (ja)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE490454T1 (de) * 2005-07-22 2010-12-15 France Telecom Verfahren zum umschalten der raten- und bandbreitenskalierbaren audiodecodierungsrate
CA2803272A1 (en) * 2010-07-05 2012-01-12 Nippon Telegraph And Telephone Corporation Encoding method, decoding method, device, program, and recording medium
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection
US9008811B2 (en) 2010-09-17 2015-04-14 Xiph.org Foundation Methods and systems for adaptive time-frequency resolution in digital data coding
RU2554554C2 (ru) * 2011-01-25 2015-06-27 Ниппон Телеграф Энд Телефон Корпорейшн Способ кодирования, кодер, способ определения величины периодического признака, устройство определения величины периодического признака, программа и носитель записи
WO2012122297A1 (en) 2011-03-07 2012-09-13 Xiph. Org. Methods and systems for avoiding partial collapse in multi-block audio coding
US8838442B2 (en) 2011-03-07 2014-09-16 Xiph.org Foundation Method and system for two-step spreading for tonal artifact avoidance in audio coding
US9009036B2 (en) * 2011-03-07 2015-04-14 Xiph.org Foundation Methods and systems for bit allocation and partitioning in gain-shape vector quantization for audio coding
US9336787B2 (en) 2011-10-28 2016-05-10 Panasonic Intellectual Property Corporation Of America Encoding apparatus and encoding method
RU2505921C2 (ru) * 2012-02-02 2014-01-27 Корпорация "САМСУНГ ЭЛЕКТРОНИКС Ко., Лтд." Способ и устройство кодирования и декодирования аудиосигналов (варианты)
HUE033069T2 (hu) * 2012-03-29 2017-11-28 ERICSSON TELEFON AB L M (publ) Harmonikus hangjelek átalakítási kódolása/dekódolása
DE202013005408U1 (de) * 2012-06-25 2013-10-11 Lg Electronics Inc. Mikrophonbefestigungsanordnung eines mobilen Endgerätes
CN103516440B (zh) * 2012-06-29 2015-07-08 华为技术有限公司 语音频信号处理方法和编码装置
PL3193332T3 (pl) 2012-07-12 2020-12-14 Nokia Technologies Oy Kwantyzacja wektorowa
EP2685448B1 (en) * 2012-07-12 2018-09-05 Harman Becker Automotive Systems GmbH Engine sound synthesis
US8885752B2 (en) * 2012-07-27 2014-11-11 Intel Corporation Method and apparatus for feedback in 3D MIMO wireless systems
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
CN104737227B (zh) 2012-11-05 2017-11-10 松下电器(美国)知识产权公司 语音音响编码装置、语音音响解码装置、语音音响编码方法和语音音响解码方法
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
KR102200643B1 (ko) * 2012-12-13 2021-01-08 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 음성 음향 부호화 장치, 음성 음향 복호 장치, 음성 음향 부호화 방법 및 음성 음향 복호 방법
US9577618B2 (en) * 2012-12-20 2017-02-21 Advanced Micro Devices, Inc. Reducing power needed to send signals over wires
CA3076775C (en) 2013-01-08 2020-10-27 Dolby International Ab Model based prediction in a critically sampled filterbank
KR101757347B1 (ko) 2013-01-29 2017-07-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. 지각적 변환 오디오 코딩에서의 노이즈 채움
RU2658892C2 (ru) 2013-06-11 2018-06-25 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для расширения диапазона частот для акустических сигналов
CN104282308B (zh) 2013-07-04 2017-07-14 华为技术有限公司 频域包络的矢量量化方法和装置
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
CN104347082B (zh) * 2013-07-24 2017-10-24 富士通株式会社 弦波帧检测方法和设备以及音频编码方法和设备
US9224402B2 (en) 2013-09-30 2015-12-29 International Business Machines Corporation Wideband speech parameterization for high quality synthesis, transformation and quantization
US8879858B1 (en) 2013-10-01 2014-11-04 Gopro, Inc. Multi-channel bit packing engine
WO2015049820A1 (ja) * 2013-10-04 2015-04-09 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音響信号符号化装置、音響信号復号装置、端末装置、基地局装置、音響信号符号化方法及び復号方法
ES2716756T3 (es) * 2013-10-18 2019-06-14 Ericsson Telefon Ab L M Codificación de las posiciones de los picos espectrales
CN105659320B (zh) 2013-10-21 2019-07-12 杜比国际公司 音频编码器和解码器
EP3624347B1 (en) * 2013-11-12 2021-07-21 Telefonaktiebolaget LM Ericsson (publ) Split gain shape vector coding
US20150149157A1 (en) * 2013-11-22 2015-05-28 Qualcomm Incorporated Frequency domain gain shape estimation
BR112016020988B1 (pt) * 2014-03-14 2022-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Método e codificador para codificação de um sinal de áudio, e, dispositivo de comunicação
CN104934032B (zh) * 2014-03-17 2019-04-05 华为技术有限公司 根据频域能量对语音信号进行处理的方法和装置
US9542955B2 (en) * 2014-03-31 2017-01-10 Qualcomm Incorporated High-band signal coding using multiple sub-bands
EP3413307B1 (en) 2014-07-25 2020-07-15 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio signal coding apparatus, audio signal decoding device, and methods thereof
US9620136B2 (en) 2014-08-15 2017-04-11 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
US9336788B2 (en) 2014-08-15 2016-05-10 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
US9672838B2 (en) * 2014-08-15 2017-06-06 Google Technology Holdings LLC Method for coding pulse vectors using statistical properties
CA2964906A1 (en) 2014-10-20 2016-04-28 Audimax, Llc Systems, methods, and devices for intelligent speech recognition and processing
US20160232741A1 (en) * 2015-02-05 2016-08-11 Igt Global Solutions Corporation Lottery Ticket Vending Device, System and Method
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
DE102015104864A1 (de) 2015-03-30 2016-10-06 Thyssenkrupp Ag Lagerelement für einen Stabilisator eines Fahrzeugs
CA2991341A1 (en) * 2015-07-06 2017-01-12 Nokia Technologies Oy Bit error detector for an audio signal decoder
EP3171362B1 (en) * 2015-11-19 2019-08-28 Harman Becker Automotive Systems GmbH Bass enhancement and separation of an audio signal into a harmonic and transient signal component
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding
US10825467B2 (en) * 2017-04-21 2020-11-03 Qualcomm Incorporated Non-harmonic speech detection and bandwidth extension in a multi-source environment
WO2019040136A1 (en) * 2017-08-23 2019-02-28 Google Llc MULTI-SCALE QUANTIFICATION FOR QUICK SIMILARITY SEARCH
RU2744362C1 (ru) * 2017-09-20 2021-03-05 Войсэйдж Корпорейшн Способ и устройство для эффективного распределения битового бюджета в celp-кодеке
CN108153189B (zh) * 2017-12-20 2020-07-10 中国航空工业集团公司洛阳电光设备研究所 一种民机显示控制器的电源控制电路及方法
US11367452B2 (en) 2018-03-02 2022-06-21 Intel Corporation Adaptive bitrate coding for spatial audio streaming
CN112154502B (zh) 2018-04-05 2024-03-01 瑞典爱立信有限公司 支持生成舒适噪声
CN110704024B (zh) * 2019-09-28 2022-03-08 中昊芯英(杭州)科技有限公司 一种矩阵处理装置、方法及处理设备
US12073317B2 (en) * 2020-01-07 2024-08-27 Alibaba Group Holding Limited Method and system for processing a neural network
CN111681639B (zh) * 2020-05-28 2023-05-30 上海墨百意信息科技有限公司 一种多说话人语音合成方法、装置及计算设备

Family Cites Families (115)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3978287A (en) 1974-12-11 1976-08-31 Nasa Real time analysis of voiced sounds
US4516258A (en) 1982-06-30 1985-05-07 At&T Bell Laboratories Bit allocation generator for adaptive transform coder
JPS6333935A (ja) 1986-07-29 1988-02-13 Sharp Corp ゲイン/シエイプ・ベクトル量子化器
US4899384A (en) 1986-08-25 1990-02-06 Ibm Corporation Table controlled dynamic bit allocation in a variable rate sub-band speech coder
JPH01205200A (ja) 1988-02-12 1989-08-17 Nippon Telegr & Teleph Corp <Ntt> 音声符号化方式
US4964166A (en) 1988-05-26 1990-10-16 Pacific Communication Science, Inc. Adaptive transform coder having minimal bit allocation processing
US5388181A (en) * 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
US5630011A (en) 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
US5222146A (en) 1991-10-23 1993-06-22 International Business Machines Corporation Speech recognition apparatus having a speech coder outputting acoustic prototype ranks
EP0551705A3 (en) 1992-01-15 1993-08-18 Ericsson Ge Mobile Communications Inc. Method for subbandcoding using synthetic filler signals for non transmitted subbands
CA2088082C (en) 1992-02-07 1999-01-19 John Hartung Dynamic bit allocation for three-dimensional subband video coding
IT1257065B (it) 1992-07-31 1996-01-05 Sip Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi.
KR100188912B1 (ko) 1992-09-21 1999-06-01 윤종용 서브밴드코딩의 비트재할당 방법
US5664057A (en) 1993-07-07 1997-09-02 Picturetel Corporation Fixed bit rate speech encoder/decoder
JP3228389B2 (ja) 1994-04-01 2001-11-12 株式会社東芝 利得形状ベクトル量子化装置
TW271524B (ja) * 1994-08-05 1996-03-01 Qualcomm Inc
US5751905A (en) 1995-03-15 1998-05-12 International Business Machines Corporation Statistical acoustic processing method and apparatus for speech recognition using a toned phoneme system
SE506379C3 (sv) 1995-03-22 1998-01-19 Ericsson Telefon Ab L M Lpc-talkodare med kombinerad excitation
US5692102A (en) 1995-10-26 1997-11-25 Motorola, Inc. Method device and system for an efficient noise injection process for low bitrate audio compression
US5692949A (en) 1995-11-17 1997-12-02 Minnesota Mining And Manufacturing Company Back-up pad for use with abrasive articles
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US5781888A (en) 1996-01-16 1998-07-14 Lucent Technologies Inc. Perceptual noise shaping in the time domain via LPC prediction in the frequency domain
JP3240908B2 (ja) 1996-03-05 2001-12-25 日本電信電話株式会社 声質変換方法
JPH09288498A (ja) 1996-04-19 1997-11-04 Matsushita Electric Ind Co Ltd 音声符号化装置
JP3707153B2 (ja) 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
DE69712537T2 (de) 1996-11-07 2002-08-29 Matsushita Electric Industrial Co., Ltd. Verfahren zur Erzeugung eines Vektorquantisierungs-Codebuchs
FR2761512A1 (fr) 1997-03-25 1998-10-02 Philips Electronics Nv Dispositif de generation de bruit de confort et codeur de parole incluant un tel dispositif
US6064954A (en) 1997-04-03 2000-05-16 International Business Machines Corp. Digital audio signal coding
JP2001500284A (ja) 1997-07-11 2001-01-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改良した調波音声符号器を備えた送信機
DE19730130C2 (de) 1997-07-14 2002-02-28 Fraunhofer Ges Forschung Verfahren zum Codieren eines Audiosignals
WO1999010719A1 (en) 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US5999897A (en) 1997-11-14 1999-12-07 Comsat Corporation Method and apparatus for pitch estimation using perception based analysis by synthesis
JPH11224099A (ja) 1998-02-06 1999-08-17 Sony Corp 位相量子化装置及び方法
JP3802219B2 (ja) 1998-02-18 2006-07-26 富士通株式会社 音声符号化装置
US6301556B1 (en) 1998-03-04 2001-10-09 Telefonaktiebolaget L M. Ericsson (Publ) Reducing sparseness in coded speech signals
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP3515903B2 (ja) 1998-06-16 2004-04-05 松下電器産業株式会社 オーディオ符号化のための動的ビット割り当て方法及び装置
US6094629A (en) 1998-07-13 2000-07-25 Lockheed Martin Corp. Speech coding system and method including spectral quantizer
US7272556B1 (en) 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6766288B1 (en) * 1998-10-29 2004-07-20 Paul Reed Smith Guitars Fast find fundamental method
US6363338B1 (en) * 1999-04-12 2002-03-26 Dolby Laboratories Licensing Corporation Quantization in perceptual audio coders with compensation for synthesis filter noise spreading
US6246345B1 (en) * 1999-04-16 2001-06-12 Dolby Laboratories Licensing Corporation Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
CN1158646C (zh) 1999-04-16 2004-07-21 多尔拜实验特许公司 在音频编码中应用增益自适应量化和变长码
JP4242516B2 (ja) 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
US6236960B1 (en) 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6782360B1 (en) 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6952671B1 (en) 1999-10-04 2005-10-04 Xvd Corporation Vector quantization with a non-structured codebook for audio compression
JP2001242896A (ja) 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声符号化/復号装置およびその方法
JP3404350B2 (ja) 2000-03-06 2003-05-06 パナソニック モバイルコミュニケーションズ株式会社 音声符号化パラメータ取得方法、音声復号方法及び装置
CA2359260C (en) 2000-10-20 2004-07-20 Samsung Electronics Co., Ltd. Coding apparatus and method for orientation interpolator node
GB2375028B (en) 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
JP3636094B2 (ja) 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
DE60209888T2 (de) 2001-05-08 2006-11-23 Koninklijke Philips Electronics N.V. Kodieren eines audiosignals
JP3601473B2 (ja) 2001-05-11 2004-12-15 ヤマハ株式会社 ディジタルオーディオ圧縮回路および伸長回路
KR100347188B1 (en) 2001-08-08 2002-08-03 Amusetec Method and apparatus for judging pitch according to frequency analysis
US7240001B2 (en) 2001-12-14 2007-07-03 Microsoft Corporation Quality improvement techniques in an audio encoder
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
US7310598B1 (en) 2002-04-12 2007-12-18 University Of Central Florida Research Foundation, Inc. Energy based split vector quantizer employing signal representation in multiple transform domains
DE10217297A1 (de) 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
JP4296752B2 (ja) 2002-05-07 2009-07-15 ソニー株式会社 符号化方法及び装置、復号方法及び装置、並びにプログラム
US7447631B2 (en) 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
TWI288915B (en) 2002-06-17 2007-10-21 Dolby Lab Licensing Corp Improved audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
ES2259158T3 (es) 2002-09-19 2006-09-16 Matsushita Electric Industrial Co., Ltd. Metodo y aparato decodificador audio.
JP4657570B2 (ja) 2002-11-13 2011-03-23 ソニー株式会社 音楽情報符号化装置及び方法、音楽情報復号装置及び方法、並びにプログラム及び記録媒体
FR2849727B1 (fr) 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
JP4191503B2 (ja) 2003-02-13 2008-12-03 日本電信電話株式会社 音声楽音信号符号化方法、復号化方法、符号化装置、復号化装置、符号化プログラム、および復号化プログラム
US7996234B2 (en) 2003-08-26 2011-08-09 Akikaze Technologies, Llc Method and apparatus for adaptive variable bit rate audio encoding
US7613607B2 (en) 2003-12-18 2009-11-03 Nokia Corporation Audio enhancement in coded domain
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20070299658A1 (en) 2004-07-13 2007-12-27 Matsushita Electric Industrial Co., Ltd. Pitch Frequency Estimation Device, and Pich Frequency Estimation Method
US20060015329A1 (en) 2004-07-19 2006-01-19 Chu Wai C Apparatus and method for audio coding
ES2476992T3 (es) 2004-11-05 2014-07-15 Panasonic Corporation Codificador, descodificador, método de codificación y método de descodificaci�n
JP4599558B2 (ja) 2005-04-22 2010-12-15 国立大学法人九州工業大学 ピッチ周期等化装置及びピッチ周期等化方法、並びに音声符号化装置、音声復号装置及び音声符号化方法
US7630882B2 (en) * 2005-07-15 2009-12-08 Microsoft Corporation Frequency segmentation to obtain bands for efficient coding of digital media
WO2007052088A1 (en) 2005-11-04 2007-05-10 Nokia Corporation Audio compression
CN101030378A (zh) 2006-03-03 2007-09-05 北京工业大学 一种建立增益码书的方法
KR100770839B1 (ko) 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
US8712766B2 (en) 2006-05-16 2014-04-29 Motorola Mobility Llc Method and system for coding an information signal using closed loop adaptive bit allocation
US7987089B2 (en) 2006-07-31 2011-07-26 Qualcomm Incorporated Systems and methods for modifying a zero pad region of a windowed frame of an audio signal
US8374857B2 (en) * 2006-08-08 2013-02-12 Stmicroelectronics Asia Pacific Pte, Ltd. Estimating rate controlling parameters in perceptual audio encoders
US20080059201A1 (en) 2006-09-03 2008-03-06 Chih-Hsiang Hsiao Method and Related Device for Improving the Processing of MP3 Decoding and Encoding
JP4396683B2 (ja) 2006-10-02 2010-01-13 カシオ計算機株式会社 音声符号化装置、音声符号化方法、及び、プログラム
WO2008045846A1 (en) 2006-10-10 2008-04-17 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
US20080097757A1 (en) * 2006-10-24 2008-04-24 Nokia Corporation Audio coding
KR100862662B1 (ko) 2006-11-28 2008-10-10 삼성전자주식회사 프레임 오류 은닉 방법 및 장치, 이를 이용한 오디오 신호복호화 방법 및 장치
BRPI0721079A2 (pt) 2006-12-13 2014-07-01 Panasonic Corp Dispositivo de codificação, dispositivo de decodificação e método dos mesmos
CN101548318B (zh) 2006-12-15 2012-07-18 松下电器产业株式会社 编码装置、解码装置以及其方法
KR101299155B1 (ko) * 2006-12-29 2013-08-22 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
FR2912249A1 (fr) * 2007-02-02 2008-08-08 France Telecom Codage/decodage perfectionnes de signaux audionumeriques.
EP1973101B1 (en) 2007-03-23 2010-02-24 Honda Research Institute Europe GmbH Pitch extraction with inhibition of harmonics and sub-harmonics of the fundamental frequency
US9653088B2 (en) 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8005023B2 (en) 2007-06-14 2011-08-23 Microsoft Corporation Client-side echo cancellation for multi-party audio conferencing
US7761290B2 (en) 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7774205B2 (en) 2007-06-15 2010-08-10 Microsoft Corporation Coding of sparse digital media spectral data
US8111176B2 (en) 2007-06-21 2012-02-07 Koninklijke Philips Electronics N.V. Method for encoding vectors
US7885819B2 (en) 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
PT2186089T (pt) 2007-08-27 2019-01-10 Ericsson Telefon Ab L M Método e dispositivo para descodificação espetral percetual de um sinal áudio que inclui preenchimento de buracos espetrais
JP5264913B2 (ja) 2007-09-11 2013-08-14 ヴォイスエイジ・コーポレーション 話声およびオーディオの符号化における、代数符号帳の高速検索のための方法および装置
WO2009048239A2 (en) * 2007-10-12 2009-04-16 Electronics And Telecommunications Research Institute Encoding and decoding method using variable subband analysis and apparatus thereof
US8527265B2 (en) * 2007-10-22 2013-09-03 Qualcomm Incorporated Low-complexity encoding/decoding of quantized MDCT spectrum in scalable speech and audio codecs
US8139777B2 (en) 2007-10-31 2012-03-20 Qnx Software Systems Co. System for comfort noise injection
CN101465122A (zh) * 2007-12-20 2009-06-24 株式会社东芝 语音的频谱波峰的检测以及语音识别方法和系统
US20090319261A1 (en) 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
CN103000178B (zh) 2008-07-11 2015-04-08 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
EP2304719B1 (en) 2008-07-11 2017-07-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, methods for providing an audio stream and computer program
CN102123779B (zh) 2008-08-26 2013-06-05 华为技术有限公司 用于无线通信的系统和方法
US8364471B2 (en) 2008-11-04 2013-01-29 Lg Electronics Inc. Apparatus and method for processing a time domain audio signal with a noise filling flag
EP2380172B1 (en) 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
RU2519027C2 (ru) 2009-02-13 2014-06-10 Панасоник Корпорэйшн Устройство векторного квантования, устройство векторного обратного квантования и способы для этого
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
US9117458B2 (en) 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
KR101445296B1 (ko) 2010-03-10 2014-09-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 샘플링 레이트 의존 시간 왜곡 윤곽 인코딩을 이용하는 오디오 신호 디코더, 오디오 신호 인코더, 방법, 및 컴퓨터 프로그램
WO2011141772A1 (en) 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
US9208792B2 (en) 2010-08-17 2015-12-08 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for noise injection

Also Published As

Publication number Publication date
WO2012016122A3 (en) 2012-04-12
KR20130069756A (ko) 2013-06-26
BR112013002166A2 (pt) 2016-05-31
HUE032264T2 (en) 2017-09-28
JP2013537647A (ja) 2013-10-03
JP5694532B2 (ja) 2015-04-01
KR20130036364A (ko) 2013-04-11
EP3021322B1 (en) 2017-10-04
EP2599082B1 (en) 2020-11-25
EP3021322A1 (en) 2016-05-18
EP3852104B1 (en) 2023-08-16
WO2012016126A2 (en) 2012-02-02
KR101445509B1 (ko) 2014-09-26
CN103038821A (zh) 2013-04-10
JP2013534328A (ja) 2013-09-02
KR20130037241A (ko) 2013-04-15
WO2012016122A2 (en) 2012-02-02
EP2599082A2 (en) 2013-06-05
US20120029924A1 (en) 2012-02-02
US8831933B2 (en) 2014-09-09
ES2611664T3 (es) 2017-05-09
WO2012016110A2 (en) 2012-02-02
TW201214416A (en) 2012-04-01
US20120029923A1 (en) 2012-02-02
US8924222B2 (en) 2014-12-30
EP2599081A2 (en) 2013-06-05
EP2599080B1 (en) 2016-10-19
US20120029926A1 (en) 2012-02-02
EP2599080A2 (en) 2013-06-05
WO2012016126A3 (en) 2012-04-12
EP3852104A1 (en) 2021-07-21
CN103052984A (zh) 2013-04-17
WO2012016110A3 (en) 2012-04-05
WO2012016128A2 (en) 2012-02-02
KR101445510B1 (ko) 2014-09-26
JP5694531B2 (ja) 2015-04-01
US20120029925A1 (en) 2012-02-02
EP2599081B1 (en) 2020-12-23
CN103038822B (zh) 2015-05-27
JP2013539548A (ja) 2013-10-24
CN103038822A (zh) 2013-04-10
CN103052984B (zh) 2016-01-20
CN103038821B (zh) 2014-12-24
KR20130036361A (ko) 2013-04-11
JP2013532851A (ja) 2013-08-19
US9236063B2 (en) 2016-01-12
KR101442997B1 (ko) 2014-09-23
BR112013002166B1 (pt) 2021-02-02
WO2012016128A3 (en) 2012-04-05
CN103038820A (zh) 2013-04-10

Similar Documents

Publication Publication Date Title
JP5587501B2 (ja) 複数段階の形状ベクトル量子化のためのシステム、方法、装置、およびコンピュータ可読媒体
JP5680755B2 (ja) ノイズ注入のためのシステム、方法、装置、および、コンピュータ読取可能媒体
CN108831501B (zh) 用于带宽扩展的高频编码/高频解码方法和设备
CN110176241B (zh) 信号编码方法和设备以及信号解码方法和设备
JP2017528751A (ja) 信号符号化方法及びその装置、並びに信号復号方法及びその装置
WO2014130083A1 (en) Systems and methods for determining pitch pulse period signal boundaries
JP2013537325A (ja) ピッチサイクルエネルギーを判断し、励起信号をスケーリングすること
WO2018073486A1 (en) Low-delay audio coding

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140304

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140530

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140624

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140723

R150 Certificate of patent or registration of utility model

Ref document number: 5587501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250