JP2014517933A - Celpコーダおよびデコーダ内の変換領域コードブック - Google Patents

Celpコーダおよびデコーダ内の変換領域コードブック Download PDF

Info

Publication number
JP2014517933A
JP2014517933A JP2014509572A JP2014509572A JP2014517933A JP 2014517933 A JP2014517933 A JP 2014517933A JP 2014509572 A JP2014509572 A JP 2014509572A JP 2014509572 A JP2014509572 A JP 2014509572A JP 2014517933 A JP2014517933 A JP 2014517933A
Authority
JP
Japan
Prior art keywords
codebook
transform domain
stage
adaptive
transform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014509572A
Other languages
English (en)
Other versions
JP6173304B2 (ja
Inventor
ヴァクラヴ・エクスラー
Original Assignee
ヴォイスエイジ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=47138606&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2014517933(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by ヴォイスエイジ・コーポレーション filed Critical ヴォイスエイジ・コーポレーション
Publication of JP2014517933A publication Critical patent/JP2014517933A/ja
Application granted granted Critical
Publication of JP6173304B2 publication Critical patent/JP6173304B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • G10L19/107Sparse pulse excitation, e.g. by using algebraic codebook
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0004Design or structure of the codebook
    • G10L2019/0005Multi-stage vector quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

入力音響信号を符号化する際に使用するためのコードブック装置が、第1および第2のコードブックステージを備える。第1のコードブックステージは、時間領域CELPコードブックおよび変換領域コードブックのうちの一方を含む。第2のコードブックステージは、第1のコードブックステージに追随し、時間領域CELPコードブックおよび変換領域コードブックのうちの他方を含む。適応コードブックを備える第3のコードブックステージを、第1のコードブックステージの前に設けることが可能である。選択器を、入力音響信号の特性の関数として、それぞれ第1および第2のコードブックステージでの、時間領域CELPコードブックおよび変換領域コードブックの順序を選択するために設けることが可能である。

Description

本開示は、入力音響信号を符号化する際に使用するためのコードブック装置、ならびにそのようなコードブック装置を使用するコーダおよびデコーダに関する。
符号励振線形予測(CELP)モデルが、音響信号、例えば音声を低いビットレートで符号化するために幅広く使用されている。
CELP符号化では音声信号は、サンプリングされ、各々が典型的には10〜30msの音声に対応する、フレームと通常呼ばれる所定の数のサンプルの連続的なブロックで処理される。さらにフレームは、サブフレームと呼ばれるより小さなブロックに分割される。
CELPでは、信号は、時変合成フィルタ1/A(z)によって処理される励振としてモデリングされる。時変合成フィルタは多くの形式をとり得るが、線形再帰型全極型フィルタが使用されることが非常に多い。したがって線形全零型非再帰型フィルタである時変合成フィルタの逆関数A(z)は、短期予測器(STP)と定義される。その理由はその逆関数が、入力音響信号のサンプルs(n)と前のサンプルs(n-1)、s(n-2)、…、s(n-m)の加重和との間の予測誤差を最小化するような様式で計算された係数を含むからというものである。ここでmはフィルタの次数であり、nは離散時間領域のインデックスであってn=0、…、L-1であり、Lは分析窓の長さである。STPの代わりに頻繁に使用される別の名称は、線形予測器(LP)である。
LPフィルタからの予測誤差が適正な初期状態を伴って時変合成フィルタの入力として付与されるならば、合成フィルタの出力は元の音響信号、例えば音声となる。低いビットレートでは、正確な誤差残差(LPフィルタからの最小化された予測誤差)を送信することは可能ではない。したがって誤差残差は、励振と呼ばれる近似値を形成するように符号化される。CELPコーダでは励振は2つの寄与の和として符号化され、第1の寄与はいわゆる適応コードブックから取られ、第2の寄与はいわゆる新規(innovative)または固定のコードブックから取られる。適応コードブックは、本質的には(遅延パラメータtにより遅延される)過去の励振信号からのサンプルv(n)のブロックであり、適正なゲインgpを用いてスケーリングされる。新規または固定のコードブックには、STPおよび適応コードブックからの予測残差を符号化するタスクを有するベクトルが加えられている。新規または固定のコードブックベクトルc(n)もまた、適正なゲインgcを用いてスケーリングされる。新規または固定のコードブックを、多くの構造体および制約を使用して設計することが可能である。これに対して現代の音声符号化システムでは、代数符号励振線形予測(ACELP)モデルが使用されている。ACELPの実装形態の例が、[3GPP TS26.190“Adaptive Multi-Rate - Wideband(AMR-WB)speech codec;Transcoding functions”]において説明されている。したがって、ACELPについては、本開示では簡単に説明するのみとする。なお、この参考文献の全内容は、参照により本明細書に組み込まれている。
低いビットレートで音声を符号化するのにはきわめて効率的であるが、ACELPコードブックは、ACELPコードブックのサイズが増大する場合に、他の手法(例えば変換符号化およびベクトル量子化)ほど急速に品質が上昇することは可能でない。dB/ビット/サンプルで測定する場合、ACELPコードブックにおいてトラックあたりでより多くの非ゼロのパルスを使用することにより得られる、より高いビットレート(例えば16kビット/sより高いビットレート)での品質の上昇は、変換符号化およびベクトル量子化を用いて得られる、より高いビットレートでの(dB/ビット/サンプルでの)品質の上昇ほど大きくはない。このことは、ACELPが本質的に、時変合成フィルタの遅延かつスケーリングされたインパルス応答の和として音響信号を符号化することを考慮すれば理解することが可能である。より低いビットレート(例えば12kビット/sより低いビットレート)では、ACELPモデルは励振の本質的な成分をすばやくとらえる。しかしより高いビットレートでは、より高い粒度、および特に、信号の異なる周波数成分にわたって追加的なビットがどのように費やされるかについてのより良好な制御が有用である。
本開示は、第1および第2のコードブックステージを備える、入力音響信号を符号化する際に使用するためのコードブック装置に関係する。第1のコードブックステージは、時間領域CELPコードブックおよび変換領域コードブックのうちの一方を含み、第2のコードブックステージは、第1のコードブックステージに追随し、時間領域CELPコードブックおよび変換領域コードブックのうちの他方を含む。
本開示は、適応コードブックを検索して適応コードブックインデックスおよび適応コードブックゲインを索出するように構成される第1の適応コードブックステージ、時間領域CELPコードブックおよび変換領域コードブックのうちの一方を含む第2のコードブックステージ、ならびに、第2のコードブックステージに追随し、時間領域CELPコードブックおよび変換領域コードブックのうちの他方を含む第3のコードブックステージを備える入力音響信号のコーダにさらに関係する。第2および第3のコードブックステージは、それぞれの時間領域CELPコードブックおよび変換領域コードブックを検索して、新規コードブックインデックス、新規コードブックゲイン、変換領域係数、および変換領域コードブックゲインを索出するように構成される。
コードブック装置、コーダ、およびデコーダの前述および他の特徴は、付随する図面を参照する単に例示的な例として与えられる、それらのコードブック装置、コーダ、およびデコーダの実施形態の以下の非制限的な説明を読むことでより明らかになろう。
添付の図面の説明は以下の通りである。
この非限定的な例ではACELPを使用する、CELPコーダの例の概略ブロック図である。 この非限定的な例ではACELPを使用する、CELPデコーダの例の概略ブロック図である。 修正されたCELPモデルの第1の構造体を使用し、第1のコードブック装置を含むCELPコーダの概略ブロック図である。 修正されたCELPモデルの第1の構造体によるCELPデコーダの概略ブロック図である。 修正されたCELPモデルの第2の構造体を使用し、第2のコードブック装置を含むCELPコーダの概略ブロック図である。 異なるコードブック構造体間で選定するための分類器を用いる、一般的な修正されたCELPコーダの例の概略ブロック図である。
図1は、ACELPコーダ100の主な構成要素を示す。
図1ではy1(n)は、フィルタリングされた適応コードブック励振信号(すなわち、適応コードブックベクトルv(n)に対する加重合成フィルタの零状態応答)であり、y2(n)は同様に、フィルタリングされた新規コードブック励振信号である。信号x1(n)およびx2(n)はそれぞれ、適応および新規のコードブック検索用の目標信号である。H(z)と示される加重合成フィルタは、LP合成フィルタ1/A(z)および知覚加重フィルタW(z)の縦接続であり、すなわちH(z)=[1/A(z)]・W(z)である。
LPフィルタA(z)は、例えばz変換で伝達関数
を提示することが可能であり、ここでaiは線形予測係数(LP係数)を表し、a0=1であり、Mは線形予測係数の数(LP分析の次数)である。LP係数aiは、ACELPコーダ100のLP分析器(図示せず)において決定される。LP分析器は、例えば上述の論文[3GPP TS26.190“Adaptive Multi-Rate - Wideban (AMR-WB speech codec Transcoding functions”]において説明されており、したがって本開示ではさらには説明しない。
知覚加重フィルタの例は、W(z)=A(z/γ1)/A(z/γ2)となる場合があり、ここでγ1およびγ2は、0から1の間の値を有し、知覚加重フィルタW(z)の周波数応答を決定する定数である。
<適応コードブック検索>
図1のACELPコーダ100では適応コードブック検索が、適応コードブックステージ120において、各々のサブフレームの間に、元の音声と合成された音声との間の平均二乗加重誤差を最小化することにより遂行される。このことは、次式の項を最大化することにより実現される。
ここでx1(n)は上記で述べた目標信号であり、y1(n)は上記で述べたフィルタリングされた適応コードブック励振信号であり、Nはサブフレームの長さである。
目標信号x1(n)は、入力音響信号s(n)、例えば音声を知覚加重フィルタW(z)101によって最初に処理して、知覚加重された入力音響信号sw(n)を得ることにより得られる。次いで減算器102が、知覚加重された入力音響信号sw(n)から加重合成フィルタH(z)103の零入力応答を減算して、適応コードブック検索用の目標信号x1(n)を得る。知覚加重フィルタW(z)101、加重合成フィルタH(z)=W(z)/A(z)103、および減算器102を、適応コードブック検索用の目標信号x1(n)の計算器と一括して定義することが可能である。
適応コードブックインデックスT(ピッチ遅延)が、適応コードブック検索の間に索出される。次いで、適応コードブック検索の間に索出された適応コードブックインデックスTに対する適応コードブックゲインgp(ピッチゲイン)が、次式により与えられる。
簡単のためにコードブックインデックスTは、フィルタリングされた適応コードブック励振信号の表記から省略されている。したがって信号y1(n)は、信号y1 (T)(n)と同等である。
適応コードブックインデックスTおよび適応コードブックゲインgpは、量子化され、適応コードブックパラメータとしてデコーダに送信される。適応コードブック検索は、上述の論文[3GPP TS26.190「Adaptive Multi-Rate - Wideband(AMR-WB)speech codec; Transcoding functions」]において説明されており、したがって本開示ではさらには説明しない。
<新規コードブック検索>
新規コードブック検索が、新規コードブックステージ130において、計算器111において、適応コードブック寄与を除去した後で平均二乗加重誤差を最小化することにより、すなわち次式のように遂行される。
ここで新規コードブック検索用の目標信号x2(n)は、減算器104によって、適応コードブック目標信号x1(n)から適応コードブック励振寄与gp・y1(n)を減算することにより算出される。
x2(n)=x1(n)-gp・y1(n) (4)
適応コードブック励振寄与は、適応コードブックステージ120において、加重合成フィルタH(z)105によって適応コードブック121(時間領域CELPコードブック)からの適応コードブックインデックスTでの適応コードブックベクトルv(n)を処理して、フィルタリングされた適応コードブック励振信号y1(n)(すなわち、適応コードブックベクトルv(n)に対する加重合成フィルタ105の零状態応答)を得ることにより、および、増幅器106を使用して適応コードブックゲインgpにより、フィルタリングされた適応コードブック励振信号y1(n)を増幅することにより計算される。
式(3)の新規コードブック励振寄与gc・y2 (k)(n)は、新規コードブックステージ130において、新規コードブックインデックスkを新規コードブック107に適用して新規コードブックベクトルc(n)を生成することにより計算される。次いで新規コードブックベクトルc(n)は、加重合成フィルタH(z)108によって処理されて、フィルタリングされた新規コードブック励振信号y2 (k)(n)を生成する。次いでフィルタリングされた新規コードブック励振信号y2 (k)(n)は、増幅器109によって新規コードブックゲインgcを用いて増幅されて、式(3)の新規コードブック励振寄与gc・y2 (k)(n)を生成する。最後に減算器110が、項x2(n)-gc・y2 (k)(n)を計算する。次いで計算器111が、前文で述べた項を二乗し、この項を、0からN-1の範囲でのnの異なる値での他の対応する項x2(n)-gc・y2 (k)(n)と合算する。式(3)で指示するように計算器111は、これらの演算を異なる新規コードブックインデックスkに対して反復して、所与の新規コードブックインデックスkでの平均二乗加重誤差の最小値Eを、したがって式(3)の完全な計算結果を索出する。平均二乗加重誤差の最小値Eに対応する新規コードブックインデックスkが選定される。
ACELPコードブックでは新規コードブックベクトルc(n)は、符号sjおよび位置mjを伴うM個のパルスを包含し、したがって次式により与えられる。
ここでsj=±1であり、n=0に対してδ(n)=1であり、n≠0に対してδ(n)=0である。
最後に式(3)からのEを最小化することによって、次式の最適新規コードブックゲインが結果として得られる。
平均二乗加重誤差の最小値Eに対応する新規コードブックインデックスkおよび対応する新規コードブックゲインgcは、量子化され、新規コードブックパラメータとしてデコーダに送信される。新規コードブック検索は、上述の論文[3GPP TS26.190“Adaptive Multi-Rate - Wideband(AMR-WB)speech codec;Transcoding functions”]において説明されており、したがって本明細書ではさらには説明しない。
図2は、ACELPデコーダ200の主な構成要素および動作の原理を示す概略ブロック図である。
図2を参照するとACELPデコーダ200は、適応コードブックインデックスT(ピッチ遅延)および適応コードブックゲインgp(ピッチゲイン)を含む、復号化された適応コードブックパラメータを受信する。適応コードブックステージ220において、適応コードブックインデックスTが適応コードブック201に適用されて適応コードブックベクトルv(n)が生成され、生成された適応コードブックベクトルv(n)が増幅器202で適応コードブックゲインgpを用いて増幅されて、適応コードブック励振寄与203が生成される。
さらに図2を参照するとACELPデコーダ200は、新規コードブックインデックスkおよび新規コードブックゲインgcを含む、復号化された新規コードブックパラメータをさらに受信する。新規コードブックステージ230において、復号化された新規コードブックインデックスkは、新規コードブック204に適用されて対応する新規コードブックベクトルを出力する。次いで新規コードブック204からのベクトルが、増幅器205で新規コードブックゲインgcを用いて増幅されて、新規コードブック励振寄与206を生成する。
次いで全励振が、適応コードブック励振寄与203および新規コードブック励振寄与206の加算器207での合算によって形成される。次いで全励振が、LP合成フィルタ1/A(z)208によって処理されて、元の音響信号s(n)、例えば音声の合成物s'(n)を生成する。
本開示は、別の追加的なコードブックステージが励振を形成するために使用されるようにCELPモデルを修正することを教示する。そのような別のコードブックは、それが変換領域係数を符号化するので変換領域コードブックステージとさらに呼ばれる。CELPモデルでのいくつかのコードブックおよびそれらの順序の選定を、以下の説明において説明する。修正されたCELPモデルの一般的な構造体を、図6でさらに示す。
<修正されたCELPモデルの第1の構造体>
図4は、この非限定的な例ではACELPデコーダを使用する、デコーダに適用される修正されたCELPモデルの第1の構造体を示す概略ブロック図である。修正されたCELPモデルの第1の構造体は、適応コードブックステージ220、変換領域コードブックステージ420、および新規コードブックステージ230を含む第1のコードブック装置を備える。図4に例示するように、全励振e(n)408は以下の寄与、すなわち、
- 適応コードブックステージ220において適応コードブックベクトルv(n)が、適応コードブック201により適応コードブックインデックスTに応答して生成され、適応コードブックゲインgpを使用する増幅器202によりスケーリングされて、適応コードブック励振寄与203を生成する、
- 変換領域コードブックステージ420において変換領域ベクトルq(n)が生成され、変換領域コードブックゲインgqを使用する増幅器407によりスケーリングされて、変換領域コードブック励振寄与409を生成する、および、
- 新規コードブックステージ230において新規コードブックベクトルc(n)が、新規コードブック204により新規コードブックインデックスkに応答して生成され、新規コードブックゲインgcを使用する増幅器205によりスケーリングされて、新規コードブック励振寄与206を生成する、
を含む。このことは、以下の関係式により例示される。
e(n)=gp・v(n)+gq・q(n)+gc・c(n)、n=0、…、N-1 (7)
修正されたCELPモデルのこの第1の構造体は、1つのステージ420での変換領域コードブック402を、追随するステージ230での時間領域ACELPコードブックまたは新規コードブック204により追随される状態で組み合わせる。変換領域コードブック402は、例えば音響信号の周波数表現としての離散コサイン変換(DCT)、およびDCTの変換領域係数を逆量子化するための代数ベクトル量子化器(AVQ)デコーダを使用する場合がある。DCTおよびAVQの使用は単なる例であり、他の変換を実装することが可能であり、変換領域係数を量子化するための他の方法を使用することもまた可能であることに留意されたい。
<変換領域コードブック用の目標信号の算出>
コーダ(図3)では、第1のコードブック装置の変換領域コードブックステージ320の変換領域コードブックは以下のように動作する。(新規コードブックのサブフレームと位置合わせされた)所与のサブフレームにおいて、変換領域コードブック用の目標信号qin(n)300、すなわちスケーリングされた適応コードブックベクトルgp・v(n)を除去した後の励振残差r(n)が次式のように算出される。
qin(n)=r(n)-gp・v(n)、n=0、…、N-1 (8)
ここでr(n)は、零状態による加重合成フィルタH(z)の逆関数によって目標信号x1(n)315をフィルタリングすることにより得られるいわゆる残差領域での目標ベクトルである。項v(n)313は適応コードブックベクトルを表し、項gp314は適応コードブックゲインを表す。
<プリエンファシスフィルタリング>
変換領域コードブックでは変換領域コードブック用の目標信号qin(n)300は、フィルタF(z)301を用いてプリエンファシスされる。プリエンファシスフィルタの例はF(z)=1/(1-α・z-1)であり、差分方程式は次式により与えられる。
qin,d(n)=qin(n)+α・qin,d(n-1) (9)
ここでqin(n)300は、プリエンファシスフィルタF(z)301に入力される目標信号であり、qin,d(n)302は、変換領域コードブック用のプリエンファシスされた目標信号であり、係数αがプリエンファシスのレベルを制御する。この非限定的な例では、αの値が0から1の間に設定される場合、プリエンファシスフィルタは、より低い周波数を強調するために変換領域コードブック用の目標信号にスペクトル傾斜を付与する。
<変換計算>
変換領域コードブックは、変換領域DCT係数Qin,d(k)304のブロックを生成するために、例えば矩形の非重複の窓を使用して、プリエンファシスされた目標信号qin,d(n)302に、例えばDCTを適用するための変換計算器303をさらに備える。DCT-IIを使用することが可能であり、DCT-IIは次式のように規定される。
ここでk=0、…、N-1であり、Nはサブフレームの長さである。
<量子化>
ビットレートに応じて変換領域コードブックは、例えばAVQエンコーダ305を使用して、変換領域DCT係数Qin,d(k)304のすべてのブロック、または、通常はより低い周波数に対応する一部のブロックのみを量子化して、量子化された変換領域DCT係数Qd(k)306を生成する。他の量子化されない変換領域DCT係数Qin,d(k)304は、0に設定される(量子化されない)。AVQの実装形態の例は、米国特許第7,106,228号において見出すことが可能であり、この特許の内容は参照により本明細書に組み込まれている。AVQエンコーダ305からの量子化かつ符号化された変換領域係数306のインデックスが、変換領域コードブックパラメータとしてデコーダに送信される。
あらゆるサブフレームでは、AVQに割り当てられるビット配分は、固定ビット配分および浮動的な数のビットの和として構成される。AVQエンコーダ305は、変換領域DCT係数Qin,d(k)304を量子化するAVQ用の複数のAVQサブ量子化器を備える。エンコーダ305の使用されるAVQサブ量子化器によって異なるが、AVQは通常、割り当てられたビットのすべてを消費せず、各々のサブフレームで利用可能な可変の数のビットを残す。これらのビットは、追随するサブフレームで用いられる浮動的なビットである。その浮動的な数のビットは、最初のサブフレームでは0に等しく、所与のフレームでの最後のサブフレームでAVQから結果として生じる浮動的なビットは未使用のままである。本段落の前の説明は、固定数のビット毎フレームを用いる固定ビットレート符号化を支持するものである。可変ビットレート符号化構成では異なる数のビットを、ある特定のひずみ測度によって、またはAVQエンコーダ305のゲインに関係して各々のサブフレームで使用することが可能である。ビットの数を、ある特定の平均ビットレートを達成するように制御することが可能である。
<逆変換計算>
時間領域での変換領域コードブック励振寄与を得るために、変換領域コードブックステージ320では最初に、逆DCT(iDCT)を使用する逆変換計算器307で、量子化された変換領域DCT係数Qd(k)306を逆変換して、逆変換されたエンファシスされた量子化された励振(逆変換された音響信号)qd(n)308を生成する。逆DCT-II(スケールファクタ2/Nを除けばDCT-IIIに対応する)が使用され、次式のように規定される。
ここでn=0、…、N-1であり、Nはサブフレームの長さである。
<デエンファシスフィルタリング>
次いでデエンファシスフィルタ1/F(z)309が、逆変換されたエンファシスされた量子化された励振qd(n)308に適用されて、変換領域コードブックステージからの時間領域励振q(n)310を得る。デエンファシスフィルタ309は、プリエンファシスフィルタF(z)301の逆伝達関数(1/F(z))を有する。上記の式(9)で与えられるプリエンファシスフィルタF(z)に関する非限定的な例では、デエンファシスフィルタ1/F(z)の差分方程式は次式により与えられることになる。
q(n)=qd(n)-α・qd(n-1) (12)
ここでデエンファシスフィルタ309の場合ではqd(n)308は、逆変換されたエンファシスされた量子化された励振qd(n)308であり、q(n)310は、変換領域コードブックステージからの時間領域励振信号q(n)である。
<変換領域コードブックゲインの計算および量子化>
変換領域コードブックステージからの時間領域励振信号q(n)310が算出されると、計算器(図示せず)が次式のように変換領域コードブックゲインを算出する。
ここでQin,d(k)はAVQ入力の変換領域DCT係数304であり、Qd(k)はAVQ出力の(量子化された)変換領域DCT係数304であり、kは変換領域係数インデックスであってk=0、…、N-1であり、Nは変換領域DCT係数の数である。
さらに変換領域コードブックステージ320において、式(13)からの変換領域コードブックゲインが以下のように量子化される。最初にゲインが次式のように、予測される新規エネルギーEpredにより正規化される。
予測される新規エネルギーEpredは、適応コードブック寄与の推定値を減算することを伴う、所与のフレームの範囲内のすべてのサブフレームにわたる平均残差信号エネルギーとして得られる。すなわち次式となる。
ここでPはサブフレームの数であり、Cnorm(0)およびCnorm(1)はそれぞれ、開ループピッチ分析の前半および後半のフレームの正規化相関であり、r(n)は残差領域での目標ベクトルである。
次いで正規化されたゲインgq,normは、対数領域でスカラ量子化器により量子化され、最終的には非正規化された結果、量子化された変換領域コードブックゲインとなる。例示的な例では6ビットのスカラ量子化器が使用され、そのことによって量子化レベルは対数領域で均一に分散される。量子化された変換領域コードブックゲインのインデックスは、変換領域コードブックパラメータとしてデコーダに送信される。
<適応コードブックゲインの精密化>
修正されたCELPモデルの第1の構造体が使用されるとき、変換領域コードブックステージからの時間領域励振信号q(n)310を使用して、次式のように適応コードブック検索用の元の目標信号x1(n)315を精密化することが可能である。
x1,updt(n)=x1(n)-gq・y3(n) (15)
そして適応コードブックステージでは、x1(n)の代わりに使用されるx1,updt(n)を用いて式(2)を使用して適応コードブックゲインを精密化する。信号y3(n)は、加重合成フィルタH(z)311によって変換領域コードブックステージからの時間領域励振信号q(n)310をフィルタリングすることにより得られるフィルタリングされた変換領域コードブック励振信号(すなわち、変換領域コードブック励振寄与q(n)に対する加重合成フィルタH(z)311の零状態応答)である。
<新規コードブック検索用の目標ベクトルの算出>
変換領域コードブックステージ320が使用されるとき、新規コードブック検索用の目標信号x2(n)316の算出が、x1(n)=x1,updt(n)であり、gp=gp,updtである式(4)、すなわち、
x2(n)=x1,updt(n)-gp,updt・y1(n)
=x1(n)-gq・y3(n)-gp,updt・y1(n) (16)
を使用して遂行される。
図3を参照すると、増幅器312が演算gq・y3(n)を遂行して変換領域コードブック励振寄与を計算し、減算器104および317が演算x1(n)-gp,updt・y1(n)-gq・y3(n)を遂行する。
同様に残差領域での目標信号r(n)が、次式のように新規コードブック検索用に更新される。
rupdt(n)=r(n)-gq・q(n)-gp,updt・v(n) (17)
次いで新規コードブック検索が、ACELPモデルでのように適用される。
<デコーダでの変換領域コードブック>
図4に戻って参照するとデコーダでは、変換領域コードブックステージ420からの励振寄与409が、量子化された変換領域DCT係数Qd(k)および変換領域コードブックゲインgqを含む受信された変換領域コードブックパラメータから得られる。
変換領域コードブックは最初に、例えばAVQデコーダ404を使用して、受信された復号化された(量子化された)量子化された変換領域DCT係数Qd(k)を逆量子化して、逆量子化された変換領域DCT係数を生成する。逆変換、例えば逆DCT(iDCT)が、逆変換計算器405によってこれらの逆量子化された変換領域DCT係数に適用される。デコーダでは変換領域コードブックは、逆DCT変換の後にデエンファシスフィルタ1/F(z)406を適用して、時間領域励振信号q(n)を形成する。次いで変換領域コードブックステージ420は、変換領域コードブックゲインgqを使用する増幅器407によって時間領域励振信号q(n)をスケーリングして、変換領域コードブック励振寄与409を形成する。
次いで全励振408が、適応コードブック励振寄与203、変換領域コードブック励振寄与409、および新規コードブック励振寄与206の加算器410での合算によって形成される。次いで全励振408が、LP合成フィルタ1/A(z)208によって処理されて、元の音響信号、例えば音声の合成物s'(n)を生成する。
<変換領域コードブックビット配分>
通常はビットレートが高くなるほど、より多くのビットが、新規コードブックのサイズを異なるビットレートにわたって同じにする変換領域コードブックにより使用される。修正されたCELPモデルの上記で開示した第1の構造体は、音声信号を実際的に意識されないような形で符号化するために、および一般的なオーディオ信号も効率的に符号化するために、高いビットレート(およそ48kビット/s以上)で使用することが可能である。
そのような高いビットレートでは、適応および新規のコードブックゲインのベクトル量子化器を、2つのスカラ量子化器により置換することが可能である。より具体的には、線形スカラ量子化器が適応コードブックゲインgpを量子化するために使用され、対数スカラ量子化器が新規コードブックゲインgcを量子化するために使用される。
<修正されたCELPモデルの第2の構造体>
新規コードブックステージにより追随される変換領域コードブックステージを使用する、修正されたCELPモデルの上記で説明した第1の構造体(図3)を、入力音響信号の特性に応じてさらに適応的に変更することが可能である。例えば非活動状態の(inactive)音声断片を符号化する際は、変換領域コードブックステージおよびACELP新規コードブックステージの順序を変更することが有利である場合がある。したがって修正されたCELPモデルの第2の構造体は、第1のコードブックステージでの時間領域適応コードブックを、第3のコードブックステージでの変換領域コードブックにより追随される、第2のコードブックステージでの時間領域ACELP新規コードブックにより追随される状態で組み合わせる第2のコードブック装置を使用する。第2のステージのACELP新規コードブックは通常、非常に小さなコードブックを備える場合があり、回避される場合さえある。
変換領域コードブックステージを新規コードブックステージに対する事前量子化器と理解することが可能である、修正されたCELPモデルの第1の構造体とは反対に、修正されたCELPモデルの第2の構造体の第2のコードブック装置での変換領域コードブックステージは、独立型の第3のステージの量子化器(または、新規コードブックステージが使用されないならば第2のステージの量子化器)として使用される。しかしながら変換領域コードブックステージは、すべての周波数範囲での適応および新規のコードブック励振寄与の減算後に励振残差を白色化する第1のコードブック装置での変換領域コードブックステージに反して、知覚的により重要なより低い周波数を符号化する際に通常はより大きな加重値を当てる。このことは、入力音響信号の雑音状の(非活動状態の)断片を符号化する際に望ましい場合がある。
<変換領域コードブック用の目標信号の算出>
修正されたCELPモデルの第2の構造体のブロック図である図5を参照すると、変換領域コードブックステージ520は以下のように動作する。所与のサブフレームにおいて、変換領域コードブック検索用の目標信号x3(n)518が、適応コードブック検索目標信号x1(n)から、適応コードブックゲインgpを使用する増幅器106によりスケーリングされるフィルタリングされた適応コードブック励振信号y1(n)を減算して新規コードブック検索目標信号x2(n)を形成する減算器104、および、(新規コードブックが使用されるならば)新規コードブック検索目標信号x2(n)から、新規コードブックゲインgcを使用する増幅器109によりスケーリングされるフィルタリングされた新規コードブック励振信号y2(n)を減算する減算器525を使用する計算器により、次式のように算出される。
x3(n)=x1(n)-gp・y1(n)-gc・y2(n), n=0、…、N-1 (18)
計算器はさらに、零状態による加重合成フィルタH(z)の逆関数によって変換領域コードブック検索用の目標信号x3(n)518をフィルタリングし、結果として変換領域コードブック検索用の残差領域目標信号uin(n)500を得る。
<プリエンファシスフィルタリング>
信号uin(n)500は、変換領域コードブック検索に対する入力信号として使用される。この非限定的な例では変換領域コードブックでは信号uin(n)500は、最初にフィルタF(z)301を用いてプリエンファシスされて、プリエンファシスされた信号uin,d(n)502を生成する。そのようなプリエンファシスフィルタの例が、式(9)により与えられる。式(9)のフィルタは、より低い周波数を強調するために信号uin(n)500にスペクトル傾斜を付与する。
<変換計算>
変換領域コードブックは、変換領域DCT係数Uin,d(k)504のブロックを生成するために、例えば矩形の非重複の窓を使用して、プリエンファシスされた信号uin,d(n)502に、変換計算器303により適用される例えばDCTをさらに備える。DCTの例は式(10)で与えられる。
<量子化>
通常は変換領域DCT係数Uin,d(k)504のすべてのブロックが、例えばAVQエンコーダ305を使用して量子化されて、量子化された変換領域DCT係数Ud(k)506を生成する。しかしながら量子化された変換領域DCT係数Ud(k)506は、前述の説明で解説したように低いビットレートではゼロに設定される場合がある。第1のコードブック装置の変換領域コードブックに反して、AVQエンコーダ305を、より低い周波数に対応するブロックを符号化するようにAVQに強制する代わりに、すべての帯域幅にわたって最も高いエネルギーを伴うブロックを符号化するために使用することが可能である。
第1のコードブック装置と同様に、あらゆるサブフレームでのAVQに割り当てられるビット配分は、固定ビット配分および浮動的な数のビットの和として構成される。AVQエンコーダ305からの符号化された量子化された変換領域DCT係数Ud(k)506のインデックスが、変換領域コードブックパラメータとしてデコーダに送信される。
別の非限定的な例では量子化を、CELPコードブック検索でのように知覚加重領域での平均二乗誤差を最小化することにより遂行することが可能である。上記で説明したプリエンファシスフィルタF(z)301を、知覚加重の簡単な形式として理解することが可能である。より手の込んだ知覚加重を、変換および量子化の前に信号uin(n)500をフィルタリングすることにより遂行することが可能である。例えばプリエンファシスフィルタF(z)301を加重合成フィルタW(z)/A(z)により置換することは、目標信号x3(n)を変換かつ量子化することと同等である。知覚加重を、例えば量子化の前に周波数マスクを変換領域DCT係数Uin,d(k)504に乗算することにより、変換領域で適用することがさらに可能である。このことによって、プリエンファシスおよびデエンファシスのフィルタリングの必要性がなくなることになる。周波数マスクを、加重合成フィルタW(z)/A(z)から導出することが可能である。
<逆変換計算>
量子化された変換領域DCT係数Ud(k)506は、例えば逆DCT(iDCT)を使用する逆変換計算器307で逆変換されて、逆変換されたエンファシスされた量子化された励振ud(n)508を生成する。逆変換の例は式(11)で与えられる。
<デエンファシスフィルタリング>
逆変換されたエンファシスされた量子化された励振ud(n)508は、デエンファシスフィルタ1/F(z)309によって処理されて、変換領域コードブックステージからの時間領域励振信号u(n)510を得る。デエンファシスフィルタ309は、プリエンファシスフィルタF(z)301の逆伝達関数を有し、上記で説明したプリエンファシスフィルタF(z)に関する非限定的な例では、デエンファシスフィルタ309の伝達関数は式(12)により与えられる。
信号y3(n)516は、加重合成フィルタH(z)311によって時間領域励振信号u(n)510をフィルタリングすることにより得られる変換領域コードブック励振信号(すなわち、時間領域励振信号u(n)510に対する加重合成フィルタH(z)311の零状態応答)である。
最後に変換領域コードブック励振信号y3(n)516は、変換領域コードブックゲインgqを使用する増幅器312によりスケーリングされる。
<変換領域コードブックゲインの計算および量子化>
変換領域コードブック励振寄与u(n)510が算出されると、変換領域コードブックゲインgqが以下の関係式を使用して得られる。
ここでUin,d(k)504はAVQ入力の変換領域DCT係数であり、Ud(k)506はAVQ出力の量子化された変換領域DCT係数である。
変換領域コードブックゲインgqは、新規コードブックゲインgcによる正規化を使用して量子化される。一例では6ビットのスカラ量子化器が使用され、そのことによって量子化レベルは線形領域で均一に分散される。量子化された変換領域コードブックゲインgqのインデックスは、変換領域コードブックパラメータとしてデコーダに送信される。
<適応コードブック寄与の制限>
非活動状態の音響信号断片、例えば非活動状態の音声断片を符号化するとき、適応コードブック励振寄与は、合成での強い周期性を回避するために制限される。実際、適応コードブックゲインgpは通常0≦gp≦1.2により制約される。非活動状態の音響信号断片を符号化するとき、0≦gp≦0.65により適応コードブックゲインgpを制約するために適応コードブック検索ではリミッタが設けられる。
<デコーダでの変換領域コードブック>
デコーダでは、変換領域コードブックからの励振寄与が、最初に(例えばAVQデコーダ(図示せず)を使用して)復号化された(量子化された)変換領域(DCT)係数を逆量子化し、逆変換(例えば逆DCT(iDCT))をこれらの逆量子化された変換領域(DCT)係数に適用することにより得られる。最後にデエンファシスフィルタ1/F(z)が逆DCT変換の後に適用されて、変換領域コードブックゲインgqによりスケーリングされる時間領域励振信号u(n)を形成する(図4の変換領域コードブック402を参照)。
デコーダでは、個別のコードブック寄与は他のコードブック寄与によって変わらない、または他のコードブック寄与に影響を与えないので、復号化処理の間のコードブックおよび対応するコードブックステージの順序は重要ではない。したがって修正されたCELPモデルの第2の構造体内の第2のコードブック装置は、q(n)=u(n)である図4の修正されたCELPモデルの第1の構造体の第1のコードブック装置と同一である場合があり、全励振は式(7)により与えられる。
最後に変換領域コードブックは、図5に例示するように、減算器530によって、(a)加重合成フィルタH(z)311によって処理され、変換領域コードブックゲインgqによりスケーリングされた、変換領域コードブックステージからの時間領域励振信号u(n)を、(b)変換領域コードブック検索目標信号x3(n)518から減算すること、および、計算器511で誤差基準min{|error(n)|2}を最小化することにより検索される。
<一般的な修正されたCELPモデル>
複数の可能な構造体を用いる一般的な修正されたCELPコーダを図6に示す。
図6のCELPコーダは、入力音響信号の特性の関数としての、それぞれ第2および第3のコードブックステージでの、時間領域CELPコードブックおよび変換領域コードブックの順序の選択器を備える。選択器はさらに、修正されたCELPモデルを使用するコーデックのビットレートに応答して、第3のステージでのコードブックを選択しない、より具体的には第3のステージを迂回する場合がある。前文の場合では、第2のコードブックステージに追随する第3のコードブックステージはない。
図6に例示するように選択器は、音声などの入力音響信号に応答して、連続的なフレームの各々を、例えば活動状態の音声フレーム(または断片)または非活動状態の音声フレーム(または断片)と分類する分類器601を備え得る。分類器601の出力は第1のスイッチ602を駆動するために使用され、第1のスイッチ602は、適応コードブックステージの後の第2のコードブックステージが、ACELP符号化604であるか、それとも変換領域(TD)符号化605であるかを決定する。さらに分類器601の出力によりやはり駆動される第2のスイッチ603が、第2のACELPステージ604がTDステージにより追随されるかどうか、または、第2のTDステージ605がACELPステージ607により追随されるかどうかを決定する。さらに分類器601は、さらなるステージが第2のACELPステージ604または第2のTDステージ605に追随しないように、活動状態または非活動状態の音声フレーム、および修正されたCELPモデルを使用するコーデックのビットレートに関係して第2のスイッチ603を動作させる場合がある。
例示的な例での、修正されたCELPモデルでのコードブック(ステージ)の数およびそれらの順序をテーブルI(表1)に示す。テーブルIにおいて理解可能であるように、分類器601による判断は、信号タイプ(活動状態または非活動状態の音声フレーム)に、およびコーデックのビットレートによって異なる。
実装形態の例はACELPモデルを参照して本明細書において上記で与えているが、ACELP以外のCELPモデルを使用することが可能であることを心に留めておくべきである。DCTおよびAVQの使用は単なる例であり、他の変換を実装することが可能であり、変換領域係数を量子化するための他の方法を使用することもまた可能であることにさらに留意されたい。
100 ACELPコーダ
101 知覚加重フィルタW(z)
102 減算器
103 加重合成フィルタH(z)
104 減算器
105 加重合成フィルタH(z)
106 増幅器
107 新規コードブック
108 加重合成フィルタH(z)
109 増幅器
110 減算器
111 計算器
120 適応コードブックステージ
121 適応コードブック
130 新規コードブックステージ
200 ACELPデコーダ
201 適応コードブック
202 増幅器
203 適応コードブック励振寄与
204 新規コードブック
205 増幅器
206 新規コードブック励振寄与
207 加算器
208 LP合成フィルタ1/A(z)
220 適応コードブックステージ
230 新規コードブックステージ
300 変換領域コードブック用の目標信号qin(n)
301 プリエンファシスフィルタF(z)
302 プリエンファシスされた目標信号qin,d(n)
303 変換計算器
304 変換領域DCT係数Qin,d(k)
305 AVQエンコーダ
306 量子化された変換領域DCT係数Qd(k)
307 逆変換計算器
308 逆変換されたエンファシスされた量子化された励振qd(n)
309 デエンファシスフィルタ1/F(z)
310 変換領域コードブックステージからの時間領域励振信号q(n)
311 加重合成フィルタH(z)
312 増幅器
313 項v(n)
314 適応コードブックゲインgp
315 目標信号x1(n)
316 新規コードブック検索用の目標信号x2(n)
317 減算器
320 変換領域コードブックステージ
402 変換領域コードブック
404 AVQデコーダ
405 逆変換計算器
406 デエンファシスフィルタ1/F(z)
407 増幅器
408 全励振e(n)
409 変換領域コードブック励振寄与
410 加算器
420 変換領域コードブックステージ
500 信号uin(n)
502 プリエンファシスされた信号uin,d(n)
504 変換領域DCT係数Uin,d(k)
506 量子化された変換領域DCT係数Ud(k)
508 逆変換されたエンファシスされた量子化された励振ud(n)
510 変換領域コードブックステージからの時間領域励振信号u(n)、変換領域コードブック励振寄与u(n)
511 計算器
516 変換領域コードブック励振信号y3(n)
518 変換領域コードブック検索用の目標信号x3(n)
520 変換領域コードブックステージ
525、530 減算器
601 分類器
602 第1のスイッチ
603 第2のスイッチ
604 ACELP符号化、第2のACELPステージ
605 変換領域(TD)符号化、第2のTDステージ
607 ACELPステージ

Claims (24)

  1. 時間領域CELPコードブックおよび変換領域コードブックのうちの一方を含む第1のコードブックステージと、
    前記第1のコードブックステージに追随し、前記時間領域CELPコードブックおよび前記変換領域コードブックのうちの他方を含む第2のコードブックステージと
    を備える、入力音響信号を符号化する際に使用するためのコードブック装置。
  2. (a)前記入力音響信号の特性、および(b)前記コードブック構造体を使用するコーデックのビットレートのうちの少なくとも1つの関数としての、それぞれ前記第1および第2のコードブックステージでの、前記時間領域CELPコードブックおよび前記変換領域コードブックの順序の選択器をさらに備える、請求項1に記載のコードブック構造体。
  3. 前記選択器が、前記入力音響信号の前記特性、および前記コードブック構造体を使用する前記コーデックの前記ビットレートの両方に応答して、前記第2のコードブックステージを迂回する、請求項2に記載のコードブック構造体。
  4. 前記選択器が、前記入力音響信号の分類器、ならびに、前記第1および第2のコードブックステージでの、前記時間領域CELPコードブックおよび前記変換領域コードブックの前記順序を変更するために前記分類器により制御される少なくとも1つのスイッチを備える、請求項2または3に記載のコードブック構造体。
  5. 前記分類器が、前記入力音響信号の連続的な断片の各々を、活動状態の音声断片または非活動状態の音声断片として分類する、請求項4に記載のコードブック構造体。
  6. 前記第1のコードブックステージの前に、適応コードブックを備えるステージを備える、請求項1から5のいずれか一項に記載のコードブック構造体。
  7. (a)前記入力音響信号の特性、および(b)前記コードブック構造体を使用するコーデックのビットレートのうちの少なくとも1つに関していくつかのコードブックステージを備える、請求項1に記載のコードブック構造体。
  8. 適応コードブックを検索して適応コードブックインデックスおよび適応コードブックゲインを索出するように構成される第1の適応コードブックステージと、
    時間領域CELPコードブックおよび変換領域コードブックのうちの一方を含む第2のコードブックステージと、
    前記第2のコードブックステージに追随し、前記時間領域CELPコードブックおよび前記変換領域コードブックのうちの他方を含む第3のコードブックステージと
    を備え、
    前記第2および第3のコードブックステージが、前記それぞれの時間領域CELPコードブックおよび変換領域コードブックを検索して、新規コードブックインデックス、新規コードブックゲイン、変換領域係数、および変換領域コードブックゲインを索出するように構成される、入力音響信号のコーダ。
  9. (a)前記入力音響信号の特性、および(b)前記コードブック構造体を使用するコーデックのビットレートのうちの少なくとも1つの関数としての、それぞれ前記第2および第3のコードブックステージでの、前記時間領域CELPコードブックおよび前記変換領域コードブックの順序の選択器をさらに備える、請求項8に記載のコーダ。
  10. 前記選択器が、前記入力音響信号の前記特性、および前記コードブック構造体を使用する前記コーデックのビットレートの両方に応答して、前記第3のコードブックステージを迂回する、請求項9に記載のコーダ。
  11. 前記選択器が、前記入力音響信号の分類器、ならびに、前記第2および第3のコードブックステージでの、前記時間領域CELPコードブックおよび前記変換領域コードブックの前記順序を変更するために前記分類器により制御される少なくとも1つのスイッチを備える、請求項9または10に記載のコーダ。
  12. 前記分類器が、前記入力音響信号の連続的な断片の各々を、活動状態の音声断片または非活動状態の音声断片として分類する、請求項11に記載のコーダ。
  13. 前記変換領域コードブックが、変換領域コードブック目標信号を変換する変換計算器、および前記変換計算器からの変換領域係数の量子化器を備える、請求項8から12のいずれか一項に記載のコーダ。
  14. 前記変換が離散コサイン変換であり、前記量子化器が代数ベクトル量子化器である、請求項13に記載のコーダ。
  15. 前記変換領域コードブックが、前記変換領域コードブック目標信号を前記変換計算器に供給する前に、前記変換領域コードブック目標信号を処理するプリエンファシスフィルタを備える、請求項13または14に記載のコーダ。
  16. 前記変換領域コードブックのステージが、前記量子化器からの量子化された変換領域係数の逆変換の計算器、前記逆変換された量子化された変換領域係数を処理して時間領域励振信号を生成するためのデエンファシスフィルタ、前記時間領域励振信号を処理してフィルタリングされた変換領域コードブック励振信号を生成するための加重合成フィルタ、および、前記フィルタリングされた変換領域コードブック励振信号をスケーリングして変換領域コードブック励振寄与を生成するための、前記変換領域コードブックゲインを使用する増幅器をさらに備える、請求項13から15のいずれか一項に記載のコーダ。
  17. 前記第1の適応コードブックステージが、適応コードブックインデックスが供給されて適応コードブックベクトルを生成する適応コードブックを備え、前記コーダが、前記変換領域コードブックが前記第2のコードブックステージに含まれるときに、前記適応コードブックベクトルを使用する前記変換領域コードブック目標信号の計算器を備える、請求項13から16のいずれか一項に記載のコーダ。
  18. 前記第1の適応コードブックステージが、適応コードブックを備え、適応コードブック励振寄与を、適応コードブックインデックスを前記適応コードブックに供給して適応コードブックベクトルを生成すること、加重合成フィルタによって前記適応コードブックベクトルを処理してフィルタリングされた適応コードブック励振信号を生成すること、および、前記フィルタリングされた適応コードブック励振信号を、適応コードブックゲインを使用する増幅器を用いて増幅して前記適応コードブック励振寄与を生成することにより算出し、
    前記時間領域CELPコードブックステージが、前記時間領域CELPコードブックとして新規コードブックを備え、新規コードブック励振寄与を、新規コードブックインデックスを前記新規コードブックに適用して新規コードブックベクトルを生成すること、加重合成フィルタによって前記新規コードブックベクトルを処理してフィルタリングされた新規コードブック励振信号を生成すること、および、前記フィルタリングされた新規コードブック励振信号を、新規コードブックゲインを使用する増幅器を用いて増幅して前記新規コードブック励振寄与を生成することにより算出する、請求項13から16のいずれか一項に記載のコーダ。
  19. 前記変換領域コードブックが前記第3のコードブックステージに含まれるときに、前記適応コードブック励振寄与および前記新規コードブック励振寄与を使用する前記変換領域コードブック目標信号の計算器を備える、請求項18に記載のコーダ。
  20. 前記変換領域コードブックのステージが、固定ビット配分および浮動的な数のビットの和である、前記量子化器による量子化に割り当てられるビット配分を備える、請求項13から19のいずれか一項に記載のコーダ。
  21. 現在のサブフレームでの前記浮動的な数のビットが、前のサブフレームでの前記量子化に対して未使用のビットを含む、請求項20に記載のコーダ。
  22. 前記変換領域コードブックのステージが、前記変換計算器からの変換領域係数、および前記量子化器からの量子化された変換領域係数を使用する前記変換領域コードブックゲインの計算器を備える、請求項13から21のいずれか一項に記載のコーダ。
  23. 前記変換領域コードブックのステージが、変換領域コードブック励振寄与を生成し、前記適応コードブックのテージが、前記変換領域コードブック励振寄与を使用して適応コードブックゲインを精密化する、請求項8から22のいずれか一項に記載のコーダ。
  24. 非活動状態の音響信号断片の存在下で前記適応コードブックゲインのリミッタを備える、請求項8から23のいずれか一項に記載のコーダ。
JP2014509572A 2011-05-11 2012-05-09 Celpコーダにおける変換領域コードブック装置 Active JP6173304B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201161484968P 2011-05-11 2011-05-11
US61/484,968 2011-05-11
PCT/CA2012/000441 WO2012151676A1 (en) 2011-05-11 2012-05-09 Transform-domain codebook in a celp coder and decoder

Publications (2)

Publication Number Publication Date
JP2014517933A true JP2014517933A (ja) 2014-07-24
JP6173304B2 JP6173304B2 (ja) 2017-08-02

Family

ID=47138606

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014509572A Active JP6173304B2 (ja) 2011-05-11 2012-05-09 Celpコーダにおける変換領域コードブック装置

Country Status (11)

Country Link
US (1) US8825475B2 (ja)
EP (1) EP2707687B1 (ja)
JP (1) JP6173304B2 (ja)
CN (1) CN103518122B (ja)
CA (1) CA2830105C (ja)
DK (1) DK2707687T3 (ja)
ES (1) ES2668920T3 (ja)
HK (1) HK1191395A1 (ja)
NO (1) NO2669468T3 (ja)
PT (1) PT2707687T (ja)
WO (1) WO2012151676A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9070356B2 (en) * 2012-04-04 2015-06-30 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
US9263053B2 (en) * 2012-04-04 2016-02-16 Google Technology Holdings LLC Method and apparatus for generating a candidate code-vector to code an informational signal
ES2821141T3 (es) * 2016-12-16 2021-04-23 Ericsson Telefon Ab L M Método y codificador para manejar coeficientes de representación de envolvente
BR112020004883A2 (pt) * 2017-09-20 2020-09-15 Voiceage Corporation método e dispositivo para alocar um bit-budget entre subquadros em um codec celp

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040105A1 (en) * 2005-05-31 2008-02-14 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US6134518A (en) * 1997-03-04 2000-10-17 International Business Machines Corporation Digital audio signal coding using a CELP coder and a transform coder
DE69926821T2 (de) * 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6453289B1 (en) * 1998-07-24 2002-09-17 Hughes Electronics Corporation Method of noise reduction for speech codecs
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
SE519985C2 (sv) * 2000-09-15 2003-05-06 Ericsson Telefon Ab L M Kodning och avkodning av signaler från flera kanaler
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
CA2388358A1 (en) 2002-05-31 2003-11-30 Voiceage Corporation A method and device for multi-rate lattice vector quantization
FR2849727B1 (fr) * 2003-01-08 2005-03-18 France Telecom Procede de codage et de decodage audio a debit variable
CN100583241C (zh) * 2003-04-30 2010-01-20 松下电器产业株式会社 音频编码设备、音频解码设备、音频编码方法和音频解码方法
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
KR101295729B1 (ko) * 2005-07-22 2013-08-12 프랑스 텔레콤 비트 레이트­규모 가변적 및 대역폭­규모 가변적 오디오디코딩에서 비트 레이트 스위칭 방법
US7877253B2 (en) * 2006-10-06 2011-01-25 Qualcomm Incorporated Systems, methods, and apparatus for frame erasure recovery
PT2102619T (pt) * 2006-10-24 2017-05-25 Voiceage Corp Método e dispositivo para codificação de tramas de transição em sinais de voz
US8566106B2 (en) * 2007-09-11 2013-10-22 Voiceage Corporation Method and device for fast algebraic codebook search in speech and audio coding
US8515767B2 (en) * 2007-11-04 2013-08-20 Qualcomm Incorporated Technique for encoding/decoding of codebook indices for quantized MDCT spectrum in scalable speech and audio codecs
JP2011518345A (ja) * 2008-03-14 2011-06-23 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション スピーチライク信号及びノンスピーチライク信号のマルチモードコーディング
EP2345027B1 (en) * 2008-10-10 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Energy-conserving multi-channel audio coding and decoding
FR2947945A1 (fr) * 2009-07-07 2011-01-14 France Telecom Allocation de bits dans un codage/decodage d'amelioration d'un codage/decodage hierarchique de signaux audionumeriques
PL2491555T3 (pl) * 2009-10-20 2014-08-29 Fraunhofer Ges Forschung Wielotrybowy kodek audio
DK2559028T3 (en) 2010-04-14 2015-11-09 Voiceage Corp FLEXIBLE AND SCALABLE COMBINED INNOVATIONSKODEBOG FOR USE IN CELPKODER encoder and decoder

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080040105A1 (en) * 2005-05-31 2008-02-14 Microsoft Corporation Sub-band voice codec with multi-stage codebooks and redundant coding

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JAR-FERR YANG: "Transform-Based CELP Vocoders with Low-Delay Low-Complexity and Variable-Rate Features", IEICE, JPN6016018773, June 2002 (2002-06-01) *
JURGEN SCHNITZLER: "WIDE BAND SPEECH CODING USING FORWARD/BACKWARD ADAPTIVE PREDICTION WITH MIXED TIME/FREQUENCY DOMAIN", IEEE, JPN6016018772, 1999 *

Also Published As

Publication number Publication date
CA2830105C (en) 2018-06-05
HK1191395A1 (zh) 2014-07-25
CA2830105A1 (en) 2012-11-15
CN103518122A (zh) 2014-01-15
JP6173304B2 (ja) 2017-08-02
PT2707687T (pt) 2018-05-21
EP2707687A1 (en) 2014-03-19
DK2707687T3 (en) 2018-05-28
EP2707687B1 (en) 2018-03-28
WO2012151676A1 (en) 2012-11-15
EP2707687A4 (en) 2014-11-19
NO2669468T3 (ja) 2018-06-02
US20120290295A1 (en) 2012-11-15
ES2668920T3 (es) 2018-05-23
CN103518122B (zh) 2016-04-20
US8825475B2 (en) 2014-09-02

Similar Documents

Publication Publication Date Title
CN101180676B (zh) 用于谱包络表示的向量量化的方法和设备
KR100956877B1 (ko) 스펙트럼 엔벨로프 표현의 벡터 양자화를 위한 방법 및장치
US20100174541A1 (en) Quantization
US11798570B2 (en) Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information
JPH08328591A (ja) 短期知覚重み付けフィルタを使用する合成分析音声コーダに雑音マスキングレベルを適応する方法
JP6456412B2 (ja) Celp符号器および復号器で使用するための柔軟で拡張性のある複合革新コードブック
KR101849613B1 (ko) 스피치 관련 스펙트럼 정형 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
JP6173304B2 (ja) Celpコーダにおける変換領域コードブック装置
CN107710324B (zh) 音频编码器和用于对音频信号进行编码的方法
US6098037A (en) Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes
Tseng An analysis-by-synthesis linear predictive model for narrowband speech coding

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150422

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160523

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170405

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170605

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170704

R150 Certificate of patent or registration of utility model

Ref document number: 6173304

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250