JP4931318B2 - スピーチ符号化における前方向誤り訂正 - Google Patents
スピーチ符号化における前方向誤り訂正 Download PDFInfo
- Publication number
- JP4931318B2 JP4931318B2 JP2001583504A JP2001583504A JP4931318B2 JP 4931318 B2 JP4931318 B2 JP 4931318B2 JP 2001583504 A JP2001583504 A JP 2001583504A JP 2001583504 A JP2001583504 A JP 2001583504A JP 4931318 B2 JP4931318 B2 JP 4931318B2
- Authority
- JP
- Japan
- Prior art keywords
- redundant
- lsf
- state
- packet
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000012937 correction Methods 0.000 title abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 120
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 68
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 68
- 230000003044 adaptive effect Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 22
- 239000002131 composite material Substances 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 11
- 238000012546 transfer Methods 0.000 claims description 5
- 230000003993 interaction Effects 0.000 abstract 2
- 230000005284 excitation Effects 0.000 description 48
- 238000005516 engineering process Methods 0.000 description 29
- 239000013598 vector Substances 0.000 description 23
- 230000007704 transition Effects 0.000 description 22
- 238000004458 analytical method Methods 0.000 description 14
- 230000005540 biological transmission Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000011002 quantification Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 8
- 230000007774 longterm Effects 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 230000001413 cellular effect Effects 0.000 description 5
- 238000010295 mobile communication Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000009432 framing Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000005477 standard model Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011982 device technology Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000030279 gene silencing Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Error Detection And Correction (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
- Telephonic Communication Services (AREA)
- Detection And Correction Of Errors (AREA)
Description
【発明の属する技術分野】
本発明は、音声情報を伝送する際に前方向誤り訂正を行うためのシステムおよび方法に関し、さらに詳細には、音声符号化された情報をパケットに基づいて伝送する際に前方向誤り訂正を行うためのシステムおよび方法に関する。
【0002】
【従来の技術および発明が解決しようとする課題】
1. 音声符号化
はじめに従来のスピーチ符号化の概念について説明することにより、先行技術による前方向誤り訂正(FEC)技術の欠点を最もよく理解することができる。
【0003】
1.1 符号励振線形予測(CELP)による符号化
図1は従来の符号励振線形予測(CELP)による合成分析符号器100を示している。符号器100は、フレーム化モジュール104、線形予測符号化(LPC)分析モジュール106、差分計算モジュール118、誤り重み付けモジュール114、誤り最小化モジュール116、および復号器モジュール102といった機能ユニットを含む。復号器モジュール102は、固定コードブック112、長期予測器(LTP)フィルタ110、および線形予測符号化(LPC)フィルタ108を含み、それらは合成信号
を生成するために、互いに縦続接続している。LPCフィルタ108は、スピーチ信号のスペクトル包絡に応じて、声道に由来するスピーチの短期相関関係をモデル化する。それは次の式で表される。
【数1】
ここで、pはフィルタ次数を、aiはフィルタ係数を表す。一方、LTPフィルタ110は、スピーチ信号の細かい周期的なスペクトル構造に応じて、声帯に由来するスピーチの長期相関関係をモデル化する。例えば、次のような式で表される。
【数2】
ここで、Dは一般的に長期相関関係のピッチ周期に対応し、biはフィルタの長期利得係数に関する。固定コードブック112は一連の励起入力シーケンスを記憶する。該シーケンスにより、LTPフィルタ110、およびLPCフィルタ108に励起信号が提供される。該シーケンスはまた、LTPフィルタ110、およびLPCフィルタ108を用いる決定論的な方法では予想することができない、音楽の音声コンポーネントのようなスピーチ信号の特徴を、ある程度モデル化する際に有益である。
【0004】
操作の際は、フレーム化モジュール104が入力スピーチ信号を受信し、連続するフレーム(例えば、継続時間20ms)に分割する。その後、LPC分析モジュール106がフレームを受信し、分析して、1セットのLPC係数を生成する。これらの係数は、スペクトル包絡線に対応してスピーチ信号の短期の特徴をモデル化するためにLPCフィルタ108で利用される。次に、計算したLPC係数を含む逆フィルタから入力スピーチ信号を送り込んで、LPC残差を形成する。図2に示すように、この残差は、オリジナルのスピーチ信号から線形予測分析により短期の冗長性を除いた後に残るコンポーネントを表す。2つのピッチパルス間の距離を「L」で表し、ラグと呼ぶ。次に符号器100は、長期の係数を予想するために残差を用いることができる。これらの長期係数は、LTPフィルタ110において、(ピッチ遅延およびピッチ利得のような)スピーチ信号の細かいスペクトル構造をモデル化するために利用される。LTPフィルタ110およびLPCフィルタ108は、スピーチ信号の長期および短期の特徴をモデル化する1つの縦続フィルタを形成する。固定コードブック112からの励起シーケンスにより励起されると、縦続接続したフィルタは、オリジナルのスピーチ信号s(n)を復元した合成スピーチ信号
を生成する。
【0005】
符号器100は、一連の合成スピーチ信号
を連続して生成し、合成スピーチ信号
をオリジナルのスピーチ信号s(n)と連続して比較し、
とs(n)の差分を最小化するために復号器モジュールの実行パラメータを連続して調整することにより、最適な励起順序を選択する。さらに詳細には、差分計算モジュール118はオリジナルのスピーチ信号s(n)と合成スピーチ信号
の間の差分(すなわち、誤り信号e(n))を形成する。誤り重み付けモジュール114は誤り信号e(n)を受信し、知覚重み付け因子に基づく重み付け誤り信号ew(n)を生成する。誤り最小化モジュール116は、サーチ手続きを利用して、オリジナルの信号s(n)に可能な限り近い合成信号
を生成するように、音声復号器102の実行パラメータを調整する。
【0006】
最適合成信号
が到着すると、関連する符号器パラメータが伝送媒体(図示されていない)を介して復号器側(図示されていない)に伝送される。復号器側の復号器は、符号器100の復号器モジュール102と同一の構造を含む。復号器は、符号器100で計算された最適化された合成信号
を再生成するために転送されたパラメータを使用する。例えば、符号器100は、関連するフィルタパラメータまたは係数(例えば、LPC、およびLTPパラメータ)と一緒に、固定コードブック112内の最適励起信号の位置を表すコードブックインデックスを転送することができる。入力スピーチ信号をもっと直接的に表示する方法の代わりに、パラメータを転送することにより、音声情報を伝送するのに必要な帯域幅が顕著に低減する。
【0007】
図3は、図1で示した合成による分析符号器100の変更例を示している。図3で示された符号器300はフレーム化モジュール304、LPC分析モジュール306、LPCフィルタ308、差分計算モジュール318、誤り重み付けモジュール314、誤り最小化モジュール316、および固定コードブック312を含む。これらのユニットそれぞれは、図1において類似の名前を有する部分に概ね対応する。しかし、図3では、LTPフィルタ110は適応コードブック320で置き換えられている。さらに、加算モジュール322は適応コードブック320および固定コードブック312からの励起信号出力を加算する。
符号器300は、基本的に、図1の符号器100と同様に機能する。しかし、符号器300では、適応コードブック320がスピーチ信号の長期の特徴をモデル化する。さらに、LPCフィルタ308に適用される励起信号は、適応コードブック320への入力および固定コードブック312への入力の合計を表す。
【0008】
1.2 GSMエンハンスト・フルレート符号化(GSM−EFR)
従来の技術では、上記のようなCELP構成が多数具体的に実行されている。その1例として、欧州電気通信標準機関(ETSI)による「移動体通信のためのグローバルシステム:デジタル移動体通信システム:エンハンスト・フルレート(EFR)音声トランスコーディング(GSM06.60)(Global System for Mobile Communications:Digital Cellular Telecommunications Systems: Enhanced full Rate (EFR) Speech Transcoding (GSM 06.60))」(1996年11月)に記載されたGSMエンハンスト・フルレート(GSM−EFR)音声トランスコーディング標準規格を挙げることができ、該文献を参照して本明細書に包含する。
【0009】
GSM−EFR標準規格で、は次の式を用いてスピーチ信号の短期のプロパティをモデル化する。
【数3】
ここで、
は定量化された線形予測パラメータを表す。 前記規格は、スピーチ信号の長期の特徴を次の式を用いてモデル化する。
【数4】
ここで、Tはピッチ遅延に関し、gpはピッチ利得に関する。適応コードブックはピッチの合成を実行する。さらに、GSM−EFR標準規格は、次の式で定義される知覚重み付けフィルタを使用する。
【数5】
ここで、A(z)は定量化されていないLPCフィルタを定義し、そしてγ1 およびγ2は知覚重み付け因子を表す。最後に、GSM−EFR標準規格は、励起信号を提供するために、適応および固定(革新的な)コードブックを使用する。特に、固定コードブックはインターリーブされた単一パルス置換 (ISPP)設計に基づく代数コードブックを形成する。励起ベクトルは0でない数学的に計算されたパルスの固定数からなる。励起は選択されたパルスの位置およびコードブック内の信号により特定される。
【0010】
操作では、GSM−EFR符号器は入力音声信号を20msのフレームに分割し、次に、5msのサブフレーム4つに分割する。その後、符号器は、各フレームに対して2回のLPC分析を行う。さらに詳細には、GSM−EFR符号器は、短期のパラメータを計算するために、30ms非対称ウインドゥの自己相関接近を使用する。LPC分析でルック−アヘッドは使用しない。ルック−アヘッドとは、分析を行う際に将来のフレームからサンプルを使用することを言う。
その後、LP係数それぞれは、定量化、およびLSP予測器を用いる補間および定量化のための線スペクトル対(LSP)表示へ転換される。LSP分析は、線スペクトル周波数(LSF)値を生成するために、フィルタ係数を−πからπの領域の単位円上にマップする。LSP値の使用により、LPC値を使用するときに比べて、ビット誤りに対してロバスト性、安定性が向上する。さらに、LSF値の使用は、LPC値を使用するときに比べて、情報のより効率的な定量化を可能にする。GSM−EFRは特に、次の予測器方程式を用いて残差を計算し、その後該残差は定量化される。
【数6】
LSFres は、フレームnのLSF残差ベクトルを表す。量(LSF - LSFmean) は、フレームnでの、平均除去されたLSFベクトルを定義する。項(predFactor・ LSFprev,res)はフレームnでの予測されたLSFベクトルを意味し、ここでpredFactorは予測因子定数を意味し、LSFprev,resは以前のフレーム(つまりフレームn−1)からの第2残差ベクトルを表す。次の式7により、復号器では逆の過程をたどる。
【数7】
予測した結果を得るために、復号器内の以前の残差LSF prev, res は正しい値を有していなくてはならない。再現の後、係数は直接フィルタ形式に転換され、スピーチを合成するときに用いられる。
【0011】
次に、符号器は、知覚重み付けスピーチ信号に基づいて、各フレーム(10ms)の半分ごとにピッチラグを予測するために、いわゆる開ループ・ピッチ分析を実行する。その後、符号器は、それぞれのサブフレームについて複数の操作を行う。具体的には、符号器は、重み付けされたスピーチ信号からの重み付け合成フィルタW(z)H(z)に応じて、ゼロ入力を引くことにより、標的信号x(n)を計算する。その後符号器は重み付けされた合成フィルタのインパルス応答h(n)を計算する。符号器は、ピッチラグおよび利得を発見するために、いわゆる閉ループ分析を行うときにインパルス応答h(n)を使用する。閉ループ・サーチ分析は、オリジナルと合成スピーチの間の平均2乗重み付け誤りの最小化を行う。閉ループ・サーチは、最初の推定値として、開ループ・ラグ算定数値を用いる。その後、符号器は、適応コードブック寄与を取り除くことにより、標的信号x(n)を更新し、符号器はその結果として生じた標的を使用して、代数コードブック内の最適革新ベクトルを発見する。コードブックの関連するパラメータはその後、コードブック予測器を用いてスカラー定量化され、決定された励起信号を用いてフィルタ・メモリが更新されて次のサブフレーム内の標的信号を発見するために使用される。
【0012】
符号器は、LSF係数(38ビット)2セット、ピッチ遅延パラメータ(30ビット)、ピッチ利得パラメータ(16ビット)、代数符号パラメータ(140ビット)、およびコードブック・利得パラメータ(20ビット)を伝送する。復号器はこれらのパラメータを受信し、伝送されたパラメータにより表される符号器状態を複写することにより、合成スピーチを再現する。
【0013】
1.3 GSM−EFR符号化におけるエラー隠蔽(EC)
欧州電気通信標準機関(ETSI)は、参照文献として全文を添付した「デジタル移動電話通信システム:エンハンスト・フルレート(EFR)スピーチ・トラフィック・チャネルのための損失フレームの置き換えおよび消音化(GSM 06.61)(Digital Cellular Telecommunications System: Substitution and Muting of Lost Frames for Enhanced Full Rate (EFR) Speech Traffic Channels (GSM 06.61))」5.1.2版(1997年4月)でGSM−EFRでのエラー隠蔽の使用を提案している。参照した標準規格は例示的に、0から6までの、7つの状態を有する状態機械を提案する。不良フレーム示唆(BFI)フラッグは、現在のフレームが誤りを含むかどうか(状態=0の場合誤りなし、状態=1の場合誤りあり)を示唆する。前の不良フレーム示唆(PrevBFI)は、前のスピーチフレームが誤りを含んでいるかどうか(状態=0の場合誤りなし、状態=1の場合誤りあり)示唆する。状態0は、現在、および前のフレームに誤りがないということに対応する(すなわち、BFI=0、 PrevBFI=0)。現在のフレーム内に誤りが検出されると、機械は状態=1となる(フレームに8bitsの巡回冗長検査を用いて、誤りを検出することができる)。続くフレーム内に他の誤りを検出すると、状態機械はより高い状態に(最大の状態である6まで)連続的に進む。良好な(すなわち誤りのない) フレームを検出すると、状態機械は状態0に逆戻りするが、状態6の場合は状態5に戻る。
【0014】
復号器は状態、フラッグBFIの値、およびPrevBFIの値によって、複数のエラー隠蔽操作を行う。連続してエラー・フリーのフレームを2つ受信すると、状態BFI=0、およびPrebBFI=0(状態0で)となる。この状態では、復号器はGSM−EFR6.60標準規格内に示された典型的な方法で、スピーチパラメータを処理する。その後、復号器はスピーチパラメータの現在のフレームを保存する。
「不良の」フレームを受信した後で、エラー・フリーのフレームを受信すると、状態BFI=0、およびPrevBF=1(状態0または5で)となる。この状態では、復号器はLTP利得、および固定コードブック利得を、最後に受信した良好なサブフレームで使用した値に限定する。言い換えれば、現在のLTP利得の値(gP )が受信した最後の良好なLTP利得の値以下の場合、現在のLTP利得を使用する。しかし、現在のLTP利得の値(gP )が、最後に受信した良好なLTP利得の値より大きい場合、現在のLTP利得の代わりに最後に受信したLTP利得の値を使用する。固定コードブックの利得の値は、同様の方法で調整される。
【0015】
状態BFI=1(状態は1から6の任意の値で、およびPrevBFI=0または1)は現在のフレーム内の誤りが検出されたことを示唆する。この状態では、現在のLTP利得は次の利得で置き換えられる。
【数8】
ここでgPはLTPフィルタの利得を表し、αstate(n)は、状態nの増加につれて、連続的に減衰効果が増大する減衰係数を表し(例えば、αstate (1) = 0.98のときαstate (6) = 0.20)、「median」は最も最近の5つのサブフレームのgP値のメジアン値を表し、gP(-1)は直前のサブフレームを表す。固定コードブックの利得の値は、同様の方法で調整される。
【0016】
上記の状態(すなわちBFI=1のとき)では、復号器も、メモリ内の最も最近の4つの値の平均値を用いることにより、メモリ内のコードブック利得を更新する。さらに、復号器は過去のLSFをそれらの平均値の方へシフトさせる。すなわち:
【数9】
ここでLSF_q1(i) および LSF_q2(i)は、現在のフレームからの2本のベクトルで、βは定数(例えば0.95)、past_ LSF _q(i)は直前のフレームからのLSF_q2の値、そしてmean _LSF(i)はLSF値の平均値である。またさらに、復号器は、4番目のサブフレームから、過去のラグ値でLTP-lag値を置き換える。そして最後に、復号器で受信された固定コードブック励起パルスは、誤りフレームからそのまま利用される。
【0017】
1.4 ボコーダ
図4は、他のタイプのスピーチ・復号器、LPCベースのボコーダ400を示している。この復号器では、LPC残差が雑音ベクトル404(無声音のため)、または固定パルス形式402(有声スピーチのため)から作り出される。利得モジュール406は残差を所望のレベルまで調節する。利得モジュールの出力を、次の式で定義される例示的な関数を有するLPCフィルタ408を含むLPCフィルタ・ブロックに供給する。
【数10】
ここで、aiは予測誤りの平均2乗を最小化することにより計算できるフィルタの係数を示す。知られているボコーダの1つは、「LPC−10」と呼ばれている。
この復号器はアメリカ軍に低ビット速度通信を提するために開発された。LPC-10ボコーダは22.5msのフレームを使用し、54ビット/フレームに等しく、そして2.4kビット/sに対応する。
【0018】
操作では、LPC−10符号器(図示されていない)はパルス・トレイン、または雑音信号のどちらかを用いるため有声化決定をする。LPC−10では、サンプルの入力信号をローパス・フィルタを通して形成することによりこれを行うことができる。決定は信号のエネルギー、信号の最大対最小の比率、および信号のゼロ交差の数に基づく。現在のフレームの半分それぞれに有声化決定をし、これらの半分のフレームの決定2つ、および次の2つのフレームの決定に基づいて最後の有声化決定をする。
ピッチはローパスの逆フィルタされた信号から決定される。ピッチ利得は、信号の2乗平均値(RMS)から決定される。符号化を特徴づける関連パラメータを定量化し、復号器に送信し、復号器内で合成信号を生成するために使用する。さらに詳細には、この符号化技術は、10個の係数を伴う符号処理を提供する。
【0019】
ボコーダ400はGSM−EFR技術より単純な合成モデルを使用するので、GSM−EFR技術より少ないビット数でスピーチを表現できるが、品質が低下する結果となる。低ビット速度の場合、ボコーダはスピーチのための冗長符号器に適切となる(以下に述べる)。ボコーダは、有声化、または無声化されたスピーチをモデル化する際にはうまく働くが、破裂音(完全閉鎖およびそれに続く声道閉塞の解放を表す)、および非スピーチ情報(例えば、音楽)は正確に扱うことができない。従来のスピーチ符号化の詳細は、ここで参照することにより本明細書に包含する、「デジタル・スピーチ(Desital Speech):低ビット速度通信システムのための符号処理(Coding for Low Bit Rate Communication Systems)」(A.M.Kondoz著、1994年、John.Wiley&Sons)から得ることができる。
【0020】
2. 前方誤り訂正(FEC)
ひとたび符号化されると、通信システムは多様なフォーマットでスピーチを伝送することができる。パケットに基づくネットワークでは、音声データを、一連の個別パケットとして転送する。
パケットに基づく転送では、高いパケット損失率、ジッタ、および並び替えが起こることがある。前方誤り訂正(FEC)は損失パケットに対応する1つの技術である。一般的に、FECは符号化されたスピーチに伴う冗長情報の伝送を含む。復号器は、冗長情報を用いて損失パケットを再現しようと試みる。媒体に依存しないFEC技術は、音声ストリーム(スピーチストリームの特徴に関するより高いレベルの知識から独立している)内のビットに基づく冗長情報を加える。一方、媒体に依存するFEC技術は、スピーチストリームの特徴に基づく冗長情報を加える。
【0021】
Shuster他による、米国特許番号第5,870,412号は、媒体依存型技術の一例について記述している。この方法では、一連のペイロードパケットそれぞれに、前方誤り訂正符号を1つ付加する。誤り訂正符号は、前特定数のペイロードパケットのXOR合計を行うことにより画定される。受信装置では、後続のパケットの冗長誤り訂正符号から損失ペイロードを再現することができ、連続する複数のパケットの損失も訂正することができる。この技術は、変化しやすい遅延を用いているという欠点がある。さらに、XOR結果は、計算で用いた最も大きなペイロードと同じ大きさでなくてなならない。
【0022】
図5は媒体に基づくFEC技術の概観を示している。符号器モジュール502は、主要符号器508、および冗長符号器510を含む。パケット化装置516は主要符号器508、および冗長符号器510の出力を受信し、そして、その出力を伝送媒体506を介して送信する。復号器モジュール504は、主要復号器512、および冗長復号器514を含む。主要復号器512、および冗長復号器514の出力は、制御ロジック518で制御される。
操作では、主要符号器508は、主要合成モデルを用いて主要符号データを生成する。冗長符号器510は、冗長合成モデルを用いて冗長符号データを生成する。冗長合成モデルは、主要合成モデル(例えば、結果的により低い帯域、および低い品質を有する)に比べて、より強力に圧縮された形のスピーチを提供する。例えば、知られている方法の1つでは、PCM−符号データを主要符号スピーチとして、LPC−符号データを冗長符号スピーチとして用いる(注、例えばV. Hardman共著、「インターネットを介して用いるための、信頼のおける音声(Reliable Audio for Use Over the Internet)」1995年、INET'95の議事録)。LPC−符号データはPCM−符号データよりずっと低いビット速度を有する。
【0023】
図6はどのように冗長データ(影のついた部分)を主要データ(影のない部分)に付加するかを示す。例えば、最も上位のパケット列に関して、最初のパケットはフレームnの主要データを含む。直前のフレーム、すなわちフレームn−1の冗長データがこの主要データに付加されている。このようにして、パケット内の冗長データは、常に、直前に伝送された主要データを参照する。この技術は、単一レベルの冗長を提供するが、(冗長データの追加のコピーを伝送することによって)追加のレベルを提供することができる。
主要データペイロードに冗長データを付加するための特定のフォーマットが提供されている。例えば、Perkins等は、リアルタイム・トランスポート・プロトコル(RTP) 内で、LPC−符号冗長データを主要ペイロードデータに付加するための特定のフォーマットを提供する(例えば、C.Perkins共著、「冗長音声データのためのRTPペイロード(RTP Payload for Redundant Audio Data)」RFC2198、1997年9月に注意)。パケットヘッダは、情報データに関する情報、および冗長データに関する情報を含む。例えば、ヘッダは、データの主要符号化の時間を示唆する主要符号化のタイムスタンプを提供するためのフィールドを含む。ヘッダはまた、パケット内に存在する主要符号化と冗長符号化の時間差を示すオフセット・タイムスタンプも含む。
【0024】
図5および図6の両方を参照すると、復号器モジュール504は、主要、および冗長データの両方を含むパケットを受信する。復号器モジュール504は、主要データを冗長データから分離するためのロジック(図示されていない)を含む。主要復号器512は主要データを復号し、一方で、冗長復号器514は冗長データを復号する。さらに詳細には、復号器モジュール504は、フレームnのための冗長データを含んでいる次のパケットが到着すると、主要データフレームnを復号する。この遅延が再生に加わり、図6で「付加的な遅延」として示されている。
従来の技術では、受信したパケットが主要符号化データを含んでいる場合、制御ロジック518は復号器モジュール504に、主要復号器512により生成された合成スピーチを用いるように命令する。一方、制御ロジック518は、主要データを含むパケットを「損失」した場合、復号器モジュール504に、冗長復号器514により生成された合成スピーチを用いるように命令する。そのような場合、制御ロジック518は、受信した主要符号化フレームのビットストリーム内の隙間を冗長符号化フレームで単に埋めるために機能する。例えば、上記で参照したHardman等による技術では、PCM−符号ビットストリーム内にパケット損失を検出すると、復号器はPCM−符号データの代わりにLPC−符号データを復号する。
【0025】
従来のFECの使用は、パケットに基づく音声伝送の質の向上に十分ではない。例えば、スピーチ合成モデルは、現在の操作状態で正確なスピーチ合成を生成するために、過去の操作状態のパラメータを用いる。この点で、モデルは「過去に依存」する。例えば、代数符号励振線形予測(ACELP)スピーチモデルは、その適応コードブックを更新するために、以前に生成された合成を使用する。LPCフィルタ、エラー隠蔽履歴、および多様な定量化予測器も、現在の状態のスピーチを正確に生成するために以前の状態を用いる。従って、復号器が冗長データを用いて失ったフレームを再現することができても、主要データが損失しているので、主要合成モデルの「記憶」は不完全である。これにより、スピーチ合成の質の点で、「後に影響する」問題が起きることになる。例えば、適応コードブックの更新が不完全だと、10より多いフレームで、歪んだ波形が生じることがありうる。従来のFEC技術はこのような「後に影響する」問題に何ら対処するものではない。
さらに、FECに基づくスピーチ符号処理技術は、今までFEC技術で扱われていない多くの他の問題を有することがある。例えば、線形予測器を用いている合成による分析技術では、位相の不連続が非常によく聞こえてしまう場合がある。適応コードブックを用いている技術では、フィードバック・ループ内の位相エラーが多数のフレームに残っていくことがある。さらに、符号化されるとき予測されるLP係数を用いているスピーチ符号器内では、LPCパラメータの損失が予測器の正確性を低下させる。これは、LPCスピーチ符号処理技術において、最も重要なパラメータに誤りをもたらす。
【0026】
【課題を解決するための手段】
本発明の全体的な目的は、FEC技術を用いて生成されるスピーチの質を改善することである。
本発明は、この目的、およびその他の目的を、音声データを符号化処理するためのFEC技術を改善して達成した。本技術では、符号器モジュールで、入力されたスピーチ信号を主要合成モデルを用いて主要符号化することにより主要符号化データを生成し、入力されたスピーチ信号を冗長合成モデルを用いて冗長符号化することにより冗長符号化データを生成する。パケット化装置は、主要符号化データと冗長符号化データを連続するパケットに結合させ、該パケットを、インターネット・プロトコル(IP)ネットワークのようなパケットに基づくネットワークを介して伝送する。復号化モジュールは主要合成モデルを用いているパケットを主要復号化し、冗長合成モデルを用いているパケットを冗長復号化する。本技術では復号化処理の間およびその後、主要合成モデルと冗長合成モデルを相関させることで、合成された出力スピーチ信号の品質を向上させる。そのような「相関」は、例えば、一方のモデルの状態を他方のモデルを用いて更新するという形態をとることがある。
【0027】
さらに、本技術は、符号器モジュールおよび復号器モジュールでのルック−アヘッド処理を提供するために、主要フレームと冗長フレームのFEC-時差的結合(すなわち、フレームnの主要データをフレームn−1の冗長データと結合させる)を利用する。ルック−アヘッド処理は、音声信号に関する利用可能な情報を追加するので、合成された出力スピーチの質を向上させる。
両方のモデルを協働させることによりスピーチ信号の符号化を行うことで、これまで従来のシステムにより企図された、冗長符号化処理の利用が大きく拡大する。
【0028】
本発明の目的、特徴、および利点についての前述、および他の記述は、添付図面を参照にして次の詳細な説明を読むと、さらに容易に理解することができるであろう。
【0029】
【発明の実施の形態】
次の記述は、説明のためであり、限定的なものではなく、本発明を完全に理解するために具体的な詳細を説明するものである。しかし、当業者にとって明らかであるように、本発明はこれらの具体的な詳細とは異なる他の実施形態で行うことができる。また、公知の方法、装置および回路の詳細な記述は省き、不必要な詳細のために本発明の記述が不明瞭にならないようにした。図面では、類似の参照番号は、類似の特徴を表す。
本発明は、音声データを処理するために、概して前方向誤り訂正の使用に適応される。しかし、論議を容易にするために、次の説明は音声信号符号処理の具体的な状況に絞って行う。
【0030】
1. 概要
図7は、本発明を実行するための例示的システム700の概観を示し、符号器モジュール702、および復号器モジュール704を含む。符号器モジュール702は主要符号データを生成するための主要符号器708、冗長符号データを生成するための冗長符号器710を含む。符号器モジュール702内の制御ロジック720は、主要符号器708および冗長符号器710の操作を制御する。パケット化装置716は主要符号器708および冗長符号器710からの出力を受信し、その後、主要符号データおよび冗長符号データを伝送媒体706を介して伝送する。復号器モジュール704は、どちらも制御ロジック718で制御される主要復号器712および冗長復号器714を含む。さらに、復号器モジュール704は、少なくとも受信したパケットの冗長データが、後続のパケットに含まれて到着するまで、受信したパケットを一時的に保存するための受信バッファ(図示されていない)を含む。
【0031】
操作では、主要符号器708は入力スピーチを主要符号化処理技術(主要合成モデルに基づく)を用いて符号化し、冗長符号器710は入力スピーチを冗長符号化処理技術(冗長合成モデルに基づく)を用いて符号化する。必ずしもというわけではないが、冗長符号処理技術は通常、主要符号処理技術に比べて、より小さい帯域を提供する。パケット化装置716は基本符号化データおよび冗長符号化データを一連のパケットに連結し、そのパケットそれぞれは主要および冗長データを含む。さらに詳細には、パケット化装置716は、図6に示したFEC技術を用いることができる。この技術では、現在のフレーム、すなわちフレームnの主要データを含むパケットと、前のフレーム、すなわちフレームn−1に属する冗長データとを結合させる。本技術は単一の冗長レベルを提供するものである。パケット化装置716は、主要および冗長データを結合させるために、例えば従来の技術のところで述べたようなPerkins等によって提供されたフォーマットなど、任意の知られているパケットフォーマットを用いることができる(例えば、パケットヘッダが、主要ペイロードおよび冗長ペイロードの両方に関する情報を含んでいる場合、両方のペイロードに関するタイムスタンプ情報を含む)。
【0032】
組み立てた後、パケット化装置716は伝送媒体706を介してパケットを転送する。伝送媒体706は、インターネットプロトコル(IP)ネットワークのような、任意のパケットに基づく伝送システムでよい。或いは、システム700は、パケットを伝送せずに、後の検索のために記憶媒体内に単に記憶することもできる。
復号器モジュール704はパケットを受信し、主要復号器712および冗長復号器714を用いてスピーチ情報を再現する。復号器モジュール704は通常、主要復号器712を用いて主要データを復号し、主要データを利用できないときには、冗長復号器714を用いて冗長データを復号する。さらに詳細には、制御ロジック718は、主要復号器712および冗長復号器714の操作を管理するために状態機械を用いることができる。状態機械内の状態はそれぞれ、復号器モジュール704が経験した様々な誤り条件の1つを反映する。状態それぞれは、データの現在のフレームを復号するための命令も画定する。つまり、この命令は現在のフレームを復号するために、異なる誤り条件に適した様々な復号方法を指定する。さらに詳細には、前記方法は、主要合成モデルの使用、冗長合成モデルの使用、および/またはエラー隠蔽アルゴリズムの使用を含む。誤り条件は、前のフレームで用いた復号方法、現在のフレーム内での主要および冗長データの利用可能性、および次のパケットの受信または非受信に依存する。パケットの受信または非受信は、状態遷移のきっかけとなる。
【0033】
従来のシステムとは異なり、上記システム700は、主要、および冗長合成モデルを相関させるための複数のメカニズムを提供する。さらに詳細には、符号器モジュール制御ロジック720は、主要および冗長符号器(すなわち、符号器708、および710)それぞれで用いられる主要合成モデルと冗長合成モデル間に相関を提供するための制御メカニズムを含む。同様に、復号器モジュール制御ロジック718は、主要および冗長復号器(すなわち復号器712、および714)それぞれで用いられる主要合成モデルと冗長合成モデル間に相関を提供するための制御メカニズムを含む。図7は、主要符号器708と冗長符号器710の間の相関を矢印750で示し、主要復号器712と冗長復号器714の間の相関を矢印752で示す。
次の段落では上記の、主要合成モデルと冗長合成モデル間に上述の相関を提供するシステム700で使用される特徴と、新しいFECスピーチ符号化の特徴の概要を述べる。
【0034】
1.1 復号器モジュール内の状態の更新
従来の技術について述べた部分で、従来のFEC技術は、基本的に主要データを復号したとき損失しているデータを、復号した冗長データで補うものとして機能するが、主要データ損失を反映するための、主要合成モデルの「記憶」の更新をしない。この問題に対して、本発明では、主要合成モデルの状態を更新するために冗長合成モデルから収集した情報を用いる。同様に、復号器モジュール704は、主要合成モデルから得られたパラメトリック情報を用いている冗長合成モデル内の「記憶」欠如を修正することができる。従って、一般的にいって、2つのモデルは、損失情報を供給するために「互いに補い合っている」。これに比べて、従来のFECでは、モデルは情報を共有しない。
モデルの更新に用いる特定の方法は、もちろんモデルの要求に依存する。一部のモデルは、他に比べて過去の状態へのより高い依存性を有することがある。また、復号器モジュール704内の優勢な誤り状態に依存する。繰り返すが、誤り条件は、前のフレームでスピーチを復号するために用いた手順(例えば、主要、冗長、エラー隠蔽)、現在のフレーム内のデータ(例えば、主要、または冗長)の利用可能性、および次のフレームの受信または非受信により特徴付けられる。従って、状態機械のそれぞれの状態に関連する復号化命令は、誤り状態に特有で、合成モデルを更新するための方法も画定するのが望ましい。この方法では、復号器モジュール704は更新手順を、優勢な誤り状態に適合させる。
【0035】
本発明の更新についての特徴を図示するために、いくつかの例を示す。例えば、復号器モジュール704が現在のフレームの主要データを受信していない(すなわち、主要データを損失した)が、現在のフレームのための冗長データを運んでいる次のフレームのパケットを受信している状態を考える。この状態では、復号器モジュール704は、現在のフレームのための冗長データに基づいて、スピーチを復号する。復号した値は、その後、主要合成モデルを更新するために利用される。例えば、CELPに基づくモデルは、その適応コードブック、LPCフィルタ、エラー隠蔽の履歴、および多様な定量化予測器に更新を要求することができる。冗長パラメータは、主要復号器で使用されるパラメータ・フォーマットに適応させるために、いくつかの転換形式を必要とする。
【0036】
復号器モジュール704がGSM−EFR符号化処理に基づく主要合成モデルを用いるという、特定の場合を考える。従来の技術の部分で述べたように、GSM−EFR モデルはLPCパラメータの動きを低減するために、定量化の前に定量化予測器を用いる。この場合も、復号器モジュール704は定量化予測器を用いない冗長合成モデルを使用し、従って「絶対」符号化LPCを提供する。本方法は、主要合成モデルがLSF残差(すなわちLSFres)に関する情報を提供する一方で、冗長モデルはこれらの係数(すなわちLSFred )のための絶対LSF値に関する情報を提供する。復号器モジュール704は、次の式11に従い、該残差および該絶対値を用いて予測器状態を計算し、よって迅速な予測器更新を提供する。
【数11】
ここで、LSFmean はLSF値の中間値を表し、predFactorという項は予測因子定数を表し、そしてLSFprev,resは過去のフレーム(すなわちn−1)からの残差LSFを表す。復号器モジュール704はLSF残差を復号してLPC係数にするために(例えば上述の式7を用いて)更新された予測器状態を使用する。
パケットの損失のために予測器状態が不安定な場合、式11を用いると特に有利である。
【0037】
1.2 復号器モジュールのルック−アヘッド
図6で示したように、復号器モジュール704はパケットに含まれる主要データの復号を、次のパケットを受信するまで遅らせなくてはならない。主要データを受信してから復号する間の遅延のために、復号器モジュール704はスピーチ合成の質を向上させるために、主要データを用いていかなるタイプの複合前処理をも行うことができる。これを、ここで「復号器ルック−アヘッド」と呼ぶ。例えば、復号器モジュール704が、主要符号化フレームnを含んでいるパケットの受信に失敗したが、連続してフレームn+1のための主要符号化データを含み、フレームnのための冗長符号化データを含むパケットを受信する場合を考える。従って、復号器モジュール704はフレームnのためのデータを冗長データを用いて復号する。その間に、復号器モジュール704は、ルック−アヘッド処理のためにフレームn+1(まだ復号されていない)の主要データを用いることができる。例えば、フレームnからフレームn+1への滑らかな移行を提供するために、エネルギーレベルの補間の向上のためにフレームn+1の主要データを用いることができる。ルック−アヘッドは、フレームの終わり近くでより正確な補間結果を提供するために、LPC補間にも使用することができる。
【0038】
1.3 符号器モジュールのルック−アヘッド
前に説明したように、符号器モジュール702のパケット化装置716は、現在のフレームに属する主要データと、前のフレームに属する冗長データとを結合させる。例えば、パケット化装置はフレームnに属する主要データと、フレームn−1に属する冗長データとを結合させる。従って、符号器モジュール702は、冗長符号化データの伝送を1フレーム分遅らせなくてはならない。この1フレーム分の遅延のために、パケット内の結合された全データ(主要、および冗長)が同時に復号されるように、冗長符号器710はまた、その冗長データの符号化も遅らせることができる。例えば、符号器モジュール702は、フレームn−1の冗長データの符号化と同時に、フレームnの主要データを符号化できる。従って、冗長データは復号の前に短期間利用できる。冗長データ(例えば冗長フレームn−1)を前もって利用できることにより、ルック−アヘッド処理の機会ができる。ルック−アヘッド処理の結果を、その後のフレームの冗長処理を向上するために利用することができる。例えば、ボコーダ合成モデル(冗長合成モデルとして機能する)内の発音決定を、計算でルック−アヘッド・データを使用することにより向上させることができる。これは発音セグメントが実際に始まる時点で、誤り決定が減るという結果になるはずである。
符号器モジュール702内のルック−アヘッドは、主要符号器708と冗長符号器710の間の相関を調整するための作用制御ロジック720の使用を通じて等、様々な方法で実行することができる。
【0039】
1.4 ピッチパルス位相の維持
ピッチ位相(すなわちピッチパルス位置)はFEC技術を実行するための有益な情報を提供する。最初の例では、復号器モジュール704は、直前のフレームに属する適応コードブック内の最終パルスの位置を同定する。さらに詳細には、モジュール704は、適応コードブックと所定のピッチパルスとの間の相関関係を計算することにより、ピッチパルス位置を示すことができる。ピッチパルス位相は、その後、相関スパイク波形または、複数のスパイク波形により決定することができる。最終パルスの位置およびピッチラグの情報に基づいて、その後復号器モジュール704は、続くパルスの現在のフレーム内の置を同定する。これは最終パルスの位置から1つ以上のピッチ周期分前進して新しいフレームに進むことによりこれを行う。本技術のある応用例では、GSM−EFR が主要復号器として機能し、ボコーダに基づくモデルが冗長復号器として機能する。復号器モジュール704は、主要データの受信に失敗すると、冗長データを用いる。この環境では、復号器モジュール704は、適応コードブックから抽出された位相情報に基づくボコーダピッチパルスを配置するために前記技術を使用する。これはボコーダピッチパルスが完全に不適切な周期内に配置されないことを確実にするために役立つ。
【0040】
第2の例では、符号器モジュール702は、冗長符号化におけるオリジナルのスピーチ信号のピッチ位相に関する情報(ピッチパルス位置、およびピッチパルス標識など)を決定し、伝送する。また、この情報は、適応コードブックと所定のピッチパルスとの間の相関を計算することによって得ることができる。受信すると、復号器モジュール704は、受信したピッチ位相情報と適応コードブックを用いて検出したピッチ位相情報(上記の方法で計算する)を比較することができる。冗長符号化ピッチ位相情報と適応コードブックピッチ位相情報の違いにより位相が不連続となる。この問題に対して、本技術は、フレームの最後で正しい位相を提供するために、現在のフレームの前進に従ってピッチ周期を調整することができる。結果として、適応コードブックは更新されるとき正しい位相情報を受信する。本技術のある応用例では、GSM−EFR技術が主要復号器として機能し、ボコーダに基づくモデルが冗長復号器として機能する。また、復号器モジュール704は、主要データの受信に失敗した場合、冗長データを用いる。この状況では、ボコーダは、冗長符号器からパルスの位置および標識に関する情報を受信する。その後、上記の方法により適応コードブックからパルスが発生するべき位置を算定する。受信した位置と算定した位置の間に位相の相違があっても、フレーム全体に亘って平坦化されるので、フレームの最後には位相が訂正される。これにより、次のフレーム内で主要復号化装置(例えば、GSM−EFR復号化装置)の使用に戻ったとき、復号器モジュール704は確実に適応コードブック内に記憶された正しい位相情報を有する。
【0041】
第2例の代替案では、冗長復号器はパルス位置に関する情報を符号器側からなにも受信しない。代わりに、次のフレーム内の復号された主要データからパルス位置を算定する。これは、次の主要フレームからパルス位相情報を抽出し、次に、現在のフレーム内のパルスの正しい配置を決定するために現在のフレームに戻ることにより行う。そして、この情報を、前のフレームから前述の方法で算定したパルス配置のもう1つの表示と比較する。位置についてのわずかな不一致も上述の方法で訂正することができる(例えば、現在のフレーム全体にわたって位相誤りを平坦化することにより、適応コードブックに反映されるように、次のフレームは正しい位相を有する。)
【0042】
1.5 冗長パラメータの選択肢
図8は、FEC技術で用いるための、別の符号器モジュール800を示す。符号器800は、パケット化装置808に接続している主要符号器802を含む。抽出装置804はパラメータに関する情報を主要符号器802から抽出する。遅延モジュール806は、抽出したパラメータを、例えば1フレーム分遅らせる。遅延モジュール806は、遅らせた冗長パラメータをパケット化装置808に進める。
【0043】
操作では、抽出装置804は、主要符号化パラメータからパラメータのサブセットを選択する。サブセットは、冗長パラメータから合成スピーチが創出できるように、かつ要求されたときに主要合成モデル内の状態の更新ができるように選択するべきである。例えば、LPC、LTPラグおよび利得値は、合成による分析符号化技術で複写に適している。一例では、抽出装置は主要符号器で生成されたパラメータ全部を抽出する。これらのパラメータは、低減された帯域にパラメータを対応させるために、異なるフォーマットに転換する事ができる(例えば、主要符号器802で用いた主要合成モデルよりも少ないビットを必要とする方法を用いてパラメータを定量化する)。遅延モジュール806は冗長パラメータを1フレーム分遅らせ、パケット化装置は遅延冗長パラメータと主要符号化パラメータを、例えば、図6に示したFECプロトコルを用いて結合させる。
【0044】
2. 例
2.1 FECに使用される主要および冗長符号化/復号化装置
従来の技術の部分で述べた、GSM−EFR音声符号化標準規格を、スピーチデータの主要ストリームを符号化するのに用いることができる。GSM−EFR標準規格は、さらに「移動通信体のためのグローバルシステム:デジタルセルラー・テレコミュニケーションズ・システムズ:エンハンスト・フルレート(EFR)スピーチ・トランスコーディング(GSM0.060)(Global System for Mobile Communications: Digital Cellular Telecommunications Systems: Enhanced Full Rate (EFR) Speech Transcoding (GSM 06.60))」、(1996年11月)に記載されている。上述のように、GSM−EFRスピーチ符号化標準規格は代数符号励振線形予測(ACELP)符号化装置を用いる。GSM−EFRのACELPは、244ビット/フレームおよび12.2kビット/sの符号化ストリームに対応する、160サンプルを含む20msのフレームをコード化する。さらに、主要符号器は、「デジタル・セルラー・テレコミュニケーションズ・システム:エンハンスト・フルレート(EFR)スピーチ・トラフィック・チャネルのための損失フレームの代替とミューティング(GSM06.61)(Digital Cellular Telecommunications System: Substitution and Muting of Lost Frames for Enhanced Full Rate (EFR) Speech Traffic Channels (GSM 06.61))」(上記で要約した)、バージョン5.1.2(1997年4月)に記述されているエラー隠蔽技術を使用する。
【0045】
スピーチデータの冗長ビットストリームを符号化するために、ボコーダを使用することができる。この例で用いたボコーダは、従来の技術で論じたLPC−10ボコーダの特徴と、GSM−EFRシステムの特徴を備えている。GSM−EFRに基づく特徴により、ボコーダの出力は、GSM−EFR主要符号器により生成された主要データにさらに容易に適応できるようになる。例えば、LPC−10ボコーダは22.5msのフレームを使用するが、GSM−EFR符号器は20msのフレームを使用する。従って、ハイブリッド設計では20msのフレームの使用を組み込む。このFECアプリケーションのために設計されたハイブリッドボコーダは「GSM−VOC」ボコーダと呼ばれている。
GSM−VOC復号器は図4で示した、基本的で概念的な設定を含む。すなわち、GSM−VOCは雑音ベクトル(無声音のための)または状態パルスフォーム(有声スピーチのための)を備える励起信号を使用するための機能性を含む。その後、励起はLPCフィルタブロックにより処理され、合成信号を生産する。
【0046】
操作では、GSM−VOC符号器は入力スピーチを20msのフレームに分割し、そしてカットオフ周波数が80Hzのフィルタを用いて、スピーチをハイパス・フィルタリングする。次いで、スピーチの2乗平均(RMS)エネルギー値を計算する。その後、GMS−VOCはGSM−EFR標準規格で前述した方法を用いて、1セットのLP係数を計算し、そして定量化する。(しかし、対照的に、上述のGSM−EFR標準規格は2セットの係数を算出する。)GSM−EFR06.60標準規格と同様に、GSM−VOC符号器は、最後のサンプルにより重みのあるウインドゥに基づき1セットの係数を得る。符号器はLP係数を見つけた後、残差を計算する。
【0047】
そして、符号器はフレームの半分毎に開ループ・ピッチ・サーチを行う。さらに具体的には、符号器はこのサーチを、18から143の範囲のサンプルのラグのために、80サンプル以上の自己相関を計算することによって行う。その後符号器は小さいラグのために、計算した相関に重み付けをする。この重み付けは18から143の範囲のサンプルを3つのセクタ、すなわち、18−35の第1の範囲、36−71の第2の範囲、そして72−143の第3の範囲に分けることにより行う。その後、復号器はそれぞれのセクタの最大値を決定し、重み付けをし(小さいラグのために)、そして、最も大きな値を選択する。その後、符号器は2つの半分のフレームに関連する最大値を比較し、最も大きな相関を有する半分のフレームのLPTラグを選択する。少ないラグのための重み付けは、相関に複数のラグ値が存在するときに主要(基本)ラグ値を選択するために有益である。
【0048】
符号器は、開ループサーチから、重み付けしていない最大相関に基づいて有声化を計算する。さらに詳細には、図9に示したように、符号器は、直前の2つの半分のフレーム、現在の半分のフレーム、および次の2つの半分のフレーム(全部で5つの相関関係のために)に及ぶサンプル範囲を有声化決定の基礎とする。次のフレームの相関を計算するために、符号器は20msのルック−アヘッドを要求する。FEC技術は、符号器に追加の遅延を加えることなくルック−アヘッドを提供する。すなわち、符号器モジュールはフレームnに属する情報データと、直前のフレーム、すなわちフレームn−1の冗長データを結合させる。冗長フレームn−1を主要フレームnと同時に符号化することにより、冗長符号器はルック−アヘッド・フレームを利用できる。言い換えれば、冗長符号器は、冗長符号化処理の前に、冗長フレームn−1を「調査する」機会がある。
【0049】
スピーチが発声されたか否かを決定するために、符号器は3つの異なる閾値に対して示された5つの相関を比較する。第1に、符号器は現在のフレームおよび次の2つの半分のフレームからメジアン値を計算し、そしてそのメジアン値を第1の閾値と比較する。符号器は、音声を含むセグメントのスタートに対して迅速に反応するために、最初の閾値を用いる。第2に、符号器は5つの相関全部から形成された別のメジアン値を計算し、そしてこのメジアン値を第2の閾値と比較する。第2の閾値は、第1の閾値より低く、そして音声を含むセグメントの間、音声を検出するために用いる。第3に、符号器は、直前の半分のフレームが音声を含んでいたか決定する。もし含んでいれば、符号器は、また、5つの相関全部から形成された前記メジアン値と、第3の閾値とを比較する。第3の閾値は、3つの閾値の中でもっと低い。符号器は第3の閾値を使用し、転移の真の地点まで、またはそれ以上に、音声を含むセグメントを拡大する(例えば「持ち出し」を作るために)。第3の閾値は、有声スピーチから無声スピーチへの移行が起こったときに、符号器が半分のフレームを有声音として記録することを確実にする。復号器に送られる情報は、両方の半分のフレームについて、前に算出した有声化を含む。
【0050】
符号器はLP係数を定量化するために、変更したGSM−EFR 06.60スピーチ符号化/復号化装置技術(または変更したIS−641技術)を用いる。記述したように、GSM−EFR06.60 は直前のフレームの線スペクトル周波数LSFに基づく予測因子を用いる予測器について記述している。対照的に、本技術の予測器は平均LSF値を用いる(ここで平均値はGSM−EFR06.60標準規格により算定される)。これはIPCを定量化する際に、前のフレームへの依存性を取り除く。本技術は、予測から、残差に基づいて(例えば10残差)3本のベクトルをひとまとめにする。本技術は次いで統計から作った表とベクトルを比較し、最も適合するものを決定する。最も適合するものを表す表のインデックスが戻される。3本のベクトルに対応する3つのインデックスは26bits使用する。
さらに、符号器はRMS値をdBに変換し、そして7ビットを用いて線形定量化するが、より少ないビット数を用いてもよい(例えば5または6ビット)。有声状態では、半分のフレームそれぞれの有声音を表すために、2ビットを用いる。ピッチはサンプル範囲が決まっている(18−143)。有効な数字を7ビットに適合させるために18を引く(すなわち、範囲が0から125サンプルとなるようにする)。
【0051】
次の表1は、上述のGSM−VOC内のビット配分について要約したものである。
【表1】
【0052】
ピッチパルス位置およびその信号は、FEC技術を実行するために有益な情報を提供する。これらのパラメータは、1つのサンプルを分析するとともに、フレーム内のピッチパルスの開始位置を示唆する。この情報を用いると、この技術は励起およびオリジナルのスピーチとの位相における合成を維持することができる。これらのパラメータは、まず、残余と固定パルス形態を相関させることにより発見される。位置および記号は、正確なフレーム半分を同定するために用いる(例えば、有声化の決定は、有声化されなかったフレーム半分内で検出された「間違った」パルスを除外するために用いることができる)有声化決定を活用し、相関曲線上の位置を定められる。これに比べて、独立型の符号器(すなわち、FECを実行するときに他の符号器に接続しない符号器)は、パルス位置に関するいかなる情報(すなわちパルス位相)も特定しない。これは、独立型のボコーダでは、長いピッチ・エポックは所定のピッチラグを有するので、ピッチ位相は無関係である。
【0053】
さて、復号器については、CSM−VOC復号器は、有声化決定およびピッチから、励起ベクトルを作る。有声化は、2つの定常状態および4つの転移状態を含む、6つの異なる状態を有する。定常状態は、有声状態、および無声状態含む。転移状態は、無声状態から有声状態への転移に関する状態、および有声状態から無声状態への転移に関する状態を含む。これらの転移状態は、半分のフレームのどちらでも発生するので、従って4つの異なる状態を画定する。フレームの有声部分のために、復号器は計算されたエポックを決定するときに所定のピッチを用いる(ここで「エポック」という言葉は、サンプルの範囲、例えばピッチ周期、をいう)。一方、補間のために、復号器は、無声フレームをそれぞれ40サンプルの4つのエポックに分割する。
【0054】
ピッチエポックそれぞれに、復号器はRMSおよびピッチの古い値、および新しい値(すなわち、直前のフレームおよび現在のフレームそれぞれの)を補間して、より滑らかな転移を提供する。さらに、有声スピーチの場合、復号化技術は、25サンプル長さのパルスおよび低い強度の雑音から励起を作り出す。無声スピーチの場合、励起信号は雑音のみ含む。さらに具体的には、有声ピッチエポックの中で、復号器はパルスをローパス・フィルタし、雑音をハイパス・フィルタする。1 + 0.7αA(z)で定義されたフィルタは、作られた励起をフィルタリングし、ここでαはA(z)の利得である。これは、T. Tremain著「政府規格線形予測符号化アルゴリズム:LPC−10(The Government Standard Linear Predictive Coding Algorithm: LPC-10)」スピーチテクノロジー(Speech Technology)(1982年4月)の40―48ページに述べられているように、合成スピーチのピーク時の大きさを低減する。復号器は、RMS値が直前のフレームの値の8倍より大きくなった無声音フレームのために、破裂音を加える。第1の無声音ピッチエポック内での破裂音の位置はランダムで、連続するプラスの(加算された)、およびマイナスの(減算された)パルスにより形成されるダブルパルスからなる。ダブルパルスはフィルタから最大の反応を提供する。そして技術は、補間された値(例えば、過去、現在、およびもし利用可能であれば次のフレームのRMS値から形成された補間されたRMS値)に合うようにエポックのRMS値を調整する。これは、現在の合成してフィルタにかけられた励起のRMS値を計算することにより行われる。
【0055】
次に、復号器はLSFドメイン内のLPCを40サンプル・サブフレーム毎に補間し、その結果を励起に適用する。有声励起に用いられたパルスはバイアスを含んでいる。ハイパス・フィルタは80Hzのカットオフ周波数で、このバイアスを除去する。
GSM −VOC 冗長符号器および復号器の特徴について述べたが、GSM−EFR(主要符号化および復号化のため)およびGSM−VOC(冗長符号化および復号化のため)を用いる全体的なFEC技術の操作についてこれから述べる。
【0056】
2.2 FECにおける主要および冗長符号化/復号化装置の利用
図10は、制御ロジック718(図7)に具備された状態機械のダイアグラムを示している。それぞれのパケットの、到着または未到着は状態機械の状態間の転移(または、同じ状態に停滞)を促進する。さらに具体的には、次のパケットの到着が、図で「0」と標識付けした転移を規定する。次のパケットの未到着が(すなわちパケットの損失)、図で「1」と標識付けした転移を規定する。図10に示した状態の特徴を次に確認する。
【0057】
状態:EFR NORM
状態「EFR NORM」は復号器モジュールが現在のパケットおよび次のパケットの両方を受信したことを示す。
復号器モジュールは、主要復号器を用いて、例えばGSM−EFR 06.60で述べた標準プロトコルに従ってスピーチを復号する。
【0058】
状態:EFR Nxt E
状態「EFR Nxt E」は復号器モジュールが現在のパケット受信したが、しかし次のパケットを受信していないことを示す(図10の状態ダイアグラムは状態「EFR NORM」から「EFR Nxt E」への転移を「1」と標識付けし、パケット損失を示唆することに注意)。
この状態では、復号器モジュールは、状態「EFR NORM」と同じようにスピーチを復号する。しかし、このフレームの冗長データは損失しているので、RMSパラメータ値は提供されない。従って、復号器モジュールがRMS値を計算し、それを履歴に入れる。同様に、有声化状態パラメータを利用できないので、復号器モジュールは(例えば、生成された合成スピーチから)自己相関の最大値を取り出し、符号器内で使用される有声化決定モジュールにその最大値を送ることにより、フレームの有声化を計算する。ルック−アヘッドが使用されないので、決定の正確性は低減する結果となる。
【0059】
状態:RED SINGLE ERROR
状態「RED SINGLE ERROR」は、復号器モジュールが現在のフレームの主要データを受信していない(すなわち、主要データを損失した)が、現在のフレームの冗長データを運んでいる次のフレームのパケットを受信したことを示唆する。
この場合、復号器モジュールは現在のフレームのための冗長データおよび次のフレームのための主要データを用いてスピーチを復号する。さらに具体的には、復号器モジュールは、冗長フレームから現在のフレームのサブフレーム4のためにLPCを復号する。復号された値はその後、主要LPC復号器の予測器(すなわち、LPC値の定量化のための予測器)を更新するために使用される。復号器モジュールはこの更新計算を前のフレームのLSF残差に基づいて行う(これについては次の状態「ERF R+C”」に関して、より詳細に論じる)。冗長データの使用(主要データよりも)は、定量化誤りを導くことがある。復号器モジュールは、LSF領域内で、現在のフレームの複合値と前のフレームのLPC値の間で補間することにより、他のサブフレームのLPC値を算出する。
【0060】
符号化技術はLTPラグ、RMS値、ピッチパルス位置、およびピッチパルス標識を抽出し、抽出された値を復号パラメータ値に復号する。本技術はまた、有声化状態を作り出す際に使用するために、フレームから有声化決定を抽出する。有声化状態は、直前の半分のフレームでなされた有声化決定および2つの現在の半分のフレームでの決定による。有声化状態は励起を作成する際にとる行動を制御する。
この状態での復号化は、また、事前引用主要データの可能性を利用する。さらに具体的には、復号器モジュールは誤り訂正(EC)を現在のフレーム(上述のGSM 06.61標準規格により利得の平均化および減衰からなる)のLTP利得および代数コードブック(Alg CB)利得に適用する。そして復号器モジュールは、予測器および履歴が現在のフレームに反応したとき、次のフレームのパラメータを復号する。これらの値は、次のフレームのRMSを予測するために用いられる。さらに具体的には、技術は平均LTP利得(すなわちLTPgain 、 mean)、直前のRMS値(prevRMS)、および適応された利得を伴うAlg CBベクトルのエネルギー(すなわちRMS(AlgCB・Alggain))を用いて次の式に従って予測を行う。
【数12】
【0061】
定常状態有声スピーチを表す有声状態を有するフレーム内で、復号器モジュールは他の状態の場合とは異なる方法で励起を作り出す。すなわち、復号器モジュールはGSM−EFR標準規格で述べた方法で励起を引き起こす。モジュールは、冗長データと直前のフレームの値の間のLTPラグを補間し、そして結果を励起履歴にコピーすることにより、LTPベクトルを作成する。これは、冗長データの値と直前のフレームの値の差が規定の閾値未満、例えば8未満の場合に行われる。それ以外の場合は、復号化モジュールは全サブフレーム(冗長データの)内の新しいラグを使用する。モジュールは、2周期長LTPラグを選択する符号器の結果である隙間の補間を避けるために、閾値のチェックをする。本技術は、共鳴を避けるためにAlg CB を無作為化し、Alg CBベクトルがLTPベクトルの10分の1の利得値を有するように利得を計算する。
【0062】
復号器モジュールはLTPベクトルおよびAlg CBベクトルを合計して励起を形成する。次いで復号器モジュールは、サブフレーム毎に、RMS値に合わせて励起ベクトルの大きさを調整する。このようなサブフレームバイアスの調整は、ピッチパルス・エネルギー分布が均等ではないので、最良の方法ではない。例えば、サブフレーム内でピッチパルスの2つの高エネルギー部分は、サブフレーム内で1つの高エネルギー部分に比べて、より小さな振幅を受信するだろう。この非最適結果を避けるため、復号器モジュールは代わりにピッチパルスに基づく調整を行うことができる。本技術は最初の3つのサブフレーム内で、直前のフレームの最後のサブフレームのRMS値と現在のフレームのRMS値の間のRMS値を補間する。現在のフレームの最後のサブフレームでは、本技術は現在のフレームの値と次のフレームの予測された値の間でRMS値を補間する。この結果、次のフレームへより滑らかに転移する。
【0063】
定常状態有声化状態以外の、他の有声化状態のフレームでは、復号器モジュールはGSM−VOC固有方法で励起を作成する。すなわち、定常状態無声状態で、励起は雑音を作り出す。復号器モジュールは雑音の振幅を調整するので、サブフレームは正確なRMSを受信する。無声状態への転移では、前のフレームの合成とパルス形態を相関させることにより、符号化技術は最後のピッチパルスの位置を示す。それは、最終的な最大値を発見するまで、LTPラグ-サイズのステップを用いる相関の最大から、次の局所パルス最大を連続的に示す技術である。そして、本技術は、現在のフレーム内の最後のパルスの終わりでスタートするために、ボコーダ励起モジュールを更新する。さらに、符号化処理技術は損失したサンプルを、最後のパルスのスタート地点の直前の位置からコピーする。この位置が、無声セグメントがスタートする位置を越えていなければ、復号器モジュールは1つ以上のボコーダパルスを加え、フレームの値に対して、RMS値を補間する。最後の有声パルスの終わりから、復号器モジュールはフレーム境界に対する雑音を生成する。復号器モジュールはまた、雑音RMSを補間するので、本技術は無声状態への滑らかな転移を提供する。
【0064】
有声音化状態が有声状態への転移を表すとすると、符号化処理技術はパルス位置および記号に決定的に依存する。所定のピッチパルス位置まで、励起は雑音で構成される。復号器モジュールはこの雑音のRMSを、受信した値(冗長データから)の方へ補間する。本技術は、補間したRMS値と共にボコーダパルスをピッチパルス位置に配置する。全パルスは受信したラグを使用する。本技術は、直前のフレームの最後のサブフレームの値とフレームの第1の半分内で受信した値の間の、および第2の半分内で受信した値と予測された値の間のRMS補間を形成する。
励起のためのRMS値を計算するとき、フィルタ利得を考慮に入れるために、復号器モジュールは訂正フィルタ状態で励起を合成フィルタする。エネルギーを調整した後、技術は、ボコーダパルスの歪んだ部分を除去するために、励起をハイパス・フィルタする。さらに、続くフレーム内でLTPに仕事を与えるために、復号器モジュールは作成された励起を励起履歴に入れる。その後、復号器モジュールは、合成モデルに最後の合成を作成させる。定常状態有声状態からの合成はまた、フィルタを通ったものである。
【0065】
状態:ERF AFTER RED
状態「ERF AFTER RED」では、復号器モジュールは現在および次のフレームのパケットを受信しているが、復号器モジュールは前のフレームを復号するために冗長データのみ使用した。
この状態では、本技術は従来のGSM−EFR 複合化処理を使用する。しかし、復号器モジュールは、すでに復号化されている利得パラメータを使用する。作成された合成はフレーム全体のRMS値が冗長データから受信した値に対応するように、その振幅を調整されている。高周波数雑音を作成することができる合成に不連続が発生しないように、復号器モジュールは励起に対して調整を行う。次に、次のフレームとの一貫性を保つために、モジュールは励起を励起履歴に送る。さらに、モジュールは合成フィルタを、現在のフレーム内の最初の状態にリセットし、そしてその後、前記フィルタを励起信号に対して再度使用する。
【0066】
状態:EFR RED Nxt E
状態「EFR RED Nxt E」では、復号器モジュールは現在のフレームの主要データを受信しているが、次のフレームのパケットは受信していない(すなわち、次のパケットが損失している)。さらに、復号器モジュールは前のフレームを冗長データを用いて復号した。
この状態では合成のエネルギーレベルを訂正するときに使用するための冗長データが欠如している。代わりに、復号器モジュールは式12を用いて予測を行う。
【0067】
状態:EFR EC
状態「EFR EC」では、復号器モジュールが連続して複数のパケットの受信に失敗している。従って、現在のフレーム内に、スピーチを復号化するために使用できる主要データおよび冗長データはどちらも存在しない。
この状態では、GSM−EFRエラー隠蔽技術を用いてデータの不足を補修しようと試みる(例えば、従来の技術の部分で述べたように)。これは利得履歴(LIPおよびAlg CB)の平均値をとり、前記平均値を減衰させ、そして前記平均値を履歴に送り返すことを含む。ビット誤りにより歪む代わりに、データが失われているので、復号器モジュールは受信した代数コードブックベクトルをそのまま使用することができない。従って、復号器モジュールは新しいコードブックベクトルを無作為化する。この方法は、パケットに基づくネットワークに適合したGSM−EFRで使用される。もし、対照的に、復号器モジュールが最後のフレームからのベクトルをコピーした場合、スピーチの共鳴が起こる場合がある。符号化処理技術は、状態「EFR nxt E」と同様に、合成されたスピーチから有声化状態およびRMS値を計算する。最後の良好なフレームのピッチを使用すると、励起履歴内で、パルス位置の大きな位相ドリフトをもたらす。
【0068】
状態:RED AFTER EC
状態「RED AFTER EC」では、復号器モジュールは現在のフレームの冗長データを含む次のフレームのパケットを受信している。復号器モジュールは誤り訂正を1つ以上の前のフレームに適応する(そして、この状態は状態「RED SINGLE ERROR」とこの点を基準として区別することができる)。
この状態では、励起履歴は非常に不確実なので使用するべきではない。復号器モジュールは、ボコーダピッチパルスから、定常状態有声状態で励起を作成し、復号器モジュールはRMSエネルギーを:前のフレームの値、現在の値、および次のフレームの予測により補間する。復号器モジュールは、励起履歴の位相をできるだけ正確にするために、受信した(冗長)データからパルスの位置および記号を取る。復号器モジュールは「RED SINGLE ERROR」状態の定常状態有声状態の処理に関連する方法で、励起履歴からの所定の位置の前の地点をコピーする(冗長データのピッチパルス位相情報が不足している場合、ピッチパルス配置は、上記の1.4章の最初で延べた技術を用いて決定することができる)。
【0069】
状態:ERF R+EC Nxt E
状態「ERF R+EC Nxt E 」では、復号器モジュールが次のフレームのパケットの受信に失敗する。さらに、復号器モジュールは冗長データのみで前のフレームを、ECでその前のフレームを復号した。
復号器モジュールは主要データで現在のフレームを復号する。しかしこの状態は、主要データを復号する状態の分類の中で、最悪の状態を意味するものである。例えば、LSF予測器の動作はこの環境では不十分となり易く(例えば予測器が「ラインから外れている」)、利用可能なデータで訂正することはできない。従って、復号器モジュールは、GSM−EFR LPCを標準の方法で復号し、次いで帯域はLPCを僅かに拡大する。さらに具体的には、これはGSM−EFR 誤り訂正の標準的な方法で行われるが、別のタイプの不安定性(例えば、平均値を使いすぎるとフィルタが不安定になる)が作り出されないように、より小規模で行われる。復号器モジュールは、予測された値、例えば式12に関して、励起および合成のエネルギー調整を行う。その後、復号器モジュールは、現在のフレームのために、合成からRMSおよび有声化を計算する。
【0070】
状態:EFR R+EC
状態「ERF R+EC 」では、復号器モジュールは次のフレームのパケットを受信しているが、それは冗長データのみで直前のフレーム、その前のフレームをECで復号した。
この状態では、復号器モジュールは通常現在のフレームを主要データおよび冗長データを用いて復号する。さらに具体的には、ECをLP係数に適用した後も、予測器は正確な予測を提供する能力を失う。この状態では、復号器モジュールを冗長データで修正することができる。すなわち、復号器モジュールは冗長LPC係数を復号する。これらの係数は、GSM−EFR標準規格により提供される第2の一連のLPC係数と同じ値を表す。符号化処理技術は、現在のフレームの予測器の推定値を計算するために両方を使用する。例えば、次の式を用いて計算する(式13は式11と同一だが、利便性のために複写した)。
【数13】
【数14】
【0071】
この方法では、情報合成モデルはLSF残差(すなわちLSFres)に関する情報を提供する一方で、冗長モデルはこれらの係数のために冗長LSF値(すなわちLSFred)に関する情報を提供する。復号器モジュールは、迅速な予測器の更新を提供するために、予測器状態を式13を用いて計算するときにこれらの値を使用する。式13では、項LSFmeanは平均LSF値を定義し、項predFactorは予測因子定数を指し、そしてLSFprev,resは過去のフレームからの残差LSFを指す。復号器モジュールはその後、上記の式14を用いてLSF残差を復号してLPC係数にするために、更新された予測器状態を使用する。この概算は、現在のフレームのLP係数が冗長LPC定量化誤りと等しい誤りを有することを確実にするのに有利である。そうでなければ、現在のフレームのLSF残差で更新された場合、予測器は次のフレーム内で正しいということになる。
【0072】
GSM−EFR 標準規格は、代数コードブック利得のための、別の予測器を提供する。GSM−EFR 利得の値はどちらかといえば、確率論的な情報である。そのような情報に適合する冗長パラメータはなく、 Alg CB 利得の評価の妨げとなる。予測器はフレームを損失した後、安定するのに大体1フレームかかる。予測器はフレーム間に存在するエネルギー変化に基づいて更新する事ができる。符号器モジュールはLTP利得と代数利得の間の分布(例えば比率)計測し、非常に少ないビット数(例えば2、または3ビット)で送ることができる。予測器を更新するための技術は有声化状態についても考慮しなくてはならない。有声状態への転移で、代数利得は、後のフレームで使用するLTP用の履歴を作成するには大きすぎることが多い。定常状態では、利得はより適度で、そして無声状態では、無声状態に見られる殆ど全ての無作為を形成する。
【0073】
2.4 変形
上述の例の多くの変形を考えることができる。例えば、最後のサブフレーム内でのRMS計測を最後に完了したピッチエポックの計測に代えて、ただ1つのピッチパルスが計測されるようにすることができる。最後のフレームに関しての現在の計測では、パルスの位置およびピッチラグに応じて、0、1つ、または2つの高エネルギー部分が存在する場合がある。状態「RED SINGLE ERROR」、および定常状態有声状態のエネルギー分布について同様の修正が可能である。これらの場合、エネルギー補間はピッチパルスの総量に基づいて調整できる。
符号器モジュール内のパルス位置サーチを、ルック−アヘッドに基づく有声化決定を使用するように、修正することができる。
誤り条件「RED AFTER EC」内では、本技術は第1のピッチパルスの配置を調整できる。この調整は受信したパルス位置および直前のフレームの合成内の位相情報の両方を考慮しなくてはならない。位相の不連続を最小にするために、位相誤りを訂正するため本技術はフレーム全体を使用しなくてはならない。これは直前のフレームの合成が有声音スピーチから成るとを仮定する。
【0074】
線形補間の代わりに多項式を用いた補間を用いることができる。本技術では、多項式は以下の値に適応すると考えられる:直前のフレームの総RMS、直前のフレームの最後のパルスのRMS、現在のフレームのRMSおよび次のフレームの予測RMS。
本技術は、エネルギーのより高度な予測を用いることができる。例えば、次のフレームのエネルギー包絡線を決定するための十分なデータがある。本技術を、前記包絡線から次のフレームのスタート地点におけるエネルギーおよびその微分係数を予測するように修正することができる。本技術では、より滑らかなフレーム境界を提供するために、この情報をエネルギー補間を改善するために使用することができる。本技術がやや不正確な予測を提供する場合には、本技術は次のフレーム内でエネルギーレベルを調整することができる。不連続にならないように、本技術はある種類の不均等な調整を用いることができる。例えば、本技術は利得調整をフレームの最初でほとんどゼロに設定し、フレームの中間部までに調整を所定の値まで増加させることができる。
【0075】
ネットワークを介して伝送される冗長データ(オーバーヘッド)の総量を低減するために、符号化処理技術はいくつかのパラメータを放棄できる。さらに具体的には、本技術は有声化状態によって様々なパラメータを放棄できる。
例えば、表2は無声スピーチに適したパラメータを示す。本技術は雑音のスペクトル特性を表すためにLPCを必要とする。本技術は雑音のエネルギーを伝送するために、RMS値を必要とする。表は有声化状態を記載したものであるが、このパラメータは放棄することができる。その代わりに、本発明は無声スピーチのインジケータとしてデータサイズを用いることができる。つまり、有声化状態以外で、表2のパラメータのセットは33ビットのフレームサイズおよび1650b/sのビット速度を提供する。このデータサイズ(33ビット)を無声スピーチのインジケータとして用いることができる(パケット化技術が、例えばパケットのヘッダ内で、このサイズの情報を指定した場合)。その上、符号化処理技術は雑音のスペクトル形成で使用するための精密な値を必要としない(有声セグメントと比べて)。その観点から、本技術は帯域を低減するために、それほど正確でないタイプの定量化を用いることができる。しかし、そのような修正は、主要LPC復号器の予測器更新操作の有効性をそこなう。
【0076】
【表2】
無声スピーチから有声スピーチへの転移では、本技術は表1(前述)の全パラメータを必要とする。これは、LPCパラメータが通常この環境内で極端に変化するからである。有声スピーチはピッチを含み、フレーム内に新しいレベルのエネルギーが存在する。このように、本技術は、励起の正確な位相を生成するために、ピッチパルスおよび標識を使用する。
【0077】
定常状態有声状態および無声状態への転移では、本技術はピッチパルス位置および標識を除去することができ、従って、総ビット量を42ビットに低減する(すなわち2100b/s)ことができる。従って復号器モジュールはこれらのフレーム内で位相情報を受信せず、それにより出力の質に否定的な影響が出ることがある。これは復号器に直前のフレーム内での位相のサーチを強制し、それはまた、パケットをバースト損失するために、アルゴリズムが位相を検出できないので、位相誤りが拡大するという結果になる場合がある。またそれは、エラー隠蔽の期間の間に起きた位相ドリフトの訂正を不可能にする。
上記のGSM−VOC の代わりに、上記の冗長復号器はマルチ-パルス符号化処理を使用できる。マルチ-パルス復号化では、符号化処理技術は残差から最も重要なパルスを符号化する。この方法は、無声状態から有声状態への転移における変化に対してよりよい反応を示すと考えられる。さらに、この符号化処理技術をGSM−EFRと結合させると、位相複雑化は起こらないだろう。一方、本技術は上記のGSM−VOCより高い帯域を使用する。
【0078】
上記の例は単一レベルの冗長を提供する。しかし、本技術は複数レベルの冗長も使用することができる。さらに、上記の例は、好適には同じパケット内で、主要データと冗長データを結合させる。しかし、本技術は、情報データ、および冗長データを別々のパケット、または他のフォーマットで転送することができる。
上述の原理のその他の変形ができることは当業者にとって明らかであろう。そのようなすべての変形および修正は、特許請求の範囲で限定される本発明の範囲および精神の範囲内にあるものと考えるべきである。
【図面の簡単な説明】
【図1】 従来の符号励振線形予測(CELP)符号器を示す。
【図2】 図1のCELP符号器によって生成された残差を図示している。
【図3】 適応コードブックを用いる他のタイプのCELP符号器を示している。
【図4】 従来のボコーダを示している。
【図5】 パケット化されたネットワークで前方向誤り訂正を行う従来のシステムを示している。
【図6】 図5のシステム内における、主要および冗長情報の結合例を示している。
【図7】 本発明の一実施例により、パケット化されたネットワークで前方向誤り訂正を行うシステムを示している。
【図8】 本発明で使用する符号器モジュールの例を示している。
【図9】 本発明の1実施例における、冗長符号器のサブフレーム区分を示す。
【図10】 図7で示した復号器モジュールの制御ロジック内で使用する状態機械の例を示す。
Claims (16)
- 主要符号データおよび冗長符号データを含むパケット化された音声データを復号化するための復号器モジュールであって:
主要合成モデルを用いてパケットの主要符号データを復号化するための主要復号器と
冗長合成モデルを用いてパケットの冗長符号データを復号化するための冗長復号器と
パケットそれぞれについて、復号器モジュールが経験した受信状況の誤り条件に応じて、パケットの復号化に使用される複数の復号化方法から1つを選択するための制御ロジックとを備え、
うち1つの方法においては、前記冗長合成モデルにより得られた結果が前記主要合成モデル内の状態を更新するために使用され、および/または前記主要合成モデルにより得られた結果が前記冗長合成モデル内の状態を更新するために使用される、復号器モジュール。 - 前記状態は
適応コードブック状態、
LPCフィルタ状態、
エラー隠蔽履歴状態、および
定量化予測状態
の少なくとも1つに関連している、請求項1に記載の復号器モジュール。 - 前記状態は前記主要合成モデル内のLSF予測状態に関連し、次の式により更新される、請求項1に記載の復号器モジュール。
LSFpres,res= (LSFred-LSFmean-LSFres/predFactor
ここで LSFpres,res は直前のフレームのLSF残差を、
LSFred は冗長データから供給された現在のフレームのLSFを、
LSFmean は現在のフレームのLSFの中間値を、
LSFres は現在のフレームのLSF残差を、
PredFactorは予測因子を表す。 - 前記誤り条件は、直前のパケットの受信または非受信、現在のパケットの受信または非受信、および次のパケットの受信または非受信に関連する、請求項1に記載の復号器モジュール。
- パケット内に含まれる主要符号データを処理すると同時に同パケット内の冗長符号データも復号するルック−アヘッド手段
をさらに備える請求項1〜4のいずれか一項に記載の復号器モジュール。 - 次のフレーム内のエネルギーを予測するためおよびフレーム間のエネルギー転移をなめらかにするために、ルック−アヘッド処理手段の結果を用いるための手段をさらに含む、請求項5に記載の復号器モジュール。
- 直前のフレーム内で判明している最後のパルス位置を同定し、次いで該判明している最後のパルス位置からピッチラグ値にして1つ分以上前進した位置に現在のフレーム内のパルス位置を決定することにより、現在のフレーム内のピッチパルス位置を決定するための手段
をさらに備え、前記決定された現在のフレーム内のピッチパルス位置は位相の不連続を低減するために使用される、請求項1〜6のいずれか一項に記載の復号器モジュール。 - 前記ピッチパルス位置を決定する手段は、さらに、ピッチパルス位置値を符号化側から受信し、受信した値を決定したピッチパルス位置と比較し、次いで現在のフレーム全体に検出した位相不一致を平坦化するように構成されている、請求項7に記載の復号器モジュール。
- 主要符号データおよび冗長符号データを含むパケットに形成された音声データの復号化方法であって:
復号化側でパケットを受信する段階と、
主要合成モデルを用いて受信したパケットの主要符号データを主要復号化する段階と、
冗長合成モデルを用いて受信したパケットの主要符号データを冗長復号化する段階と、
パケットそれぞれについて、復号器側で経験した受信状況の誤り条件に応じて、パケットの復号化に使用する複数の復号化方法から1つを選択する段階と
を含み、
うち1つの方法においては、冗長合成モデルにより得られた結果は主要合成モデル内の状態を更新するために使用され、および/または主要合成モデルにより得られた結果は冗長合成モデル内の状態を更新するために使用される方法。 - 前記状態は
適応コードブック状態、
LPCフィルタ状態、
エラー隠蔽履歴状態、および
定量化予測状態
の少なくとも1つに関連する、請求項9に記載の方法。 - 前記状態は、主要合成モデル内のLSF予測器状態に関連し、次の式により更新される、請求項9に記載の方法。
LSFpres,res= (LSFred-LSFmean-LSFres/predFactor
ここで LSFpres,res は直前のフレームのLSF残差を、
LSFred は冗長データから供給された現在のフレームのLSFを、
LSFmean は現在のフレームのLSF中間値を、
LSFres は現在のフレームのLSF残差を、そして
PredFactorは予測因子を表す。 - 前記誤り条件は、直前のパケットの受信または非受信、現在のパケットの受信または非受信、および次のパケットの受信または非受信に関連する、請求項9に記載の方法。
- パケット内に含まれる主要符号データを処理すると同時に同パケット内に含まれる冗長符号データも復号するルック−アヘッド処理を行う段階
をさらに含む請求項9〜12のいずれか一項に記載の方法。 - 次のフレーム内のエネルギーを予測するため、およびフレーム間のエネルギー転移をなめらかにするために、ルック−アヘッド処理の結果を使用する段階を含む、請求項13に記載の方法。
- 主要符号化または冗長符号化は、直前のフレーム内で判明している最後のパルス位置を同定し、次いで該判明している最後のパルス位置からピッチラグ値にして1つ分以上前進した位置に現在のフレーム内のパルス位置を決定することにより、現在のフレーム内のピッチパルス位置を決定する段階を含み、決定されたピッチパルス位置は位相の不連続を低減するために使用される、請求項9〜14のいずれか一項に記載の方法。
- ピッチパルス位置を決定する段階は、ピッチパルス位置値を符号化側から受信する段階と、受信した値を決定したピッチパルス位置と比較する段階と、次いで検出した位相不一致を現在のフレーム全体に平坦化する段階をさらに含む、請求項15に記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/569,312 US6757654B1 (en) | 2000-05-11 | 2000-05-11 | Forward error correction in speech coding |
US09/569,312 | 2000-05-11 | ||
PCT/SE2001/001023 WO2001086637A1 (en) | 2000-05-11 | 2001-05-10 | Forward error correction in speech coding |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003533916A JP2003533916A (ja) | 2003-11-11 |
JP4931318B2 true JP4931318B2 (ja) | 2012-05-16 |
Family
ID=24274909
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001583504A Expired - Lifetime JP4931318B2 (ja) | 2000-05-11 | 2001-05-10 | スピーチ符号化における前方向誤り訂正 |
Country Status (10)
Country | Link |
---|---|
US (1) | US6757654B1 (ja) |
EP (3) | EP2711925B1 (ja) |
JP (1) | JP4931318B2 (ja) |
CN (1) | CN1441949A (ja) |
AT (1) | ATE414315T1 (ja) |
AU (1) | AU2001258973A1 (ja) |
DE (1) | DE60136537D1 (ja) |
ES (1) | ES2527697T3 (ja) |
PT (1) | PT2711925T (ja) |
WO (1) | WO2001086637A1 (ja) |
Families Citing this family (141)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US7117156B1 (en) | 1999-04-19 | 2006-10-03 | At&T Corp. | Method and apparatus for performing packet loss or frame erasure concealment |
US7047190B1 (en) * | 1999-04-19 | 2006-05-16 | At&Tcorp. | Method and apparatus for performing packet loss or frame erasure concealment |
US7315815B1 (en) | 1999-09-22 | 2008-01-01 | Microsoft Corporation | LPC-harmonic vocoder with superframe structure |
US7013267B1 (en) * | 2001-07-30 | 2006-03-14 | Cisco Technology, Inc. | Method and apparatus for reconstructing voice information |
GB2380640A (en) * | 2001-08-21 | 2003-04-09 | Micron Technology Inc | Data compression method |
US7072291B1 (en) * | 2001-08-23 | 2006-07-04 | Cisco Technology, Inc. | Devices, softwares and methods for redundantly encoding a data stream for network transmission with adjustable redundant-coding delay |
US7379865B2 (en) * | 2001-10-26 | 2008-05-27 | At&T Corp. | System and methods for concealing errors in data transmission |
US6671518B2 (en) | 2001-11-19 | 2003-12-30 | Motorola, Inc. | Method and apparatus for transmitting voice information |
US6934677B2 (en) | 2001-12-14 | 2005-08-23 | Microsoft Corporation | Quantization matrices based on critical band pattern information for digital audio wherein quantization bands differ from critical bands |
US7240001B2 (en) * | 2001-12-14 | 2007-07-03 | Microsoft Corporation | Quality improvement techniques in an audio encoder |
US20030163304A1 (en) * | 2002-02-28 | 2003-08-28 | Fisseha Mekuria | Error concealment for voice transmission system |
US7096180B2 (en) * | 2002-05-15 | 2006-08-22 | Intel Corporation | Method and apparatuses for improving quality of digitally encoded speech in the presence of interference |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7849152B2 (en) * | 2002-06-07 | 2010-12-07 | Yahoo! Inc. | Method and system for controlling and monitoring a web-cast |
US7103538B1 (en) * | 2002-06-10 | 2006-09-05 | Mindspeed Technologies, Inc. | Fixed code book with embedded adaptive code book |
US7502743B2 (en) * | 2002-09-04 | 2009-03-10 | Microsoft Corporation | Multi-channel audio encoding and decoding with multi-channel transform selection |
JP4676140B2 (ja) * | 2002-09-04 | 2011-04-27 | マイクロソフト コーポレーション | オーディオの量子化および逆量子化 |
US7299190B2 (en) * | 2002-09-04 | 2007-11-20 | Microsoft Corporation | Quantization and inverse quantization for audio |
US7359979B2 (en) * | 2002-09-30 | 2008-04-15 | Avaya Technology Corp. | Packet prioritization and associated bandwidth and buffer management techniques for audio over IP |
US20040073428A1 (en) * | 2002-10-10 | 2004-04-15 | Igor Zlokarnik | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database |
JP4287637B2 (ja) * | 2002-10-17 | 2009-07-01 | パナソニック株式会社 | 音声符号化装置、音声符号化方法及びプログラム |
US7191384B2 (en) * | 2002-10-17 | 2007-03-13 | Qualcomm Incorporated | Method and apparatus for transmitting and receiving a block of data in a communication system |
MXPA05008317A (es) * | 2003-02-06 | 2005-11-04 | Dolby Lab Licensing Corp | Audio con respaldo continuo. |
US7085282B2 (en) * | 2003-07-01 | 2006-08-01 | Thomson Licensing | Method and apparatus for providing forward error correction |
KR100651712B1 (ko) * | 2003-07-10 | 2006-11-30 | 학교법인연세대학교 | 광대역 음성 부호화기 및 그 방법과 광대역 음성 복호화기및 그 방법 |
US20050065787A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
JP4685787B2 (ja) * | 2003-10-08 | 2011-05-18 | デジタル ファウンテン, インコーポレイテッド | Fecベース信頼度制御プロトコル |
US7729267B2 (en) * | 2003-11-26 | 2010-06-01 | Cisco Technology, Inc. | Method and apparatus for analyzing a media path in a packet switched network |
US7835916B2 (en) * | 2003-12-19 | 2010-11-16 | Telefonaktiebolaget Lm Ericsson (Publ) | Channel signal concealment in multi-channel audio systems |
FR2865310A1 (fr) * | 2004-01-20 | 2005-07-22 | France Telecom | Procede de restauration de partiels d'un signal sonore |
JP4712704B2 (ja) * | 2004-02-09 | 2011-06-29 | パナソニック株式会社 | 放送受信装置、放送受信方法、放送受信プログラム及び放送受信回路 |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
FR2869744A1 (fr) * | 2004-04-29 | 2005-11-04 | Thomson Licensing Sa | Methode de transmission de paquets de donnees numeriques et appareil implementant la methode |
JP4318119B2 (ja) * | 2004-06-18 | 2009-08-19 | 国立大学法人京都大学 | 音響信号処理方法、音響信号処理装置、音響信号処理システム及びコンピュータプログラム |
GB0416720D0 (en) * | 2004-07-27 | 2004-09-01 | British Telecomm | Method and system for voice over IP streaming optimisation |
EP1780895B1 (en) * | 2004-07-28 | 2020-07-01 | III Holdings 12, LLC | Signal decoding apparatus |
JP4500137B2 (ja) * | 2004-09-07 | 2010-07-14 | 日本放送協会 | パリティ時差送信システム、送信装置、及び受信装置 |
US9197857B2 (en) * | 2004-09-24 | 2015-11-24 | Cisco Technology, Inc. | IP-based stream splicing with content-specific splice points |
US8966551B2 (en) | 2007-11-01 | 2015-02-24 | Cisco Technology, Inc. | Locating points of interest using references to media frames within a packet flow |
US7873515B2 (en) * | 2004-11-23 | 2011-01-18 | Stmicroelectronics Asia Pacific Pte. Ltd. | System and method for error reconstruction of streaming audio information |
US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US20070160154A1 (en) * | 2005-03-28 | 2007-07-12 | Sukkar Rafid A | Method and apparatus for injecting comfort noise in a communications signal |
US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
US20060217983A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for injecting comfort noise in a communications system |
US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
JP5129117B2 (ja) * | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
WO2006116025A1 (en) | 2005-04-22 | 2006-11-02 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor smoothing |
US7447983B2 (en) * | 2005-05-13 | 2008-11-04 | Verizon Services Corp. | Systems and methods for decoding forward error correcting codes |
US7707034B2 (en) * | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
JP4604851B2 (ja) * | 2005-06-02 | 2011-01-05 | ソニー株式会社 | 送信装置、受信装置、送信処理方法、受信処理方法、それらのプログラム |
US7539612B2 (en) * | 2005-07-15 | 2009-05-26 | Microsoft Corporation | Coding and decoding scale factor information |
DE102005039621A1 (de) * | 2005-08-19 | 2007-03-01 | Micronas Gmbh | Verfahren und Vorrichtung zur adaptiven Reduktion von Rausch- und Hintergrundsignalen in einem sprachverarbeitenden System |
US20070174047A1 (en) * | 2005-10-18 | 2007-07-26 | Anderson Kyle D | Method and apparatus for resynchronizing packetized audio streams |
US8620644B2 (en) * | 2005-10-26 | 2013-12-31 | Qualcomm Incorporated | Encoder-assisted frame loss concealment techniques for audio coding |
US8255207B2 (en) | 2005-12-28 | 2012-08-28 | Voiceage Corporation | Method and device for efficient frame erasure concealment in speech codecs |
US7457746B2 (en) * | 2006-03-20 | 2008-11-25 | Mindspeed Technologies, Inc. | Pitch prediction for packet loss concealment |
EP2040251B1 (en) * | 2006-07-12 | 2019-10-09 | III Holdings 12, LLC | Audio decoding device and audio encoding device |
WO2008007698A1 (fr) * | 2006-07-12 | 2008-01-17 | Panasonic Corporation | Procédé de compensation des pertes de blocs, appareil de codage audio et appareil de décodage audio |
US9872045B2 (en) * | 2006-10-16 | 2018-01-16 | Conversant Wireless Licensing S.A R.L. | Method, electronic device, system, computer program product and circuit assembly for reducing error in video coding |
JP5123516B2 (ja) * | 2006-10-30 | 2013-01-23 | 株式会社エヌ・ティ・ティ・ドコモ | 復号装置、符号化装置、復号方法及び符号化方法 |
JP5013822B2 (ja) * | 2006-11-09 | 2012-08-29 | キヤノン株式会社 | 音声処理装置とその制御方法、及び、コンピュータプログラム |
KR101291193B1 (ko) * | 2006-11-30 | 2013-07-31 | 삼성전자주식회사 | 프레임 오류은닉방법 |
US20100027618A1 (en) * | 2006-12-11 | 2010-02-04 | Kazunori Ozawa | Media transmitting/receiving method, media transmitting method, media receiving method, media transmitting/receiving apparatus, media transmitting apparatus, media receiving apparatus, gateway apparatus, and media server |
US7738383B2 (en) * | 2006-12-21 | 2010-06-15 | Cisco Technology, Inc. | Traceroute using address request messages |
US7706278B2 (en) * | 2007-01-24 | 2010-04-27 | Cisco Technology, Inc. | Triggering flow analysis at intermediary devices |
BRPI0808200A8 (pt) * | 2007-03-02 | 2017-09-12 | Panasonic Corp | Dispositivo de codificação de áudio e dispositivo de decodificação de áudio |
US8364472B2 (en) * | 2007-03-02 | 2013-01-29 | Panasonic Corporation | Voice encoding device and voice encoding method |
GB0705328D0 (en) * | 2007-03-20 | 2007-04-25 | Skype Ltd | Method of transmitting data in a communication system |
EP2381580A1 (en) * | 2007-04-13 | 2011-10-26 | Global IP Solutions (GIPS) AB | Adaptive, scalable packet loss recovery |
US8023419B2 (en) | 2007-05-14 | 2011-09-20 | Cisco Technology, Inc. | Remote monitoring of real-time internet protocol media streams |
US7936695B2 (en) | 2007-05-14 | 2011-05-03 | Cisco Technology, Inc. | Tunneling reports for real-time internet protocol media streams |
CN101743586B (zh) * | 2007-06-11 | 2012-10-17 | 弗劳恩霍夫应用研究促进协会 | 音频编码器、编码方法、解码器、解码方法 |
CN101325631B (zh) * | 2007-06-14 | 2010-10-20 | 华为技术有限公司 | 一种估计基音周期的方法和装置 |
US7835406B2 (en) | 2007-06-18 | 2010-11-16 | Cisco Technology, Inc. | Surrogate stream for monitoring realtime media |
US8386246B2 (en) * | 2007-06-27 | 2013-02-26 | Broadcom Corporation | Low-complexity frame erasure concealment |
US7817546B2 (en) | 2007-07-06 | 2010-10-19 | Cisco Technology, Inc. | Quasi RTP metrics for non-RTP media flows |
KR101235830B1 (ko) * | 2007-12-06 | 2013-02-21 | 한국전자통신연구원 | 음성코덱의 품질향상장치 및 그 방법 |
WO2009088258A2 (ko) * | 2008-01-09 | 2009-07-16 | Lg Electronics Inc. | 프레임 타입 식별 방법 및 장치 |
KR100998396B1 (ko) * | 2008-03-20 | 2010-12-03 | 광주과학기술원 | 프레임 손실 은닉 방법, 프레임 손실 은닉 장치 및 음성송수신 장치 |
CN101552008B (zh) * | 2008-04-01 | 2011-11-16 | 华为技术有限公司 | 语音编码方法及装置、语音解码方法及装置 |
US8139655B2 (en) * | 2008-06-09 | 2012-03-20 | Sony Corporation | System and method for effectively transferring electronic information |
US8670573B2 (en) * | 2008-07-07 | 2014-03-11 | Robert Bosch Gmbh | Low latency ultra wideband communications headset and operating method therefor |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466670B (en) * | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
GB2466674B (en) * | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466672B (en) * | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
JP5111430B2 (ja) * | 2009-04-24 | 2013-01-09 | パナソニック株式会社 | 音声符号化装置、音声復号化装置、及びこれらの方法 |
US8452606B2 (en) * | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
US8301982B2 (en) * | 2009-11-18 | 2012-10-30 | Cisco Technology, Inc. | RTP-based loss recovery and quality monitoring for non-IP and raw-IP MPEG transport flows |
JP5314771B2 (ja) | 2010-01-08 | 2013-10-16 | 日本電信電話株式会社 | 符号化方法、復号方法、符号化装置、復号装置、プログラムおよび記録媒体 |
US8819714B2 (en) | 2010-05-19 | 2014-08-26 | Cisco Technology, Inc. | Ratings and quality measurements for digital broadcast viewers |
US9082416B2 (en) * | 2010-09-16 | 2015-07-14 | Qualcomm Incorporated | Estimating a pitch lag |
US8774010B2 (en) | 2010-11-02 | 2014-07-08 | Cisco Technology, Inc. | System and method for providing proactive fault monitoring in a network environment |
US8559341B2 (en) | 2010-11-08 | 2013-10-15 | Cisco Technology, Inc. | System and method for providing a loop free topology in a network environment |
BR112013020482B1 (pt) | 2011-02-14 | 2021-02-23 | Fraunhofer Ges Forschung | aparelho e método para processar um sinal de áudio decodificado em um domínio espectral |
KR101525185B1 (ko) | 2011-02-14 | 2015-06-02 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 트랜지언트 검출 및 품질 결과를 사용하여 일부분의 오디오 신호를 코딩하기 위한 장치 및 방법 |
ES2639646T3 (es) | 2011-02-14 | 2017-10-27 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Codificación y decodificación de posiciones de impulso de pistas de una señal de audio |
TWI488176B (zh) | 2011-02-14 | 2015-06-11 | Fraunhofer Ges Forschung | 音訊信號音軌脈衝位置之編碼與解碼技術 |
PL2676264T3 (pl) | 2011-02-14 | 2015-06-30 | Fraunhofer Ges Forschung | Koder audio estymujący szum tła podczas faz aktywnych |
PL2676265T3 (pl) | 2011-02-14 | 2019-09-30 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Urządzenie i sposób do kodowania sygnału audio z stosowaniem zrównanej części antycypacji |
KR101551046B1 (ko) * | 2011-02-14 | 2015-09-07 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 저-지연 통합 스피치 및 오디오 코딩에서 에러 은닉을 위한 장치 및 방법 |
MY166394A (en) | 2011-02-14 | 2018-06-25 | Fraunhofer Ges Forschung | Information signal representation using lapped transform |
US8982733B2 (en) | 2011-03-04 | 2015-03-17 | Cisco Technology, Inc. | System and method for managing topology changes in a network environment |
US8670326B1 (en) | 2011-03-31 | 2014-03-11 | Cisco Technology, Inc. | System and method for probing multiple paths in a network environment |
US9026434B2 (en) * | 2011-04-11 | 2015-05-05 | Samsung Electronic Co., Ltd. | Frame erasure concealment for a multi rate speech and audio codec |
US8724517B1 (en) | 2011-06-02 | 2014-05-13 | Cisco Technology, Inc. | System and method for managing network traffic disruption |
US8830875B1 (en) | 2011-06-15 | 2014-09-09 | Cisco Technology, Inc. | System and method for providing a loop free topology in a network environment |
JP5328883B2 (ja) * | 2011-12-02 | 2013-10-30 | パナソニック株式会社 | Celp型音声復号化装置およびcelp型音声復号化方法 |
US9275644B2 (en) * | 2012-01-20 | 2016-03-01 | Qualcomm Incorporated | Devices for redundant frame coding and decoding |
US8953612B2 (en) * | 2012-03-07 | 2015-02-10 | Cmmb Vision Usa Inc | Efficient broadcasting via random linear packet combining |
CN103516469B (zh) * | 2012-06-25 | 2019-04-23 | 中兴通讯股份有限公司 | 语音帧的发送、接收装置及方法 |
US9450846B1 (en) | 2012-10-17 | 2016-09-20 | Cisco Technology, Inc. | System and method for tracking packets in a network environment |
IN2015DN02595A (ja) | 2012-11-15 | 2015-09-11 | Ntt Docomo Inc | |
US9842598B2 (en) | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
JP6201043B2 (ja) | 2013-06-21 | 2017-09-20 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | エラー封じ込め中の切替音声符号化システムについての向上した信号フェードアウトのための装置及び方法 |
US10614816B2 (en) * | 2013-10-11 | 2020-04-07 | Qualcomm Incorporated | Systems and methods of communicating redundant frame information |
BR122022008603B1 (pt) | 2013-10-31 | 2023-01-10 | Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Decodificador de áudio e método para fornecer uma informação de áudio decodificada utilizando uma dissimulação de erro que modifica um sinal de excitação no domínio de tempo |
JP6306175B2 (ja) * | 2013-10-31 | 2018-04-04 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | 時間ドメイン励振信号に基づくエラーコンシールメントを用いて、復号化されたオーディオ情報を提供するオーディオデコーダおよび復号化されたオーディオ情報を提供する方法 |
CN104751849B (zh) * | 2013-12-31 | 2017-04-19 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
EP2922054A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation |
EP2922055A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information |
EP2922056A1 (en) | 2014-03-19 | 2015-09-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation |
CN107369455B (zh) * | 2014-03-21 | 2020-12-15 | 华为技术有限公司 | 语音频码流的解码方法及装置 |
HRP20240674T1 (hr) | 2014-04-17 | 2024-08-16 | Voiceage Evs Llc | Postupci, koder i dekoder za linearno prediktivno kodiranje i dekodiranje zvučnih signala pri prijelazu između okvira koji imaju različitu brzinu uzorkovanja |
JP6270993B2 (ja) | 2014-05-01 | 2018-01-31 | 日本電信電話株式会社 | 符号化装置、及びその方法、プログラム、記録媒体 |
CN112216289B (zh) | 2014-07-28 | 2023-10-27 | 三星电子株式会社 | 用于音频信号的时域数据包丢失隐藏的方法 |
TWI602172B (zh) | 2014-08-27 | 2017-10-11 | 弗勞恩霍夫爾協會 | 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法 |
CN105741843B (zh) * | 2014-12-10 | 2019-09-20 | 辰芯科技有限公司 | 一种基于延时抖动的丢包补偿方法及系统 |
GB201503828D0 (en) | 2015-03-06 | 2015-04-22 | Microsoft Technology Licensing Llc | Redundancy scheme |
US10504525B2 (en) * | 2015-10-10 | 2019-12-10 | Dolby Laboratories Licensing Corporation | Adaptive forward error correction redundant payload generation |
US10049681B2 (en) * | 2015-10-29 | 2018-08-14 | Qualcomm Incorporated | Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet |
US10049682B2 (en) * | 2015-10-29 | 2018-08-14 | Qualcomm Incorporated | Packet bearing signaling information indicative of whether to decode a primary coding or a redundant coding of the packet |
WO2018214070A1 (zh) * | 2017-05-24 | 2018-11-29 | 华为技术有限公司 | 译码的方法和装置 |
CN109524015B (zh) * | 2017-09-18 | 2022-04-15 | 杭州海康威视数字技术股份有限公司 | 音频编码方法、解码方法、装置及音频编解码系统 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA1123955A (en) * | 1978-03-30 | 1982-05-18 | Tetsu Taguchi | Speech analysis and synthesis apparatus |
US4742519A (en) * | 1985-05-21 | 1988-05-03 | Sony Corporation | Apparatus for decoding error correcting code |
US4802171A (en) * | 1987-06-04 | 1989-01-31 | Motorola, Inc. | Method for error correction in digitally encoded speech |
JPH0624348B2 (ja) * | 1988-05-24 | 1994-03-30 | 日本電気株式会社 | 誤り訂正装置における同期検出方法およびその装置並びに該装置を用いる同期方法 |
JPH0292037A (ja) * | 1988-09-28 | 1990-03-30 | Fujitsu Ltd | 音声符号切替方式 |
FR2674709A1 (fr) * | 1991-03-29 | 1992-10-02 | Philips Electronique Lab | Decodeur multietages. |
SE501340C2 (sv) * | 1993-06-11 | 1995-01-23 | Ericsson Telefon Ab L M | Döljande av transmissionsfel i en talavkodare |
EP0646866A3 (en) * | 1993-09-30 | 1998-05-27 | STMicroelectronics, Inc. | Redundant line decoder master enable |
JPH08263099A (ja) * | 1995-03-23 | 1996-10-11 | Toshiba Corp | 符号化装置 |
US5717819A (en) * | 1995-04-28 | 1998-02-10 | Motorola, Inc. | Methods and apparatus for encoding/decoding speech signals at low bit rates |
JPH09182067A (ja) * | 1995-10-27 | 1997-07-11 | Toshiba Corp | 画像符号化/復号化装置 |
US5701311A (en) * | 1996-02-08 | 1997-12-23 | Motorola, Inc. | Redundant acknowledgements for packetized data in noisy links and method thereof |
US5838267A (en) * | 1996-10-09 | 1998-11-17 | Ericsson, Inc. | Method and apparatus for encoding and decoding digital information |
US5870412A (en) * | 1997-12-12 | 1999-02-09 | 3Com Corporation | Forward error correction system for packet based real time media |
JP3974712B2 (ja) * | 1998-08-31 | 2007-09-12 | 富士通株式会社 | ディジタル放送用送信・受信再生方法及びディジタル放送用送信・受信再生システム並びにディジタル放送用送信装置及びディジタル放送用受信再生装置 |
GB9820655D0 (en) | 1998-09-22 | 1998-11-18 | British Telecomm | Packet transmission |
-
2000
- 2000-05-11 US US09/569,312 patent/US6757654B1/en not_active Expired - Lifetime
-
2001
- 2001-05-10 ES ES08168570.3T patent/ES2527697T3/es not_active Expired - Lifetime
- 2001-05-10 JP JP2001583504A patent/JP4931318B2/ja not_active Expired - Lifetime
- 2001-05-10 WO PCT/SE2001/001023 patent/WO2001086637A1/en active Application Filing
- 2001-05-10 AU AU2001258973A patent/AU2001258973A1/en not_active Abandoned
- 2001-05-10 EP EP13194747.5A patent/EP2711925B1/en not_active Expired - Lifetime
- 2001-05-10 CN CN01812602A patent/CN1441949A/zh active Pending
- 2001-05-10 DE DE60136537T patent/DE60136537D1/de not_active Expired - Lifetime
- 2001-05-10 PT PT131947475T patent/PT2711925T/pt unknown
- 2001-05-10 EP EP01932448A patent/EP1281174B1/en not_active Expired - Lifetime
- 2001-05-10 AT AT01932448T patent/ATE414315T1/de not_active IP Right Cessation
- 2001-05-10 EP EP08168570.3A patent/EP2017829B1/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
EP2711925A3 (en) | 2014-04-30 |
EP2711925A2 (en) | 2014-03-26 |
DE60136537D1 (de) | 2008-12-24 |
EP2017829A3 (en) | 2009-08-26 |
EP1281174B1 (en) | 2008-11-12 |
EP1281174A1 (en) | 2003-02-05 |
EP2711925B1 (en) | 2017-07-19 |
AU2001258973A1 (en) | 2001-11-20 |
PT2711925T (pt) | 2017-09-05 |
CN1441949A (zh) | 2003-09-10 |
EP2017829A2 (en) | 2009-01-21 |
EP2017829B1 (en) | 2014-10-29 |
US6757654B1 (en) | 2004-06-29 |
JP2003533916A (ja) | 2003-11-11 |
ATE414315T1 (de) | 2008-11-15 |
WO2001086637A1 (en) | 2001-11-15 |
ES2527697T3 (es) | 2015-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4931318B2 (ja) | スピーチ符号化における前方向誤り訂正 | |
US8255207B2 (en) | Method and device for efficient frame erasure concealment in speech codecs | |
AU2002350340B2 (en) | Signal modification method for efficient coding of speech signals | |
AU2006252972B2 (en) | Robust decoder | |
JP4658596B2 (ja) | 線形予測に基づく音声コーデックにおける効率的なフレーム消失の隠蔽のための方法、及び装置 | |
US6775649B1 (en) | Concealment of frame erasures for speech transmission and storage system and method | |
JP2002202799A (ja) | 音声符号変換装置 | |
US7302385B2 (en) | Speech restoration system and method for concealing packet losses | |
MX2008008477A (es) | Metodo y dispositivo para ocultamiento eficiente de borrado de cuadros en codec de voz |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080501 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110308 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20110524 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20110602 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110818 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120117 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120214 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4931318 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150224 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |