JP2003522965A - 周期的スピーチコーディング - Google Patents
周期的スピーチコーディングInfo
- Publication number
- JP2003522965A JP2003522965A JP2000590162A JP2000590162A JP2003522965A JP 2003522965 A JP2003522965 A JP 2003522965A JP 2000590162 A JP2000590162 A JP 2000590162A JP 2000590162 A JP2000590162 A JP 2000590162A JP 2003522965 A JP2003522965 A JP 2003522965A
- Authority
- JP
- Japan
- Prior art keywords
- prototype
- current
- previous
- reconstructed
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000000737 periodic effect Effects 0.000 title description 13
- 238000000034 method Methods 0.000 claims abstract description 42
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 39
- 230000015572 biosynthetic process Effects 0.000 claims description 30
- 238000003786 synthesis reaction Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims 4
- 230000005540 biological transmission Effects 0.000 description 24
- 238000004364 calculation method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 15
- 230000005284 excitation Effects 0.000 description 15
- 230000001052 transient effect Effects 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 238000013139 quantization Methods 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 206010019133 Hangover Diseases 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 238000005311 autocorrelation function Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000001755 vocal effect Effects 0.000 description 4
- 230000035945 sensitivity Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- GAKUNXBDVGLOFS-DUZKARGPSA-N (1-acetyloxy-3-hexadecanoyloxypropan-2-yl) (9z,12z)-octadeca-9,12-dienoate Chemical compound CCCCCCCCCCCCCCCC(=O)OCC(COC(C)=O)OC(=O)CCCCCCC\C=C/C\C=C/CCCCC GAKUNXBDVGLOFS-DUZKARGPSA-N 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000006698 induction Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000011045 prefiltration Methods 0.000 description 2
- 230000008054 signal transmission Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- OVSKIKFHRZPJSS-UHFFFAOYSA-N 2,4-D Chemical compound OC(=O)COC1=CC=C(Cl)C=C1Cl OVSKIKFHRZPJSS-UHFFFAOYSA-N 0.000 description 1
- 101100219325 Phaseolus vulgaris BA13 gene Proteins 0.000 description 1
- 101001062854 Rattus norvegicus Fatty acid-binding protein 5 Proteins 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 230000037081 physical activity Effects 0.000 description 1
- 230000029058 respiratory gaseous exchange Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/097—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using prototype waveform decomposition or prototype waveform interpolative [PWI] coders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
- G10L19/125—Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
Abstract
Description
期スピーチ信号を、その信号の原型部分だけを量子化することによるコーディン
グすることに関する。
ジタル信号として送信する。これらのシステムの性能は部分的に、最小の数のビ
ットで音声信号を正確に表すことに依存している。スピーチをサンプリングして
デジタル化することによって送信するだけで通常のアナログ電話機のスピーチ品
質を得るには、64キロビット/秒(kbps)程度のデータレートが必要であ
る。しかしながら、満足できるスピーチ再生のために必要とされるデータレート
を著しく減少させるコーディング技術が利用可能である。
パラメータを抽出することにより発声されたスピーチを圧縮する装置を示す。ボ
コーダにはエンコーダとデコーダとが含まれている。エンコーダは、入ってきた
スピーチを解析して関連したパラメータを抽出する。デコーダは、それがエンコ
ーダから伝送チャンネルを介して受取ったパラメータを使用してスピーチを合成
する。スピーチ信号はしばしば、ボコーダによって処理されたデータおよびブロ
ックのフレームに分割される。
コーダは、その他全てのタイプのコーダを数的にはるかに上回る。これらの技術
はスピーチ信号から相関させられた要素を抽出し、相関されていない要素だけを
符号化する。基本的な線形予測フィルタは、現在のサンプルを過去のサンプルの
線形組合せとして予測する。この特定のクラスのコーディングアルゴリズムの一
例は、文献(Thomas E.Tremain氏他による“A 4.8 kbps Code Excited Linear P
redictive Coder,”Proceedings of the Mobile Satellite Conference,1988 )
に記載されている。
られた要素)を全て除去することによりデジタル化されたスピーチ信号を低いビ
ットレートの信号に圧縮する。スピーチは一般に唇と舌の物理的活動の結果生じ
た短期間冗長と、声帯の振動の結果生じた長期間冗長とを示す。線形予測方式は
、これらの動作をフィルタとしてモデル化し、冗長を除去し、その後結果的に得
られた残留信号をホワイトガウス雑音としてモデル化する。したがって、線形予
測コーダは全帯域幅スピーチ信号ではなくフィルタ係数および量子化された雑音
を送信することにより減少したビットレートを達成する。
、あるいは混雑したチャンネル中でその他の多数の信号と共存しなければならな
い場合に、これらの減少したビットレートでさえ利用可能な帯域幅を越えること
が多い。したがって、線形予測方式以外の、低ビットレートを達成する改善され
たコーディング方式が必要とされている。
ある。スピーチ信号は、線形予測コーディング(LPC)解析フィルタでスピー
チ信号を濾波することにより生成された残留信号によって表される。残留信号は
、その残留信号の現在のフレームから原型周期を抽出することによって符号化さ
れる。現在の原型周期を近似するために前の原型周期をどのように修正するかを
記述する第1の組のパラメータが計算される。合計されたときに現在の原型周期
と修正された前の原型周期との間の差を近似する1以上のコードベクトルが選択
される。第2の組のパラメータは、これらの選択されたコードベクトルを記述す
る。デコーダは、第1および第2の組のパラメータに基づいて現在の原型周期を
再構成することにより出力スピーチ信号を合成する。その後、現在の再構成され
た原型周期と前の再構成された原型周期との間の領域に対して残留信号が補間さ
れる。デコーダは補間された残留信号に基づいて出力スピーチを合成する。
れることである。スピーチ信号全体ではなく原型周期をコーディングすることに
より、必要とされるビットレートは減少し、それがさらに高い効率、さらに広い
範囲およびさらに低い電力要求となる。
されることである。現在の原型周期と最適に回転されスケールされた過去の原型
周期との間の差が符号化されて送信され、それによって要求されるビットレート
がさらに減少される。
均と平均遅延とに基づいて連続する再構成された原型周期間で補間することによ
りデコーダにおいて残留信号が再構成されることである。
ステージコードブックが使用されることである。このコードブックは、効率的な
記憶とコードデータのサーチを行う。所望のレベルの正確さを達成するために付
加的なステージが追加されてもよい。
ことが必要となった場合に、第2の信号の長さに適合するように第1の信号の長
さを効率的に変更するためにワープフィルタが使用されることである。
抽出され、それによって、高エネルギをフレーム境界に沿って分割することによ
る出力の不連続を避けることである。
に明らかになるであろう。なお、図面において同じ参照符号は同じまたは機能的
に類似した構成要素を示している。さらに、参照符号の最大桁の数字はその参照
符号が最初に現れた図面を示している。 I.環境の概説 II.本発明の概説 III .初期パラメータの決定 A.LPC係数の計算 B.LSI計算 C.NACF計算 D.ピッチトラックおよび遅延の計算 E.帯域エネルギおよびゼロ交差レートの計算 F.ホルマント残留の計算 IV.アクティブ/非アクティブスピーチ分類 A.ハングオーバーフレーム V.アクティブスピーチフレームの分類 VI.エンコーダ/デコーダモード選択 VII .コード励起線形予測(CELP)コーディングモード A.ピッチ符号化モード B.符号化コードブック C.CELPデコーダ D.フィルタ更新モジュール VIII.原型ピッチ周期(PPP)コーディングモード A.抽出モジュール B.回転コリレータ C.符号化コードブック D.フィルタ更新モジュール E.PPPデコーダ F.周期インターポレータ IX.雑音励起線形予測(NELP)コーディングモード X.結論
よび装置に関する。図1は、エンコーダ102 、デコーダ104 および伝送媒体106
を含む伝送環境100 を示している。エンコーダ102 はスピーチ信号s(n)を符
号化し、伝送媒体106 を横切ってデコーダ104 に伝送するための符号化されたス
ピーチ信号senc (n)を形成する。デコーダ104 はsenc (n)を復号し、そ
れによって合成されたスピーチ信号:
復号の両者を含む方法を示している。一般に、コーディング方法および装置は、
許容可能なスピーチ再生(すなわち、^s(n)はs(n)に近似している)を
維持しながら、伝送媒体106 を介して伝送されるビットの数を最小化しようとす
る(すなわち、senc (n)の帯域幅を最小化しようとする)。符号化されたス
ピーチ信号の合成は、特定のスピーチコーディング方法にしたがっていろいろで
ある。以下、種々のエンコーダ102 、デコーダ104 およびそれらが動作するコー
ディング方法を説明する。
ハードウェア、コンピュータソフトウェア、または両者の組合せとして実施され
ることができる。以下、これらのコンポーネントをそれらの機能性に関して説明
する。ハードウェアまたはソフトウェアのどちらで機能が実施されるかは、特定
の用途とシステム全体に課される設計上の制約に依存する。当業者は、これらの
状況下においてハードウェアおよびソフトウェアが交換可能であること、および
説明された機能を特定の用途のそれぞれに対して最良に実施するための方法を認
識するであろう。
ンク、セルラー電話機と基地局との間の、またはセルラー電話機と衛星との間の
無線通信を含む多数の異なった伝送媒体を代表することができるが、それに限定
されないことを認識するであろう。
ばしば行うことを認識するであろう。したがって、各パーティにはエンコーダ10
2 とデコーダ104 が必要である。しかしながら、以下の説明において信号伝送環
境100 は、伝送媒体106 の一方の端部にエンコーダ102 を含み、他端部にデコー
ダ104 を含むものとして示されている。当業者は、これらの考えをどのように2
方向通信に拡大すべきかを容易に認識するであろう。
会話中に得られたデジタルスピーチ信号であると仮定する。スピーチ信号s(n
)はフレームに分割され、各フレームはさらに(好ましくは4つの)サブフレー
ムに分割されることが好ましい。これら任意の選択されたフレーム/サブフレー
ム境界は一般に、ここでのケースのように、あるブロック処理が行われるときに
使用される。フレームに関して行われていると説明された動作はサブフレームに
関しても行われ、この意味においてフレームとサブフレームはここでは交換可能
に使用されている。しかしながら、ブロック処理ではなく連続的な処理が実施さ
れる場合には、s(n)をフレーム/サブフレームに分割する必要は全くない。
当業者は、以下に示すブロック技術がどのように連続処理に拡大されるかを容易
に認識するであろう。
グされる。各フレームは20m秒のデータを含んでいる、すなわち好ましい8k
Hz速度で160個のサンプルを含んでいることが好ましい。したがって、各サ
ブフレームはデータの40個のサンプルを含んでいる。以下に示す多くの式は、
これらの値をとることを認識することが重要である。しかしながら、これらのパ
ラメータはスピーチコーディングにとって適切ではあるが単なる例示に過ぎず、
他の適切な代替パラメータが使用可能なことを当業者は認識するであろう。
る。図2は、エンコーダ102 およびデコーダ104 をさらに詳細に示している。本
発明によると、エンコーダ102 は初期パラメータ計算モジュール202 と、分類モ
ジュール208 と、および1以上のエンコーダモード204 とを含んでいる。デコー
ダ104 は1以上のデコーダモード206 を含んでいる。デコーダモードNd の数は
一般に、エンコーダモードNe の数に等しい。当業者に明らかなように、エンコ
ーダモード1はデコーダモード1と通信し、その他も同様に通信している。示さ
れているように、符号化されたスピーチ信号senc (n)は伝送媒体106 を介し
て伝送される。
の特性を与えた場合にどのモードが最も適切かに応じてフレームごとに多くのエ
ンコーダモード間で動的に切換わる。デーコーダ104 はまたフレームごとに対応
したデコーダモード間で動的に切換わる。デコーダにおいて許容可能な信号再生
を維持しながら最も低いビットレートを得るために各フレームに対して特定のモ
ードが選択される。このプロセスは、コーダのビットレートが時間的に変化する
(信号の特性が変化するにつれて)ため、可変レートスピーチコーディングと呼
ばれる。
ト300 である。ステップ302 において、初期パラメータ計算モジュール202 は、
データの現在のフレームに基づいて種々のパラメータを計算する。好ましい実施
形態において、これらのパラメータは、線形予測コーディング(LPC)フィル
タ係数、線形スペクトル情報(LSI)係数、正規化された自己相関関数(NA
CF)、開ループ遅延、帯域エネルギ、ゼロ交差レート、およびホルマント残留
信号の1以上のものを含んでいる。
ブ”スピーチまたは“非アクティブ”スピーチのいずれかを含むものとして分類
する。上述したように、s(n)は、通常の会話に関して一般的であるようにス
ピーチの周期と沈黙の周期の両方を含んでいると仮定される。アクティブスピー
チは話された言葉を含み、非アクティブスピーチはその他の全て(たとえば、背
景雑音、沈黙、息つぎ等)を含んでいる。以下、スピーチをアクティブまたは非
アクティブとして分類するために使用される本発明による方法を詳細に説明する
。
フレームがアクティブまたは非アクティブのいずれに分類されたかを考慮する。
アクティブの場合、制御フローはステップ308 に進む。非アクティブの場合、制
御フローはステップ310 に進む。
フレームか、無声化されたフレームか、または過渡フレームのいずれかとしてさ
らに分類される。当業者は、人間のスピーチが多くの異なった方法で分類可能で
あることを認識するであろう。通常の2つのスピーチ分類は発声された音および
無声音である。本発明によると、発声されていないまたは無声の全てのスピーチ
は過渡スピーチとして分類される。
いる。発声音は、声帯が緩和振動で振動し、それによって声道を励起させる空気
の擬似周期パルスを生成するように調節された声帯の緊張状態を伴って、強制的
に空気が声門を通過するようにすることにより生成される。発声されたスピーチ
において測定される1つの一般的な特性は、図4Aに示されているピッチ周期で
ある。
無声音は、声道中のある地点にくびれ(通常は口の末端に向かって)を形成し、
強制的に空気が乱流を生じさせるのに十分に高い速度でそのくびれを通過するよ
うにすることによって生成される。結果的に得られた無声スピーチ信号は、カラ
ード(colored) 雑音に似ている。
でもないスピーチ)を含むs(n)の例示的な部分を示している。図4Cに示さ
れている例示的な過渡スピーチ406 は、無声スピーチと発声されたスピーチとの
間の過渡状態にあるs(n)を表している。当業者は、これに匹敵した結果を得
るためにスピーチの多くの異なった分類をここに記載されている技術にしたがっ
て使用することが可能であることを認識するであろう。
づいてエンコーダ/デコーダモードが選択される。図2に示されているように種
々のエンコーダ/デコーダモードが並列に接続される。これらのモードの1以上
のものが任意の所定の時間に動作可能である。しかしながら、以下詳細に説明す
るように、任意の所定の時間に1つのモードだけが動作し、また、それは現在の
フレームの分類にしたがって選択されることが好ましい。
れている。異なったエンコーダ/デコーダモードが異なったコーディング方式に
したがって動作する。あるモードは、ある特性を示すスピーチ信号s(n)のコ
ーディング部分においてより効果的である。
ド化するために“コーディング励起線形予測”(CELP)モードが選択される
。CELPモードは、線形予測残留信号の量子化されたバージョンで線形予測声
道モデルを励起する。ここに記載されている全てのエンコーダ/デコーダモード
のうち、CELPにより一般に最も正確なスピーチ再生が得られるが、最高のビ
ットレートが必要である。
型ピッチ周期”(PPP)モードが選択されることが好ましい。発声されたスピ
ーチは、PPPモードによって利用されるゆっくり時間と共に変化する周期的成
分を含んでいる。PPPモードは、各フレーム内のピッチ周期のサブセットだけ
をコード化する。スピーチ信号の残りの周期は、これらの原型周期間において補
間をすることにより再構成される。発声されたスピーチの周期性を利用すること
により、PPPはCELPより低いビットレートを達成し、依然としてスピーチ
信号を知覚的に正確な方法で再生することができる。
形予測”(NELP)モードが選択される。NELPは濾波された擬似ランダム
雑音信号を使用して、無声スピーチをモデル化する。NELPはコード化された
スピーチに対して最も簡単なモデルを使用し、したがって最も低いビットレート
を達成する。
能であり、その結果性能レベルが変化する。したがって、図2の異なったエンコ
ーダ/デコーダモードは異なったコーディング技術、または異なったビットレー
トで動作している同じコーディング技術、あるいはそれらの組合せを表すことが
できる。当業者は、エンコーダ/デコーダモード数の増加により、モードを選択
する際にさらに高いフレキシビリティが可能であり、その結果平均ビットレート
をさらに低くすることができるが、システム全体の複雑性が増加することを認識
するであろう。任意の所定のシステムにおいて使用される特定の組合せは、利用
可能なシステムリソースおよび特定の信号環境によって指示される。
ムを符号化し、符号化されたデータを伝送のためにデータパケットにパックする
ことが好ましい。ステップ314 において、対応したデコーダモード206 はデータ
パケットを分解し、受信されたデータを復号し、スピーチ信号を再構成する。以
下、これらの動作を適切なエンコーダ/デコーダモードに関してさらに詳細に説
明する。
にしたがって種々の初期パラメータが計算される。パラメータは、たとえば、L
PC係数、線形スペクトル情報(LSI)係数、正規化された自己相関関数(N
ACF)、開ループ遅延、帯域エネルギ、ゼロ交差レート、およびホルマント残
留信号等を含んでいることが好ましい。これらのパラメータは、以下に説明する
ようにシステム全体内において種々の方法で使用される。
40個のサンプルの“ルックアヘッド”を使用する。これは、いくつかの目的の
ために機能する。第1に、160個のサンプルのルックアヘッドにより、ピッチ
周波数追跡は次のフレーム中の情報を使用して計算されることが可能になり、そ
れによって以下に説明されている音声コーディングとピッチ周期評価技術の粗さ
が著しく改善される。第2に、160個のサンプルのルックアヘッドにより、L
PC係数、フレームエネルギおよび音声アクティビティが将来の1つのフレーム
に対して計算されることが可能になる。これによって、フレームエネルギおよび
LPC係数の効率的なマルチフレーム量子化が可能になる。第3に、付加的な4
0個のサンプルのルックアヘッドは、以下に説明されるハミングウインドウ(Ham
ming windowed)スピーチに関してLPC係数を計算するためのものである。した
がって、現在のフレームを処理する前にバッファされるサンプルの数は160+
160+40であり、これには現在のフレームと160+40個のサンプルのル
ックアヘッドが含まれている。
ィルタを使用する。LPCフィルタに対する伝達関数は:
好ましい。デコーダ中のLPC合成フィルタは冗長を再挿入し、それはA(z)
の逆数:
る。LPCパラメータは、現在のフレームに対する符号化手順中に次のフレーム
に対して計算されることが好ましい。
る現在のフレームに適用される(“ルックアヘッド”による好ましい160サン
プルフレームを仮定して)。ウインドウ化されたスピーチ信号sw (n)は、
個のサンプルフレームの119番目と120番目との間を中心とするスピーチの
ウインドウが得られる。
)のルートをミスする確率を減少するためにウインドウ化され、その結果、たと
えば25Hz等のわずかな帯域幅拡張が生じる。値h(k)は、255ポイント
ハミングウインドウの中心からとられることが好ましい。
LPC係数が得られる。Durbinの帰納はよく知られた効率的な計算方法で
あり、文献(Rabiner & Schafer による“Digital Processing Speech Signals,
”)に記載されている。
トル情報(LSI)係数に変換される。LSI係数は、本発明にしたがって以下
の方法で計算される。
<1.0における10個のルートである:
ち、最も小さいルートlsc1 がP´(x)の最小のルートであり、2番目に小
さいルートlsc2 がQ´(x)の最小のルートであり、その他も同様であるこ
とが保証される。したがって、lsc1 ,lsc3 ,lsc5 ,lsc7 および
lsc9 はP´(x)のルートであり、lsc2 ,lsc4 ,lsc6 ,lsc 8 およびlsc10はQ´(x)のルートである。
用することが好ましい認識するであろう。各LSI中の量子化エラーを適切に加
重するために量子化プロセスにおいて“感度加重”が使用されることができる。
れる。ステージの数は、使用される特定のビットレートおよびコードブックに依
存していることが好ましい。コードブックは、現在のフレームが発声されたか否
かに基づいて選択される。
)を最小化する:
形態において、↑wは感度加重であり、P=10である。
声されたフレームまたは無声化されたフレームのいずれか(これは、コードブッ
クの選択を示すコードに基づく)に対するi番目のステージのVQコードブック
であり、codei はi番目のステージに対するLSIコードである。
へのチャンネルエラー注入雑音のせいで結果的に得られるLPCフィルタが不安
定にならないことを確実にするために安定性チェックが行われる。LSI係数が
順序付けられた状態のままである場合、安定性が保証される。
0番目のサンプルの間を中心とするスピーチウインドウが使用された。フレーム
中のその他のポイントに対するLPC係数は、前のフレームのLSCと現在のフ
レームのLSCとの間で補間をすることにより近似される。その後、結果的に得
られた補間されたLSCはLPC係数に変換されて戻される。各サブフレームに
対して使用される正確な補間は、 ilscj =(1−αi )lscprevj +αi lsccurrj , 1≦j≦10 によって与えられる。ここで、αi は40個の各サンプルの4つのサブフレーム
に対する補間係数0.375,0.625,0.875,1.000であり、i
lscは補間されたLSCである。^PA (z)および^QA (z)は補間され
たISCにより次式にしたがって計算される:
たがって計算される。
対して以下のように計算される:
SCとの間において行われる。次のフレームのエネルギはまた以下のように計算
される:
してローパスフィルタ処理され、デシメート(decimate)され、ゼロ位
相FIRフィルタの係数dfi (−7≦i≦7)は{0.0800,0.125
6,0.2532,0.4376,0.6424,0.8268,0.9544
,1.000,0.9544,0.8268,0.6424,0.4376,0
.2532,0.1256,0.0800}である。ローパスフィルタ処理され
、デシメートされた残留は次のように計算される:
+i)は、量子化されていないLPC係数に基づく現在のフレームの残留の最後
の14個の値から得られる。上述したように、これらのLPC係数は、前のフレ
ーム中に計算され記憶される。
に対するNACFは、以下のように計算される:
されてデシメートされた残留(前のフレーム期間中に記憶された)が使用される
。現在のサブフレームc corrに対するNACFもまた計算されて前のフレ
ーム期間中に記憶される。
される。ピッチ遅延は後方トラックによりビタビ状サーチを使用して、以下のよ
うに計算されることが好ましい。
5,0.5625,−0.0625}である。その後、遅延LC は、
る。
エネルギが本発明にしたがって以下のように計算される:
ローパス信号sL (n)およびハイパス信号sH (n)のz変換されたものであ
り、
フレームに対して以下のように計算される:
チ(たとえば、話されたワード)または非アクティブスピーチ(背景雑音、沈黙
)のいずれかとして分類される。図6は、ステップ304 をさらに詳細に示すフロ
ーチャート600 である。好ましい実施形態において、2つのエネルギ帯域ベース
のしきい値設定方式は、アクティブスピーチが存在するか否かを決定するために
使用される。低い帯域(帯域0)の周波数範囲は0.1−2.0kHzであり、
高い帯域(帯域1)は2.0−4.0kHzである。音声アクティビティ検出は
、以下に示す方法で現在のフレームに対する符号化工程中に次のフレームに対し
て決定されることが好ましい。
計算される。上記のセクションIII .Aに示されている自己相関シーケンスは帰
納的な式:
1)乃至R(10)から計算され、R(12)はR(2)乃至R(11)から計
算され、以下同様に行われる。その後、以下の式を使用して拡張された自己相関
シーケンスから帯域エネルギが計算される:
り、Rh (i)(k)は、表1に与えられている帯域iに対する帯域フィルタ自己相関
シーケンスである。
域エネルギ推定値Esmは、以下の式を使用して各フレームに対して更新される: Esm(i)=0.6Esm(i)+0.4Eb (i),i=0,1
。信号エネルギ推定値Es (i)は、以下の式を使用して更新されることが好ま
しい: Es (i)=max(Esm(i),Es (i)),i=0,1
い: En (i)=min(Esm(i),En (i)),i=0,1
)が計算される: SNR(i)=Es (i)−En (i),i=0,1
域RegSNR (i)に分割されることが好ましい:
方法で行われる。Eb (0)−En (0)>THRESH(RegSNR (0))
またはEb (1)−En (1)>THRESH(RegSNR (1))のいずれか
である場合、スピーチのそのフレームはアクティブであると宣言される。その他
の場合は、スピーチのフレームは非アクティブであると宣言される。THRES
Hの値は表2に規定されている。
ましい: Es (i)=Es (i)−0.014499,i=0,1 表 2:SNR領域の関数としてのしきい値係数
しい:
ングオーバ”フレームが付加されることが好ましい。前の3つのフレームがアク
ティブとして分類され、現在のフレームは非アクティブと分類される場合、現在
のフレームを含む次のM個のフレームはアクティブスピーチとして分類される。
ハングオーバフレームの数Mは、表3に規定されているようにSNR(0)の関
数として定められることが好ましい。 表 3:SNR(0)の関数としてのハングオーバフレーム
あると分類された現在のフレームがスピーチ信号s(n)により示された特性に
したがってさらに分類される。好ましい実施形態では、アクティブスピーチは発
声されたスピーチ、無声スピーチ、あるいは過渡スピーチのいずれかとして分類
される。アクティブスピーチ信号によって示される周期性の程度は、それがどの
ように分類されるかを決定する。発声されたスピーチは最高度の周期性を示す(
本質的に擬似周期的)。無声スピーチは周期性をほとんど、あるいは全く示さな
い。過渡スピーチは発声されたスピーチと無声スピーチの間の周期性の程度を示
す。
明されている好ましい分類方式および特定のエンコーダ/デコーダモードに限定
されない。アクティブスピーチは別の方法で分類されることが可能であり、また
別のエンコーダ/デコーダモードがコーディングに対して利用可能である。当業
者は、分類とエンコーダ/デコーダモードとの多数の組合せが可能なことを認識
するであろう。多くのこのような組合せの結果、ここに記載されている一般的な
フレームワークにしたがって、すなわち、スピーチを非アクティブまたはアクテ
ィブと分類し、アクティブスピーチをさらに分類して、各分類の範囲内のスピー
チにとくに適合させられたエンコーダ/デコーダモードを使用してスピーチ信号
をコード化することにより、減少された平均ビットレートを達成することができ
る。
性のある直接的な測定に基づいて行われないほうが好ましい。むしろ、分類決定
は、たとえば、高いおよび低い帯域中の信号対雑音比およびNACF等のステッ
プ302 において計算された種々のパラメータに基づいて行われる。好ましい分類
は以下の擬似コードによって記述されてもよい:
る。
したがって改良されることができる。当業者は、上記に与えられた種々のしきい
値が単なる例示に過ぎず、実際にはその実施形態に応じて調整を要する可能性が
高いことを認識するであろう。この方法はまた、TRANSIENTを2つのカ
テゴリー:高エネルギから低エネルギに移行する信号に対するカテゴリーと低エ
ネルギから高エネルギに移行する信号に対するカテゴリーとに分割する等によっ
て付加的な分類カテゴリーを追加することによってさらに精巧にされることがで
きる。
ピーチと、および過渡アクティブスピーチとを分類するために利用できることを
認識するであろう。同様に、当業者はアクティブスピーチに対する他の分類方式
もまた可能であることを認識するであろう。
8 の現在のフレームの分類に基づいて選択される。好ましい実施形態によると、
モードは次のように選択される:非アクティブフレームおよびアクティブな無声
フレームはNELPモードを使用してコード化され、アクティブな発声されたフ
レームはPPPモードを使用してコード化され、アクティブな過渡フレームはC
ELPモードを使用してコード化される。以下のセクションでこれらの各エンコ
ーダ/デコーダモードをさらに詳細に説明する。
してコード化される。当業者は、非常に低いビットレートを要求する別のゼロレ
ートモードが利用できることを認識するであろう。ゼロレートモードの選択は、
過去のモード選択を考慮することによりさらに改良されることができる。たとえ
ば、前のフレームがアクティブと分類された場合、これは現在のフレームに対す
るゼロレートモードの選択を阻害する可能性がある。同様に、次のフレームがア
クティブならば、現在のフレームに対してゼロレートモードが阻止される。さら
に別の実施形態は、非常に多く連続するフレーム(たとえば、9個の連続してい
るフレーム)に対するゼロレートモードの選択を阻止するものである。当業者は
、ある環境におけるその動作を改良するために基本モードの選択決定に対するそ
の他多くの修正がなされてもよいことを認識するであろう。
この同じフレームワーク内において代りに使用されてもよい。以下のセクション
において、本発明によるいくつかのエンコーダ/デコーダモードを詳細に説明す
る。最初にCELPモードを説明し、続いてPPPモードとNELPモードを説
明する。
合、CELPエンコーダ/デコーダモードが使用される。CELPモードは最も
正確な信号再生(ここに示されている別のモードと比較して)を提供するが、そ
れは最高のビットレートでなされる。
をさらに詳細に示している。図7Aに示されているように、CELPエンコーダ
モード204 はピッチ符号化モジュール702 、符号化コードブック704 およびフィ
ルタ更新モジュール706 を含んでいる。CELPエンコーダモード204 は符号化
されたスピーチ信号senc (n)を出力し、これはCELPデコーダモード206
に伝送するためのコードブックパラメータおよびピットフィルタパラメータを含
んでいることが好ましい。図7Bに示されているように、CELPデコーダモー
ド206 は復号コードブックモジュール708 、ピッチフィルタ710 およびLPC合
成フィルタ712 を含んでいる。CELPデコーダモード206 は符号化されたスピ
ーチ信号を受取り、合成されたスピーチ信号^s(n)を出力する。
(n)および量子化された残留を受取る(以下説明する)。この入力に基づいて
、ピッチ符号化モジュール702 はターゲット信号x(n)と1組のピッチフィル
タパラメータを生成する。好ましい実施形態において、これらのピッチフィルタ
パラメータは最適ピッチ遅延L* と最適ピッチ利得b* を含んでいる。これらの
パラメータは、符号化プロセスがこれらのパラメータを使用して入力スピーチと
合成されたスピーチとの間の加重されたエラーを最小にするピッチフィルタパラ
メータを選択する“合成による解析”方法にしたがって選択される。
号化モジュール702 は、知覚的加重フィルタ802 と、加算器804 および816 と、
加重されたLPC合成フィルタ806 および808 と、遅延および利得810 と、なら
びに最小平方和812 とを含んでいる。
を知覚的に意味のある方法で加重するために使用される。知覚的加重フィルタは
、 W(z)=A(z)/A(z/γ) という形態のものである。ここでA(z)はLPC予測エラーフィルタであり、
γは0.8に等しいことが好ましい。加重されたLPC解析フィルタ806 は、初
期パラメータ計算モジュール202 により計算されたLPC係数を受取る。フィル
タ806 はazir (n)を出力し、これはLPC係数を与えられたゼロ入力応答特
性である。加算器804 は負の入力と濾波された入力信号を合計してターゲット信
号x(n)を形成する。
価されたピッチフィルタ出力bpL (n)を出力する。遅延および利得810 は前
のフレームpc (n)からの量子化された残留サンプルと、po (n)で与えら
れるピッチフィルタの将来の出力の推定値とを受取り、
bによりスケールされてbpL (n)を形成する。Lpはサブフレーム長(好ま
しくは40個のサンプル)である。好ましい実施形態において、ピッチ遅延Lは
8ビットで表され、値20.0,20.5,21.0,21.5,…126.0
,126.5,127.0,127.5をとることができる。
(n)を濾波し、その結果byL (n)が得られる。加算器816 は負の入力by L (n)をx(n)と合計し、その出力は最小平方和812 によって受取られる。
この最小平方和812 は、
いる最適なLと、b* で示されている最適なbとを選択する。
するLの値を決定し、次にb* を計算することにより見出されることができる。
その後効率的な伝送のために量子化されることが好ましい。好ましい実施形態で
はj番目のサブフレームに対する伝送コードPLAGj およびPGAINj は以
下のように計算される:
調節される。これらの伝送コードは、符号化されたスピーチ信号senc (n)の
一部分であるピッチフィルタパラメータとしてCELPデコーダモード206 に伝
送される。
パラメータと共に量子化された残留信号を再構成するためにCELPデコーダモ
ード206 により使用される1組のコードブック励起パラメータを決定する。
ームの処理の結果得られたメモリ)を有するピッチフィルタのゼロ入力応答特性
である入力への、加重されたLPC合成フィルタ(前のサブフレームの終わりか
ら保存されたメモリを有する)の出力である。
d=HT ↑xとして生成され、ここで
形成されたインパルス応答マトリクスである。その上、さらに2つのベクトル^
φ={φn }および↑sが生成される。
期化して好ましくはN(0,1,2,3)の4つの値に関して最適励起パラメー
タをサーチする。
て計算し、その後その励起パラメータセットをj番目のサブフレームに対して以
下の伝送コードにしたがって量子化する:
の各サブフレームに対するインデックスIおよび利得Gを決定することにより、
CELPエンコーダ/デコーダモードの低ビットレート形態が実現されることが
できる。当業者は、上述した考えがこの低ビットレート形態を達成するためにど
のように拡張されるかを認識するであろう。
ィルタパラメータを含んでいることが好ましい符号化されたスピーチ信号をCE
LPエンコーダモード204 から受取り、このデータに基づいて合成されたスピー
チ^s(n)を出力する。復号コードブックモジュール708 はコードブック励起
パラメータを受取り、Gの利得を有する励起信号cb(n)を発生する。j番目
のサブフレームに対する励起信号cb(n)は一般に、全ての値が
: Sk =1−2SIGNjk,0≦k<5 のインパルスを対応的に有する5つの位置: Ik =5CBIjk+k,0≦k<5 を除いてゼロを含んでいる。
タを以下の式にしたがって復号する:
は以下の式によって与えられる伝達関数を有する:
濾波動作であるピッチプレフィルタ(示されていない)をピッチフィルタ710 の
後に追加する。ピッチプレフィルタに対する遅延は、ピッチフィルタ710 の遅延
と同じであり、一方その利得は0.5の最大値までピッチ利得の半分であること
が好ましい。
受取り、合成されたスピーチ信号^s(n)を出力する。
ルタメモリを更新するためにスピーチを合成する。フィルタ更新モジュール706
はコードブック励起パラメータおよびピッチフィルタパラメータを受取り、励起
信号cb(n)およびピッチフィルタGcb(n)を生成し、その後^s(n)
を合成する。この合成をエンコーダにおいて行うことにより、ピッチフィルタお
よびLPC合成フィルタ中のメモリは、後続するサブフレームの処理時に使用さ
れるように更新される。
得られることのできる低ビットレートを達成するためにスピーチ信号の周期性を
使用する。一般に、PPPコーディングは、ここでは原型残留と呼ばれる残留信
号の代表的な周期を抽出し、その後その原型を使用して、現在のフレームの原型
残留と前のフレームからの類似のピッチ周期(すなわち、最後のフレームがPP
Pであった場合は原型残留)との間で補間を行うことにより初期のピッチ周期を
フレーム中に構成することを含んでいる。PPPコーディングの効果(低くされ
たビットレートに関する)は部分的に、現在および前の原型残留がどの程度その
介在ピッチ周期に似ているかに依存する。この理由のために、PPPコーディン
グは、ここでは擬似周期スピーチ信号と呼ばれる比較的高度の周期性を示すスピ
ーチ信号(たとえば、発声されたスピーチ)に適用されることが好ましい。
さらに詳細に示されている。PPPエンコーダモード204 は抽出モジュール904
と、回転コリレータ906 と、符号化コードブック908 と、およびフィルタ更新モ
ジュール910 とを含んでいる。PPPエンコーダモード204 は残留信号r(n)
を受取り、符号化されたスピーチ信号senc (n)を出力し、これはコードブッ
クパラメータおよび回転パラメータを含んでいることが好ましい。PPPデコー
ダモード206 はコードブックデコーダ912 と、回転子914 と、加算器916 と、周
期インターポレータ920 と、およびワープフィルタ918 とを含んでいる。
ローチャート1000である。これらのステップをPPPエンコーダモード204 およ
びPPPデコーダモード206 の種々のコンポーネントと共に説明する。
rp (n)を抽出する。上記のセクションIII .Fで述べたように、初期パラメ
ータ計算モジュール202 は、各フレームに対するr(n)を計算するためにLP
C解析フィルタを使用する。好ましい実施形態においては、このフィルタ中のL
PC係数はセクションVII .Aにおいて説明されているように知覚的に加重され
る。rp (n)の長さは、現在のフレームの中の最後のサブフレーム中に初期パ
ラメータ計算モジュール202 によって計算されたピッチ遅延Lに等しい。
抽出モジュール904 は、以下に説明する制限の下でフレームの終わりに可能な限
り近接したピッチ周期を選択することが好ましい。図12は、擬似周期スピーチ
に基づいて計算された、現在のフレームと前のフレームからの最後のサブフレー
ムとを含む残留信号の一例を示している。
領域は、原型残留の終点になることのできない残留の中の1組のサンプルを規定
する。このカットフリー領域は、残留の高エネルギ領域が原型の始めと終わりに
生じないことを確実にする(この生成が許されたならば、出力において不連続性
が生じる可能性が高い)。r(n)の最後のL個のサンプルのそれぞれの絶対値
が計算される。変数PS は、ここでは“ピッチスパイク”と呼ばれる最も大きい
絶対値を有するサンプルの時間インデックスに等しく設定される。たとえば、ピ
ッチスパイクが最後のL個のサンプルの最後のサンプルで発生したならば、PS =L−1である。好ましい実施形態において、カットフリー領域の最小サンプル
GFmin は、PS −6またはPS −0.25Lの小さいほうであるように設定さ
れる。カットフリー領域の最大のものCFmax は、PS +6またはPS +0.2
5Lの大きいほうであるように設定される。
により選択される。選択された領域は、その領域の終点がカットフリー領域内に
あってはならないという制限の下でフレームの終わりに可能な限り近接している
。原型残留のL個のサンプルは、以下の擬似コードで記述されたアルゴリズムを
使用して決定される:
の原型残留rp (n)と、前のフレームからの原型残留rprev(n)とに基づい
て1組の回転パラメータを計算する。これらのパラメータは、rprev(n)がr p (n)の予測子として使用されるためにどのように回転され、スケールされる
のが一番よいかを記述している。好ましい実施形態において、回転パラメータの
セットは、最適回転R* と最適利得b* とを含んでいる。図13は、ステップ10
04をさらに詳細に示すフローチャートである。
ピッチ残留周期rp (n)を循環的に濾波することにより計算される。これは次
のように行われる。一時的信号tmp1(n)は、
合成フィルタによって濾波され、出力tmp2(n)を供給する。好ましい実施
形態では、使用されるLPC係数は、現在のフレームの中の最後のサブフレーム
に対応した知覚的に加重された係数である。したがってターゲット信号x(n)
は、 x(n)=tmp2(n)+tmp2(n+L),0≦n<L によって与えられる。
フレームの量子化されたホルマント残留(これもまたピッチフィルタのメモリ内
に存在する)から抽出される。前の原型残留は前のフレームのホルマント残留の
最後のLp 値として規定されることが好ましく、ここでLp は、前のフレームが
PPPフレームでなかった場合はLに等しく、その他の場合には前のピッチ遅延
に設定される。
さがx(n)と同じ長さのものとなるように変更される。サンプリングされた信
号の長さを変更するこの技術をここではワープと呼んでいる。ワープされたピッ
チ励起信号rwprev(n)は、 rwprev(n)=rprev(n* TWF),0≦n<L として表されることができ、ここでTWFは時間ワープ係数Lp /Lである。非
整数点におけるサンプル値n* TWFは、1組のsinc関数テーブルを使用し
て計算されることが好ましい。選択されたsincシーケンスは、sinc(−
3−F:4−F)であり、ここでFは1/8の最も近い倍数に丸められたn* T
WFの端数部分である。このシーケンスの始めは、rprev((N−3)%Lp )
と整列され、ここでNは最も近い1/8に丸められた後のn* TWFの整数部分
である。
的に濾波され、その結果y(n)が生成される。この動作はステップ1302に関し
て上述したものと同じであるが、rwprev(n)に適用される。
ーチ範囲は{Erot −8,Erot −7.5,…Erot +7.5}であるように規
定され、またL≧80ならば{Erot −16,Erot −15,…Erot +15}
であるように規定される。
が計算される。ピッチ回転は結果的にx(n)とy(n)との間における最良の
予測を生むものであるが、このピッチ回転は対応した利得bと共に選択される。
これらのパラメータは、エラー信号e(n)=x(n)−y(n)を最小にする
ように選択されることが好ましい。最適回転R* および最適利得b* は、結果的
にExy2 R /Eyyの最大値を生じさせる回転Rおよび利得bの値であり、こ
こで、
xyR 値を補間することによって近似される。簡単な4タップ補間フィルタが使
用される。たとえば、
れる。最適利得b* は、
GAINは伝送コードであり、量子化された利得^b* は
)に設定され、L≧80の場合にはR* −Erot +16に設定される伝送コード
PROTとして量子化される。
受取られたターゲット信号x(n)に基づいて1組のコードブックパラメータを
発生する。符号化コードブック908 は、スケールされて加算され濾波されたとき
に合計するとx(n)に近似した信号となる1以上のコードベクトルを見出そう
とする。好ましい実施形態では、符号化コードブック908 は、各ステージがスケ
ールされたコードベクトルを生成する好ましくは3つのステージの、マルチステ
ージコードブックとして構成される。したがって、コードブックパラメータのセ
ットは、3つのコードベクトルに対応したインデックスおよび利得を含んでいる
。図14はステップ1006をさらに詳細に示すフローチャートである。
号x(n)は、 x(n)=x(n)−by((n−R* )%L),0≦n<L のように更新される。
する)場合、
実施形態によると、コードブックは
である。当業者は、これらのコードブック値がどのように生成されるかを認識す
るであろう。コードブックは長さLをそれぞれ有する多数の領域に分割される。
第1の領域は単一パルスであり、残りの領域は確率または訓練されたコードブッ
クからの値から形成されている。領域の数Nは、
され、濾波されたコードブックyreg (n)を生成し、その連結が信号y(n)
である。各領域に対して、循環的濾波が上述したようにステップ1302に関して行
われる。
は各領域に対して計算され、記憶される:
ードブックパラメータ(すなわち、コードベクトルインデックスおよび利得)が
計算される。好ましい実施形態によると、Region(I)=regをサンプ
ルIが存在する領域と定義し、すなわち、
は以下の擬似コードを使用して計算される:
量子化される。伝送コードCBIj(j=ステージ番号−0,1または2)はI * に設定されることが好ましく、伝送コードCBGjおよびSIGNjは利得G * を量子化することより設定される。
影響を減算することにより更新される。
計算するために擬似コードから始まる上記の工程が繰り返される。
0 はPPPエンコーダモード204 により使用されたフィルタを更新する。図15
Aおよび16Aに示されているように、フィルタ更新モジュール910 として2つ
の別の実施形態が与えられている。図15Aの第1の別の実施形態で示されてい
るように、フィルタ更新モジュール910 は復号コードブック1502と、回転子1504
と、ワープフィルタ1506と、加算器1510と、整列および補間モジュール1508と、
更新ピッチフィルタモジュール1512と、およびLPC合成フィルタ1514とを含ん
でいる。図16Aに示されている第2の実施形態は、復号コードブック1602と、
回転子1604と、ワープフィルタ1606と、加算器1608と、更新ピッチフィルタモジ
ュール1610と、循環LPC合成フィルタ1612と、および更新LPCフィルタモジ
ュール1614とを含んでいる。図17および18は、この2つの実施形態によるス
テップ1008をさらに詳細に示すフローチャートである。
長さがL個のサンプルである現在の再構成された原型残留rcurr(n)が、コー
ドブックパラメータと回転パラメータとから再構成される。好ましい実施形態に
おいて、回転子1504(および1604)は、 rcurr((n+R* )%L)=brwprev(n),0≦n<L にしたがって前の原型残留のワープされた形態を回転させる。ここでrcurrは生
成されるべき現在の原型であり、rwprevはピッチフィルタメモリの最も新しい
L個のサンプルから得られた前の周期のワープされた(上記のセクションVIII.
Aで述べたように、TWF=Lp /Lにより)形態であり、bおよびRはそれぞ
れパケット伝送コード:
VIII.Bで述べたように計算された期待された回転である。
ステージに対する影響をrcurr(n)に加算する:
よびSIGNjから得られ、jはステージ番号である。
っている。最初に図15Aの実施形態を参照すると、ステップ1704において整列
および補間モジュール1508が現在のフレームの始めから現在の原型残留の始め(
図12に示されている)までの残留サンプルの残りのものを充填する。ここで、
残留信号に関して整列および補間が行われる。しかしながら、以下説明するよう
に、これら同じ動作はスピーチ信号に関して行われることもできる。図19はス
テップ1704をさらに詳細に示すフローチャートである。
いは1/2であるかが決定される。好ましい実施形態では、その他の倍数はあま
りありそうもないと考えられ、したがって考慮されない。Lp >1.85Lなら
ば、Lp は半分にされ、前の周期rprev(n)の第1の半分だけが使用される。
Lp <0.54Lならば、現在の遅延Lはおそらく2倍であり、結果的にLp も
また2倍にされ、前の周期rprev(n)は繰返しにより拡張される。
がワープされて、ステップ1306に関して上述したようにTWF=Lp /Lにより
rwprev(n)を形成する。この動作は、フィルタ1506をワープすることによっ
て、上述したようにステップ1702において行われたことに注意しなければならな
い。当業者は、ワープフィルタ1506の出力が整列および補間モジュール1508に利
用できる場合には、ステップ1904が不要になることを認識するであろう。
た整列回転EA が計算され、それは上記のセクションVIII.Bで述べたErot と
同じである。整列回転サーチ範囲は{EA −δA,EA −δA+0.5,EA −
δA+1,…,EA +δA−1.5,EA +δA−1}であるように規定され、
ここでδA=max{6,0.15L}である。
周期との間の相互相関は、
を補間することによって近似される:
な回転の範囲に対する)は最適整列A* として選択される。
周期が以下のようにして計算される。周期数推定値Nper は、
の補間にしたがって現在のフレーム中の残りの残留サンプルが計算される:
nc関数テーブルを使用して計算される。選択されたsincシーケンスはsi
nc(−3−F:4−F)であり、ここでFは、1/8の最も近い倍数に丸めら
れた
され、ここでNは、最も近い1/8に丸められた後の
を認識すべきである。したがって、別の実施形態では、ステップ1914の補間はワ
ープフィルタを使用して計算される。当業者は、ここに示されている種々の目的
に対して単一のワープフィルタを再使用することが経済的に構成できることを認
識するであろう。
ル1512が再構成された残留^r(n)からの値をピッチフィルタメモリにコピー
する。同様に、ピッチフィルタのメモリもまた更新される。
n)を濾波し、この再構成された残留^r(n)はLPC合成フィルタのメモリ
の更新に影響を与える。
態について説明する。ステップ1702に関して上述したように、ステップ1802にお
いて原型残留がコードブックおよび回転パラメータから再構成され、その結果r curr (n)が得られる。
ピッチフィルタメモリを更新する。ここで、131は127.5の最大遅延に対
するピッチフィルタの次数であることが好ましい。好ましい実施形態において、
ピッチフィルタのメモリは現在の周期rcurr(n)の複製によって等しく置換さ
れる:
C係数を使用してセクションVIII.Bで述べたように循環的に濾波され、結果的
にsc (n)を生成する。
LPCフィルタに対して)であることが好ましく、LPC合成フィルタのメモリ
を更新するために使用される。
6 は、受取られたコードブックおよび回転パラメータに基づいて原型残留rcurr (n)を再構成する。復号コードブック912 、回転子914 およびワープフィルタ
918 は、前のセクションで述べたように動作する。周期インターポレータ920 は
再構成された原型残留rcurr(n)と、前の再構成された原型残留rprev(n)
を受取り、2つの原型の間のサンプルを補間し、合成されたスピーチ信号^s(
n)を出力する。次のセクションにおいて周期インターポレータ920 を説明する
。
成されたスピーチ信号^s(n)を出力する。周期インターポレータ920 に対す
る2つの別の実施形態は、ここでは図15Bおよび16Bに示されている。図1
5Bの第1の別の実施形態において、周期インターポレータ920 は、整列および
補間モジュール1516と、LPC合成フィルタ1518と、および更新ピッチフィルタ
モジュール1520とを含んでいる。図16Bに示されている第2の別の実施形態の
ものは、循環LPC合成フィルタ1616と、整列および補間モジュール1618と、更
新ピッチフィルタモジュール1622と、および更新LPCフィルタモジュール1620
とを含んでいる。図20および21はこれら2つの実施形態によるステップ1012
をさらに詳細に示すフローチャートである。
6は現在の残留原型rcurr(n)と前の残留原型rprev(n)との間のサンプル
に対して残留信号を再構成して^r(n)を形成する。整列および補間モジュー
ル1516は、ステップ1704に関して上述したように(図19に示されているように
)動作する。
6に関して上述したように、再構成された残留信号^r(n)に基づいてピッチ
フィルタメモリを更新する。
^r(n)に基づいて出力スピーチ信号^s(n)を合成する。LPCフィルタ
メモリは、この動作が行われたときに自動的に更新される。
タモジュール1622は、ステップ1804に関して上述したように、再構成された現在
の残留原型rcurr(n)に基づいてピッチフィルタメモリを更新する。
III.Bで述べたように、rcurr(n)を受取って現在のスピーチ原型sc (n
)(その長さがL個のサンプルである)を合成する。
8に関して上述したようにLPCフィルタメモリを更新する。
現在の原型周期との間のスピーチサンプルを再構成する。前の原型残留rprev(
n)は、補間がスピーチドメインにおいて進行するように循環的に濾波される(
LPC合成装置において)。整列および補間モジュール1618はステップ1704に関
して上述したように動作する(図19参照)が、この動作は、残留原型ではなく
スピーチ原型に関して行われる。整列および補間の結果、合成されたスピーチ信
号^s(n)が得られる。
音シーケンスとしてモデル化し、それによってCELPまたはPPPコーディン
グのいずれを使用して得られるより低いビットレートを達成する。NELPコー
ディングは、スピーチ信号が無声スピーチまたは背景雑音のようなピッチ構造を
ほとんど、あるいは全く有しない場合、信号再生に関して最も効率的に動作する
。
をさらに詳細に示している。NELPエンコーダモード204 は、エネルギ評価
装置2202および符号化コードブック2204を含んでいる。NELPデコーダモード
206 は復号コードブック2206と、ランダム数発生器と、乗算器2212と、およびL
PC合成フィルタ2208とを含んでいる。
フローチャート2300である。これらのステップを、NELPエンコーダモード20
4 およびNELPデコーダモード206 の種々のコンポーネントと共に説明する。
フレームのそれぞれに対する残留信号のエネルギを計算する:
ータを計算し、符号化されたスピーチ信号senc (n)を形成する。好ましい実
施形態において、この1組のコードブックパラメータは単一のパラメータである
インデックスI0を含んでいる。インデックスI0は、
ブフレームエネルギEsfi を量子化するために使用され、フレーム内のサブフ
レームの数に等しい数の構成要素(すなわち、好ましい実施形態では4つ)を含
んでいる。これらのコードブックベクトルは、確率または訓練されたコードブッ
クを生成するための、当業者に知られている標準的な技術にしたがって生成され
ることが好ましい。
ラメータを復号する。好ましい実施形態では、サブフレームGi のセットは、
最後のサブフレームに対応したコードブック励起利得である。
nz(n)を発生する。このランダムベクトルはステップ2310で各サブフレーム
内の適切な利得Gi によってスケールされ、励起信号Gi nz(n)を生成する
。
を濾波して出力スピーチ信号^s(n)を形成する。
から得られた利得Gi およびLPCパラメータが現在のフレーム中の各サブフレ
ームに対して使用される場合、ゼロレートモードもまた使用される。当業者は、
多数のNELPフレームが連続的に発生した場合に、このゼロレートモードが実
効的に使用されることができることを認識するであろう。
として与えられたに過ぎず、何等本発明に制限を課すものではないことを理解す
べきである。したがって、本発明の技術的範囲は上記に示されている例示的な実
施形態のいずれの制限も受けず、添付された請求の範囲およびその等価なものに
よってのみ規定される。
ようにするために与えられている。本発明はとくにその好ましい実施形態を参照
して図示および説明されているが、当業者は、本発明の技術的範囲を逸脱するこ
となく形態および詳細の種々の変更を行うことが可能であることを理解するであ
ろう。
ャート。
ート。
抽出された原型残留周期とを示す概略図。
ーチャート。
ーチャート。
Claims (24)
- 【請求項1】 線形予測コーディング(LPC)解析フィルタによりスピー
チ信号を濾波することにより発生された残留信号によってスピーチ信号が表され
、残留信号がデータのフレームに分割される擬似周期スピーチ信号のコーディン
グ方法において、 (a)残留信号の現在のフレームから現在の原型を抽出し、 (b)修正された前の原型が現在の原型に近似するように前記前の原型をどの
ように修正すべきかを記述する第1の組のパラメータを計算し、 (c)1以上のコードベクトルを第1のコードブックから選択し、前記コード
ベクトルは加算されたときに前記現在の原型と前記修正された前の原型との間の
差に近似し、前記コードベクトルは第2の組のパラメータによって記述され、 (d)前記第1および第2の組のパラメータに基づいて現在の原型を再構成し
、 (e)前記現在の再構成された原型と前の再構成された原型との間の領域にわ
たって残留信号を補間し、 (f)前記補間された残留信号に基づいて出力スピーチ信号を合成するステッ
プを含んでいる方法。 - 【請求項2】 前記現在のフレームはピッチ遅延を有し、前記現在の原型の
長さは前記ピッチ遅延に等しい請求項1記載の方法。 - 【請求項3】 現在の原型を抽出する前記ステップは“カットフリー領域”
を条件とする請求項1記載の方法。 - 【請求項4】 前記現在の原型は、前記カットフリー領域を条件として前記
現在のフレームの終わりから抽出される請求項3記載の方法。 - 【請求項5】 第1の組のパラメータを計算する前記ステップは、 (i)前記現在の原型を循環的に濾波し、ターゲット信号を形成し、 (ii)前記前の原型を抽出し、 (iii)前記前の原型の長さが前記現在の原型の長さに等しくなるように前記前
の原型をワープし、 (iV)前記ワープされた前の原型を循環的に濾波し、 (v)最適回転および第1の最適利得を計算するステップを含み、前記濾波さ
れたワープされた前の原型は前記最適回転だけ回転されて前記第1の最適利得に
よりスケールされ、前記ターゲット信号にもっともよく近似している請求項1記
載の方法。 - 【請求項6】 最適回転および第1の最適利得を計算する前記ステップは、
ピッチ回転サーチ範囲を条件として行われる請求項5記載の方法。 - 【請求項7】 最適回転および第1の最適利得を計算する前記ステップは、
前記濾波されたワープされた前の原型と前記ターゲット信号との間の平均2乗差
を最小にする請求項5記載の方法。 - 【請求項8】 前記第1のコードブックは1以上のステージを含んでおり、
1以上のコードベクトルを選択する前記ステップは、 (i)前記最適回転だけ回転されて前記第1の最適利得によってスケールされ
た前記濾波されたワープされた前の原型を減算することにより前記ターゲット信
号を更新し、 (ii)前記第1のコードブックを複数の領域に分割し、前記各領域がコードベ
クトルを形成し、 (iii)前記各コードベクトルを循環的に濾波し、 (iv)前記更新されたターゲット信号に最もぴったり近似している前記濾波さ
れたコードベクトルの1つを選択し、前記特定のコードベクトルが最適インデッ
クスによって記述され、 (v)前記更新されたターゲット信号と前記選択された濾波されたコードベク
トルとの間の相関に基づいて第2の最適利得を計算し、 (vi)前記第2の最適利得によってスケールされた前記選択された濾波されたコ
ードベクトルを減算することによって前記ターゲット信号を更新し、 (vii) 前記第1のコードブック中の前記ステージのそれぞれに対して前記ステ
ップ(iv)−(vi)を繰り返し、前記第2の組のパラメータが前記ステージのそれ
ぞれに対する前記最適インデックスおよび前記第2の最適利得を含んでいるステ
ップを含んでいる請求項5記載の方法。 - 【請求項9】 現在の原型を再構成する前記ステップは、 (i)前の再構成された原型の長さが前記現在の再構成された原型の長さに等
しくなるように前記前の再構成された原型をワープし、 (ii)前記ワープされた前の再構成された原型を前記最適回転だけ回転して前
記第1の最適利得により調整し、それによって前記現在の再構成された原型を形
成し、 (iii)第2のコードベクトルを第2のコードブックから検索し、前記第2のコ
ードベクトルが前記最適インデックスによって識別され、前記第2のコードブッ
クが前記第1のコードブックに等しい数のステージを含んでおり、 (iv)前記第2の最適利得によって前記第2のコードベクトルを調整し、 (v)前記調整された第2のコードベクトルを前記現在の再構成された原型に
加算し、 (vi)前記第2のコードブックの中の前記ステージのそれぞれに対して前記ス
テップ(iii) −(v)を繰り返すステップを含んでいる請求項8記載の方法。 - 【請求項10】 残留信号を補間する前記ステップは、 (i)前記ワープされた前の再構成された原型と前記現在の再構成された原型
との間の最適整列を計算し、 (ii)前記ワープされた前の再構成された原型と前記現在の再構成された原型
との間の平均遅延を前記最適整列に基づいて計算し、 (iii)前記ワープされた前の再構成された原型と前記現在の再構成された原型
とを補間し、それによって前記ワープされた前の再構成された原型と前記現在の
再構成された原型との間の領域にわたって残留信号を形成し、前記補間された残
留信号が前記平均遅延を有しているステップを含んでいる請求項9記載の方法。 - 【請求項11】 出力スピーチ信号を合成する前記ステップは、前記補間さ
れた残留信号をLPC合成フィルタで濾波するステップを含んでいる請求項10
記載の方法。 - 【請求項12】 線形予測コーディング(LPC)解析フィルタによりスピ
ーチ信号を濾波することにより発生された残留信号によってスピーチ信号が表さ
れ、残留信号がデータのフレームに分割される擬似周期スピーチ信号のコーディ
ング方法において、 (a)残留信号の現在のフレームから現在の原型を抽出し、 (b)修正された前の原型が現在の原型に近似するように前記前の原型をどの
ように修正すべきかを記述する第1の組のパラメータを計算し、 (c)1以上のコードベクトルを第1のコードブックから選択し、前記コード
ベクトルは加算されたときに前記現在の原型と前記修正された前の原型との間の
差に近似し、前記コードベクトルは第2の組のパラメータによって記述され、 (d)前記第1および第2の組のパラメータに基づいて現在の原型を再構成し
、 (e)前記現在の再構成された原型をLPC合成フィルタで濾波し、 (f)前の再構成された原型を前記LPC合成フィルタで濾波し、 (g)前記濾波された現在の再構成された原型と前記濾波された前の再構成さ
れた原型との間の領域にわたって補間し、それによって出力スピーチ信号を形成
するステップを含んでいる方法。 - 【請求項13】 線形予測コーディング(LPC)解析フィルタによりスピ
ーチ信号を濾波することにより発生された残留信号によってスピーチ信号が表さ
れ、残留信号がデータのフレームに分割される擬似周期スピーチ信号をコーディ
ングするためのシステムにおいて、 残留信号の現在のフレームから現在の原型を抽出する手段と、 修正された前の原型が現在の原型に近似するように前記前の原型をどのように
修正するかを記述する第1の組のパラメータを計算する手段と、 コードベクトルが加算されたときに前記現在の原型と前記修正された前の原型
との間の差に近似し、前記コードベクトルは第2の組のパラメータによって記述
される1以上の前記コードベクトルを第1のコードブックから選択する手段と、 前記第1および第2の組のパラメータに基づいて現在の原型を再構成する手段
と、 前記現在の再構成された原型と前の再構成された原型との間の領域にわたって
残留信号を補間する手段と、 前記補間された残留信号に基づいて出力スピーチ信号を合成する手段とを備え
ているシステム。 - 【請求項14】 前記現在のフレームはピッチ遅延を有し、前記現在の原型
の長さは前記ピッチ遅延に等しい請求項13記載のシステム。 - 【請求項15】 前記抽出する手段は、“カットフリー領域”について前記
現在の原型を抽出する請求項13記載のシステム。 - 【請求項16】 前記抽出する手段は、前記カットフリー領域について前記
現在のフレームの終わりから前記現在の原型を抽出する請求項15記載のシステ
ム。 - 【請求項17】 第1の組のパラメータを計算する前記手段は、 前記現在の原型を受取ってターゲット信号を出力するように結合された第1の
循環LPC合成フィルタと、 前記前の原型を前のフレームから抽出する手段と、 前記前の原型を受取るように結合され、前記現在の原型の長さに等しい長さを
有するワープされた前の原型を出力するワープフィルタと、 前記ワープされた前の原型を受取るように結合され、濾波されたワープされた
前の原型を出力する第2の循環LPC合成フィルタと、 最適回転および第1の最適利得を計算する手段を具備し、 前記最適回転だけ回転され前記第1の最適利得により調整された前記濾波され
たワープされた前の原型は前記ターゲット信号にもっともよく近似している請求
項13記載のシステム。 - 【請求項18】 前記計算する手段はピッチ回転サーチ範囲について前記最
適回転および前記第1の最適利得を計算する請求項17記載のシステム。 - 【請求項19】 前記計算する手段は、前記濾波されたワープされた前の原
型と前記ターゲット信号との間の平均2乗差を最小にする請求項17記載のシス
テム。 - 【請求項20】 前記第1のコードブックは1以上のステージを含んでおり
、1以上のコードベクトルを選択する前記手段は、 前記最適回転だけ回転されて前記第1の最適利得によって調整された前記濾波
されたワープされた前の原型を減算することにより前記ターゲット信号を更新す
る手段と、 前記第1のコードブックを各領域がコードベクトルを形成する複数の領域に分
割する手段と、 前記各コードベクトルを受取るように結合され、濾波されたコードベクトルを
出力する第3の循環LPC合成フィルタと、 前記第1のコードブックの中の前記ステージのそれぞれに対する最適インデッ
クスおよび第2の最適利得を計算する手段とを具備しており、この計算する手段
は、 前記濾波されたコードベクトルの1つを選択し、前記選択された濾波された
コードベクトルが前記ターゲット信号に最もぴったり近似して、最適インデック
スにより記述される選択手段と、 前記ターゲット信号と前記選択された濾波されたコードベクトルとの間の相
関に基づいて第2の最適利得を計算する手段と、 前記第2の最適利得によってスケールされた前記選択された濾波されたコー
ドベクトルを減算することによって前記ターゲット信号を更新する手段とを含ん
でおり、 前記第2の組のパラメータは、前記ステージのそれぞれに対する前記最適イン
デックスおよび前記第2の最適利得を含んでいる請求項17記載のシステム。 - 【請求項21】 現在の原型を再構成する前記手段は、 前の再構成された原型を受取るように結合され、前記現在の再構成された原型
の長さに等しい長さを有するワープされた前の再構成された原型を出力する第2
のワープフィルタと、 前記ワープされた前の再構成された原型を前記最適回転だけ回転して前記第1
の最適利得によりスケールし、それによって前記現在の再構成された原型を形成
する手段と、 前記第2の組のパラメータを復号し、第2のコードベクトルが前記第1のコー
ドブックと同数のステージを有する第2のコードブックの中の各ステージに対し
て復号される手段とを具備し、この復号する手段が、 前記第2のコードベクトルを前記最適インデックスによって識別することに
よって前記第2のコードブックから検索する手段と、 前記第2のコードベクトルを前記第2の最適利得により調整する手段と、 前記調整された第2のコードベクトルを前記現在の再構成された原型に付加
する手段を含んでいる請求項20記載のシステム。 - 【請求項22】 残留信号を補間する前記手段は、 前記ワープされた前の再構成された原型と前記現在の再構成された原型との間
の最適整列を計算する手段と、 前記ワープされた前の再構成された原型と前記現在の再構成された原型との間
の平均遅延を前記最適整列に基づいて計算する手段と、 前記ワープされた前の再構成された原型と前記現在の再構成された原型とを補
間し、それによって前記ワープされた前の再構成された原型と前記現在の再構成
された原型との間の領域にわたって残留信号を形成する手段とを含み、前記補間
された残留信号が前記平均遅延を有している請求項21記載のシステム。 - 【請求項23】 出力スピーチ信号を合成する前記手段は、LPC合成フィ
ルタを含んでいる請求項22記載のシステム。 - 【請求項24】 線形予測コーディング(LPC)解析フィルタによりスピ
ーチ信号を濾波することにより発生された残留信号によってスピーチ信号が表さ
れ、残留信号がデータのフレームに分割される擬似周期スピーチ信号のコーディ
ングシステムにおいて、 残留信号の現在のフレームから現在の原型を抽出する手段と、 修正された前の原型が現在の原型に近似するように前記前の原型をどのように
修正すべきかを記述する第1の組のパラメータを計算する手段と、 1以上のコードベクトルを第1のコードブックから選択し、前記コードベクト
ルが加算されたときに前記現在の原型と前記修正された前の原型との間の差に近
似し、前記コードベクトルが第2の組のパラメータによって記述される選択手段
と、 前記第1および第2の組のパラメータに基づいて現在の原型を再構成する手段
と、 前記現在の再構成された原型を受取るように結合され、濾波された現在の再構
成された原型を出力する第1のLPC合成フィルタと、 前の再構成された原型を受取るように結合され、濾波された前の再構成された
原型を出力する第2のLPC合成フィルタと、 前記濾波された現在の再構成された原型と前記濾波された前の再構成された原
型との間の領域にわたって補間し、それによって出力スピーチ信号を形成する手
段とを含んでいるシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/217,494 | 1998-12-21 | ||
US09/217,494 US6456964B2 (en) | 1998-12-21 | 1998-12-21 | Encoding of periodic speech using prototype waveforms |
PCT/US1999/030588 WO2000038177A1 (en) | 1998-12-21 | 1999-12-21 | Periodic speech coding |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003522965A true JP2003522965A (ja) | 2003-07-29 |
JP4824167B2 JP4824167B2 (ja) | 2011-11-30 |
Family
ID=22811325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000590162A Expired - Lifetime JP4824167B2 (ja) | 1998-12-21 | 1999-12-21 | 周期的スピーチコーディング |
Country Status (11)
Country | Link |
---|---|
US (1) | US6456964B2 (ja) |
EP (1) | EP1145228B1 (ja) |
JP (1) | JP4824167B2 (ja) |
KR (1) | KR100615113B1 (ja) |
CN (1) | CN1242380C (ja) |
AT (1) | ATE309601T1 (ja) |
AU (1) | AU2377600A (ja) |
DE (1) | DE69928288T2 (ja) |
ES (1) | ES2257098T3 (ja) |
HK (1) | HK1040806B (ja) |
WO (1) | WO2000038177A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009541802A (ja) * | 2006-06-30 | 2009-11-26 | フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ | 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ |
JP2009545778A (ja) * | 2006-07-31 | 2009-12-24 | クゥアルコム・インコーポレイテッド | 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置 |
JP2012532344A (ja) * | 2009-06-29 | 2012-12-13 | サムスン エレクトロニクス カンパニー リミテッド | 加重線形予測変換を利用したオーディオ信号符号化及び復号化装置並びにその方法 |
US8682652B2 (en) | 2006-06-30 | 2014-03-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6754630B2 (en) * | 1998-11-13 | 2004-06-22 | Qualcomm, Inc. | Synthesis of speech from pitch prototype waveforms by time-synchronous waveform interpolation |
US7092881B1 (en) * | 1999-07-26 | 2006-08-15 | Lucent Technologies Inc. | Parametric speech codec for representing synthetic speech in the presence of background noise |
US6959274B1 (en) | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US6715125B1 (en) * | 1999-10-18 | 2004-03-30 | Agere Systems Inc. | Source coding and transmission with time diversity |
JP2001255882A (ja) * | 2000-03-09 | 2001-09-21 | Sony Corp | 音声信号処理装置及びその信号処理方法 |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
US6584438B1 (en) | 2000-04-24 | 2003-06-24 | Qualcomm Incorporated | Frame erasure compensation method in a variable rate speech coder |
EP2040253B1 (en) * | 2000-04-24 | 2012-04-11 | Qualcomm Incorporated | Predictive dequantization of voiced speech |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US7171357B2 (en) * | 2001-03-21 | 2007-01-30 | Avaya Technology Corp. | Voice-activity detection using energy ratios and periodicity |
US20020184009A1 (en) * | 2001-05-31 | 2002-12-05 | Heikkinen Ari P. | Method and apparatus for improved voicing determination in speech signals containing high levels of jitter |
KR100487645B1 (ko) * | 2001-11-12 | 2005-05-03 | 인벤텍 베스타 컴파니 리미티드 | 유사주기 파형들을 이용한 음성 인코딩 방법 |
US7389275B2 (en) * | 2002-03-05 | 2008-06-17 | Visa U.S.A. Inc. | System for personal authorization control for card transactions |
US20040002856A1 (en) * | 2002-03-08 | 2004-01-01 | Udaya Bhaskar | Multi-rate frequency domain interpolative speech CODEC system |
US20040235423A1 (en) * | 2003-01-14 | 2004-11-25 | Interdigital Technology Corporation | Method and apparatus for network management using perceived signal to noise and interference indicator |
US7738848B2 (en) * | 2003-01-14 | 2010-06-15 | Interdigital Technology Corporation | Received signal to noise indicator |
US7627091B2 (en) * | 2003-06-25 | 2009-12-01 | Avaya Inc. | Universal emergency number ELIN based on network address ranges |
KR100629997B1 (ko) * | 2004-02-26 | 2006-09-27 | 엘지전자 주식회사 | 오디오 신호의 인코딩 방법 |
US7130385B1 (en) | 2004-03-05 | 2006-10-31 | Avaya Technology Corp. | Advanced port-based E911 strategy for IP telephony |
US20050216260A1 (en) * | 2004-03-26 | 2005-09-29 | Intel Corporation | Method and apparatus for evaluating speech quality |
US7246746B2 (en) * | 2004-08-03 | 2007-07-24 | Avaya Technology Corp. | Integrated real-time automated location positioning asset management system |
WO2006026635A2 (en) * | 2004-08-30 | 2006-03-09 | Qualcomm Incorporated | Adaptive de-jitter buffer for voice over ip |
US8085678B2 (en) * | 2004-10-13 | 2011-12-27 | Qualcomm Incorporated | Media (voice) playback (de-jitter) buffer adjustments based on air interface |
KR100639968B1 (ko) * | 2004-11-04 | 2006-11-01 | 한국전자통신연구원 | 음성 인식 장치 및 그 방법 |
US7589616B2 (en) * | 2005-01-20 | 2009-09-15 | Avaya Inc. | Mobile devices including RFID tag readers |
AU2006208529B2 (en) * | 2005-01-31 | 2010-10-28 | Microsoft Technology Licensing, Llc | Method for weighted overlap-add |
US8155965B2 (en) * | 2005-03-11 | 2012-04-10 | Qualcomm Incorporated | Time warping frames inside the vocoder by modifying the residual |
US8355907B2 (en) * | 2005-03-11 | 2013-01-15 | Qualcomm Incorporated | Method and apparatus for phase matching frames in vocoders |
US8107625B2 (en) | 2005-03-31 | 2012-01-31 | Avaya Inc. | IP phone intruder security monitoring system |
US7599833B2 (en) * | 2005-05-30 | 2009-10-06 | Electronics And Telecommunications Research Institute | Apparatus and method for coding residual signals of audio signals into a frequency domain and apparatus and method for decoding the same |
US20090210219A1 (en) * | 2005-05-30 | 2009-08-20 | Jong-Mo Sung | Apparatus and method for coding and decoding residual signal |
US7177804B2 (en) * | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7184937B1 (en) * | 2005-07-14 | 2007-02-27 | The United States Of America As Represented By The Secretary Of The Army | Signal repetition-rate and frequency-drift estimator using proportional-delayed zero-crossing techniques |
US7821386B1 (en) | 2005-10-11 | 2010-10-26 | Avaya Inc. | Departure-based reminder systems |
US8259840B2 (en) * | 2005-10-24 | 2012-09-04 | General Motors Llc | Data communication via a voice channel of a wireless communication network using discontinuities |
KR101019936B1 (ko) * | 2005-12-02 | 2011-03-09 | 퀄컴 인코포레이티드 | 음성 파형의 정렬을 위한 시스템, 방법, 및 장치 |
US8346544B2 (en) * | 2006-01-20 | 2013-01-01 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with closed loop re-decision |
US8090573B2 (en) * | 2006-01-20 | 2012-01-03 | Qualcomm Incorporated | Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision |
US8032369B2 (en) * | 2006-01-20 | 2011-10-04 | Qualcomm Incorporated | Arbitrary average data rates for variable rate coders |
US20100030557A1 (en) * | 2006-07-31 | 2010-02-04 | Stephen Molloy | Voice and text communication system, method and apparatus |
JP4380669B2 (ja) * | 2006-08-07 | 2009-12-09 | カシオ計算機株式会社 | 音声符号化装置、音声復号装置、音声符号化方法、音声復号方法、及び、プログラム |
US8239190B2 (en) * | 2006-08-22 | 2012-08-07 | Qualcomm Incorporated | Time-warping frames of wideband vocoder |
EP2458588A3 (en) * | 2006-10-10 | 2012-07-04 | Qualcomm Incorporated | Method and apparatus for encoding and decoding audio signals |
KR20090076964A (ko) * | 2006-11-10 | 2009-07-13 | 파나소닉 주식회사 | 파라미터 복호 장치, 파라미터 부호화 장치 및 파라미터 복호 방법 |
US20080120098A1 (en) * | 2006-11-21 | 2008-05-22 | Nokia Corporation | Complexity Adjustment for a Signal Encoder |
US8005671B2 (en) * | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
CN100483509C (zh) * | 2006-12-05 | 2009-04-29 | 华为技术有限公司 | 声音信号分类方法和装置 |
US9653088B2 (en) * | 2007-06-13 | 2017-05-16 | Qualcomm Incorporated | Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding |
US20100006527A1 (en) * | 2008-07-10 | 2010-01-14 | Interstate Container Reading Llc | Collapsible merchandising display |
US9232055B2 (en) * | 2008-12-23 | 2016-01-05 | Avaya Inc. | SIP presence based notifications |
GB2466673B (en) | 2009-01-06 | 2012-11-07 | Skype | Quantization |
GB2466674B (en) * | 2009-01-06 | 2013-11-13 | Skype | Speech coding |
GB2466671B (en) * | 2009-01-06 | 2013-03-27 | Skype | Speech encoding |
GB2466672B (en) * | 2009-01-06 | 2013-03-13 | Skype | Speech coding |
GB2466675B (en) | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466669B (en) * | 2009-01-06 | 2013-03-06 | Skype | Speech coding |
GB2466670B (en) * | 2009-01-06 | 2012-11-14 | Skype | Speech encoding |
US8452606B2 (en) * | 2009-09-29 | 2013-05-28 | Skype | Speech encoding using multiple bit rates |
RU2510974C2 (ru) | 2010-01-08 | 2014-04-10 | Ниппон Телеграф Энд Телефон Корпорейшн | Способ кодирования, способ декодирования, устройство кодера, устройство декодера, программа и носитель записи |
FR2961937A1 (fr) * | 2010-06-29 | 2011-12-30 | France Telecom | Codage/decodage predictif lineaire adaptatif |
DK2975611T3 (en) * | 2011-03-10 | 2018-04-03 | Ericsson Telefon Ab L M | FILLING OF UNCODED SUBVECTORS IN TRANSFORM CODED AUDIO SIGNALS |
TWI626645B (zh) | 2012-03-21 | 2018-06-11 | 南韓商三星電子股份有限公司 | 編碼音訊信號的裝置 |
US9842598B2 (en) * | 2013-02-21 | 2017-12-12 | Qualcomm Incorporated | Systems and methods for mitigating potential frame instability |
PL3011554T3 (pl) * | 2013-06-21 | 2019-12-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Szacowanie opóźnienia wysokości tonu |
CN105453173B (zh) | 2013-06-21 | 2019-08-06 | 弗朗霍夫应用科学研究促进协会 | 利用改进的脉冲再同步化的似acelp隐藏中的自适应码本的改进隐藏的装置及方法 |
ES2819032T3 (es) * | 2013-12-19 | 2021-04-14 | Ericsson Telefon Ab L M | Estimación de ruido de fondo en señales de audio |
TWI688609B (zh) | 2014-11-13 | 2020-03-21 | 美商道康寧公司 | 含硫聚有機矽氧烷組成物及相關態樣 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62150399A (ja) * | 1985-12-25 | 1987-07-04 | 日本電気株式会社 | 音声合成用基本周期波形生成法 |
JPH0284699A (ja) * | 1988-09-21 | 1990-03-26 | Mitsubishi Electric Corp | 音声分析合成装置 |
JPH02160300A (ja) * | 1988-12-13 | 1990-06-20 | Nec Corp | 音声符号化方式 |
JPH06266395A (ja) * | 1993-03-10 | 1994-09-22 | Mitsubishi Electric Corp | 音声符号化装置および音声復号化装置 |
JPH07177031A (ja) * | 1993-12-20 | 1995-07-14 | Fujitsu Ltd | 音声符号化制御方式 |
JPH07234697A (ja) * | 1994-02-08 | 1995-09-05 | At & T Corp | 音声信号の符号化方法 |
JPH10143199A (ja) * | 1996-11-15 | 1998-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方法および復号化方法 |
JPH10232697A (ja) * | 1997-02-21 | 1998-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方法および復号化方法 |
JPH11219196A (ja) * | 1998-01-30 | 1999-08-10 | Toshiba Corp | 音声合成方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5884253A (en) | 1992-04-09 | 1999-03-16 | Lucent Technologies, Inc. | Prototype waveform speech coding with interpolation of pitch, pitch-period waveforms, and synthesis filter |
US5734789A (en) * | 1992-06-01 | 1998-03-31 | Hughes Electronics | Voiced, unvoiced or noise modes in a CELP vocoder |
US5809459A (en) | 1996-05-21 | 1998-09-15 | Motorola, Inc. | Method and apparatus for speech excitation waveform coding using multiple error waveforms |
US5903866A (en) * | 1997-03-10 | 1999-05-11 | Lucent Technologies Inc. | Waveform interpolation speech coding using splines |
WO1999010719A1 (en) * | 1997-08-29 | 1999-03-04 | The Regents Of The University Of California | Method and apparatus for hybrid coding of speech at 4kbps |
US6092039A (en) * | 1997-10-31 | 2000-07-18 | International Business Machines Corporation | Symbiotic automatic speech recognition and vocoder |
US6260017B1 (en) * | 1999-05-07 | 2001-07-10 | Qualcomm Inc. | Multipulse interpolative coding of transition speech frames |
US6330532B1 (en) * | 1999-07-19 | 2001-12-11 | Qualcomm Incorporated | Method and apparatus for maintaining a target bit rate in a speech coder |
US6324505B1 (en) * | 1999-07-19 | 2001-11-27 | Qualcomm Incorporated | Amplitude quantization scheme for low-bit-rate speech coders |
-
1998
- 1998-12-21 US US09/217,494 patent/US6456964B2/en not_active Expired - Lifetime
-
1999
- 1999-12-21 AT AT99967508T patent/ATE309601T1/de not_active IP Right Cessation
- 1999-12-21 JP JP2000590162A patent/JP4824167B2/ja not_active Expired - Lifetime
- 1999-12-21 KR KR1020017007887A patent/KR100615113B1/ko active IP Right Grant
- 1999-12-21 AU AU23776/00A patent/AU2377600A/en not_active Abandoned
- 1999-12-21 DE DE69928288T patent/DE69928288T2/de not_active Expired - Lifetime
- 1999-12-21 ES ES99967508T patent/ES2257098T3/es not_active Expired - Lifetime
- 1999-12-21 WO PCT/US1999/030588 patent/WO2000038177A1/en active IP Right Grant
- 1999-12-21 CN CNB998148210A patent/CN1242380C/zh not_active Expired - Lifetime
- 1999-12-21 EP EP99967508A patent/EP1145228B1/en not_active Expired - Lifetime
-
2002
- 2002-03-19 HK HK02102093.0A patent/HK1040806B/zh not_active IP Right Cessation
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62150399A (ja) * | 1985-12-25 | 1987-07-04 | 日本電気株式会社 | 音声合成用基本周期波形生成法 |
JPH0284699A (ja) * | 1988-09-21 | 1990-03-26 | Mitsubishi Electric Corp | 音声分析合成装置 |
JPH02160300A (ja) * | 1988-12-13 | 1990-06-20 | Nec Corp | 音声符号化方式 |
JPH06266395A (ja) * | 1993-03-10 | 1994-09-22 | Mitsubishi Electric Corp | 音声符号化装置および音声復号化装置 |
JPH07177031A (ja) * | 1993-12-20 | 1995-07-14 | Fujitsu Ltd | 音声符号化制御方式 |
JPH07234697A (ja) * | 1994-02-08 | 1995-09-05 | At & T Corp | 音声信号の符号化方法 |
JPH10143199A (ja) * | 1996-11-15 | 1998-05-29 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方法および復号化方法 |
JPH10232697A (ja) * | 1997-02-21 | 1998-09-02 | Nippon Telegr & Teleph Corp <Ntt> | 音声符号化方法および復号化方法 |
JPH11219196A (ja) * | 1998-01-30 | 1999-08-10 | Toshiba Corp | 音声合成方法 |
Non-Patent Citations (1)
Title |
---|
JPN6009065010, Kleijn,W.B., ""Encoding speech using prototype waveforms"", IEEE Trans.on Speech and Audio Processing, 199310, Vol.1,Iss.4, pp.386−399 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2009541802A (ja) * | 2006-06-30 | 2009-11-26 | フラウンホーファーゲゼルシャフト・ツア・フェルデルング・デア・アンゲバンテン・フォルシュング・エー・ファウ | 動的可変ワーピング特性を有するオーディオエンコーダ、オーディオデコーダ及びオーディオプロセッサ |
US8682652B2 (en) | 2006-06-30 | 2014-03-25 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic |
JP2009545778A (ja) * | 2006-07-31 | 2009-12-24 | クゥアルコム・インコーポレイテッド | 非アクティブフレームの広帯域符号化および復号化を行うためのシステム、方法、および装置 |
JP2012532344A (ja) * | 2009-06-29 | 2012-12-13 | サムスン エレクトロニクス カンパニー リミテッド | 加重線形予測変換を利用したオーディオ信号符号化及び復号化装置並びにその方法 |
Also Published As
Publication number | Publication date |
---|---|
DE69928288T2 (de) | 2006-08-10 |
EP1145228A1 (en) | 2001-10-17 |
JP4824167B2 (ja) | 2011-11-30 |
ES2257098T3 (es) | 2006-07-16 |
AU2377600A (en) | 2000-07-12 |
DE69928288D1 (de) | 2005-12-15 |
CN1331825A (zh) | 2002-01-16 |
US20020016711A1 (en) | 2002-02-07 |
KR20010093208A (ko) | 2001-10-27 |
CN1242380C (zh) | 2006-02-15 |
HK1040806B (zh) | 2006-10-06 |
EP1145228B1 (en) | 2005-11-09 |
HK1040806A1 (en) | 2002-06-21 |
ATE309601T1 (de) | 2005-11-15 |
WO2000038177A1 (en) | 2000-06-29 |
US6456964B2 (en) | 2002-09-24 |
KR100615113B1 (ko) | 2006-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4824167B2 (ja) | 周期的スピーチコーディング | |
JP5373217B2 (ja) | 可変レートスピーチ符号化 | |
KR100956623B1 (ko) | 잔여분 변경에 의한 보코더 내부의 프레임들을 시간 와핑하는 시스템 및 방법 | |
US6871176B2 (en) | Phase excited linear prediction encoder | |
US6081776A (en) | Speech coding system and method including adaptive finite impulse response filter | |
US6078880A (en) | Speech coding system and method including voicing cut off frequency analyzer | |
US6138092A (en) | CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency | |
EP0360265A2 (en) | Communication system capable of improving a speech quality by classifying speech signals | |
KR20020052191A (ko) | 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법 | |
US6678651B2 (en) | Short-term enhancement in CELP speech coding | |
JP2003501675A (ja) | 時間同期波形補間によるピッチプロトタイプ波形からの音声を合成するための音声合成方法および音声合成装置 | |
JP2002544551A (ja) | 遷移音声フレームのマルチパルス補間的符号化 | |
EP1597721B1 (en) | 600 bps mixed excitation linear prediction transcoding | |
WO2002023536A2 (en) | Formant emphasis in celp speech coding | |
Gersho | Concepts and paradigms in speech coding | |
WO2001009880A1 (en) | Multimode vselp speech coder |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061211 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091215 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100315 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100323 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100415 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100422 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100423 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100727 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20101027 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20101104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110127 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110809 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110908 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4824167 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140916 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |