JP2971266B2 - 低遅延celp符号化方法 - Google Patents
低遅延celp符号化方法Info
- Publication number
- JP2971266B2 JP2971266B2 JP4266900A JP26690092A JP2971266B2 JP 2971266 B2 JP2971266 B2 JP 2971266B2 JP 4266900 A JP4266900 A JP 4266900A JP 26690092 A JP26690092 A JP 26690092A JP 2971266 B2 JP2971266 B2 JP 2971266B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- value
- pitch
- pitch period
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 147
- 239000013598 vector Substances 0.000 claims description 137
- 230000007774 longterm Effects 0.000 claims description 27
- 238000012545 processing Methods 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 17
- 230000006978 adaptation Effects 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 6
- 230000003111 delayed effect Effects 0.000 claims description 3
- 238000005314 correlation function Methods 0.000 claims 1
- RVRCFVVLDHTFFA-UHFFFAOYSA-N heptasodium;tungsten;nonatriacontahydrate Chemical compound O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.O.[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[Na+].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W].[W] RVRCFVVLDHTFFA-UHFFFAOYSA-N 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 298
- 230000005284 excitation Effects 0.000 description 74
- 238000013139 quantization Methods 0.000 description 69
- 239000000523 sample Substances 0.000 description 26
- 230000003044 adaptive effect Effects 0.000 description 25
- 238000004422 calculation algorithm Methods 0.000 description 22
- 238000004364 calculation method Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 17
- 230000015572 biosynthetic process Effects 0.000 description 16
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000003786 synthesis reaction Methods 0.000 description 16
- 230000004044 response Effects 0.000 description 12
- 230000015556 catabolic process Effects 0.000 description 10
- 238000006731 degradation reaction Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000000605 extraction Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 206010019133 Hangover Diseases 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- 230000001976 improved effect Effects 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 101000622137 Homo sapiens P-selectin Proteins 0.000 description 2
- 102100023472 P-selectin Human genes 0.000 description 2
- 101000873420 Simian virus 40 SV40 early leader protein Proteins 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 240000000489 Agave utahensis Species 0.000 description 1
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
- G10L19/18—Vocoders using multiple modes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0002—Codebook adaptations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0003—Backward prediction of gain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0011—Long term prediction filters, i.e. pitch estimation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
- G10L2019/0013—Codebook search algorithms
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
- G10L2025/906—Pitch tracking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Analogue/Digital Conversion (AREA)
Description
の音声と関連信号の効率的符号化、および元の信号を効
率的かつ忠実に再生するために後に行われる復号の分野
に関する。
後で取り出して再生できるように音声情報を記憶したり
するために与えなければならない情報の量を減らすべく
多くの方法が近年開発されてきた。考慮すべき重要な点
は、そのような符号情報が符号化方式の高い品質要求に
適切に応えるように生成されるべきビット・レートであ
る。例えば、重要な用途には、毎秒32キロビット(k
bit/s、以降「kbps」と記す)の割合で発生するデジ
タル信号によって音声が表されるものもある。勿論、記
憶または伝送の帯域幅の必要条件を最小にするために
は、可能な限り少ないデジタル信号で音声を表現するこ
とが望ましい。
一括して線形予測符号化方式として周知のものである。
この広い範疇の符号化方式の中で、符号励起線形予測
(CELP=code excited linear prediction)符号化
として周知のものが、近年多くの注目を集めている。C
ELP方式の初期の概要が、「音響、音声、信号処理に
関するIEEE国際会議(IEEE Int.Conf.Acoust.,Spee
ch. Signal Processing)」会報p.937-p.940(1985
年)のM.R.シュレーダー(Schroeder)およびB.
S.アタル(Atal)による「符号励起線形予測---非常
に低いビットレートで高品質音声(Code Excited Linea
r Prediction (CELP):High-Quality Speech at Very Lo
w Bit Rates)」にある。
化上の制約は、音声符号化の実行に要する遅延である。
従って、例えば、遅れの小さい符号化を行うことは、エ
コーの影響を少なくして通信リンクにおけるエコー・サ
プレッサへの要求を小さくするためには非常に有効であ
る。さらに、セルラ通信システムのような環境下では、
許される全体の遅れが限られていて、チャネルの符号化
の遅れがチャネルのエラー制御の要点であるため、利用
可能な全体の遅延「資源」を最初の音声符号化に消費し
ないことが非常に望ましい。
用するほとんどの音声符号器において、なんとか良好な
音声品質を達成しようと大きなブロックの音声標本をバ
ッファで緩衝している。この標本ブロックには、一般
に、約20ミリ秒の期間にわたる音声標本が含まれ、バ
ッファで緩衝される音声の冗長性を利用するために周知
の変換、予測、またはサブバンドの技術が応用できるよ
うになっている。しかし、バッファの緩衝遅延に処理に
よる遅延およびビット伝送遅延が加わり、通常の符号器
の一方向の全体的な符号化遅延は、一般に約50乃至6
0msである。勿論、このような長い遅延は、多くの用
途において望ましくなく、許されるべくもない。
kbpsの音声符号化のための低遅延CELP符号化の問
題に焦点を合わせている。CCITT(国際電信電話諮
問委員会)研究グループXVIIIの1988年6月の16
kbps音声符号化に関する特別グループの参照条項(付
録1から案件U/XV)(CCITT Study Group XVIII, T
erms of reference of the ad hoc group on 16 kbit/s
speech coding(Annex 1to Question U/XV))を参照せ
よ。CCITTのグループによって課せられた条件で
は、符号化遅延は2msを目標とし5msを超えてはな
らないということであった。このCCITTにより課せ
られた課題に対する解決策は、例えば次の文献にある。
「IEEE地球圏通信会議会報(Proc. IEEE Global Co
mmun. Conf.)」p.1237-p.1241(1989年11月)の
J.H.チェン(Chen)による「16kbpsの頑丈な低
遅延CELP音声符号器(A robust low-delay CELP sp
eechcoder at 16 kbit/s)」、「音響、音声、信号処理
に関するIEEE国際会議会報」p.453-p.456(199
0年4月)のJ.H.チェン(Chen)による「一方向の
遅延が2ms以下の高品質16kbps音声符号化(High-
quality 16 kbit/s speech coding with a one-way del
ay less than 2ms)」、および「音響、音声、信号処理
に関するIEEE国際会議会報」p.181-p.184(199
0年4月)のJ.H.チェン(Chen)、M.J.メルク
ナー(Melchner)R.V.コックス(Cox)およびD.
O.ボウカー(Bowker)による「16kbps低遅延CE
LP音声符号器の実時間動作(Real-time implemention
of a 16 kbit/s low-delay CELP speech coder)」。
kbpsの音声符号化アルゴリズムの標準かを計画した。
やはり、候補となるアルゴリズムは、すべて遅延時間が
短いことが要求されるが、この場合、一方向の遅延の必
要条件は、約10msへと幾分緩和されている。
ることは16kbpsの場合より難しい。これは、一部に
は、現在の低遅延CELP符号器がその予測器の係数を
前に符号化された音声に基づいて更新する、いわゆる
「後方適応」方式だからである。例えば、在ニュー・ジ
ャージーのプレンティス・ホール社(Prentice-Hall)
(1984年)発行のN.S.ジャイアント(Jayant)
およびP.ノル(Noll)による「波形のデジタル符号化
(Digital Coding of Waveforms)」が参考になる。さ
らに、8kbpsで符号化された音声の方が符号化雑音レ
ベルが高いので、後方適応が16kbpsの場合より非効
率的になる。
遅延符号器の課題の前には、その主題に関する文献は殆
どあるいは全くなかった。その発表以後、T.モリヤ
(Moriya)が、発話言語の処理に関する国際会議の議事
録(1990年11月)の「コンディショナル・ピッチ
予測に基づく中程度の遅延の8kbps音声符号器(Mediu
m-delay 8 kbit/s speech coder based on conditional
pitch prediction)」において、例えば前記の198
9年のチェンの論文において記述されている16kbps
の低遅延CELP符号器の後方適応方式に基づく遅延時
間10msの8kbpsCELP符号器を提案した。報告
によれば、この8kbps符号器の性能は、前記のシュレ
ーダーおよびアタルによる1985年の論文、および
「音響、音声、信号処理に関するIEEE国際会議会報
p.1650-p.1654(1987年)のP.クルーン(Kroon)
およびB.S.アタル(Atal)による「4.8kbpsC
ELP符号器のための量子化手順(Quantization proce
dure for 4.8 kbps CELP coders)」に記述されている
通常の8kbpsCELP符号器を上回ると言われてい
る。しかし、その性能が可能なのは、(計算が極めて複
雑になることを代償として)励起ベクトルの遅延決定符
号化が使用される場合に限られる。これに対して、遅延
決定が使用されない場合、音声品質が、低下して通常の
8kbpsCELPより幾分劣るようになる。
補を決定するために後方適応ピッチ分析を行ったうえ
で、3ビットを送って選択された候補を指定した。後方
ピッチ分析がチャネル・エラーに対して非常に敏感であ
ることは周知であるから(前記のチェンによる1989
年の文献が参考になる)、この符号器もチャネル・エラ
ーに対して敏感のようである。
技術とは異なる方法を用いることにより、従来の符号器
の潜在的な制限および過敏性の多くを避けながら低ビッ
ト・レート低遅延の符号化および復号を与えることであ
る。本発明によって処理された音声は、従来のCELP
の場合と同質のものであるが、従来のCELPの僅か1
/5程度の遅延でそのような音声を与えることができ
る。さらに、全二重の符号器が単一のデジタル信号処理
(DSP)チップ上に好ましい形で実施できるように、
本発明では、従来の技術の複雑さの多くを回避してい
る。さらには、本発明の符号化および復号の方式を用い
ることにより、ビット誤り率が高い条件の下でも双方向
の音声通信を容易に達成することができる。
符号器における本発明の説明用の実施例において得られ
る。実施例では、励起利得因子および短期(LPC)予
測器をいわゆる後方適応を用いて更新する。この点にお
いて、この実施例は、先に引用した論文に記述された1
6kbps低遅延符号器との類似点がある(ほか、それと
の重要な相違点もある)。しかし、この実施例では、よ
り高い音声品質およびチャネル・エラーに対するより優
れた頑丈さを実現するために、重要なピッチ・パラメー
タは、すべて前方に送られる。
ているピッチ予測器は、3タップ・ピッチ予測器であ
り、内部フレーム予測符号化方式を用いてピッチ周期
(またはピッチ間隔)を符号化し、閉ループ・コードブ
ック探査によって3つのタップをベクトル量子化する。
「閉ループ」は、本明細書で用いる場合、符号化された
音声の知覚的に荷重した平均2乗誤差をコードブック探
査により最小にしようとすることを意味する。この方法
は、ビットを節約し、高いピッチ予測利得(一般に5乃
至6dB)を与え、かつチャネル・エラーに対して頑丈
であることが解った。ピッチ周期は、開ループ探査方法
および閉ループ探査方法の組み合わせによって都合良く
決定される。
た後方利得適応は、本発明の説明のための実施例におい
ても有利に使用されている。また、従来のCELPの実
施において使用された15乃至30msに比較して小さ
い間隔(例えば、僅か2.5乃至4.0ms)を表すフ
レームを用いることが有利であることも解った。
において説明するその他の改良点には、閉ループ・トレ
ーニング法によって獲得されたベクトルによる励起コー
ドブックの導入も含まれる。
説明する実施例の復号器には後置フィルタ(例えば、カ
リフォルニア大学サンタ・バーバラ校のJ.H.チェン
による博士論文「音声波形のベクトル量子化に基づく低
ビット・レート予測符号化(Low-bit-rate predictive
coding of speech waveforms based on vector quantiz
ation)」に提案されたものと類似のもの)を有利に使
用している。さらに、短期後置フィルタおよび長期後置
フィルタを共に使用する方が有利であることが分かる。
通常のCELP符号器の概要を簡単に説明する。次に、
(要素およびシステムのレベルで)本発明によって与え
られる新機軸を説明し、最後に、本発明の一般的な説明
用の実施例を詳細に説明する。
要 概観すると、図1のCELP符号器は、励起シーケンス
を励起コードブック100から利得調整要素105を経
て長期合成フィルタおよび短期合成フィルタの縦続接続
へと渡すことにより、音声を合成する。長期合成フィル
タは、長期予測器110および総和器要素115からな
り、短期合成フィルタは、短期予測器120および総和
器125からなる。当分野において周知のとおり、両方
の合成フィルタは、一般に全極フィルタであり、それぞ
れの予測器が指示された閉ループ内に接続されている。
の出力が、前記の合成された音声である。この合成され
た音声は、比較器130において、一般にデジタル化標
本のフレームの形式で入力の音声と比較される。合成よ
おび比較の動作は、コードブック100における励起シ
ーケンスの各々に対して繰り返され、最も一致するシー
ケンスのインデックスが、システム・パラメータについ
ての付加的な情報と共に後の復号に使用される。基本的
に、CELP符号器は、各フレームに対し、入力音声と
合成音声との間の知覚的に加重した平均2乗誤差(MS
E)が最小になるような最良の予測器、利得、および励
起を発見するように努めて、音声をフレーム毎に符号化
する。
音声におけるピッチの周期性を利用することであること
から、しばしばピッチ予測器と呼ばれる。一般に、1タ
ップのピッチ予測器が用いられるが、この場合、その予
測器の伝達関数は、P1(z)=βz-pである。ただ
し、pは群遅延、即ちピッチ周期であり、βは予測器の
タップである。短期予測器は、2.4kbpsまたはそれ
以下のビットレートで動作する周知のLPC(線形予測
符号化)ボコーダでも使用されるので、LPC予測器と
呼ばれることもある。このLPC予測器は、一般に、伝
達関数
Q)コードブックには、等しい長さのコードブック・ベ
クトル(即ちコードベクトル)のテーブルが収容されて
いる。一般に、コードベクトルは、可能な中央クリッピ
ングを有するガウス乱数が占める。
において、在ニュー・ジャージー州エンゲルウッド・ク
リフスのプレンティス・ホール社のL.R.ラビナ(Ra
biner)およびR.W.シェイファ(Schafer)による
「音声信号のデジタル処理(Digital Processing of Sp
eech Signals)」(1978年)に概説されている種類
の線形予測分析(LPC分析)を入力信号に対して最初
に行うことによって、音声波形の標本をフレーム(固定
長の各フレームは一般に15乃至30msの長さであ
る)毎に符号化する。次に、結果的に得られたLPCパ
ラメータを標準の開ループの要領で量子化する。図1で
は、LPC分析および量子化を要素140によって表し
た。
ては、各音声フレームをそのフレーム内部で4乃至8m
sの間隔で発生する標本を含むいくつかの等しい長さの
サブフレームまたはベクトルに分割する方が有利である
ことが解った。量子化されたLPCパラメータは、通
常、各サブフレームに対して補間されて、LPC予測器
の係数へと変換される。そして、各サブフレームに対し
て、1タップのピッチ予測器のパラメータが閉ループ量
子化される。一般に、ピッチ周期は、7ビットに量子化
され、ピッチ予測器のタップは、3または4ビットに量
子化される。次に、励起VQコードブックの中の最良の
コードベクトル、および最良の利得を、やはり閉ループ
量子化によって各サブフレームに対してフィルタ155
で知覚的に荷重された入力に基づいて、最小平均2乗誤
差(MSE)要素150によって決定する。
タ、ピッチ予測器のパラメータ、利得および励起コード
ベクトルは、図1の符号器/マルチプレクサ160によ
って、ビットに符号化されて、出力ビット・ストリーム
へと多重化される。
レーム毎に復号する。図2において要素200で示した
ように、この符号器では、まず入力ビット・ストリーム
を分離(デマルチプレクス)して、LPCパラメータ、
ピッチ予測器パラメータ、利得、および励起コードベク
トルを復号する。次に、各サブフレームに対してデマル
チプレクサ200によって識別された励起コードベクト
ルを、利得要素215における対応する利得因子によっ
て倍率調整した後、縦続接続された長期合成フィルタ
(長期予測器220および総和器225からなる)およ
び短期合成フィルタ(短期予測器230および総和器2
35からなる)を通して、復号された音声を得る。
声、信号処理に関するIEEE国際会議」会報ASSP
−29(5)のp.1062-p.1066(1987年10月)の
J.H.チェン(Chen)およびA.ガーショウ(Gerch
o)による「適応後置フィルタを用いた48000bp
sでの実時間ベクトルAPC音声符号化(Real-time ve
ctor APC speech coding at 48000 bps with adaptive
postfiltering)」において提案された種類のものであ
り、知覚上の音声品質を高めるために出力において一般
に使用される。
LP符号器によって、入力音声から直に決定され、開ル
ープ量子化されるが、ピッチ予測器、利得、および励起
は、すべて閉ループ量子化によって決定する。これらの
すべてのパラメータは、符号化されてCELP復号器に
送られる。
測(CELP)の概略 図3および4に、本発明による低遅延符号励起線形予測
(LD−CELP)符号器および復号器の実施例の概略
をそれぞれ示す。便宜上、この実施例は、8kbpsLD
−CELPのシステムと方法に関するCCITTの研究
における切実な課題の点から説明する。しかし、ここで
説明するアルゴリズムと技術は、異なる個々のビット・
レートおよび符号化遅延で動作するシステムおよび方法
に同じように適用される。
くフレームに区切られた標本の型の中の入力音声は、ベ
クトルを励起コードブック300から利得調整器305
と直列の長期合成フィルタと短期合成フィルタとを通過
させることによって発生する合成音声と、比較器341
において再び比較される。図3の実施例において、利得
調整器は、以下においてさらに十分に説明するように後
方適応利得調整器とみなされる。長期合成フィルタは、
実例のように総和器315を有する帰還ループにおける
3タップのピッチ予測器からなる。ピッチ予測器の機能
は、さらに詳細に後述する。短期合成フィルタは、総和
器325を有する帰還ループにおける10タップの適応
後置LPC予測器320を含む。要素328で現される
後方適応機能については、以下においてさらに説明す
る。
誤差の計算は、フィルタ355経由で供給された知覚的
に荷重された誤差信号に基づいて、要素350において
決定される。ピッチ予測器310において値を設定する
ために使用されるピッチ予測器パラメータ量子化は、要
素342において実現される。これについては、さらに
詳細に後述する。図3に示した低遅延CELP符号器の
実施例の各要素間の相互関連の様子は、以下においてい
くつかの要素をさらに十分説明するとともに明らかにな
る。
例は、図3の実施例の符号器に対して、補完的な形で作
用する。さらに具体的には、入力405で受信される入
力ビット・ストリームは、要素400において復号・分
離され、必要なコードブック要素の識別情報を励起コー
ドブック410に与えるほか、ピッチ予測器のタップお
よびピッチ周期情報も3タップのピッチ予測器420と
総和器425からなる長期合成フィルタに与える。また
適応後置フィルタ・アダプター440のための後置フィ
ルタ係数情報も要素400によって供給される。本発明
によれば、後置フィルタ445は、長期および短期の後
置フィルタ処理機能を備えている。このことは、以下に
さらに十分に説明する。出力音声は、後置フィルタ44
5を通過後、出力450に現れる。
5を備えた帰還ループにおいて接続されたLPC予測器
430(一般には、10タップ予測器)からなる短期合
成フィルタも含む。短期フィルタ係数の適応化は、要素
438による後方適応LPC分析を用いて、行われる。
号器に関する以上の説明から、一般に従来のCELP符
号器は、長期および短期のフィルタの情報、励起利得情
報、励起ベクトル情報を、これらの符号化成分のすべて
に対する前方適応を可能にするために、復号器に送る。
前述のチェンの論文で記述されているCCITT16k
bps低遅延CELPの必要条件の解法は、励起を除いた
すべての符号情報に後方適応を用いることによって通常
解決されることを示している。これらの16kbps低遅
延符号器において、ピッチ情報は明示的には使用されな
い。
に、本発明による低遅延低ビットレートの符号器/復号
器は、一般にピッチ予測器パラメータと励起コードベク
トル・インデックスを前方に送る。この復号器は、後方
適応を利用して、直前に量子化された信号から利得およ
びLPC予測器を局部的に得ることができるので、それ
らは送る必要がないことが分かった。
Pおよび本発明による低遅延CELPの違いを簡単に要
約したので、以下の節では、本発明の実施例の個々の要
素をより詳細に説明する。
号化遅延を達成するために、CELP符号器は、3乃至
4ms、即ち8kHzの標本化速度では24乃至32の
音声標本より大きいフレーム・バッファ・サイズをとる
ことはできない。符号化遅延と音声品質の間のトレード
オフを吟味して、2つの8kbpsLD−CELPアルゴ
リズムを考えたことが好都合である。第1の例では、3
2標本(4ms)のフレーム・サイズで約10msの一
方向遅延であったが、第2の例では、20標本(2.5
ms)のフレーム・サイズで約7msの遅延であった。
は、各フレームで使われるのは、20または、32ビッ
トだけある。CELP符号化において、良い音声品質を
得るためには励起符号化でビットの大部分を使うことが
重要であるため、LPCパラメータおよびピッチ・パラ
メータのような非励起情報のためには、ほんの僅かしか
ビットが残されていないことになる。
・サイズの制約)があるので、前述のチェンによる19
89年の論文で記述されているように、後方適応によっ
てLPC予測器の係数を更新することが好都合となる。
このようなLPCパラメータの後方適応は、LPCパラ
メータを細かく指定するためのビット送信を必要としな
い。このことは、前に引用されたモリヤの論文において
記述された方法と比較されるべきである。このモリヤの
論文において、有望とは言えないものの、一部後方、一
部前方適応構造が、LPCパラメータ適応化のために提
案された。
れる後方適応LPCパラメータの方法は、都合良く存続
されているので、8kbpsで利用するために、16kbps
LD−CELPアルゴリズムにおいて利用されるパラメ
ータを単に変更しようとしても当然である。この規模を
小さくする方法による実験では、理解はできるが、意図
した目的のためには雑音が多すぎるという結果となっ
た。このように、本発明の実施例は、ピッチ情報の明確
な誘導とピッチ予測器の使用を特徴とする。符号化およ
び復号の動作においてピッチ予測器を利用することの重
要な利点は、16kbps低遅延法において利用される短
期予測器が、一般的に従来の50タップのLPC予測器
からさらに単純な10タップLPC予測器へと簡易化で
きるということである。
ための10タップLPC予測器は、前述のラビナとシェ
イファの文献において記述されたLPC分析の自己相関
法を利用してフレームごとに更新される。標準的なAT
&T DSP32Cデジタル信号処理チップを使用する
便利な浮動小数点の実施において、自己相関係数は、
「音響、音声、信号処理に関するIEEE国際会議会
報」p.453-p.456(1990年4月)のJ.H.チェン
による「2ms以下の高品質16kbps音声符号化」お
よび[音響、音声、信号処理に関するIEEE国際会議
議事録,ASSP-29(5)」p.1062-p.1066(1981年10
月)のT.P.バーンウェル,IIIの「LPC分析の自己
相関係数を生成するための循環窓化」に記述された修正
バーンウェル循環窓を用いて、計算される。固定小数点
を実施する場合、「音響、音声、信号処理に関するIE
EE国際会議会報」p.21-p.24(1991年5月)の
J.H.チェン、Y.C.リン(Lin)とR.V.コ
ックス(Cox)の「固定小数点16kbpsLD−CE
LPアルゴリズム」に記述された種類の混成窓を利用す
る方が、有利となることがある。循環窓の窓関数は、基
本的に伝達関数
極αが1に近づくにつれて、窓の「尾」はより長くな
る。
常に注意深く選定されなければならず、さもなければ、
重要な性能の低下を引き起こしてしまうことになる。α
=0.96という値は、開ループLPC予測、16kbp
sLD−CELP符号器、および多くの低雑音の応用に
対して適切であるが、このような値は、不自然で煩わし
く聞こえる「水っぽい」歪を生ずることがある。このよ
うに、循環窓の有効長さを長くするようにαの値を増加
させることは、実に有利である。
数の値がその最大値の10%の点までの時間間隔として
定義される場合、α=0.96の循環窓は、3.5ms
近辺にピークを有し、有効窓長が約15msである。α
が0.96と0.97の間の値では、通常、10次LP
C予測にとって最も高い開ループ予測利得が得られる。
しかしながら、αが0.96の時、水っぽい歪が問題と
なる。αを0.99に増加させることにより、窓ピーク
は約13msに位置を変え、有効窓長は、61msに増
加する。このように長くなった窓により、水っぽい歪は
完全になくなるが符号化音声の品質は幾分落ちてしま
う。従って、α=0.96の水っぽい歪もなく、α=
0.99での音声品質の低下もないα=0.985は、
良い妥協点であることが分かった。α=0.985の場
合、窓ピークは8.5ms付近で起こり、有効窓長は約
40msである。
使用される知覚加重フィルタは、先に引用したチェンの
論文に記述されている16kbpsLD−CELPで使用
されたものと好都合にも同じである。これは、
伝達関数である。
音声に対しフレーム毎にLPC分析を実施することによ
り得られる。荷重フィルタでは、音声信号にスペクトル
のピークがある周波数は弱められ、音声信号にスペクト
ルの谷がある周波数は強調される。この荷重フィルタを
励起の閉ループ量子化に使用すると、符号化雑音のスペ
クトラムが整形されて、その雑音は、この荷重フィルタ
がない場合に生成される雑音ほど人の耳には聞こえない
ようになる。
は、知覚的荷重フィルタを導き出す目的には使用しない
ので好都合である。これは、後方LPC分析が、8kbp
sLD−CELP符号化音声に基づき、符号化歪のため
に、LPCスペクトラムが入力音声の真の包含線からは
ずれてしまうことがあるからである。知覚的荷重フィル
タは符号器にしか使われないので、復号器は、符号化過
程で使われる知覚的荷重フィルタを知る必要はない。ゆ
えに図3に示したように、知覚的荷重フィルタの係数を
導くために非量子化入力音声を使うことが可能となる。
た低ビットレート(一般的に8kbps)LD−CELP
符号器と復号器の実施例の主要な部分を占める。それゆ
えにこれらの構造のピッチに関連した機能の背景と作用
は、かなり詳細に説明する。
響、音声、信号処理に関するIEEE国際会議会報」p.
243-p.246(1988年4月)のV.イェンガー(Iyeng
ar)とP.カバル(Kabal)による「低遅延16kbps音
声符号器」に記述されている型の後方適応の3タップ・
ピッチ予測器を有利に使用してもよい。しかし、[IE
EE地球間通信会議会報」P.1247-P.1252(1989年
11月)のR.ペティグルー(Pettigrew)とV.クー
パーマン(Cuperman)による「16kbps音声の低遅延
ベクトル励起符号化」に記述されている方法に一般的に
従って、非音声または無音フレームと出会う度にピッチ
・パラメータを再設定することで、3タップ後方適応ピ
ッチ予測器を修正する方が有利である(特にチャネル・
エラーに対して頑丈にする点において)。この案によっ
て、女性の音声の知覚品質はいくらか改善されたが、男
性の音声に対しては改善がそれほど認められない。さら
に、頻繁な再設定をした場合も、この案では、BER=
10-3においてチャネルエラーに対する耐性は、依然と
して必ずしも十分ではなかった。
つの実施例は、前述のモリヤによる論文に記述されてい
るものに基づいている。この実施例では、単一ピッチ・
タップが完全に前方に送られ、ピッチ周期は一部は後方
に、一部は前方に適応化される。しかしながら、この技
術はチャネル誤差に対して過敏である。
測器310の好ましい実施例は、完全な前方適応ピッチ
予測に基づくものであることが分かった。
1の変形において、3タップ・ピッチ予測器は、7ビッ
トに閉ループの量子化されるピッチ時間、および5乃至
6ビットに量子化される3タップの閉ループ・ベクトル
と共に利用される。このピッチ予測器は、非常に高い予
測利得(一般的には、明確な荷重信号領域において5乃
至6dB)を達成する。これは、前述の完全または部分
的な後方適応構造よりも、チャネル誤差に対して、より
頑丈なものである。しかしながら、20または32の標
本の大きさのフレームでは、各フレームに対して、20
または32ビットしか利用できない。特に、20標本の
フレームの場合、ピッチ予測器に12乃至13のビット
を使ってしまうと、励起符号化のためにほんのわずかな
ビットしか残らなくなる。このようにピッチ予測器のた
めに符号化レートを低減した代案の実施例が望ましいこ
とがしばしばある。
サイズが使用されるので、近接したフレームのピッチ周
期は、かなり相関性が高い。このように、フレーム間予
測符号化構造は、ピッチ周期の符号化レートを減少させ
るのに役立つ。しかしながら、このようなフレーム間方
法を設計するに当たって、以下のような課題があった。 1.チャネル誤差に対して、この構造をより頑丈にする
方法 2.無音または無声領域から発声領域に変わる時、ピッ
チ周期において急激な変化に追従する方法 3.発声領域において高い予測利得を維持する方法
な4ビット予測符号化構造によって解決される。これ
は、以下においてさらに十分に説明する。第1の課題を
解決するために、チャネル誤差に対するこの方法の耐性
(頑丈さ)を高めるために、いくつか処置を講ずる。
ら、現在のフレームのピッチ周期を予測するために、単
純な1次固定係数予測器を使う。これにより、高次の適
応予測器を使うより良好な耐性が得られる。「リーキィ
な(漏れ易い)」予測器を使うことによって、チャネル
誤差の伝播を比較的短い期間に制限することが可能であ
る。
が入力音声の発声領域にあると検出されたときに限っ
て、始動する。つまり、現在のフレームが、発声された
音声ではない(たとえば、音節の間または文の間の無声
または無音の状態)時は必ず、図3、4の3タップ・ピ
ッチ予測器310は、停止され、リセットされる。フレ
ーム間予測符号化構造では、ピッチ周期で再設定され
る。これは、チャネル誤差の効果がどれほど長く伝わる
かをさらに制限するものとなる。一般的にその効果は、
1音節に限定される。
ッチ予測器310では、「通信に関するIEEE国際会
議会報」P.1128-P.1132(1987年6月)のJ.R.
B.デマルカ(De Marca)とN.S.ジェイヤント(Ja
yant)による「2値インデックスを多次元量子化器のコ
ードベクトルに割り当てるアルゴリズム」および「エレ
クトロニクスレター23(12)」P.654-P.656(1987年
6月)のK.A.ゼガー(Zeger)およびA.ガーショ
(Gersho)による「ベクトル量子化におけるゼロ余剰の
チャネル符号化」において記述された種類の疑似グレー
符号化を用いる。このような疑似グレー符号化は、励起
コードブックに使われるだけでなく、3ピッチ予測器の
タップのコードブックにも使われる。これにより、チャ
ネル誤差に対する耐性がさらに改善される。
ムに変化する時に、ピッチ周期の急激な変化に迅速に追
従するという第2の課題を解決するために、2つのステ
ップを踏む。最初のステップは、無声または無音のフレ
ームのように固定のゼロでないバイアス値を使うことで
ある。伝統的にピッチ予測器の出力ピッチ周期は、発声
領域を除いて、常にゼロに設定される。これは直感的に
は自然であるが、このために、ピッチ周期の輪郭は非ゼ
ロ平均のシーケンスとなり、発声領域の始まりでピッチ
周期のフレームからフレームへの変化が不必要に大きく
なる。無声または無音のフレームのピッチ間隔のように
50標本の固定バイアスを使うことによって、発声領域
の始まりのこのようなピッチ変化は、減少し、フレーム
間予測符号化構造にとって、急激なピッチ変化に迅速に
追従することを容易にする。
を向上させるために取る第2のステップは、ピッチ周期
のフレーム間予測誤差のために4ビット量子化器におい
て大きな外側のレベルを使うことである。−20,−
6,−5,−4,...,4,5,6,20に位置する
15の量子化器のレベルは、フレーム間差動符号化のた
めに使われ、無声および無音フレームの間の50標本の
ピッチバイアスの絶対符号化のために、16番目のレベ
ルが使われる。−20から+20の大きな量子化器のレ
ベルは、発声領域の始まりにおける急激なピッチ変化に
迅速に追従することを可能にし、−6から+6までのよ
り狭い間隔の内部量子化器のレベルは、従来の7ビット
・ピッチ量子化器と同じ精度で、続いて起こるゆっくり
としたピッチ変化に追従することを可能にする。16番
目の「絶対」量子化器のレベルにより、現在のフレーム
は発声されたものではないことを符号器が復号器に伝え
ることが可能となり、また、従来の予測符号化構造にお
いては一般的である減衰し引きずっている尾を持たず
に、ピッチ周期の輪郭を50標本のバイアス値に瞬時に
再設定できるようにする。
きな外側の量子化器レベルの利用により、発声領域の初
めにおいてわずか2乃至3のフレーム(すなわち、約5
乃至12ms)が、符号化ピッチ周期において、実際の
ピッチ間隔に追従するために、一般的に要求されること
が分かった。初期の2乃至3フレームの間、ピッチ予測
器はまだ十分な予測利得を得ることができないため、符
号化された音声には、より多くの符号化歪(平均2乗誤
差の意味において)が含まれる。しかしながら、人の耳
は信号変化の領域では符号化歪にあまり敏感ではないた
め、初期の処理から歪は、ほとんど、あるいは全く知覚
されない。
を解決するために、本発明によるピッチ・パラメータ量
子化の方法および構造は、ピッチ周期の予測符号化にお
いて閉ループ量子化を行うように構成する。この構造は
以下のように作用する。まず、ピッチ検出器を用いて、
入力音声(開ループ方法)に基づく各フレームのピッチ
の推定値を得る。現在のフレームが無声または無音の場
合、ピッチ検出器は働かなくなり、閉ループでの量子化
は必要でなくなる(この場合、16番目の量子化器レベ
ルが送られる)。現在のフレームが音声である場合、ピ
ッチ周期のフレーム間予測誤差が計算される。この予測
誤差が6標本より大きい場合、これは、フレーム間予測
符号化構造がピッチ周期の大きな変化に追い付こうとし
ていることを示す。この場合、閉ループ量子化は、大き
なピッチ変化に追い付こうとすることを妨害する可能性
があるので、行うべきではない。代わりに、15レベル
の量子化器を使った直接開ループ量子化が使われる。一
方、ピッチ周期のフレーム間予測誤差が6標本より大き
くない場合、現在のフレームは、発声された音声区分の
安定状態の領域にあることが十分に考えられる。この場
合だけ、閉ループ量子化が達成される。ほとんどの音声
フレームは、この範疇に入るため、閉ループ量子化は、
ほとんどの音声フレームにおいて実際に使われる。
おいて使用するために、本発明のピッチ予測器(それの
量子化構造も含む)の好ましい実施例の基本原理を紹介
したので、構造および方法の各構成要素をさらに詳細に
説明する。この目的のために、ピッチ周期および3ピッ
チ予測器タップの量子化構造のブロック/流れ図を図5
示す。
期を抽出する。これには、図5の要素510内で、10
次LPC逆フィルタ処理を行い、LPC予測残差信号を
求める。10次LPC逆フィルタの係数は、各フレーム
について、量子化されていない入力音声にLPC分析を
行う毎に更新される。(この同じLPC分析は、図3に
示す知覚重みづけフィルタ(知覚荷重フィルタ)の係数
更新にも使われる。) 得られたLPC予測残差信号
は、要素515内でピッチ周期を抽出する基となる。
の2つの課題がある。 (1)計算の繁雑さが、全8kbps LD−CELP符
号器の単一DSP実時間実施が可能な程度以下であるこ
と。 (2)出力ピッチの輪郭が、滑らかであること(すなわ
ち、倍数ピッチ周期は許されない)、そしてピッチ平滑
動作のために、余分な遅延は許されない。 (1)の理由は明かである。(2)の理由は、フレーム
間のピッチ周期の予測符号化は、ピッチ輪郭が音声の発
声領域において滑らかに展開してはじめて有効なためで
ある。
(Rabiner)およびシェイファ(Schafer)の参考文献に
記述されている相関ピーク採取処理に基づいている。こ
のようなピーク採取は、DSPの実施に特によく適合す
る。しかしピッチ周期検索用の直接的相関ピーク採取ア
ルゴリズムと比較し、性能の犠牲無しでの実施効率は、
4:1削減と標準相関ピーク採取の組合せによって達成
され得る。
で行われる。開ループLPC予測残差標本は、まず3次
楕円フィルタにより、1kHzで低域フィルタされ、つ
いで4:1削減される。そして、得られた削減信号を使
い、5〜35の時間的遅れ(20〜140ピッチ周期に
対応)を伴った相関値が計算され、最大の相関を与える
遅れτが求められる。この時間遅延τは4:1削減信号
領域における遅延であるので、これに対応し、もとの非
削減信号領域で最大相関を与える時間遅延は、4τ−3
と4τ+3の間にある。
PC予測残差標本を使って、4τ−3と4τ+3の間の
遅れに対する相関値が計算される。ピーク相関を与える
遅れは、第1のピッチ周期候補であり、p0と示す。こ
のピッチ周期候補は、真のピッチ周期の倍数となること
ががある。例えば真のピッチ周期が30標本の場合、上
記ピッチ周期候補は、30、60、90、ときには12
0標本になることがある。これは 相関ピーク採取法の
みならず、多くの他のピッチ検出アルゴリズムに共通し
た問題である。この問題の共通の解決法は、2〜3の後
続フレームのピッチ計算値を見て、現フレームの最終的
なピッチ計算の前に、平滑化を行うことである。しかし
この方法では、現フレームの最終ピッチ周期を決定する
前に、多数のフレームが緩衝されるため、必然的に総シ
ステム遅延を増大させることとなる。遅延の増大は、符
号化の遅延を小さくしようとする目的と相反することに
なる。それゆえ、遅延を増大させずに倍数ピッチ周期を
除去する方法が考案された。
2音声標本毎にきわめて頻繁に行われることを利用して
行う。ピッチ周期は通常20〜140標本となるので、
頻繁なピッチ計算は、各音声噴出の先頭で、倍数ピッチ
周期が上記の相関ピーク採取過程で出現するより前に、
最初に基本のピッチ周期が得られることを意味する。初
期時間以降には、相関ピークが先行フレームのピッチ周
期の近傍にあるかどうかをチェックすることで基本のピ
ッチ周期を固定化できる。
上で得られた最初のピッチ周期候補p0が、p■の近傍
にないならば、時間遅延i=p■−6,p■−
5,...,p■+5,p■+6のための非削減領域内
の相関値が、評価される。13の可能な時間遅延の中
で、最大の相関値を与える時間遅延が、第2のピッチ周
期候補であり、p1と示す。
のいずれか1つを最終のピッチ周期計算用に採用し、
p"と示す。これをするために、群遅延のp0標本をもつ
単一タップ・ピッチ予測の最適タップ重みが決定され
る。ついでタップ重みは0〜1にクリップされる。第2
のピッチ周期候補p1にもこの操作が行われる。もしp1
に対するタップ重みがp0に対するタップ重みの0.4
倍より大きいならば、第2の候補p1が最終のピッチ計
算に使われる。それ以外では、第1の候補p0が最終の
ピッチ計算に使われる。このようなアルゴリズムは遅延
を増大させることがない。図5の要素515によって受
け持たれるここに述べたアルゴリズムは単純であるが、
音声の発声領域における倍数ピッチ周期の除去に、きわ
めてよく作用する。
ープ計算ピッチ周期は、図5の4ビット・ピッチ周期量
子化器520に渡される。加えて、群遅延のp0標本を
もつ単一タップ・ピッチ予測のタップ重みが、波形の周
期性を示すものとして図5の発声フレーム検出器505
に要素515によって供給される。
に対応する)発声されたフレームの存在を検出すること
である。こうすることで、それら発声フレームに対し、
ピッチ予測をONにし、(無声(unvoiced)、無音、お
よび過渡期のフレームを含む)それ以外のすべての非発
声(non-voiced)フレームに対しそれをOFFにするこ
とができる。ここで使われた述語「非発声フレーム(no
n-voicedframe)」は、発声フレームとして分類されな
いすべてのフレームを意味する。これは通常、摩擦音に
対応する「無声フレーム(unvoiced frame)」とはいく
ぶん異なっている。上記のラビナ(Rabiner)およびシ
ェイファ(Schafer)の参考文献を見られたい。動機は
1音節内へのチャネル・エラー効果の広がりを制限し、
完成度を高めることである。
測をOFFにしてもなんらの顕著な性能低下をもたらさ
ないことに注目されたい。というのも、通常これらのフ
レームのピッチ予測ゲインは、どのみち0に近いからで
ある。さらに、ときたま非発声や無音フレームを発声フ
レームとして誤分類しても、無害であることにも注目さ
れたい。というのは、ピッチ予測がすべてのフレームで
使用された時にも、CELP符号器は良好に作動するか
らである。一方、恒常の有声セグメントの中途で、発声
フレームを非発声として誤分類すると、音声品質を有意
に低下させることになる。それゆえ、われわれの発声フ
レーム検出器は、この種の誤分類を回避するよう、特別
に設計されている。
しきい、(ピッチ抽出アルゴリズムによって生成され
た)単一タップ・ピッチ予測のタップ重み、規準化され
た1次自己相関係数、およびゼロ・クロッシング・レー
トが(優先順位に従って)利用される。もし各フレーム
が分離して調査され、そのフレームに基づき単独に即座
の有声決定がなされるならば、発声領域に中途でときた
ま、離れてて現れる非発声フレームをなくするのは、一
般的にはきわめて困難である。そのようなフレームでピ
ッチ予測をOFFにすると、有意な品質低下を引き起こ
す。
タル音声内挿システム(DSI)でよく使われているい
わゆる「ハング・オーバ」法が現況での使用のために採
用された。ハング・オーバ法は、上で与えた4つの決定
パラメータに基づく、予備的な有声/非発声分類を考慮
した後処理技術と考えることができる。ハング・オーバ
を使うと、後続の4つ以上のフレームが予備的に非発声
と分類された場合に限り、検出器は公式に非発声フレー
ムと宣告する。この方法は、発声領域の中途における離
れた非発声フレームを除去するのに有効である。このよ
うな遅延した宣告は、非発声フレームに対してのみ適用
される。(宣告は遅延するが、符号器がさらなる緩衝遅
延をこうむることはない。)フレームが予備的に有声と
分類されると、そのフレームは即座に、公式に有声と宣
告され、ハング・オーバ・フレーム・カウンタは0にリ
セットされる。
度しきい関数は、標本ごとに指数関数的に、例えば0.
9998の減衰係数で減衰する。入力音声標本の大きさ
がしきいより大きいと、しきいはその値にセット(ある
いは更新(refreshed))され、その値から減衰を続け
る。標本ごとに現フレーム上で平均化されたしきい関数
は、比較の対象として使用される。現フレーム内の入力
音声標本のピークの大きさが平均しきいの50%より大
きいと、即座に現フレームを有声と宣告する。入力音声
標本のピークの大きさが平均しきいの2%より小さい
と、現フレームを予備的に非発声と分類し、ハング・オ
ーバ後処理に委ねる。ピークの大きさが平均しきいの2
%と50%の間にあるならば、灰色領域にあるとみな
し、現フレームを分類するために、次の3つの試験が行
われる。
チ予測のタップ重みが、0.5より大きいならば、現フ
レームは有声と宣告する。タップ重みが、0.5より大
きくないならば、入力音声の規準化された自己相関係数
が、0.4より大きいかどうかを調べる。大きいなら
ば、現フレームを有声と宣告する。大きくないなら、さ
らにゼロ・クロッシング・レートが0.4より大きいか
どうかを調べる。大きいなら、現フレームを有声と宣告
する。3つの試験のいずれにも該当しないならば、一時
的に現フレームを非発声と分類し、ハング・オーバ後処
理工程を通す。
よく作動する。実用上、他の8kbps LD−CELP
符号器に比べ、工程が複雑そうに見えるが、この発声フ
レーム検出器は、実施に無視できるくらいのDSP実時
間を要するにすぎない。
れると、全ての機能ブロックが正常に作動する。一方、
発声フレーム検出器が非発声フレームと宣告すると、次
の特別な動作が起こる。まず、4ビット・ピッチ周期量
子化器(すなわち50標本ピッチ・バイアスの絶対符号
化)の16番量子化レベル量子化出力として選択され
る。つぎに、3ピッチ・タップのVQコードブックから
特別の全ゼロ・コードベクタが選択される。すなわち、
すべての3ピッチ予測タップがゼロにセットされる。
(こういった特別な制御は、図3の点線で示してあ
る。)第3に、図5の下半分の帰還ループ内のメモリ
(遅延ユニット)が、50標本の固定ピッチ・バイアス
の値にリセットされる。第4に、ピッチ予測メモリがゼ
ロにリセットされる。加えて、現フレームが発声フレー
ムの後の最初の非発声フレーム(例えば発声領域の後縁
など)ならば、チャネル・エラーを反映する音声符号化
内部状態は、都合よくその固有の初期値にリセットされ
る。全てのこれらの処置は、チャネル・エラーが、ひと
つの発声領域から他に広がるのを制限するためにとられ
る。じっさいそれらは符号器の粗さを改良し、チャネル
・エラーを防ぐのに役立っている。
は方式は4ビット・ピッチ周期量子化器520と図5の
下半分の予測帰還ループを含む。帰還ループの下側は1
入力を比較器560に供給する(他の入力は、50標本
に対応したピッチ・バイアスを供給するバイアス源55
5から入る)遅延要素565と入力をコンパレータ55
0から受けとり、その出力を加算器545に供給する、
標準利得0.96のアンプを含む。加算器、545への
他の入力も、バイアス源555から入る。加算器、54
5の出力は丸め要素、525に供給され、また加算器、
570に戻される。加算器、570では外部帰還ループ
の比較器575からの信号と合算され、遅延要素565
の入力となる。図に示したように、丸め要素、525は
また、4ビット・ピッチ周期量子化器への入力を供給す
る。これら要素の動作を以下に示す。
は、まず開ループピッチ周期抽出器、515によって生
成されたピッチ周期pから、丸められた予測ピッチ周期
rを減じる。差d=p−rが、6より大、または−6よ
り小ならば、量子化器の4つの出力レベル、−20、−
6、+6、+20の中の差dに最も近い一つに直接量子
化される。このケースでは、上に述べたようにフレーム
間の予測ピッチ量子化器ピッチ周期の大きな変化に追従
しようとする。ピッチ周期の閉ループ最適化は行っては
ならす、さもないと量子化器の変化への追従を妨害する
ことになろう。この状況下では、4ビット・ピッチ周期
量子化器の出力ポートにおけるスイッチは、上側位置、
521に接続されている。差dの量子化値をqとする
と、量子化ピッチ周期は、p=r+qとなる。この量子
化ピッチ周期pは、3ピッチ予測タップの閉ループベク
トル量子化において使われる。
ト・ピッチ周期量子化器の出力ポートにおけるスイッチ
は、下側位置、522に接続され、開ループ抽出ピッチ
周期pは、さらなる閉ループ最適化を受けることにな
る。「閉ループ結合ピッチ周期とタップの最適化」と名
付けた図5のブロック530の動作を以下に示す。この
ブロックの2つの出力の内のどちらかが、閉ループ最適
化の後、最終的な量子化ピッチ周期pになる。
われる帰還ループについて以下に示す。ちょっと見る
と、構造が普通の予測符号器の構造とかなり違って見え
る。この差には2つの理由がある。(1)50標本ピッ
チ・バイアスが適用され、(2)予測信号がどんな値で
も取れる他の大多数の予測符号化方式と異なり、このピ
ッチ周期は、システムの他の箇所で使われる前に、最も
近い整数値に丸められねばならない。
周期は、p=r+qと表現できる。ここに、フレーム間
のピッチ周期予測エラー(例えば上記と異なった値)の
量子化値は図5に示すように、q=p−r として得ら
れる。qを、p(予測ピッチ周期の浮動小数点値)に加
えた後、加算器、570において、復元されたピッチ周
期の浮動小数点値が得られる。Z-1と名付けた遅延ユニ
ット、565は、要素555によって供給される50標
本の固定ピッチ・バイアスを引き、先行フレームの浮動
小数点復元ピッチ周期を求めるのにに有効である。得ら
れる差は係数、0.94によって減じられ、その結果に
50標本のピッチ・バイアスが加えられ、浮動小数点予
測ピッチ周期、pが得られる。このpは、要素525中
で最も近い整数に丸められ、丸められた予測ピッチ周期
rとなり、これで帰還ループが完結する。
省かれると、図5の下側帰還ループは、従来の予測符号
器の帰還ループに還元することに注目されたい。リーケ
ージ係数の目的は、復号ピッチ周期のチャネル・エラー
効果を時間とともに減衰させることである。小さなレー
ケージ係数は、チャネル・エラー効果の減衰を速める
が、予測ピッチ周期の、先行フレームのピッチ周期との
ずれを大きくする。この点と50標本の必要性を以下に
例示する。
本、現フレーム101標本、ピッチ周期が+1標本/フ
レームの割合で徐々に増加していると想定する。もし5
0標本ピッチ・バイアスをかけないと、(丸めた)予測
ピッチ周期は、r=p=100×0.94=94、フレ
ーム間のピッチ周期予測エラーは、d=p−r=101
−94=7、となる。dは6を超えているので、q=
6、に量子化され、量子化ピッチ周期は、p=94+6
=100、となり希望値、101とは異なっている。実
際の入力音声のピッチ周期が114標本に達し、4ビッ
ト量子化器の出力レベルが+6に替わって+20になる
まで、100標本の量子化ピッチ周期を発生し続けると
いったように、ピッチ量子化方式が入力音声の遅いピッ
チ増加にも追従できないのは、何が悪いためか。
た例を考える。(丸めた)予測ピッチ周期は、r=p=
50+(100−50)×0.94=97、フレーム間
のピッチ周期予測エラ−は、d=101−97=4、と
なり。これは量子化範囲内であり、予測量子化方式が入
力音声の増加に追従できる。
いのは、明瞭である。リーケージ係数があまり小さい
と、ピッチ周期量子化方式は、入力ピッチ周期の変化を
追跡できないこともまた明瞭である。
ッチ周期量子化方式が発声領域の先頭のピッチ周期の急
激な変化により速やかに追従することを可能にすること
である。例えば、発声領域の先頭でピッチ周期が90標
本とし、ピッチ・バイアスなし(すなわちピッチ0から
開始)では、追従するのに6フレームを要するのに対
し、50標本ピッチ・バイアスでは追従するのは2フレ
ームにすぎない。(量子化レベル+20が、2回選択さ
れることによる)
アップ・モード」の場合、外側の量子化レベルの中の1
つが選択され、その出力にあるスイッチは、上の位置に
接続される。この場合、ピッチ周期の調整はこれ以上行
われず、量子化されたピッチ周期pが、3ピッチ予測器
のタップの閉ループVQ(ベクトル量子化)において直
接使用される。ピッチ予測器タップ・ベクトル量子化器
では、3ピッチ予測器タップを量子化し、さらに32ま
たは64の所属を有するVQコードブックを用いてそれ
ぞれ5または6ビットに符号化する。
自然な方法は、3次線形方程式を解いたうえで、歪測度
として3つのタップの平均2乗誤差(MSE)を用いて
3つのタップを直接ベクトル量子化することにより、3
つのタップの荷重の最適集合を最初に計算する。しか
し、最終的な目的は、3つのタップのMSE自体を最小
にすることではなく、知覚的に加重された符号化雑音を
最小にすることであるから、知覚的に加重された符号化
雑音を直に最小化しようとするいわゆる閉ループ量子化
を行うことがより良い方法である。ピッチ予測器の量子
化および励起信号の量子化は、一括して2段階の連続し
た近似過程として考えることができるので、加重された
ピッチ予測残差のエネルギーを最小にすることにより、
低遅延CELP符号化過程全体の総体的歪測度が直に最
小化される。直接的な係数のMSE基準と比較して、こ
の閉ループ量子化は、より良いピッチ予測利得を与える
のみならず、総体的な低遅延CELP符号化歪も減少さ
せる。しかし、この加重された残差エネルギー基準によ
るコードブックの探査には、高速の探査方法を用いない
限り、計算上さらに高度な複雑さを伴うのが普通であ
る。以下において、8kbps低遅延CELP符号器で使
用される高速探査法の原理を説明する。
VQコードブックにおけるj番目の所属の3つのピッチ
予測器タップであるとすると、対応する3タップのピッ
チ予測器は、次式の伝達関数を有する。
である。
普遍性を欠くことなく、現在のフレームにk=1からk
=Lまで信号標本にインデックスを付けることができ
る。正でないインデックスは、前のフレームにある信号
標本に対応する。d(k)をLPCフィルタへの励起
(即ち、ピッチ合成フィルタへの出力)のk番目の標本
であるとする。すると、j番目の候補であるピッチ予測
器のk番目の出力標本は、次の式のように表すことがで
きる。
大きさ(32標本のフレームの場合)より小さい場合、
di(diは、数7において太字で記したベクトルと同じ
ものであり、それを本文ではこのように記す)は正のイ
ンデックスkを有する成分d(k)の中の幾つかを持つ
ことである。つまり、それは現在のフレームの幾つかの
d(k)標本を必要とする。しかし、これらの標本は、
ピッチ予測器のタップおよび励起コードベクトルの量子
化がまだ完了していないので、まだ利用できない。他の
従来のCELP符号器における単一タップのピッチ予測
器の閉ループ量子化にも同様の問題がある。この問題
は、「拡張した適応コードブック」の概念を用いること
によって容易に回避することができるが、この概念は、
「音響、音声、信号処理に関するIEEE国際会議(IE
EE Int.Conf.Acoust.,Speech, Signal Processing)」
会報(1988年4月)のW.B.クリージン(Kleij
n)、D.J.クラシンスキ(Krasinski)、およびR.
H.ケトチャム(Ketchum)による「SELPにおける
改良された音声品質および効率的ベクトル量子化(Impr
oved speech quality and efficient vector qnantizat
ion in SELP)」に提案されている。基本的には、前の
フレームにおけるd(k)の最後のp個の標本を周期的
に繰り返すことにより、現在のフレームに対してd
(k)シーケンスが推定される。ただし、pはピッチ周
期である。
3ピッチ・タップの閉ループ量子化が開始される前に、
入力音声の現在のフレームは、知覚的に加重するフィル
タに通されて、結果的に加重された音声フレームから加
重されたLPCフィルタのゼロ入力応答を減ずる。差信
号t(k)は、ピッチ予測器タップの閉ループ量子化の
ための目標信号である。L次元の目標フレームは、次の
式で定義することができる。
覚的荷重フィルタ(即ち、加重されたLPCフィルタ)
のインパルス応答をh(n)とする。i≧jの場合はh
ij=h(i−j)、i<jの場合はhij=0によって与
えられるij番目の成分を有するLxLの下半3角行列
をH(このHは、「化学式等を記載した書面」において
太字で記したものと同じである)と定義する。この場
合、閉ループのピッチ・タップ・コードブック探査に対
し、そのピッチ・タップVQコードブックにおけるj番
目の候補のピッチ予測器に関係付けられた歪は、次式に
よって与えられる。
は、ユークリッド型ノルムの2乗を示す、即ちaのエネ
ルギーである(これらのaは、すべて太字で記すべきベ
クトルである)。
ようになる。
約すると、式(10)は次のように書くことができる。
ック探査の間は一定であるから、Djを最小にすること
は、2つの9次元ベクトルBおよびC(ベクトルBおよ
びCは、「化学式等を記載した書面」において太字で記
したものと同じである)の内積
の8kbps低遅延CELP符号器では、3つのピッチ予
測器タップの量子化に5または6のビットを使用するの
で、ピッチ・タップVQコードブックにはピッチ予測器
タップの32または64の候補集合がある。以下の説明
の便宜上、6ビットのコードブックが使用されるものと
仮定する。
ップの64の候補集合の各々に対し、それに関係付けら
れ対応する9次元のベクトルBjが存在する。64の可
能な9次元ベクトルBjは、都合良く予め計算され記憶
されているので、コードブック探査の最中にBjベクト
ルを求める計算の必要はない。また、ベクトルd1、
d2、およびd3は、互いに少しずつ転位したものである
ことから、そのような構造が開発された場合、ベクトル
Cを完全に効率的に計算することができる。実際のコー
ドブック探査では、9次元ベクトルCが一度計算される
と、64の記憶されたベクトルBjとの64の内積が計
算され、最大の内積を与えるベクトルBj*が特定され
る。そして、このベクトルBj*の最初の3つの要素に
0.5を乗ずることによって、3つの量子化された予測
器タップが得られる。1フレームごとに、6ビットのイ
ンデックスj*が、出力ビット・ストリーム・マルチプ
レクサに渡される。
ピッチ予測器を完全に停止させることができるように、
ピッチ・タップVQコードブックにゼロ・コードベクト
ルを挿入してある。その他の31または63のピッチ・
タップ・コードベクトルが、コードブック設計アルゴリ
ズムを用いて、閉ループで仕込まれる。この時のコード
ブック設計アルゴリズムは、委員会28の通信に関する
IEEE会報(IEEE Trans. Comm., Comm. 28)p.84-p.
95(1980年1月)のY.リンデ(Linde)、A.バ
ゾ(Buso)、およびR.M.グレィ(Gray)による「ベ
クトル量子化器設計のためのアルゴリズム(An algorit
hm for vector quantizer design)」において説明され
た種類のものである。発声フレーム検出器が非発声フレ
ームを宣言すると、如何なる場合も、ピッチ周期を50
標本分のバイアス値に設定し直すだけでなく、すべてゼ
ロのコードベクトルをピッチ・タップVQ出力として選
択する。つまり、3つのピッチ・タップがすべてゼロに
量子化される。従って、4ビットのピッチ周期インデッ
クス、および5または6ビットのピッチ・タップ・イン
デックスの両方を非発声フレームを示すものとして使用
することができる。発声された領域の中央で発声された
フレームを誤って非発声として復号すると、一般に極め
て厳しい音声品質の劣化を招くが、この種のエラーは、
可能ならば避けるべきである。従って、復号器では、4
ビットのピッチ周期インデックスおよび5または6ビッ
トのピッチ・タップ・インデックスの両方が、現在のフ
レームが非発声フレームであることを示す場合に限っ
て、現在のフレームを非発声のものであると宣言する。
両インデックスを非発声フレームの指示子として用いる
ことにより、発声フレームを非発声のものとする復号エ
ラーを防ぐタイプの冗長性が与えられる。
タップの閉ループVQ(ベクトル量子化)」と記された
ブロック530によって代表される機能を、フレーム間
のピッチ周期の予測誤差が6標本を超える大きさである
場合に対して説明してきた。次に、そのようなピッチ周
期の予測誤差の大きさが6標本に等しいか、それ以下で
ある場合を説明する。この場合、閉ループの意味でより
良いピッチ周期を発見できるという見込みをもってピッ
チ周期のさらに細かな調節をする機会がある。従って、
4ビット・ピッチ量子化器の出力にあるスイッチ523
は、ピッチ周期およびタップの閉ループ連帯最適化を許
すために下の位置522に位置決めされる。
化器の13のレベル(−6から6まで)と3タップVQ
コードブックの32または64のコードベクトルとの可
能なすべての組み合わせを通して、最良の閉ループ量子
化結果が得られることである。しかし、そのような徹底
的な連帯探査の計算的複雑さは、実時間の実施には過度
であることもある。従って、比較的簡単な次善の方法を
求める方が有利となる。
の第1の実施例には、従来の(単一タップのピッチ予測
器の公式化に基づく)CELP符号器と同じ方法を用い
てピッチ周期の閉ループ最適化を最初に行うことをが必
然的に含まれる。結果的に閉ループ最適化されたピッチ
周期がp*であったとすると、3つの別々の閉ループピ
ッチ・タップ・コードブック探査が、前述の高速探査方
法により、3つの可能なピッチ周期p*−1、p*、およ
びp*+1(勿論、[r−6,r+6]という量子化器
の範囲制限による)について行われる。この方法は、極
めて高いピッチ予測利得が得られるが、用途によっては
許容できない複雑さが依然としてある。
い方法では、ピッチ周期の閉ループ量子化は省略する
が、3ピッチ・タップの閉ループ量子化の実行時は5つ
の候補ピッチ周期が許される。5つの候補ピッチ周期
は、p_−2、p_−1、p_、p_+1、およびp_+2
(同様に[r−6,r+6]の範囲制限に従う)であっ
た。ただし、p_は、開ループ・ピッチ抽出アルゴリズ
ムによって得られたピッチ周期であった。これは、ピッ
チ量子化器の範囲を狭くして(ピッチ周期の候補を13
ではなく5にして)閉ループの要領でピッチ周期および
ピッチ・タップを連帯的に量子化することに相当した。
この比較的簡単な方法によって得た予測利得は、第1の
方法のそれに匹敵した。
化方式によって、7ビットのピッチ周期および5または
6ビットのピッチ・タップを有する最初の方法とほぼ同
じピッチ予測利得(知覚的に加重された信号範囲におい
て5〜6dB)を達成することができた。さらに、我々
が普通に聞いたところによれば、雑音がちのチャネル状
態の下では、従来の7ビットのピッチ量子化器または本
発明の4ビットのフレーム間予測量子化器の何れを用い
た場合も、全く匹敵する音声品質が得られた。換言すれ
ば、ピッチ予測利得もチャネル・エラーに対する強度も
妥協することなく、ピッチ周期の符号化率を7bit/フ
レームから4bit/フレームまで下げたことになる。こ
の3ビットの節約は、一見、重要なことではないかも知
れないが、この小さなフレーム・サイズにより、この節
約は、全ビットレートの10乃至15%程度(750〜
1200bps)に相当する。これらの3ビットを励起
コードベクトルの符号化に割り当てた後では符号化され
た音声の知覚品質が著しく改善されることを発見した。
リズムの場合と本質的に同じである。「音響、音声、信
号処理に関するIEEE国際会議会報」p.181-p.184
(1990年4月)のJ.H.チェン(Chen)による
「一方向の遅延が2ms以下の高品質16kbps低遅延
CELP音声符号化(High-quality 16 kbit/s low-del
ay CELP speech coding with a one-way delay less th
an 2ms)」参照。励起利得は、対数利得変域で動作させ
た10次線形予測器によって後方適応化される。この1
0次の対数利得予測器の係数は、フレームごとに、倍率
調整された励起ベクトルの前の対数利得に対し後方適応
LPC分析を行うことによって、更新される。
ならびに本発明の実施例による8kbps低遅延CELP
符号器の2つのバージョンおよび6.4kbps低遅延C
ELP(以下、「LD−CELP」と記す)符号器を示
す。フレーム・サイズが20標本の8kbps版の符号器
は、各フレームに1つの励起ベクトルを収容している。
一方、32標本/フレームの符号器は、各フレームに2
つの励起ベクトルを持つ。6.4kbpsのLD-CELP
符号器は、単に32標本/フレームの符号器のフレーム
・サイズおよびベクトルの次元を大きくし、その他はす
べて同じに維持することによって得られる。3つのすべ
ての符号器において、各励起ベクトルに対し、励起形状
コードブックに7ビット、強度コードブックに3ビッ
ト、そして符号に1ビットを使用する。
ク探査の手順および方法は、16kbpsLD−CELP
のコードブック探査とは幾分異なる。8kbpsの方がベ
クトルの次元および利得コードブックの大きさが大きい
ので、引用したチェンの論文に記述された比較的前の1
6kbpsLD−DELP方法で使用されたものと同じコ
ードブック探査手順を使用すると、計算上極めて複雑と
なり、例えば、単一の80nsのAT&T DSP32
Cチップのような特定のハードウェア上に全二重符号器
を実施することは不可能になる。従って、コードブック
探査の複雑さを軽減する方が、有利である。
器の間のコードブック探査方法には、2つの主な相違が
ある。第1に、複雑さを軽減するためには、16kbps
の場合のように励起の形状および利得を連帯して最適化
するより、8kbpsで形状そして利得というように順に
最適化する方が有利である。第2に、16kbpsの符号
器がフィルタ処理された形状コードベクトルのエネルギ
ー(時として、「コードブック・エネルギー」と呼ばれ
ることがある)を直に計算するのに対し、8kbpsの符
号器では、はるかに高速な新奇な方法を使用する。以下
において、まずコードブック探査手順を説明し、続い
て、コードブック・エネルギーを計算する第1の方法を
説明する。
チ予測器の量子化のために、目標フレームからピッチ予
測器の貢献分を引く。結果として、励起ベクトル量子化
のための目標ベクトルを得る。これは、次のように算出
される。
記の「ピッチ予測器のタップの閉ループ量子化」と題す
る節において定義したものである。以降の説明を明確に
するために、ここでは、ベクトルの時間インデックスn
を励起目標ベクトルx(n)に追加した。
ELP符号器の場合、励起ベクトルの次元は、フレーム
・サイズと同じであり、励起コードブック探査に励起目
標ベクトルx(n)を直接使用することができる。これ
に対して、(第1表の2列目および3列目のように)各
フレームに1つ以上の励起ベクトルが入っている場合、
励起目標ベクトルの計算は、さらに複雑になる。この場
合、まず式(17)を用いて励起目標フレームを計算す
る。すると、第1の励起目標ベクトルは、励起目標フレ
ームの対応する部分と標本毎に等しい。しかし、第2の
ベクトルからは、m番目の励起目標ベクトルを計算する
とき、励起ベクトル1から励起ベクトル(n−1)のた
めに加重されたLPCフィルタのゼロ入力応答を励起目
標フレームから引かなければならない。これを行うの
は、加重されたLPCフィルタの記憶の影響を分離する
ためである。これにより、加重されたLPCフィルタの
インパルス応答による畳み込みによって、励起コードベ
クトルのフィルタ処理を行うことができる。さらに好都
合となるように、n番目の励起ベクトルに対する最後の
目標ベクトルを表すのに記号x(n)を依然として使用
する。
のコードベクトルをyjとし、後方利得適応方式によっ
て評価された励起利得をσ(n)とする。3ビットの強
度コードブックおよび1つの符号ビットを組み合わせ
て、(正負の両利得に関する)4ビットの「利得コード
ブック」を得ることができる。この4ビットの利得コー
ドブックにおけるi番目の利得レベルをgiとする。励
起コードブック・インデックスの対(i,j)に対応す
る倍率調整された励起ベクトルe(n)は、次のように
表される。
は、次式によって与えられる。
の標本によって占められた副対角要素(subdiagonals)
を有する下半3角行列を表すのに、便宜上、記号Hを用
いる。この行列は、その大きさがLxLではなくKxK
である点を除くと、段落93のH行列と全く同じ形式で
ある。ここで、Kは、励起ベクトルの次元(K≦L、か
つL/K=正の整数)である。式(19)の項を展開す
ると、次式を得る。
コードブック探査の間は固定されるので、Dを最小にす
ることは、次の式を最小かすることに等しい。
れた形状コードベクトルのエネルギーであり、VQ目標
ベクトルx∧(n)には依存しないことに注意を要す
る。また、形状コードベクトルyjは固定であり、行列
HのみがLPCフィルタおよび荷重フィルタ(これら
は、各フレームにわたって固定されている)に依存する
点に注意を要する。都合の良いことに、Ejも各フレー
ムにわたって固定されている。従って、各フレームに1
つ以上の励起ベクトルが含まれる限り、各フレームの最
初に128の可能なエネルギー項Ej(j=0,
1,...,127)を計算して格納しておき、これら
のエネルギー項をそのフレームのすべてのベクトルに繰
り返し使用することにより、計算を節約することができ
る。
る。
探査では、式(25)のD∧を最小にするインデックス
の組み合わせを見つけるために、2つのインデックスi
およびjの可能なすべての組み合わせが調べられる。し
かし、8kbps符号器の利得コードブックの大きは16
kbps符号器のそれの2倍の大きさであるから、そのよ
うな形状と利得の連帯的最適化を行うと、探査の複雑さ
がかなり増大する。従って、最初に最良の形状コードベ
クトルを捜し、次に既に選ばれた形状コードベクトルに
対して最良の利得レベルを決定することによって、複雑
さを軽減するために別の次善の方法を使用する方が有利
である。事実、この方法は、他のほとんどの通常の前方
適応CELP符号器によって使用されている。この周知
の方法においては、最初に、利得giは「流動的」で如
何なる値もとることができると仮定する(即ち、量子化
されていない利得を想定する)。従って、
利得を
*を代入して、
スは、Pj 2/Ejを最大にするインデックスを見つける
ことによって決定される。形状コードブックの選択され
た最良のインデックスjが与えられると、4ビット利得
コードブックを用いて最適利得gi *を直に量子化するこ
とによって、対応する最良の利得インデックスを発見す
ることができる。利得の量子化は、形状コードブックの
探査ループから外れるので、探査の複雑さが大いに軽減
される。一度、最良の形状コードブック・インデックス
およびそれに対応する利得コードブック・インデックス
が特定されると、それら2つのインデックスを連結し
て、単一の11ビットの符号語を形成し、この符号語を
出力ビットストリーム・マルチプレクサに渡す。
み込まれた)コードベクトルHyj(j=0,1,
2,...,127)がすべて同じユークリッド型ノル
ムを持つ場合、前記の順次最適化の原則によって、連帯
的最適化探査方法と同一の出力インデックスiおよびj
が得られる。実際には、行列Hは時間的に変化するの
で、Hyjベクトルは、一般に同じノルムを持たない。
この条件に対する精密な近似は、128の固定されたy
jコードベクトルが同じノルムを持つことを要求するこ
とにより、達成することができる。従って、励起形状コ
ードブックの閉ループ設計の後に、コードベクトルの全
部が単位ユークリッド型ノルムを持つように、コードブ
ックを正規化する。このような正規化手順は、符号化性
能の目立つ劣化の原因とはならない。
化の方法ではなく順次最適化の方法を用いると、励起利
得の量子化が十分な解を持つ限り目立つ性能上の劣化が
ないことに他の研究者は注目してきた。比較的以前の1
6kbpsLD−CELPにおいて、2ビットの強度コー
ドブックに関して、順次最適化を用いると著しい劣化が
有り得ることが分かった。従って、その場合は、形状お
よび利得の連帯的最適化が本当に必要である。一方、8
kbpsLD−CELP符号器では、利得の量子化におい
て一層の解像度を与える3ビットの強度コードブックに
関して、順次最適化による相対的な劣化は小さいので本
質的に無視できることが分かった。
=0,1,2,...,127に対するエネルギーEj
の計算を説明する。Ejの直接計算には、行列とベクト
ルの乗算Hyj、およびこれに続くその結果のK次元ベ
クトルのエネルギー計算が伴う。128個すべてのEj
項に必要な乗法演算の総数は、128x[K(K+1)
/2+K]である。従って、計算上の複雑さは、励起ベ
クトルの次元Kと共に本質的に徐々に増大する。
クトルの次元は、非常に低い(僅か5標本)ので、これ
らのエネルギー項は直接計算することができる。しか
し、8kbps以下のLD−CELP符号器では、使用さ
れる最低のベクトル次元は、16(第1表参照)であ
る。このようなベクトル次元の場合、コードブック・エ
ネルギーの直接計算だけで、AT&TのDSP32Cチ
ップ上で実施するには毎秒約4.8百万命令(MIP
S)がかかる。符号器および復号器におけるコードブッ
ク探査およびその他の仕事を考慮すると、全二重符号器
に必要な対応する全DSP処理能力は、そのような80
nsのDSP32Cで利用できる12.5MIPSを超
える可能性がある。従って、コードブック・エネルギー
の計算の複雑さを軽減することが望ましい。
ブック探査およびコードブック・エネルギーの計算の複
雑さを軽減するべく、いくつかの技法が提案されてき
た。(これらの技法の包括的な概観のためには、「音
響、音声、信号処理に関するIEEE会報(IEEE Tran
s. Acoust.,Speech. Signal Processing)」ASSP-38(8)
p.1330-p.1342(1990年8月)のW.B.クリージ
ン(Kleijn)、D.J.クラシンスキ(Krasinski)、
およびR.H.ケトチャム(Ketchum)による「CEL
P音声符号化アルゴリズムのための高速な方法(Fast m
ethod for the CELP speech coding algorithm)」があ
る。)しかし、これらの技法の多くは、複雑さの軽減を
実現するために励起形状コードブックに組み込まれた特
殊な構造に依存するものである。LD−CELPの場合
は閉ループで仕込まれた励起形状コードブックを用いる
ことが極めて重要であり、さらにこのコードブックは、
反復性のアルゴリズムによって仕込まれるため特殊な構
造を持たないと言う理由から、それらの方法は、LD−
CELPには明らかに不適当である。(注意を要するこ
とであるが、後方適応LPC予測器は、低遅延符号化に
より適しているが、音声波形における冗長性の除去にお
いては通常のCELP符号器の前方適応LPC予測器ほ
ど効率的でないこともある。結論として、励起の符号化
は、所望の精度まで励起の量子化をするという比較的大
きな負荷を持つので、LD−CELP符号器の全体的な
性能にとって、良く仕込まれたコードブックが決定的と
なり得る。)
能な複雑度軽減方法は僅かしかない。それらの大半は、
複雑度を軽減するには非効率的であったり、莫大なメモ
リを必要としたりする。1つの例外は、「音響、音声、
信号処理に関するIEEE国際会議(IEEE Int.Conf.Ac
oust.,Speech. Signal Processing)」会報p.2375-p.23
79(1986年)のI.M.トランコソ(Trancoso)お
よびB.S.アタル(Atal)による「確率的符号器にお
いて最適なイノベーションを発見する効率的な手順(Ef
ficient procedures for finding the optimum innovat
ion in stochastic coders)」に説明されている自己相
関法であり、この方法は、必要なメモリはほどほどに増
加するだけで、計算上も実に効率的である。
ベクトルの次元Kが十分大きいため、加重されたLPC
フィルタのインパルス応答シーケンス{h(k)}は、
kがKに近付くにつれて、ほぼゼロに減衰するものと仮
定する。(この仮定は、Kが40またはそれ以上の場
合、通常のCELP符号器に対して大体成立する。)個
のように仮定すると、エネルギー項Ejは、次のように
近似できる。
h(1),...,h(K−1)]Tのi番目の自己相関係
数であり、次の式で算出される。
己相関係数であり、
目の成分である。従って、128個のK次元ベクトル
は、まずK(K+1)/2回の乗算を用いて、K次元ベ
クトル
個の近似されたコードブック・エネルギー項を
総数は、僅か128[K+K(K+1)/256]であ
り、ベクトルの次元Kと共に、およそ直線的に(直接計
算の場合に2次的であるのに対し)増加する。これに払
う代償は、コードブックのメモリが2倍必要になること
である。2つのテーブルを記憶する必要があるためで、
1つは、形状コードブック自体のもので、他の1つは、
128個の自己相関ベクトルvj(j=0,1,..)
のものである。
sLD−CELPの実施においては許容できるものであ
る。従って、この方法を用いて、コードブック・エネル
ギーの計算の複雑さを実例のレベルである4.8MIP
Sから0.61MIPSへと減少させることができる。
この方法を適用した後は、単一のAT&T DSP32
Cチップ上で全二重符号器を実施することができる。こ
の方法は、一般の実施例において大抵の場合は良く役立
つが、時として、エネルギー項の近似が十分でないこと
もある。このような場合には、コードブック探査に誤り
が起こる可能性があり、不適切な候補の形状コードベク
トルを採用することもある。最終的な結果として、出力
の符号化された音声に、時々ではないが希に劣化した音
節が現れる。この問題の原因は、僅か16または20と
いうベクトルの次元Kでは、kがKに近付くと共にh
(k)がほぼゼロまで減衰するには、すべての場合にお
いて十分に大きいとは限らないことのようである。
・エネルギーを計算する新たな方法が考案された。その
基本概念は、インパルス応答シーケンスをすべて制御す
ることは不可能かも知れないが、128個の固定された
形状コードベクトルyj(j=0、1、2,...,127)
の各々に関する直感的な知識は確かに存在する---従っ
て、それらは前もって処理することができる、というも
のである。この方法を理解するために、
のK次元ベクトルyjとh=[h(0),h(1),h
(2),...,h(K−1)]Tとの間の畳み込み演算の最
初のK個の出力標本である。畳み込みは可換性の演算で
あるから、Ej=‖Hyj‖2と書かずに、
(m−n)に等しく、m<nのとき0に等しいmn番目
の要素を有するKxKの下半3角行列である。これは、
hおよび128個の可能な「インパルス応答ベクトル」
yj(j=0,1,2,...,127)のコードベクトルを
持つことに等しい。従って、自己相関法(式(28)の
右辺)は、ベクトルの終わりに向かって小さな成分を有
するようなyjベクトルに対し、エネルギー項の極めて
良好な近似を生成する。一方、ベクトルの先頭の近くに
比較的小さい成分を有し、終わりに向かって徐々に大き
な成分を有するようなyjベクトルは、実際のインパル
ス応答ベクトルhがどうであれ、常に劣等なエネルギー
近似を生じる傾向がある。これらの「問題を起こす」コ
ードベクトルは、「危険な」コードベクトルと称する。
秘訣は、これらの危険なコードベクトルをコードブック
から識別し、正確な計算によって、それに対応するエネ
ルギー項を得ることである。
るための適切な基準を見つけることは、容易な仕事では
ない。なぜなら、エネルギー近似誤差が、時間で変化す
るインパルス応答ベクトルhの形に依存するからであ
る。次の統計的な方法は採用して好都合であった。エネ
ルギー近似誤差(dB)は、
で定義されている。
とすると、それに対応するエネルギー近似誤差Δjは、
インパルス応答ベクトルhにのみ依存する。実際のLD
−CELP符号化では、ベクトルhは、フレームごとに
変化するので、Δjもフレームごとに変化する。従っ
て、Δjは、確率変数として処理され、その平均および
標準偏差は次のように評価される。8kbpsLD−CE
LP符号器を用いて非常に大きな音声ファイル(仕込用
の集合)を符号化し、計算過程でΔj(j=0,1,
2,...,127)を各フレームに対して計算し、また各
jに対しフレーム全体にわたってΔjおよびΔj 2(n)
の総和を積算する。仕込用の集合にNフレームあるもの
と仮定し、さらにΔj(n)をn番目のフレームにある
Δjの値とする。すると、仕込用の集合を符号化した後
は、Δjの平均(または期待値)が、
えられる。
己相関法のエネルギー近似誤差を小さくすることができ
る。自己相関法によって生成した近似されたコードブッ
ク・エネルギー項E∧jは、常に真のエネルギーEjの過
大な推定値となることが分かる。(つまり、Δj≧0で
ある。)換言すれば、E∧jは、Ejの偏った推定値であ
る。10の−E[Δj]/10乗をE∧jに乗じる(これ
は、E∧jのdB値からE[Δj]を引くことに相当す
る)と、結果的に得られる値は、Ejの偏っていない推
定値となり、エネルギー近似誤差が減少する。
合、それは予測可能性が高く、その平均値は、如何なる
特定のフレームにおいても、その実際の値に対する最良
の推定値として使用することができる。これに対して、
Δjが比較的大きな標準偏差を持つ場合、それは一段と
予測可能性が低く、その平均値を推定値として用いる
と、やはり大きな平均推定値誤差が得られる。従って、
Δjの大きな標準偏差を有するようなコードベクトル
は、「問題を起こす」と考えられる。なぜなら、仮にΔ
jの平均値をもってしても、それらの危険なコードベク
トルは依然として大きなエネルギー近似誤差を生じるか
らである。従って、危険なコードベクトルを識別するた
めの基準としてΔjの平均標準偏差を用いるのは、意味
のあることである。
ても、それらがコードブック全体に分散している場合、
コードブックを進んで行きながら、それらを特別に処理
しようとすることには、かなりの間接的な負担がある。
従って、それらをすべてコードブックの始めに配置する
ことが望ましい。これを行うために、Δjの標準偏差に
基づき、かつΔjの標準偏差がインデックスjの増加と
共に減少するように励起形状コードベクトルを並べ替え
て、ソート(分類)を行う。Δjの平均値も、相応に並
べ替える。図6および7は、分類・並べ替えの後のΔj
の標準偏差および平均をそれぞれ示す。
ックを並べ替えてしまうと、危険なコードベクトルは、
すべてそのコードブックの最初に配置される。一般に実
時間で実施することにより、最初のM個のコードベクト
ルに対する正確なエネルギー計算の実行が可能となると
仮定すると、エネルギー計算の手順は次のとおりであ
る。 1.数30を用いて、j=0,1,2,...,Mに対する
Ejの正確な値を計算する。 2.前記のトランコソおよびアタルの自己相関法を用い
て、エネルギー
ー推定値
て、計算を節約することができる。
が10と小さい場合、音節の劣化という希な事象もすべ
て完全に回避されることが分かった。説明用の実施例に
おいては、M=16、即ちコードブック・サイズの1/
8を使用する。図4から、M>16の場合、エネルギー
近似誤差の標準偏差は1dB以内であることが分かる。
16個の(危険な)コードベクトルの正確なエネルギー
計算には、実証的に約0.6MIPSを要するが、その
他の112のコードベクトルに対する偏らない自己相関
法では、実証的に約0.57MIPSを要する。このよ
うに、コードブックのエネルギー計算の全体的な複雑さ
は、最初の4.8MIPSから1.17MIPSまで減
少した---1/4の縮小である。
は、DSPのソフトウェア開発の完了後にDSPプロセ
ッサの実時間がどれだけ残っているかによってMを10
と128との間のどこにでも選ぶことができると言う点
において、容易に倍率調整ができることである。例え
ば、M=16という初期値を選択しても、実時間で実施
して未使用のプロセッサ時間が生じた場合、実時間が不
足することなく正確に計算されたコードブック・エネル
ギー項をより多く得るために、Mを32に大きくするこ
とも可能である。
明用の実施例による8kbpsLD−CELP符号器は、
図4に示すように音声品質を高めるために後置フィルタ
を有利に使用している。この後置フィルタは、都合良く
長期後置フィルタ、これに続く短期後置フィルタおよび
出力利得制御段からなる。短期後置フィルタおよび出力
利得制御段は、既に引用したチェンおよびガーショウの
論文において提案されたものと本質的に同様であるが、
遊休チャネルの効率を改善するために利得制御段が非線
形倍率調整の付加的な特徴を備えている点が異なる。一
方、長期後置フィルタは、既に引用したチェンの学位論
文に説明されているタイプのものである。
周期およびピッチ・タップの閉ループ連帯最適化によっ
て、量子化されたピッチ周期が決定された場合、復号さ
れたピッチ周期が真のピッチ周期と異なる場合があるこ
とである。これは、閉ループ連帯最適化のために量子化
されたピッチ周期が開ループ抽出ピッチ周期から1乃至
2標本だけ逸れる可能性があるためであり、そのような
逸れたピッチ周期は、タップ・コードブックからのピッ
チ予測器タップのある集合と組み合わされると、全体的
に最も低い知覚的に加重された歪を与えるという理由だ
けで、非常にしばしば選択される。しかし、これは、復
号器の後置フィルタに対しては問題となる。これは、長
期後置フィルタが効率的に作用するために真のピッチ周
期の滑らかな輪郭を必要とするからである。この問題
は、復号器において真のピッチ周期を求める探査を付加
的に行うことによって解決される。所望の真のピッチ周
期の滑らかな輪郭を回復するには、この単純な方法で十
分である。
は、実施にあたり非常に小さな量しか計算を要しない
が、出力音声の知覚的品質には目立った改善を与える。
AT&T DSP32Cプロセッサを用いた本発明の諸
相によって構築された典型的な8kbpsLD−CELP
符号器の実施の一定の構成面および計算面を説明する。
この符号器は、32標本分(4ms)のフレーム・サイ
ズで実施した。
およびメモリ用途を示す。
DSP32Cのプロセッサ時間の80.1%をとるのに
対し、復号器は、12.4%とるだけである。全二重符
号器は、40.91kバイト(または約10kワード)
のメモリを必要とする。この数には、DSP32Cチッ
プ上の1.5kワードのRAMも含まれる。この数は、
別個の半二重の符号器および復号器に必要なメモリの合
計よりかなり低い。これは、符号器および復号器が同一
のDSP32Cチップ上で実施されるとメモリを幾らか
共有することができるからである。
ELP符号器の異なる部分の計算的複雑さを示す。第4
図は、復号器に対する同様の表である。符号器のある部
分(例えば、ピッチ予測器の量子化)の複雑さは、フレ
ームによって変化する。第3および4表に示した複雑さ
は、最悪の場合の数(即ち、可能な最大数)に相当す
る。符号器において、ピッチの周期およびタップの閉ル
ープ連帯量子化は、DSP32Cのプロセッサ時間の2
2.5%を要し、計算が最も集中する動作であるが、良
好な音声品質を達成するために重要な動作でもある。
ト・レートで動作している他の標準的な符号器と対比し
て評価し、この8kbpsLD−CELP符号器が、僅か
に1/5の遅延量で同じ音声品質を与えることが分かっ
た。本発明の実施による8kbpsLD−CELPの4m
sフレーム版に対し、8kbpsの伝送チャネルを仮定
し、さらにピッチ・パラメータに対応するビットが各フ
レームで利用できるようになると直ちに伝送されるもの
と仮定すると、10msに満たない一方向符号化遅延を
容易に達成することができる。同様に、8kbpsLD−
CELPの2.5msフレーム版では、6msと7ms
の間の一方向符号化遅延を、音声品質の劣化も本質的に
なく、得ることができる。
する前記の説明は、大部分8kbpsの実施という点から
進めてきたが、符号器パラメータを幾つか変更すること
によって、8kbps以下のビット・レートについても、
本発明によるLD−CELPの実施を行うことができ
る。例えば、本発明の原理による6.4kbpsのLD−
CELP符号器の音声品質が、最小限の最適化をやり直
すだけで8kbpsLD−CELPのそれと殆ど同様に実
現され、すべて以上の教訓から照らして当分屋の実施者
の技術の範囲内である。さらに、4.8kbpsのビット
・レートにおいて、フレーム・サイズが4.5ms内外
の本発明によるLD−CELP符号器は、30msに及
ぶフレーム・サイズの他のほとんどの4.8kbpsCE
LP符号器に少なくとも匹敵する音声品質を生成する。
ば「x]に「^」を冠した表記などは、本文においては
「x∧」のように記した。
ビット・レート低遅延の符号化および復号が可能とな
る。従来のCELPの僅か1/5程度の遅延で、従来の
CELPと同等の音声品質が与られる。さらに、従来の
技術の複雑さの多くを回避することにより、全二重の符
号器が単一のデジタル信号処理(DSP)チップ上に好
ましい形で実施できる。さらには、本発明の符号化およ
び復号の方式を用いることにより、ビット誤り率が高い
条件の下でも双方向の音声通信を容易に達成することが
できる。
符号器の典型的な実施例である。
復号器の典型的な実施例である。
例を示す図である。
誤差の標準偏差を示す図である。
誤差の平均値を示す図である。
ク 105、215利得調整要素 110、2201タップ長期予測器 115、125、225、235総和器 120、230短期予測器 130 比較器 140 線形予測分析/量子化 150 最小MSE(平均2乗誤差)要素 155 知覚的荷重フィルタ 160 符号器/マルチプレクサ 200 デマルチプレクサ/復号器 240 後置フィルタの係数調節器 245 適応後置フィルタ
Claims (36)
- 【請求項1】 Rキロビット/秒の速度で標本化される
入力信号の標本からなるFミリ秒のフレームをDミリ秒
の符号化遅延で符号化する低遅延CELP符号化方法に
おいて、 それぞれのインデックス信号を有する複数のコードブッ
ク・ベクトルの各々に対し、 利得調整されたベクトルを生成するために、利得因子に
より前記ベクトルを調整するステップと、 合成された候補信号を生成するために、前記入力信号の
長期的特性を反映する長期フィルタおよび前記入力信号
の短期的特性を反映する短期フィルタの縦続接続に前記
の利得調整されたベクトルを適用するステップと、 前記フレームの標本化された入力信号を最適に近似する
候補信号を決定するために、前記候補信号の各々を前記
フレームの標本化された入力信号と比較する比較ステッ
プと、 前記フレームの標本化された入力信号を最適に近似する
候補信号に対応するインデックスを前記フレームの後の
復号に利用できるようにするステップと、 前記の長期フィルタに対するフィルタ・パラメータを生
成する長期パラメータ生成ステップと、 前記の長期フィルタに対するフィルタ・パラメータを前
記フレームの後の復号に利用できるようにする長期パラ
メータ利用ステップと、 前記の短期フィルタに対するフィルタ・パラメータを後
向き適応によって生成する短期パラメータ生成ステップ
とを備えたことを特徴とする低遅延CELP符号化方
法。 - 【請求項2】 前記短期フィルタが、20に満たないN
S個のフィルタ・タップを有するフィルタであり、かつ
前記の短期パラメータ生成ステップが、 前記のNS個のタップの各々に対する係数の値を生成す
るステップを含むことを特徴とする請求項1記載の方
法。 - 【請求項3】 Fが5以下であることを特徴とする請求
項1記載の方法。 - 【請求項4】 Dが10以下であることを特徴とする請
求項1記載の方法。 - 【請求項5】 Rが16未満であることを特徴とする請
求項4記載の方法。 - 【請求項6】 前記利得因子が、後向き適応によって調
整されることを特徴とする請求項2記載の方法。 - 【請求項7】 前記比較ステップが、 各候補信号に対し、前記入力フレームと前記候補信号と
の間の差を表す差信号を形成するステップと、 知覚的により重要な周波数を強調するように加重された
差信号を形成するために、前記の差信号を周波数荷重す
るステップと、 前記の加重された差信号に対する最小値を決定するステ
ップとを備えたことを特徴とする請求項1記載の方法。 - 【請求項8】 その係数が入力フレーム信号の分析によ
って決定されるようなフィルタに前記の差信号を通すこ
とによって、前記の周波数荷重を実現することを特徴と
する請求項7記載の方法。 - 【請求項9】 前記の入力フレーム信号の分析が、量子
化されていない入力フレーム信号のLPC分析からなる
ことを特徴とする請求項8記載の方法。 - 【請求項10】 NS=10であることを特徴とする請
求項2記載の方法。 - 【請求項11】 前記の長期パラメータ生成ステップ
が、 ピッチ周期パラメータおよびNL>1なるNL個のフィ
ルタ・タップの係数パラメータを生成するステップを含
むことを特徴とする請求項1記載の方法。 - 【請求項12】 NL=3であることを特徴とする請求
項11記載の方法。 - 【請求項13】 標本化された入力信号の前記フレーム
が、有声情報列の一部であるか否かを判断する判断ステ
ップと、 標本化された入力信号の前記フレームが、有声情報列の
一部であるとき復号のために、前記長期フィルタに対す
る前記フィルタ・パラメータを利用できるようにするス
テップをさらに備えたことを特徴とする請求項1記載の
方法。 - 【請求項14】 前記判断ステップが、 各フレームに対して有声/非有声の予備的な判断を行う
予備判断ステップと、 現在のフレームおよび所定の数Kの直前のフレームの各
々に対する前記の予備的な判断が非有声である場合、現
在のフレームが有声音声フレームの列の一部ではないと
判断するステップとを備えたことを特徴とする請求項1
3記載の方法。 - 【請求項15】 前記の予備判断ステップが、 入力フレームにある標本にしきい値を設定するステップ
と、 現在の標本に対する値が既存のしきい値に等しいか、そ
れ以下である場合は常に、T<1である所定の因数Tを
既存のしきい値に乗じるサブステップ、および、現在の
標本の値が既存のしきい値を超える場合、しきいを現在
の標本の値に設定するサブステップによって、入力フレ
ームにおいて連続する各標本に対して前記しきいを調節
するステップと、 各入力フレームに対し、そのフレームにおける標本に対
するしきい値に基づいて基準値を形成する基準値形成ス
テップと、 現在のフレームの標本に対する値が前記基準値に関係す
る第1の所定の条件を満たす場合は常に、現在のフレー
ムは有声フレームであるとの判断を下すステップと、 現在のフレームの標本に対する値が前記基準値に関係す
る第2の所定の条件を満たす場合は常に、現在のフレー
ムは非有声フレームであるとの予備的な判断を下すステ
ップとを備えたことを特徴とする請求項14記載の方
法。 - 【請求項16】 前記基準値形成ステップが、 現在のフレームの標本に対し、しきい関数の平均を形成
するステップを含み、 前記の第1の所定の条件が、前記基準値の半分を超える
現在のフレームの標本に対する最大強度を有することか
らなり、 前記の第2の所定の条件が、前記基準値の2%を超えな
い現在のフレームの標本に対し最大強度を有することか
らなり、さらに前記方法が、 タップが1つの予測器に対する最適なタップ値を現在の
入力フレームに基づいて決定するステップと、 前記の第1および第2の所定の条件が満たされず、前記
のタップが1つの予測器のタップ値が所定の値より大き
い場合、前記の現在のフレームは有声フレームであると
判断するステップとを備えたことを特徴とする請求項1
5記載の方法。 - 【請求項17】 前記基準値形成ステップが、 現在のフレームの標本に対し、しきい関数の平均を形成
するステップを含み、 前記の第1の所定の条件が、前記基準値の半分を超える
現在のフレームの標本に対する最大強度を有することか
らなり、 前記の第2の所定の条件が、前記基準値の2%を超えな
い現在のフレームの標本に対し最大強度を有することか
らなり、さらに前記方法が、 現在のフレームの標本の正規化された1次自己相関係数
を決定するステップと、 前記の第1および第2の条件が満たされず、前記の自己
相関係数が所定の値より大きい場合、前記の現在のフレ
ームは有声フレームであると判断するステップとを備え
たことを特徴とする請求項15記載の方法。 - 【請求項18】 前記基準値形成ステップが、 現在のフレームの標本に対し、しきい関数の平均を形成
するステップを含み、 前記の第1の所定の条件が、前記基準値の半分を超える
現在のフレームの標本に対する最大強度を有することか
らなり、 前記の第2の所定の条件が、前記基準値の2%を超えな
い現在のフレームの標本に対し最大強度を有することか
らなり、さらに前記方法が、 現在のフレームの標本全体に対するゼロ交差率を決定す
るステップと、 前記の第1および第2の条件が満たされず、前記のゼロ
交差率が所定の値より大きい場合、前記の現在のフレー
ムは有声フレームであると判断するステップとを備えた
ことを特徴とする請求項15記載の方法。 - 【請求項19】 K=3であることを特徴とする請求項
14記載の方法。 - 【請求項20】 前記長期フィルタに対するピッチ周期
を生成するステップが、 入力フレームの信号のL次LPC分析を行うステップ
と、 予測残差信号を決定するために、前記L次LPC分析に
より生成したフィルタ係数に基づいて前記入力フレーム
信号の逆LPCフィルタ処理を行うステップと、 前記の予測残差信号の関数の相関ピーク採取によって前
記ピッチ周期を抽出する抽出ステップとを備えたことを
特徴とする請求項11記載の方法。 - 【請求項21】 前記予測残差信号の前記関数が、前記
予測残差信号の時間削減され低域通過フィルタを通され
た関数であることを特徴とする請求項20記載の方法。 - 【請求項22】 前記の相関ピーク採取が、可能なピッ
チ周期の持続時間の範囲にわたる時間遅れに対して行わ
れ、かつ前記抽出ステップが、最大の相関を与える時間
遅れを選択するステップを含むことを特徴とする請求項
20記載の方法。 - 【請求項23】 前記の相関ピーク採取が、可能なピッ
チ周期の持続時間の範囲にわたる時間遅れに対して行わ
れ、かつ前記抽出ステップが、 最大の相関を与える時間遅れを選択するステップと、 ピッチ周期の値p0を与えるために、前記の選択された
時間遅れを前記時間処理を補償するように調節するステ
ップとを備えたことを特徴とする請求項21記載の方
法。 - 【請求項24】 基準値として前の周期に対して決定さ
れたピッチ周期を確立するサブステップ、および、前記
のピーク採取において前記基準値の予め選択された範囲
にあるピークによって示されるピッチ周期値p1を現在
のフレームに対して選択するサブステップによって、真
のピッチ周期の不正な倍数を前記の調節された時間遅れ
から除去するステップをさらに備え、かつフレーム列に
おいて重要なピッチ成分を有する最初のフレームに対す
る基準値が、前のピッチ周期値を参照することなく前記
相関関数のピークとして選択されることを特徴とする請
求項23記載の方法。 - 【請求項25】 ピッチ周期p0を有する入力フレーム
に基づいて単一タップ予測器に対する最適タップ荷重を
決定し、さらにそれを0と1との間の範囲に正規化する
ことによって、値W0Nを形成するサブステップと、 ピッチ周期p1を有する入力フレームに基づいて単一タ
ップ予測器に対する最適タップ荷重を決定し、さらにそ
れを0と1との間の範囲に正規化することによって、値
W1Nを形成するサブステップと、 W1NがW0Nの所定の割合に等しいか、またはそれ以
上である場合、正しいピッチ推定値としてp1を選択
し、そでない場合、正しいピッチ推定値としてp0を選
択するサブステップとによって、 前記所定の範囲にあるピッチ周期p1の値と前記所定の
範囲の外にあるピッチ周期p0の値との間で起こり得る
競合を解消するステップをさらに備えたことを特徴とす
る請求項24記載の方法。 - 【請求項26】 前記の所定の割合が、ほぼ0.4に等
しいことを特徴とする請求項25記載の方法。 - 【請求項27】 前記の長期パラメータ利用可能ステッ
プが、 現在のフレームの入力標本からピッチ周期の第1の推定
値を生成するステップと、 前記のピッチ周期の第1の推定値を丸めた表現rを生成
するステップと、 入力フレームの信号のL次LPC分析を実行し、予測残
差信号を決定するために、L次LPC分析によって生成
したフィルタ係数に基づいて前記入力フレーム信号の逆
LPCフィルタ処理を実行し、さらに、前記予測残差信
号の関数の相関ピーク採取によってピッチ周期の第2の
推定値を抽出する開ループ・ステップによって、前記第
2のピッチ周期推定値を生成するステップと、 前記第2のピッチ周期推定値と前記のピッチ周期の第1
の推定値を丸めた表現との間の差を表す差信号を形成す
るステップとを備え、 前記差信号が、予め選択された値より大きい強度を有す
るときには、さらに前記差信号を複数qの所定の値の中
の1つに量子化するステップと、 前記ピッチ周期に対して量子化された値pを、p=r+
qにしたがって形成するステップとを備え、また、 前記差信号が、前記の予め選択された値に等しいか、ま
たはそれに満たない強度を有するときには、さらに前記
のピッチ周期の値の量子化を閉ループ量子化方法で最適
化するステップを備えることを特徴とする請求項11記
載の方法。 - 【請求項28】 前記のピッチ周期の第1の推定値を生
成するステップが、 前記入力フレームに基づいて開ループ・ピッチ予測を形
成するステップを含むことを特徴とする請求項27記載
の方法。 - 【請求項29】 前記の開ループ・ピッチ予測を形成す
るステップが、 前記入力フレームが発声された情報を表す標本から構成
されているかどうかを判断するステップと、 前記入力フレームが発声された入力情報から構成されて
いない場合、前記のピッチ周期の第1の推定値を所定の
値に設定する推定値設定ステップとを備えたことを特徴
とする請求項28記載の方法。 - 【請求項30】 前記の推定値設定ステップが、前記の
ピッチ周期の第1の推定値をピッチ周期の予測される範
囲の下限から約10%と50%との間の値に設定するス
テップを含むことを特徴とする請求項29記載の方法。 - 【請求項31】 前記のピッチ周期パラメータを生成す
るステップが、 前記入力フレームに基づく予測を用いて前記のピッチ周
期の第1の推定値を形成するステップと、 直前のフレームに対するピッチ周期の予測に基づいて第
2の推定値を形成するステップと、 前記の第1および第2の推定値の間の差を表す差信号を
形成するステップと、 前記差信号が、所定の値より大きい場合、量子化された
差信号を形成するために、前記の差の値を固定された複
数の値の中の1つへと量子化するステップと、 前記第2の推定値および前記の量子化された差信号の和
から前記ピッチ周期を得るステップとを備えたことを特
徴とする請求項11記載の方法。 - 【請求項32】 前記の第2の推定値を形成するステッ
プが、 直前のフレームに対する予測値の値を遅らせるステップ
と、 バイアスで調節した値を与えるために、前記の遅らせた
値から固定されたピッチ・バイアス値を減ずるステップ
と、 大きさを調節した値を形成するために、前記のバイアス
で調節した値の大きさを調節するステップと、 予測ピッチ周期信号を形成するために、前記の固定され
たピッチ・バイアス値を前記の大きさを調節した値に加
えるステップとを備えたことを特徴とする請求項31記
載の方法。 - 【請求項33】 丸められた予測ピッチ値を形成するた
めに、前記の予測されたピッチ周期信号を丸めるステッ
プをさらに備えたことを特徴とする請求項32記載の方
法。 - 【請求項34】 前記の長期パラメータ生成ステップ
が、 前記の入力信号のフレームが、有声情報を表さない場
合、入力信号の特定の値に依存しない固定された所定の
値に前記フィルタ・パラメータを設定するステップを含
むことを特徴とする請求項13記載の方法。 - 【請求項35】 前記の長期パラメータ生成ステップ
が、 前記のピッチ周期パラメータを、有声情報を含む入力フ
レームに対するピッチ周期の値の予測される範囲の下限
から約10%と50%との間の値に設定するステップを
含むことを特徴とする請求項34記載の方法。 - 【請求項36】 前記の入力信号のフレームが、有声信
号を表さない場合、フィルタ・タップ係数をゼロの値に
等しく設定するステップをさらに備えたことを特徴とす
る請求項35記載の方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US07/757,168 US5233660A (en) | 1991-09-10 | 1991-09-10 | Method and apparatus for low-delay celp speech coding and decoding |
US757168 | 1991-09-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0750586A JPH0750586A (ja) | 1995-02-21 |
JP2971266B2 true JP2971266B2 (ja) | 1999-11-02 |
Family
ID=25046668
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP4266900A Expired - Lifetime JP2971266B2 (ja) | 1991-09-10 | 1992-09-10 | 低遅延celp符号化方法 |
Country Status (5)
Country | Link |
---|---|
US (4) | US5233660A (ja) |
EP (1) | EP0532225B1 (ja) |
JP (1) | JP2971266B2 (ja) |
DE (1) | DE69230329T2 (ja) |
ES (1) | ES2141720T3 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7467083B2 (en) | 2001-01-25 | 2008-12-16 | Sony Corporation | Data processing apparatus |
Families Citing this family (194)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2010830C (en) * | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
US5754976A (en) * | 1990-02-23 | 1998-05-19 | Universite De Sherbrooke | Algebraic codebook with signal-selected pulse amplitude/position combinations for fast coding of speech |
US5701392A (en) * | 1990-02-23 | 1997-12-23 | Universite De Sherbrooke | Depth-first algebraic-codebook search for fast coding of speech |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
SE469764B (sv) * | 1992-01-27 | 1993-09-06 | Ericsson Telefon Ab L M | Saett att koda en samplad talsignalvektor |
US5694519A (en) * | 1992-02-18 | 1997-12-02 | Lucent Technologies, Inc. | Tunable post-filter for tandem coders |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
US5513297A (en) * | 1992-07-10 | 1996-04-30 | At&T Corp. | Selective application of speech coding techniques to input signal segments |
IT1257065B (it) * | 1992-07-31 | 1996-01-05 | Sip | Codificatore a basso ritardo per segnali audio, utilizzante tecniche di analisi per sintesi. |
US5717824A (en) * | 1992-08-07 | 1998-02-10 | Pacific Communication Sciences, Inc. | Adaptive speech coder having code excited linear predictor with multiple codebook searches |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
US5455888A (en) * | 1992-12-04 | 1995-10-03 | Northern Telecom Limited | Speech bandwidth extension method and apparatus |
JP2947685B2 (ja) * | 1992-12-17 | 1999-09-13 | シャープ株式会社 | 音声コーデック装置 |
US5864560A (en) | 1993-01-08 | 1999-01-26 | Multi-Tech Systems, Inc. | Method and apparatus for mode switching in a voice over data computer-based personal communications system |
US6009082A (en) | 1993-01-08 | 1999-12-28 | Multi-Tech Systems, Inc. | Computer-based multifunction personal communication system with caller ID |
US5453986A (en) | 1993-01-08 | 1995-09-26 | Multi-Tech Systems, Inc. | Dual port interface for a computer-based multifunction personal communication system |
US5812534A (en) | 1993-01-08 | 1998-09-22 | Multi-Tech Systems, Inc. | Voice over data conferencing for a computer-based personal communications system |
US5535204A (en) | 1993-01-08 | 1996-07-09 | Multi-Tech Systems, Inc. | Ringdown and ringback signalling for a computer-based multifunction personal communications system |
US5754589A (en) | 1993-01-08 | 1998-05-19 | Multi-Tech Systems, Inc. | Noncompressed voice and data communication over modem for a computer-based multifunction personal communications system |
US5617423A (en) | 1993-01-08 | 1997-04-01 | Multi-Tech Systems, Inc. | Voice over data modem with selectable voice compression |
US5452289A (en) | 1993-01-08 | 1995-09-19 | Multi-Tech Systems, Inc. | Computer-based multifunction personal communications system |
US5546395A (en) | 1993-01-08 | 1996-08-13 | Multi-Tech Systems, Inc. | Dynamic selection of compression rate for a voice compression algorithm in a voice over data modem |
US5526464A (en) * | 1993-04-29 | 1996-06-11 | Northern Telecom Limited | Reducing search complexity for code-excited linear prediction (CELP) coding |
WO1994025959A1 (en) * | 1993-04-29 | 1994-11-10 | Unisearch Limited | Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems |
FI96248C (fi) * | 1993-05-06 | 1996-05-27 | Nokia Mobile Phones Ltd | Menetelmä pitkän aikavälin synteesisuodattimen toteuttamiseksi sekä synteesisuodatin puhekoodereihin |
DE4315319C2 (de) * | 1993-05-07 | 2002-11-14 | Bosch Gmbh Robert | Verfahren zur Aufbereitung von Daten, insbesondere von codierten Sprachsignalparametern |
IT1270438B (it) * | 1993-06-10 | 1997-05-05 | Sip | Procedimento e dispositivo per la determinazione del periodo del tono fondamentale e la classificazione del segnale vocale in codificatori numerici della voce |
JP2658816B2 (ja) * | 1993-08-26 | 1997-09-30 | 日本電気株式会社 | 音声のピッチ符号化装置 |
CA2136891A1 (en) * | 1993-12-20 | 1995-06-21 | Kalyan Ganesan | Removal of swirl artifacts from celp based speech coders |
CN1139988A (zh) * | 1994-02-01 | 1997-01-08 | 夸尔柯姆股份有限公司 | 猝发脉冲激励的线性预测 |
CA2142391C (en) * | 1994-03-14 | 2001-05-29 | Juin-Hwey Chen | Computational complexity reduction during frame erasure or packet loss |
US5757801A (en) | 1994-04-19 | 1998-05-26 | Multi-Tech Systems, Inc. | Advanced priority statistical multiplexer |
US5682386A (en) | 1994-04-19 | 1997-10-28 | Multi-Tech Systems, Inc. | Data/voice/fax compression multiplexer |
GB9408037D0 (en) * | 1994-04-22 | 1994-06-15 | Philips Electronics Uk Ltd | Analogue signal coder |
US5487087A (en) * | 1994-05-17 | 1996-01-23 | Texas Instruments Incorporated | Signal quantizer with reduced output fluctuation |
JPH0896514A (ja) * | 1994-07-28 | 1996-04-12 | Sony Corp | オーディオ信号処理装置 |
CA2154911C (en) * | 1994-08-02 | 2001-01-02 | Kazunori Ozawa | Speech coding device |
TW271524B (ja) * | 1994-08-05 | 1996-03-01 | Qualcomm Inc | |
DE69526017T2 (de) * | 1994-09-30 | 2002-11-21 | Kabushiki Kaisha Toshiba, Kawasaki | Vorrichtung zur Vektorquantisierung |
US5550543A (en) * | 1994-10-14 | 1996-08-27 | Lucent Technologies Inc. | Frame erasure or packet loss compensation method |
US5704000A (en) * | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
US5751903A (en) * | 1994-12-19 | 1998-05-12 | Hughes Electronics | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset |
JP3087591B2 (ja) * | 1994-12-27 | 2000-09-11 | 日本電気株式会社 | 音声符号化装置 |
US5978783A (en) * | 1995-01-10 | 1999-11-02 | Lucent Technologies Inc. | Feedback control system for telecommunications systems |
SE504010C2 (sv) * | 1995-02-08 | 1996-10-14 | Ericsson Telefon Ab L M | Förfarande och anordning för prediktiv kodning av tal- och datasignaler |
US5708756A (en) * | 1995-02-24 | 1998-01-13 | Industrial Technology Research Institute | Low delay, middle bit rate speech coder |
CN1155942C (zh) * | 1995-05-10 | 2004-06-30 | 皇家菲利浦电子有限公司 | 具有改进的音调检测的编码语音传输系统和方法 |
US5649051A (en) * | 1995-06-01 | 1997-07-15 | Rothweiler; Joseph Harvey | Constant data rate speech encoder for limited bandwidth path |
US5668925A (en) * | 1995-06-01 | 1997-09-16 | Martin Marietta Corporation | Low data rate speech encoder with mixed excitation |
US5822724A (en) * | 1995-06-14 | 1998-10-13 | Nahumi; Dror | Optimized pulse location in codebook searching techniques for speech processing |
GB9512284D0 (en) * | 1995-06-16 | 1995-08-16 | Nokia Mobile Phones Ltd | Speech Synthesiser |
US5664054A (en) * | 1995-09-29 | 1997-09-02 | Rockwell International Corporation | Spike code-excited linear prediction |
JP2861889B2 (ja) * | 1995-10-18 | 1999-02-24 | 日本電気株式会社 | 音声パケット伝送システム |
JP3680380B2 (ja) * | 1995-10-26 | 2005-08-10 | ソニー株式会社 | 音声符号化方法及び装置 |
JP3653826B2 (ja) * | 1995-10-26 | 2005-06-02 | ソニー株式会社 | 音声復号化方法及び装置 |
KR0155315B1 (ko) * | 1995-10-31 | 1998-12-15 | 양승택 | Lsp를 이용한 celp보코더의 피치 검색방법 |
ATE192259T1 (de) * | 1995-11-09 | 2000-05-15 | Nokia Mobile Phones Ltd | Verfahren zur synthetisierung eines sprachsignalblocks in einem celp-kodierer |
TW317051B (ja) * | 1996-02-15 | 1997-10-01 | Philips Electronics Nv | |
US5864795A (en) * | 1996-02-20 | 1999-01-26 | Advanced Micro Devices, Inc. | System and method for error correction in a correlation-based pitch estimator |
US5696873A (en) * | 1996-03-18 | 1997-12-09 | Advanced Micro Devices, Inc. | Vocoder system and method for performing pitch estimation using an adaptive correlation sample window |
US6636641B1 (en) | 1996-03-19 | 2003-10-21 | Mitsubishi Denki Kabushiki Kaisha | Encoding apparatus, decoding apparatus, encoding method and decoding method |
US6744925B2 (en) | 1996-03-19 | 2004-06-01 | Mitsubishi Denki Kabushiki Kaisha | Encoding apparatus, decoding apparatus, encoding method, and decoding method |
AU1041097A (en) * | 1996-03-19 | 1997-10-10 | Mitsubishi Denki Kabushiki Kaisha | Encoder, decoder and methods used therefor |
JP2940464B2 (ja) * | 1996-03-27 | 1999-08-25 | 日本電気株式会社 | 音声復号化装置 |
SE506341C2 (sv) * | 1996-04-10 | 1997-12-08 | Ericsson Telefon Ab L M | Metod och anordning för rekonstruktion av en mottagen talsignal |
US5960386A (en) * | 1996-05-17 | 1999-09-28 | Janiszewski; Thomas John | Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook |
KR100389895B1 (ko) * | 1996-05-25 | 2003-11-28 | 삼성전자주식회사 | 음성 부호화 및 복호화방법 및 그 장치 |
JP4040126B2 (ja) * | 1996-09-20 | 2008-01-30 | ソニー株式会社 | 音声復号化方法および装置 |
JPH10105194A (ja) * | 1996-09-27 | 1998-04-24 | Sony Corp | ピッチ検出方法、音声信号符号化方法および装置 |
GB2318029B (en) * | 1996-10-01 | 2000-11-08 | Nokia Mobile Phones Ltd | Audio coding method and apparatus |
EP1071081B1 (en) * | 1996-11-07 | 2002-05-08 | Matsushita Electric Industrial Co., Ltd. | Vector quantization codebook generation method |
FI964975A (fi) * | 1996-12-12 | 1998-06-13 | Nokia Mobile Phones Ltd | Menetelmä ja laite puheen koodaamiseksi |
US6516299B1 (en) | 1996-12-20 | 2003-02-04 | Qwest Communication International, Inc. | Method, system and product for modifying the dynamic range of encoded audio signals |
US5845251A (en) * | 1996-12-20 | 1998-12-01 | U S West, Inc. | Method, system and product for modifying the bandwidth of subband encoded audio data |
US5864820A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for mixing of encoded audio signals |
US5864813A (en) * | 1996-12-20 | 1999-01-26 | U S West, Inc. | Method, system and product for harmonic enhancement of encoded audio signals |
US6477496B1 (en) | 1996-12-20 | 2002-11-05 | Eliot M. Case | Signal synthesis by decoding subband scale factors from one audio signal and subband samples from different one |
US6463405B1 (en) | 1996-12-20 | 2002-10-08 | Eliot M. Case | Audiophile encoding of digital audio data using 2-bit polarity/magnitude indicator and 8-bit scale factor for each subband |
US6782365B1 (en) | 1996-12-20 | 2004-08-24 | Qwest Communications International Inc. | Graphic interface system and product for editing encoded audio data |
US6202046B1 (en) * | 1997-01-23 | 2001-03-13 | Kabushiki Kaisha Toshiba | Background noise/speech classification method |
JP3067676B2 (ja) * | 1997-02-13 | 2000-07-17 | 日本電気株式会社 | Lspの予測符号化装置及び方法 |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
JP3064947B2 (ja) * | 1997-03-26 | 2000-07-12 | 日本電気株式会社 | 音声・楽音符号化及び復号化装置 |
PL193825B1 (pl) * | 1997-04-07 | 2007-03-30 | Koninkl Philips Electronics Nv | Sposób i urządzenie do kodowania sygnału mowy |
FR2762464B1 (fr) * | 1997-04-16 | 1999-06-25 | France Telecom | Procede et dispositif de codage d'un signal audiofrequence par analyse lpc "avant" et "arriere" |
CN1145925C (zh) * | 1997-07-11 | 2004-04-14 | 皇家菲利浦电子有限公司 | 具有改进语音编码器和解码器的发射机 |
US6161086A (en) * | 1997-07-29 | 2000-12-12 | Texas Instruments Incorporated | Low-complexity speech coding with backward and inverse filtered target matching and a tree structured mutitap adaptive codebook search |
US5976457A (en) * | 1997-08-19 | 1999-11-02 | Amaya; Herman E. | Method for fabrication of molds and mold components |
US6021228A (en) * | 1997-10-14 | 2000-02-01 | Netscape Communications Corporation | Integer-only short-filter length signal analysis/synthesis method and apparatus |
EP1746583B1 (en) * | 1997-10-22 | 2008-09-17 | Matsushita Electric Industrial Co., Ltd. | Sound encoder and sound decoder |
JP3553356B2 (ja) * | 1998-02-23 | 2004-08-11 | パイオニア株式会社 | 線形予測パラメータのコードブック設計方法及び線形予測パラメータ符号化装置並びにコードブック設計プログラムが記録された記録媒体 |
FI113571B (fi) * | 1998-03-09 | 2004-05-14 | Nokia Corp | Puheenkoodaus |
US6098037A (en) * | 1998-05-19 | 2000-08-01 | Texas Instruments Incorporated | Formant weighted vector quantization of LPC excitation harmonic spectral amplitudes |
GB2338630B (en) * | 1998-06-20 | 2000-07-26 | Motorola Ltd | Speech decoder and method of operation |
US6493665B1 (en) * | 1998-08-24 | 2002-12-10 | Conexant Systems, Inc. | Speech classification and parameter weighting used in codebook search |
US6480822B2 (en) * | 1998-08-24 | 2002-11-12 | Conexant Systems, Inc. | Low complexity random codebook structure |
US6823303B1 (en) * | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6507814B1 (en) * | 1998-08-24 | 2003-01-14 | Conexant Systems, Inc. | Pitch determination using speech classification and prior pitch estimation |
US6275798B1 (en) * | 1998-09-16 | 2001-08-14 | Telefonaktiebolaget L M Ericsson | Speech coding with improved background noise reproduction |
US6397178B1 (en) * | 1998-09-18 | 2002-05-28 | Conexant Systems, Inc. | Data organizational scheme for enhanced selection of gain parameters for speech coding |
FR2790343B1 (fr) * | 1999-02-26 | 2001-06-01 | Thomson Csf | Systeme pour l'estimation du gain complexe d'un canal de transmission |
US6295520B1 (en) * | 1999-03-15 | 2001-09-25 | Tritech Microelectronics Ltd. | Multi-pulse synthesis simplification in analysis-by-synthesis coders |
US6260017B1 (en) * | 1999-05-07 | 2001-07-10 | Qualcomm Inc. | Multipulse interpolative coding of transition speech frames |
FI116992B (fi) * | 1999-07-05 | 2006-04-28 | Nokia Corp | Menetelmät, järjestelmä ja laitteet audiosignaalin koodauksen ja siirron tehostamiseksi |
US6581032B1 (en) * | 1999-09-22 | 2003-06-17 | Conexant Systems, Inc. | Bitstream protocol for transmission of encoded voice signals |
US6604070B1 (en) * | 1999-09-22 | 2003-08-05 | Conexant Systems, Inc. | System of encoding and decoding speech signals |
US6782360B1 (en) * | 1999-09-22 | 2004-08-24 | Mindspeed Technologies, Inc. | Gain quantization for a CELP speech coder |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US6370500B1 (en) * | 1999-09-30 | 2002-04-09 | Motorola, Inc. | Method and apparatus for non-speech activity reduction of a low bit rate digital voice message |
JP3594854B2 (ja) | 1999-11-08 | 2004-12-02 | 三菱電機株式会社 | 音声符号化装置及び音声復号化装置 |
USRE43209E1 (en) | 1999-11-08 | 2012-02-21 | Mitsubishi Denki Kabushiki Kaisha | Speech coding apparatus and speech decoding apparatus |
US7006787B1 (en) * | 2000-02-14 | 2006-02-28 | Lucent Technologies Inc. | Mobile to mobile digital wireless connection having enhanced voice quality |
ATE420432T1 (de) * | 2000-04-24 | 2009-01-15 | Qualcomm Inc | Verfahren und vorrichtung zur prädiktiven quantisierung von stimmhaften sprachsignalen |
JP2002062899A (ja) * | 2000-08-23 | 2002-02-28 | Sony Corp | データ処理装置およびデータ処理方法、学習装置および学習方法、並びに記録媒体 |
EP1944759B1 (en) * | 2000-08-09 | 2010-10-20 | Sony Corporation | Voice data processing device and processing method |
US7283961B2 (en) | 2000-08-09 | 2007-10-16 | Sony Corporation | High-quality speech synthesis device and method by classification and prediction processing of synthesized sound |
JP4517262B2 (ja) * | 2000-11-14 | 2010-08-04 | ソニー株式会社 | 音声処理装置および音声処理方法、学習装置および学習方法、並びに記録媒体 |
US7412381B1 (en) | 2000-09-14 | 2008-08-12 | Lucent Technologies Inc. | Method and apparatus for diversity control in multiple description voice communication |
EP1195745B1 (en) * | 2000-09-14 | 2003-03-19 | Lucent Technologies Inc. | Method and apparatus for diversity control in multiple description voice communication |
US6937979B2 (en) * | 2000-09-15 | 2005-08-30 | Mindspeed Technologies, Inc. | Coding based on spectral content of a speech signal |
US6850884B2 (en) * | 2000-09-15 | 2005-02-01 | Mindspeed Technologies, Inc. | Selection of coding parameters based on spectral content of a speech signal |
US6842733B1 (en) | 2000-09-15 | 2005-01-11 | Mindspeed Technologies, Inc. | Signal processing system for filtering spectral content of a signal for speech coding |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
FR2815457B1 (fr) * | 2000-10-18 | 2003-02-14 | Thomson Csf | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
US7171355B1 (en) | 2000-10-25 | 2007-01-30 | Broadcom Corporation | Method and apparatus for one-stage and two-stage noise feedback coding of speech and audio signals |
US7478042B2 (en) * | 2000-11-30 | 2009-01-13 | Panasonic Corporation | Speech decoder that detects stationary noise signal regions |
US6804218B2 (en) | 2000-12-04 | 2004-10-12 | Qualcomm Incorporated | Method and apparatus for improved detection of rate errors in variable rate receivers |
US7505594B2 (en) * | 2000-12-19 | 2009-03-17 | Qualcomm Incorporated | Discontinuous transmission (DTX) controller system and method |
US6804350B1 (en) * | 2000-12-21 | 2004-10-12 | Cisco Technology, Inc. | Method and apparatus for improving echo cancellation in non-voip systems |
JP4857468B2 (ja) | 2001-01-25 | 2012-01-18 | ソニー株式会社 | データ処理装置およびデータ処理方法、並びにプログラムおよび記録媒体 |
US6996522B2 (en) * | 2001-03-13 | 2006-02-07 | Industrial Technology Research Institute | Celp-Based speech coding for fine grain scalability by altering sub-frame pitch-pulse |
US7110942B2 (en) * | 2001-08-14 | 2006-09-19 | Broadcom Corporation | Efficient excitation quantization in a noise feedback coding system using correlation techniques |
US7647223B2 (en) * | 2001-08-16 | 2010-01-12 | Broadcom Corporation | Robust composite quantization with sub-quantizers and inverse sub-quantizers using illegal space |
US7610198B2 (en) * | 2001-08-16 | 2009-10-27 | Broadcom Corporation | Robust quantization with efficient WMSE search of a sign-shape codebook using illegal space |
US7617096B2 (en) * | 2001-08-16 | 2009-11-10 | Broadcom Corporation | Robust quantization and inverse quantization using illegal space |
DE60217522T2 (de) * | 2001-08-17 | 2007-10-18 | Broadcom Corp., Irvine | Verbessertes verfahren zur verschleierung von bitfehlern bei der sprachcodierung |
US6985857B2 (en) * | 2001-09-27 | 2006-01-10 | Motorola, Inc. | Method and apparatus for speech coding using training and quantizing |
US7512535B2 (en) * | 2001-10-03 | 2009-03-31 | Broadcom Corporation | Adaptive postfiltering methods and systems for decoding speech |
US7386447B2 (en) * | 2001-11-02 | 2008-06-10 | Texas Instruments Incorporated | Speech coder and method |
US7206740B2 (en) * | 2002-01-04 | 2007-04-17 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
US20030216921A1 (en) * | 2002-05-16 | 2003-11-20 | Jianghua Bao | Method and system for limited domain text to speech (TTS) processing |
CN100369111C (zh) * | 2002-10-31 | 2008-02-13 | 富士通株式会社 | 话音增强装置 |
US7047188B2 (en) * | 2002-11-08 | 2006-05-16 | Motorola, Inc. | Method and apparatus for improvement coding of the subframe gain in a speech coding system |
US7054807B2 (en) | 2002-11-08 | 2006-05-30 | Motorola, Inc. | Optimizing encoder for efficiently determining analysis-by-synthesis codebook-related parameters |
US8352248B2 (en) * | 2003-01-03 | 2013-01-08 | Marvell International Ltd. | Speech compression method and apparatus |
US6961696B2 (en) * | 2003-02-07 | 2005-11-01 | Motorola, Inc. | Class quantization for distributed speech recognition |
GB2400003B (en) * | 2003-03-22 | 2005-03-09 | Motorola Inc | Pitch estimation within a speech signal |
KR20050008356A (ko) * | 2003-07-15 | 2005-01-21 | 한국전자통신연구원 | 음성의 상호부호화시 선형 예측을 이용한 피치 지연 변환장치 및 방법 |
US7478040B2 (en) * | 2003-10-24 | 2009-01-13 | Broadcom Corporation | Method for adaptive filtering |
US8473286B2 (en) * | 2004-02-26 | 2013-06-25 | Broadcom Corporation | Noise feedback coding system and method for providing generalized noise shaping within a simple filter structure |
GB0416720D0 (en) * | 2004-07-27 | 2004-09-01 | British Telecomm | Method and system for voice over IP streaming optimisation |
US7475011B2 (en) * | 2004-08-25 | 2009-01-06 | Microsoft Corporation | Greedy algorithm for identifying values for vocal tract resonance vectors |
US20060136202A1 (en) * | 2004-12-16 | 2006-06-22 | Texas Instruments, Inc. | Quantization of excitation vector |
KR100703325B1 (ko) * | 2005-01-14 | 2007-04-03 | 삼성전자주식회사 | 음성패킷 전송율 변환 장치 및 방법 |
US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
US20060217983A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for injecting comfort noise in a communications system |
CN101395661B (zh) | 2006-03-07 | 2013-02-06 | 艾利森电话股份有限公司 | 音频编码和解码的方法和设备 |
DE102006022346B4 (de) * | 2006-05-12 | 2008-02-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Informationssignalcodierung |
US7852792B2 (en) * | 2006-09-19 | 2010-12-14 | Alcatel-Lucent Usa Inc. | Packet based echo cancellation and suppression |
US20080103765A1 (en) * | 2006-11-01 | 2008-05-01 | Nokia Corporation | Encoder Delay Adjustment |
KR100883656B1 (ko) * | 2006-12-28 | 2009-02-18 | 삼성전자주식회사 | 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치 |
US8457953B2 (en) * | 2007-03-05 | 2013-06-04 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and arrangement for smoothing of stationary background noise |
JP4882899B2 (ja) * | 2007-07-25 | 2012-02-22 | ソニー株式会社 | 音声解析装置、および音声解析方法、並びにコンピュータ・プログラム |
US20090094026A1 (en) * | 2007-10-03 | 2009-04-09 | Binshi Cao | Method of determining an estimated frame energy of a communication |
KR20090122143A (ko) * | 2008-05-23 | 2009-11-26 | 엘지전자 주식회사 | 오디오 신호 처리 방법 및 장치 |
US20090319261A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US20090319263A1 (en) * | 2008-06-20 | 2009-12-24 | Qualcomm Incorporated | Coding of transitional speech frames for low-bit-rate applications |
US8768690B2 (en) * | 2008-06-20 | 2014-07-01 | Qualcomm Incorporated | Coding scheme selection for low-bit-rate applications |
US20090314154A1 (en) * | 2008-06-20 | 2009-12-24 | Microsoft Corporation | Game data generation based on user provided song |
CA2972808C (en) | 2008-07-10 | 2018-12-18 | Voiceage Corporation | Multi-reference lpc filter quantization and inverse quantization device and method |
US20100063816A1 (en) * | 2008-09-07 | 2010-03-11 | Ronen Faifkov | Method and System for Parsing of a Speech Signal |
CN101599272B (zh) * | 2008-12-30 | 2011-06-08 | 华为技术有限公司 | 基音搜索方法及装置 |
GB2466668A (en) * | 2009-01-06 | 2010-07-07 | Skype Ltd | Speech filtering |
AU2009353896B2 (en) | 2009-10-15 | 2013-05-23 | Widex A/S | Hearing aid with audio codec and method |
US8280726B2 (en) * | 2009-12-23 | 2012-10-02 | Qualcomm Incorporated | Gender detection in mobile phones |
WO2012153165A1 (en) * | 2011-05-06 | 2012-11-15 | Nokia Corporation | A pitch estimator |
US9418671B2 (en) * | 2013-08-15 | 2016-08-16 | Huawei Technologies Co., Ltd. | Adaptive high-pass post-filter |
US10251002B2 (en) * | 2016-03-21 | 2019-04-02 | Starkey Laboratories, Inc. | Noise characterization and attenuation using linear predictive coding |
US10283143B2 (en) * | 2016-04-08 | 2019-05-07 | Friday Harbor Llc | Estimating pitch of harmonic signals |
EP3483882A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Controlling bandwidth in encoders and/or decoders |
EP3483886A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Selecting pitch lag |
EP3483879A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Analysis/synthesis windowing function for modulated lapped transformation |
EP3483880A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Temporal noise shaping |
WO2019091573A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters |
WO2019091576A1 (en) | 2017-11-10 | 2019-05-16 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits |
EP3483884A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Signal filtering |
EP3483878A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio decoder supporting a set of different loss concealment tools |
EP3483883A1 (en) | 2017-11-10 | 2019-05-15 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coding and decoding with selective postfiltering |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL177950C (nl) * | 1978-12-14 | 1986-07-16 | Philips Nv | Spraakanalysesysteem voor het bepalen van de toonhoogte in menselijke spraak. |
JPS5918717B2 (ja) * | 1979-02-28 | 1984-04-28 | ケイディディ株式会社 | 適応形ピツチ抽出方式 |
US4696038A (en) * | 1983-04-13 | 1987-09-22 | Texas Instruments Incorporated | Voice messaging system with unified pitch and voice tracking |
NL8400552A (nl) * | 1984-02-22 | 1985-09-16 | Philips Nv | Systeem voor het analyseren van menselijke spraak. |
JPS63214032A (ja) * | 1987-03-02 | 1988-09-06 | Fujitsu Ltd | 符号化伝送装置 |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
US4868867A (en) * | 1987-04-06 | 1989-09-19 | Voicecraft Inc. | Vector excitation speech or audio coder for transmission or storage |
US5125030A (en) * | 1987-04-13 | 1992-06-23 | Kokusai Denshin Denwa Co., Ltd. | Speech signal coding/decoding system based on the type of speech signal |
US4809334A (en) * | 1987-07-09 | 1989-02-28 | Communications Satellite Corporation | Method for detection and correction of errors in speech pitch period estimates |
JP2968530B2 (ja) * | 1988-01-05 | 1999-10-25 | 日本電気株式会社 | 適応ピッチ予測方法 |
EP0331857B1 (en) * | 1988-03-08 | 1992-05-20 | International Business Machines Corporation | Improved low bit rate voice coding method and system |
US4991213A (en) * | 1988-05-26 | 1991-02-05 | Pacific Communication Sciences, Inc. | Speech specific adaptive transform coder |
US5018200A (en) * | 1988-09-21 | 1991-05-21 | Nec Corporation | Communication system capable of improving a speech quality by classifying speech signals |
US5321636A (en) * | 1989-03-03 | 1994-06-14 | U.S. Philips Corporation | Method and arrangement for determining signal pitch |
US4963034A (en) * | 1989-06-01 | 1990-10-16 | Simon Fraser University | Low-delay vector backward predictive coding of speech |
EP0401452B1 (en) * | 1989-06-07 | 1994-03-23 | International Business Machines Corporation | Low-delay low-bit-rate speech coder |
IL95753A (en) * | 1989-10-17 | 1994-11-11 | Motorola Inc | Digits a digital speech |
CA2010830C (en) * | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
GB9007788D0 (en) * | 1990-04-06 | 1990-06-06 | Foss Richard C | Dynamic memory bitline precharge scheme |
CA2051304C (en) * | 1990-09-18 | 1996-03-05 | Tomohiko Taniguchi | Speech coding and decoding system |
US5138661A (en) * | 1990-11-13 | 1992-08-11 | General Electric Company | Linear predictive codeword excited speech synthesizer |
US5195137A (en) * | 1991-01-28 | 1993-03-16 | At&T Bell Laboratories | Method of and apparatus for generating auxiliary information for expediting sparse codebook search |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
US5339384A (en) * | 1992-02-18 | 1994-08-16 | At&T Bell Laboratories | Code-excited linear predictive coding with low delay for speech or audio signals |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
US5313554A (en) * | 1992-06-16 | 1994-05-17 | At&T Bell Laboratories | Backward gain adaptation method in code excited linear prediction coders |
-
1991
- 1991-09-10 US US07/757,168 patent/US5233660A/en not_active Expired - Lifetime
-
1992
- 1992-09-03 EP EP92307997A patent/EP0532225B1/en not_active Expired - Lifetime
- 1992-09-03 ES ES92307997T patent/ES2141720T3/es not_active Expired - Lifetime
- 1992-09-03 DE DE69230329T patent/DE69230329T2/de not_active Expired - Lifetime
- 1992-09-10 JP JP4266900A patent/JP2971266B2/ja not_active Expired - Lifetime
-
1993
- 1993-05-03 US US08/057,068 patent/US5651091A/en not_active Expired - Lifetime
-
1995
- 1995-11-29 US US08/564,610 patent/US5745871A/en not_active Expired - Lifetime
- 1995-11-29 US US08/564,611 patent/US5680507A/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7467083B2 (en) | 2001-01-25 | 2008-12-16 | Sony Corporation | Data processing apparatus |
Also Published As
Publication number | Publication date |
---|---|
US5745871A (en) | 1998-04-28 |
EP0532225A3 (en) | 1993-10-13 |
US5680507A (en) | 1997-10-21 |
DE69230329T2 (de) | 2001-09-06 |
US5651091A (en) | 1997-07-22 |
DE69230329D1 (de) | 1999-12-30 |
EP0532225A2 (en) | 1993-03-17 |
EP0532225B1 (en) | 1999-11-24 |
US5233660A (en) | 1993-08-03 |
JPH0750586A (ja) | 1995-02-21 |
ES2141720T3 (es) | 2000-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2971266B2 (ja) | 低遅延celp符号化方法 | |
Gersho | Advances in speech and audio compression | |
CN100369112C (zh) | 可变速率语音编码 | |
US6073092A (en) | Method for speech coding based on a code excited linear prediction (CELP) model | |
KR101406113B1 (ko) | 스피치 신호에서 천이 프레임을 코딩하기 위한 방법 및 장치 | |
US7693710B2 (en) | Method and device for efficient frame erasure concealment in linear predictive based speech codecs | |
US5751903A (en) | Low rate multi-mode CELP codec that encodes line SPECTRAL frequencies utilizing an offset | |
US5307441A (en) | Wear-toll quality 4.8 kbps speech codec | |
JP5978218B2 (ja) | 低ビットレート低遅延の一般オーディオ信号の符号化 | |
CN104021796B (zh) | 语音增强处理方法和装置 | |
US20010023395A1 (en) | Speech encoder adaptively applying pitch preprocessing with warping of target signal | |
Chen et al. | Transform predictive coding of wideband speech signals | |
KR20020052191A (ko) | 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법 | |
Kroon et al. | Predictive coding of speech using analysis-by-synthesis techniques | |
Kleijn et al. | A 5.85 kbits CELP algorithm for cellular applications | |
EP2608200B1 (en) | Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream | |
Cuperman et al. | Backward adaptation for low delay vector excitation coding of speech at 16 kbit/s | |
Yong et al. | Efficient encoding of the long-term predictor in vector excitation coders | |
Cuperman et al. | Backward adaptive configurations for low-delay vector excitation coding | |
Paulus | Variable bitrate wideband speech coding using perceptually motivated thresholds | |
KR20040041716A (ko) | 대수 코드북을 이용하는 켈프 보코더의 코드북 검색방법 | |
JPH09508479A (ja) | バースト励起線形予測 | |
Cuperman et al. | Robust low-complexity backward adaptive pitch predictor for low-delay speech coding | |
Lee et al. | On reducing computational complexity of codebook search in CELP coding | |
Tseng | An analysis-by-synthesis linear predictive model for narrowband speech coding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080827 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090827 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100827 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110827 Year of fee payment: 12 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120827 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120827 Year of fee payment: 13 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 14 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130827 Year of fee payment: 14 |