JP3467270B2 - 音声の量子化とエラー訂正のための方法 - Google Patents

音声の量子化とエラー訂正のための方法

Info

Publication number
JP3467270B2
JP3467270B2 JP50295792A JP50295792A JP3467270B2 JP 3467270 B2 JP3467270 B2 JP 3467270B2 JP 50295792 A JP50295792 A JP 50295792A JP 50295792 A JP50295792 A JP 50295792A JP 3467270 B2 JP3467270 B2 JP 3467270B2
Authority
JP
Japan
Prior art keywords
speech
segment
spectral
spectral amplitude
quantized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP50295792A
Other languages
English (en)
Other versions
JPH06507252A (ja
Inventor
シー ハードウィック、ジョン
エス リム、ジェイ
Original Assignee
ディジタル ボイス システムズ、インク
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ディジタル ボイス システムズ、インク filed Critical ディジタル ボイス システムズ、インク
Publication of JPH06507252A publication Critical patent/JPH06507252A/ja
Application granted granted Critical
Publication of JP3467270B2 publication Critical patent/JP3467270B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/038Vector quantisation, e.g. TwinVQ audio
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/087Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M13/00Coding, decoding or code conversion, for error detection or error correction; Coding theory basic assumptions; Coding bounds; Error probability evaluation methods; Channel models; Simulation or testing of codes
    • H03M13/35Unequal or adaptive error protection, e.g. by providing a different level of protection according to significance of source information or by adapting the coding according to the change of transmission channel characteristics
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Error Detection And Correction (AREA)

Description

【発明の詳細な説明】 技術分野 本発明は、音声の量子化方法及びビット・エラーの存
在時において音声の品質を維持するための方法に関す
る。
本発明に関係した刊行物は以下を含む。ジェイ・エル
・フラナガン(J.L.Flanagan)、Speech Analysis,Synt
hesis and Perception,Springer−Verlag,1972,pp.378
−386(位相ボコーダ、周波数に基づく音声分析−合成
システム);クアティエリ(Quatieri)等、“Speech T
ransformations Based on a Sinusoidal Representatio
n",IEEE TASSP,Vol,ASSP34,No.6,Dec.1986,pp.1449−19
86(正弦波表現に基づく分析−合成技術);グリフィン
(Griffin)、“Multiband Excitation Vocoder",Ph.D
Thesis,M.I.T.1987(8000bpsマルチバンド励起音声コー
ダ);グリフィン(Griffin)等、“A High Quality 9.
6kbps Speech Coding System",Proc.ICASSP 86,pp.125
−128,Tokyo,Japan,April 13−20,1986(マルチバンド
励起音声コーダ);グリフィン(Griffin)等、“A New
Model−Based Speech Analysis/Synthesis System",Pr
oc.ICASSP 85,pp.513−516,Tampa.FL.,March 26−29,19
85(マルチバンド励起音声モデル);ハードイック(Ha
rdwick)、“A 4.8kbps,Multi−Band Excitation Speec
h Coder",S.M.Thesis.M.I.T,May,1988(4800bpsマルチ
バンド励起音声コーダ);マッカレイ(McAulay)等、
“Mid−Rate Coding Based on a Sinusoidal Represent
ation of Speech",Proc.ICASSP 85,pp.945−948,Tampa,
FL.,March 26−29,1985,(正弦波表現に基づく音声コー
ディング);キャムベル(Campbell)等,“The New 48
00bps Voice Coding Standard",Mil Speech Tech Confe
rence,Nov.1989,(ローレート音声コーダにおけるエラ
ー訂正);キャムベル(Campbell)等,“CELP Coding
for Land Mobile Radio Applications",Proc.ICASSSP 9
0.pp.465−468,Albequerque,NM.April 3−6,1990(ロー
レート音声コーダにおけるエラー訂正);レベスク(Le
vesque)等、“Error−Control Techniques for Digita
l Communication,Wiley,1985,pp.157−170.(エラー訂
正一般);ジェイヤント(Jayant)等、Digital Coding
of Waveforms,Prentice−Hall,1984(量子化一般)、
マクホウル(Makhoul)等、“Vector Quantization in
Speech Coding",Proc.IEEE,1985,pp.1551−1588(ベク
トル量子化一般);ジェイヤント(Jayant)等、“Adap
tive Postfiltering of 16kb/s−ADPCM Speech",Proc.I
CASSP 86,pp.829−832,Tokyo,Japan,April 13−20,1986
(音声の適応ポストフィルタリング)。
これらの刊行物の内容は、引用によってこの明細書の
一部となる。
音声符号化(スピーチ・コーディング)、即ち音声を
少ない数のビットに圧縮することの問題は多くの応用を
有し、この結果、文献上も相当な注目を受けてきた。広
範に研究され、実際に利用された音声コーダ(ボコー
ダ)の一つの部類は、線形予測ボコーダ、ホモモルフィ
ック(準同型)ボコーダ、及びチャンネル・ボコーダで
ある。これらのボコーダにおいては、音声は有声音の周
期的インパルス列あるいは無声音のランダム雑音により
励起される線形システムの応答として短時間(ショート
タイム)ベースでモデル化されている。この部類のボコ
ーダについて、音声はハミング(Hamming)ウインドウ
のようなウインドウを用いて最初にセグメント化して解
析される。次に、音声の各セグメントに対し、励起パラ
メータとシステムパラメータが推定及び量子化される。
励起パラメータは、有声/無声の判定とピッチ周期から
成る。システムパラメータは、スペクトル包絡またはシ
ステムのインパルス応答から成る。音声を再構成するた
めに、量子化されたパラメータが用いられ、有声領域に
おいては周期的インパルス列から成る励起信号が合成さ
れ、無声領域においてはランダム雑音から成る励起信号
が合成される。この励起信号は、量子化されたシステム
パラメータを用いて瀘波される。
音声モデルに基づくボコーダは判別可能な音声の生成
に極めて成功したが、高品質の音声を生成することには
成功していない。その結果、この部類のボコーダは、高
品質音声コーディングには広く用いられていない。再構
成された音声の貧弱な品質は、一部は、モデルパラメー
タの不正確な推定により、また一部は、音声モデルの限
界による。
マルチバンド・エキサイテーション(即ち、多重帯域
励起、「MBE」と略される)音声モデルとして参照され
る、新しい音声モデルがグリフィン(Griffin)及びリ
ム(Lim)によって1984年に開発された。この新しい音
声モデルに基づく音声コーダは、グリフィン(Griffi
n)及びリム(Lim)によって1986年に開発され、8000bp
s(ビット/秒)のレートで高品質の音声を生成するこ
とができることを示した。ハードイック(Hardwick)及
びリム(Lim)による後続する仕事は4800bps MBE音声コ
ーダを作製し、これは高品質の音声を生成することがで
きた。この4800bps音声コーダはより洗練された量子化
技術を用いて、それより前のMBE音声コーダが8000bpsで
達成していたと同様な品質を4800bpsで達成した。
4800bps MBE音声コーダはMBE分析/合成システムを用
いてMBE音声モデルパラメータを推定し、推定されたMBE
音声モデルパラメータから音声を合成する。s(n)に
よって表わされる離散音声信号は、アナログ音声信号の
標本化(サンプリング)によって得られる。これは典型
的には8kHzの標本化速度(サンプリングレート)で行な
われる。もっとも他の標本化速度は、各種システム・パ
ラメータの単純な変更によって容易に設定することがで
きる。システムは、ハミング(Hamming)ウインドウ又
はカイザー(Kaiser)ウインドウ等のウインドウw
(n)をs(n)に乗算してウインドウ化された信号sw
(n)を得ることにより、離散信号を小さな、互いに重
畳する複数セグメント、あるいは複数セグメントに分割
する。各々のセグメントは該セグメントを特徴付けるMB
E音声モデルパラメータの組を得るために解析される。M
BE音声モデルパラメータは、ピッチ周期と等価な基本周
波数、一組の有声音/無声音の判定、一組のスペクトル
振幅、オプションとして、一組のスペクトル位相から成
る。これらのモデルパラメータは、次に、各セグメント
に対して固定数のビットを用いて量子化される。結果の
ビットは音声信号の再構成に用いることができ、該ビッ
トからMBE音声モデルパラメータを再構成し、次に該モ
デルパラメータから音声が合成される。典型的なMBE音
声コーダのブロック線図を図1に示す。
4800bps MBE音声コーダは、スペクトル振幅を量子化
するために複雑な技術の使用を必要とした。各セグメン
トに対してスペクトル振幅の量子化のために用いられる
ビット数は50から125ビットの間で変化した。更に、各
セグメントに対するスペクトル振幅の数は9と60の間で
変化した。各セグメントについて利用可能なビット数を
もってスペクトル振幅の全てを効率的に表現することが
可能な量子化方法が考案された。このスペクトル振幅量
子化方法は、MBE音声コーダで使用するために設計され
たが、量子化技術は、例えば、正弦波変換コーダ及びハ
ーモニックコーダ等の他の多数の音声コーディング方法
においても同様に有用である。特定の音声セグメントに
ついて、は該セグメント内のスペクトル振幅の数を示
す。の値は基本周波数ω0から次式の関係に従って導
出される。
ここに、0β1.0は標本化速度の半分に対する音
声帯域幅を決定する。式(1)の関数 はxよりも小さいか等しい最大整数に等しい。スペク
トル振幅は1lに対してで示され、は最
も低い周波数のスペクトル振幅であり、 は最も高い
スペクトル振幅である。
現在の音声セグメントのスペクトル振幅は、第一に、
一組の予測残差を計算することによって量子化される。
予測残差は現在の音声セグメントと前の音声セグメント
の間でスペクトル振幅が変化した量を示す。が現在
の音声セグメントにおけるスペクトル振幅の個数を示
し、-1が前の音声セグメントにおけるスペクトル振幅
の個数を示すとすると、予測残差は1lに対し
て、式(2)で与えられる。
ここに、0 1は現在の音声セグメントのスペクトル振
幅を表わし、-1 lは前の音声セグメントの量子化され
たスペクトル振幅を表わす。定数γは典型的には.7とさ
れるが0γ1の範囲の任意の値を用いることが可能
である。
予測残差は、要素数がKの複数ブロックに分割され
る。Kは典型的には4K12の範囲にある。がKで
正しく割り切れないとき、最高周波数ブロックは、Kよ
り少ない要素を含む。これを図2に=34及びK=8に
ついて示す。
予測残差ブロックの各々は、式(3)で定義される離
散コサイン変換(DCT)を用いて変換される。
各ブロックに対する変換の長さJは、ブロック内の要
素の数に等しい。従って、最高周波数ブロック以外のブ
ロックは長さKのDCTで変換され、最高周波数ブロック
のDCTの長さはKまたはKより小となる。DCTは逆変換可
能であるため、個のDCT係数は現在のセグメントにつ
いてのスペクトル振幅予測残差を完全に規定する。
スペクトル振幅を量子化するために利用可能な全体の
ビット数は、ビット割り当て規則に従ってDCT係数内で
分割される。この規則は、知覚的(聴覚的)にさほど重
要でない高い周波数ブロックよりも知覚的により重要な
低い周波数ブロックに対してより多くのビットを付与す
ることを企てる。さらに、ビット割り当て規則は、ビッ
トを一つのブロック内において、その比較的に長期の変
動に従ってDCT係数に分割する。この近接法は、ビット
割り当てを音声の知覚特性及びDCTの量子化特性とマッ
チさせる。
各DCT係数はビット割り当て規則で規定されるビット
数を用いて量子化される。典型的には、一様な量子化が
用いられるが、しかし、非一様ベクトル量子化もまた用
いることができる。各量子化器のステップサイズは、DC
T係数の長期分散及び各係数を量子化するために用いら
れるビット数から決定される。表1は長期分散がσ
等しいものについて、ビット数の関数としてステップサ
イズにおける典型的な分散を示している。
各DCT係数がビット割り当て規則で規定されるビット
数を用いて量子化されると、応用に依存して2進表現の
伝送、格納等が行なわれる。
スペクトル振幅は、各ブロックに対して量子化された
DCT係数を再構成することによって再構成が行なわれ、
これは各ブロックについて逆DCTを実行し、方程式
(2)の逆変換を用いて前のセグメントの量子化された
スペクトル振幅を組み合わせることによって行なわれ
る。逆DCTは式(4)にて与えられる。
ここに、各ブロックの長さJは、該ブロックの要素の
個数に選択され、α(j)は式(5)にて与えられる。
4800bps MBE音声コーダの一つの問題があるとした
ら、それは、MBEモデルパラメータの2進表現にビット
・エラーが加えられた場合に、再構成された音声の知覚
品質が相当に低減されることである。多くの音声コーダ
の応用においてビット・エラーが存在するため、ロバス
ト(頑健)な音声コーダはビット・エラーの訂正し、検
出しそして/又は許容することができなければならな
い。極めて成功した一つの技術は、モデルパラメータの
2進表現においてエラー訂正符号を用いることである。
エラー訂正符号は、頻繁でないビット・エラーの修正を
可能とし、システムがエラー率を推定することを可能と
する。エラー率の推定は、モデルパラメータを適応的に
処理して、残りのビット・エラーの効果を減少するため
に用いることができる。典型的には、エラー率は、現在
のセグメントにおいてエラー訂正符号によって訂正(又
は検出)されたエラー数を計数することによって推定さ
れ、次にこの情報を用いて現在のエラー率の推定値を更
新する。例えば、各セグメントが23ビットのうち3つの
エラーが検出可能な(23,12)ゴレイ(Golay)コードを
含み、εが現在のセグメントにおいて訂正されたエラ
ー(0−3)の数を表わすとき、エラー率εの現在の
推定は式(6)に従って更新される。
ここに、βはεの適応性を制御する、0β1の
範囲の定数である。
エラー訂正符号又はエラー検出符号が用いられると
き、音声モデルパラメータを表示するビットはビット・
エラーに対してよりロバストな別のビット組に変換され
る。エラー訂正符号又はエラー検出符号の使用は、伝送
又は格納される必要があるビット数を増加させる。伝送
されるべき余分なビット数は、通常エラー訂正又は検出
符号のロバストネスに関係している。大抵の応用におい
て、伝送又は格納されるビット総数を最小化することが
望ましい。この場合、エラー訂正又は検出はシステム全
体の性能(パーフォーマンス)を最大とするように、選
択されねばならない。
この部類の音声符号化システムの他の問題は、音声モ
デルパラメータの推定の限界が、合成された音声の品質
劣化を招くことである。引き続いて行なわれるモデルパ
ラメータの量子化は更なる劣化を含む。劣化として、合
成された音声の反射又は消音(マッフル)された品質の
形式をとる。さらに、元の音声データには存在しなかっ
た背景雑音又は他の人工介在物が存在することがある。
この形式の劣化は、音声データの何もビット・エラーが
存在しない場合にも生じる。しかしながら、ビット・エ
ラーは、この問題をより悪化させる。典型的には、音声
符号化システムは、この形式の劣化を最小化するように
パラメータ推定器とパラメータ量子化器を最適化するこ
とを企てる。他のシステムは該劣化をポストフィルタリ
ング(後瀘波処理)によって低減しようとする。ポスト
フィルタリングにおいては、出力音声は、時間領域にお
いて適応型の全極形フィルタを用いて瀘波されフォーマ
ット・ピークを先鋭化する。
この方法は、スペクトル強調処理に対して精細な制御
を行なうことができず、計算上も高くつき(計算量が多
い)、周波数領域コーダにとって効率が良くない。
ここに説明する本発明は、多くの異なる音声符号化方
法に適用される。即ち、線形予測音声コーダ、チャンネ
ル・ボコーダ、ホモモルフィック・ボコーダ、正弦変換
コーダ、多重帯域励起(マルチバンドエキサイテーショ
ン)音声コーダ、改良された多重帯域(IMBE)励起音声
コーダ等を含むがこれらに限定されない。本発明を詳細
に説明するために、INMARSAT−M(International Mari
ne Satellite Organization;国際海洋衛星組織)衛星通
信システムの一部として最近標準化された6.4kbpsIMBE
音声コーダを用いる。このコーダは、多重帯域励起(MB
E)音声モデルとして参照されるロバスト音声モデルを
用いる。
MBEモデルパラメータを量子化するための効率的な複
数の方法が開発された。これらの方法は、実質的に2kbp
s以上のいかなるビット・レートでモデルパラメータを
量子化することが可能である。INMARSAT−M衛星通信シ
ステムで用いられる6.4kbps IMBE音声コーダは、50Hzフ
レーム・レートを用いる。従って、1フレーム当たり12
8ビットが利用可能である。128ビットのうち、45ビット
は前方エラー訂正のために確保されている。1フレーム
当たり残りの83ビットがMBEモデルパラメータを量子化
するために用いられる。MBEモデルパラメータは、基本
周波数 一組の有声/無声(V/UV)の判定、1k、及
び一組のスペクトル振幅、1l。及びの
値は各フレームの基本周波数に依存して変化する。83の
利用可能なビットは、表2に示すモデルパラメータ間で
分割される。
基本周波数は最初にこれを式(7)を用いて等価なピ
ッチ周期に変換することによって量子化される。
の値は、典型的には、8kHz標本化(サンプリン
グ)として、20〈〈120の範囲に限定される。6.4kb
ps IMBEシステムにおいて、このパラメータは、8ビッ
トステップサイズ.5を用いて一様に量子化される。これ
は半分のサンプルのビッチ精度に対応する。
V/UV(有声/無声)の判定は2進値である。この
ため、これらは判定当たり単一ビットを用いて符号化す
ることが可能である。6.4kbpsシステムは、最大12の判
定を用い、各周波数帯域の幅は である。最大周波数帯域の幅は3.8kHzまでの周波数を含
むように調節される。
スペクトル振幅は、一組の予測残差を形成することに
よって量子化される。各予測残差は、現在のセグメント
のスペクトル振幅の対数と前の音声フレームの同一周波
数を表わすスペクトル振幅の対数の差である。スペクト
ル振幅予測残差は、各ブロックがほぼ同一個数の予測残
差を含む6個のブロックに分割される。6個のブロック
の各々は、離散コサイン変換(DCT)により変換され、
6個のブロックのD.C.(直流)係数は、6要素の予測残
差ブロック平均(PRBA;Prediction Residual Block Ave
rage)ベクトルに結合される。PRBAベクトルから平均値
が差し引かれ、6ビット非一様量子化器を用いて量子化
される。ゼロ平均PRBAベクトルは10ビット・ベクトル量
子化器を用いてベクトル量子化される。10ビットPRBAコ
ードブックは、各種の音声材料から、ゼロ平均PRBAベク
トルから成る大きなトレーニング・セットに基づきk−
平均クラスターリング・アルゴリズムを用いて設計され
た。PRBAベクトルに含まれない高次のDCT係数は59−
の残りのビットを用いてスカラー一様量子化器で量子化
される。ビット割り当て及びステップ・サイズは高次の
DCT係数の長期変動に基づいている。
この量子化方法には、いくつかの利点がある。第1
に、この量子化方法は小数ビットを用いて非常に良好な
忠実性を提供し、がその範囲で変動するに際してこの
忠実性を維持する。さらに、この近接法の計算要求は、
AT&T DSP32C等単一のDSP(ディジタル信号処理装置)
を用いて、実時間実装に要求される限界の範囲内によく
収まっている。最後に、この量子化方法は、スペクトル
振幅を、ビット・エラーに感応する、PRBAベクトルの平
均等の小数の要素と、ビット・エラーに余り感応しない
多数の他の要素に分別する。前方エラー訂正は、小数の
感応要素について高いレベルの保護を、残りの要素につ
いては低い保護を提供し、効率的な仕方で用いることが
できる。これは次の章で説明する。
第1の視点において、本発明は予測されたスペクトル
振幅の形成のための改良された方法を特徴とする。これ
らは、現在のセグメントの周波数で前のセグメントのス
ペクトル振幅を推定するために前のセグメントのスペク
トル振幅の補間に基づいている。この新しい方法は、予
測残差が低い分散を有し、このため予測残差は所定のビ
ット数に対して低い歪みで量子化可能であるという結
果、セグメント間のスペクトル振幅の周波数におけるシ
フトを訂正する。好適な実施態様において、スペクトル
振幅の周波数は基本周波数とその倍数である。
本発明は、第2の視点において、予測残差のブロック
への分割のための改良された方法を特徴とする。各ブロ
ックの長さを固定する代わりに、予測残差を可変なブロ
ック数に分割し、ブロックサイズはセグメント同士で異
なる。好適な実施態様において、すべてのセグメントに
おいて6個のブロックが用いられる。即ち、低周波数ブ
ロックにおける予測残差の個数は高周波数ブロックにお
ける予測残差の個数よりも大きくなく、低周波数ブロッ
クにおける要素数は1以下である。この新しい方法は、
音声特性により密接にマッチし、所与のビット数につい
て少ない歪みで予測残差の量子化を可能としている。さ
らに、この方法はスペクトル振幅の量子化を更に改善す
るベクトル量子化で容易に用いることができる。
本発明は第3の視点において、予測残差の量子化の改
良された方法を特徴としている。予測残差はブロックに
グループ化され、各ブロック内における予測残差の平均
が決定され、ブロックのすべての平均は予測残差ブロッ
ク平均(PRBA)ベクトルにグループ化され、PRBAベクト
ルが量子化される。好適な実施態様において、予測残差
の平均は、ブロック内においてスペクトル振幅予測残差
を加算し、該ブロック内において予測残差の個数で除す
るか、又はブロック内においてスペクトル振幅予測残差
のDCTを計算しDCTの最初の係数を平均として用いること
によって得られる。PRBAベクトルは、好ましくは二つの
方法の一つを用いて符号化される。即ち、(1)PRBAベ
クトルについてDCT等の変換を行ない変換係数をスカラ
ー量子化する;(2)PRBAベクトルをベクトル量子化す
る。ベクトル量子化は、好ましくは、PRBAベクトルの平
均を決定し、該平均をスカラー量子化を用いて量子化
し、ゼロ平均コードブックでベクトル量子化を用いてゼ
ロ平均PRBAベクトルを量子化することによって行なわれ
る。本発明のこの視点の利点は、量子化される予測残差
が所与のビット数に対して低い歪みで量子化可能である
ということである。
本発明は、第4の視点において、高いビット・エラー
率の存在のもと、有声/無声の判定を決めるための改良
された方法を特徴とする。ビット・エラー率は現在の音
声セグメントについて推定され、予め定められたエラー
・レート閾値と比較され、予め定められたエネルギー閾
値を超えたスペクトル振幅について有声/無声の判定
は、推定されたビット・エラー率がエラー率閾値を超え
ている時に、現在のセグメントについてすべて有声であ
ると宣言される。これはビット・エラーの知覚的効果を
低減する。有声音から無声音への切り替えによって生じ
る歪みが低減される。
本発明は、第5の視点において、音声モデルパラメー
タのエラー訂正(又はエラー検出)コーディングの改良
された方法を特徴とする。新しい方法は、量子化された
モデルパラメータを符号化するために少なくとも二つの
タイプのエラー訂正コーディングを用いる。訂正コーデ
ィングの第1のタイプは、第2のタイプのコーディング
よりも多くの個数の追加ビットを加え、ビット・エラー
により一層感応するパラメータ群について用いられる。
別のタイプのエラー訂正コーディングは、第1のタイプ
のものよりもビット・エラーに対して少なく感応する第
1のパラメータ群に用いられる。既存の方法と比較し
て、この新しい方法は、ビット・エラーの存在のもと、
合成された音声の品質を改良し、加えるべき追加的なエ
ラー訂正又は検出ビットの量を削減する。好適な実施態
様において、異なったタイプのエラー訂正は、ゴレイ
(Golay)コード及びハミング(Hamming)コードを含
む。
本発明は、第6の視点において、ビット・エラーの存
在のもと、合成された音声の品質を改良するための方法
を特徴とする。エラー率は、エラー訂正コーディングか
ら評価される。パラメータについてのエラー率が予め定
めるレベルを超過した際に、前のセグメントから一又は
複数のモデルパラメータが現在のセグメントにおいて反
復される。好適な実施態様において、全てのモデルパラ
メータが反復される。
本発明は、第7の視点において、モデルパラメータの
推定と量子化によって生じる劣化を低減するための方法
を特徴とする。この新しい方法は、スペクトル包絡の周
波数領域の表現を用いて知覚的に重要である領域を強調
し、知覚的に重要でない領域を減衰させる。その結果合
成された音声における劣化は低減される。セグメントの
平滑化されたスペクトル包絡は、スペクトル包絡を平滑
化する事によって生成される。そのスペクトル包絡が平
滑化された包絡よりも大きな振幅を有するスペクトル包
絡の周波数領域を増やし、そのスペクトル包絡が平滑化
された包絡よりも小さな振幅を有するスペクトル包絡の
周波数領域を減らすことによって、強調されたスペクト
ル包絡が生成される。好適な実施態様において、平滑化
されたスペクトル包絡はスペクトル包絡から低次のモデ
ル(例えば、全極形モデル)を推定することによって生
成される。既存の方法を比較して、この新しい方法は周
波数領域コーダについて計算上より効率が良い。更にこ
の新しい方法は時間領域の方法によって課せられる周波
数領域の制約を除去することによって音声品質を改良す
る。
本発明の他の特徴と利点は好適な実施態様の以下の説
明と請求の範囲から明白となろう。
図面の簡単な説明 図1−2は、音声符号化方法の従来技術を示す線図で
ある。
図3は、本発明の好適な実施態様を示すフローチャー
トを示し、スペクトル振幅の予測が基本周波数における
変化を説明する。
図4は、本発明の好適な実施態様を示すフローチャー
トを示し、スペクトル振幅は固定数のブロックに分割さ
れる。
図5は、本発明の好適な実施態様を示すフローチャー
トを示し、予測残差ブロック平均ベクトルが形成され
る。
図6は、本発明の好適な実施態様を示すフローチャー
トを示し、予測残差ブロック平均ベクトルが量子化され
る。
図7は、本発明の好適な実施態様を示すフローチャー
トを示し、予測残差ブロック平均ベクトルがDCTとスカ
ラー量子化により量子化される。
図8は、本発明の符号化器の好適な実施態様を示すフ
ローチャートを示し、異なったエラー訂正符号が異なっ
たモデルパラメータビットに対して用いられる。
図9は、本発明の復号化器の好適な実施態様を示すフ
ローチャートを示し、異なったエラー訂正符号が異なっ
たモデルパラメータビットに対して用いられる。
図10は、本発明の好適な実施態様を示すフローチャー
トを示し、周波数領域スペクトル包絡パラメータ強調が
描かれている。
本発明の好適な実施態様の説明 従来の技術においては、スペクトル振幅予測残差は方
程式(2)を用いて形成された。この方法は、前のセグ
メントと現在のセグメントの間の基本周波数における変
化を説明しない。基本周波数における変化を説明するた
めに、最初に、前のセグメントのスペクトル振幅を補間
する新しい方法が開発された。これは、典型的には線形
補間を用いて行なわれる。しかしながら、様々な別の形
式の補間を用いることができる。前のセグメントの補間
されたスペクトル振幅は、現在のセグメントの基本周波
数の倍数に対応する周波数ポイントで再標本化(リサン
プリング)される。補間と再標本化の組み合わせは、一
組の予測スペクトル振幅を生成し、該予測スペクトル振
幅は基本周波数のセグメント間の変化に対して訂正され
る。
典型的には、予測スペクトル振幅の二つの対数の分数
が現在のセグメントのスペクトル振幅の基本の二つの対
数から差し引かれる。線形補間が予測スペクトル振幅の
計算に用いられる場合、これは数学的には次式(8)で
表わされる。
但し、δは次式(9)で与えられる。
ここに、γは0γ1の定数である。典型的にはγ
は、.7であるが、他のγの値をまた用いることができ
る。例えばγは性能を改善するためにセグメントからセ
グメントへと適応的に変更することができる。式(9)
においてパラメータ は現在と前のセグメントの基本周波数をそれぞれ示して
いる。二つの基本周波数が同一の場合、新しい方法は古
い方法と同一となる。他の場合、新しい方法は、古い方
法よりも分散の小さな予測残差を生成する。このため所
定のビット数について予測残差を少ない歪みで量子化す
ることが可能とされる。
本発明の別の視点において、新しい方法はスペクトル
振幅予測残差をブロックに分割するために開発された。
古い方法においては現在のセグメントから予測残差は
K個の要素のブロックに分割された。定型的にはKの値
は8である。この方法を用いて、各ブロックの特性が
の大きな値と小さな値について実質的に異なることが分
かった。これは量子化の効率を低減し、このためスペク
トル振幅における歪みを増大させる。各ブロックの特性
をより一様にするために、個の予測残差を固定数ブロ
ックに分割する新しい方法が考案された。各ブロックの
長さは、一つのセグメント内の全てのブロックが同じ長
さを有し、セグメント内の全てのブロックの長さの和が
に等しいように選択される。典型的には予測残差の全
数は6ブロックに分割され、各ブロックの長さは となる。が6で割り切れるとき、すべてのスペクトル
マグニチュードが6個のブロックの一つに含まれるよう
に、1又は複数の高い周波数ブロックの長さを一つ増加
することができる。この新しい方法は、6ブロックで
が34の場合について図4に示されている。この新しい方
法においては、各ブロックに含まれるっ予測残差のおお
よそのパーセントはに依存しない。このため、各ブロ
ックの特性の分散が低減され、予測残差のより効率的な
量子化が可能とされる。
予測残差の量子化は予測残差ブロック平均(PRBA;Pre
diction Residual Block Average)ベクトルを形成する
ことによって改良される。PRBAベクトルの長さは現在の
セグメントのブロック数に等しい。このベクトルの要素
は各ブロック内の予測残差の平均に対応する。第1番目
のDCT係数は平均(すなわち直流成分)に等しく、PRBA
ベクトルは各ブロックから第1番目のDCT係数から構成
することができる。これを図5に、現在のセグメント内
に6個のブロックが存在し、=34の場合について示
す。この工程は、各ブロックの第2番目(又は第3、第
4番目等)のDCT係数からさらにベクトルを構成するこ
とによって、一般化することが可能となる。
PRBAベクトルの要素は極めて相関が高い。従って、ス
ペクトル振幅の量子化を改善するために多数の方法を用
いることができる。少ないビット数で低い歪みを達成す
るために用いることができる方法の一つはベクトル量子
化である。この方法においては、典型的な多数のPRBAベ
クトルを含むコードブックが設計されている。現在のセ
グメントのPRBAベクトルがコードブックのベクトルの各
々と比較され最も低い誤差のものが量子化されたPRBAベ
クトルとして選択される。選択されたコードブックのイ
ンデックスは、PRBAベクトルの2進表現を構成するため
に用いられる。ベクトルの平均について6ビットの非一
様量子化器のカスケード縦続接続と、残りの情報につい
ては一つの10ビット・ベクトル量子化器を用いて、PRBA
ベクトルのベクトル量子化を行なうための方法が開発さ
れた。この方法は、PRBAベクトルが常に6個の要素を含
む場合について図6に示されている。
PRBAベクトルを量子化する別の方法もまた開発され
た。この方法はベクトル量子化方法よりも計算量と記憶
量が少なくて済む。この方法においては、PRBAベクトル
は、式(3)で定義されるDCTでまず変換される。DCTの
長さはPRBAベクトルにおける要素数に等しい。DCT係数
は、次に、従来の技術として説明したものと同様な仕方
で量子化される。PRBAベクトルを量子化するために用い
られるビット総数をDCT係数の間に分散させるためにビ
ット割り当て規則が用いられる。スカラー量子化(一様
又は非一様)が、次に、ビット割り当て規則で規定され
るビット数を用いて各DCT係数を量子化するために用い
られる。これは、PRBAベクトルが常に6個の要素を含む
場合について、図7に示す。
PRBAベクトルを効率的に量子化するために、離散フー
リエ変換、高速フーリエ変換、カルーネン・レーベ変換
(KL変換;Karhunen−Loeve)等各種変換がDCTの代わり
に用いることができる。さらに、ベクトル量子化は、DC
T又は他の変換と組み合わせることができる。本発明の
この観点から導かれる改良は広範な各種の量子化方法と
共に用いることができる。
他の視点において、ビット・エラーの知覚的効果を低
減するための新たな方法が開発された。エラー訂正符合
は従来の技術と同様に頻繁でないビット・エラーを訂正
し、エラー率εの推定を提供するために用いられてい
る。新しい方法は、残りのビット・エラーの知覚される
効果を低減するために、有声/無声の判定を平滑化する
ためにエラー率の推定を用いる。これは、有声/無声の
判定における訂正されないビット・エラーからの歪みが
重要となる率を示す閾値に対してエラー率を最初に比較
することによって行なわれる。この閾値の正確な値は、
有声/無声の判定に適用されるエラー訂正の量に依存す
るが、エラー訂正が僅かしか適用されない時には、.003
という閾値が典型的である。推定されたエラー率ε
この閾値より低い場合、有声無声の決定はじょう乱を受
けない。εがこの閾値より高い場合、式(10)が満た
される各スペクトル振幅は有声であると宣言される。
式(10)は、.003の閾値を仮定しているが、この方法
は別の閾値に対応するために容易に修正可能である。パ
ラメータSEは、スペクトル振幅に含まれる局所的平均エ
ネルギーの測度である。このパラメータは、典型的に
は、各セグメントについて、次式(11)に従い更新され
る。
但し、R0は次式(12)で与えられる。
SEの初期値は0SE10000.0の範囲における任意の初
期値に設定される。このパラメータの目的は、式(10)
の平均信号レベルに対する依存性を低減させることであ
る。このことは、新しい方法が高いレベルの信号のみな
らず低いレベルの信号に対しても有効に機能することを
保証する。
式(10)、(11)及び(12)の特定の形式とこれらの
式に含まれる定数は容易に修正することができる。この
新しい方法の主要要素は、有声/無声の判定が平滑化を
要するか否かを決定するためにエラー率の推定を最初に
用いるものである。もし平滑化が必要な場合に、有声/
無声の判定はじょう乱を受け、すべての高いエネルギー
スペクトル振幅は有声であると宣言される。これは、セ
グメントの間で高いエネルギーの有声から無声又は無声
から有声への遷移を取り除き、その結果ビット・エラー
の存在のもとにあって再構成された音声の知覚される品
質を改善する。
本発明において、発明者らは、量子化された音声モデ
ルパラメータ・ビットを、ビット・エラーの感度に従っ
て3またはより多くの異なった群に分割し、各群に対し
て異なったエラー訂正又は検出符号を用いる。典型的に
は、ビット・エラーに対してより感応すると決定された
データビット群は極めて効率的なエラー訂正符号を用い
て保護される。少数の追加ビットを必要とするより効率
の低いエラー訂正又は検出符号は感度の低いデータビッ
トを保護するために用いられる。この新しい方法は、各
群に与えられるエラー訂正又は検出符号の量を、ビット
・エラーに対する感度に合致することを可能ならしめ
る。従来の技術と比較して、この方法は、ビット・エラ
ーによって生じる劣化が減少され、前方エラー訂正に必
要なビット数も削減されるという利点を有する。
用いられるエラー訂正又は検出符号の特定の選択は伝
送又は記憶媒体のビット・エラー統計及び所望のビット
・レートに依存する。最も感度の大きいビット群は、典
型的には、ハミング(Hamming)コード、BCHコード、ゴ
レイ(Golay)コード、又はリードソロモン(Reed−Sol
omon)コード等の効率的なエラー訂正符号によって保護
される。感度の低いデータビット群もこれらの符号又は
エラー検出符号を用いても良い。最後に、最も感度の低
い群は、エラー訂正又は検出符号を用いるか、又はいか
なる形式のエラー訂正又は検出符号も用いない。以下
に、本発明を、衛星通信の6.4kbps IMBE音声コーダに
良く適合したエラー訂正又は検出符号の特定の選択を用
いて説明する。
INMARSAT−M衛星通信システム用に標準化された6.4k
bps音声コーダにおいては、前方エラー訂正のために確
保された1フレーム当たり45ビットは3つのエラーまで
訂正可能な[23,12]ゴレイ(Golay)コードと、単一の
エラーとパリティビットを訂正可能な[15,11]ハミン
グ(Hamming)コードに分割され、基本周波数の6個の
最も重要なビット(MSB)とPRBAベクトルの平均値の3
個の最も重要なビット(MSB)は、始めに3つのパリテ
ィチェック・ビットと結合され、[23,12]ゴレイ(Gol
ay)コードに符号化される。第2のゴレイ(Golay)コ
ードは、PRBAベクトルから3つのMSB(最重要ビット)
と高次のDCT係数から9個の最も感度の高いビットを符
号化する。7個の最も感度の低いビットを除く残りのビ
ットは5個の[15,11]ハミング(Hamming)コードに符
号化される。7個の最も感度の低いビットはエラー訂正
符号によって保護されない。
伝送に先立ち、特定の音声セグメントを表現128ビッ
トがインターリーブされ、少なくとも5ビットが同一の
符合ワードから2ビットを分離する。この特徴は短いバ
ースト・エラーの影響をいくつかの異なった符合ワード
に拡散させ、これによって、エラーが訂正される可能性
を増大させる。
復号化器(デコーダ)においては、受信されたビット
は、データビットからビット・エラーを除去しようと試
みるゴレイ及びハミングデコーダに送られる。3つのパ
リティチェックビットがチェックされ、訂正できないビ
ットがなにも検出されない時には、受信されたビットは
現在のフレームのMBEモデルパラメータを再構成するた
めに用いられる。他の場合、訂正できないビットが検出
された時には、現在のフレームについて受信されたビッ
トは無視され、前のフレームからのモデルパラメータが
現在のフレームに対して繰り返される。
フレームの繰り返しの使用は、ビット・エラーが存在
する時に音声の品質を改善することが見出された。本発
明は、受信されたビットの各フレームを調べ、現在のフ
レームが多数の訂正できないビット・エラーを含むか否
かを決定する。訂正できないビット・エラーを検出する
ための一つの方法はデータ内に挿入された余分なビット
をチェックするものである。本発明は、また、訂正可能
なビット・エラーをエラー率の局所的推定を比較するこ
とによって、多量のバーストビット・エラーに遭遇した
か否かを決定する。訂正可能なビット・エラーの数がエ
ラー率の局所的な推定値よりも実質的に大きい時にフレ
ーム繰り返しが実行される。更に、本発明は不正のビッ
トシーケンス、即ち、エンコーダが決して送信しないビ
ット群を各フレームについてチェックする。不正なビッ
トシーケンスが検出された時に、フレーム繰り返しが実
行される。
ゴレイ(Golay)コードとハミング(Hamming)コード
デコーダは、データ内における訂正可能なビット・エラ
ーの数についての情報をも提供する。この情報はデコー
ダによってビット・エラー率の推定に用いられる。ビッ
ト・エラー率の推定値は、訂正不能なビット・エラーの
存在のもとにおいて知覚された音声品質を向上させる適
応型の平滑化器(スムーザ)として用いられる。更に、
ビット・エラー率の推定値は、悪いエラー環境下におい
て、フレーム繰り返しを実行するために用いられる。
本発明のこの視点は、性能を更に改善するソフト決定
コーディングと共に用いることができる。ソフト決定デ
コーディングは、各ビットがエラー状態にある尤度に関
する追加情報を用いて、多数の異なったコードのエラー
訂正と検出能力を改善する。この追加情報は、ディジタ
ル通信システムにおいて復調器から入手可能であるた
め、本発明は、エラー保護のために余分なビットを要す
る事無く、ビット・エラーに対して改善されたロバスト
性を提供する。
本発明は、合成された音声の品質を改良する周波数領
域の新しいパラメータ強調法を用いる。本発明は、最初
に音声スペクトルのうち知覚的に重要な領域を位置付け
る。本発明は次に他の周波数領域と比較して知覚的に重
要な周波数領域の振幅を増大させる。周波数領域のパラ
メータ強調の好ましい方法は、スペクトルの一般的な形
状を推定するためにスペクトル包絡を平滑化するもので
ある。スペクトルは、スペクトル包絡に対する、全極形
モデル、ケプストラムモデル、又は多項式モデル等の低
次モデルを当てはめることによって平滑化される。平滑
化されたスペクトル包絡は、平滑化されないスペクトル
包絡と比較され、平滑化されないスペクトル包絡が平滑
化されたスペクトル包絡領域よりも大きなエネルギーを
有する領域として、知覚的に重要なスペクトル領域が同
定される。同様に、平滑化されないスペクトル包絡が平
滑化されたスペクトル包絡領域よりも大きなエネルギー
を有する領域は、知覚的に重要性の低いものとして同定
される。知覚的に重要な周波数領域の振幅を増大させ、
知覚的に重要性の低い周波数領域の振幅を減少させるこ
とによってパラメータ強調が行なわれる。この新しい強
調方法は、音声パラメータの推定と量子化の際に導入さ
れる多数の人工物を除去し減少することによって音声品
質を向上させる。更に、この新しい方法は知覚的に重要
な音声フォーマットを先鋭化する事によって音声の分か
り易さを向上させる。
IMBE音声デコーダにおいては、一次の全極形モデルが
各フレームのスペクトル包絡に当てはめられる。これは
相関パラメータを推定することによって行なわれる。即
ち、デコードされたモデルパラメータから次式(13)と
(14)に従い、相関パラメータR0とRlが推定される。
ここに、1lについては現在フレームのデ
コードされたスペクトル振幅であり、 は現在フレームのデコードされた基本周波数である。相
関パラメータR0とRlは一次の全極形モデルを推定するた
めに用いられる。このモデルは現在のフレーム(即ち、 但し、1l)のスペクトル振幅に対応する周波数
において評価され、次式(15)に従い一組の重みWlを生
成するために用いられる。
これらの重みはIMBEスペクトル振幅に対する平滑化され
た全極スペクトルの比率を示している。これらは、次
に、各スペクトル振幅に適用されるパラメータ強調の量
を個別に制御するために用いられる。この関係は次式
(16)で表わされる。
ここに、1lについては現在フレームの強調
されたスペクトル振幅である。
強調されたスペクトル振幅は次に音声合成を行なうた
めに用いられる。強調されたモデルパラメータの使用
は、強調されないモデルパラメータから合成されたもの
と比較して、音声品質を改善している。
フロントページの続き (72)発明者 ハードウィック、ジョン シー アメリカ合衆国、マサチューセッツ 02141、ケンブリッジ、ウェブスター アヴェニュー 133、アパートメント 3 (72)発明者 リム、ジェイ エス アメリカ合衆国、マサチューセッツ 01890、ウィンチェスター、ウェスト チャードン ロード 21 (56)参考文献 特開 昭62−285541(JP,A) 特開 昭62−117422(JP,A) 特開 平1−177225(JP,A) 特開 昭62−264731(JP,A) 特開 昭61−286900(JP,A) 特開 平2−82710(JP,A) 特開 昭62−235996(JP,A)

Claims (32)

    (57)【特許請求の範囲】
  1. 【請求項1】音声が複数セグメントに分割され各セグメ
    ントについてスペクトルが一組の周波数で標本化されて
    一組のスペクトル振幅を形成し、該スペクトルは一のセ
    グメントと次のセグメントで一般に異なった周波数で標
    本化され、現在のセグメントのスペクトル振幅を予測す
    るために少なくとも一の前のセグメントが用いられ、現
    在のセグメントの実際のスペクトル振幅と現在のセグメ
    ントの予測スペクトル振幅の間の差に基づく予測残差が
    引き続く符号化に用いられる、音声符号化の方法におい
    て、現在の予測スペクトル振幅が、少なくとも一部、前
    のセグメントのスペクトル振幅の補間に基づき、現在の
    セグメントの周波数で前のセグメントのスペクトル振幅
    を推定することを特徴とする音声符号化方法。
  2. 【請求項2】音声が複数セグメントに分割され各セグメ
    ントについてスペクトルが一組の周波数で標本化されて
    一組のスペクトル振幅を形成し、該スペクトルは一のセ
    グメントと次のセグメントで一般に異なった周波数で標
    本化され、現在のセグメントのスペクトル振幅を予測す
    るために少なくとも一の前のセグメントが用いられ、現
    在のセグメントの実際のスペクトル振幅と現在のセグメ
    ントの予測スペクトル振幅の間の差に基づく予測残差が
    引き続く符号化に用いられる、音声符号化の方法におい
    て、予測残差が予め定められた個数のブロックに分割さ
    れ、該ブロックの個数は特定のブロックの残差の数に依
    存せず、ブロックが符号化されることを特徴とする音声
    符号化方法。
  3. 【請求項3】現在のセグメントの予測されるスペクトル
    振幅が、少なくとも一部、前のセグメントのスペクトル
    振幅を補間することに基づき、現在のセグメントの周波
    数で前のセグメントのスペクトル振幅を推定する請求の
    範囲第2項に記載の方法。
  4. 【請求項4】音声が複数セグメントに分割され各セグメ
    ントについてスペクトルが一組の周波数で標本化されて
    一組のスペクトル振幅を形成し、該スペクトルは一のセ
    グメントと次のセグメントで一般に異なった周波数で標
    本化され、現在のセグメントのスペクトル振幅を予測す
    るために少なくとも一の前のセグメントが用いられ、現
    在のセグメントの実際のスペクトル振幅と現在のセグメ
    ントの予測スペクトル振幅の間の差に基づく予測残差が
    引き続く符号化に用いられる音声符号化の方法におい
    て、予測残差が複数ブロックにグループ化され、各ブロ
    ック内の予測残差の平均が決定され、すべてのブロック
    の平均が予測残差ブロック平均(PRBA)ベクトルにグル
    ープ化され、PRBAベクトルが量子化されることを特徴と
    する音声符号化方法。
  5. 【請求項5】予め定められた個数ブロックがあり、該個
    数が予測セグメントの数に依存しない請求の範囲第4項
    記載の方法。
  6. 【請求項6】現在のセグメントの予測されるスペクトル
    振幅が少なくとも一部、前のセグメントのスペクトル振
    幅を補間することに基づき、現在のセグメントの周波数
    で前のセグメントのスペクトル振幅を推定する請求の範
    囲第5項に記載の方法。
  7. 【請求項7】現在のセグメントの実際のスペクトル振幅
    と現在のセグメントの予測されたスペクトル振幅の間の
    差が、実際のスペクトル振幅から予測されたスペクトル
    振り幅の一部を差分することによって形成される請求の
    範囲第4項記載の方法。
  8. 【請求項8】スペクトル振幅が多重帯域励起音声モデル
    を用いて得られる請求の範囲第1、2又は4項のいずれ
    か一に記載の方法。
  9. 【請求項9】現在のセグメントの予測スペクトル振幅の
    形成に際して最も最近の前のセグメントのスペクトル振
    幅のみが用いられる請求の範囲第1、2又は4項のいず
    れか一に記載の方法。
  10. 【請求項10】所与のセグメントに対して周波数の組が
    該セグメントの基本周波数の倍数である請求の範囲第
    1、2又は4項のいずれか一に記載の方法。
  11. 【請求項11】ブロックの個数が6に等しい請求の範囲
    第2、5又は6項のいずれか一に記載の方法。
  12. 【請求項12】低い周波数ブロックにおける予測残差の
    個数が高い周波数ブロックにおける予測残差の個数より
    も大きくない請求の範囲第2、5又は6項のいずれか一
    に記載の方法。
  13. 【請求項13】低い周波数ブロックにおける予測残差の
    個数が高い周波数ブロックにおける予測残差の個数より
    も大きくない請求の範囲第11項記載の方法。
  14. 【請求項14】高い周波数ブロックにおける要素の個数
    と低い周波数ブロックにおける要素の個数の差が1以下
    である請求の範囲第13項記載の方法。
  15. 【請求項15】前記平均が、ブロック内においてスペク
    トル振幅予測残差を加算し該ブロック内において予測残
    差の個数で除する請求の範囲第4、5又は6項のいずれ
    か一に記載の方法。
  16. 【請求項16】前記平均が、ブロック内のスペクトル振
    幅予測残差の離散コサイン変換(DCT)を計算し、且つ
    平均として該DCTの第1番目の係数を用いることによっ
    て得られる請求の範囲第15項記載の方法。
  17. 【請求項17】PRBA(予測残差ブロック平均)ベクトル
    が二つの方法、即ち、(1)PRBAベクトルに離散コサイ
    ン変換(DCT)などの変換を施し、変換係数をスカラー
    量子化する方法、(2)PRBAベクトルをベクトル量子化
    する方法、の内の一を用いて符号化される請求の範囲第
    4、5又は6項のいずれか一に記載の方法。
  18. 【請求項18】前記ベクトル量子化が、 PRBAベクトルの平均を決定し、 該平均をスカラー量子化を用いて量子化し、 前記平均をPRBAベクトルから差し引きゼロ平均PRBAベク
    トルを形成し、及び、 ゼロ平均コードブックによってベクトル量子化を用いて
    前記ゼロ平均PRBAベクトルを量子化する、 上記各工程から成る方法を用いて行なわれる請求範囲第
    17項記載の方法。
  19. 【請求項19】音声が複数セグメントに分割され、セグ
    メント内の各セグメントについて又はセグメント内の各
    帯域について有声/無声の判定が為され、各セグメント
    についてスペクトルが一組の周波数で標本化されて一組
    のスペクトル振幅を形成する、音声符号化の方法におい
    て、現在の音声セグメントに対してビット・エラー率が
    推定され、予め定められたエラー率閾値と比較され、現
    在のセグメントについて予め定めるエネルギー閾値より
    も高いスペクトル振幅に対する有声/無声の判定が、推
    定されたビットエラー率が所定のエラー率閾値よりも高
    い時、全て有声であると宣言される音声符号化方法。
  20. 【請求項20】予め定めるエネルギー閾値が現在のセグ
    メントに対するビットエラー率に依存する請求の範囲第
    19項記載の方法。
  21. 【請求項21】モデルパラメータによって特徴付けられ
    る音声モデルを用いて音声が符号化され、音声が時間セ
    グメントに分割され、各セグメントについてモデルパラ
    メータが推定され且つ量子化され、及び、量子化された
    モデルパラメータの少なくともいずれかがエラー訂正コ
    ーディングを用いて符号化される、音声符号化の方法に
    おいて、量子化されたモデルパラメータを符号化するた
    めに少なくとも二つの型式のエラー訂正コーディングが
    用いられ、第2の型式の符号化よりも多くの追加ビット
    を加える第1の型式の符号化が、第2群の量子化された
    モデルパラメータよりもビットエラーに対して感度が高
    い第1群の量子化されたモデルパラメータに対して用い
    られ、 量子化されたパラメータが多帯域励起(MBE)音声コー
    ダ又は改良型多帯域励起(IMBE)音声コーダと関連した
    パラメータである音声合成符号化方法。
  22. 【請求項22】モデルパラメータによって特徴付けられ
    る音声モデルを用いて音声が符号化され、音声が時間セ
    グメントに分割され、各セグメントについてモデルパラ
    メータが推定され且つ量子化され、量子化されたモデル
    パラメータの少なくともいずれかがエラー訂正コーディ
    ングを用いて符号化され、デコードされた量子化された
    モデルパラメータから音声が合成される音声符号化の方
    法において、 前記量子化されたモデルパラメータが、基本周波数、有
    声/無声判定結果、スペクトル振幅情報を含む、多帯域
    励起(MBE)音声モデルパラメータであり、 前記エラー訂正コーディングは、合成に際して、エラー
    率を推定するために用いられ、前記モデルパラメータに
    ついての前記エラー率が予め定めるレベルを超えた時
    に、前のセグメントの1又は複数のモデルパラメータが
    現在のセグメントにおいて繰り返されることを特徴とす
    る音声合成符号化方法。
  23. 【請求項23】量子化されたパラメータが、多帯域励起
    (MBE)音声コーダ又は改良型多帯域励起(IMBE)音声
    コーダと関連したパラメータである請求の範囲第22項記
    載の方法。
  24. 【請求項24】モデルパラメータによって特徴付けられ
    る音声モデルを用いて音声が符号化され、音声が時間セ
    グメントに分割され、各セグメントについてモデルパラ
    メータが推定され且つ量子化され、及び、量子化された
    モデルパラメータの少なくともいずれかがエラー訂正コ
    ーディングを用いて符号化される、音声符号化の方法に
    おいて、 前記量子化されたモデルパラメータが、基本周波数、有
    声/無声判定結果、スペクトル振幅情報を含む、多帯域
    励起(MBE)音声モデルパラメータであり、 前記量子化されたモデルパラメータを符号化するために
    少なくとも二つの型式のエラー訂正コーディングが用い
    られ、第2の型式の符号化よりも多くの追加ビットを加
    える第1の型式の符号化が、第2群の量子化されたモデ
    ルパラメータよりもビットエラーに対して感度が高い第
    1群の量子化されたモデルパラメータに対して用いら
    れ、 エラー率が前記エラー訂正コーディングを用いて推定さ
    れることを特徴とする音声合成符号化方法。
  25. 【請求項25】異なった型式のエラー訂正コーディング
    がゴレイ(Golay)コードとハミング(Hamming)コード
    を含む請求の範囲第21又は24項記載の方法。
  26. 【請求項26】1又は複数のモデルパラメータが推定さ
    れたエラー率に基づき複数のセグメントに渡って平滑化
    される請求の範囲第24項記載の方法。
  27. 【請求項27】平滑化されるモデルパラメータが、有声
    /無声の判定を含む請求の範囲第26項記載の方法。
  28. 【請求項28】平滑化されるパラメータが、多帯域励起
    (MBE)音声コーダ又は改良型多帯域励起(IMBE)音声
    コーダに対するパラメータを含む請求の範囲第26項記載
    の方法。
  29. 【請求項29】パラメータに対して推定されたエラー率
    が予め定めるレベルを超えた時に、前のセグメントにお
    ける1又は複数のモデルパラメータが現在のセグメント
    において繰り返される請求の範囲第28項記載の方法。
  30. 【請求項30】音声信号が複数セグメントに分割され、
    セグメントの周波数領域の表現が決定されて該セグメン
    トのスペクトル包絡を提供し、音声が強調されたスペク
    トル包絡から合成される、音声強調の方法において、 セグメントの平滑化されたスペクトル包絡がスペクトル
    包絡を平滑化することによって生成され、 スペクトル包絡と平滑化されたスペクトル包絡を比較
    し、前記平滑化されたスペクトル包絡よりも大きな振幅
    を有するスペクトル包絡について該スペクトル包絡の周
    波数領域のいくつかを増加させ、且つ前記平滑化された
    スペクトル包絡よりも小さな振幅を有するスペクトル包
    絡について該スペクトル包絡の周波数領域のいくつかを
    減少させることにより、強調されたスペクトル包絡が生
    成され、 スペクトル包絡の周波数領域表示が、多帯域励起(MB
    E)音声コーダ又は改良型多帯域励起(IMBE)音声コー
    ダのスペクトル振幅パラメータの組である方法。
  31. 【請求項31】平滑化されたスペクトル包絡が、スペク
    トル包絡から低次モデルを推定することによって生成さ
    れる請求の範囲第30項記載の方法。
  32. 【請求項32】低次モデルが全極形モデルである請求の
    範囲第31項記載の方法。
JP50295792A 1990-12-05 1991-12-04 音声の量子化とエラー訂正のための方法 Expired - Lifetime JP3467270B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US624,878 1990-12-05
US07/624,878 US5226084A (en) 1990-12-05 1990-12-05 Methods for speech quantization and error correction
PCT/US1991/009135 WO1992010830A1 (en) 1990-12-05 1991-12-04 Methods for speech quantization and error correction

Publications (2)

Publication Number Publication Date
JPH06507252A JPH06507252A (ja) 1994-08-11
JP3467270B2 true JP3467270B2 (ja) 2003-11-17

Family

ID=24503712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP50295792A Expired - Lifetime JP3467270B2 (ja) 1990-12-05 1991-12-04 音声の量子化とエラー訂正のための方法

Country Status (7)

Country Link
US (1) US5226084A (ja)
EP (3) EP1211669B1 (ja)
JP (1) JP3467270B2 (ja)
AU (1) AU657508B2 (ja)
CA (1) CA2096425C (ja)
DE (3) DE69132013T2 (ja)
WO (1) WO1992010830A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009530685A (ja) * 2006-03-20 2009-08-27 マインドスピード・テクノロジーズ・インコーポレイテッド Mdct係数を使用する音声後処理

Families Citing this family (63)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5247579A (en) * 1990-12-05 1993-09-21 Digital Voice Systems, Inc. Methods for speech transmission
US5630011A (en) * 1990-12-05 1997-05-13 Digital Voice Systems, Inc. Quantization of harmonic amplitudes representing speech
US5765127A (en) * 1992-03-18 1998-06-09 Sony Corp High efficiency encoding method
ES2078834B1 (es) * 1992-10-30 1997-04-16 Alcatel Standard Electrica Metodo de segmentacion de cadenas de palabras en la fase de entrenamiento de un reconocedor de palabras conectadas.
US5517511A (en) * 1992-11-30 1996-05-14 Digital Voice Systems, Inc. Digital transmission of acoustic signals over a noisy communication channel
JP2746033B2 (ja) * 1992-12-24 1998-04-28 日本電気株式会社 音声復号化装置
KR100395190B1 (ko) * 1993-05-31 2003-08-21 소니 가부시끼 가이샤 신호 부호화 또는 복호화 장치, 및 신호 부호화 또는복호화 방법
EP0663739B1 (en) * 1993-06-30 2001-08-22 Sony Corporation Digital signal encoding device, its decoding device, and its recording medium
TW327223B (en) * 1993-09-28 1998-02-21 Sony Co Ltd Methods and apparatus for encoding an input signal broken into frequency components, methods and apparatus for decoding such encoded signal
US5715365A (en) * 1994-04-04 1998-02-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
JP3557662B2 (ja) * 1994-08-30 2004-08-25 ソニー株式会社 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置
AU696092B2 (en) * 1995-01-12 1998-09-03 Digital Voice Systems, Inc. Estimation of excitation parameters
US5701390A (en) * 1995-02-22 1997-12-23 Digital Voice Systems, Inc. Synthesis of MBE-based coded speech using regenerated phase information
US5754974A (en) * 1995-02-22 1998-05-19 Digital Voice Systems, Inc Spectral magnitude representation for multi-band excitation speech coders
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
AT403969B (de) * 1995-12-04 1998-07-27 Ericsson Schrack Aktiengesells Verfahren zur kompression eines analogen signals
WO1997027578A1 (en) * 1996-01-26 1997-07-31 Motorola Inc. Very low bit rate time domain speech analyzer for voice messaging
US6035007A (en) * 1996-03-12 2000-03-07 Ericsson Inc. Effective bypass of error control decoder in a digital radio system
KR100438801B1 (ko) * 1996-10-30 2004-07-16 삼성전자주식회사 랜덤에러에견고한부호화및복호화장치
KR100389898B1 (ko) * 1996-10-31 2003-10-17 삼성전자주식회사 음성부호화에 있어서 선스펙트럼쌍 계수의 양자화 방법
US5968199A (en) * 1996-12-18 1999-10-19 Ericsson Inc. High performance error control decoder
US5839098A (en) 1996-12-19 1998-11-17 Lucent Technologies Inc. Speech coder methods and systems
KR100437900B1 (ko) * 1996-12-24 2004-09-04 엘지전자 주식회사 음성코덱의음성데이터복원방법
JPH10233692A (ja) * 1997-01-16 1998-09-02 Sony Corp オーディオ信号符号化装置および符号化方法並びにオーディオ信号復号装置および復号方法
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters
US6131084A (en) * 1997-03-14 2000-10-10 Digital Voice Systems, Inc. Dual subframe quantization of spectral magnitudes
FR2768545B1 (fr) * 1997-09-18 2000-07-13 Matra Communication Procede de conditionnement d'un signal de parole numerique
US6199037B1 (en) 1997-12-04 2001-03-06 Digital Voice Systems, Inc. Joint quantization of speech subframe voicing metrics and fundamental frequencies
KR19990065424A (ko) * 1998-01-13 1999-08-05 윤종용 저지연 다중밴드 여기 보코더를 위한 피치 결정방식
FR2796194B1 (fr) * 1999-07-05 2002-05-03 Matra Nortel Communications Procedes et dispositifs d'analyse et de synthese audio
JP4449108B2 (ja) 1999-08-05 2010-04-14 パナソニック株式会社 音声復号装置
KR100474833B1 (ko) * 1999-11-17 2005-03-08 삼성전자주식회사 예측 및 멜-스케일 이진 벡터를 이용한 가변 차원스펙트럼 진폭 양자화 방법 및 그 장치
US6377916B1 (en) 1999-11-29 2002-04-23 Digital Voice Systems, Inc. Multiband harmonic transform coder
KR100861884B1 (ko) * 2000-06-20 2008-10-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 정현파 코딩 방법 및 장치
US6735563B1 (en) * 2000-07-13 2004-05-11 Qualcomm, Inc. Method and apparatus for constructing voice templates for a speaker-independent voice recognition system
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
US7027980B2 (en) * 2002-03-28 2006-04-11 Motorola, Inc. Method for modeling speech harmonic magnitudes
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7970606B2 (en) 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US8359197B2 (en) * 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
TWI275074B (en) * 2004-04-12 2007-03-01 Vivotek Inc Method for analyzing energy consistency to process data
US8825482B2 (en) * 2005-09-15 2014-09-02 Sony Computer Entertainment Inc. Audio, video, simulation, and user interface paradigms
KR100857117B1 (ko) * 2005-10-05 2008-09-05 엘지전자 주식회사 신호 처리 방법 및 이의 장치, 그리고 인코딩 및 디코딩방법 및 이의 장치
BRPI0616859A2 (pt) * 2005-10-05 2011-07-05 Lg Electronics Inc método e aparelho para processamento de sinais
US8199827B2 (en) 2005-10-13 2012-06-12 Lg Electronics Inc. Method of processing a signal and apparatus for processing a signal
AU2006300101B2 (en) * 2005-10-13 2010-09-16 Lg Electronics Inc. Method and apparatus for signal processing
US8179977B2 (en) 2005-10-13 2012-05-15 Lg Electronics Inc. Method of apparatus for processing a signal
US7752053B2 (en) 2006-01-13 2010-07-06 Lg Electronics Inc. Audio signal processing using pilot based coding
JP4769673B2 (ja) * 2006-09-20 2011-09-07 富士通株式会社 オーディオ信号補間方法及びオーディオ信号補間装置
US8036886B2 (en) 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
JP2008281552A (ja) * 2007-04-09 2008-11-20 Seiko Epson Corp 初回測位出力位置演算決定方法、プログラム、記憶媒体、測位装置及び電子機器
CN101221765B (zh) * 2008-01-29 2011-02-02 北京理工大学 一种基于语音前向包络预测的差错隐藏方法
DE102010041435A1 (de) * 2010-09-27 2012-03-29 Siemens Medical Instruments Pte. Ltd. Verfahren zum Rekonstruieren eines Sprachsignals und Hörvorrichtung
US9948920B2 (en) 2015-02-27 2018-04-17 Qualcomm Incorporated Systems and methods for error correction in structured light
US10068338B2 (en) 2015-03-12 2018-09-04 Qualcomm Incorporated Active sensing spatial resolution improvement through multiple receivers and code reuse
US9530215B2 (en) 2015-03-20 2016-12-27 Qualcomm Incorporated Systems and methods for enhanced depth map retrieval for moving objects using active sensing technology
US9635339B2 (en) 2015-08-14 2017-04-25 Qualcomm Incorporated Memory-efficient coded light error correction
US9846943B2 (en) 2015-08-31 2017-12-19 Qualcomm Incorporated Code domain power control for structured light
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
US11990144B2 (en) 2021-07-28 2024-05-21 Digital Voice Systems, Inc. Reducing perceived effects of non-voice data in digital speech

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3982070A (en) * 1974-06-05 1976-09-21 Bell Telephone Laboratories, Incorporated Phase vocoder speech synthesis system
US3975587A (en) * 1974-09-13 1976-08-17 International Telephone And Telegraph Corporation Digital vocoder
US3995116A (en) * 1974-11-18 1976-11-30 Bell Telephone Laboratories, Incorporated Emphasis controlled speech synthesizer
US4276647A (en) * 1979-08-02 1981-06-30 Xerox Corporation High speed Hamming code circuit and method for the correction of error bursts
US4454609A (en) * 1981-10-05 1984-06-12 Signatron, Inc. Speech intelligibility enhancement
AU570439B2 (en) * 1983-03-28 1988-03-17 Compression Labs, Inc. A combined intraframe and interframe transform coding system
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
US4856068A (en) * 1985-03-18 1989-08-08 Massachusetts Institute Of Technology Audio pre-processing methods and apparatus
JPS61252596A (ja) * 1985-05-02 1986-11-10 株式会社日立製作所 文字音声通信方式及び装置
US4720861A (en) * 1985-12-24 1988-01-19 Itt Defense Communications A Division Of Itt Corporation Digital speech coding circuit
US4797926A (en) * 1986-09-11 1989-01-10 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech vocoder
FR2616993B1 (fr) * 1987-06-16 1989-11-24 Radiotechnique Ind & Comm Procede et dispositif de correction d'erreurs dans les donnees numeriques d'un signal de television
US5023910A (en) * 1988-04-08 1991-06-11 At&T Bell Laboratories Vector quantization in a harmonic speech coding arrangement
JPH02203400A (ja) * 1989-02-01 1990-08-13 Japan Radio Co Ltd 音声符号化方法
US5823910A (en) * 1995-11-23 1998-10-20 Hyundai Motor Company Transmission including planetary gear sets

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009530685A (ja) * 2006-03-20 2009-08-27 マインドスピード・テクノロジーズ・インコーポレイテッド Mdct係数を使用する音声後処理

Also Published As

Publication number Publication date
EP0893791A2 (en) 1999-01-27
EP0560931A4 (ja) 1995-07-26
EP0560931A1 (en) 1993-09-22
DE69133058T2 (de) 2002-10-31
WO1992010830A1 (en) 1992-06-25
EP1211669B1 (en) 2005-05-04
CA2096425A1 (en) 1992-06-06
DE69132013D1 (de) 2000-04-06
EP0893791A3 (en) 1999-05-19
EP0560931B1 (en) 2000-03-01
DE69132013T2 (de) 2000-11-02
AU657508B2 (en) 1995-03-16
EP1211669A2 (en) 2002-06-05
AU9147091A (en) 1992-07-08
DE69133458D1 (de) 2005-06-09
US5226084A (en) 1993-07-06
JPH06507252A (ja) 1994-08-11
DE69133458T2 (de) 2006-02-23
EP1211669A3 (en) 2003-02-05
EP0893791B1 (en) 2002-07-03
DE69133058D1 (de) 2002-08-08
CA2096425C (en) 2005-03-22

Similar Documents

Publication Publication Date Title
JP3467270B2 (ja) 音声の量子化とエラー訂正のための方法
US5247579A (en) Methods for speech transmission
CA2169822C (en) Synthesis of speech using regenerated phase information
US5754974A (en) Spectral magnitude representation for multi-band excitation speech coders
US8595002B2 (en) Half-rate vocoder
US8200497B2 (en) Synthesizing/decoding speech samples corresponding to a voicing state
US6377916B1 (en) Multiband harmonic transform coder
US6418408B1 (en) Frequency domain interpolative speech codec system
US6161089A (en) Multi-subframe quantization of spectral parameters
EP0927988B1 (en) Encoding speech
EP0996949A2 (en) Split band linear prediction vocoder
GB2324689A (en) Dual subframe quantisation of spectral magnitudes
KR100220783B1 (ko) 음성 양자화 및 에러 보정 방법

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080829

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090829

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100829

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110829

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 9

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120829

Year of fee payment: 9