JP2002527778A - スピーチコーダパラメータの量子化方法 - Google Patents
スピーチコーダパラメータの量子化方法Info
- Publication number
- JP2002527778A JP2002527778A JP2000575121A JP2000575121A JP2002527778A JP 2002527778 A JP2002527778 A JP 2002527778A JP 2000575121 A JP2000575121 A JP 2000575121A JP 2000575121 A JP2000575121 A JP 2000575121A JP 2002527778 A JP2002527778 A JP 2002527778A
- Authority
- JP
- Japan
- Prior art keywords
- pattern
- vector
- transmitted
- energy
- parameters
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000013139 quantization Methods 0.000 title claims abstract description 23
- 238000000034 method Methods 0.000 title claims description 37
- 239000013598 vector Substances 0.000 claims abstract description 37
- 230000007704 transition Effects 0.000 claims abstract description 19
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 17
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 12
- 230000003595 spectral effect Effects 0.000 claims abstract description 10
- 238000013213 extrapolation Methods 0.000 claims abstract description 6
- 230000005236 sound signal Effects 0.000 claims description 12
- 230000002194 synthesizing effect Effects 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 230000005540 biological transmission Effects 0.000 claims description 3
- 238000004891 communication Methods 0.000 claims description 3
- 230000015556 catabolic process Effects 0.000 claims description 2
- 238000006731 degradation reaction Methods 0.000 claims description 2
- 238000004587 chromatography analysis Methods 0.000 abstract 1
- 230000006866 deterioration Effects 0.000 abstract 1
- 238000004458 analytical method Methods 0.000 description 9
- 230000005284 excitation Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000000737 periodic effect Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000295 complement effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000005309 stochastic process Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000002542 deteriorative effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/16—Vocoder architecture
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/087—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using mixed excitation models, e.g. MELP, MBE, split band LPC or HVXC
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L2019/0001—Codebooks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/93—Discriminating between voiced and unvoiced parts of speech signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Executing Machine-Instructions (AREA)
- Machine Translation (AREA)
- Devices For Executing Special Programs (AREA)
Abstract
Description
bps程度の非常に低いビットレートの、衛星通信、インターネット電話、静的
自動応答装置、音声ページャに採用される音声符号化器において使用することが
できる。
る音声信号を、可能な限り少ない2値化データで再生することである。
ルを使用する。使用されるパラメータは、剛性フィルタを刺激してパラメータ化
するための、発音された声の周期特性や発音されていない音のランダム特性、「
ピッチ」とも呼ばれる発音された声の基本周波数、エネルギーの時間変化と信号
のスペクトルの包絡線等である。フィルタリングは、一般に、線形予測デジタル
フィルタによって行われる。
存するが、10msから30msの時間フレーム毎に、1回から数回程度、周期
的に推定される。これらの値は分析装置で準備され、一般的には別の合成装置に
伝達される。
bit/秒符号化器が長い間使用されてきた。この符号化器の構造と、低ビット
レートにおける動作は以下の文献に開示されている。 NATO標準STANAG−4198−Ed1「2400bpsで線形予測符
号化された音声の共通な取り扱いを確保するためのパラメータと符号化特性(Par
ameters and coding characteristics that must be common to assure interop
erability of 2400 bps linear predictive encoded speech)」1984年2月
13日、および、B. Mouy, D de la NoueとG. Goudezeuneによる「NATO S
TANAG 4479:HF−ECCMシステムにおける800bps音声符号
化器とチャネル符号化のための標準(A Standard for an 800 bps Vocoder and C
hannel Coding in HF-ECCM system)」、音響、音声と信号処理に関するIEEE
国際コンファレンス、デトロイト、1955年5月、480−483ページ。
の、音質が劣悪なために、この適用分野は専門的又は軍事的な分野に限定されて
いる。近年、MBE、PWIやMELPと呼ばれる新しいモデルが導入されるに
伴って、低ビットレートスピーチ符号化は大幅に改善された。
励振(Multiband Vocoders Excitation)」、音響、音声と信号処理に関するIE
EE論文集、第36巻、第8号、1223−1235ページ、1988年に記載
されている。
形補間(Waveform Interpolation for Coding and Synthesis)」、W. B. Kleijn
とK.K. Paliwal編の「音声符号化と合成」Elsevier出版、1995年に記載され
ている。
V. McCreeによる「MELP:2400bit/sにおける新しい連邦標準(MELP
: The New Federal Standard At 2400 bits/s)、音響、音声と信号処理に関する
IEEE国際コンファレンス、1591から1594ページ、ミュンヘン、19
97年に記載されている。
分野で許容できるものになった。しかし、2400bit/s以下のビットレー
トでは(代表的には1200bit/sあるいはそれ以下)、再生スピーチの品
質は不十分で、この欠点を補うために、別の技術が使用されている。第1の技術
は、2種類のバリエーションがそれぞれ、既に紹介したB. Mouy, P. de la Noue
とG. Goudezeuneの文献と、Y. Shohamによる「1.2から2.4kbpsにおけ
る極めて単純化された補間を伴う音声符号化(Very Low Complexity Interpolati
ve Speech Coding at 1.2 To 2.4 Kbps)」音響、音声と信号処理に関するIEE
E国際コンファレンス、1599−1602ページ、ミュンヘン、1997年4
月に記載されている、セグメント分割音声符号化技術である。
利用するために十分な品質を有していないように見える。
れている技術である。この分野の研究は基礎研究分野にとどまっている。使用さ
れているビットレートは1200bit/sよりもはるかに低く(代表的な値は
50から200bit/s)であり、品質は低く、しばしば人の声を認識するこ
とができない。この種の音声符号化器は、J. Cernocky, G. BaudoinとG. Cholle
tによる「音声アプローチを超えるセグメント分割音声符号化器(Segmental Voco
der - Going Beyond The Phonetic Approach)」、音響、音声と信号処理に関す
るIEEE国際コンファレンス、605−698ページ、シアトル、1998年
5月12−15日に開示されている。
送信する分析部と、該送信されたパラメータを受信して復号化する合成部とを使
用して、非常に低いビットレートの音声符号化器によって音声通信のための音声
符号化と復号化を行い、線形予測合成フィルタを使用して音声信号を再構成し、
パラメータを分析し、ピッチと、音声遷移周波数とエネルギーとスペクトル包絡
線を、音声信号を所定の長さのフレームに分割して記述する方法であって、N個
の連続するフレームのパラメータを集めてスーパーフレームを作成し、スーパー
フレームごとに音声の遷移周波数のベクトル量子化を行い、もっとも頻繁に発生
する形状のみを劣化させないように送信し、最も頻度の低い形状を最も頻繁に発
生する形状の中の絶対誤差が最も近いものによって置換し、スーパーフレームご
とに1つの値をスカラー量子化してピッチを符号化し、ベクトル量子化されたサ
ブパケットの値から少ない数の値のみを選択してエネルギーを符号化し、送信さ
れた値に対して補間又は補外を行って送信されなかったエネルギー値を復活させ
、特定の数のフィルタのみを選択することによって、ベクトル量子化を使用して
スペクトル包絡パラメータを線形予測合成フィルタによる符号化のために符号化
し、送信されなかったパラメータを送信されたフィルタのパラメータを補間又は
補外処理することによって復活させる方法によって達成する。
る。 図1は、本発明の実施において使用するHSX型の音声符号化器の混合励振モ
デルを示す図である。 図2は、本発明において使用するHSX型の音声符号化器の「分析」部の機能
を示す図である。 図3は、本発明において使用するHSX型の音声符号化器の合成部分の機能を
示す図である。 図4は、本発明にかかる方法の主要な処理過程を示すフローチャートである。 図5は、連続した3つのフレームの音声遷移周波数の形状の分布を示す表であ
る。 図6は、本発明を実行するために使用する音声遷移周波数のベクトル量子化表
である。 図7は、本発明において、音声信号のエネルギーを符号化するための選択と補
間を示したリストである。 図8は、線形予測LPCフィルタの符号化のための補間/補外と選択を示すリ
ストである。 図9は、本発明に基づく1200bit/sHSX型の音声符号化器による符
号化に必要なビットの配分表である。
て、HSXまたは「調和確率過程励振」音声符号化器として知られている音声符
号化器を使用する。
による「4kbit/s以下による調和確率過程励振(HSX)音声符号化(Har
monic Stochastic Excitation (HSX) Speech Coding Below 4kbits/s)」、音響
、音声と信号解析に関するIEEE国際コンファレンス、204−207ページ
、アトランタ、1996年5月に記載されている。
号を完全に再生することを可能にする最も有効なパラメータ符号化に関するもの
である。
デルを使用する線形予測音声符号化器である。このモデルでは、周期的なパルス
の連続がLPC合成フィルタの低周波数を励起し、ノイズのレベルが同フィルタ
の高周波数を励起する。図1は、2つのフィルタチャネルを有する混合励起の原
理を説明するものである。周期的なパルスの連続によって刺激される第1のチャ
ネルl1はローパスフィルタ処理を行い、確率過程としてのノイズ信号で刺激さ
れる第2のチャネルl2がハイパスフィルタとして作用する。2つのチャネルの
フィルタのカットオフ又は遷移周波数fcは同じであり、時間と共に変化する。
2つのチャネルのフィルタは互いに相補的である。加算器2は2つのチャネルか
ら得られた信号を合計する。加算器2の出力部で得られるスペクトル信号が平坦
になるように、ゲインgアンプ3が第1のフィルタチャネルのゲインを調節する
。
ずハイパスフィルタ4を通され、次に、8kHzで採取した180のサンプルか
らなる22.5ms長のフレームにセグメント分割される。各フレームに対して
ステップ5で2つの線形予測解析を行う。ステップ6と7では、部分的に白色化
された信号を、4つのサブバンドにフィルタ処理する。ロバストピッチフォロア
8が第1のサブバンドを実施する。声を含む音声の低周波数帯と音声を含まない
音声の高周波数帯との間の遷移周波数fcは、4つのサブバンドについてステッ
プ9で測定される音声レートによって決定される。最終的に、エネルギーを測定
してステップ10でピッチが同期するようにフレームごとに4回符号化する。
によって大幅に改善されるので、その結果得られるパラメータ、つまり、合成フ
ィルタ、ピッチ、ヴォイシング、遷移周波数とエネルギーの係数は1フレーム分
遅れて符号化される。
、スペクトルの包絡線が調和信号と相補的なランダム信号を合計することによっ
て、合成フィルタの励振信号を作成する。調和成分は、求める周期の間隔をあけ
て複数のパルスを予め設計されたバンドパスフィルタ11を通すことによって作
成する。ランダム成分は、フーリエ逆変換と時間重ね合わせ操作を組み合わせた
発生装置12によって得られる。合成LPCフィルタ14は、フレームごとに4
回補間処理を行う。フィルタ14の出力部に設けられた聴覚フィルタ15が、元
の音声信号に含まれる鼻音の特徴を再現する。最終的に、自動ゲイン制御装置に
よって、出力信号のピッチ同期したエネルギーが送信された信号のエネルギーと
同じになるように調整される。
のパラメータ、つまり、ピッチ、音声遷移周波数、エネルギーとLPCフィルタ
係数を、フレームごとに2つ、正確に符号化することは不可能である。
を最も有効に使用するために、本発明による方法では、、図4に示す5つの主要
な過程17から21を含む。ステップ17では、音声符号化器はN個の音声符号
化フレームを組み合わせてスーパーフレームを作成する。例えば、Nの値として
3を選択する。これは、この場合に、2値ビットレートの削減と量子化方法によ
ってもたらされる遅延との間に適当なバランスが得られるからである。さらに、
この方法では、現在の誤り訂正を伴う符号化とインターレース技術を利用するこ
とができる。
zのみを使用して、ベクトル量子化を使用してステップ18で符号化される。こ
の条件では、各周波数を符号化して3つのフレームからなるスーパーフレームの
ヴォイシング特性を正確に送信するためには、フレームごとに2ビット、全体で
6ビットあれば十分である。しかし、極めて希にのみ起きるヴォイシング特性が
存在するので、これらは再生された音声の聞き取りの容易さや品質に有意な役目
を果たさないので、通常の音声信号の処理にとって特徴を表すものと考える必要
はない。これは、例えば、フレームが完全に0から3625Hzの音声を含んで
おり、音声を全く含まない2つのフレームの間に存在するような場合である。
連続する3つのフレームのヴォイシングパターンの分布状態を示すものである。
この表では、最も頻度の低い32種類のパターンは、部分的又は完全に音声を含
むフレームの4%未満において発生するに過ぎない。これらのパターンを、最も
出現頻度が高い32のパターンのうちの絶対値が最も近いものによって置き換え
ることで生じる音質劣化は、感知不能である。このことは、スーパーフレームに
対してヴォイシング送信周波数のベクトル量子化を行うことで1ビットを節約す
ることができることを示している。音声パターンのベクトル量子化を図6におい
て22で参照する表に示す。表22は、アドレスビットの誤差によって生じる平
均二乗誤差を最小にするようにしたものである。
と対数軸に関して均一な量子化ピッチを有する6ビットのスカラー量子化器を有
する。3つの連続するフレームに対して1つの値が送信される。3つのピッチの
値と量子化される値の算出と、量子化された値から3つのピッチの値を再生する
方法は、解析のヴォイシング遷移周波数による相違を有する。この方法を以下に
示す。
チは任意の値、例えば、スーパーフレームを構成する各フレームについて45サ
ンプル、に固定する。 2.前のスーパーフレームの最後のフレームと、現在のスーパーフレームのす
べてのフレームが音声を含んでいれば、換言すれば、ヴォイシングの遷移周波数
がゼロよりも大きければ、量子化された値は、現在のスーパーフレームの最後の
フレームのピッチの値であって、この値が次に標的となる。復号化器では、現在
のスーパーフレームの3番目のフレームのピッチの復号価値が量子化の標的とし
て、現在のスーパーフレームの最初の2つのフレームの復号化されたピッチの値
は、前のスーパーフレームから伝達された値と量子化された標的値との間を線形
補間することで再現される。 3.その他すべての音声パターンに関して、量子化されるのは、現在のスーパ
ーフレームの3つのフレームのピッチの値に重み付けを行った値である。重み付
け係数は、対象となるフレームのヴォイシング遷移周波数に、以下に示すように
比例する。
れたピッチの値は、量子化された重み付け平均値に等しい。
的な信号の作成を抑制する目的で、フレーム1、2と3の合成に使用するピッチ
の値に対して軽いトレモロを意図的に加える。この関係を以下に示す。 使用するピッチ(1)=0.995x復号化されたピッチ(1) 使用するピッチ(2)=1.005x復号化されたピッチ(2) 使用するピッチ(3)=1.000x復号化されたピッチ(3)
誤差が広がることを抑制できるからである。さらに、符号化パターン2と3は互
いに近似しているので、ヴォイシング周波数の誤った復号化に影響を受けない。
R. M. Grayによる「ベクトル量子化(Vector Quantization)」、IEEEジャー
ナル、ASPマガジン、第1巻、4−29ページ、1984年4月に記載されて
いるタイプのベクトル量子化を使用する。分析部で、各スーパーフレームに対し
て、0から11の番号を付番した12のエネルギーの値を計算し、12のうちの
6つだけを送信する。分析部の3つの値を有する2つのベクトルを構成すること
ができる。各ベクトルは6ビットで量子化される。選択されたパターンの番号を
送信するために2ビット使用する。合成部での復号化において、補間によって量
子化されていないエネルギーの値を再生する。
である。このパターンは、12の安定なエネルギーの値に関するベクトルか、フ
レーム1、2、3を通じてエネルギーが急激に変化するベクトルを有効に符号化
するために最適化されたものである。分析部では、エネルギーベクトルを4つの
パターンのうちの1つを使用して符号化し、実際に送信されるパターンは合計二
乗誤差を最小にするものである。
差はエネルギーの値の変化に極一時的な影響を与えるだけなので敏感とは考えら
れていない。さらに、エネルギー値のベクトル量子化表は、アドレスビットの誤
差によって生じる平均二乗誤差を最小にするように調整されている。
ル量子化する。この符号化によって合成部で使用するデジタルフィルタの係数を
決定することが可能になる。0から5までの番号を付番した10の係数を有する
6つのLPCフィルタが、各スーパーフレームに対して分析部で算出され、6つ
のフィルタのうちの3つのみが送信される。6つのベクトルは、例えば、F. Ita
kuraによる「線形予測係数の線スペクトル表現(Line Spectrum Representation
of Linear Predictive Coefficients)」米国音響学会誌第57巻、P.S.35
、1975年に開示された方法に従って、LSFスペクトル線の10個の組から
なる6つのベクトルに変換される。線スペクトルの組はエネルギー符号化におい
て使用したのと同様な手法で符号化することができる.この方法は、3つのLP
Cフィルタの選択と、各ベクトルの18ビットへの量子化からなる。当該量子化
は、例えば、それぞれに9ビットが割り当てられる5つの連続したLSFフィル
タの2つのサブパケットに関連するSPLIT−VQ型の予測係数を0.6とし
たオープンループ予測ベクトル量子化器によって行うことができる。使用された
選択パターンの番号を送信するために2ビットが使用される。復号化器のレベル
では、LPCフィルタが量子化されないときは、例えば、線形補間によって量子
化されたLPCフィルタの値、又は前のフィルタLPCの重複を有する補外によ
って推定される。例えば、パケットによるベクトル量子化方法は、K.K. Paliwal
, B.S. Atalによる「24ビット/フレームのLPCパラメータの有効なベクト
ル量子化(Efficient Vector Quantization of LPC Parameters at 24 bit/frame
)」、音声と楽音処理に関するIEEE論文集、第1巻、1993年1月に開示
された方法に準拠することができる。
みである。これらのパターンは、スペクトル包絡線が安定な領域かフレーム1、
2、3を通じてスペクトルの包絡が急激に変化する領域を有効に符号化すること
を可能にする。すべてのLPCフィルタが次に、4つのパターンのいずれかにし
たがって、符号化されるが、実際に送信されるパターンは合計二乗誤差を最小に
するものである。
誤差があってもLPCフィルタの時刻変化には極わずかの影響しか与えないので
、感度が高いとは考えられていない。さらに、LSFフィルタのベクトル量子化
表が、合成部において、アドレッシングビットの誤差によって生じる平均二乗誤
差が最小になるように設定される。
パラメータの送信のためのビット割り当てを図9の表に示す。ここでは、67.
5msごとにパラメータの符号化を行い、各スーパーフレームにおいて信号パラ
メータの符号化に81ビットを使用することができる、1200bit/s音声
符号化器を前提としている。上記81ビットは、54のLSFビット、LSFフ
ィルタパターンのデシメーション用の2ビット、エネルギー用の6ビット2つ、
ピッチ用の6ビット及びヴォイシング用の5ビットを含む。
の混合励振モデルを示す図である。
析」部の機能を示す図である。
部分の機能を示す図である。
ートである。
を示す表である。
トル量子化表である。
めの選択と補間を示したリストである。
選択を示すリストである。
化器による符号化に必要なビットの配分表である。
Claims (12)
- 【請求項1】 音声信号(11、・・・16)のパラメータを符号化して送
信する分析部(4、・・・10)と、該送信されたパラメータを受信して復号化
する合成部とを具備し、合成部は、パラメータを解析し、音声信号を連続する所
定の長さの複数のフレームに分割してピッチ(8)とヴォイシング遷移周波数(
9)とエネルギー(10)とスペクトル包絡線(5)とを記述することを内容と
する線形予測合成フィルタを通じて音声信号を再生する音声通信のための音声符
号化と復号化方法であって、N個の連続するフレームのパラメータを集めて(1
7)スーパーフレームを作成し、スーパーフレームごとに音声の遷移周波数のベ
クトル量子化(18)を行い、劣化を生じないように、最も頻度の低いパターン
を最も頻繁に発生するパターンの中の絶対誤差が最も近いものによって置換して
最も頻繁に発生するパターンのみを送信し、スーパーフレームごとに1つの値を
スカラー量子化してピッチ(19)を符号化し、ベクトル量子化されたサブパケ
ットの値から少ない数の値のみを選択してエネルギー(20)を符号化し、合成
部では送信された値に対して補間又は補外を行って送信されなかったエネルギー
値を復活させ、特定の数のフィルタのみを選択して、ベクトル量子化(21)を
使用してスペクトル包絡パラメータを線形予測合成フィルタによる符号化のため
に符号化し、送信されなかったパラメータを送信されたフィルタのパラメータを
補間又は補外処理することによって復活させることを特徴とする方法。 - 【請求項2】 ピッチの量子化された値は、すべてにわたって音声を含む安
定領域のピッチの最後の値か、全域に渡って音声を含むわけではない領域の、ヴ
ォイシング遷移周波数で重み付けを行った平均値のうちのいずれかであることを
特徴とする請求項1に記載の方法。 - 【請求項3】 ピッチの値がスーパーフレームの最後の値であったときに、
補間によって他の値を作成することを特徴とする請求項2に記載の方法。 - 【請求項4】 合成部で使用するピッチの値は復号化されたピッチを再生さ
れた音声に軽微なトレモロを生じさせる係数を掛けたものであることを特徴とす
る請求項3に記載の方法。 - 【請求項5】 パラメータは連続するN=3個のフレームについて集合させ
ることを特徴とする請求項1ないし4のいずれかに記載の方法。 - 【請求項6】 ヴォイシング周波数は4つあり、3つの周波数がグループ化
された32のパターンを有する量子化表(22)によってベクトル符号化される
請求項5に記載の方法。 - 【請求項7】 フレームごとにエネルギーを4回測定し、スーパーフレーム
に対応する12のエネルギーの値のうちの6つのみを、3つの値を有する2つの
ベクトルとして送信する(23)ことを特徴とする請求項5又は6のいずれかに
記載の方法。 - 【請求項8】 エネルギー(23)を4つのパターンで符号化し、各パター
ンは2つのベクトルによって表現し、第1のベクトルは、スーパーフレームに対
応する12のエネルギーベクトルが安定な第1のパターンに対応し、その他のパ
ターンはフレームごとに定義され、合計二乗誤差が最小となるパターンを送信す
る請求項7に記載の方法。 - 【請求項9】 −第1のパターンにおいては、第1のベクトルの1、3、5
番目のエネルギーと、第2のベクトルの7、9、11番目のエネルギーの値を送
信し、 −第2のパターンにおいては、第1のベクトルの0、1、2番目のエネルギー
と、第2のベクトルの3,7,11番目のエネルギーを送信し、 −第3のパターンにおいては、第1のベクトルの1、4、5番目のエネルギー
と、第2のベクトルの6、7、11番目のエネルギーのみを送信し、 −第4のパターンでは、第1のベクトルの2、5、8番目のエネルギーと、第
2のベクトルの第9、10、11番目のエネルギーのみを送信する請求項8に記
載の方法。 - 【請求項10】 線形予測フィルタの符号化パラメータを、4つのパターン
にしたがって、スペクトル包絡線が最も安定するように選択し、つまり、スーパ
ーフレームの1、2又は3番目のフレームに対するスペクトルの包絡線が最も急
速に変化する領域を選択することを特徴とする請求項1ないし9のうちのいずれ
かに記載の方法。 - 【請求項11】 合成部6では、0から5までの番号を付番した係数を有す
る線形予測フィルタを使用し(24)、 −第1のパターンでは、スペクトルの包絡線が安定なときはフィルタ1、3、
5のみの係数を送信し、 −第1のフレームに対応する第2のパターンでは、フィルタ0、1、4のみの
係数を送信し、 −第2のフレームに相当する第3のパターンでは、フィルタ2、3、5の係数
のみを送信し、 −第3のフレームに対応する第4のパターンでは、フィルタ1、4、5の係数
のみを送信し、 有効に送信されるパターンは合計二乗誤差を最小にするものであり、送信され
ないフィルタの係数は合成部において補間か補外によって算出することを特徴と
する請求項10に記載の方法。 - 【請求項12】 合成フィルタのLSF係数は54ビットに符号化され、こ
れにデシメーションパターンの送信用に2ビットを追加し、エネルギーは6ビッ
トの2倍で符号化してこれにデシメーションパターンの送信のために2ビットを
追加し、ピッチは6ビットで符号化してヴォイシング遷移周波数を5ビットで符
号化して、67.5msのスーパーフレームを合計81ビットとすることを特徴
とする請求項1ないし11のいずれかに記載の方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR9812500A FR2784218B1 (fr) | 1998-10-06 | 1998-10-06 | Procede de codage de la parole a bas debit |
FR98/12500 | 1998-10-06 | ||
PCT/FR1999/002348 WO2000021077A1 (fr) | 1998-10-06 | 1999-10-01 | Procede de quantification des parametres d'un codeur de parole |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002527778A true JP2002527778A (ja) | 2002-08-27 |
JP2002527778A5 JP2002527778A5 (ja) | 2010-07-01 |
JP4558205B2 JP4558205B2 (ja) | 2010-10-06 |
Family
ID=9531246
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000575121A Expired - Fee Related JP4558205B2 (ja) | 1998-10-06 | 1999-10-01 | スピーチコーダパラメータの量子化方法 |
Country Status (13)
Country | Link |
---|---|
US (1) | US6687667B1 (ja) |
EP (1) | EP1125283B1 (ja) |
JP (1) | JP4558205B2 (ja) |
KR (1) | KR20010075491A (ja) |
AT (1) | ATE222016T1 (ja) |
AU (1) | AU768744B2 (ja) |
CA (1) | CA2345373A1 (ja) |
DE (1) | DE69902480T2 (ja) |
FR (1) | FR2784218B1 (ja) |
IL (1) | IL141911A0 (ja) |
MX (1) | MXPA01003150A (ja) |
TW (1) | TW463143B (ja) |
WO (1) | WO2000021077A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011150357A (ja) * | 1999-09-22 | 2011-08-04 | Microsoft Corp | スーパーフレーム構造のlpcハーモニックボコーダ |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2815457B1 (fr) * | 2000-10-18 | 2003-02-14 | Thomson Csf | Procede de codage de la prosodie pour un codeur de parole a tres bas debit |
KR100355033B1 (ko) * | 2000-12-30 | 2002-10-19 | 주식회사 실트로닉 테크놀로지 | 선형예측 분석을 이용한 워터마크 삽입/추출 장치 및 그방법 |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
US7668712B2 (en) | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
US8219391B2 (en) * | 2005-02-15 | 2012-07-10 | Raytheon Bbn Technologies Corp. | Speech analyzing system with speech codebook |
US7831421B2 (en) | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
US7177804B2 (en) | 2005-05-31 | 2007-02-13 | Microsoft Corporation | Sub-band voice codec with multi-stage codebooks and redundant coding |
US7707034B2 (en) | 2005-05-31 | 2010-04-27 | Microsoft Corporation | Audio codec post-filter |
CN101009096B (zh) * | 2006-12-15 | 2011-01-26 | 清华大学 | 子带清浊音模糊判决的方法 |
EP2122610B1 (en) * | 2007-01-31 | 2018-12-26 | Telecom Italia S.p.A. | Customizable method and system for emotional recognition |
KR101317269B1 (ko) | 2007-06-07 | 2013-10-14 | 삼성전자주식회사 | 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치 |
ES2650492T3 (es) * | 2008-07-10 | 2018-01-18 | Voiceage Corporation | Dispositivo y método de cuantificación de filtro LPC de múltiples referencias |
US9947340B2 (en) * | 2008-12-10 | 2018-04-17 | Skype | Regeneration of wideband speech |
GB2466201B (en) * | 2008-12-10 | 2012-07-11 | Skype Ltd | Regeneration of wideband speech |
GB0822537D0 (en) | 2008-12-10 | 2009-01-14 | Skype Ltd | Regeneration of wideband speech |
US9465836B2 (en) * | 2010-12-23 | 2016-10-11 | Sap Se | Enhanced business object retrieval |
CA2916150C (en) * | 2013-06-21 | 2019-06-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method realizing improved concepts for tcx ltp |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197400A (ja) * | 1991-07-19 | 1993-08-06 | Motorola Inc | 低ビット・レート・ボコーダ手段および方法 |
JPH10293600A (ja) * | 1997-03-14 | 1998-11-04 | Digital Voice Syst Inc | 音声符号化方法、音声復号化方法、エンコーダ及びデコーダ |
JP2000514207A (ja) * | 1996-07-05 | 2000-10-24 | ザ・ビクトリア・ユニバーシティ・オブ・マンチェスター | 音声合成システム |
JP2001511917A (ja) * | 1998-02-06 | 2001-08-14 | フランス テレコム | 伝送エラーの修正を伴う音声信号の復号方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US6094629A (en) * | 1998-07-13 | 2000-07-25 | Lockheed Martin Corp. | Speech coding system and method including spectral quantizer |
FR2786908B1 (fr) * | 1998-12-04 | 2001-06-08 | Thomson Csf | Procede et dispositif pour le traitement des sons pour correction auditive des malentendants |
-
1998
- 1998-10-06 FR FR9812500A patent/FR2784218B1/fr not_active Expired - Fee Related
-
1999
- 1999-10-01 JP JP2000575121A patent/JP4558205B2/ja not_active Expired - Fee Related
- 1999-10-01 AU AU58702/99A patent/AU768744B2/en not_active Ceased
- 1999-10-01 EP EP99946281A patent/EP1125283B1/fr not_active Expired - Lifetime
- 1999-10-01 KR KR1020017004080A patent/KR20010075491A/ko not_active Application Discontinuation
- 1999-10-01 WO PCT/FR1999/002348 patent/WO2000021077A1/fr not_active Application Discontinuation
- 1999-10-01 IL IL14191199A patent/IL141911A0/xx unknown
- 1999-10-01 US US09/806,993 patent/US6687667B1/en not_active Expired - Lifetime
- 1999-10-01 AT AT99946281T patent/ATE222016T1/de not_active IP Right Cessation
- 1999-10-01 DE DE69902480T patent/DE69902480T2/de not_active Expired - Lifetime
- 1999-10-01 MX MXPA01003150A patent/MXPA01003150A/es not_active IP Right Cessation
- 1999-10-01 CA CA002345373A patent/CA2345373A1/fr not_active Abandoned
-
2000
- 2000-03-30 TW TW089105887A patent/TW463143B/zh not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH05197400A (ja) * | 1991-07-19 | 1993-08-06 | Motorola Inc | 低ビット・レート・ボコーダ手段および方法 |
JP2000514207A (ja) * | 1996-07-05 | 2000-10-24 | ザ・ビクトリア・ユニバーシティ・オブ・マンチェスター | 音声合成システム |
JPH10293600A (ja) * | 1997-03-14 | 1998-11-04 | Digital Voice Syst Inc | 音声符号化方法、音声復号化方法、エンコーダ及びデコーダ |
JP2001511917A (ja) * | 1998-02-06 | 2001-08-14 | フランス テレコム | 伝送エラーの修正を伴う音声信号の復号方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011150357A (ja) * | 1999-09-22 | 2011-08-04 | Microsoft Corp | スーパーフレーム構造のlpcハーモニックボコーダ |
Also Published As
Publication number | Publication date |
---|---|
AU768744B2 (en) | 2004-01-08 |
DE69902480D1 (de) | 2002-09-12 |
CA2345373A1 (fr) | 2000-04-13 |
MXPA01003150A (es) | 2002-07-02 |
JP4558205B2 (ja) | 2010-10-06 |
ATE222016T1 (de) | 2002-08-15 |
AU5870299A (en) | 2000-04-26 |
FR2784218A1 (fr) | 2000-04-07 |
KR20010075491A (ko) | 2001-08-09 |
IL141911A0 (en) | 2002-03-10 |
EP1125283B1 (fr) | 2002-08-07 |
WO2000021077A1 (fr) | 2000-04-13 |
DE69902480T2 (de) | 2003-05-22 |
FR2784218B1 (fr) | 2000-12-08 |
EP1125283A1 (fr) | 2001-08-22 |
TW463143B (en) | 2001-11-11 |
US6687667B1 (en) | 2004-02-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA2179228C (en) | Method and apparatus for reproducing speech signals and method for transmitting same | |
EP1202251B1 (en) | Transcoder for prevention of tandem coding of speech | |
JP3566652B2 (ja) | 広帯域信号の効率的な符号化のための聴覚重み付け装置および方法 | |
EP1224662B1 (en) | Variable bit-rate celp coding of speech with phonetic classification | |
JP5343098B2 (ja) | スーパーフレーム構造のlpcハーモニックボコーダ | |
EP0409239B1 (en) | Speech coding/decoding method | |
US7280959B2 (en) | Indexing pulse positions and signs in algebraic codebooks for coding of wideband signals | |
US6681204B2 (en) | Apparatus and method for encoding a signal as well as apparatus and method for decoding a signal | |
EP1232494B1 (en) | Gain-smoothing in wideband speech and audio signal decoder | |
JP4558205B2 (ja) | スピーチコーダパラメータの量子化方法 | |
JP2002541499A (ja) | Celp符号変換 | |
JPH08272398A (ja) | 再生成位相情報を用いた音声合成 | |
JP2002533963A (ja) | 符号化通信信号の性能改良のための符号化された改良特性 | |
CA2412449C (en) | Improved speech model and analysis, synthesis, and quantization methods | |
EP1597721B1 (en) | 600 bps mixed excitation linear prediction transcoding | |
JP4281131B2 (ja) | 信号符号化装置及び方法、並びに信号復号装置及び方法 | |
US7295974B1 (en) | Encoding in speech compression | |
JPH08160996A (ja) | 音声符号化装置 | |
JPH034300A (ja) | 音声符号化復号化方式 | |
JPH04243300A (ja) | 音声符号化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20061002 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20090721 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20091020 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20091027 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20091109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100112 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100409 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100416 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20100510 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100622 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100721 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130730 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |