JP2992045B2 - 音声符号化装置 - Google Patents
音声符号化装置Info
- Publication number
- JP2992045B2 JP2992045B2 JP1501163A JP50116389A JP2992045B2 JP 2992045 B2 JP2992045 B2 JP 2992045B2 JP 1501163 A JP1501163 A JP 1501163A JP 50116389 A JP50116389 A JP 50116389A JP 2992045 B2 JP2992045 B2 JP 2992045B2
- Authority
- JP
- Japan
- Prior art keywords
- pulse
- pulses
- drive signal
- deriving
- amplitude
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000013139 quantization Methods 0.000 claims description 22
- 238000000034 method Methods 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 8
- 230000005236 sound signal Effects 0.000 claims description 6
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000009795 derivation Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/10—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
Description
citationsource)の出力を合成フィルタに通過させ、こ
れにより音声信号を発生する装置に関する。このような
装置では、符号化のために、入力音声から所望の駆動信
号を発生させることと、フィルタのパラメータ設定とが
問題となる。フィルタのパラメータについては、線形予
測分析(LPC、linear predictive coding)法により導
くことができ、この技術はすでに確立されている。本発
明は駆動信号源に関する。
有声と無声とを判定する装置は、音声出力の質が不自然
となる傾向がある。そこで、パルスシーケンスを発生す
る「マルチパルス」駆動信号源の使用が提案されてい
る。この場合に、マルチパルスの発生シーケンスについ
ては、初期状態では何も設定されない。この方法は、数
パルス(例えば10msのフレームに対して8個のパルス)
を利用するだけで、十分な結果が得られる。これについ
ては、エイタル、レムデ、「ア・ニュー・モデル・オブ
LPCエクサイテイション・フォー・フロデューシング・
ナチュラルサウンディング・スピーチ・アト・ロウ・ビ
ット・レイツ」、プロシーディングス・オブIEEE ICASS
P、パリ、第614頁、1982年(B.S.Atal and J.R.Remde:
“A New Model of LPC Excitation for producing Natu
ral−sounding Speech at Low Bit Rates",Proc.IEEE I
CASSP,Paris,pp.614,1982)に詳しく説明されている。
ラメータを導出する手段と、音声標本に比較して少ない
数のパルスを時間フレーム内に含む駆動信号を符号化す
る手段と、駆動信号を構成するパルスを導出するときに
導出順に依存する因子をそのパルスに乗算する手段と、
この手段により得られる積を量子化する後方適応量子化
回路とを備えた音声符号化装置が提供される。符号化す
る手段は、動作時に、入力音声信号と上記フィルタの駆
動信号に対する応答との差が削減されるように、パルス
の振幅およびタイミングを選択する。これは、駆動信号
を表す第一のパルスの振幅およびタイミングを導出し、
この第一のパルスおよびこの第一のパルスとの間に存在
するパルスとを組み合わせて上記差が削減されるような
駆動信号を表す一以上のパルスを連続して導出すること
により行われる。
る。
ク構成図。
のブロック構成図。
ク構成図。
信号は標本化された形態(望ましくはディジタル)の信
号である。この信号は予測回路2により処理され、その
出力(例えばフィルタ係数の組)により、合成フィルタ
のスペクトル応答を音声信号と同等になるように設定す
る。予測回路2による解析には、従来からのLPC(予測
線形符号化)音声符号化装置を用いることにより実施で
きる。この解析は、このような装置で一般的に行われる
ように、入力標本が分割された音声フレームに対して行
う。フレームの長さは典型的には20ミリ秒であり、係数
の組が20ミリ秒毎に生成される。この係数の組は、信号
線3を経由して出力マルチプレクサ4に供給される。
の設定値を生成する。この設定値は、元の音声を近似す
るするために合成フィルタを駆動することから、符号化
装置で生成する必要がある。第1図に示した符号化装置
はマルチパルス導出部5を備え、入力音声標本とLPC係
数とから、上述した「マルチパルス」駆動信号のフレー
ムに含まれるパルスの振幅(出力6)および位置(出力
7)を導き出す。典型的なサブブロック(LPCフレーム
の部分)は10ミリ秒の大きさであり8個のパルスを含む
のに対し、第1図の実施例は、3個のパルスを含む4ミ
リ秒のサブブロックを用いる。これは、符号化プロセス
に導入される遅延が少ないので、望ましいことである。
マルチパルス導出の課題は、復号化された合成音声と元
の音声との間の誤りを最小化するパルス位置および振幅
を見つけることである。
し、n個の入力音声標本をs0〜sn-1、n個の合成標本を
s0′〜sn-1′とする。これらの標本をベクトル、′
で表す。駆動信号は振幅amのパルスを含む。これらのパ
ルスは、フレーム内のn個の可能な時点のうちどこで発
生してもよいが、その数は制限されている(これをk個
とする)。したがって、駆動信号はa0〜an-1の成分を含
むn次元ベクトルとして表されるが、a0〜an-1のうち
のk個だけが零以外の値をもつ。このとき、 2=(−′)2 ……(1) で表される誤差を最小とする2k個の未知数(k個が振
幅、k個がパルス位置)を見つけることが問題となる。
イタル、レムデの提案した方法は以下の通りである。
ような振幅および位置を見つける。
合わせて誤差が最小となるような振幅および位置を見つ
ける。このとき、以前に判断したパルスの振幅および位
置については固定しておく。
いられ、第1図の帰還路8、8′により、最初に導出し
たパルスを考慮してサブブロック内の後続のパルスを導
出することを示す。導出されるパルスの順序は、サブブ
ロック内の実際の位置とは無関係である。
る。ただし、最初に統計的な因子fiが(乗算器10によ
り)乗算される。現実には、導出された最初のパルスが
一般に最も大きく、少なくとも最初の数パルスについて
は、続いて導出されたパルスが徐々に小さくなる傾向が
ある。パルスの大きさが変化しても、トレーニング・シ
ーケンスを統計的に解析すると平均的にこの傾向があ
る。そこで、この因子を乗算器10に供給し、導出シーケ
ンス内のどのパルスであるかに無関係に、乗算器の出力
におけるパルス振幅が平均的に同一になるようにする。
三つのパルスを用いる場合には、因子として、 導出される最初のパルスf0=1 導出される第二のパルスf1=8/5 導出される第三のパルスf2=8/3 (六つのパルスを用いる場合には、第四ないし第六の
パルスにそれぞれ8/3、8/3および4) を用いる。このステップの目的は、適応量子化の有効性
を高め、量子化雑音または振幅の符号化に用いるビット
数の一方(または双方)を削減できるようにするもので
ある。
ンスを解析することにより適当な因子を導出することが
でき、最初に導出されたパルスの振幅に対する平均振幅
を見つけることができる。このとき、その逆数を乗算器
の因子とする。この場合の単純な(最適化されていない
が)方法は、最初に導出されたパルスに因子「1」を乗
算し、他のパルスには「2」を乗算する。
回路(Jayant quantiser)であり、最適非線形最大値量
子化回路11を備える。この最適非線形最大値量子化回路
11の特性を第1表に示す。
り、「/」の前の数字は正負を表す符号ビットであり、
これに続く1〜4の数字は二進数の0〜11を表す。
除算器13にスケール因子を供給する。スケール因子s
(初期状態では「1」)は変数であり、入力されたパル
ス振幅の値に対する量子化回路の符号語出力に依存し、
現在の値から次のパルス振幅のために使用する新しい値
へと増加または減少するように変化する。式で表すと、 skm=sk-1mk-1 である。kが与えられたときのmの値を第2表に示す。
る。また、このスケール因子は、サブブロックまたはフ
レームの終了時にもリセットされない。
連続的な出力符号が「4」になったときに、二つ目の出
力によりスケール因子を2.25倍(1.5が二回)に増加さ
せる手段が設けられる。この手段は、第1図において遅
延回路14および「4・4」検出器15として表される。
ルチパルス導出部5からの位置情報とは、LPC係数とと
もに出力マルチプレクサ4に入力される。出力マルチプ
レクサは、これらの入力を一つの出力16に結合する。
より係数、振幅および位置情報を分離し、合成フィルタ
30を更新するための係数を供給する。パルス振幅の符号
語は「逆量子化回路」21に供給され、量子化回路11によ
り導入された非線形性が除去される。すなわち、受信符
号語が第1表の出力の欄に示した値に変換される。スケ
ーリング因子sについては、第1図の回路部12、14、15
とそれぞれ同等な回路部22、24、25により、振幅符号語
から導くことができる。乗算器31では、このスケーリン
グ因子sを逆量子化回路の出力に乗算する。このとき因
子fiが除算器32に供給される。除算器32の出力は元の振
幅(ただし量子化誤りを含む)を表し、パルス位置情報
とともに、駆動信号発生器33に供給される。
れ、復号化された音声信号として出力端子34に出力され
る。
スを導出するときに、帰還路8、8′により前に導出し
たパルスの影響を考慮する。これらのパルスの実際の影
響を符号化装置で考慮することが望ましく、このループ
内に量子化回路を含むことが望ましい。このような符号
化装置を第3図に示す。この図に示した符号化装置で
は、出力されたパルス振幅が局部復号器40を介して帰還
される。局部復号器40は逆量子化回路21′、乗算器31′
および除算器32′を含む。スケール因子は、当然、後方
適応量子化回路9から得られる。第2図の復号化装置を
この符号器に利用することもできる。
化では、再最適化ステップを含むものがある。これは、
初期に導出したパルスが後に導出されるパルスの特性を
参照していないことを考慮したものであり、そのパルス
の振幅およびまたは位置を修正することにより、結果を
改善できる。これについては、例えば本願出願人による
英国特許出願第8608031号および第8720604号(アメリカ
合衆国特許出願第846854号、PCT/GB87/00612(特開平1
−500696))に示されている。
い。第2図の場合に、必要な場合には位置再最適化を用
いることもできる。しかし第3図の場合には、ループ内
の量子化にこれを用いるので、パルスiの量子化をパル
スi+1が導出される前に行い、パルスiをさらに調整
することは、量子化プロセスに重大な影響を与えること
なしには不可能である。
Claims (5)
- 【請求項1】入力音声信号から合成フィルタのパラメー
タを導出する手段と、 駆動信号を表す第一のパルスの振幅およびタイミングを
導出し、この第一のパルスおよびこの第一のパルスとの
間に存在するパルスに組み合わせて入力音声信号と上記
フィルタの駆動信号に対する応答との差が削減されるよ
うな駆動信号を表す一以上のパルスを連続して導出する
ことによりパルスの振幅およびタイミングを選択して、
音声標本に比較して少ない数のパルスを時間フレーム内
に含む駆動信号を符号化する手段と、 駆動信号を構成するパルスを導出するときにその導出順
に依存する因子をそのパルスに乗算する手段と、 この乗算する手段により得られた積を量子化する後方適
応量子化回路と を備えた音声符号化装置。 - 【請求項2】少なくとも三つのパルスを導出する請求項
1記載の音声符号化装置。 - 【請求項3】因子は最初のパルスに対して「1」であ
り、これに続くパルスにはそれぞれ「1」より大きく以
前に導出されたパルスに対して使用した値以上である請
求項2記載の音声符号化装置。 - 【請求項4】最初の三つのパルスに対する因子は、導出
順にそれぞれ実質的に1、8/5および8/3である請求項3
記載の音声符号化装置。 - 【請求項5】導出する手段は、新しいパルスを導出する
ために、量子化回路から出力されて局部復号器を経由す
ることにより得られる最初およびそれまでのパルスの振
幅の値を用いるように構成された請求項1ないし請求項
4のいずれかに記載の音声符号化装置。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB8800120 | 1988-01-05 | ||
GB888800120A GB8800120D0 (en) | 1988-01-05 | 1988-01-05 | Speech coding |
GB888801998A GB8801998D0 (en) | 1988-01-29 | 1988-01-29 | Speech coding |
GB8801998 | 1988-01-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH02502857A JPH02502857A (ja) | 1990-09-06 |
JP2992045B2 true JP2992045B2 (ja) | 1999-12-20 |
Family
ID=26293268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP1501163A Expired - Lifetime JP2992045B2 (ja) | 1988-01-05 | 1988-12-29 | 音声符号化装置 |
Country Status (11)
Country | Link |
---|---|
US (1) | US5058165A (ja) |
EP (1) | EP0324283B1 (ja) |
JP (1) | JP2992045B2 (ja) |
AU (1) | AU608944B2 (ja) |
CA (1) | CA1334690C (ja) |
DE (2) | DE3879664T4 (ja) |
DK (1) | DK172908B1 (ja) |
ES (1) | ES2039655T3 (ja) |
HK (1) | HK130196A (ja) |
NO (1) | NO301097B1 (ja) |
WO (1) | WO1989006418A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2729244B1 (fr) * | 1995-01-06 | 1997-03-28 | Matra Communication | Procede de codage de parole a analyse par synthese |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE32580E (en) * | 1981-12-01 | 1988-01-19 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech coder |
US4724535A (en) * | 1984-04-17 | 1988-02-09 | Nec Corporation | Low bit-rate pattern coding with recursive orthogonal decision of parameters |
JPS61134000A (ja) * | 1984-12-05 | 1986-06-21 | 株式会社日立製作所 | 音声分析合成方式 |
CA1252568A (en) * | 1984-12-24 | 1989-04-11 | Kazunori Ozawa | Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate |
NL8500843A (nl) * | 1985-03-22 | 1986-10-16 | Koninkl Philips Electronics Nv | Multipuls-excitatie lineair-predictieve spraakcoder. |
US4944013A (en) * | 1985-04-03 | 1990-07-24 | British Telecommunications Public Limited Company | Multi-pulse speech coder |
JPH0650439B2 (ja) * | 1986-07-17 | 1994-06-29 | 日本電気株式会社 | マルチパルス駆動形音声符号化器 |
GB8621932D0 (en) * | 1986-09-11 | 1986-10-15 | British Telecomm | Speech coding |
-
1988
- 1988-12-29 WO PCT/GB1988/001152 patent/WO1989006418A1/en unknown
- 1988-12-29 JP JP1501163A patent/JP2992045B2/ja not_active Expired - Lifetime
- 1988-12-29 DE DE88312412T patent/DE3879664T4/de not_active Expired - Lifetime
- 1988-12-29 AU AU29219/89A patent/AU608944B2/en not_active Expired
- 1988-12-29 US US07/382,687 patent/US5058165A/en not_active Expired - Lifetime
- 1988-12-29 ES ES198888312412T patent/ES2039655T3/es not_active Expired - Lifetime
- 1988-12-29 DE DE8888312412A patent/DE3879664D1/de not_active Expired - Lifetime
- 1988-12-29 EP EP88312412A patent/EP0324283B1/en not_active Expired - Lifetime
-
1989
- 1989-01-04 CA CA000587501A patent/CA1334690C/en not_active Expired - Lifetime
- 1989-08-29 DK DK198904256A patent/DK172908B1/da not_active IP Right Cessation
- 1989-09-04 NO NO893532A patent/NO301097B1/no not_active IP Right Cessation
-
1996
- 1996-07-18 HK HK130196A patent/HK130196A/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
DK425689D0 (da) | 1989-08-29 |
US5058165A (en) | 1991-10-15 |
DK425689A (da) | 1989-08-29 |
EP0324283B1 (en) | 1993-03-24 |
DE3879664T4 (de) | 1993-10-07 |
WO1989006418A1 (en) | 1989-07-13 |
NO893532L (no) | 1989-09-04 |
JPH02502857A (ja) | 1990-09-06 |
DE3879664T2 (de) | 1993-07-01 |
CA1334690C (en) | 1995-03-07 |
HK130196A (en) | 1996-07-26 |
AU608944B2 (en) | 1991-04-18 |
EP0324283A1 (en) | 1989-07-19 |
ES2039655T3 (es) | 1993-10-01 |
NO893532D0 (no) | 1989-09-04 |
AU2921989A (en) | 1989-08-01 |
NO301097B1 (no) | 1997-09-08 |
DE3879664D1 (de) | 1993-04-29 |
DK172908B1 (da) | 1999-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6594626B2 (en) | Voice encoding and voice decoding using an adaptive codebook and an algebraic codebook | |
US5027405A (en) | Communication system capable of improving a speech quality by a pair of pulse producing units | |
JP2000155597A (ja) | デジタル音声符号器において使用するための音声符号化方法 | |
JPH0944195A (ja) | 音声符号化装置 | |
JP2970407B2 (ja) | 音声の励振信号符号化装置 | |
JP3531780B2 (ja) | 音声符号化方法および復号化方法 | |
JP2992045B2 (ja) | 音声符号化装置 | |
JP3303580B2 (ja) | 音声符号化装置 | |
JPH0854898A (ja) | 音声符号化装置 | |
JP3583945B2 (ja) | 音声符号化方法 | |
JP3003531B2 (ja) | 音声符号化装置 | |
JP2956068B2 (ja) | 音声符号化復号化方式 | |
JPH0519795A (ja) | 音声の励振信号符号化・復号化方法 | |
JP3166697B2 (ja) | 音声符号化・復号装置及びシステム | |
JP3296411B2 (ja) | 音声符号化方法および復号化方法 | |
JP2853170B2 (ja) | 音声符号化復号化方式 | |
JP3520955B2 (ja) | 音響信号符号化法 | |
JP3192051B2 (ja) | 音声符号化装置 | |
JP3063087B2 (ja) | 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置 | |
JP2615862B2 (ja) | 音声符号化復号化方法とその装置 | |
JP2946528B2 (ja) | 音声符号化復号化方法及びその装置 | |
JP3071800B2 (ja) | 適応ポストフィルタ | |
JP2778035B2 (ja) | 音声符号化方式 | |
JP2817196B2 (ja) | 音声符号化方式 | |
JPH0455899A (ja) | 音声信号符号化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071015 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081015 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091015 Year of fee payment: 10 |
|
EXPY | Cancellation because of completion of term | ||
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091015 Year of fee payment: 10 |