JP3483891B2 - スピーチコーダ - Google Patents
スピーチコーダInfo
- Publication number
- JP3483891B2 JP3483891B2 JP50280997A JP50280997A JP3483891B2 JP 3483891 B2 JP3483891 B2 JP 3483891B2 JP 50280997 A JP50280997 A JP 50280997A JP 50280997 A JP50280997 A JP 50280997A JP 3483891 B2 JP3483891 B2 JP 3483891B2
- Authority
- JP
- Japan
- Prior art keywords
- signal
- speech
- excitation
- codebook
- scaling factor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 230000005284 excitation Effects 0.000 claims abstract description 195
- 230000003044 adaptive effect Effects 0.000 claims abstract description 99
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 52
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 51
- 238000000034 method Methods 0.000 claims abstract description 30
- 238000012805 post-processing Methods 0.000 claims description 30
- 230000006872 improvement Effects 0.000 claims description 27
- 239000007787 solid Substances 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 14
- 230000002708 enhancing effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 239000002131 composite material Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000011045 prefiltration Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission And Conversion Of Sensor Element Output (AREA)
- Analogue/Digital Conversion (AREA)
- Magnetically Actuated Valves (AREA)
- Telephonic Communication Services (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Description
はスピーチ信号に使用するための音声又はスピーチ合成
器に係り、より詳細には、LPC型スピーチデコーダの励
起コードブック及び適応コードブックから導出された信
号を処理するための後処理装置に係る。
ーチが空気中を経て送信される前にデジタルエンコード
される。エンコードされたスピーチは、次いで、受信器
においてデコードされる。先ず、アナログスピーチ信号
は、例えば、パルスコード変調(PCM)を用いてデジタ
ルエンコードされる。次いで、PCMスピーチ(又はオリ
ジナルスピーチ)のスピーチコード化及びデコード動作
がスピーチコーダ及びデコーダにより行われる。無線電
話システムの利用が増加しているために、このようなシ
ステムに使用できる無線スペクトルが混雑しつつある。
使用可能な無線スペクトルを最良に利用するために、無
線電話システムは、スピーチコード化技術を使用し、こ
れは、スピーチをエンコードするのに少数のビットしか
必要とせず、送信に必要な帯域巾を減少する。スピーチ
コード化に必要なビット数を減少して、スピーチ送信に
必要な帯域巾を更に減少するために、常に努力が払われ
ている。
ード化(LPC)技術をベースとするもので、分析−合成
励起コード化(analysis−by−synthesis excitation c
oding)を利用している。このような方法を用いたエン
コーダでは、スピーチサンプルが先ず分析され、そのス
ピーチサンプルの波形情報(LPC)のような特性を表す
パラメータが導出される。これらのパラメータは、短時
間合成フィルタへの入力として使用される。短時間合成
フィルタは、信号のコードブックから導出された信号に
より励起される。励起信号は、例えば、確率的コードブ
ックのようにランダムであってもよいし、或いはスピー
チコード化に使用するように適応又は特に最適化されて
もよい。典型的に、コードブックは、固定コードブック
と適応コードブックの2つの部分で構成される。各コー
ドブックの励起出力は合成され、そして全励起が短時間
合成フィルタに入力される。各全励起信号は、フィルタ
され、そしてその結果が、オリジナルのスピーチ信号
(PCMコード化された)と比較され、「エラー」即ち合
成されたスピーチサンプルとオリジナルのスピーチサン
プルとの間の差が導出される。最も小さなエラーを生じ
る全励起がスピーチサンプルを表すための励起として選
択される。固定及び適応コードブックの各部分最適励起
信号の位置についてのコードブック指示即ちアドレス
は、LPCパラメータ即ち係数と共に受信器へ送信され
る。送信器の場合と同じ複合コードブックが受信器にも
配置され、送信されたコードブック指示及びパラメータ
を用いて、受信器のコードブックから適当な全励起信号
が発生される。この全励起信号は、次いで、送信器と同
じ短時間合成フィルタに送られ、このフィルタは、送信
されたLPC係数を各入力として有する。この短時間合成
フィルタからの出力は、分析−合成方法により送信器に
おいて発生されたものと同じ合成されたスピーチフレー
ムである。
客観的に正確であるが、人為的である。又、量子化の影
響や、電子的処理による他の異常により、質低下や歪や
欠陥が合成されたスピーチに導入される。このような欠
陥は、特にビットレートの低いコード化において生じ
る。というのは、オリジナルのスピーチ信号を正確に再
現するための情報が不十分だからである。従って、合成
スピーチの知覚し得る質を改善するための試みがなされ
ている。これは、合成スピーチサンプルに基づいて動作
して、その知覚し得る質を向上するための後置フィルタ
を使用することにより試みられる。既知の後置フィルタ
は、デコーダの出力に配置されて、合成スピーチを処理
し、スピーチの最も重要な周波数領域であると一般的に
考えられるものを強調又は減衰する。スピーチ周波数の
各領域の重要性は、主として、得られるスピーチ信号の
人間の耳に対する質についての主観的なテストを利用し
て分析される。スピーチは、2つの基本的な部分、即ち
スペクトル包絡線(フォルマント構造体)又はスペクト
ル高調波構造体(ライン構造体)に分割することがで
き、典型的に、後置フィルタは、スピーチ信号のこれら
の部分の一方又は他方或いはその両方を強調する。後置
フィルタのフィルタ係数は、スピーチ音声に一致するよ
うにスピーチ信号の特性に基づいて適応される。高調波
構造体を強調又は減衰するフィルタは、典型的に、長時
間又はピッチ(高さ)或いは長遅延の後置フィルタと称
され、そしてスペクトル包絡線構造体を強調するフィル
タは、典型的に、短遅延後置フィルタ又は短時間後置フ
ィルタと称される。
の公知のフィルタ技術が国際特許出願WO91/06091号に開
示されている。このWO91/06091号には、通常スピーチ合
成又はLPCフィルタの後の位置に配置されるが、そのス
ピーチ合成又はLPCフィルタの前の位置に移動され、そ
のスピーチ合成又はLPCフィルタに入力される励起信号
に含まれたピッチ情報をフィルタするピッチ改善フィル
タより成るピッチ前置フィルタが開示されている。
チを形成することが依然として要望される。
れたスピーチ周期情報を含む第1信号に対して動作する
後処理手段を備え、この後処理手段は、励起ソースから
導出できる第2信号に基づいて第1信号のスピーチ周期
情報内容を変更するようなスピーチ合成のための合成器
が提供される。
るための方法であって、励起ソースからスピーチ周期情
報を含む第1信号を導出し、励起ソースから第2信号を
導出し、そして第2信号に基づき第1信号のスピーチ周
期情報内容を変更するという段階を備えた方法が提供さ
れる。
から発生する第2信号により変更され、従って、余分な
フィルタのような付加的な歪又は欠陥のソースが導入さ
れないことである。励起ソースで発生される信号のみが
使用される。スピーチ合成器の励起発生器に固有の信号
の相対的な作用が、人為的な追加信号を伴わずに変更さ
れ、合成器の信号が再スケーリングされる。
で導入された励起成分の相対的な作用を変更することに
基づく場合には、良好なスピーチ改善を得ることができ
る。
相対的な作用を考慮又は変更せずに全励起ex(n)をフ
ィルタすることにより励起を処理する場合には、一般
に、最良の改善が与えられない。同じ励起ソースからの
第2信号に基づいて第1信号を変更する場合は、励起及
びそれにより得られる合成スピーチ信号内の波形の連続
性が増加され、従って、知覚し得る質が改善される。
ードブック及び適応コードブックを備え、第1信号は、
これら固定及び適応コードブックから各々選択できる第
1及び第2の部分励起信号の組合せから導出することが
でき、これは、スピーチ合成にとって特に便利な励起ソ
ースである。
ッチ情報から導出できる倍率(p)に基づいて第2信号
をスケーリングするための利得素子が設けられ、これ
は、知覚し得るスピーチの質に対し他の変更よりも大き
な効果を奏する第1信号スピーチ周期情報内容が変更さ
れるという利点を有する。
でき、そして倍率(p)は、次の式に基づいて導出でき
るのが適当である。
コードブック利得係数であり、pは、後処理手段の倍率
であり、aenhは、リニアスケーラであり、そしてf
(b)は、利得bの関数である。
て導出できる。
bは、適応コードブック利得であり、THは、スレッシュ
ホールド値であり、そしてpは、後処理手段の倍率で、
bが一般的に高い値を有する有声スピーチの場合にはス
ピーチ改善が最も有効であり、一方、bが低い値を有す
る無声音の場合にはあまり強力でない改善が要求される
という見識を利用するものである。
て第2の部分励起信号と実質的に同じであってもよい。
或いは又、第2の信号は、固定コードブックから発生さ
れ、そして第1の部分励起信号と実質的に同じであって
もよい。
に、利得制御手段は、第2の倍率(p')に基づいて第2
の信号をスケーリングする。
応コードブックの倍率であり、そしてpは、第1の倍率
である。
適した第1励起信号であり、そして第2信号は、スピー
チ合成フィルタに入力されるのに適した第2励起信号で
ある。第2励起信号は、第2の部分励起信号と実質的に
同じである。
タからの出力であって、第1励起信号から導出できる第
1合成スピーチ信号でよく、そして第2信号は、第2ス
ピーチ合成フィルタからの出力であって、第2励起信号
から導出できるものでよい。この場合の利点は、スピー
チ改善が実際の合成スピーチにおいて行われ、従って、
可聴となる前に信号に歪を導入する電子部品が少ないこ
とである。
グするための適応エネルギー制御手段が設けられるのが
効果的である。
(n)は、第1の信号であり、ew'(n)は、変更され
た第1信号であり、そしてkは、エネルギー倍率で、得
られる改善された信号をスピーチ合成器への電力入力に
対して正規化するものである。
して無線信号に含まれたコード化情報を回復するための
高周波手段と、この高周波手段に接続され、上記コード
化情報に基づいてスピーチ周期情報を含む第1信号を発
生するための励起ソースとを備えた無線装置であって、
更に、励起ソースに作動的に接続されて、上記第1信号
を受け取り、そして上記第1信号のスピーチ周期情報内
容を励起ソースから導出された第2信号に基づいて変更
するための後処理手段と、この後処理手段からの変更さ
れた第1信号を受け取るように接続されて、それに応答
して合成スピーチを発生するためのスピーチ合成フィル
タとを備えた無線装置が提供される。
号を各々発生するための第1及び第2の励起ソースと、
第1励起信号をその第1励起信号に関連したピッチ情報
から導出できる倍率に基づいて変更するための変更手段
とを備えたスピーチ合成のための合成器が提供される。
号を各々発生するための第1及び第2の励起ソースと、
第2励起信号を第1励起信号に関連したピッチ情報から
導出できる倍率に基づいて変更するための変更手段とを
備えたスピーチ合成のための合成器が提供される。
生器自体の中で励起信号の倍率を統合する。
を詳細に説明する。
ダの回路図である。
の回路図である。
リジナルのスピーチ信号は、102においてエンコーダに
入力され、そして適応コードブック104を用いて長時間
予想(LTP)係数T、bが決定される。このLTP予想係数
は、一般に40サンプルより成るスピーチのセグメントに
対して決定され、そして長さが5msである。LTP係数は、
オリジナルスピーチの周期的特徴に関連している。これ
は、オリジナルスピーチにおけるいかなる周期性も含
み、オリジナルスピーチを発音する人の声帯の振動によ
るオリジナルスピーチのピッチに対応する周期性だけで
はない。
(n))発生器126の一部分を構成する適応コードブッ
ク104及び利得素子114を用いて実行される。手前の励起
信号ex(n)は、フィードバックループ122により適応
コードブック104に記憶される。LTPプロセス中に、適応
コードブックは、手前の励起信号ex(n)を指す遅延即
ちラグとして知られているアドレスTを変えることによ
りサーチされる。これらの信号は、順次に出力され、そ
して利得素子114において倍率bで増幅されて、信号v
(n)を形成し、この信号は、固定コードブック112か
ら導出されて利得素子116において倍率gでスケーリン
グされた励起信号ci(n)に118において加算される。
スピーチサンプルのための直線予想係数(LPC)が106に
おいて計算される。LPC係数は、次いで、108において量
子化される。量子化されたLPC係数は、次いで、空気中
を経て送信するように使用でき、短時間フィルタ110へ
入力される。LPC係数(r(i)、i=1・・・m、但
し、mは予想順序)は、20msにわたり160サンプルより
成るスピーチのセグメントに対して計算される。それ以
上の全ての処理は、通常、40サンプルのセグメント、即
ち5msの励起フレーム長さで実行される。LPC係数は、オ
リジナルスピーチ信号のスペクトル包絡線に関連してい
る。
を励起するためのコードのセットを含む複合コードブッ
ク104、112を備えている。これらのコードは、スピーチ
フレームのスピーチサンプルに各々対応する電圧振幅の
シーケンスより成る。
ィルタ110に入力され、合成されたスピーチサンプルs
(n)が形成される。この合成スピーチサンプルs
(n)は、加算器120の負の入力に送られ、この加算器
は、オリジナルスピーチサンプルを正の入力として有す
る。加算器120は、オリジナルスピーチサンプルと合成
スピーチサンプルとの差を出力し、この差は、客観的エ
ラーとして知られている。この客観的エラーは、全励起
ex(n)を選択する最良励起選択素子124へ入力され、
最小の客観的エラーを有する合成スピーチフレームs
(n)が生じる。更に、選択中に、客観的エラーは、通
常、人間の知覚に対して重要なスピーチ信号のスペクト
ル領域を強調するためにスペクトル的に重み付けされ
る。次いで、最良の励起信号ex(n)を与える各適応及
び固定コードブックパラメータ(利得b及び遅延T、利
得g及びインデックスi)が、LPCフィルタ係数r
(i)と共に受信器へ送られ、スピーチフレームの合成
に使用されて、オリジナルスピーチ信号を再構成する。
たスピーチパラメータをデコードするのに適したデコー
ドが図2に示されている。高周波ユニット201は、アン
テナ212を経てコード化されたスピーチ信号を受け取
る。受け取った高周波信号は、RFユニット201において
基本帯域周波数にダウン変換されて復調され、スピーチ
情報が回復される。一般的に、コード化されたスピーチ
は、チャネルコード及びエラー修正コードを含むように
送信の前に更にエンコードされる。このチャンネルコー
ド及びエラー修正コードは、受信器においてデコードさ
れた後に、スピーチコードをアクセスし又は回復するこ
とができる。スピーチコードパラメータは、パラメータ
デコーダ202により回復される。
PC合成フィルタ係数r(i);i=1・・・m(但し、m
は予想の順序)、固定コードブックインデックスi及び
利得gのセットである。適応コードブックスピーチコー
ドパラメータ、即ち遅延T及び利得bも回復される。
ータを使用して、励起発生器211から励起信号ex(n)
を形成し、これは、LPC合成フィルタ208へ入力され、該
フィルタは、励起信号ex(n)に対する応答として、合
成スピーチフレーム信号s(n)をその出力に与える。
合成スピーチフレーム信号s(n)は、音声処理ユニッ
ト209において更に処理されて、適当な音声トランスジ
ューサ210により聞こえるようにされる。
合成フィルタ208の励起信号ex(n)は、励起発生器211
において形成され、これは、励起シーケンスci(n)を
発生する固定コードブック203と、適応コードブック204
とを備えている。各コードブック203、204におけるコー
ドブック励起シーケンスex(n)の位置は、スピーチコ
ードパラメータi及び遅延Tによって指示される。励起
信号ex(n)を形成するために部分的に使用される固定
コードブック励起シーケンスci(n)は、インデックス
iで指示された固定励起コードブック203の位置から取
り出され、そしてスケーリングユニット205において送
信された利得係数gによって適当にスケーリングされ
る。同様に、励起信号ex(n)を形成するために部分的
に使用される適応コードブック励起シーケンスv(n)
も、適応コードブックに対して固有の選択ロジックを使
用して、遅延Tで示された適応コードブック204の位置
から取り出され、そしてスケーリングユニット206にお
いて送信された利得係数bにより適当にスケーリングさ
れる。
ケンスci(n)に対して、第2の部分励起成分v(n)
をコードブック励起シーケンスgci(n)に加算するこ
とにより動作する。第2の成分は、図1について既に述
べたように過去の励起信号から導出され、そして適応コ
ードブックに適当に含まれた選択ロジックを用いて適応
コードブック204から選択される。成分v(n)は、ス
ケーリングユニット206において送信された適応コード
ブック利得bにより適当にスケーリングされ、そして加
算器207においてgci(n)に加算されて、全励起信号ex
(n)を形成する。
(n)を用いて更新される。
(n)の位置は、スピーチコードパラメータTにより指
示される。適応励起成分は、スピーチコードパラメータ
T及び適応コードブックに含まれた選択ロジックを用い
て適応コードブックから選択される。
されている。図3のスピーチ合成の動作は、図2と同じ
であるが、全励起信号ex(n)は、LPC合成フィルタ208
のための励起信号として使用される前に、励起後処理ユ
ニット317において処理される。図3の回路素子201ない
し212の動作は、同じ番号をもつ図2の素子と同様であ
る。
後処理ユニット317がスピーチデコーダ300に使用され
る。この後処理ユニット317は、第3の成分を全励起信
号ex(n)に加算するための加算器313を備えている。
利得ユニット315は、得られる信号ew'(n)を適当にス
ケーリングして、信号ew(n)を形成し、これは、LPC
合成フィルタ208を励起するのに使用され、合成スピー
チ信号sew(n)が形成される。本発明により合成され
るスピーチは、図2に示す公知のスピーチ合成でコーダ
により合成されるスピーチ信号s(n)に比して、知覚
し得る質を改善する。
入力され、そして知覚的に改善された全励起信号ew
(n)を出力する。又、後処理ユニット317は、適応コ
ードブック利得bと、スピーチコードパラメータによっ
て指示された適応コードブロック204の位置から取り出
されたまだスケーリングされていない部分励起成分v
(n)とを更に別の入力として有する。部分励起成分v
(n)は、第2の励起成分bv(n)を形成するために励
起発生器211内に使用される同じ成分であるのが適当で
あり、この第2の励起成分は、スケーリングされたコー
ドブック励起信号gci(n)に加算されて、全励起信号e
x(n)を形成する。適応コードブック204から導出され
た励起シーケンスを使用することにより、余計なフィル
タを使用した既知の後置フィルタ又は前置フィルタの場
合のようにそれ以上の欠陥ソースがスピーチ処理電子回
路に追加されることはない。又、励起後処理ユニット31
7は、部分励起成分v(n)を倍率pでスケーリングす
るスケーリングユニット314も備え、そしてそのスケー
リングされた成分pv(n)は、加算器313により全励起
成分ex(n)に加算される。加算器313の出力は、中間
の全励起信号ew'(n)である。これは、次の式で表さ
れる。
ック利得bを用いて、知覚的改善利得制御ユニット312
において決定される。倍率pは、固定及び適応コードブ
ックからの2つの励起成分各々ci(n)及びv(n)の
作用を再スケーリングする。この倍率pは、高い適応コ
ードブック利得値bを有する合成スピーチフレームサン
プルの間に倍率pが増加され、そして低い適応コードブ
ック利得値bを有するスピーチの間に倍率pが減少され
るように調整される。更に、bがスレッシュホールド値
より低い(b<THlow)ときは、倍率pがゼロにセット
される。知覚的改善利得制御ユニット312は、以下の式
(3)に基づいて動作する。
本出願人は、aenhの良好な値が0.25であり、そしてTH
low及びTHupperの良好な値が各々0.5及び1.0であること
が分かった。
一般的な式は、以下の式(4)に示す。一般の場合に、
改善利得bに対し、3つ以上のスレッシュホールドがあ
る。又、利得は、bのより一般的な関数として定義する
ことができる。
2=1.0、TH3=∞、aenh1=0.25、aenh2=0.25、f1=
(b)b2、f2(b)=bである。
得関数(f(b))は、実験的に得られる。スピーチの
知覚的な質の唯一の現実的尺度は、人間がスピーチに傾
聴しそしてスピーチの質について主観的な見解を与える
ことにより得られるので、式(3)及び(4)に使用さ
れる値は、実験的に決定される。改善スレッシュホール
ド及び利得関数の種々の値が試みられ、最良に発音する
スピーチを生じるものが選択される。本出願人は、この
方法を使用してスピーチの質を改善することは、bが典
型的に高い値を有する場合の有声スピーチにとって特に
効果的であり、一方、低い値のbを有する低有声の音に
対しては、あまり強力でない改善が要求されるという見
識を利用した。従って、利得値pは、歪が最も聞こえる
ような有声の音については、効果が強力であり、そして
無声の音については、効果が弱いか又は全く使用されな
いように制御される。従って、一般的なルールとして、
利得関数(fn)は、bの大きな値については、bの小さ
な値よりも大きな効果が得られるように選択されねばな
らない。これは、スピーチのピッチ成分と他の成分との
間の差を増加する。
おいて、利得値bで作用する関数は、bの中間範囲の値
については平方依存性であり、そしてbの大きな範囲の
値については線型依存性である。本出願人の現在の理解
では、これは良好なスピーチの質を与える。というの
は、bの大きな値、即ち高有声のスピーチの場合に大き
な効果があり、そしてbの小さな値の場合に、あまり効
果がないからである。このため、bは一般に−1<b<
1の範囲にあり、それ故、b2<bである。
号ew(n)との間に1の電力利得を確保するために、倍
率が計算され、そしてそれを用いて、スケーリングユニ
ット315において中間励起信号ew'(n)をスケーリング
し、後処理された励起信号ew(n)を形成する。倍率k
は、次の式で与えられる。
に、Nは、LPCスピーチコーデックの励起フレーム長さ
に等しくセットされる。
さ又は励起長さより短いTの値に対し、励起シーケンス
の一部分が未知である。これらの未知の部分について
は、適当な選択ロジックを用いることによって適応コー
ドブック内で置き換えシーケンスが局部的に発生され
る。この置き換えシーケンスを発生する多数の適応コー
ドブック技術が現在の技術から知られている。典型的
に、既知の励起の一部分のコピーが、未知の部分が位置
する場所にコピーされ、これにより、完全な励起シーケ
ンスが形成される。コピーされた部分は、得られるスピ
ーチ信号の質を改善するように何らかの仕方で適応する
ことができる。このようなコピーを行うときには、遅延
値Tは使用されない。というのは、それが未知の部分を
指すからである。むしろ、Tの変更値を生じる特定の選
択ロジックが使用される(例えば、常に既知の信号部分
を指すように整数の倍率でTを乗算して使用する)。デ
コーダがエンコーダと同期されるように、デコーダの適
応コードブックに同様の変更が使用される。このような
選択ロジックを用いて適応コードブック内に置き換えシ
ーケンスを発生することにより、適応コードブックは、
女性や子供の音声のような高いピッチの音声に適応する
ことができ、これら音声に対し効率的な励起発生及び改
良されたスピーチの質を生じることができる。
さより短いTの値に対し適応コードブックに固有の全て
の変更が改善後処理に考慮される。これは、本発明によ
れば、適応コードブックからの部分励起シーケンスv
(n)を使用し、そしてスピーチ合成器の励起発生器に
対して固有の励起成分を再スケーリングすることにより
達成される。
(4)、(5)に基づき、コードブック203及び適応コ
ードブック204から得られた部分励起成分の作用を適応
スケーリングすることにより、合成スピーチの知覚的な
質を向上すると共に、聞き取れる欠陥を減少する。
後処理ユニット417が図示のごとくLPC合成フィルタ208
の後に配置されている。この実施形態では、適応コード
ブック204から導出される第3の励起成分に対して、付
加的なLPC合成フィルタ408が必要とされる。図4におい
て、図2及び3と同じ機能を有する素子は、同じ参照番
号で示されている。
チは、後処理手段417によって知覚的に改善される。コ
ードブック203及び適応コードブック204から導出される
全励起信号ex(n)は、LPC合成フィルタ208へ入力さ
れ、そしてLPC係数r(i)に基づいて従来のやり方で
処理される。図3について述べたように適応コードブッ
ク204から導出される付加的な即ち第3の部分的励起成
分v(n)は、第2のLPC合成フィルタ408へスケーリン
グされずに入力され、そしてLPC係数r(i)に基づい
て処理される。各LPCフィルタ208、408の出力s(n)
及びsv(n)は、後置プロセッサ417へ入力され、そし
て加算器413で互いに加算される。信号sv(n)は、加
算器413に入力される前に、倍率pでスケーリングされ
る。図3について述べたように、処理倍率、即ち利得p
の値は、実験的に得ることができる。更に、第3の部分
励起成分は、固定コードブック203から導出され、そし
てスケーリングされたスピーチ信号p'sv(n)がスピー
チ信号s(n)から差し引かれてもよい。
は、次いで、音声処理ユニット209に入力される。
合成フィルタ408の前に移動することにより改善システ
ムの更に別の変更を行うことができる。後処理手段417
をLPC又は短時間合成フィルタ208、408の後に配置する
と、スピーチ信号の強調性を良好に制御することができ
る。というのは、それが励起信号ではなく、スピーチ信
号に対して直接行われるからである。従って、あまり歪
が生じないことになる。
ードブック204ではなくて固定コードブック203から導出
されるように図3及び4について各々述べた実施形態を
変更することにより改善を得ることができる。このとき
は、固定コードブックからの励起シーケンスci(n)に
対する利得を減少するために、オリジナルの正の利得係
数pではなく、負の倍率を使用しなければならない。こ
れは、図3及び4の実施形態で得られるように、スピー
チ合成に対し部分励起信号ci(n)及びv(n)の相対
的な作用の同様の変更を生じる。
励起成分を用いることにより得られたものと同じ結果を
得ることのできる本発明の別の実施形態を示す。この実
施形態では、固定コードブックの励起シーケンスc
i(n)がスケーリングユニット314に入力され、このユ
ニットは、知覚的改善利得制御器2(512)から出力さ
れる倍率p'に基づいて動作する。スケーリングユニット
314から出力されたスケーリングされた固定コードブッ
クの励起信号p'ci(n)は、加算器313に入力され、そ
こで、固定コードブック203及び適応コードブック204か
らの各成分ci(n)及びv(n)より成る全励起シーケ
ンスex(n)に加えられる。
(n)の利得を増加するときには、全励起(適応エネル
ギー制御器316の前の)が上記式(2)により与えられ
る。
の利得を減少するときには、全励起(適応エネルギー制
御器316の前の)が次の式で与えられる。
2)により導出される倍率である。式(2)を取り上げ
そして式(6)と同様の式へ再構成すると、次のように
なる。
改善が得られる。中間の全励起信号ew'(n)が適応エ
ネルギー制御器316によりex(n)と同じエネルギー内
容までスケーリングされたときには、図3及び5の両方
の実施形態は、同じ全励起信号ew(n)を生じる。
び4の実施形態に関連して使用されたものと同じ処理を
使用して、「p」を発生し、次いで、式(8)を用い
て、p'を得ることができる。
は、第1及び第2の実施形態について上記したのと同様
に、適応エネルギー制御器316の制御のもとでスケーリ
ングユニット315においてスケーリングされる。
17により、固定コードブックからの付加的な励起信号か
ら導出された合成スピーチにより知覚的に改善される。
i(n)がLPC合成フィルタ408に接続された実施形態を
示す。該LPC合成フィルタ408の出力(sci(n))は、
次いで、ユニット414において、知覚的改善利得制御器5
12から導出された倍率p'に基づいてスケーリングされ、
そして加算器413において合成信号s(n)に加えら
れ、中間の合成信号sw'(n)が発生される。スケーリ
ングユニット415における正規化の後、得られた合成信
号sw(n)が音声処理ユニット209へ送られる。
ードブック203から導出された成分を励起信号ex(n)
又は合成信号s(n)に加算して、中間励起信号ew'
(n)又は合成信号sw'(n)を形成することを含む。
ックの励起信号v(n)又は固定コードブックの励起信
号ci(n)をスケーリングして互いに直接合成すること
もできる。これにより、スケーリングされていない合成
された固定及び適応コードブック信号に成分を加えるこ
とが回避される。
ーリングされそして固定コードブックの励起信号c
i(n)と合成されて、中間信号ew'(n)を直接形成す
る本発明の実施形態を示す。
14を制御するためのパラメータ「a」を出力する。スケ
ーリングユニット614は、適応コードブックの励起信号
v(n)に対して動作し、通常の励起を得るのに使用さ
れる利得係数bにわたり励起信号v(n)をスケールア
ップ即ち増幅する。又、通常の励起信号ex(n)も形成
され、適応コードブック204及び適応エネルギー制御器3
16へ接続される。加算器613は、このアップスケールさ
れた励起信号av(n)と固定コードブックの励起信号ci
(n)とを合成し、次の中間信号を形成する。
のと同じ処理が達成される。
が、固定コードブックの励起信号ci(n)をダウンスケ
ーリング即ち減衰する実施形態を示す。この実施形態の
場合に、中間励起信号ew'(n)は、次のように与えら
れる。
御信号a'を出力して、式(8)に基づき式(6)で得た
のと同様の結果を得る。ダウンスケールされた固定コー
ドブックの励起信号a'ci(n)は、加算器713において
適応コードブックの励起信号v(n)と合成され、中間
励起信号ew'(n)を形成する。他のプロセスは、前記
と同様に行われ、励起信号及び形成された合成信号sew
(n)が正規化される。
励起発生器内でそしてコードブックから直接的にスケー
リングする。
率「p」の決定は、上記式(3)又は(4)に基づいて
行われる。
ことができる。適応コードブック利得bに加えて、改善
の程度は、適応コードブック204のラグ即ち遅れ値Tの
関数となる。例えば、後処理は、高ピッチの範囲で動作
するとき又は適応コードブックパラメータTが励起ブロ
ック長さ(仮想遅れ範囲)より短いときにオン(又は強
調)にすることができる。その結果、本発明が最も有効
である女性及び子供の音声が高度に後処理される。
スとすることもできる。例えば、改善は、音声スピーチ
に対して強くすることができ、そしてスピーチが無声と
分類されたときには完全にオフにすることができる。こ
れは、適応コードブック利得値bから導出することがで
き、この値それ自体は、有声/無声スピーチの簡単な尺
度であり、即ち、bが大きいと、より多くの有声スピー
チがオリジナルスピーチ信号に存在する。
が、従来のスピーチ合成に基づいて適応コードブック又
は固定コードブックから導出される同じ部分励起シーケ
ンスではなく、別の第3の部分励起シーケンスを選択す
るために各コードブックに通常含まれる選択ロジックを
経て選択できるように変更されてもよい。第3の部分励
起シーケンスは、直前に使用された励起シーケンスであ
るように選択されてもよいし、又は常に固定コードブッ
クに記憶された同じ励起シーケンスであってもよい。こ
れは、スピーチフレーム間の相違を減少するように作用
し、従って、スピーチの継続性を向上させる。任意であ
るが、b及び/又はTは、デコーダにおいて合成スピー
チから再計算することができ、そしてそれを用いて、第
3の部分励起シーケンスを導出することができる。更
に、固定利得p及び/又は固定励起シーケンスは、後処
理手段の位置に基づいて、全励起シーケンスex(n)又
はスピーチ信号s(n)に適宜に加えたり差し引いたり
することができる。
れ得ることが当業者に明らかであろう。例えば、可変フ
レームレートのコード化、高速コードブックサーチ、及
びピッチ予想とLPC予想の順序の逆転をコーデックに使
用することができる。更に、本発明による後処理は、デ
コーダではなくエンコーダに含ませることもできる。更
に、添付図面を参照して述べた各実施形態の特徴を組み
合わせて本発明による更に別の実施形態を構成すること
もできる。
に関するものであるか、又は本発明が向けられた問題の
いずれか又は全てを軽減するものであるかを問わず、こ
こに記載した新規な特徴又は特徴の組合せ或いはその一
般性を包含する。従って、請求の範囲を逸脱せずになさ
れ得る全ての変更や修正は、本発明の範囲内に網羅され
るものとする。
Claims (32)
- 【請求項1】スピーチ周期情報を含み励起ソースから導
出される第1信号に対して動作する後処理手段を備え、
上記励起ソースは、固定コードブック及び適応コードブ
ックと、上記固定コードブック及び適応コードブックか
ら各々発信される第1及び第2の部分励起信号を組合わ
せることにより上記第1信号を得るための手段とを備え
ており、上記後処理手段は、上記固定コードブック又は
適応コードブックから導出できる第2信号に基づいて上
記第1信号のスピーチ周期情報内容を変更するように構
成されており、上記第1信号に関連したピッチ情報から
導出できる第1の倍率(p)に基づいて上記第2信号を
スケーリングするための利得制御手段を備えることを特
徴とするスピーチ合成のための合成器。 - 【請求項2】上記第1の倍率(p)は、適応コードブッ
クの倍率(b)から導出できる請求項1に記載の合成
器。 - 【請求項3】上記第1の倍率(p)は、次の関係式に基
づいて導出でき、 但し、THはスレッシュホールド値を表し、bは適応コー
ドブック利得係数であり、pは第1の後処理手段の倍率
であり、aenhはリニアスケーラでありそしてf(b)は
利得bの関数である請求項2に記載の合成器。 - 【請求項4】上記倍率(p)は、次の式に基づいて導出
でき、 b<THlowならば、p=0.0 THlow≦b≦THupperならば、p=aenhb2 b>THupperならば、p=aenhb 但し、aenhは、改善動作の強度を制御する定数であり、
bは、適応コードブック利得であり、THは、スレッシュ
ホールド値であり、そしてpは、第1の後処理手段の倍
率である請求項2又は3に記載の合成器。 - 【請求項5】上記第2信号は、適応コードブックから発
生される請求項1から4のうちのいずれかに記載の合成
器。 - 【請求項6】上記第2信号は、上記第2の部分励起信号
と実質的に同じである請求項5に記載の合成器。 - 【請求項7】上記第2信号は、固定コードブックから発
生される請求項1から4のうちのいずれかに記載の合成
器。 - 【請求項8】上記第2信号は、上記第1の部分励起信号
と実質的に同じである請求項7に記載の合成器。 - 【請求項9】上記利得制御手段は、第2の倍率(p')に
基づいて上記第2の信号をスケーリングするように構成
され、 p'=−gp/(p+b) 但し、gは、固定コードブックの倍率であり、bは、適
応コードブックの倍率であり、そしてpは、第1の倍率
である請求項7又は8に記載の合成器。 - 【請求項10】上記第1信号は、スピーチ合成フィルタ
に入力するのに適した第1励起信号であり、そして上記
第2信号は、スピーチ合成フィルタに入力するのに適し
た第2励起信号である請求項1ないし9のいずれかに記
載の合成器。 - 【請求項11】上記第1信号は、第1スピーチ合成フィ
ルタから出力される第1合成スピーチ信号であり、そし
て上記第2信号は、第2スピーチ合成フィルタからの出
力である請求項1から9のうちのいずれかに記載の合成
器。 - 【請求項12】上記利得制御手段は、第2スピーチ合成
フィルタに入力される信号に対して動作できる請求項11
に記載の合成器。 - 【請求項13】第2信号と第1信号を合成することによ
り第1信号を変更する請求項1から12のうちのいずれか
に記載の合成器。 - 【請求項14】上記後処理手段は、更に、変更された第
1信号を次の関係式、即ち に基づいてスケーリングするための適応エネルギー制御
手段を備え、但し、Nは適当に選択された適応周期であ
り、ex(n)は第1信号であり、ew'(n)は変更され
た第1信号であり、そしてkはエネルギー倍率である請
求項13に記載の合成器。 - 【請求項15】合成スピーチを改善するための方法にお
いて、 固定コードブック及び適応コードブックからなる励起ソ
ースからスピーチ周期情報を含む第1信号を、上記固定
コードブック及び適応コードブックから各々発信される
第1及び第2の部分励起信号を組合わせることにより導
出し、 上記固定コードブック又は適応コードブック励起ソース
から第2信号を導出し、 上記第2信号に基づき第1信号のスピーチ周期情報内容
を変更し、 その際に、上記第1信号に関連したピッチ情報から導出
される第1の倍率(p)に基づいて上記第2信号をスケ
ーリングする、 という段階を備えたことを特徴とする方法。 - 【請求項16】第1の倍率(p)は、第1信号のピッチ
情報に対する利得係数(b)から導出できる請求項15に
記載の方法。 - 【請求項17】上記第1の倍率(p)は、次の関係式、
即ち に基づいて導出でき、但し、THはスレッシュホールド値
を表し、bは第1信号のピッチ情報の利得係数であり、
pは第1信号の倍率であり、p=aenhはリニアスケーラ
でありそしてf(b)はbの関数である請求項16に記載
の方法。 - 【請求項18】上記倍率(p)は、 b<THlowならば、p=0.0 THlow≦b≦THupperならば、p=aenhb2 b>THupperならば、p=aenhb に基づいて導出でき、但し、aenhは、改善動作の強度を
制御する定数であり、bは、第1信号のピッチ情報の利
得係数であり、THは、スレッシュホールド値であり、そ
してpは、第2信号の倍率である請求項16又は17に記載
の方法。 - 【請求項19】上記第2信号は、適応コードブックから
発生される請求項15から18のうちのいずれかに記載の方
法。 - 【請求項20】上記第2信号は、上記第2の部分励起信
号と実質的に同じである請求項19に記載の方法。 - 【請求項21】上記第2信号は、固定コードブックから
発生される請求項15から18のうちのいずれかに記載の方
法。 - 【請求項22】上記第2信号は、上記第1の部分励起信
号と実質的に同じである請求項21に記載の方法。 - 【請求項23】上記第2信号は、第2の倍率(p')に基
づいてスケーリングされ、 p'=−gp/(p+b) 但し、gは、固体コードブックの倍率であり、bは、適
応コードブックの倍率であり、そしてpは、第1の倍率
である請求項21又は22に記載の方法。 - 【請求項24】上記第1信号は、第1スピーチ合成フィ
ルタに入力するのに適した第1励起信号であり、そして
上記第2信号は、第2スピーチ合成フィルタに入力する
のに適した第2励起信号である請求項15から23のうちの
いずれかに記載の方法。 - 【請求項25】上記第1信号は、第1スピーチ合成フィ
ルタから出力される第1合成スピーチ信号であり、そし
て上記第2信号は、第2スピーチ合成フィルタの出力で
ある請求項15から23のうちのいずれかに記載の方法。 - 【請求項26】第2信号と第1信号を合成することによ
り第1信号を変更する請求項15から25のうちのいずれか
に記載の方法。 - 【請求項27】変更された第1信号は、次の関係式に基
づいて正規化され、 但し、Nは適当に選択された適応周期であり、ex(n)
は第1信号であり、ew'(n)は変更された第1信号で
あり、そしてkはエネルギー倍率である請求項26に記載
の方法。 - 【請求項28】無線信号を受け取りそして無線信号に含
まれたコード化情報を回復するための高周波手段と、 上記高周波手段に接続される合成器とを備え、この合成
器は、スピーチ周期情報を含み励起ソースから導出され
る第1信号に対して動作する後処理手段を備え、上記励
起ソースは、固定コードブック及び適応コードブック
と、上記固定コードブック及び適応コードブックから各
々発信される第1及び第2の部分励起信号を組合わせる
ことにより上記第1信号を得るための手段とを備えてお
り、上記後処理手段は、上記固定コードブック又は適応
コードブックから導出できる第2信号に基づいて上記第
1信号のスピーチ周期情報内容を変更するように構成さ
れており、上記第1信号に関連したピッチ情報から導出
できる第1の倍率(p)に基づいて上記第2信号をスケ
ーリングするための利得制御手段を備えており、更に、
上記後処理手段からの変更された第1信号を受け取るよ
うに接続されて、それに応答して合成スピーチを発生す
るためのスピーチ合成フィルタを含むことを特徴とする
無線装置。 - 【請求項29】請求項1から14のうちのいずれかに記載
の合成器を備えた無線装置。 - 【請求項30】請求項15から27のうちのいずれかに記載
の方法に基づいて合成スピーチを改善するように動作す
る無線装置。 - 【請求項31】第1及び第2の部分励起信号をそれぞれ
発生するための適応コードブック及び固定コードブック
と、受信した適応および固定コードブック倍率で上記第
1及び第2の部分励起信号をそれぞれスケーリングする
ためのスケーリングユニット手段と、上記第1の部分励
起信号に関連したピッチ情報の関数である別の倍率にし
たがって上記第1の部分励起信号を変更するための変更
手段と、上記第2の部分励起信号を上記変更された第1
の部分励起信号と組合わせるための手段とを備えたこと
を特徴とするスピーチ合成のための合成器。 - 【請求項32】第1及び第2の部分励起信号をそれぞれ
発生するための適応コードブック及び固定コードブック
と、受信した適応および固定コードブック倍率で上記第
1及び第2の部分励起信号をそれぞれスケーリングする
ためのスケーリングユニット手段と、上記第1の部分励
起信号に関連したピッチ情報の関数である別の倍率にし
たがって上記第2の部分励起信号を変更するための変更
手段と、上記変更された第2の部分励起信号を上記第1
の部分励起信号と組合わせるための手段とを備えたこと
を特徴とするスピーチ合成のための合成器。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
GB9512284.2 | 1995-06-16 | ||
GBGB9512284.2A GB9512284D0 (en) | 1995-06-16 | 1995-06-16 | Speech Synthesiser |
PCT/GB1996/001428 WO1997000516A1 (en) | 1995-06-16 | 1996-06-13 | Speech coder |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11507739A JPH11507739A (ja) | 1999-07-06 |
JP3483891B2 true JP3483891B2 (ja) | 2004-01-06 |
Family
ID=10776197
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP50280997A Expired - Lifetime JP3483891B2 (ja) | 1995-06-16 | 1996-06-13 | スピーチコーダ |
Country Status (12)
Country | Link |
---|---|
US (2) | US6029128A (ja) |
EP (1) | EP0832482B1 (ja) |
JP (1) | JP3483891B2 (ja) |
CN (2) | CN1652207A (ja) |
AT (1) | ATE206843T1 (ja) |
AU (1) | AU714752B2 (ja) |
BR (1) | BR9608479A (ja) |
DE (1) | DE69615839T2 (ja) |
ES (1) | ES2146155B1 (ja) |
GB (1) | GB9512284D0 (ja) |
RU (1) | RU2181481C2 (ja) |
WO (1) | WO1997000516A1 (ja) |
Families Citing this family (49)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5913187A (en) * | 1997-08-29 | 1999-06-15 | Nortel Networks Corporation | Nonlinear filter for noise suppression in linear prediction speech processing devices |
US7117146B2 (en) * | 1998-08-24 | 2006-10-03 | Mindspeed Technologies, Inc. | System for improved use of pitch enhancement with subcodebooks |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
JP3365360B2 (ja) * | 1999-07-28 | 2003-01-08 | 日本電気株式会社 | 音声信号復号方法および音声信号符号化復号方法とその装置 |
US6480827B1 (en) * | 2000-03-07 | 2002-11-12 | Motorola, Inc. | Method and apparatus for voice communication |
US6581030B1 (en) * | 2000-04-13 | 2003-06-17 | Conexant Systems, Inc. | Target signal reference shifting employed in code-excited linear prediction speech coding |
US6466904B1 (en) * | 2000-07-25 | 2002-10-15 | Conexant Systems, Inc. | Method and apparatus using harmonic modeling in an improved speech decoder |
EP1308927B9 (en) * | 2000-08-09 | 2009-02-25 | Sony Corporation | Voice data processing device and processing method |
US7283961B2 (en) * | 2000-08-09 | 2007-10-16 | Sony Corporation | High-quality speech synthesis device and method by classification and prediction processing of synthesized sound |
JP3558031B2 (ja) * | 2000-11-06 | 2004-08-25 | 日本電気株式会社 | 音声復号化装置 |
US7103539B2 (en) * | 2001-11-08 | 2006-09-05 | Global Ip Sound Europe Ab | Enhanced coded speech |
CA2388352A1 (en) | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7516067B2 (en) * | 2003-08-25 | 2009-04-07 | Microsoft Corporation | Method and apparatus using harmonic-model-based front end for robust speech recognition |
US7447630B2 (en) * | 2003-11-26 | 2008-11-04 | Microsoft Corporation | Method and apparatus for multi-sensory speech enhancement |
CA2457988A1 (en) * | 2004-02-18 | 2005-08-18 | Voiceage Corporation | Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization |
JP4398323B2 (ja) * | 2004-08-09 | 2010-01-13 | ユニデン株式会社 | デジタル無線通信装置 |
US20070147518A1 (en) * | 2005-02-18 | 2007-06-28 | Bruno Bessette | Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX |
US20060217988A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for adaptive level control |
US20060217983A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for injecting comfort noise in a communications system |
US20060217972A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal |
US20060215683A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for voice quality enhancement |
US20060217970A1 (en) * | 2005-03-28 | 2006-09-28 | Tellabs Operations, Inc. | Method and apparatus for noise reduction |
US7562021B2 (en) * | 2005-07-15 | 2009-07-14 | Microsoft Corporation | Modification of codewords in dictionary used for efficient coding of digital media spectral data |
US7590523B2 (en) * | 2006-03-20 | 2009-09-15 | Mindspeed Technologies, Inc. | Speech post-processing using MDCT coefficients |
US8005671B2 (en) * | 2006-12-04 | 2011-08-23 | Qualcomm Incorporated | Systems and methods for dynamic normalization to reduce loss in precision for low-level signals |
BRPI0720266A2 (pt) * | 2006-12-13 | 2014-01-28 | Panasonic Corp | Dispositivo de decodificação de aúdio e método de ajuste de potência |
CN101548317B (zh) * | 2006-12-15 | 2012-01-18 | 松下电器产业株式会社 | 自适应激励矢量量化装置和自适应激励矢量量化方法 |
CN103383846B (zh) * | 2006-12-26 | 2016-08-10 | 华为技术有限公司 | 改进语音丢包修补质量的语音编码方法 |
US8688437B2 (en) | 2006-12-26 | 2014-04-01 | Huawei Technologies Co., Ltd. | Packet loss concealment for speech coding |
CN101266797B (zh) * | 2007-03-16 | 2011-06-01 | 展讯通信(上海)有限公司 | 语音信号后处理滤波方法 |
US8209190B2 (en) * | 2007-10-25 | 2012-06-26 | Motorola Mobility, Inc. | Method and apparatus for generating an enhancement layer within an audio coding system |
CN100578620C (zh) * | 2007-11-12 | 2010-01-06 | 华为技术有限公司 | 固定码书搜索方法及搜索器 |
CN101179716B (zh) * | 2007-11-30 | 2011-12-07 | 华南理工大学 | 一种压缩域的传输数据流音频自动增益控制方法 |
US20090287489A1 (en) * | 2008-05-15 | 2009-11-19 | Palm, Inc. | Speech processing for plurality of users |
US8442837B2 (en) * | 2009-12-31 | 2013-05-14 | Motorola Mobility Llc | Embedded speech and audio coding using a switchable model core |
US8990094B2 (en) * | 2010-09-13 | 2015-03-24 | Qualcomm Incorporated | Coding and decoding a transient frame |
US8862465B2 (en) * | 2010-09-17 | 2014-10-14 | Qualcomm Incorporated | Determining pitch cycle energy and scaling an excitation signal |
US8706509B2 (en) | 2011-04-15 | 2014-04-22 | Telefonaktiebolaget L M Ericsson (Publ) | Method and a decoder for attenuation of signal regions reconstructed with low accuracy |
PL2737479T3 (pl) * | 2011-07-29 | 2017-07-31 | Dts Llc | Adaptacyjna poprawa zrozumiałości głosu |
EP2704142B1 (en) * | 2012-08-27 | 2015-09-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for reproducing an audio signal, apparatus and method for generating a coded audio signal, computer program and coded audio signal |
CN107818789B (zh) | 2013-07-16 | 2020-11-17 | 华为技术有限公司 | 解码方法和解码装置 |
US9620134B2 (en) * | 2013-10-10 | 2017-04-11 | Qualcomm Incorporated | Gain shape estimation for improved tracking of high-band temporal characteristics |
CN111370009B (zh) * | 2013-10-18 | 2023-12-22 | 弗朗霍夫应用科学研究促进协会 | 使用语音相关的频谱整形信息编码音频信号和解码音频信号的概念 |
EP3058569B1 (en) * | 2013-10-18 | 2020-12-09 | Fraunhofer Gesellschaft zur Förderung der angewandten Forschung E.V. | Concept for encoding an audio signal and decoding an audio signal using deterministic and noise like information |
CN110444192A (zh) * | 2019-08-15 | 2019-11-12 | 广州科粤信息科技有限公司 | 一种基于语音技术的智能语音机器人 |
CN113241082B (zh) * | 2021-04-22 | 2024-02-20 | 杭州网易智企科技有限公司 | 变声方法、装置、设备和介质 |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5681900A (en) * | 1979-12-10 | 1981-07-04 | Nippon Electric Co | Voice synthesizer |
US4815135A (en) * | 1984-07-10 | 1989-03-21 | Nec Corporation | Speech signal processor |
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
GB8806185D0 (en) * | 1988-03-16 | 1988-04-13 | Univ Surrey | Speech coding |
US5029211A (en) * | 1988-05-30 | 1991-07-02 | Nec Corporation | Speech analysis and synthesis system |
US5247357A (en) * | 1989-05-31 | 1993-09-21 | Scientific Atlanta, Inc. | Image compression method and apparatus employing distortion adaptive tree search vector quantization with avoidance of transmission of redundant image data |
CA2066568A1 (en) * | 1989-10-17 | 1991-04-18 | Ira A. Gerson | Lpc based speech synthesis with adaptive pitch prefilter |
US5241650A (en) * | 1989-10-17 | 1993-08-31 | Motorola, Inc. | Digital speech decoder having a postfilter with reduced spectral distortion |
CA2010830C (en) * | 1990-02-23 | 1996-06-25 | Jean-Pierre Adoul | Dynamic codebook for efficient speech coding based on algebraic codes |
JP3102015B2 (ja) * | 1990-05-28 | 2000-10-23 | 日本電気株式会社 | 音声復号化方法 |
ATE294441T1 (de) * | 1991-06-11 | 2005-05-15 | Qualcomm Inc | Vocoder mit veränderlicher bitrate |
JP3076086B2 (ja) * | 1991-06-28 | 2000-08-14 | シャープ株式会社 | 音声合成装置用ポストフィルタ |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
WO1993018505A1 (en) * | 1992-03-02 | 1993-09-16 | The Walt Disney Company | Voice transformation system |
US5495555A (en) * | 1992-06-01 | 1996-02-27 | Hughes Aircraft Company | High quality low bit rate celp-based speech codec |
US5327520A (en) * | 1992-06-04 | 1994-07-05 | At&T Bell Laboratories | Method of use of voice message coder/decoder |
FI91345C (fi) * | 1992-06-24 | 1994-06-10 | Nokia Mobile Phones Ltd | Menetelmä kanavanvaihdon tehostamiseksi |
CA2108623A1 (en) * | 1992-11-02 | 1994-05-03 | Yi-Sheng Wang | Adaptive pitch pulse enhancer and method for use in a codebook excited linear prediction (celp) search loop |
WO1994025959A1 (en) * | 1993-04-29 | 1994-11-10 | Unisearch Limited | Use of an auditory model to improve quality or lower the bit rate of speech synthesis systems |
US5664055A (en) * | 1995-06-07 | 1997-09-02 | Lucent Technologies Inc. | CS-ACELP speech compression system with adaptive pitch prediction filter gain based on a measure of periodicity |
-
1995
- 1995-06-16 GB GBGB9512284.2A patent/GB9512284D0/en active Pending
-
1996
- 1996-06-13 CN CN200510052904.XA patent/CN1652207A/zh active Pending
- 1996-06-13 JP JP50280997A patent/JP3483891B2/ja not_active Expired - Lifetime
- 1996-06-13 WO PCT/GB1996/001428 patent/WO1997000516A1/en active IP Right Grant
- 1996-06-13 BR BR9608479-0A patent/BR9608479A/pt not_active IP Right Cessation
- 1996-06-13 US US08/662,991 patent/US6029128A/en not_active Expired - Lifetime
- 1996-06-13 AT AT96920925T patent/ATE206843T1/de not_active IP Right Cessation
- 1996-06-13 ES ES009750009A patent/ES2146155B1/es not_active Expired - Fee Related
- 1996-06-13 CN CN96196226.7A patent/CN1199151C/zh not_active Expired - Lifetime
- 1996-06-13 AU AU62309/96A patent/AU714752B2/en not_active Expired
- 1996-06-13 DE DE69615839T patent/DE69615839T2/de not_active Expired - Lifetime
- 1996-06-13 RU RU98101107/28A patent/RU2181481C2/ru active
- 1996-06-13 EP EP96920925A patent/EP0832482B1/en not_active Expired - Lifetime
-
1998
- 1998-08-18 US US09/135,936 patent/US5946651A/en not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
DE69615839D1 (de) | 2001-11-15 |
RU2181481C2 (ru) | 2002-04-20 |
CN1652207A (zh) | 2005-08-10 |
JPH11507739A (ja) | 1999-07-06 |
BR9608479A (pt) | 1999-07-06 |
CN1192817A (zh) | 1998-09-09 |
US6029128A (en) | 2000-02-22 |
EP0832482B1 (en) | 2001-10-10 |
ES2146155B1 (es) | 2001-02-01 |
DE69615839T2 (de) | 2002-05-16 |
AU6230996A (en) | 1997-01-15 |
WO1997000516A1 (en) | 1997-01-03 |
CN1199151C (zh) | 2005-04-27 |
US5946651A (en) | 1999-08-31 |
ATE206843T1 (de) | 2001-10-15 |
AU714752B2 (en) | 2000-01-13 |
ES2146155A1 (es) | 2000-07-16 |
EP0832482A1 (en) | 1998-04-01 |
GB9512284D0 (en) | 1995-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3483891B2 (ja) | スピーチコーダ | |
JP3653826B2 (ja) | 音声復号化方法及び装置 | |
JP4550289B2 (ja) | Celp符号変換 | |
JP3490685B2 (ja) | 広帯域信号の符号化における適応帯域ピッチ探索のための方法および装置 | |
JP4662673B2 (ja) | 広帯域音声及びオーディオ信号復号器における利得平滑化 | |
US7020605B2 (en) | Speech coding system with time-domain noise attenuation | |
EP1141946B1 (en) | Coded enhancement feature for improved performance in coding communication signals | |
US20040181411A1 (en) | Voicing index controls for CELP speech coding | |
EP0732686A2 (en) | Low-delay code-excited linear-predictive coding of wideband speech at 32kbits/sec | |
JP4040126B2 (ja) | 音声復号化方法および装置 | |
KR100715014B1 (ko) | 트랜스코더 및 부호변환방법 | |
JP3510168B2 (ja) | 音声符号化方法及び音声復号化方法 | |
JP3232701B2 (ja) | 音声符号化方法 | |
CA2224688C (en) | Speech coder | |
JP2853170B2 (ja) | 音声符号化復号化方式 | |
KR100421816B1 (ko) | 음성복호화방법 및 휴대용 단말장치 | |
JP3071800B2 (ja) | 適応ポストフィルタ | |
JPH08160996A (ja) | 音声符号化装置 | |
JP2001272999A (ja) | 音声信号符号化装置及びその方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20071017 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20081017 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091017 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091017 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101017 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111017 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121017 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131017 Year of fee payment: 10 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
EXPY | Cancellation because of completion of term |