JPH03119398A - 音声分析合成方法 - Google Patents

音声分析合成方法

Info

Publication number
JPH03119398A
JPH03119398A JP1257503A JP25750389A JPH03119398A JP H03119398 A JPH03119398 A JP H03119398A JP 1257503 A JP1257503 A JP 1257503A JP 25750389 A JP25750389 A JP 25750389A JP H03119398 A JPH03119398 A JP H03119398A
Authority
JP
Japan
Prior art keywords
sound source
phase
source signal
speech
filter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1257503A
Other languages
English (en)
Other versions
JPH0782360B2 (ja
Inventor
Masaaki Yoda
雅彰 誉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP1257503A priority Critical patent/JPH0782360B2/ja
Priority to CA002026640A priority patent/CA2026640C/en
Priority to EP90118888A priority patent/EP0421360B1/en
Priority to DE69024899T priority patent/DE69024899T2/de
Publication of JPH03119398A publication Critical patent/JPH03119398A/ja
Priority to US07/939,049 priority patent/US5293448A/en
Priority to US08/181,415 priority patent/US5495556A/en
Publication of JPH0782360B2 publication Critical patent/JPH0782360B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 「産業上の利用分野」 この発明は音声スペクトル包絡特性を表す線形フィルタ
を音源信号で駆動して音声信号を合成する音声分析合成
方法に関する。
「従来の技術」 この発明に関連する従来技術として、線形予測ボコーダ
とマルチパルス予測符号化がある。線形予測ボコーダは
、4.8 kb/s以下の低ビツトレート領域における
音声符号化方法としてこれまで広く用いられ、パーコー
ル方式や線スペクトル対(LSP)方式などの方式があ
る。これらの方式の詳細は、例えば奇勝、中田著“音声
情報処理の基礎” (オーム社出版)に記載されている
。線形予測ボコーダは、音声のスペクトル包絡特性を表
す全極形のフィルタとそれを駆動する音源信号の生成部
とによって構成される。その駆動音源信号には、有声音
に対してはピッチ周期パルス列、無声音に対しては白色
雑音が用いられる。音源パラメータは、有声・無声の区
別、ピッチ周期および音源信号の振幅であり、これらの
パラメータは30ミリ秒程度の分析区間における音声信
号の平均的な特徴として抽出される。線形予測ボコーダ
では、このように一定の分析区間毎に抽出した音声の特
徴パラメータを時間的に補間して音声を合成するため、
音声のピッチ周期、振幅、およびスペクトル特性が急速
に変化する場合には、音声波形の特徴が十分な精度では
再現することができない。さらに、周期パルス列と白色
雑音からなる駆動音源信号は多様な音声波形の特徴を再
現するには不十分なため、自然性の高い合成音声を得る
ことは困難であった。このように、線形予測ボコーダに
おいて合成音声の品質を高めるには、より音声波形の特
徴を再現できる駆動音源が必要とされてきた。
一方、マルチパルス予測符号化は従来のボコーダにくら
べて再現能力の高い駆動音源を用いる方法である(特許
1234567)。この方法では、複数個のパルスによ
り駆動音源信号を表現し、音声の近接相関とピッチ相関
特性を表す2つの全極形フィルタを駆動することにより
音声を合成する。パルスの時間的位置と振幅は、入力音
声波形と合成音声波形との誤差を最小にするように決定
される。
その詳細は、文献(B、S、Atal、 ”A New
 model ofLPCexcitation fo
r producing natural−sound
ingspeech at low bit rate
s  、 IEEE rnt、 Conf。
on ASSP、 pp614−617.1982)に
示されている。マルチパルス予測符号化では、パルスの
個数を増やすことによって音声品質を高めることができ
るが、逆にビットレートが低くなるとパルスの個数が制
限されるため音声波形の再現精度が劣化し、その結果十
分な音声品質が得られなくなる。良好な音声品質を得る
には8 kb/s程度の情報量が必要とされた。
マルチパルス予測符号化では、入力音声波形そのものを
再現するように駆動音源が決定されるのに対して、特願
昭59−53757  ’音声信号処理方法”の実施例
に見られるように、音声波形の位相成分を一定の位相に
等化した後の位相等化音声信号をマルチパルス予測符号
化する方法が提案されている。この方法では、聴覚的に
鈍感な音声の位相成分を音声波形から取り除くことによ
り、駆動音源信号がより少ない個数のパルスで再現され
るため、低ビツトレートでの音声品質が改善できる。し
かし、この方法でもビットレートが4.8 k−b/s
程度に低くなると、パルスの個数が不足して音声波形の
特徴が十分には再現できず、品質の高い音声を得ること
はできなかった。
この発明の目的は、線形予測ボコーダと波形符号化の境
界領域(2,4−4,8kb/s )において、品質の
高い音声分析合成方法を提供することにある。
「課題を解決するための手段」 この発明は、音声分析合成に用いられる有声音に対する
駆動音源信号を、ピッチ周期のゆらぎの−大きさを制限
した準周期パルス列と位相等化された音声の予測残差を
特徴づける写影のフィルタとで表現し、この駆動音源信
号により合成された音声波形と位相等化された入力音声
波形との誤差が最小になるように、音源信号を構成する
パラメータ、すなわちパルスの時間的位置、振幅、およ
び写影フィルタの係数を決定することを特徴とする。
従来のボコーダでは一定分析区間毎に求めたピッチ周期
と振幅から生成される周期パルス列を駆動音源信号とし
て用いているのに対して、この発明ではピッチ周期毎に
パルスの位置と振幅が決定され、さらに写影フィルタを
新たに導入することにより音声波形の再現性の向上が図
られている。また、従来のマルチパルス予測符号化では
複数個のパルスによって1ピッチ周期の駆動音源信号を
表しているのに対して、この発明ではピッチ当たり1個
のパルスと一定分析区間毎に設定される写影フィルタで
駆動音源信号を表しており、駆動音源信号の情報量の低
減が図られている。さらに、音源パラメータを決定する
評価基準として、従来方式では入力音声波形との誤差が
用いられているのに対して、この発明では位相等化音声
波形との誤差が用いられている。位相等化音声波形に対
する誤差評価尺度を用いることで、この発明で用いられ
る駆動音源信号から合成される音声波形と人力音声波形
との整合度が向上することが可能となる。
位相等化音声波形と合成音声波形と互いに近いため、こ
れらを比較して音源パラメータを決定することにより音
源パラメータの数を少くすることができる。最後に、従
来の位相等化とマルチパルス予測符号化とを組み合わせ
た方法との相違は、使用する駆動音源信号および音源パ
ラメータの決定方法の違いである。
「実施例」 第1図は、この発明による音声分析合成法の構成を示し
たものである。入力端子1からは標本化されたデジタル
の音声信号5(t)が人力される。
線形予測分析部2では、N個の音声信号のサンプルを−
Hデータバッファに蓄えた後、これらのサンプルに対し
て線形予測分析を行って予測係数a、(i−1,2,・
・・、p)を算出し、その予測係数a!を量子化器3で
量子化する。また、その予測係数をフィルタ係数とする
逆フィルタを用いて予測残差信号を求め、その予測残差
信号の自己相関係数の最大値に対するレベル判定にもと
づいて音声の有声・無声VUを判定する。これらの処理
方法の詳細は、前述の斎藤等による著書に記載されてい
る。
位相等化分析部4では、音声の位相特性を零位相化する
位相等化フィルタの係数と位相等化の基準時点を算出す
る。第2図は位相等化分析部4の細部の構成を示したも
のである。音声信号sD)を逆フィルタ31に人力して
予測残差e(t)が求まる。その予測残差は最大振幅位
置検出部32と位相等化フィルタ37に供給される。ス
イッチ33は通常振幅比較部38の出力側に設定されて
おり、当該分析フレームが有声で一つ前の分析フレーム
が無声の場合のみ最大振幅位置検出部32の出力側に設
定される。この場合は、最大振幅位置検出部32におい
て予測残差の振幅が最大になる時点L′。が検出され、
これがフィルタ係数算出部34に入力されて位相等化フ
ィルタの係数が次式により求められる。
m−−1,,,,M その後スイッチ33は振幅比較部38の出力側に切り替
わり、振幅比較部38の出力がフィルタ係数算出部34
に入力される。
フィルタ係数算出部34では、当該フレームが有声の場
合は基準時点も、に対して、上式と同様に次式で計算さ
れる。
m−−H、、、、M また、当該フレームが無声の場合は、次のように設定さ
れる。
フィルタ係数算出部34の出力は平滑部35へ供給され
、例えば次式のような1次のフィルタを用いて位相等化
フィルタの係数h”(m)が時間的に平滑化される。
ht  (m)  =bht−+(m)+ (1−b)
h”  (m)   ti−、<  t  (tiここ
で、係数すは、97程度の値に設定される。フィルタ係
数保持部36では、平滑化されたフィルタ係数ht(m
)を各基準時点での値htt(m)を保持し、位相等化
フィルタ37を制御する。位相等化フィルタ37へは予
測残差e (t)が入力され、次式により位相等化予測
残差ep(t)を出力する。
ep<t>  −Σ ht+(m)e(L−m)   
 t>t4振幅比較部38では、位相等化予測残差ep
(t)の振幅レベルがしきい値と比較され、しきい値を
越える場合はその時点を次の基準時点t+、として検出
する。
第1図に示すように、位相等化分析部4で求められたフ
ィルタ係数ht(++)は位相等化フィルタ5を制御す
る。この位相等化フィルタ5に音声信号5(t)を入力
することにより位相等化音声信号5p(t)がその出力
として求められる。
ス位置はその位置間隔が準周期的になるように制限され
る。すなわち、第3図におけるパルス位置間隔T、=t
、−tt−+は、連続するパルス位置間隔の差が一定値
以下で、かつその差の分析フレーム内での総和が一定値
以下になるように次式によって制限される。
条件1 ΔT、= l T、−T、、l≦J次に、音源
パラメータ分析部30について説明する。この分析合成
法では有声音と無声音とで別々の駆動音源を使用し、有
声・無声パラメータVUによってスッチ17が切り替え
られる。有声音の駆動音源はパルス系列生成部7と写影
フィルタ10から構成される。
パルス系列生成部7では第3図に示すような準周期パル
ス列を生成する。準周期パルス列は、各パルスの時間的
な位置(パルス位f)tt と振幅m、をパラメータと
して表される。パルス位置はパルス位置生成部6により
制御され、パルス振幅はパルス振幅算出部8によって制
御される。パル条件2 ΣΔT、≦J 5us i=1 ここで、neは分析フレーム内でのパルスの個数、Jと
J sumは定数である。パルス位置生成部6では、位
相等化分析部4で求められる基準時点t+。
を基に、上記の制限を満足するパルス位置の系列を生成
する。第4図は基準時点からパルス位置系列を生成する
処理手順を示したものである。この処理では、まず基準
時点から求まる位置間隔の差に関して条件1に関する判
定を行い、条件1を満たさない場合は第4図の手順にし
たがってパルス位置の挿入、除去、修正を行う。その結
果、全ての基準時点が条件1を満たす場合は条件2の判
定を行い、条件2を満たす場合はその基準時点をパルス
位置とする0条件2を満たさない場合、基準時点の近傍
で条件2を満たす全てのパルス位置を候補として生成す
る。また、条件1を満たさない場合は、基準時点の個数
をその最大取り得る個数N、と比較し、最大パルス数よ
り少ない時は基準時点をそのままパルス位置として用い
る。基準時点の個数が最大パルス数より多い時は、基準
時点の中から個数が最大パルス数となるパルス位置の全
部の組み合わせを生成する。生成されるパルス位置の候
補が複数個ある場合は、各パルス位置に対して合成され
る音声波形と位相等化後の入力音声波形との誤差を波形
歪み算出部19で求め、歪み判定部20において誤差が
最小になるパルス位置を選択する。
パルス振幅算出部8では、各パルスの振幅を合成音声波
形と位相等化後の入力音声波形との周波数重み付は平均
二乗誤差が最小になるように決定する。第5図は、パル
ス振幅算出部8の内部の構成を示したものである0位相
等化信号の入力音声波形S、(t)は周波数重み付はフ
ィルタ39へ供給され、このフィルタ39は音声スペク
トルの強い周波数成分を抑圧する働きを持ち、その伝達
特性は次のように表される。
A(γ2) ただし、 A(z)= 1+a+z−’+   90 +a、z−’ここで、a
、は線形予測係数であり、z −1は標本化遅延を表す
。γは抑圧の程度を制御するパラメータであり、0くγ
S1の範囲の値をとり、小さい値になるほど抑圧の程度
が大きくなる。通常は0、7−0.9の値が用いられる
。周波数重み付きフィルタ39は、位相等化音声信号を
周波数重み付きフィルタに通した出力信号から、1つ前
の分析フレームの合成音声を初期値としてフィルタ1/
A (r z)を零入力で駆動した時の初期値応答を差
し引くことにより信号s、(t)を得る。一方、線形予
測係数aムはインパルス応答算出部40へ供給され、1
/A(γZ)の伝達特性をもつフィルタのインパルス応
答f(t)が算出される。相関器41では、各パルス位
置も、に対してインパルス応答f(t−ti)と周波数
信号s、(t)との相互共分散ψ(i)を次式で算出す
る。
t=。
また、相関器42では、各パルス位置1.,1.の組に
関してインパルス応答の自己供分散φ(i、 j)を次
式で算出する。
φ(i、j)= Σ f (t−ti) f (t−t
j)t=。
パルス振幅算出部43では、ψ(1)とφ(i、 Dと
からパルス振幅を次の連立方程式を解くことによって求
める。
第1図中のパルス振幅は量子化器9において、例えばベ
クトル量子化の手法を用いて量子化される。
ベクトル量子化を用いる場合、パルス振幅を要素とする
ベクトル(振幅パタン)を複数個のパルス振幅標準パタ
ンと比較し、パタン間の距離が最小となる標準パタンに
量子化される。振幅パタンの距離尺度としては、パルス
振幅標準パタンから写影フィルムを用いず合成された音
声波形と位相等化後の入力音声波形との平均二乗誤差が
用いられる。振幅パタンベクトルをm= (m、・m!
+・・1map)Dは行列の転値を表す)、標準パタン
ヘクトルをmct(+=1+ 2.、、、、  Nc)
とすると、平均二乗誤差は次式で表される。
d(m、 mc)= (m  mc、)’Φ(m  m
ei)ここで、Φはインパルス応答の自己共分散φ(i
 、 Dを要素とする行列である。この時、振幅パタン
の量子化値mは、平均二乗誤差を最小にする標準パタン
として次式で求められる。
m=arg win d(m、  met)CI 写影フィルタ10は位相等化後の予測残差波形を特徴づ
けるフィルタであり、フィルタの係数は写影フィルタ係
数算出部11によって制御される。
第6図は、位相等化後の予測残差波形の例とそれに対す
る写影フィルタIOのインパルス応答波形を示したもの
である。位相等化後の予測残差は、スペクトル包絡特性
が平坦で位相が零位相に近いことからインパルス的にな
り、各パルス位置で大きな振幅を示して、それ以外の区
間では比較的小さな振幅となる。また、パルス位置およ
び隣り合うパルス位置の中間時点を中心に対称に近い波
形となる。パルス位置の中間時点での振幅は、第6図に
も見られるように他の区間にくらべて比較的大きな振幅
をもつことが多く、特にピッチ周期が長い音声に対して
、この傾向が強くなる。写影フィルタ10は、第6図に
示すようにそのインパルス応答がパルス位置を中心に左
右に各q個の時点とパルス位置の中間時点を中心に左右
にr個の時点で値をとるように設定される。この時、写
影フィルタ10の伝達特性は次のように表される。
写影フィルタ係数算出部11では、与えられたピッチ位
置とパルス振幅に対してフィルタ係数Vうを合成音声波
形と位相等化後の入力音声波形との周波数重み付き平均
二乗誤差が最小になるように算出する。第7図は、フィ
ルタ係数算出部11の構成を示したものである。周波数
重み付きフィルタ44とインパルス応答算出部45はそ
れぞれ第5図の周波数重み付きフィルタ39とインパル
ス応答算出部40と同じ構成をもつ。加算器46は次式
にしたがってインパルス応答f(t)を加算する。
1=q+r+1 相関器47は、信号s、(t)とui(t)との相互共
分散ψ(i)を計算し、相関器48は、信号ui(t)
とuj(t)との自己共分散φ(i 、 J)を計算す
る。
フィルタ係数算出部49では、ψ(i)とφ(i 、 
J)とから次の連立方程式を解くことにより写影フィル
タ10の係数v8を算出する。
フィルタ係数Viは第1図中の量子化器12において、
例えばベクトル量子化の手法を用いて量子化される。ベ
クトル量子化を用いる場合、フィルタ係数を要素とする
ベクトル(振幅パタン)を複数個のパルス振幅標準パタ
ンと比較し、パタン間の距離が最小となる標準パタンに
量子化される。
パルス振幅のベクトル量子化と同様にして、合成音声波
形と位相等化後の入力音声波形との平均二乗誤差を距離
尺度とすると、フィルタ係数の量子化値Vは、次式で求
められる。
v =arg  min d(v+vct)Vci d(V+Vc  )  =(V−vct)’  Φ(V
−Vci)ただし、■はフィルタ係数を要素とするベク
トル、V (iはその標準パタンベクトルである。また
、Φはインパルス応答ut(t)の自己共分散φ(i、
j)を要素とする行列である。
以上まとめると、有声音区間においては、パルス位置の
振幅によって決まる準周期パルス列を写影フィルタ10
に通した後の信号を駆動音源信号として、音声スペクト
ル包絡特性を特徴づける全極形フィルタ18を駆動する
ことにより音声を合成する。音源パラメータは、パルス
振幅と写影フィルタの係数については、合成音声波形と
位相等化後の入力音声波形との誤差を最小とする最適値
がパルス位置に対して決定される。パルス位置の候補が
複数存在する場合は、各候補に対して上記の誤差を求め
、誤差が最小となる最適なパルス位置を全探索によって
決定する。
次に、無声音区間における駆動音源について説明する。
無声音区間ではコード励振型予測符号化(文献5chr
oeder  他、” Code excited 1
inearprediction(CELP) ” 、
IEt!E Int、 Conf、 on ASSP。
pp937−940.1985)と同じく、駆動音源信
号として乱数パタンを使用する。第1図の乱数パタン生
成部13には、平均0、分散1の正規乱数を複数サンプ
ルまとめたパタンか複数個蓄えられている。
乱数振幅算出部15では各乱数パタン毎に、乱数パタン
について合成音声波形と位相等化後の入力音声波形との
誤差が最小となるゲインの最適値を算出し、量子化器1
6で量子化されたゲインを用いてゲイン増幅器14を制
御する。次に、各乱数パタンに対して合成音声と位相等
化音声との誤差を求め、それが最小となる最適な乱数パ
タンを全探索によって求め、この乱数パタンの系列をゲ
イン増幅器14を通じて駆動音源信号として全極形フィ
ルタ18へ供給する。
以上の手順により、音声信号は線形予測係数a1、を声
・無声バラメーク■U、有声音ではパルス位置t8、パ
ルス振幅mi、写影フィルタ係数v8、無声音では乱数
コードパタン(番号)Ciとゲインg1によって表され
る。これらの音声パラメータは符号化部21で符号化さ
れた後、伝送あるいは蓄積される。音声合成部では、音
声パラメータを復号化部22で復号化した後、有声音の
場合はパルス系列生成部23でパルス位置1.とパルス
振幅m8とにより生成されたパルス列を写影フィルタ2
4に通して駆動音源信号を生成し、無声音の場合は乱数
コードパタン(信号)Ctで乱数パタン生成部25より
乱数パタンを選択生成し、これをゲインgiにより制御
される増幅器26に通して振幅制御して駆動音源信号を
生成し、有声・無声によって切り替わるスイッチ27で
両駆動音源信号の一方が選択され、全極形フィルタ28
を駆動することによりその出力端29に合成音声が出力
される。写影フィルタ24のフィルタ係数はV。
で制御され、全極形フィルタ28のフィルタ係数はa、
で制御される。
変皿開 有声と無声によって駆動音源を区別せず、いずれの場合
もパルス駆動音源を用いる。この場合、摩擦子音に対し
て品質が若干劣化するが、処理構成が簡単で処理量が低
減でき、ハード規模が小さくて済む、また、有声・無声
パラメータを伝送する必要がないため、毎秒60ビット
分ビットレートが低減される。
パルス駆動音源において塔形フィルタを含めない構成。
この方法では、特にピッチ周波数が低い男声音声に対し
て合成音声の自然性が若干劣化するが、塔形フィルタを
除くことによりハード規模が低減され、またフィルタ係
数の符号化に要する毎秒600ビット分、ビットレート
が低減される。
パルス振幅算出部8とベクトル量子化部9の処理を統合
してパルス振幅の量子化値を算出する構成。この方法に
よる構成を第8図に示す。周波数重み付きフィルタ50
、インパルス応答算出部51相関器52、相関器53ば
実施例1の第5図の対応するものと同じ構成である。パ
ルス振幅量子化部54では、パタンコード帳55に蓄え
られている各パルス振幅標準パタンm ct (i・1
,2.・・・、N、)について、その振幅標準パタンを
用いて合成した時の音声波形と位相等化後の入力音声波
形の平均二乗誤差を算出し、誤差が最も小さくなるパル
ス振幅標準パタンか求められる。距離計算は次式にした
がって行われる。
d=mc、Φm ci  2 m ciψここで、Φは
インパルス応答f(t)の自己共分散φ(i、j)を要
素とする行列、ψはインパルス応答と周波数重み付きフ
ィルタの出力sw(t)との相互共分散ψ(+) (+
=1.2.・・・、n、)を要素とする列ベクトルであ
る。
この第8図と第5図とでは、最適なパルス振幅を求める
のに必要な処理量はほぼ同じであるが、第8図では第5
図の処理に含まれる連立方程式の解法が不要となり、処
理構成が簡単になる。ただし、第5図ではパルス振幅の
最適値を求めた後に、これをスカラー量子化することが
可能であるのに対して、第8図では量子化法としてベク
トル量子化を使用することが前提となる。
第8図と同様な方法で、塔形フィルタの係数の算出とベ
クトル量子化を統合して、係数の量子化値を算出するこ
ともできる。
「発明の効果」 この発明による音声分析合成法の効果を調べるために、
以下の条件で分析合成音声実験をおこなった。O−4k
)lz帯域の音声を標本化周波数8 kHzで標本化し
た後、音声信号に分析窓長30m5のハミング窓を乗じ
、分析次数を12次として自己相関法による線形予測分
析を行い、12個の予測係数と有声・無声パラメータを
求める。符号化の分析フレーム長は15m5(120音
声サンプル)とする、予測係数は差分多段ベクトル量子
化法を用いて量子化する。ベクトル量子化における距離
尺度としては、周波数重み付きケプストラム距離を用い
た。ビットレートが4.8 kb/sの場合、フレーム
当たりのビット数は72ビツトであり、その内訳は次の
様になる。
パルス音源におけるパルス周期のゆらぎの許容範囲を表
す定数JとJSulm、及び許容範囲に入らない場合の
最大パルス数N、は、パルス位置の符号化に割り当てら
れるビット数によって定まる。
パルス位置を29ビツト/フレームで符号化する場合、
隣り合うパルス周期の差ΔTは5サンプル以下、そのフ
レーム内での総和は14サンプル以下となる。また、許
容範囲に入らない場合のパルスの最大個数は5となる。
写影フィルタは7次(q=r=1)のフィルタを用いた
。乱数パタンベクトルは40サンプル(5ms)からな
り、512種11R(9btt)のパタンから選択され
る。また、乱数振幅は正負の符号を含めて6ビツトで量
子化される。
上記の条件で符号化された音声は、従来のボコーダにく
らべてはるかに高い自然性をもち、その品質は原音に近
いものになっている。また、従来のボコーダにくらべて
話者に対する音声品質の依存性は小さい。また、従来の
マルチパルス予測符号化やコード励振形予測符号化とく
らべても、符号化音声に品質が明らかに高いことが確認
された。
4、8kb/sで符号化された音声のスペクトル包絡歪
みは約1dBである。符号化で生じる時間遅延は45m
5であり、低ビツトレート領域における従来の方法と同
程度以下である。
この発明の効果は、有声音に対する駆動音源信号を準周
期パルス列として表現することにより、従来のボコーダ
より音声の波形情報の再現性が高く、また従来のマルチ
パルス予測符号化より少ない情報量で駆動音源信号を表
現できることにある。
また、この駆動音源信号のパラメータを入力音声から推
定する方法として、位相等化後の音声波形に対する誤差
を評価尺度として用いているために、入力音声そのもの
に対する誤差を用いる従来方法に比べて、合成音声波形
と入力音声波形との整合度が同上し、より精度良く音源
パラメータの推定が行える効果がある。また、写影フィ
ルタは音声スペクトルの微細な特徴を再現する効果があ
り、これにより合成音声の自然性が向上する。
【図面の簡単な説明】
第1図はこの発明による分析合成法の一例を示す構成図
、第2図は位相等化分析部4の構成例を示すブロック図
、第3図は準周期パルス駆動音源信号の説明図、第4図
はパルス位置を生成する処理の流れ図、第5図はパルス
振幅算出部8の構成例を示すブロック図、第6図は写影
フィルタの説明図、第7図は写影フィルタ係数算出部1
1の構成例を示すブロック図、第8図はパルス振幅算出
部8の他の構成例を示すブロック図である。

Claims (3)

    【特許請求の範囲】
  1. (1)音声スペクトル包絡特性を表す線形フィルタと、
    それを駆動する音源信号の生成部とから構成される音声
    分析合成系において、 上記音源信号をピッチ周期のゆらぎの大きさを制限した
    準周期パルス列により表現し、 その音源信号を構成するパラメータを入力音声の位相を
    ピッチ同期的に零位相化した後の位相等化音声波形と合
    成音声波形との誤差を最小にするように決定し、 上記音源信号で上記音声スペクトル包絡特性を表す線形
    フィルタを駆動することにより音声信号を合成すること
    を特徴とする音声分析合成方法。
  2. (2)上記音源信号は有声音に対して用い、無声音に対
    しては複数個の乱数パタンから選択した乱数系列にその
    平均電力を設定したものを音源信号として使用し、かつ
    この無声音に対する音源信号を構成するパラメータを上
    記位相等化音声波形と合成音声波形との誤差を最小にす
    るように決定することに特徴とする請求項1記載の音声
    分析合成方法。
  3. (3)上記ピッチ周期のゆらぎの大きさを制限した準周
    期パルス列により表現された音源信号を、音声スペクト
    ルの微細構造を特徴づける零形フィルタに通して上記線
    形フィルタへ供給し、その零形フィルタの係数を上記位
    相等化音声波形と合成音声波形との誤差を最小にするよ
    うに決定することを特徴とする請求項1又は2記載の音
    声分析合成方法。
JP1257503A 1989-01-02 1989-10-02 音声分析合成方法 Expired - Lifetime JPH0782360B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP1257503A JPH0782360B2 (ja) 1989-10-02 1989-10-02 音声分析合成方法
CA002026640A CA2026640C (en) 1989-10-02 1990-10-01 Speech analysis-synthesis method and apparatus therefor
EP90118888A EP0421360B1 (en) 1989-10-02 1990-10-02 Speech analysis-synthesis method and apparatus therefor
DE69024899T DE69024899T2 (de) 1989-10-02 1990-10-02 Verfahren und Einrichtung zur Analyse durch Synthetisieren von Sprache
US07/939,049 US5293448A (en) 1989-10-02 1992-09-03 Speech analysis-synthesis method and apparatus therefor
US08/181,415 US5495556A (en) 1989-01-02 1994-01-14 Speech synthesizing method and apparatus therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1257503A JPH0782360B2 (ja) 1989-10-02 1989-10-02 音声分析合成方法

Publications (2)

Publication Number Publication Date
JPH03119398A true JPH03119398A (ja) 1991-05-21
JPH0782360B2 JPH0782360B2 (ja) 1995-09-06

Family

ID=17307200

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1257503A Expired - Lifetime JPH0782360B2 (ja) 1989-01-02 1989-10-02 音声分析合成方法

Country Status (4)

Country Link
EP (1) EP0421360B1 (ja)
JP (1) JPH0782360B2 (ja)
CA (1) CA2026640C (ja)
DE (1) DE69024899T2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998040877A1 (fr) * 1997-03-12 1998-09-17 Mitsubishi Denki Kabushiki Kaisha Codeur vocal, decodeur vocal, codeur/decodeur vocal, procede de codage vocal, procede de decodage vocal et procede de codage/decodage vocal
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP2011150232A (ja) * 2010-01-25 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2741744B1 (fr) * 1995-11-23 1998-01-02 Thomson Csf Procede et dispositif d'evaluation de l'energie du signal de parole par sous bande pour vocodeur bas debits
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
US7072832B1 (en) 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
CN108281150B (zh) * 2018-01-29 2020-11-17 上海泰亿格康复医疗科技股份有限公司 一种基于微分声门波模型的语音变调变嗓音方法
CN113066476A (zh) * 2019-12-13 2021-07-02 科大讯飞股份有限公司 合成语音处理方法及相关装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1998040877A1 (fr) * 1997-03-12 1998-09-17 Mitsubishi Denki Kabushiki Kaisha Codeur vocal, decodeur vocal, codeur/decodeur vocal, procede de codage vocal, procede de decodage vocal et procede de codage/decodage vocal
AU733052B2 (en) * 1997-03-12 2001-05-03 Mitsubishi Denki Kabushiki Kaisha A method and apparatus for speech encoding, speech decoding, and speech coding/decoding
US6408268B1 (en) 1997-03-12 2002-06-18 Mitsubishi Denki Kabushiki Kaisha Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
JP2009244723A (ja) * 2008-03-31 2009-10-22 Nippon Telegr & Teleph Corp <Ntt> 音声分析合成装置、音声分析合成方法、コンピュータプログラム、および記録媒体
JP2011150232A (ja) * 2010-01-25 2011-08-04 Nippon Telegr & Teleph Corp <Ntt> Lpc分析装置、lpc分析方法、音声分析合成装置、音声分析合成方法及びプログラム

Also Published As

Publication number Publication date
DE69024899D1 (de) 1996-02-29
EP0421360A2 (en) 1991-04-10
CA2026640A1 (en) 1991-04-03
JPH0782360B2 (ja) 1995-09-06
EP0421360A3 (en) 1991-12-27
CA2026640C (en) 1996-07-09
DE69024899T2 (de) 1996-07-04
EP0421360B1 (en) 1996-01-17

Similar Documents

Publication Publication Date Title
JP2002516420A (ja) 音声コーダ
JP3602593B2 (ja) 音声エンコーダ及び音声デコーダ、並びに音声符号化方法及び音声復号化方法
US5953697A (en) Gain estimation scheme for LPC vocoders with a shape index based on signal envelopes
KR20020052191A (ko) 음성 분류를 이용한 음성의 가변 비트 속도 켈프 코딩 방법
JP4040126B2 (ja) 音声復号化方法および装置
AU669788B2 (en) Method for generating a spectral noise weighting filter for use in a speech coder
JPH02249000A (ja) 音声符号化方式
JPH03119398A (ja) 音声分析合成方法
JP3531780B2 (ja) 音声符号化方法および復号化方法
JP3583945B2 (ja) 音声符号化方法
US7389226B2 (en) Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
JP3510168B2 (ja) 音声符号化方法及び音声復号化方法
JP2000235400A (ja) 音響信号符号化装置、復号化装置、これらの方法、及びプログラム記録媒体
US7512534B2 (en) Optimized windows and methods therefore for gradient-descent based window optimization for linear prediction analysis in the ITU-T G.723.1 speech coding standard
JP3481027B2 (ja) 音声符号化装置
JP3296411B2 (ja) 音声符号化方法および復号化方法
JPH05232995A (ja) 一般化された合成による分析音声符号化方法と装置
JPH05224698A (ja) ピッチサイクル波形を平滑化する方法及び装置
JPH02160300A (ja) 音声符号化方式
JPH04346400A (ja) 音声分析合成方法
JPH0339320B2 (ja)
GB2352949A (en) Speech coder for communications unit
JPH034300A (ja) 音声符号化復号化方式
JPH0377999B2 (ja)
JPH06208398A (ja) 音源波形生成方法