JP2615856B2

JP2615856B2 - 音声合成方法とその装置

Info

Publication number: JP2615856B2
Application number: JP63136969A
Authority: JP
Inventors: 一範小澤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-06-02
Filing date: 1988-06-02
Publication date: 1997-06-04
Anticipated expiration: 2012-06-04
Also published as: JPH01304499A

Description

【発明の詳細な説明】〔産業上の利用分野〕本発明は、音源信号とスペクトルパラメータを格納
し、音源信号の韻律（ピッチ，振幅，時間長など）を制
御し、この音源信号を用いて合成フィルタを駆動して音
声を合成する音声合成方法とその装置に関する。

〔従来の技術〕

任意後音声合成の方法として、線形予測分析等を用い
て得られた予測残差信号の一部を音源信号として用い、
この音源信号により線形予測係数から構成される合成フ
ィルタを駆動して音声を合成する方式が知られている。
この方法は例えば、佐藤氏による“CVCと音源要素にも
とづく（SYMPLE）音声合成”（日本音響学会音声研究会
資料 S83−69,1984年）と題した論文（文献１）に詳細
に記載されている。文献１の方法においては、無声音区
間では元の音声から線形予測分析して得られた予測残差
信号を音源信号として用い、有声音区間では母音区間の
代表的な１ピッチ周期区間から切り出した予測残差信号
を有声音区間の音源として使用して、合成フィルタを駆
動して音声を合成している。この方法では、音源として
有声音区間ではインパルス列を、無声音区間では雑音信
号を用いる方法と比べて音質が改善されるとしている。

〔発明が解決しようとする課題〕

音声合成、特に任意語合成では、単位音声を接続して
音声に合成するわけであるが、人間が発話の際に行って
いるような自然な抑揚をつけるために、韻律情報あるい
は韻律規則に従い、音声信号あるいは音源信号のピッチ
周期を変化させる必要がある。しかるに上記文献１の方
法では、有声区間の音源である残差信号のピッチ周期を
変化させたときに、合成フィルタの係数を分析した元の
音声のピッチ周期と合成すべき音声のピッチ周期が異な
るので、残差信号の変更したピッチと合成フィルタのス
ペクトル包絡とでミスマッチングが発生して合成音声の
スペクトルが大きく歪むため、合成音声が大きく歪んだ
り明瞭度が大幅に低下するという大きな問題点があっ
た。また、この問題点は、ピッチ周期の短い女声話者に
おいてピッチ周期を大きく変化させたときに特に顕著で
あった。

この問題点については、スペクトル包絡の低域のホル
マントのピークを、合成するときのピッチ周波数の位置
に一致させるようにピーク位置をずらすことによりある
程度改善する方法が知られており、具体的には例えば、
匂坂氏らによるピッチ構造を考慮したスペクトル包絡の
合成法”（日本音響学会講演論文集 501−502頁,1979
年10月）と題した論文（文献２）を参照できる。しかし
ながら上記文献２の方法では、ホルマントのピーク位置
を、変更したピッチ周波数の位置にずらしてしまうの
で、本質的に改善法とは言えず、ホルマント位置の移動
によって明瞭性および音質が劣化するという問題点が新
たに発生していた。

さらに、上記文献１の方法では、母音区間では、同一
母音区間の代表的な１ピッチ区間の予測残差信号を基本
的には繰り返して使用しているので、母音区間での残差
信号のスペクトルおよび位相の時間的な変化を十分に表
すことができず、母音区間で音質が劣化していた。

本発明の目的は、音源信号のピッチ周期を変化させて
合成フィルタを駆動して音声を合成する際に、従来の問
題点を改善するのみならず、母音区間でも良好な音質の
得られる音声合成方法とその装置を提供することにあ
る。

〔課題を解決するための手段〕

本発明によれば、音源信号とスペクトルパラメータと
を単位音声について格納し、前記音源信号の韻律を制御
しながら前記スペクトルパラメータを用いて音声を合成
し、この音声合成に用いた前記スペクトルパラメータと
フィルタにより前記合成音声から抽出したスペクトルパ
ラメータとを用いて前記合成音声のスペクトルを補正す
ることを特徴とする音声合成方法が得られる。

また、本発明によれば、単位音声毎に音源信号を格納
する音源信号格納回路と、前記単位音声毎にスペクトル
特性を表すスペクトルパラメータを格納するスペクトル
パラメータ格納回路と、前記音源信号の韻律を制御する
韻律制御回路と、前記韻律を制御された音源信号と前記
スペクトルパラメータとを用いて音声を合成する合成回
路と、前記スペクトルパラメータと前記合成音声から求
めたスペクトルパラメータとを用い前記合成音声のスペ
クトルを補正するフィルタ回路とを備えることを特徴と
する音声合成装置が得られる。

〔作用〕

本発明は、音源信号を単位音声区間では、有音声，無
音声を問わず全区間に対して有するとともに、音源信号
のピッチを変化させて音声を合成したときに、スペクト
ルの歪を補正するための補正用フィルタを用いることを
特徴とする。

第２図は本発明の作用を示すブロック図で、音源信号
記憶部110は単位音声（例えばCV,VCなど）毎に音声信号
を分析して音源信号を求め、この音源信号を単位音声毎
に記憶しておく。また分析して求めたスペクトルパラメ
ータ（次数M₁）をスペクトルパラメータ記憶部350に格
納しておく。ここでは、分析法としては周知の線形予測
分析を用い、音源信号として線形予測分析して得られた
予測残差信号を用いるものとして説明を進める。ただ
し、スペクトルパラメータ，音源信号としては、周知の
他の良好なものを用いることもできる。また、予測残差
信号の母音区間では、各ピッチ毎の開始位置も格納して
おく。スペクトルパラメータとしては線形予測パラメー
タとして種種のものが考えられるが、ここではLPCパラ
メータを用いることにする。これ以外にもLSP,PARCOR,
ホルマントなど、他の周知のパラメータを用いることが
できる。分析は、あらかじめ定められた固定長フレーム
（５あるいは10ms）でもよいし、母音区間ではピッチ周
期に同期したピッチ同期分析を用いることもできる。

また、音源信号記憶部110は端子100から入力した制御
情報にもとづき、必要な単位音声を選択してこれに対応
する予測残差信号を出力する。

ピッチ制御部150では上記制御情報のうちピッチを変
化させるための情報を用いて、母音区間では上記ピッチ
の開始位置にもとづいてピッチ区間毎に残差信号のピッ
チの伸縮を行う。具体的な方法については、上記文献１
に記載されているように、ピッチ周期を長くするときは
ピッチ区間の後ろに零を詰め、ピッチ周期を短くすると
きはピッチ区間の後ろからサンプルを切り詰める。また
母音区間の時間長は上記制御情報により指定された時間
長を用いてピッチ単位で調整する。

スペクトルパラメータ記憶部350は、あらかじめ線形
予測分析により求めたLPCパラメータを各単位音声につ
いて記憶しておく。そして上記制御情報に従い、単位音
声を選択しこれに対応するLPCパラメータa_i（次数M₁）
を出力する。

合成フィルタ200は下式の伝達特性を持ちピッチを変化させた予測残差信号とLPCパラメータとを
用いて合成した合成音声ｘ（ｎ）を出力する。

補正用スペクトルパラメータ計算部300はLPCパラメー
タa_iと合成音声ｘ（ｎ）を用いて、ピッチを変化させた
ときに合成音声に発生するスペクトル歪を補正するため
の補正用スペクトルパラメータb_iを計算する。具体的に
は以下のように行う。

まず、LPCパラメータa_iを用いて以下のパワスペクト
ルH²（ｚ）を計算する。

次に、合成音声ｘ（ｎ）の有声区間について、あらか
じめ定められた区間長毎に、あるいはピッチ同期にLPC
分析を行い、スペクトルパラメータa_i′（次数M₂）を計
算し、これを用いて以下のパワスペクトルF²（ｚ）を計
算する。

次に、（１）式と（２）式の比を以下のように求め
る。

そして、（３）式を逆フーリエ変換して自己相関関数
Ｒ（ｍ）を求め、Ｒ（ｍ）からLPC分析により補正用ス
ペクトルパラメータb_i（次数_３）を計算する。なお、
（１），（２）式はフーリエ変換を用いて計算すること
ができる。

補正用フィルタ250は以下の伝達特性Ｑ（ｚ）を持
ち、合成音声ｘ（ｎ）を入力し、補正用スペクトルパラメー
タb_iを用いて、スペクトル歪を補正した合成音声ｘ′
（ｎ）を端子360へ出力する。

〔実施例〕

次に本発明について第１図を参照して詳細に説明す
る。

第１図は本発明の一実施例の構成を示すブロック図で
ある。制御回路510は端子500から韻律制御（ピッチ，時
間長，振幅）情報，単位音声の接続情報を入力し、音源
記憶回路550,スペクトルパラメータ記憶回路580,ピッチ
制御回路560,振幅制御回路570へ出力する。音源記憶回
路550は単位音声の接続情報を入力し、その単位音声に
対応する予測残差信号を出力する。ピッチ制御回路560
はピッチ制御情報を入力し、母音区間においてあらかじ
め指定されているピッチ分割位置を用いて予測残差信号
のピッチの変更を行う。ピッチを変更するための具体的
な方法は、上記作用の項で説明した方法や他の周知を方
法を用いることができる。

次に、振幅制御回路570は振幅制御情報を入力し、そ
れに従って予測残差信号の振幅を制御して予測残差信号
ｅ（ｎ）を出力する。スペクトルパラメータ記憶回路58
0は単位音声の接続情報を入力し、その単位音声に対応
するスペクトルパラメータ系列を出力する。ここでは、
上記作用の項と同様にスペクトルパラメータとして、LP
C係数a_iを用いることにするが、他の周知のパラメータ
を用いることができる。

合成フィルタ回路600は（１）式の特性を有してお
り、ピッチ変更した予測残差信号を入力してLPC係数a_i
を用いて次式に従い合成音声ｘ（ｎ）を計算する。

振幅制御回路710は合成音声ｘ（ｎ）にゲインＧをか
けて出力する。ゲインＧはゲイン計算回路700から入力
する。なお、ゲイン計算回路700の動作は後述する。

FFT計算回路610はLPC係数a_iを入力し、あらかじめ定
められた点数（例えば256点）のFFT（高速フーリエ変
換）を行い、（２）式で定義したパワスペクトルH
₂（ｚ）を計算して出力する。なお、FFTの計算法は、例
えばOppenheim氏らによる“Digital Signal Processin
g"（Prentice−Hall,1975年）と題した単行本の第６章
（文献３）に記載されているのでここでは説明を省略す
る。

LPC分析回路640はピッチ周期を変更して得た合成音声
ｘ（ｎ）の母音区間においてLPC分析を行い、LPC係数
a_i′を計算する。このとき、上記作用の項で述べたよう
に、LPC分析をピッチ同期で行ってもよいし、固定長フ
レーム区間毎に行ってもよい。FFT計算回路630は係数
a_i′を入力し、（３）式で定めたパワステクトルF
²（ｚ）を計算し出力する。

補正用スペクトルパラメータ計算回路620はパワース
ペクトルH²（ｚ）,F²（ｚ）を用いて、（４）式に従い
比G²（ｚ）を計算する。さらに、これを逆FFTして自己
相関関数Ｒ（ｍ）を求め、LPC分析してLPC係数b_iを求め
る。

補正用フイルタ650は係数b_iを用い振幅制御回路710の
出力を入力して、スペクトル歪を補正した合成音声ｘ′
（ｎ）を下式に従い計算する。

（７）式でＧ・ｘ（ｎ）は補正用フィルタ650の入力
信号を示す。

ゲイン計算回路700はピッチ変化させた区間で、合成
音声ｘ（ｎ）とｘ′（ｎ）のピッチ毎の平均電力を等し
くするためのゲインＧを計算する。これは、補正用フィ
ルタ650のゲインが１ではないからである。具体的に
は、ピッチが変化させた区間で、ピッチ毎に合成音声ｘ
（ｎ）とｘ′（ｎ）の平均電力を下式に従い計算する。

ここでＮはピッチ区間のサンプル数を示す。そしてゲ
インＧを下式から求める。

このゲインＧがかけられた最終的な合成音声信号ｘ′
（ｎ）は端子660を通して出力される。

上記実施例は、あくまでも本発明の一構成例にすぎ
ず、種種の変形も可能である。

すなわち、本実施例では単位音声の全区間について、
音源信号として線形予測分析して得られた予測残差信号
を用いたが、演算量，メモリ量の低減のために、有声区
間、特に母音区間では代表的な１ピッチ区間の予測残差
信号を用いて、これの振幅，ピッチを制御しながら繰り
返して用いてもよい。

また、音源信号としては、線形予測分析して得られる
予測残差信号のみならず、他の良好な音源信号、例えば
零位相化信号，位相等化信号，マルチパルス音源などを
用いることができる。

また、スペクトルパラメータとしては、LPC以外に他
の良好なスペクトルパラメータ、例えばLSP,ホルマン
ト，ケプストラムなどを用いることができる。

また、補正用フィルタのスペクトルパラメータもLPC
以外に、他の良好なパラメータ、例えばLSP,ホルマン
ト，ケプストラムなどを用いることができる。

また、補正用フィルタの構成としては、（５）式で示
したような全極形フィルタを用いたが、極−零形フィル
タやFIRフィルタを用いる構成としてもよい。ただしこ
のようにすると演算量がかなり増大する。

また、演算量低減化のために、振幅制御回路710,ゲイ
ン計算回路700を省略することもできる。ただしこのよ
うにすると合成音声ｘ′（ｎ）のレベルが多少変化する
おそれがある。

また、振幅制御回路570は残差信号のパワを制御する
のではなく、ゲイン計算回路700,振幅制御回路710と同
一の構成とし、合成音声ｘ（ｎ）のパワを制御するよう
にしてもよい。ただしこのときは、制御路510から入力
する制御信号は残差信号のピッチ毎の単位パワではな
く、合成音声のピッチ毎の単位パワとする必要がある。

また、本実施例では韻律制御情報を端子500を通して
入力する構成としたが、韻律制御に関しては、アクセン
ト情報，イントネーション情報を入力して、規則により
韻律制御情報を発生するようにしてもよい。

また、演算量低減のために、補正用フィルタの計算は
ピッチ制御回路560においてピッチの変化が大きいとき
にのみ計算するような構成としてもよい。

〔発明の効果〕

以上説明したように本発明によれば、単位音声のすべ
ての区間について音源信号とスペクトルパラメータを有
しており、これらを用いて音声を合成しているので、子
音区間のみならず、従来音質が劣化していた母音区間で
も良好な音質の合成音を得ることができるという大きな
効果が得られる。また、本発明によれば、音源信号のピ
ッチ周期をあらかじめ分析して格納しておいた音源信号
のピッチ周期に比べ大きく変化させて合成しても、それ
により発生するスペクトル歪を補正することが可能であ
るので、音質劣化のほとんどない音声を合成することが
できるという効果が得られる。またこの効果は、ピッチ
周期の短い女性話者について特に顕著である。

【図面の簡単な説明】

第１図は本発明の一実施例の構成を示すブロック図、第
２図は本発明の作用を示すブロック図である。 110……音源信号記憶部、150……ピッチ制御部、200,60
0……合成フィルタ、250,650……補正用フィルタ、300
……補正用スペクトルパラメータ計算部、350……スペ
クトルパラメータ記憶部、510……制御回路、550……音
源記憶回路、560……ピッチ制御回路、570,710……振幅
制御回路、580……スペクトルパラメータ記憶回路、61
0,630……FFT計算回路、620……補正用スペクトルパラ
メータ計算回路、640……LPC分析回路、700……ゲイン
計算回路。

Claims

(57)【特許請求の範囲】

【請求項１】音源信号とスペクトルパラメータとを単位
音声について格納し、前記音源信号の韻律を制御しなが
ら前記スペクトルパラメータを用いて音声を合成し、こ
の音声合成に用いた前記スペクトルパラメータとフィル
タにより前記合成音声から抽出したスペクトルパラメー
タとを用いて前記合成音声のスペクトルを補正すること
を特徴とする音声合成方法。
【請求項２】単位音声毎に音源信号を格納する音源信号
格納回路と、前記単位音声毎にスペクトル特性を表すス
ペクトルパラメータを格納するスペクトルパラメータ格
納回路と、前記音源信号の韻律を制御する韻律制御回路
と、前記韻律を制御された音源信号と前記スペクトルパ
ラメータとを用いて音声を合成する合成回路と、前記ス
ペクトルパラメータと前記合成音声から求めたスペクト
ルパラメータとを用い前記合成音声のスペクトルを補正
するフィルタ回路とを備えることを特徴とする音声合成
装置。