JP2615856B2 - 音声合成方法とその装置 - Google Patents

音声合成方法とその装置

Info

Publication number
JP2615856B2
JP2615856B2 JP63136969A JP13696988A JP2615856B2 JP 2615856 B2 JP2615856 B2 JP 2615856B2 JP 63136969 A JP63136969 A JP 63136969A JP 13696988 A JP13696988 A JP 13696988A JP 2615856 B2 JP2615856 B2 JP 2615856B2
Authority
JP
Japan
Prior art keywords
sound source
pitch
spectrum parameter
speech
source signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP63136969A
Other languages
English (en)
Other versions
JPH01304499A (ja
Inventor
一範 小澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP63136969A priority Critical patent/JP2615856B2/ja
Priority to US07/358,104 priority patent/US5029211A/en
Publication of JPH01304499A publication Critical patent/JPH01304499A/ja
Application granted granted Critical
Publication of JP2615856B2 publication Critical patent/JP2615856B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、音源信号とスペクトルパラメータを格納
し、音源信号の韻律(ピッチ,振幅,時間長など)を制
御し、この音源信号を用いて合成フィルタを駆動して音
声を合成する音声合成方法とその装置に関する。
〔従来の技術〕
任意後音声合成の方法として、線形予測分析等を用い
て得られた予測残差信号の一部を音源信号として用い、
この音源信号により線形予測係数から構成される合成フ
ィルタを駆動して音声を合成する方式が知られている。
この方法は例えば、佐藤氏による“CVCと音源要素にも
とづく(SYMPLE)音声合成”(日本音響学会音声研究会
資料 S83−69,1984年)と題した論文(文献1)に詳細
に記載されている。文献1の方法においては、無声音区
間では元の音声から線形予測分析して得られた予測残差
信号を音源信号として用い、有声音区間では母音区間の
代表的な1ピッチ周期区間から切り出した予測残差信号
を有声音区間の音源として使用して、合成フィルタを駆
動して音声を合成している。この方法では、音源として
有声音区間ではインパルス列を、無声音区間では雑音信
号を用いる方法と比べて音質が改善されるとしている。
〔発明が解決しようとする課題〕
音声合成、特に任意語合成では、単位音声を接続して
音声に合成するわけであるが、人間が発話の際に行って
いるような自然な抑揚をつけるために、韻律情報あるい
は韻律規則に従い、音声信号あるいは音源信号のピッチ
周期を変化させる必要がある。しかるに上記文献1の方
法では、有声区間の音源である残差信号のピッチ周期を
変化させたときに、合成フィルタの係数を分析した元の
音声のピッチ周期と合成すべき音声のピッチ周期が異な
るので、残差信号の変更したピッチと合成フィルタのス
ペクトル包絡とでミスマッチングが発生して合成音声の
スペクトルが大きく歪むため、合成音声が大きく歪んだ
り明瞭度が大幅に低下するという大きな問題点があっ
た。また、この問題点は、ピッチ周期の短い女声話者に
おいてピッチ周期を大きく変化させたときに特に顕著で
あった。
この問題点については、スペクトル包絡の低域のホル
マントのピークを、合成するときのピッチ周波数の位置
に一致させるようにピーク位置をずらすことによりある
程度改善する方法が知られており、具体的には例えば、
匂坂氏らによるピッチ構造を考慮したスペクトル包絡の
合成法”(日本音響学会講演論文集 501−502頁,1979
年10月)と題した論文(文献2)を参照できる。しかし
ながら上記文献2の方法では、ホルマントのピーク位置
を、変更したピッチ周波数の位置にずらしてしまうの
で、本質的に改善法とは言えず、ホルマント位置の移動
によって明瞭性および音質が劣化するという問題点が新
たに発生していた。
さらに、上記文献1の方法では、母音区間では、同一
母音区間の代表的な1ピッチ区間の予測残差信号を基本
的には繰り返して使用しているので、母音区間での残差
信号のスペクトルおよび位相の時間的な変化を十分に表
すことができず、母音区間で音質が劣化していた。
本発明の目的は、音源信号のピッチ周期を変化させて
合成フィルタを駆動して音声を合成する際に、従来の問
題点を改善するのみならず、母音区間でも良好な音質の
得られる音声合成方法とその装置を提供することにあ
る。
〔課題を解決するための手段〕
本発明によれば、音源信号とスペクトルパラメータと
を単位音声について格納し、前記音源信号の韻律を制御
しながら前記スペクトルパラメータを用いて音声を合成
し、この音声合成に用いた前記スペクトルパラメータと
フィルタにより前記合成音声から抽出したスペクトルパ
ラメータとを用いて前記合成音声のスペクトルを補正す
ることを特徴とする音声合成方法が得られる。
また、本発明によれば、単位音声毎に音源信号を格納
する音源信号格納回路と、前記単位音声毎にスペクトル
特性を表すスペクトルパラメータを格納するスペクトル
パラメータ格納回路と、前記音源信号の韻律を制御する
韻律制御回路と、前記韻律を制御された音源信号と前記
スペクトルパラメータとを用いて音声を合成する合成回
路と、前記スペクトルパラメータと前記合成音声から求
めたスペクトルパラメータとを用い前記合成音声のスペ
クトルを補正するフィルタ回路とを備えることを特徴と
する音声合成装置が得られる。
〔作用〕
本発明は、音源信号を単位音声区間では、有音声,無
音声を問わず全区間に対して有するとともに、音源信号
のピッチを変化させて音声を合成したときに、スペクト
ルの歪を補正するための補正用フィルタを用いることを
特徴とする。
第2図は本発明の作用を示すブロック図で、音源信号
記憶部110は単位音声(例えばCV,VCなど)毎に音声信号
を分析して音源信号を求め、この音源信号を単位音声毎
に記憶しておく。また分析して求めたスペクトルパラメ
ータ(次数M1)をスペクトルパラメータ記憶部350に格
納しておく。ここでは、分析法としては周知の線形予測
分析を用い、音源信号として線形予測分析して得られた
予測残差信号を用いるものとして説明を進める。ただ
し、スペクトルパラメータ,音源信号としては、周知の
他の良好なものを用いることもできる。また、予測残差
信号の母音区間では、各ピッチ毎の開始位置も格納して
おく。スペクトルパラメータとしては線形予測パラメー
タとして種種のものが考えられるが、ここではLPCパラ
メータを用いることにする。これ以外にもLSP,PARCOR,
ホルマントなど、他の周知のパラメータを用いることが
できる。分析は、あらかじめ定められた固定長フレーム
(5あるいは10ms)でもよいし、母音区間ではピッチ周
期に同期したピッチ同期分析を用いることもできる。
また、音源信号記憶部110は端子100から入力した制御
情報にもとづき、必要な単位音声を選択してこれに対応
する予測残差信号を出力する。
ピッチ制御部150では上記制御情報のうちピッチを変
化させるための情報を用いて、母音区間では上記ピッチ
の開始位置にもとづいてピッチ区間毎に残差信号のピッ
チの伸縮を行う。具体的な方法については、上記文献1
に記載されているように、ピッチ周期を長くするときは
ピッチ区間の後ろに零を詰め、ピッチ周期を短くすると
きはピッチ区間の後ろからサンプルを切り詰める。また
母音区間の時間長は上記制御情報により指定された時間
長を用いてピッチ単位で調整する。
スペクトルパラメータ記憶部350は、あらかじめ線形
予測分析により求めたLPCパラメータを各単位音声につ
いて記憶しておく。そして上記制御情報に従い、単位音
声を選択しこれに対応するLPCパラメータai(次数M1
を出力する。
合成フィルタ200は下式の伝達特性を持ち ピッチを変化させた予測残差信号とLPCパラメータとを
用いて合成した合成音声x(n)を出力する。
補正用スペクトルパラメータ計算部300はLPCパラメー
タaiと合成音声x(n)を用いて、ピッチを変化させた
ときに合成音声に発生するスペクトル歪を補正するため
の補正用スペクトルパラメータbiを計算する。具体的に
は以下のように行う。
まず、LPCパラメータaiを用いて以下のパワスペクト
ルH2(z)を計算する。
次に、合成音声x(n)の有声区間について、あらか
じめ定められた区間長毎に、あるいはピッチ同期にLPC
分析を行い、スペクトルパラメータai′(次数M2)を計
算し、これを用いて以下のパワスペクトルF2(z)を計
算する。
次に、(1)式と(2)式の比を以下のように求め
る。
そして、(3)式を逆フーリエ変換して自己相関関数
R(m)を求め、R(m)からLPC分析により補正用ス
ペクトルパラメータbi(次数)を計算する。なお、
(1),(2)式はフーリエ変換を用いて計算すること
ができる。
補正用フィルタ250は以下の伝達特性Q(z)を持
ち、 合成音声x(n)を入力し、補正用スペクトルパラメー
タbiを用いて、スペクトル歪を補正した合成音声x′
(n)を端子360へ出力する。
〔実施例〕
次に本発明について第1図を参照して詳細に説明す
る。
第1図は本発明の一実施例の構成を示すブロック図で
ある。制御回路510は端子500から韻律制御(ピッチ,時
間長,振幅)情報,単位音声の接続情報を入力し、音源
記憶回路550,スペクトルパラメータ記憶回路580,ピッチ
制御回路560,振幅制御回路570へ出力する。音源記憶回
路550は単位音声の接続情報を入力し、その単位音声に
対応する予測残差信号を出力する。ピッチ制御回路560
はピッチ制御情報を入力し、母音区間においてあらかじ
め指定されているピッチ分割位置を用いて予測残差信号
のピッチの変更を行う。ピッチを変更するための具体的
な方法は、上記作用の項で説明した方法や他の周知を方
法を用いることができる。
次に、振幅制御回路570は振幅制御情報を入力し、そ
れに従って予測残差信号の振幅を制御して予測残差信号
e(n)を出力する。スペクトルパラメータ記憶回路58
0は単位音声の接続情報を入力し、その単位音声に対応
するスペクトルパラメータ系列を出力する。ここでは、
上記作用の項と同様にスペクトルパラメータとして、LP
C係数aiを用いることにするが、他の周知のパラメータ
を用いることができる。
合成フィルタ回路600は(1)式の特性を有してお
り、ピッチ変更した予測残差信号を入力してLPC係数ai
を用いて次式に従い合成音声x(n)を計算する。
振幅制御回路710は合成音声x(n)にゲインGをか
けて出力する。ゲインGはゲイン計算回路700から入力
する。なお、ゲイン計算回路700の動作は後述する。
FFT計算回路610はLPC係数aiを入力し、あらかじめ定
められた点数(例えば256点)のFFT(高速フーリエ変
換)を行い、(2)式で定義したパワスペクトルH
2(z)を計算して出力する。なお、FFTの計算法は、例
えばOppenheim氏らによる“Digital Signal Processin
g"(Prentice−Hall,1975年)と題した単行本の第6章
(文献3)に記載されているのでここでは説明を省略す
る。
LPC分析回路640はピッチ周期を変更して得た合成音声
x(n)の母音区間においてLPC分析を行い、LPC係数
ai′を計算する。このとき、上記作用の項で述べたよう
に、LPC分析をピッチ同期で行ってもよいし、固定長フ
レーム区間毎に行ってもよい。FFT計算回路630は係数
ai′を入力し、(3)式で定めたパワステクトルF
2(z)を計算し出力する。
補正用スペクトルパラメータ計算回路620はパワース
ペクトルH2(z),F2(z)を用いて、(4)式に従い
比G2(z)を計算する。さらに、これを逆FFTして自己
相関関数R(m)を求め、LPC分析してLPC係数biを求め
る。
補正用フイルタ650は係数biを用い振幅制御回路710の
出力を入力して、スペクトル歪を補正した合成音声x′
(n)を下式に従い計算する。
(7)式でG・x(n)は補正用フィルタ650の入力
信号を示す。
ゲイン計算回路700はピッチ変化させた区間で、合成
音声x(n)とx′(n)のピッチ毎の平均電力を等し
くするためのゲインGを計算する。これは、補正用フィ
ルタ650のゲインが1ではないからである。具体的に
は、ピッチが変化させた区間で、ピッチ毎に合成音声x
(n)とx′(n)の平均電力を下式に従い計算する。
ここでNはピッチ区間のサンプル数を示す。そしてゲ
インGを下式から求める。
このゲインGがかけられた最終的な合成音声信号x′
(n)は端子660を通して出力される。
上記実施例は、あくまでも本発明の一構成例にすぎ
ず、種種の変形も可能である。
すなわち、本実施例では単位音声の全区間について、
音源信号として線形予測分析して得られた予測残差信号
を用いたが、演算量,メモリ量の低減のために、有声区
間、特に母音区間では代表的な1ピッチ区間の予測残差
信号を用いて、これの振幅,ピッチを制御しながら繰り
返して用いてもよい。
また、音源信号としては、線形予測分析して得られる
予測残差信号のみならず、他の良好な音源信号、例えば
零位相化信号,位相等化信号,マルチパルス音源などを
用いることができる。
また、スペクトルパラメータとしては、LPC以外に他
の良好なスペクトルパラメータ、例えばLSP,ホルマン
ト,ケプストラムなどを用いることができる。
また、補正用フィルタのスペクトルパラメータもLPC
以外に、他の良好なパラメータ、例えばLSP,ホルマン
ト,ケプストラムなどを用いることができる。
また、補正用フィルタの構成としては、(5)式で示
したような全極形フィルタを用いたが、極−零形フィル
タやFIRフィルタを用いる構成としてもよい。ただしこ
のようにすると演算量がかなり増大する。
また、演算量低減化のために、振幅制御回路710,ゲイ
ン計算回路700を省略することもできる。ただしこのよ
うにすると合成音声x′(n)のレベルが多少変化する
おそれがある。
また、振幅制御回路570は残差信号のパワを制御する
のではなく、ゲイン計算回路700,振幅制御回路710と同
一の構成とし、合成音声x(n)のパワを制御するよう
にしてもよい。ただしこのときは、制御路510から入力
する制御信号は残差信号のピッチ毎の単位パワではな
く、合成音声のピッチ毎の単位パワとする必要がある。
また、本実施例では韻律制御情報を端子500を通して
入力する構成としたが、韻律制御に関しては、アクセン
ト情報,イントネーション情報を入力して、規則により
韻律制御情報を発生するようにしてもよい。
また、演算量低減のために、補正用フィルタの計算は
ピッチ制御回路560においてピッチの変化が大きいとき
にのみ計算するような構成としてもよい。
〔発明の効果〕
以上説明したように本発明によれば、単位音声のすべ
ての区間について音源信号とスペクトルパラメータを有
しており、これらを用いて音声を合成しているので、子
音区間のみならず、従来音質が劣化していた母音区間で
も良好な音質の合成音を得ることができるという大きな
効果が得られる。また、本発明によれば、音源信号のピ
ッチ周期をあらかじめ分析して格納しておいた音源信号
のピッチ周期に比べ大きく変化させて合成しても、それ
により発生するスペクトル歪を補正することが可能であ
るので、音質劣化のほとんどない音声を合成することが
できるという効果が得られる。またこの効果は、ピッチ
周期の短い女性話者について特に顕著である。
【図面の簡単な説明】
第1図は本発明の一実施例の構成を示すブロック図、第
2図は本発明の作用を示すブロック図である。 110……音源信号記憶部、150……ピッチ制御部、200,60
0……合成フィルタ、250,650……補正用フィルタ、300
……補正用スペクトルパラメータ計算部、350……スペ
クトルパラメータ記憶部、510……制御回路、550……音
源記憶回路、560……ピッチ制御回路、570,710……振幅
制御回路、580……スペクトルパラメータ記憶回路、61
0,630……FFT計算回路、620……補正用スペクトルパラ
メータ計算回路、640……LPC分析回路、700……ゲイン
計算回路。

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】音源信号とスペクトルパラメータとを単位
    音声について格納し、前記音源信号の韻律を制御しなが
    ら前記スペクトルパラメータを用いて音声を合成し、こ
    の音声合成に用いた前記スペクトルパラメータとフィル
    タにより前記合成音声から抽出したスペクトルパラメー
    タとを用いて前記合成音声のスペクトルを補正すること
    を特徴とする音声合成方法。
  2. 【請求項2】単位音声毎に音源信号を格納する音源信号
    格納回路と、前記単位音声毎にスペクトル特性を表すス
    ペクトルパラメータを格納するスペクトルパラメータ格
    納回路と、前記音源信号の韻律を制御する韻律制御回路
    と、前記韻律を制御された音源信号と前記スペクトルパ
    ラメータとを用いて音声を合成する合成回路と、前記ス
    ペクトルパラメータと前記合成音声から求めたスペクト
    ルパラメータとを用い前記合成音声のスペクトルを補正
    するフィルタ回路とを備えることを特徴とする音声合成
    装置。
JP63136969A 1988-05-30 1988-06-02 音声合成方法とその装置 Expired - Lifetime JP2615856B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP63136969A JP2615856B2 (ja) 1988-06-02 1988-06-02 音声合成方法とその装置
US07/358,104 US5029211A (en) 1988-05-30 1989-05-30 Speech analysis and synthesis system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63136969A JP2615856B2 (ja) 1988-06-02 1988-06-02 音声合成方法とその装置

Publications (2)

Publication Number Publication Date
JPH01304499A JPH01304499A (ja) 1989-12-08
JP2615856B2 true JP2615856B2 (ja) 1997-06-04

Family

ID=15187715

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63136969A Expired - Lifetime JP2615856B2 (ja) 1988-05-30 1988-06-02 音声合成方法とその装置

Country Status (1)

Country Link
JP (1) JP2615856B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
JP4757130B2 (ja) * 2006-07-20 2011-08-24 富士通株式会社 ピッチ変換方法及び装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6239753A (ja) * 1985-08-15 1987-02-20 Shimadzu Corp フロ−分析装置
JPS62179800U (ja) * 1987-05-07 1987-11-14

Also Published As

Publication number Publication date
JPH01304499A (ja) 1989-12-08

Similar Documents

Publication Publication Date Title
US5029211A (en) Speech analysis and synthesis system
JP3294604B2 (ja) 波形の加算重畳による音声合成のための処理装置
US7016841B2 (en) Singing voice synthesizing apparatus, singing voice synthesizing method, and program for realizing singing voice synthesizing method
JP6024191B2 (ja) 音声合成装置および音声合成方法
JPH06110498A (ja) 音声合成システムの音声断片コーディングおよびそのピッチ調節方法とその有声音合成装置
JPH10124088A (ja) 音声帯域幅拡張装置及び方法
US5987413A (en) Envelope-invariant analytical speech resynthesis using periodic signals derived from reharmonized frame spectrum
JPH086592A (ja) 音声合成方法及び装置
JP3430985B2 (ja) 合成音生成装置
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP2000515992A (ja) 言語コーディング
US7596497B2 (en) Speech synthesis apparatus and speech synthesis method
JPH075899A (ja) パルス励振による解析−合成技術を採用した音声符号器
JP2600384B2 (ja) 音声合成方法
JP2904279B2 (ja) 音声合成方法および装置
JP2615856B2 (ja) 音声合成方法とその装置
Violaro et al. A hybrid model for text-to-speech synthesis
JP2612867B2 (ja) 音声ピッチ変換方法
JP3197975B2 (ja) ピッチ制御方法及び装置
JP3063088B2 (ja) 音声分析合成装置、音声分析装置及び音声合成装置
JPH09510554A (ja) 言語合成
JPH01304500A (ja) 音声合成方式とその装置
Fries Hybrid time-and frequency-domain speech synthesis with extended glottal source generation
JP3317458B2 (ja) 音声合成方法
JPH056191A (ja) 音声合成装置