JPH09258796A - 音声合成方法 - Google Patents

音声合成方法

Info

Publication number
JPH09258796A
JPH09258796A JP8068785A JP6878596A JPH09258796A JP H09258796 A JPH09258796 A JP H09258796A JP 8068785 A JP8068785 A JP 8068785A JP 6878596 A JP6878596 A JP 6878596A JP H09258796 A JPH09258796 A JP H09258796A
Authority
JP
Japan
Prior art keywords
pitch waveform
voice
signal
speech
residual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8068785A
Other languages
English (en)
Inventor
Takehiko Kagoshima
岳彦 籠嶋
Masami Akamine
政巳 赤嶺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP8068785A priority Critical patent/JPH09258796A/ja
Priority to US08/758,772 priority patent/US6240384B1/en
Publication of JPH09258796A publication Critical patent/JPH09258796A/ja
Priority to US09/722,047 priority patent/US6332121B1/en
Priority to US09/984,254 priority patent/US6553343B1/en
Priority to US10/265,458 priority patent/US6760703B2/en
Priority to US10/792,888 priority patent/US7184958B2/en
Pending legal-status Critical Current

Links

Landscapes

  • Electrophonic Musical Instruments (AREA)

Abstract

(57)【要約】 【課題】基本周波数の変更によるスペクトル歪みの小さ
い合成音声を得ることができる音声合成方法を提供す
る。 【解決手段】参照音声信号101から生成される残差ピ
ッチ波形302と参照音声信号101から抽出されるL
PC係数113を記憶しておき、有声区間においては残
差ピッチ波形108を用いて有声音源信号106を生成
し、無声区間においては無声音源信号105を生成し
て、有声音源信号106または無声音源信号105によ
りLPC係数110を係数とする声道フィルタ15を駆
動して合成音声信号109を生成する音声合成方法にお
いて、参照音声信号101より抽出される代表的な音声
ピッチ波形301に対して、参照音声信号101のLP
C分析で得られたLPC係数113に従って逆フィルタ
部33でフィルタリングを行い、残差ピッチ波形302
を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト音声合成
に適した音声合成方法に係り、特に音韻記号列、ピッチ
および音韻継続時間長などの情報から音声信号を生成す
る音声合成方法に関する。
【0002】
【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。テキスト音声合成
は、一般的に言語処理部、音韻処理部および音声信号生
成部の3つの段階によって行われる。入力されたテキス
トは、まず言語処理部において形態素解析や構文解析な
どが行われ、次に音韻処理部においてアクセントやイン
トネーションの処理が行われて、音韻記号列、ピッチ、
音韻継続時間長などの情報が出力される。最後に、音声
信号生成部すなわち音声合成器で、音韻記号列、ピッ
チ、音韻継続時間長などの情報から音声信号を合成す
る。そこで、テキスト合成に用いる音声合成器の音声合
成方法は、任意の音韻記号列を任意の韻律で音声として
合成することが可能な方法でなければならない。
【0003】このような任意の音韻記号列を音声として
合成できる音声合成器の原理は、音節、音素、VCV
(母音−子音−母音)、CVC(子音−母音−子音)な
どを合成の基本単位とし、これら基本単位の特徴パラメ
ータをピッチや継続時間長を制御して接続することによ
り音声を合成するものである。
【0004】この原理に基づく音声合成方法として、音
声信号を音源情報と声道情報に分離してモデル化するこ
とで合成音声を得る方法が従来良く知られている。例え
ば、音声の線形予測分析によって得られる残差信号から
1周期分の波形を抽出し、この波形を利用して有声音源
信号を生成する方法が特公昭59−14752に開示さ
れている。
【0005】図9は、従来の音声合成方法に従う音声合
成器の一構成例である。この音声合成器は合成系11と
分析系12より構成され、予め分析系12により音声信
号の分析を行って、音声合成単位毎にLPC係数(線形
予測係数)と残差ピッチ波形を生成して記憶しておき、
これら音声合成単位の情報を用いて合成系11で音声合
成を行う構成となっている。
【0006】まず、合成系11について説明する。合成
系11は、有声音源生成部14、声道フィルタ部15、
無声音源生成部16、残差ピッチ波形記憶部17および
LPC係数記憶部18により構成される。
【0007】有声音源生成部14は、有声/無声判別情
報107により判別される有声区間において、残差ピッ
チ波形記憶部17より読み出された残差ピッチ波形10
8をフレーム平均ピッチ102の間隔で繰り返し配置し
て有声音源信号106を生成する。
【0008】無声音源生成部16は、有声/無声判別情
報107により判別される無声区間において、白色雑音
などで実現される無声音源信号105を出力する。声道
フィルタ部15は、LPC係数記憶部18より読み出さ
れたLPC係数110を係数とする合成フィルタを有声
音源信号106または無声音源信号105で駆動し、合
成音声信号109を出力する。
【0009】次に、分析系12について説明する。分析
系12は、残差ピッチ波形記憶部17、LPC係数記憶
部18、残差ピッチ波形生成部19、逆フィルタ部20
およびLPC分析部21により構成される。分析系12
には、音声合成単位毎に対応する参照音声信号101が
入力される。そして、一定フレーム周期で参照音声信号
101の分析が行われ、当該フレームの音声信号が無声
音声の場合はLPC係数が生成されて記憶され、有声音
声の場合はLPC係数と残差波形が生成されて記憶され
る。
【0010】すなわち、LPC分析部21では参照音声
信号101をLPC分析することによりLPC係数11
3が生成され、これがLPC係数記憶部18に記憶され
る。参照音声信号101が有声音声の場合、逆フィルタ
部20はLPC係数113によって特性が決定される線
形予測逆フィルタによって参照音声信号101にフィル
タリングを行って残差波形112を出力する。残差ピッ
チ波形生成部19は、残差波形112から1ピッチ周期
長の代表的な残差波形を切り出して残差ピッチ波形11
1を生成する。この残差ピッチ波形111は、残差ピッ
チ波形記憶部17に記憶される。
【0011】上記のような従来の音声合成方法では、分
析に用いた参照音声信号101のピッチ周期と異なるピ
ッチ周期で音声合成を行うと、すなわち参照音声信号1
01に対して基本周波数を変更した音声を合成しようと
すると、合成音声の音質が劣化する場合があるという問
題がある。この劣化は分析する参照音声信号101の第
1ホルマントと基本周波数が近い場合に特に顕著であ
る。この劣化の原因について詳しく説明する。
【0012】図10に、このような有声音声信号の分析
および合成を行った場合の図9中の各信号の周波数スペ
クトルの例を示す。図10において、(a)は基本周波
数がF0 である参照音声信号101のスペクトル、
(b)はLPC係数113および110のスペクトル
(破線は(a)と同じ)、(c)は残差波形112のス
ペクトル、(d)は残差ピッチ波形111および108
のスペクトル(破線は(c)と同じ)、(e)は基本周
波数F′0 (F′0 =1.25F0 )で生成された有声
音源信号106のスペクトル(破線は(d)と同じ)、
(f)は合成音声信号109のスペクトル(破線は
(b)と同じ)である。
【0013】図10から明らかなように、参照音声信号
101のスペクトル(図10(a))と比較して、基本
周波数を変更して合成された合成音声信号109のスペ
クトル(図10(f))は第1ホルマントの振幅が極端
に小さくなっており、スペクトル歪みが生じていること
が分かる。これは、LPC係数113および110のス
ペクトル(図10(b))、すなわちLPC分析によっ
て得られたスペクトル包絡の第1ホルマントの幅が狭い
ために、基本周波数の変更によって有声音源信号106
の離散的なスペクトル(図10(e))がスペクトル包
絡のピークから外れてしまうことが原因である。
【0014】
【発明が解決しようとする課題】上述したように、参照
音声信号を分析して得た残差ピッチ波形およびLPC係
数を音声合成単位の情報とする従来の音声合成方法で
は、分析に用いた参照音声信号に対し基本周波数を変更
して音声合成を行うと、合成音声のスペクトル歪みが大
きくなり、音質が劣化するという問題があった。本発明
は、基本周波数の変更によるスペクトル歪みの小さい合
成音声を得ることができる音声合成方法を提供すること
を目的とする。
【0015】
【課題を解決するための手段】上記の課題を解決するた
め、本発明は音声合成単位の情報を記憶しておき、この
記憶した音声合成単位の情報を用いて音声を合成する音
声合成方法において、参照音声信号より抽出される代表
的な音声ピッチ波形から、参照音声信号について線形予
測分析を行って得られた線形予測係数を用いて残差ピッ
チ波形を生成し、この残差ピッチ波形の情報を有声区間
における音声合成単位の情報として記憶することを特徴
とする。
【0016】より具体的には、参照音声信号から生成さ
れる残差ピッチ波形の情報と該参照音声信号から抽出さ
れるスペクトルパラメータを記憶しておき、有声区間に
おいては残差ピッチ波形の情報を用いて生成される有声
音源信号により、また無声区間においては無声音源信号
によりスペクトルパラメータを係数とする声道フィルタ
をそれぞれ駆動して合成音声を生成する音声合成方法に
おいて、参照音声信号より抽出される代表的な音声ピッ
チ波形から、該参照音声信号について線形予測分析を行
って得られた線形予測係数を用いて残差ピッチ波形を生
成することを特徴とする。
【0017】また、残差ピッチ波形の生成は、さらに具
体的には線形予測係数に従って特性が決定される線形予
測逆フィルタによって音声ピッチ波形にフィルタリング
を行うことにより実現される。
【0018】ここで、代表的な音声ピッチ波形とは、準
周期的な音声信号波形のスペクトル包絡情報を反映する
ように参照音声信号より抽出された非周期的な波形を意
味する。また、スペクトルパラメータとは、参照音声信
号のスペクトルまたはスペクトル包絡などを表すパラメ
ータを意味しており、具体的にはLPC係数、LSP係
数、PARCOR係数、ケプストラム係数といったパラ
メータである。
【0019】このように参照音声信号より抽出される代
表的な音声ピッチ波形から、線形予測係数を用いて残差
ピッチ波形を生成すると、残差ピッチ波形は線形予測係
数のスペクトルのホルマント周波数近傍では、線形予測
係数のスペクトルと相補的なスペクトルとなる。この結
果、残差ピッチ波形の情報を用いて生成される有声音源
信号のスペクトルは、ホルマント周波数近傍で強調され
る。
【0020】従って、参照音声信号に対する合成音声信
号の基本周波数の変更によって、有声音源信号のスペク
トルが線形予測係数のスペクトルのピークからずれた場
合でも、合成音声信号においてホルマント周波数での振
幅が参照音声信号のそれに対して極端に小さくなるよう
なスペクトル歪みの発生は軽減される。すなわち、基本
周波数の変更によるスペクトル歪みの小さい合成音声が
得られる。
【0021】また、参照音声信号に対する線形予測分析
として、特に参照音声信号のピッチに同期したピッチ同
期線形予測分析を用いれば、線形予測係数のスペクトル
包絡において、ホルマント周波数でのスペクトル幅が比
較的広くなる。従って、参照音声信号に対する合成音声
信号の基本周波数の変更によって、有声音源信号のスペ
クトルが線形予測係数のスペクトルのピークからずれた
場合でも、同様に合成音声信号においてホルマント周波
数での振幅が参照音声信号のそれに対して極端に小さく
なるようなスペクトル歪みの発生は軽減される。
【0022】さらに、本発明では残差ピッチ波形の情報
として残差ピッチ波形を圧縮符号化して得られる符号を
記憶しておき、音声合成時には該符号を復号化して用い
るようにしてもよい。このようにすることで、残差ピッ
チ波形の情報の記憶に必要なメモリ容量が小さくて済
み、また限られたメモリ容量の下でより多くの残差ピッ
チ波形の情報を記憶することが可能となる。圧縮符号化
には、例えばフレーム間予測符号化を用いることができ
る。
【0023】
【発明の実施の形態】
(第1の実施形態)図1に、本発明の第1の実施形態に
係る音声合成方法に従う音声合成器の構成を示す。この
音声合成器は合成系11と分析系32より構成される。
【0024】合成系11は、図9に示した従来の音声合
成器と同一であり、有声音源生成部14、声道フィルタ
部15、無声音源生成部16、残差ピッチ波形記憶部1
7およびLPC係数記憶部18により構成される。
【0025】すなわち、有声音源生成部14では有声/
無声判別情報107により判別される有声区間におい
て、残差ピッチ波形記憶部17より読み出された残差ピ
ッチ波形108をフレーム平均ピッチ102の間隔で繰
り返し配置して有声音源信号106を生成する。また、
無声音源生成部16では有声/無声判別情報107によ
り判別される無声区間において、白色雑音などで実現さ
れる無声音源信号105を出力する。そして、声道フィ
ルタ部15ではLPC係数記憶部18より読み出された
LPC係数110を係数とする合成フィルタを有声音源
信号106または無声音源信号105で駆動し、合成音
声信号109を出力する。
【0026】一方、分析系32は、本実施形態ではLP
C分析部21、音声ピッチ波形生成部34、逆フィルタ
部33、残差ピッチ波形記憶部17およびLPC係数記
憶部18により構成される。LPC分析部21では参照
音声信号101のLPC分析が行われ、参照音声信号1
01のスペクトルパラメータの一種であるLPC係数1
13が生成される。このLPC係数113は、LPC係
数記憶部18に記憶される。
【0027】音声ピッチ波形生成部34は、参照音声信
号101が有声音声の場合、参照音声信号101から代
表的な音声ピッチ波形301を抽出して出力する。逆フ
ィルタ部33は、LPC係数113によって特性が決定
される線形予測逆フィルタにより音声ピッチ波形301
にフィルタリングを行って、残差ピッチ波形302を生
成する。そして、この残差ピッチ波形302が残差ピッ
チ波形記憶部17に記憶される。
【0028】次に、音声ピッチ波形生成部34の詳細な
構成・動作について説明する。音声ピッチ波形生成部3
4では、参照音声信号101に窓をかけることにより音
声ピッチ波形301を生成する。窓関数としては、様々
な関数を用いることが可能であるが、サイドローブが比
較的小さいハニング窓やハミング窓などの関数が適して
いる。また、窓長は参照音声信号101のピッチ周期に
従って決定され、例えばピッチ周期の2倍の長さとす
る。窓をかける位置は、参照音声信号101の音声波形
のローカルピークと窓の中心が一致するような位置とし
てもよいし、あるいは切り出された音声ピッチ波形のパ
ワーやスペクトルなどによって窓の位置を探索すること
も可能である。
【0029】一例として、音声ピッチ波形のスペクトル
によって窓の位置を探索する場合について説明する。音
声ピッチ波形のパワースペクトルは、参照音声信号10
1のパワースペクトルの包絡を表さなければならない。
これに対して、窓の位置が不適切であった場合には、参
照音声信号101の基本周波数をfとすると、音声ピッ
チ波形のパワースペクトルのf/2の奇数倍の周波数に
谷が生じる。そこで、音声ピッチ波形のパワースペクト
ルのf/2の奇数倍の周波数における振幅が大きくなる
ような窓の位置を探索して、音声ピッチ波形を切り出せ
ば良い。
【0030】また、音声ピッチ波形の生成法としては、
上記の方法の他にも様々な方法を用いることができる。
一例として、参照音声信号101に対してフーリエ変換
やフーリエ級数展開などを行って得られる離間的なスペ
クトルを補間することによって連続的なスペクトルを生
成し、逆フーリエ変換することによって音声ピッチ波形
を生成する方法がある。
【0031】逆フィルタ部33は、生成した残差ピッチ
波形に、零位相化や最終位相化などの位相の処理を行っ
ても良い。このような位相の処理を行うことにより、記
憶すべき波形の長さを短くできる、有声音源信号のピッ
チの乱れを小さくできるなどの利点がある。
【0032】図2に、本実施形態の音声合成器によって
参照音声信号101の有声区間において分析および合成
を行った場合の図1の各部の信号の周波数スペクトルの
例を示す。図2において、(a)は基本周波数がF0
参照音声信号101のスペクトル、(b)は音声ピッチ
波形301のスペクトル(破線は(a)と同じ)、
(c)はLPC係数113および110のスペクトル
(破線は(b)と同じ)、(d)は残差ピッチ波形30
2および108のスペクトル、(e)は基本周波数F′
0 (F′0 =1.25F0 )で生成された有声音源信号
106のスペクトル(破線は(d)と同じ)、(f)は
合成音声信号109のスペクトル(破線は(c)と同
じ)をそれぞれ示している。
【0033】図2より、基本周波数を参照音声信号10
1のF0 からF′0 に変更して生成された合成音声信号
109のスペクトル(図2(f))は、従来の音声合成
器によって合成された合成音声信号のスペクトル(図1
0(f))と比較して、スペクトル歪みが小さくなって
いることが分かる。この理由は、次の通りである。
【0034】本実施形態では、音声ピッチ波形301よ
り残差ピッチ波形302を求めているため、LPC分析
によって得られたLPC係数113のホルマント周波数
(例えば第1ホルマント周波数F0 )でのスペクトル
(図2(c))の幅が狭い場合でも、残差ピッチ波形3
02のスペクトル(図2(d))によってそれを補うこ
とができる。
【0035】すなわち、本実施形態のように参照音声信
号101より抽出される音声ピッチ波形301から、L
PC係数113を用いて逆フィルタ部33で残差ピッチ
波形302を生成すると、残差ピッチ波形302のスペ
クトルは図2(d)に示すようにLPC係数113のス
ペクトルの第1ホルマント周波数F0 近傍では、図2
(c)に示したLPC係数113のスペクトルに対して
相補的なスペクトルとなる。この結果、残差ピッチ波形
記憶部17から読み出される残差ピッチ波形108の情
報に従って有声音源生成部14で生成される有声音源信
号106のスペクトルは、図2(e)に示すように第1
ホルマント周波数F0 近傍で強調された形となる。
【0036】従って、基本周波数の変更によって図2
(e)に示すように有声音源信号106の離散的なスペ
クトルが図2(c)に示したLPC係数110のスペク
トル包絡のピークから外れてしまったとしても、声道フ
ィルタ部15より出力される合成音声信号109のスペ
クトルは、図2(f)に示すように、図2(a)の参照
音声信号101のスペクトルに比較してホルマント成分
の振幅が極端に小さくなるようなことがなくなる。
【0037】このように本実施形態によれば、基本周波
数の変更によるスペクトル歪みの小さい合成音声信号1
09を生成することができる。 (第2の実施形態)図3に、本発明の第2の実施形態に
係る音声合成器の構成を示す。この音声合成器は、合成
系11と分析系42より構成される。合成系11及び分
析系42における音声ピッチ波形生成部34と逆フィル
タ部33は図1に示した第1の実施形態に係る音声合成
器の構成と同一であるため、図1と同一部分に同一参照
符号を付してその説明を省略する。
【0038】本実施形態は、第1の実施形態におけるL
PC分析部21を参照音声信号101のピッチに同期し
たピッチ同期線形予測分析を行うLPC分析部41に変
更したものである。すなわち、LPC分析部41は音声
ピッチ波形生成部34で生成された音声ピッチ波形30
1に対してLPC分析を行ってLPC係数402を生成
する。このLPC係数402は、LPC係数記憶部18
に記憶されると共に、逆フィルタ部33に入力される。
逆フィルタ部33では、LPC係数402を係数とする
線形予測逆フィルタによって音声ピッチ波形301にフ
ィルタリングを行って残差ピッチ波形302を出力す
る。
【0039】参照音声信号101のスペクトルが離散的
であるのに対して、音声ピッチ波形301のスペクトル
は、離散的なスペクトルを滑らかに補間して得られる連
続的なスペクトルとなっている。従って、本実施形態の
ように音声ピッチ波形301に対してLPC分析部41
でLPC分析を行って得られたLPC係数402は、従
来のようにホルマント周波数でのスペクトル幅が狭くな
り過ぎることがなく、これに起因する合成音声信号10
9のスペクトル歪みが軽減される。
【0040】以下、この効果について図4を用いて説明
する。図4は、本実施形態の音声合成器によって有声音
声の参照音声信号の分析および合成を行った場合の図3
の各部の信号の周波数スペクトルの例であり、(a)は
基本周波数がF0 の参照音声信号101のスペクトル、
(b)は音声ピッチ波形301のスペクトル(破線は
(a)と同じ)、(c)はLPC係数402および11
0のスペクトル(破線は(b)と同じ)、(d)は残差
ピッチ波形302および108のスペクトル、(e)は
基本周波数F′0 (F′0 =1.25F0 )で生成され
た有声音源信号106のスペクトル(破線は(d))、
(f)は合成音声信号109のスペクトル(破線は
(c)と同じ)をそれぞれ示している。第1の実施形態
における図2と比較すると、図4(c)(d)(e)
(f)が異なっている。
【0041】すなわち、図4(c)に示されるように、
本実施形態ではLPC係数402の第1ホルマント周波
数F0 でのスペクトル幅が図2(c)に比較して広がっ
ている。従って、参照音声信号101の基本周波数F0
に対して合成音声信号109の基本周波数をF′0 に変
更することによって、図4(d)に示されるように有声
音源信号106のスペクトルが図4(c)に示したLP
C係数402のスペクトルのピークから外れた場合にお
いても、図4(f)に示されるように合成音声信号10
9においてホルマント周波数F0 での振幅が参照音声信
号101のそれに対して極端に小さくなるようなことが
なく、合成音声信号109でのスペクトル歪みの発生が
軽減されることになる。
【0042】(第3の実施形態)図5に、本発明の第3
の実施形態に係る音声合成器の構成を示す。この音声合
成器は、合成系51と分析系42より構成される。分析
系42は図3に示した第2の実施形態に係る音声合成器
の構成と同一であるため、図3と同一部分に同一参照符
号を付してその説明を省略する。
【0043】本実施形態における合成系51は、無声音
源生成部16、有声音生成部53、ピッチ波形合成部5
2、声道フィルタ部15、残差ピッチ波形記憶部17お
よびLPC係数記憶部18より構成される。
【0044】ピッチ波形合成部52は、有声/無声判別
情報107により判別される有声区間において、残差ピ
ッチ波形記憶部17より読み出された残差ピッチ波形1
08をLPC係数記憶部18より読み出されたLPC係
数110を係数とする合成フィルタで合成し、音声ピッ
チ波形501を出力する。
【0045】有声音生成部53は、フレーム平均ピッチ
102および音声ピッチ波形501より有声音声信号5
02を生成して出力する。無声音源生成部16は、有声
/無声判別情報107により判別される無声区間におい
て、白色雑音などで表現される無声音源信号105を出
力する。
【0046】声道フィルタ部15は、LPC係数記憶部
18より読み出されたLPC係数110を係数とする合
成フィルタを上記無声音源信号105で駆動し、無声音
声信号503を出力する。有声/無声判別情報107に
より判別される無声区間においては無声音声信号503
を、有声区間においては有声音声信号502をそれぞれ
合成音声信号109として出力する。
【0047】有声音生成部53では、現フレームの音声
ピッチ波形と前フレームの音声ピッチ波形とを補間する
ことによって得られるピッチ波形をピッチ周期102の
間隔で重畳することにより、有声音声信号502を生成
する。補間のための重み係数は、音韻が滑らかに変化す
るようにピッチ波形毎に変化させる。
【0048】本実施形態によっても第2の実施形態と同
様の効果を得ることができる。 (第4の実施形態)図6に、本発明の第4の実施形態に
係る音声合成器の構成を示す。この音声合成器は合成系
61と分析系62より構成される。残差ピッチ波形復号
化部65、残差ピッチ波形符号記憶部64、残差ピッチ
波形符号化部63以外は図3に示した第2の実施形態に
係る音声合成器の構成と同一であるため、図3と同一部
分に同一参照符号を付してその説明を省略する。
【0049】本実施形態は、参照音声信号101の分析
によって生成された残差ピッチ波形を圧縮符号化するこ
とによって得られる符号を記憶し、該符号を復号化して
合成に用いるものである。すなわち、残差ピッチ波形符
号化部63で残差ピッチ波形302の圧縮符号化により
残差ピッチ波形符号601が生成され、残差ピッチ波形
符号記憶部64に記憶される。残差ピッチ波形復号化部
65で、残差ピッチ波形符号記憶部64より読み出され
た残差ピッチ波形符号602が復号化され、残差ピッチ
波形108が出力される。
【0050】本実施形態では、圧縮符号化としてフレー
ム間予測符号化を用い、残差ピッチ波形の圧縮符号化を
行う。フレーム間符号化を用いた残差ピッチ波形符号化
部63の詳細な構成を図7に示し、これに対応する残差
ピッチ波形復号化部65の詳細な構成を図8に示す。音
声合成単位は複数のフレーム単位となっており、符号化
および復号化も音声合成単位毎に行われる。図7および
図8における記号の意味を以下に示す。
【0051】Ti :i番目のフレームの残差ピッチ波形 ei :i番目のフレームのフレーム間差分 ci :i番目のフレームの符号 qi :逆量子化によって得られたi番目のフレームのフ
レーム間差分 di :復号化されたi番目のフレームの残差ピッチ波形 di-1 :復号化されたi−1番目のフレームの残差ピッ
チ波形 図7に示す残差ピッチ波形符号化部63の動作について
説明する。図7において、量子化部71は減算器70か
ら出力されるフレーム間差分ei を量子化して符号ci
を出力する。逆量子化部72は、符号ci を逆量子化し
てフレーム間差分qi を求める。遅延部73は、前フレ
ームの復号化残差ピッチ波形di-1 とフレーム間差分q
i の和である復号化残差ピッチ波形di を加算器74か
ら入力して記憶し、1フレーム分遅延させてdi-1 を出
力する。ただし、遅延部73の出力の初期値、すなわち
0 は全ての値を0とする。音声合成単位のフレーム数
をNとすると、符号の組(c1 ,c2 ,…,cN )を残
差ピッチ波形302として出力する。量子化部71にお
ける量子化は、スカラー量子化とベクトル量子化のいず
れを用いても良い。
【0052】次に、図8に示す残差ピッチ波形復号化部
65の動作について説明する。図8において、逆量子化
部80は符号ci を逆量子化してフレーム間差分qi
求める。このフレーム間差分qi と前フレームの復号化
残差ピッチ波形di-1 との和が加算器81から復号化残
差ピッチ波形di として出力される。遅延部82は復号
化残差ピッチ波形di を記憶し、1フレーム分遅延させ
てdi-1 を出力する。ただし、遅延部82の出力の初期
値、すなわちd0 は全ての値を0とする。
【0053】残差ピッチ波形はフレーム間の相関が高
く、残差ピッチ波形ri のパワーと比較してフレーム間
差分ei のパワーが小さいため、上記のフレーム間予測
符号化によって効率良く残差ピッチ波形の圧縮を行うこ
とができる。
【0054】なお、フレーム間予測符号化以外にも、ベ
クトル量子化や変換符号化など様々な圧縮符号化方法を
用いて残差ピッチ波形の符号化を行うことも可能であ
る。このように本実施形態によれば、残差ピッチ波形を
フレーム間符号化などにより圧縮符号化して残差ピッチ
波形符号記憶部64に記憶し、音声合成時にはこの記憶
部64から読み出された符号を復号化することにより、
残差ピッチ波形の情報を記憶するに必要なメモリ容量を
削減できる。また、メモリ容量が限られた状況下では、
より多くの残差ピッチ波形の情報を記憶することが可能
となる。
【0055】
【発明の効果】以上説明したように、本発明の音声合成
方法によれば、基本周波数を分析に用いた参照音声信号
の基本周波数に対して変更させた場合のスペクトル歪み
が小さく、高音質な合成音声を得ることができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態を示すブロック図
【図2】第1の実施形態における各部の信号のスペクト
ルの例を示す図
【図3】本発明の第2の実施形態を示すブロック図
【図4】第2の実施形態における各部の信号のスペクト
ルの例を示す図
【図5】本発明の第3の実施形態を示すブロック図
【図6】本発明の第4の実施形態を示すブロック図
【図7】第4の実施形態における残差ピッチ波形符号化
部の構成例を示すブロック図
【図8】第4の実施形態における残差ピッチ波形復号化
部の構成例を示すブロック図
【図9】従来の音声合成器を示すブロック図
【図10】従来の音声合成器における各部の信号のスペ
クトルの例を示す図
【符号の説明】
11,51,61…合成系 12,32,42,62…分析系 14…有声音源生成部 15…声道フィルタ部 16…無声音源生成部 17…残差ピッチ波形記憶部 18…LPC係数記憶部 19…残差ピッチ波形生成部 20,33…逆フィルタ部 21,41…LPC分析部 34…音声ピッチ波形生成部 52…ピッチ波形合成部 53…有声音生成部 63…残差ピッチ波形符号化部 64…残差ピッチ波形符号記憶部 65…残差ピッチ波形復号化部 70…減算器 71…量子化部 72…逆量子化部 73…遅延部 74…加算器 80…逆量子化部 81…加算器 82…遅延部 101…参照音声信号 102…フレーム平均ピッチ情報 105…無声音源信号 106…有声音源信号 107…有声/無声判別情報 108…残差ピッチ波形 109…合成音声信号 110…LPC係数 113…LPC係数 301…音声ピッチ波形 302…残差ピッチ波形 402…LPC係数 501…ピッチ波形 502…有声音声信号 503…無声音声信号

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】音声合成単位の情報を記憶しておき、この
    記憶した音声合成単位の情報を用いて音声を合成する音
    声合成方法において、 参照音声信号より抽出される代表的な音声ピッチ波形か
    ら、該参照音声信号について線形予測分析を行って得ら
    れた線形予測係数を用いて残差ピッチ波形を生成し、こ
    の残差ピッチ波形の情報を有声区間における音声合成単
    位の情報として記憶することを特徴とする音声合成方
    法。
  2. 【請求項2】参照音声信号から生成される残差ピッチ波
    形の情報と該参照音声信号から抽出されるスペクトルパ
    ラメータを記憶しておき、有声区間においては前記残差
    ピッチ波形の情報を用いて生成された有声音源信号、ま
    た無声区間においては無声音源信号により、前記スペク
    トルパラメータを係数とする声道フィルタをそれぞれ駆
    動して合成音声を生成する音声合成方法において、 前記参照音声信号より抽出される代表的な音声ピッチ波
    形から、該参照音声信号について線形予測分析を行って
    得られた線形予測係数を用いて前記残差ピッチ波形を生
    成することを特徴とする音声合成方法。
  3. 【請求項3】前記線形予測係数に従って特性が決定され
    る線形予測逆フィルタによって前記音声ピッチ波形にフ
    ィルタリングを行うことにより前記残差ピッチ波形を生
    成することを特徴とする請求項1または2に記載の音声
    合成方法。
  4. 【請求項4】前記線形予測分析として前記参照音声信号
    のピッチに同期したピッチ同期線形予測分析を行うこと
    を特徴とする請求項1〜3のいずれか1項に記載の音声
    合成方法。
  5. 【請求項5】前記残差ピッチ波形の情報として該残差ピ
    ッチ波形を圧縮符号化して得られる符号を記憶してお
    き、音声合成時に該符号を復号化して用いることを特徴
    とする請求項1〜3のいずれか1項に記載の音声合成方
    法。
  6. 【請求項6】前記残差ピッチ波形の情報として該残差ピ
    ッチ波形をフレーム間予測符号化して得られる符号を記
    憶しておき、この符号を復号化して用いることを特徴と
    する請求項1〜3のいずれか1項に記載の音声合成方
    法。
  7. 【請求項7】前記スペクトルパラメータとして前記線形
    予測係数を用いることを特徴とする請求項1〜3のいず
    れか1項に記載の音声合成方法。
JP8068785A 1995-12-04 1996-03-25 音声合成方法 Pending JPH09258796A (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP8068785A JPH09258796A (ja) 1996-03-25 1996-03-25 音声合成方法
US08/758,772 US6240384B1 (en) 1995-12-04 1996-12-03 Speech synthesis method
US09/722,047 US6332121B1 (en) 1995-12-04 2000-11-27 Speech synthesis method
US09/984,254 US6553343B1 (en) 1995-12-04 2001-10-29 Speech synthesis method
US10/265,458 US6760703B2 (en) 1995-12-04 2002-10-07 Speech synthesis method
US10/792,888 US7184958B2 (en) 1995-12-04 2004-03-05 Speech synthesis method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8068785A JPH09258796A (ja) 1996-03-25 1996-03-25 音声合成方法

Publications (1)

Publication Number Publication Date
JPH09258796A true JPH09258796A (ja) 1997-10-03

Family

ID=13383738

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8068785A Pending JPH09258796A (ja) 1995-12-04 1996-03-25 音声合成方法

Country Status (1)

Country Link
JP (1) JPH09258796A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
JP2013068977A (ja) * 2008-12-30 2013-04-18 ▲ホア▼▲ウェイ▼技術有限公司 ピッチ検索のための方法及び装置
CN104916282A (zh) * 2015-03-27 2015-09-16 北京捷通华声语音技术有限公司 一种语音合成的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091475A (ja) * 2000-09-18 2002-03-27 Matsushita Electric Ind Co Ltd 音声合成方法
JP2013068977A (ja) * 2008-12-30 2013-04-18 ▲ホア▼▲ウェイ▼技術有限公司 ピッチ検索のための方法及び装置
CN104916282A (zh) * 2015-03-27 2015-09-16 北京捷通华声语音技术有限公司 一种语音合成的方法和装置

Similar Documents

Publication Publication Date Title
US6240384B1 (en) Speech synthesis method
JP2782147B2 (ja) 波形編集型音声合成装置
US6427135B1 (en) Method for encoding speech wherein pitch periods are changed based upon input speech signal
US4821324A (en) Low bit-rate pattern encoding and decoding capable of reducing an information transmission rate
KR100615480B1 (ko) 음성 대역 확장 장치 및 음성 대역 확장 방법
JPH06110498A (ja) 音声合成システムの音声断片コーディングおよびそのピッチ調節方法とその有声音合成装置
WO1980002211A1 (en) Residual excited predictive speech coding system
US6950798B1 (en) Employing speech models in concatenative speech synthesis
JPH09258796A (ja) 音声合成方法
JP3559485B2 (ja) 音声信号の後処理方法および装置並びにプログラムを記録した記録媒体
KR100715014B1 (ko) 트랜스코더 및 부호변환방법
JPH0258100A (ja) 音声符号化復号化方法及び音声符号化装置並びに音声復号化装置
JP3431655B2 (ja) 符号化装置及び復号化装置
JPS58188000A (ja) 音声認識合成装置
Vích et al. Pitch synchronous transform warping in voice conversion
Olive Mixed spectral representation—Formants and linear predictive coding
JP2001154683A (ja) 音声合成装置とその方法及び音声合成プログラムを記録した記録媒体
JP2615856B2 (ja) 音声合成方法とその装置
JP3063087B2 (ja) 音声符号化復号化装置及び音声符号化装置ならびに音声復号化装置
JP3515216B2 (ja) 音声符号化装置
JP3199128B2 (ja) 音声の符号化方法
JPH09160595A (ja) 音声合成方法
JP3218680B2 (ja) 有声音合成方法
JPH0836397A (ja) 音声合成装置
JP2000099094A (ja) 時系列信号処理装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees