JP3281281B2 - 音声合成方法及び装置 - Google Patents
音声合成方法及び装置Info
- Publication number
- JP3281281B2 JP3281281B2 JP04669497A JP4669497A JP3281281B2 JP 3281281 B2 JP3281281 B2 JP 3281281B2 JP 04669497 A JP04669497 A JP 04669497A JP 4669497 A JP4669497 A JP 4669497A JP 3281281 B2 JP3281281 B2 JP 3281281B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- unit
- representative
- units
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Description
のための音声合成方法及び装置に係り、特に音韻記号
列、ピッチおよび音韻継続時間長などの情報から音声信
号を生成する音声合成方法及び装置に関する。
出すことをテキスト音声合成という。テキスト音声合成
は、一般的に言語処理部、音韻処理部および音声合成部
の3つの段階によって行われる。入力されたテキスト
は、まず言語処理部において形態素解析や構文解析など
が行われ、次に音韻処理部においてアクセントやイント
ネーシヨンの処理が行われて、音韻記号列・ピッチ・音
韻継続時間長などの情報が出力される。最後に、音声信
号合成部で音韻記号列・ピッチ・音韻継続時間長などの
情報から音声信号を合成する。そこで、テキスト音声合
成に用いる音声合成方法は、任意の音韻記号列を任意の
韻律で音声合成することが可能な方法でなければならな
い。
る音声合成装置の原理は、母音をV、子音をCで表す
と、CV、CVC、VCVといった基本となる小さな単
位の特徴パラメータ(これを代表音声素片という)を記
憶し、これらを選択的に読み出した後、ピッチや継続時
間長を制御して接続することにより、音声を合成すると
いうものである。従って、記憶されている代表音声素片
が合成音声の品質を大きく左右することになる。
ぱら人手に頼っており、音声信号の中から試行錯誤的に
切り出してくる場合がほとんどであるため、膨大な労力
を要していた。このような代表音声素片作成の作業を自
動化し、音声合成に使用するのに適した代表音声素片を
容易に生成する方法として、例えば音素環境クラスタリ
ング(COC)と呼ばれる技術が特開昭64−7830
0「音声合成方法」に開示されている。
ルを多数の音声素片に付与し、そのラベルが付与された
音声素片を音声素片間の距離尺度に基づいて音素環境に
関する複数のクラスタに分類し、その各クラスタのセン
トロイドを代表音声素片とするものである。ここで、音
素環境とは当該音声素片にとっての環境となる要因全て
の組合せであり、その要因としては当該音声素片の音素
名、先行音素、後続音素、後々続音素、ピッチ周期、パ
ワー、ストレスの有無、アクセント核からの位置、息継
ぎからの時間、発声速度、感情などが考えられる。実音
声中の各音素は音素環境によって音韻が変化しているた
め、音素環境に関する複数のクラスタ毎に代表素片を記
憶しておくことにより、音素環境の影響を考慮した自然
な音声を合成することが可能となっている。
キスト音声合成のための音声合成では、代表音声素片の
ピッチや継続時間長を指定された値に変更して合成する
必要がある。このようなピッチや継続時間長の変更によ
り、代表音声素片を切り出してきた音声信号の音質と比
較して合成音声の音質がある程度劣化することになる。
タリングでは、音声素片間の距離尺度に基づいてクラス
タリングを行っているにすぎないため、合成の際のピッ
チや継続時間の変更の効果が全く考慮されていないとい
う問題がある。すなわち、COCによるクラスタリング
および各クラスタの代表音声素片は、実際にピッチや継
続時間長を変更して合成された合成音声のレベルでは、
必ずしも適当なものになっているという保証はない。
なされたものであり、テキスト音声合成による合成音声
の音質を効果的に向上させることができる音声合成方法
及び装置を提供することを目的とする。
め、本発明はピッチや継続時間長の変更の影響を考慮し
て、合成音声のレベルで自然音声に対する歪みが小さく
なるような代表音声素片を生成し、その代表音声素片を
用いて音声を合成することにより、自然音声に近い合成
音声を生成するようにしたものである。
音声素片のピッチおよび継続時間長の少なくとも一方に
従って、既に生成されている代表音声素片のピッチおよ
び継続時間長の少なくとも一方を変更することにより複
数の合成音声素片を生成し、前記合成音声素片のそれぞ
れと前記トレーニング音声素片のそれぞれとの間の距離
尺度に基づいて、前記合成音声素片のそれぞれの歪みを
評価し、前記歪みの情報を用いた評価関数を最小とする
代表音声素片を計算により生成して記憶し、記憶された
複数の代表音声素片から入力音素に対応した代表音声素
片を選択して接続することによって合成音声を生成する
ことを特徴とする。
VCV,CVCといった音声合成単位で音声信号中から
切り出される素片であり、切り出された波形もしくはそ
の波形から何らかの方法で抽出されたパラメータ系列な
どを表すものとする。トレーニング音声素片は合成音声
の歪みを評価するために用いられる。合成音声素片は、
代表音声素片に対して少なくともピッチまたは継続時間
長を変更して生成される合成音声波形またはパラメータ
系列などを表す。
間の距離尺度によって、合成音声の歪みが表わされる。
従って、この距離尺度つまり歪みがより小さくなる代表
音声素片を生成して記憶しておき、これらの代表音声素
片から入力音素に対応した代表音声素片を選択して接続
すれば、自然音声に近い高品質の合成音声が生成され
る。
ル付けされた複数のトレーニング音声素片のピッチおよ
び継続時間長の少なくとも一方に従って、既に生成され
ている代表音声素片のピッチおよび継続時間長の少なく
とも一方を変更することにより複数の合成音声素片を生
成し、前記合成音声素片のそれぞれと前記トレーニング
音声素片のそれぞれとの間の距離尺度に基づいて、前記
合成音声素片のそれぞれの歪みを評価し、前記音素環境
及び前記歪みの情報を用いたクラスタリング評価関数に
基づいて複数の音素環境クラスタを生成し、前記音素環
境クラスタの各々に属する前記トレーニング音声素片と
対応する前記合成音声素片との歪みの情報を用いた評価
関数を最小とする代表音声素片を計算により生成して記
憶し、記憶された複数の代表音声素片から入力音素の音
素環境が属する音素環境クラスタに対応する代表音声素
片を選択して接続することによって合成音声を生成す
る。
片にとっての環境となる要因、例えば当該音声素片の音
素名、先行音素、後続音素、後々続音素、ピッチ周期、
パワー、ストレスの有無、アクセント核からの位置、息
継ぎからの時間、発声速度、感情といった要素の組み合
わせであり、音素環境クラスタとは言い換えれば音素環
境の集合であり、例えば「当該素片の音韻が/ka/、
先行音韻が/i/または/u/、ピッチ周波数が200
Ηz以下」というようなものを意味する。
の歪みに基づいて代表音声素片にそれぞれ対応する複数
の音素環境クラスタを生成し、入力音素の音素環境を含
む音素環境クラスタに対応する代表音声素片を選択して
接続するようにすれば、例えば同一音素名の音声素片が
複数の音素環境に存在する場合でも、実際の入力音素の
音素環境が含まれる音素環境クラスタに対応する代表音
声素片のみが選択されることにより、より自然な合成音
声が得られる。
実施形態を説明する。図1は、本発明の一実施形態に係
る音声合成方法を実現する音声合成装置の構成を示すブ
ロック図であり、大きく分けて合成単位学習系1と規則
合成系2からなる。実際にテキスト音声合成を行う場合
に動作するのは規則合成系2であり、合成単位学習系1
は事前に学習を行って代表音声素片を生成するものであ
る。
る。合成単位学習系1は、代表音声素片とこれに付随す
る音素環境クラスタを生成する代表音声素片生成部11
と代表音声素片記憶部12および音素環境クラスタ記憶
部13により構成される。代表音声素片生成部11に
は、第1の音声素片であるトレーニング音声素片101
とこれにラベル付けされた音素環境102および第2の
音声素片である入力音声素片103が入力される。
グ音声素片101にラベル付けされた音素環境102に
含まれるピッチ周期および継続時間長の情報に従って、
入力音声素片103のピッチ周期および継続時間長を変
更することで複数の合成音声素片が内部的に生成され、
さらにこれらの合成音声素片とトレーニング音声素片1
01との距離尺度に従って、代表音声素片104と音素
環境クラスタ105が生成される。音素環境クラスタ1
05は、トレーニング音声素片101を後述するように
音素環境に関するクラスタに分類して生成される。
12に記憶され、音素環境クラスタ105は代表音声素
片104と対応付けられて音素環境クラスタ記憶部13
に記憶される。代表音声素片生成部11の処理について
は、後に詳細に説明する。
則合成系2は、代表音声素片記憶部12と音素環境クラ
スタ記憶部13と素片選択部14および音声合成部15
により構成され、代表音声素片記憶部12と音素環境ク
ラスタ記憶部13を合成単位学習系1と共有している。
て、例えばテキスト音声合成のために入力テキストの形
態素解析・構文解析後さらにアクセントやイントネーシ
ョン処理を行って得られた韻律情報111と音韻記号列
112が入力される。韻律情報111には、ピッチパタ
ーンおよび音韻継続時間長が含まれている。素片選択部
14では、これらの韻律情報111と音韻記号列112
から入力音素の音素環境を内部的に生成する。
タ記憶部13より読み出された音素環境クラスタ106
を参照して、入力音素の音素環境がどの音素環境クラス
タに属するかを探索し、探索した音素環境クラスタに対
応する代表音声素片選択情報107を代表音声素片記憶
部12へ出力する。
107に従って代表音声素片記憶部12より選択的に読
み出された代表音声素片108に対して、韻律情報11
1に従ってピッチ周期および音韻継続時間長を変更する
とともに、素片の接続を行って合成音声信号113を出
力する。ここで、ピッチおよび継続時間長を変更して素
片を接続し音声を合成する方法としては、例えば残差駆
動LSP方法や波形編集方法など公知の技術を用いるこ
とができる。
成部11の処理の実施形態について具体的に説明する。
図2のフローチャートは、代表音声素片生成部11の第
1の実施形態による処理手順を示している。
成処理では、まず準備段階として連続発声された多数の
音声データに対して音韻毎にラベリングを行い、CV,
VCV,CVCなどの合成単位に従って、トレーニング
音声素片Ti (i=1,2,3,…,NT )を切り出
す。また、各卜レーニング音声素片Ti に対応する音素
環境Pi (i=1,2,3,…,NT )も抽出してお
く。ただし、NT はトレーニング音声素片の個数を表
す。音素環境Pi は、少なくともトレーニング音声素片
Ti の音韻とそのピッチおよび継続時間長の情報を含む
ものとし、その他に必要に応じて前後の音素などの情報
を含むものとする。
の作成と同様の方法により、多数の入力音声素片Sj
(i=1,2,3,…,NS )を作成する。ただし、N
S は入力音声素片の個数を表す。ここで、入力音声素片
Sj としてはトレーニング音声素片Ti と同じものを使
用してもよいし(すなわちTi =Si )、トレーニング
音声素片Ti とは異なる音声素片を作成してもよい。い
ずれにしても、豊富な音韻環境を有する多数のトレーニ
ング音声素片および入力音声素片が用意されていること
が望ましい。
成ステップS21で、音素環境Piに含まれるピッチお
よび継続時間長に等しくなるように、入力音声素片Sj
のピッチおよび継続時間長を変更して音声を合成するこ
とにより、合成音声素片Gijを生成する。ここでのピッ
チおよび継続時間長の変更は、音声合成部15における
ピッチおよび継続時間長の変更と同様の方法で行われる
ものとする。全ての音素環境Pi (i=1,2,3,
…,NT )に従って入力音声素片Si (j=1,2,
3,…,NS )を用いて音声の合成を行うことにより、
NT ×NS 個の合成音声素片Gij(i=1,2,3,
…,NT 、j=1,2,3,…,NS )を生成する。
音声素片Gijの歪みeijの評価を行う。この歪みeijの
評価は、合成音声素片Gijとトレーニング音声素片Ti
との間の距離尺度を求めることにより行う。距離尺度に
は、何らかのスペクトル距離を用いることができる。例
えば、合成音声素片Gijおよびトレーニング音声素片T
i について、FFT(高速フーリエ変換)などを用いて
パワースペクトルを求めて各パワースペクトル間の距離
を評価する方法や、あるいは線形予測分析を行ってLP
CまたはLSPパラメータなどを求めて各パラメータ間
の距離を評価する方法などがある。その他にも、短時間
フーリエ変換やウェーブレット変換などの変換係数を用
いて評価する方法も用いることができる。また、各素片
のパワーを正規化した上で歪みの評価を行う方法でもよ
い。
は、ステップS22で得られた歪みeijに基づいて、入
力音声素片Sj の中から指定された代表音声素片数Νの
代表音声素片Dk (k=1,2,3,…,N)を選択す
る。
力音声素片Sj の中から選択されたN個の音声素片の集
合U={uk |uk =Sj (k=1,2,3,…,N)
に対して、歪みの総和を表す評価関数ED1(U)を次式
(1)のように定義する。
ij3 ,…,eijN )はeij1 ,eij2 ,eij3 ,…,e
ijN の中の最小値を表す関数である。集合Uの組合せは
NS !/{N!(NS −N)!}通りあり、これらの音
声素片の集合Uの中から評価関数ED1(U)を最小にす
るUを探索し、その要素uk を代表音声素片Dk とす
る。
24では、音素環境Pi 、歪みeijおよび代表音声素片
Dk より、音素環境に関する複数のクラスタ(音素環境
クラスタ)Ck (k=1,2,3,…,Ν)を生成す
る。音素環境クラスタCk は、例えば次式(2)で表さ
れるクラスタリングの評価関数EC1を最小化するクラス
タを探索することによって得られる。
成された代表音声素片Dk および音素環境クラスタCk
は、図1の代表音声素片記憶部12および音素環境クラ
スタ記憶部13にそれぞれ記憶される。
表音声素片生成部11の第2の実施形態による処理手順
について説明する。この第2の実施形態による代表音声
素片生成処理では、まず初期音素環境クラスタ生成ステ
ップS30において、何らかの先見的な知識に基づいて
予め音素環境のクラスタリングを行い、初期音素環境ク
ラスタを生成する。音素環境のクラスタリングには、例
えば音韻によるクラスタリングを行うことができる。
ング音声素片Ti のうち音韻が一致する音声素片のみを
それぞれ用いて、図2のステップS21,S22,S2
3,S24と同様の合成音声素片生成ステップS31、
歪み評価ステップS32、代表音声素片生成ステップS
33、音素環境クラスタ生成ステップS34の処理を順
次行い、全ての初期音素環境クラスタについて同様の操
作を繰り返すことにより、全ての代表音声素片およびそ
れに対応する音素環境クラスタの生成を行う。こうして
生成された代表音声素片および音素環境クラスタは、図
1の代表音声素片記憶部12および音素環境クラスタ記
憶部13にそれぞれ記憶される。
代表音声素片数が1であれば、初期音素環境クラスタが
代表音声素片の音素環境クラスタとなるため、音素環境
クラスタ生成ステップS34は不要となり、初期音素環
境クラスタを音素環境クラスタ記憶部13に記憶すれば
よい。
表音声素片生成部11の第3の実施形態による処理手順
を説明する。この第3の実施形態による代表音声素片生
成処理では、図2に示した第1の実施形態と同様に音声
合成ステップS41および歪み評価ステップS42を順
次経た後、次の音素環境クラスタ生成ステップS43に
おいて、音素環境Pi および歪みeijに基づいて音素環
境に関するクラスタCk (k=1,2,3,…,Ν)を
生成する。音素環境クラスタCk は、例えば次式(3)
(4)で表わされるクラスタリングの評価関数EC2を最
小化するクラスタを探索することによって得られる。
おいて、歪みeijに基づいて音素環境クラスタCk のそ
れぞれに対応する代表音声素片Dk を入力音声素片Sj
より選択する。この代表音声素片Dk は、入力音声素片
Sj から例えば次式(5)で表される歪み評価関数ED2
(j) を最小化する音声素片を探索することによって得ら
れる。
素片生成処理を変形し、第2の実施形態と同様に、何ら
かの先見的な知識に基づいて予め生成した初期音素環境
クラスタ毎に代表音声素片の生成および音素環境クラス
タの生成を行うことも可能である。
施形態について説明する。図5は、本発明の他の実施形
態に係る音声合成方法を実現する音声合成装置の構成を
示すブロック図である。図1と相対応する部分に同一の
参照符号を付して相違点を中心に説明すると、本実施形
態では音声合成部15の後段に適応ポストフィルタ16
が追加されている点が先の実施形態と異なり、これに加
えて代表音声素片生成部11における複数の合成音声素
片の生成法も先の実施形態と異なっている。
の実施形態と同様に、トレーニング音声素片101にラ
ベル付けされた音素環境102に含まれるピッチ周期お
よび継続時間長の情報に従って、入力音声素片103の
ピッチ周期および継続時間長を変更することで複数の合
成音声素片を内部的に生成した後、これらの合成音声素
片に対して適応ポストフィルタによるフィルタリングを
施してスペクトル整形を行う。そして、この適応ポスト
フィルタによりスペクトル整形を行った後の各合成音声
素片とトレーニング音声素片101との距離尺度に従っ
て、代表音声素片104と音素環境クラスタ105が生
成される。音素環境クラスタ105は、先の実施形態と
同様にトレーニング音声素片101を音素環境に関する
クラスタに分類して生成される。
て音素環境102に含まれるピッチ周期および継続時間
長の情報に従って入力音声素片103のピッチ周期およ
び継続時間長を変更して生成される複数の合成音声素片
に対してフィルタリングを施してスペクトル整形を行う
適応ポストフィルタは、音声合成部15の後段に配置さ
れる適応ポストフィルタ16と同様の構成でよい。
同様に代表音声素片選択情報107に従って代表音声素
片記憶部12より選択的に読み出された代表音声素片1
08に対し、韻律情報111に従ってピッチ周期および
音韻継続時間長を変更するとともに、素片の接続を行っ
て合成音声信号113を生成するが、本実施形態ではこ
の合成音声信号113がさらに適応ポストフィルタ16
に入力され、ここで音質向上のためのスペクトル整形が
行われた後、最終的な合成音声信号114が取り出され
る。
例を示す。この適応ポストフィルタ16は、ホルマント
強調フィルタ21とピッチ強調フィルタ22を縦続配置
して構成される。
素片選択情報107に従って代表音声素片記憶部12か
ら選択的に読み出された代表音声素片108をLPC分
析して得られるLPC係数に基づいて決定されるフィル
タ係数に従って、音声合成部15から入力される合成音
声信号113をフィルタリングすることにより、スペク
トルの山の部分を強調する処理を行う。一方、ピッチ強
調フィルタ22は、韻律情報111に含まれるピッチ周
期に基づいて決定されるパラメータに従って、ホルマン
ト強調フィルタ21の出力をフィルタリングすることに
より、音声信号のピッチを強調する処理を行う。なお、
ホルマント強調フィルタ21とピッチ強調フィルタ22
の配置順序は逆であってもよい。
によりスペクトルが整形され、「めりはり」のある明瞭
な音声を再生可能な合成音声信号114が得られる。適
応ポストフィルタ16としては図6に示した構成のもの
に限られず、音声符号化や音声合成の分野で用いられる
公知の技術に基づく種々の構成を採用することが可能で
ある。
において音声合成部15の後段に適応ポストフィルタ1
6が配置される点を考慮して、合成単位学習系1におい
ても代表音声素片生成部11で音素環境102に含まれ
るピッチ周期および継続時間長の情報に従って入力音声
素片103のピッチ周期および継続時間長を変更して生
成される複数の合成音声素片に対し、同様に適応ポスト
フィルタによるフィルタリングを行っている。従って、
適応ポストフィルタ16を通した後の最終的な合成音声
信号114と同様のレベルで、自然音声に対する歪みが
小さくなるような代表音声素片を代表音声素片生成部1
1において生成できるため、さらに自然音声に近い合成
音声を生成することが可能となる。
1の処理の実施形態について具体的に説明する。図7、
図8および図9のフローチャートは、図5における代表
音声素片生成部11の第1、第2および第3の実施形態
による処理手順を示している。図7、図8および図9で
は、先に説明した図2、図3および図4に示した処理手
順における音声合成ステップS21、S31およびS4
1の後に、ポストフィルタリングステップS25、S3
6およびS45が追加されている。
36およびS45では、前述した適応ポストフィルタに
よるフィルタリングを行う。すなわち、音声合成ステッ
プS21、S31およびS41で生成された合成音声素
片Gijに対し、入力音声素片Si をLPC分析して得ら
れるLPC係数に基づいて決定されるフィルタ係数に従
ってフィルタリングを行うことにより、スペクトルの山
の部分を強調するホルマント強調を行う。また、このホ
ルマント強調後の合成音声素片に対し、さらにトレーニ
ング音声素片Ti のピッチ周期に基づいて決定されるパ
ラメータに従ってフィルタリングを行うことにより、ピ
ッチ強調を行う。
テップS25、S36およびS45において、スペクト
ル整形を行う。このポストフィルタリングステップS2
5、S36およびS45は、前述したように規則合成系
2において音声合成部15の後段に設けられる適応ポス
トフィルタ16により合成音声信号113のスペクトル
整形を行って音質の向上を図るポストフィルタリングを
行うことを前提に、合成単位の学習を可能とする処理で
あり、この処理を適応ポストフィルタ16による処理と
組み合わせることによって、最終的に「めりはり」のあ
る明瞭な合成音声信号114が生成される。
の実施形態について説明する。図10は、本発明の他の
実施形態に係る音声合成方法を実現する音声合成装置の
構成を示すブロック図である。図1と相対応する部分に
同一の参照符号を付して相違点を中心に説明すると、本
実施形態では代表音声素片生成部31に入力音声素片1
03が入力されていない点がこれまでの実施形態と異な
っている。
ように入力音声素片103の中から選択した音声素片を
代表音声素片104とするのではなく、トレーニング音
声素片101に対して最適な代表音声素片104を計算
によって新たに生成する。音素環境クラスタ105は、
先の実施形態と同様にトレーニング音声素片101を音
素環境に関するクラスタに分類して生成される。
31の処理の実施形態について具体的に説明する。図1
1のフローチャートは、代表音声素片生成部31の第1
の実施形態による処理手順を示している。この第1の実
施形態による代表音声素片生成処理では、先の実施形態
の代表音声素片生成部11における代表音声素片生成処
理と同様に、まず、準備段階として連続発声された多数
の音声データに音韻毎にラベリングを行い、CV,VC
V,CVCなどの合成単位に従ってトレーニング音声素
片Ti (i=1,2,3,…,NT )を切り出す。ま
た、各トレーニング音声素片に対応する音素環境P
i(1,2,3,…,Nr)を抽出しておく。ただし、
NT はトレーニング音声素片の個数を表す。音素環境
は、少なくとも当該トレーニング音声素片の音韻とその
ピッチパターンおよび継続時間長を含むものとし、その
他に必要に応じて前後の音素などを含むものとする。
声素片初期化ステップS51で、指定された代表音声素
片数Nの代表音声素片Dk (k=1,2,3,…,N)
を初期化して初期代表音声素片Dk 0 (k=1,2,
3,…,N)を生成する。初期代表音声素片Dk 0 とし
ては、任意の音声素片を用いることが可能であり、例え
ばトレーニング音声素片Ti からランダムに選択された
素片を用いることができる。
のピッチおよび継続時間長をPi のピッチパターンおよ
び継続時間長に等しくなるように変更して音声を合成し
て合成音声素片Gikを生成する。ここでのピッチおよび
継続時間長の変更は、音声合成部20におけるピッチお
よび継続時間長の変更と同様の方法で行われるものとす
る。全てのPi (i=1,2,3,…,NT )に従って
Dk 0 (k=1,2,3,…,NT )を用いて合成を行
うことにより、NT ×N個の合成音声素片Gik(i=
1,2,3,…,NT 、k=1,2,3,…N)を生成
する。
音声素片Gikとトレーニング音声素片との間で定義さ
れる歪みeijの評価を行う。歪みの評価法としては、
波形の2乗誤差や何らかのスペクトル距離を用いること
ができる。例えば、FFTなどを用いてパワースペクト
ルを求めてその間の距離を求める方法や、あるいは線形
予測分析を行ってLPCまたはLSPパラメータなどを
求めてパラメータ間の距離を評価する方法などがある。
その他にも、短時間フーリエ変換やウェーブレット変換
などの変換係数を用いて評価する方法が考えられる。ま
た、各素片のパワーを正規化した上で歪みの評価を行う
ことも考えられる。
4では音素環境Pi および歪みeikに基づいて、音素環
境に関するクラスタCk (k=1,2,3,…,N)を
生成する。音素環境クラスタCk は、例えば次式で表さ
れるクラスタリングの評価関数EC3を最小化するクラス
タを探索することによって得られる。
境クラスタCk (k=1,2,3,…,N)の和集合は
音素環境の全体集合Aと等しく、かつ任意の異なる2つ
の音素環境クラスタの積集合は空集合φになるものとす
る。
は、代表音声素片を更新するため、クラスタCk に対応
する代表音声素片Dk 1 をクラスタ毎に求める。代表音
声素片Dk 1 は、クラスタに属するトレーニング音声素
片と、対応する合成音声素片との歪みの総和を表す評価
関数が最小になるように計算される。評価関数として
は、例えば次式に示す波形の2乗誤差の総和を用いるこ
とができる。
波形を表すベクトル、gik(Dk )はPi に従ってDk
を用いて合成された合成音声素片Gikの波形を表すベク
トルである。また、評価関数の例としては、これ以外に
もパワースペクトルの距離やLPC,LSPなどのパラ
メータ間の距離の総和などがある。評価関数を代表音声
素片で偏微分したものを0とおいた方程式が解ける場合
には、これを解いて評価関数を最小にする代表音声素片
を解析的に求めることができる。それ以外の場合は、公
知の最適化手法を用いて代表音声素片を求めることがで
きる。
の処理で、初期代表音声素片Dk 0から代表音声素片Dk
1 に更新される。代表音声素片が更新されたことによ
って音素環境クラスタが変化するため、代表音声素片お
よび音素環境クラスタの変化が十分小さくなり収束する
まで、ステップS52からS55までの処理を繰り返す
必要がある。
は、更新の前後における代表音声素片の変化の度合から
代表音声素片および音素環境クラスタの変化が収束した
か否かを判定し、収束していないと判定された場合はス
テップS52からS55までの処理を繰り返してさらに
代表音声素片を更新し、収束したと判定された場合は処
理を終了し、最新の代表音声素片Dk m (k=1,2,
3,…,N、mは繰り返し回数)が代表音声素片Dk
(k=1,2,3,…,N)となる。
び音素環境クラスタCk は、図10の代表音声素片記憶
部12および音素環境クラスタ記憶部13にそれぞれ記
憶される。
代表音声素片生成部31の第2の実施形態による処理手
順について説明する。この第2の実施形態による代表音
声素片生成処理では、まず初期音素環境クラスタ生成ス
テップS61において、何らかの先見的な知識に基づい
て予め音素環境のクラスタリングを行い、初期音素環境
クラスタを生成する。音素環境のクラスタリングには、
例えば音韻によるクラスタリングを行うことができる。
音韻が一致する音声素片のみを用いて、図11のステッ
プS51、S52、S53、S54、S55、S56と
同様の代表音声素片初期化ステップS62、音声合成ス
テップS63、歪み評価ステップS64、音素環境クラ
スタ生成ステップS65、代表音声素片生成ステップS
66、収束判定ステップS67の処理を順次行い、全て
の初期音素環境クラスタについて同様の操作を繰り返す
ことにより、全ての代表音声素片およびそれに対応する
音素環境クラスタの生成を行う。こうして生成された代
表音声素片および音素環境クラスタは、図10の代表音
声素片記憶部12および音素環境クラスタ記憶部13に
それぞれ記憶される。
音声素片数が1であれば、初期音素環境クラスタが代表
音声素片の音素環境クラスタとなるため、ステップS6
2、S63、S64、S65、S67の処理は不要とな
り、初期音素環境クラスタに対応する代表音声素片を代
表音声素片生成ステップS66で求めればよい。この場
合には、初期音素環境クラスタを音素環境クラスタ記憶
部13に記憶すればよい。
代表音声素片生成部31の第3の実施形態による処理手
順について説明する。まず、図11のステップS51、
S52、S53と同様の代表音声素片初期化ステップS
71、音声合成ステップS71、歪み評価ステップS7
3の処理を順次行って、合成音声素片Gikとトレーニン
グ音声素片Ti の間の歪みeikを求める。
ステップS74では、歪みeikに基づいてトレーニング
音声素片Ti のクラスタC′k (k=1,2,3,…,
N)を生成する。このトレーニング音声素片クラスタ
C′k は、例えば次式で表されるクラスタリングの評価
関数EC4を最小化するクラスタを探索することによって
得られる。
同様の代表音声素片生成ステップS75、収束判定ステ
ップS76の処理を順次行って、代表音声素片およびそ
れに対応するトレーニング音声素片クラスタが生成され
る。
77では、トレーニング音声素片クラスタC′k に属す
るトレーニング音声素片Ti に共通する音素環境を抽出
して音素環境クラスタCk を生成する。但し、音素環境
クラスタCk (k=1,2,3,…,N)は、式(7)
(8)の条件を満たすものとする。また、本実施形態の
音声合成方法に前の実施形態と同様にポストフィルタリ
ング処理を組み合わせることも可能である。
声合成装置の特性をも考慮した代表音声素片の生成が可
能であり、この代表素片を接続して音声合成を行うこと
によって、自然音声に近い高品質の合成音声を生成する
ことができる。
ック図
態による処理手順を示すフローチャート
形態による処理手順を示すフローチャート
態による処理手順を示すフローチャート
ロック図
ロック図
態による処理手順を示すフローチャート
形態による処理手順を示すフローチャート
態による処理手順を示すフローチャート
ブロック図
施形態による処理手順を示すフローチャート
実施形態による処理手順を示すフローチャート
施形態による処理手順を示すフローチャート
環境 103…入力音声素片(第2の音声素片) 104…代表音声素片 105…音素環境クラスタ 106…音素環境クラスタ 107…代表音声素片選択情報 108…代表音声素片 111…韻律情報 112…音韻記号列 113…合成音声信号 114…合成音声信号
Claims (4)
- 【請求項1】複数のトレーニング音声素片のピッチおよ
び継続時間長の少なくとも一方に従って、既に生成され
ている代表音声素片のピッチおよび継続時間長の少なく
とも一方を変更することにより複数の合成音声素片を生
成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて、前記合成音
声素片のそれぞれの歪みを評価し、 前記歪みの情報を用いた評価関数を最小とする代表音声
素片を計算により生成して記憶し、 記憶された複数の代表音声素片から入力音素に対応した
代表音声素片を選択して接続することによって合成音声
を生成することを特徴とする音声合成方法。 - 【請求項2】音素環境がラベル付けされた複数のトレー
ニング音声素片のピッチおよび継続時間長の少なくとも
一方に従って、既に生成されている代表音声素片のピッ
チおよび継続時間長の少なくとも一方を変更することに
より複数の合成音声素片を生成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて、前記合成音
声素片のそれぞれの歪みを評価し、 前記音素環境及び前記歪みの情報を用いたクラスタリン
グ評価関数に基づいて複数の音素環境クラスタを生成
し、 前記音素環境クラスタの各々に属する前記トレーニング
音声素片と対応する前記合成音声素片との歪みの情報を
用いた評価関数を最小とする代表音声素片を計算により
生成して記憶し、 記憶された複数の代表音声素片から入力音素の音素環境
が属する音素環境クラスタに対応する代表音声素片を選
択して接続することによって合成音声を生成することを
特徴とする音声合成方法。 - 【請求項3】複数の代表音声素片を生成する代表音声素
片生成部と、 前記代表音声素片を記憶する代表音声素片記憶部と、 記憶された代表音声素片から入力音素に対応する代表音
声素片を選択する素片選択部と、 選択された代表音声素片を接続することによって合成音
声を生成する音声合成部とを備え、 前記代表音声素片生成部は、 複数のトレーニング音声素片のピッチおよび継続時間長
の少なくとも一方に従って、既に生成されている代表音
声素片のピッチおよび継続時間長の少なくとも一方を変
更することにより複数の合成音声素片を生成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて、前記合成音
声素片のそれぞれの歪みを評価し、 前記歪みの情報を用いた評価関数を最小とする代表音声
素片を計算により生成することを特徴とする音声合成装
置。 - 【請求項4】複数の代表音声素片を生成する代表音声素
片生成部と、 前記代表音声素片を記憶する代表音声素片記憶部と、 記憶された代表音声素片から入力音素に対応する代表音
声素片を選択する素片選択部と、 選択された代表音声素片を接続することによって合成音
声を生成する音声合成部とを備え、 前記代表音声素片生成部は、 音素環境がラベル付けされた複数のトレーニング音声素
片のピッチおよび継続時間長の少なくとも一方に従っ
て、既に生成されている代表音声素片のピッチおよび継
続時間長の少なくとも一方を変更することにより複数の
合成音声素片を生成し、 前記合成音声素片のそれぞれと前記トレーニング音声素
片のそれぞれとの間の距離尺度に基づいて、前記合成音
声素片のそれぞれの歪みを評価し、 前記音素環境及び前記歪みの情報を用いたクラスタリン
グ評価関数に基づいて複数の音素環境クラスタを生成
し、 前記音素環境クラスタの各々に属する前記トレーニング
音声素片と対応する前記合成音声素片との歪みの情報を
用いた評価関数を最小とする代表音声素片を計算により
生成することを特徴とする音声合成装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP04669497A JP3281281B2 (ja) | 1996-03-12 | 1997-02-28 | 音声合成方法及び装置 |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP5471496 | 1996-03-12 | ||
JP8-77393 | 1996-03-29 | ||
JP7739396 | 1996-03-29 | ||
JP8-54714 | 1996-03-29 | ||
JP04669497A JP3281281B2 (ja) | 1996-03-12 | 1997-02-28 | 音声合成方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH09319394A JPH09319394A (ja) | 1997-12-12 |
JP3281281B2 true JP3281281B2 (ja) | 2002-05-13 |
Family
ID=27292700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP04669497A Expired - Lifetime JP3281281B2 (ja) | 1996-03-12 | 1997-02-28 | 音声合成方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3281281B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668717B2 (en) | 2003-11-28 | 2010-02-23 | Kabushiki Kaisha Toshiba | Speech synthesis method, speech synthesis system, and speech synthesis program |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091475A (ja) * | 2000-09-18 | 2002-03-27 | Matsushita Electric Ind Co Ltd | 音声合成方法 |
US7546241B2 (en) | 2002-06-05 | 2009-06-09 | Canon Kabushiki Kaisha | Speech synthesis method and apparatus, and dictionary generation method and apparatus |
DE04735990T1 (de) * | 2003-06-05 | 2006-10-05 | Kabushiki Kaisha Kenwood, Hachiouji | Sprachsynthesevorrichtung, sprachsyntheseverfahren und programm |
JP4664194B2 (ja) * | 2005-11-29 | 2011-04-06 | パナソニック株式会社 | 声質制御装置および方法およびプログラム記憶媒体 |
JP5106274B2 (ja) * | 2008-06-30 | 2012-12-26 | 株式会社東芝 | 音声処理装置、音声処理方法及びプログラム |
-
1997
- 1997-02-28 JP JP04669497A patent/JP3281281B2/ja not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7668717B2 (en) | 2003-11-28 | 2010-02-23 | Kabushiki Kaisha Toshiba | Speech synthesis method, speech synthesis system, and speech synthesis program |
US7856357B2 (en) | 2003-11-28 | 2010-12-21 | Kabushiki Kaisha Toshiba | Speech synthesis method, speech synthesis system, and speech synthesis program |
Also Published As
Publication number | Publication date |
---|---|
JPH09319394A (ja) | 1997-12-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4551803B2 (ja) | 音声合成装置及びそのプログラム | |
JP4328698B2 (ja) | 素片セット作成方法および装置 | |
US6144939A (en) | Formant-based speech synthesizer employing demi-syllable concatenation with independent cross fade in the filter parameter and source domains | |
US7856357B2 (en) | Speech synthesis method, speech synthesis system, and speech synthesis program | |
US5740320A (en) | Text-to-speech synthesis by concatenation using or modifying clustered phoneme waveforms on basis of cluster parameter centroids | |
US5905972A (en) | Prosodic databases holding fundamental frequency templates for use in speech synthesis | |
JP5038995B2 (ja) | 声質変換装置及び方法、音声合成装置及び方法 | |
US6792407B2 (en) | Text selection and recording by feedback and adaptation for development of personalized text-to-speech systems | |
EP1221693B1 (en) | Prosody template matching for text-to-speech systems | |
JP3667950B2 (ja) | ピッチパターン生成方法 | |
JP3910628B2 (ja) | 音声合成装置、音声合成方法およびプログラム | |
JP2004264856A (ja) | 最適区画の分類神経網の構成方法、最適区画の分類神経網を用いた自動ラベリング方法、並びに装置 | |
JPH031200A (ja) | 規則型音声合成装置 | |
Tsuzuki et al. | Constructing emotional speech synthesizers with limited speech database | |
JP3281266B2 (ja) | 音声合成方法及び装置 | |
JP3281281B2 (ja) | 音声合成方法及び装置 | |
CN1787072B (zh) | 基于韵律模型和参数选音的语音合成方法 | |
JP4225128B2 (ja) | 規則音声合成装置及び規則音声合成方法 | |
JP2583074B2 (ja) | 音声合成方法 | |
WO2012032748A1 (ja) | 音声合成装置、音声合成方法及び音声合成プログラム | |
Majji et al. | Festival based maiden TTS system for Tamil language | |
JP3727885B2 (ja) | 音声素片生成方法と装置及びプログラム、並びに音声合成方法と装置 | |
JP4034751B2 (ja) | 音声合成装置、音声合成方法および音声合成プログラム | |
JP3459600B2 (ja) | 音声合成装置のための音声データ量削減装置及び音声合成装置 | |
Banerjee et al. | Modified PSOLA-Genetic Algorithm based approach for Voice Re-Construction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20080222 Year of fee payment: 6 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090222 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100222 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100222 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110222 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120222 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130222 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140222 Year of fee payment: 12 |
|
EXPY | Cancellation because of completion of term |