JPH09319391A

JPH09319391A - 音声合成方法

Info

Publication number: JPH09319391A
Application number: JP8250150A
Authority: JP
Inventors: Takehiko Kagoshima; 岳彦籠嶋; Masami Akamine; 政巳赤嶺
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1996-03-12
Filing date: 1996-09-20
Publication date: 1997-12-12
Anticipated expiration: 2016-09-20
Also published as: JP3281266B2

Abstract

(57)【要約】【課題】テキスト音声合成による合成音声の音質を効果
的に向上させることができる音声合成方法を提供する。【解決手段】代表音声素片生成部１１において音素環境
１０２がラベル付けされたトレーニング音声素片１０１
のピッチ・継続時間長に従って入力音声素片１０３のピ
ッチ・継続時間長を変更して複数の合成音声素片を生成
し、合成音声素片とトレーニング音声素片１０１との間
の距離尺度に基づいて入力音声素片１０３から代表音声
素片１０４を選択して代表音声素片記憶部１２に記憶
し、さらに距離尺度に基づいて代表音声素片にそれぞれ
対応する複数の音素環境クラスタ１０５を生成して音素
環境クラスタ記憶部１３に記憶し、代表音声素片記憶部
１２から入力音素の音素環境を含む音素環境クラスタに
対応する代表音声素片を読み出して音声合成部１５で接
続することにより、合成音声信号１１３を生成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、テキスト音声合成
のための音声合成方法に係り、特に音韻記号列、ピッチ
および音韻継続時間長などの情報から音声信号を生成す
る音声合成方法に関する。

【０００２】

【従来の技術】任意の文章から人工的に音声信号を作り
出すことをテキスト音声合成という。テキスト音声合成
は、一般的に言語処理部、音韻処理部および音声合成部
の３つの段階によって行われる。入力されたテキスト
は、まず言語処理部において形態素解析や構文解析など
が行われ、次に音韻処理部においてアクセントやイント
ネーシヨンの処理が行われて、音韻記号列・ピッチ・音
韻継続時間長などの情報が出力される。最後に、音声信
号合成部で音韻記号列・ピッチ・音韻継続時間長などの
情報から音声信号を合成する。そこで、テキスト音声合
成に用いる音声合成方法は、任意の音韻記号列を任意の
韻律で音声合成することが可能な方法でなければならな
い。

【０００３】このような任意の音韻記号列を音声合成す
る音声合成装置の原理は、母音をＶ、子音をＣで表す
と、ＣＶ、ＣＶＣ、ＶＣＶといった基本となる小さな単
位の特徴パラメータ（これを代表音声素片という）を記
憶し、これらを選択的に読み出した後、ピッチや継続時
間長を制御して接続することにより、音声を合成すると
いうものである。従って、記憶されている代表音声素片
が合成音声の品質を大きく左右することになる。

【０００４】従来、これらの代表音声素片の作成はもっ
ぱら人手に頼っており、音声信号の中から試行錯誤的に
切り出してくる場合がほとんどであるため、膨大な労力
を要していた。このような代表音声素片作成の作業を自
動化し、音声合成に使用するのに適した代表音声素片を
容易に生成する方法として、例えば音素環境クラスタリ
ング（ＣＯＣ）と呼ばれる技術が特開昭６４−７８３０
０「音声合成方法」に開示されている。

【０００５】ＣＯＣの原理は、音素名や音素環境のラベ
ルを多数の音声素片に付与し、そのラベルが付与された
音声素片を音声素片間の距離尺度に基づいて音素環境に
関する複数のクラスタに分類し、その各クラスタのセン
トロイドを代表音声素片とするものである。ここで、音
素環境とは当該音声素片にとっての環境となる要因全て
の組合せであり、その要因としては当該音声素片の音素
名、先行音素、後続音素、後々続音素、ピッチ周期、パ
ワー、ストレスの有無、アクセント核からの位置、息継
ぎからの時間、発声速度、感情などが考えられる。実音
声中の各音素は音素環境によって音韻が変化しているた
め、音素環境に関する複数のクラスタ毎に代表音声素片
を記憶しておくことにより、音素環境の影響を考慮した
自然な音声を合成することが可能となっている。

【０００６】

【発明が解決しようとする課題】上に述べたように、テ
キスト音声合成のための音声合成では、代表音声素片の
ピッチや継続時間長を指定された値に変更して合成する
必要がある。このようなピッチや継続時間長の変更によ
り、代表音声素片を切り出してきた音声信号の音質と比
較して合成音声の音質がある程度劣化することになる。

【０００７】これに対して、上記のＣＯＣによるクラス
タリングでは、音声素片間の距離尺度に基づいてクラス
タリングを行っているにすぎないため、合成の際のピッ
チや継続時間の変更の効果が全く考慮されていないとい
う問題がある。すなわち、ＣＯＣによるクラスタリング
および各クラスタの代表音声素片は、実際にピッチや継
続時間長を変更して合成された合成音声のレベルでは、
必ずしも適当なものになっているという保証はない。

【０００８】本発明は、このような問題点を解決すべく
なされたものであり、テキスト音声合成による合成音声
の音質を効果的に向上させることができる音声合成方法
を提供することを目的とする。

【０００９】

【課題を解決するための手段】上記の課題を解決するた
め、本発明はピッチや継続時間長の変更の影響を考慮し
て、合成音声のレベルで自然音声に対する歪みが小さく
なるような代表音声素片を生成し、その代表音声素片を
用いて音声を合成することにより、自然音声に近い合成
音声を生成するようにしたものである。

【００１０】すなわち、本発明に係る音声合成方法は、
複数の第１の音声素片のピッチおよび継続時間長の少な
くとも一方に従って複数の第２の音声素片のピッチおよ
び継続時間長の少なくとも一方を変更することにより複
数の合成音声素片を生成し、これらの合成音声素片と第
１の音声素片との間の距離尺度に基づいて第２の音声素
片から複数の代表音声素片を選択して記憶し、これらの
代表音声素片から所定の代表音声素片を選択して接続す
ることによって音声を合成することを特徴とする。

【００１１】ここで、第１および第２の音声素片は、Ｃ
Ｖ，ＶＣＶ，ＣＶＣといった音声合成単位で音声信号中
から切り出される素片であり、切り出された波形もしく
はその波形から何らかの方法で抽出されたパラメータ系
列などを表すものとする。これらのうち、第１の音声素
片は合成音声の歪みを評価するために用いられ、また第
２の音声素片は代表音声素片の候補として用いられる。
合成音声素片は、第２の音声素片に対して少なくともピ
ッチまたは継続時間長を変更して生成される合成音声波
形またはパラメータ系列などを表す。

【００１２】合成音声素片と第１の音声素片との間の距
離尺度によって、合成音声の歪みが表わされる。従っ
て、この距離尺度つまり歪みがより小さくなる音声素片
を第２の音声素片から選択して代表音声素片として記憶
しておき、これらの代表音声素片から所定の代表音声素
片を選択して接続すれば、自然音声に近い高品質の合成
音声が生成される。

【００１３】本発明の第１の態様では、音素環境がラベ
ル付けされた複数の第１の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第２の音声素片
のピッチおよび継続時間長の少なくとも一方を変更して
複数の合成音声素片を生成し、これらの合成音声素片と
第１の音声素片との間の距離尺度に基づいて第２の音声
素片から複数の代表音声素片を選択して記憶し、前記距
離尺度に基づいて代表音声素片にそれぞれ対応する複数
の音素環境クラスタを生成し、複数の代表音声素片から
入力音素の音素環境を含む音素環境クラスタに対応する
代表音声素片を選択して接続することによって音声を合
成する。

【００１４】ここで、音素環境とは前述した通り音声素
片にとっての環境となる要因、例えば当該音声素片の音
素名、先行音素、後続音素、後々続音素、ピッチ周期、
パワー、ストレスの有無、アクセント核からの位置、息
継ぎからの時間、発声速度、感情といった要素の組み合
わせであり、音素環境クラスタとは言い換えれば音素環
境の集合であり、例えば「当該素片の音韻が／ｋａ／、
先行音韻が／ｉ／または／ｕ／、ピッチ周波数が２００
Ηｚ以下」というようなものを意味する。

【００１５】第１の態様のように、距離尺度つまり合成
音声の歪みに基づいて代表音声素片にそれぞれ対応する
複数の音素環境クラスタを生成し、入力音素の音素環境
を含む音素環境クラスタに対応する代表音声素片を選択
して接続するようにすれば、例えば同一音素名の音声素
片が複数の音素環境に存在する場合でも、実際の入力音
素の音素環境が含まれる音素環境クラスタに対応する代
表音声素片のみが選択されることにより、より自然な合
成音声が得られる。

【００１６】本発明の第２の態様では、音素環境がラベ
ル付けされた複数の第１の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第２の音声素片
のピッチおよび継続時間長の少なくとも一方を変更して
複数の合成音声素片を生成し、これらの合成音声素片と
第１の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、前記距離尺度に基づいて第２の
音声素片から各音素環境クラスタにそれぞれ対応する複
数の代表音声素片を選択して記憶し、これらの代表音声
素片から所定の代表音声素片を選択して接続することに
よって音声を合成する。この第２の態様は、音声素片が
一つの音素環境にのみ存在する場合に有効である。

【００１７】本発明の第３の態様では、音素環境がラベ
ル付けされた複数の第１の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第２の音声素片
のピッチおよび継続時間長の少なくとも一方を変更して
複数の合成音声素片を生成し、これらの合成音声素片と
第１の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、第１の音声素片と合成音声素片
との間の距離尺度に基づいて第２の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、これらの代表音声素片から入力音素の
音素環境を含む音素環境クラスタに対応する代表音声素
片を選択して接続することによって音声を合成する。

【００１８】この第３の態様によっても、第１の態様と
同様に、例えば同一音素名の音声素片が複数の音素環境
に存在する場合、実際の入力音素の音素環境が含まれる
音素環境クラスタに対応する代表音声素片のみが選択さ
れることにより、より自然な合成音声が得られる。

【００１９】また、本発明に係る他の音声合成方法は、
複数の第１の音声素片のピッチおよび継続時間長の少な
くとも一方に従って複数の第２の音声素片のピッチおよ
び継続時間長の少なくとも一方を変更することにより複
数の合成音声素片を生成し、さらにこれらの合成音声素
片についてスペクトル整形を行い、このスペクトル整形
を行った後の各合成音声素片と第１の音声素片との間の
距離尺度に基づいて第２の音声素片から複数の代表音声
素片を選択して記憶し、これらの代表音声素片から所定
の代表音声素片を選択して接続することによって音声を
合成し、この合成した音声のスペクトル整形を行って最
終的な合成音声を生成することを特徴とする。

【００２０】この場合、先に示した第１、第２および第
３の態様においても、複数の合成音声素片を生成した
後、スペクトル整形を行うようにする。ここで、スペク
トル整形は「めりはり」のある明瞭な音声を合成するた
めの処理であり、例えばホルマント強調やピッチ強調を
行う適応ポストフィルタによるフィルタリングによって
実現される。

【００２１】このように代表音声素片の接続によって合
成される音声に対してスペクトル整形を行うと共に、合
成音声素片に対しても同様のスペクトル整形を行うこと
によって、スペクトル整形後の最終的な合成音声のレベ
ルで、自然音声に対する歪が小さくなるような代表音声
素片を生成できるため、「めりはり」に優れたより明瞭
な合成音声が得られる。

【００２２】本発明においては、代表音声素片として、
音源信号と該音源信号を入力として合成音声信号を生成
する合成フィルタの係数の組の情報を記憶するようにし
てもよい。この場合、音源信号と合成フィルタの係数を
量子化し、これら量子化した音源信号と合成フィルタの
係数の組の情報を記憶するようにすれば、代表音声素片
として記憶する音源信号と合成フィルタの係数の数を減
少させることができるため、合成単位の学習に要する計
算時間が短縮され、かつ実際の音声合成時に必要なメモ
リ量が低減される。

【００２３】さらに、代表音声素片の情報として記憶す
る音源信号および合成フィルタの係数のうちの少なくと
も一方の数を音声合成単位の総数や、音素環境クラスタ
の総数より少なくすることも可能であり、このようにし
ても良好な合成音声を得ることができる。

【００２４】

【発明の実施の形態】以下、図面を参照して本発明の実
施形態を説明する。（第１の実施形態）図１は、本発明の第１の実施形態に
係る音声合成方法を実現する音声合成装置の構成を示す
ブロック図である。この音声合成装置は、大きく分けて
合成単位学習系１と規則合成系２からなる。実際にテキ
スト音声合成を行う場合に動作するのは規則合成系２で
あり、合成単位学習系１は事前に学習を行って代表音声
素片を生成するものである。

【００２５】まず、合成単位学習系１について説明す
る。合成単位学習系１は、代表音声素片とこれに付随す
る音素環境クラスタを生成する代表音声素片生成部１１
と代表音声素片記憶部１２および音素環境クラスタ記憶
部１３により構成される。代表音声素片生成部１１に
は、第１の音声素片であるトレーニング音声素片１０１
とこれにラベル付けされた音素環境１０２および第２の
音声素片である入力音声素片１０３が入力される。

【００２６】代表音声素片生成部１１では、トレーニン
グ音声素片１０１にラベル付けされた音素環境１０２に
含まれるピッチ周期および継続時間長の情報に従って、
入力音声素片１０３のピッチ周期および継続時間長を変
更することで複数の合成音声素片が内部的に生成され、
さらにこれらの合成音声素片とトレーニング音声素片１
０１との距離尺度に従って、代表音声素片１０４と音素
環境クラスタ１０５が生成される。音素環境クラスタ１
０５は、トレーニング音声素片１０１を後述するように
音素環境に関するクラスタに分類して生成される。

【００２７】代表音声素片１０４は代表音声素片記憶部
１２に記憶され、音素環境クラスタ１０５は代表音声素
片１０４と対応付けられて音素環境クラスタ記憶部１３
に記憶される。代表音声素片生成部１１の処理について
は、後に詳細に説明する。

【００２８】次に、規則合成系２について説明する。規
則合成系２は、代表音声素片記憶部１２と音素環境クラ
スタ記憶部１３と素片選択部１４および音声合成部１５
により構成され、代表音声素片記憶部１２と音素環境ク
ラスタ記憶部１３を合成単位学習系１と共有している。

【００２９】素片選択部１４には、入力音素の情報とし
て、例えばテキスト音声合成のために入力テキストの形
態素解析・構文解析後さらにアクセントやイントネーシ
ョン処理を行って得られた韻律情報１１１と音韻記号列
１１２が入力される。韻律情報１１１には、ピッチパタ
ーンおよび音韻継続時間長が含まれている。素片選択部
１４では、これらの韻律情報１１１と音韻記号列１１２
から入力音素の音素環境を内部的に生成する。

【００３０】そして、素片選択部１４は音素環境クラス
タ記憶部１３より読み出された音素環境クラスタ１０６
を参照して、入力音素の音素環境がどの音素環境クラス
タに属するかを探索し、探索した音素環境クラスタに対
応する代表音声素片選択情報１０７を代表音声素片記憶
部１２へ出力する。

【００３１】音声合成部１５は、代表音声素片選択情報
１０７に従って代表音声素片記憶部１２より選択的に読
み出された代表音声素片１０８に対して、韻律情報１１
１に従ってピッチ周期および音韻継続時間長を変更する
とともに、素片の接続を行って合成音声信号１１３を出
力する。ここで、ピッチおよび継続時間長を変更して素
片を接続し音声を合成する方法としては、例えば残差駆
動ＬＳＰ方法や波形編集方法など公知の技術を用いるこ
とができる。

【００３２】次に、本発明の特徴をなす代表音声素片生
成部１１の処理手順について具体的に説明する。図２の
フローチャートは、代表音声素片生成部１１の第１の処
理手順を示している。

【００３３】この第１の実施形態による代表音声素片生
成処理では、まず準備段階として連続発声された多数の
音声データに対して音韻毎にラベリングを行い、ＣＶ，
ＶＣＶ，ＣＶＣなどの合成単位に従って、トレーニング
音声素片Ｔ_i （ｉ＝１，２，３，…，Ｎ_T ）を切り出
す。また、各卜レーニング音声素片Ｔ_i に対応する音素
環境Ｐ_i （ｉ＝１，２，３，…，Ｎ_T ）も抽出してお
く。ただし、Ｎ_T はトレーニング音声素片の個数を表
す。音素環境Ｐ_i は、少なくともトレーニング音声素片
Ｔ_i の音韻とそのピッチおよび継続時間長の情報を含む
ものとし、その他に必要に応じて前後の音素などの情報
を含むものとする。

【００３４】次に、上述したトレーニング音声素片Ｔ_i
の作成と同様の方法により、多数の入力音声素片Ｓ_j
（ｉ＝１，２，３，…，Ｎ_S ）を作成する。ただし、Ｎ
_S は入力音声素片の個数を表す。ここで、入力音声素片
Ｓ_j としてはトレーニング音声素片Ｔ_i と同じものを使
用してもよいし（すなわちＴ_i ＝Ｓ_i ）、トレーニング
音声素片Ｔ_i とは異なる音声素片を作成してもよい。い
ずれにしても、豊富な音韻環境を有する多数のトレーニ
ング音声素片および入力音声素片が用意されていること
が望ましい。

【００３５】このような準備段階を経た後、まず音声合
成ステップＳ２１で、音素環境Ｐ_iに含まれるピッチお
よび継続時間長に等しくなるように、入力音声素片Ｓ_j
のピッチおよび継続時間長を変更して音声を合成するこ
とにより、合成音声素片Ｇ_ijを生成する。ここでのピッ
チおよび継続時間長の変更は、音声合成部１５における
ピッチおよび継続時間長の変更と同様の方法で行われる
ものとする。全ての音素環境Ｐ_i （ｉ＝１，２，３，
…，Ｎ_T ）に従って入力音声素片Ｓ_i （ｊ＝１，２，
３，…，Ｎ_S ）を用いて音声の合成を行うことにより、
Ｎ_T ×Ｎ_S 個の合成音声素片Ｇ_ij（ｉ＝１，２，３，
…，Ｎ_T 、ｊ＝１，２，３，…，Ｎ_S ）を生成する。

【００３６】次に、歪み評価ステップＳ２２では、合成
音声素片Ｇ_ijの歪みｅ_ijの評価を行う。この歪みｅ_ijの
評価は、合成音声素片Ｇ_ijとトレーニング音声素片Ｔ_i
との間の距離尺度を求めることにより行う。距離尺度に
は、何らかのスペクトル距離を用いることができる。例
えば、合成音声素片Ｇ_ijおよびトレーニング音声素片Ｔ
_i について、ＦＦＴ（高速フーリエ変換）などを用いて
パワースペクトルを求めて各パワースペクトル間の距離
を評価する方法や、あるいは線形予測分析を行ってＬＰ
ＣまたはＬＳＰパラメータなどを求めて各パラメータ間
の距離を評価する方法などがある。その他にも、短時間
フーリエ変換やウェーブレット変換などの変換係数を用
いて評価する方法も用いることができる。また、各素片
のパワーを正規化した上で歪みの評価を行う方法でもよ
い。

【００３７】次に、代表音声素片生成ステップＳ２３で
は、ステップＳ２２で得られた歪みｅ_ijに基づいて、入
力音声素片Ｓ_j の中から指定された代表音声素片数Νの
代表音声素片Ｄ_k （ｋ＝１，２，３，…，Ｎ）を選択す
る。

【００３８】代表音声素片選択法の一例を説明する。入
力音声素片Ｓ_j の中から選択されたＮ個の音声素片の集
合Ｕ＝｛ｕ_k ｜ｕ_k ＝Ｓ_j （ｋ＝１，２，３，…，
Ｎ）｝に対して、歪みの総和を表す評価関数Ｅ_D1（Ｕ）
を次式（１）のように定義する。

【００３９】

【数１】

【００４０】ただし、ｍｉｎ（ｅ_ij1 ，ｅ_ij2 ，ｅ
_ij3 ，…，ｅ_ijN ）はｅ_ij1 ，ｅ_ij2 ，ｅ_ij3 ，…，ｅ
_ijN の中の最小値を表す関数である。集合Ｕの組合せは
Ｎ_S ！／｛Ｎ！（Ｎ_S −Ｎ）！｝通りあり、これらの音
声素片の集合Ｕの中から評価関数Ｅ_D1（Ｕ）を最小にす
るＵを探索し、その要素ｕ_k を代表音声素片Ｄ_k とす
る。

【００４１】最後に、音素環境クラスタ生成ステップＳ
２４では、音素環境Ｐ_i 、歪みｅ_ijおよび代表音声素片
Ｄ_k より、音素環境に関する複数のクラスタ（音素環境
クラスタ）Ｃ_k （ｋ＝１，２，３，…，Ν）を生成す
る。音素環境クラスタＣ_k は、例えば次式（２）で表さ
れるクラスタリングの評価関数Ｅ_C1を最小化するクラス
タを探索することによって得られる。

【００４２】

【数２】

【００４３】こうしてステップＳ２３およびＳ２４で生
成された代表音声素片Ｄ_k および音素環境クラスタＣ_k
は、図１の代表音声素片記憶部１２および音素環境クラ
スタ記憶部１３にそれぞれ記憶される。

【００４４】次に、図３のフローチャートを参照して代
表音声素片生成部１１の第２の処理手順について説明す
る。この第２の処理手順による代表音声素片生成処理で
は、まず初期音素環境クラスタ生成ステップＳ３０にお
いて、何らかの先見的な知識に基づいて予め音素環境の
クラスタリングを行い、初期音素環境クラスタを生成す
る。音素環境のクラスタリングには、例えば音韻による
クラスタリングを行うことができる。

【００４５】そして、入力音声素片Ｓ_j およびトレーニ
ング音声素片Ｔ_i のうち音韻が一致する音声素片のみを
それぞれ用いて、図２のステップＳ２１，Ｓ２２，Ｓ２
３，Ｓ２４と同様の合成音声素片生成ステップＳ３１、
歪み評価ステップＳ３２、代表音声素片生成ステップＳ
３３、音素環境クラスタ生成ステップＳ３４の処理を順
次行い、全ての初期音素環境クラスタについて同様の操
作を繰り返すことにより、全ての代表音声素片およびそ
れに対応する音素環境クラスタの生成を行う。こうして
生成された代表音声素片および音素環境クラスタは、図
１の代表音声素片記憶部１２および音素環境クラスタ記
憶部１３にそれぞれ記憶される。

【００４６】ただし、各初期音素環境クラスタ当たりの
代表音声素片数が１であれば、初期音素環境クラスタが
代表音声素片の音素環境クラスタとなるため、音素環境
クラスタ生成ステップＳ３４は不要となり、初期音素環
境クラスタを音素環境クラスタ記憶部１３に記憶すれば
よい。

【００４７】次に、図４のフローチャートを参照して代
表音声素片生成部１１の第３の処理手順を説明する。こ
の第３の処理手順による代表音声素片生成処理では、図
２に示した第１の処理手順と同様に音声合成ステップＳ
４１および歪み評価ステップＳ４２を順次経た後、次の
音素環境クラスタ生成ステップＳ４３において、音素環
境Ｐ_i および歪みｅ_ijに基づいて音素環境に関するクラ
スタＣ_k （ｋ＝１，２，３，…，Ν）を生成する。音素
環境クラスタＣ_k は、例えば次式（３）（４）で表わさ
れるクラスタリングの評価関数Ｅ_C2を最小化するクラス
タを探索することによって得られる。

【００４８】

【数３】

【００４９】次に、代表音声素片生成ステップＳ４４に
おいて、歪みｅ_ijに基づいて音素環境クラスタＣ_k のそ
れぞれに対応する代表音声素片Ｄ_k を入力音声素片Ｓ_j
より選択する。この代表音声素片Ｄ_k は、入力音声素片
Ｓ_j から例えば次式（５）で表される歪み評価関数Ｅ_D2
(j) を最小化する音声素片を探索することによって得ら
れる。

【００５０】

【数４】

【００５１】なお、この第３の処理手順による代表音声
素片生成処理を変形し、第２の処理手順と同様に、何ら
かの先見的な知識に基づいて予め生成した初期音素環境
クラスタ毎に代表音声素片の生成および音素環境クラス
タの生成を行うことも可能である。

【００５２】（第２の実施形態）次に、図５〜図９を用
いて本発明の第２の実施形態について説明する。図５
は、第２の実施形態に係る音声合成方法を実現する音声
合成装置の構成を示すブロック図である。図１と相対応
する部分に同一の参照符号を付して相違点を中心に説明
すると、本実施形態では音声合成部１５の後段に適応ポ
ストフィルタ１６が追加されている点が第１の実施形態
と異なり、これに加えて代表音声素片生成部１１におけ
る複数の合成音声素片の生成法も先の実施形態と異なっ
ている。

【００５３】すなわち、代表音声素片生成部１１では第
１の実施形態と同様に、トレーニング音声素片１０１に
ラベル付けされた音素環境１０２に含まれるピッチ周期
および継続時間長の情報に従って、入力音声素片１０３
のピッチ周期および継続時間長を変更することで複数の
合成音声素片を内部的に生成した後、これらの合成音声
素片に対して適応ポストフィルタによるフィルタリング
を施してスペクトル整形を行う。そして、この適応ポス
トフィルタによりスペクトル整形を行った後の各合成音
声素片とトレーニング音声素片１０１との距離尺度に従
って、代表音声素片１０４と音素環境クラスタ１０５が
生成される。音素環境クラスタ１０５は、先の実施形態
と同様にトレーニング音声素片１０１を音素環境に関す
るクラスタに分類して生成される。

【００５４】なお、この代表音声素片生成部１１におい
て音素環境１０２に含まれるピッチ周期および継続時間
長の情報に従って入力音声素片１０３のピッチ周期およ
び継続時間長を変更して生成される複数の合成音声素片
に対してフィルタリングを施してスペクトル整形を行う
適応ポストフィルタは、音声合成部１５の後段に配置さ
れる適応ポストフィルタ１６と同様の構成でよい。

【００５５】一方、音声合成部１５では第１の実施形態
と同様に代表音声素片選択情報１０７に従って代表音声
素片記憶部１２より選択的に読み出された代表音声素片
１０８に対し、韻律情報１１１に従ってピッチ周期およ
び音韻継続時間長を変更するとともに、素片の接続を行
って合成音声信号１１３を生成するが、本実施形態では
この合成音声信号１１３がさらに適応ポストフィルタ１
６に入力され、ここで音質向上のためのスペクトル整形
が行われた後、最終的な合成音声信号１１４が取り出さ
れる。

【００５６】図６に、適応ポストフィルタ１６の一構成
例を示す。この適応ポストフィルタ１６は、ホルマント
強調フィルタ２１とピッチ強調フィルタ２２を縦続配置
して構成される。

【００５７】ホルマント強調フィルタ２１は、代表音声
素片選択情報１０７に従って代表音声素片記憶部１２か
ら選択的に読み出された代表音声素片１０８をＬＰＣ分
析して得られるＬＰＣ係数に基づいて決定されるフィル
タ係数に従って、音声合成部１５から入力される合成音
声信号１１３をフィルタリングすることにより、スペク
トルの山の部分を強調する処理を行う。一方、ピッチ強
調フィルタ２２は、韻律情報１１１に含まれるピッチ周
期に基づいて決定されるパラメータに従って、ホルマン
ト強調フィルタ２１の出力をフィルタリングすることに
より、音声信号のピッチを強調する処理を行う。なお、
ホルマント強調フィルタ２１とピッチ強調フィルタ２２
の配置順序は逆であってもよい。

【００５８】このような適応ポストフィルタ１６の適用
によりスペクトルが整形され、「めりはり」のある明瞭
な音声を再生可能な合成音声信号１１４が得られる。適
応ポストフィルタ１６としては図６に示した構成のもの
に限られず、音声符号化や音声合成の分野で用いられる
公知の技術に基づく種々の構成を採用することが可能で
ある。

【００５９】このように本実施形態では、規則合成系２
において音声合成部１５の後段に適応ポストフィルタ１
６が配置される点を考慮して、合成単位学習系１におい
ても代表音声素片生成部１１で音素環境１０２に含まれ
るピッチ周期および継続時間長の情報に従って入力音声
素片１０３のピッチ周期および継続時間長を変更して生
成される複数の合成音声素片に対し、同様に適応ポスト
フィルタによるフィルタリングを行っている。従って、
適応ポストフィルタ１６を通した後の最終的な合成音声
信号１１４と同様のレベルで、自然音声に対する歪みが
小さくなるような代表音声素片を代表音声素片生成部１
１において生成できるため、さらに自然音声に近い合成
音声を生成することが可能となる。

【００６０】次に、図５における代表音声素片生成部１
１の処理手順について具体的に説明する。図７、図８お
よび図９のフローチャートは、図５における代表音声素
片生成部１１の第１、第２および第３の処理手順を示し
ている。図７、図８および図９では、先に説明した図
２、図３および図４に示した処理手順における音声合成
ステップＳ２１、Ｓ３１およびＳ４１の後に、ポストフ
ィルタリングステップＳ２５、Ｓ３６およびＳ４５が追
加されている。

【００６１】ポストフィルタリングステップＳ２５、Ｓ
３６およびＳ４５では、前述した適応ポストフィルタに
よるフィルタリングを行う。すなわち、音声合成ステッ
プＳ２１、Ｓ３１およびＳ４１で生成された合成音声素
片Ｇ_ijに対し、入力音声素片Ｓ_i をＬＰＣ分析して得ら
れるＬＰＣ係数に基づいて決定されるフィルタ係数に従
ってフィルタリングを行うことにより、スペクトルの山
の部分を強調するホルマント強調を行う。また、このホ
ルマント強調後の合成音声素片に対し、さらにトレーニ
ング音声素片Ｔ_i のピッチ周期に基づいて決定されるパ
ラメータに従ってフィルタリングを行うことにより、ピ
ッチ強調を行う。

【００６２】このようにして、ポストフィルタリングス
テップＳ２５、Ｓ３６およびＳ４５において、スペクト
ル整形を行う。このポストフィルタリングステップＳ２
５、Ｓ３６およびＳ４５は、前述したように規則合成系
２において音声合成部１５の後段に設けられる適応ポス
トフィルタ１６により合成音声信号１１３のスペクトル
整形を行って音質の向上を図るポストフィルタリングを
行うことを前提に、合成単位の学習を可能とする処理で
あり、この処理を適応ポストフィルタ１６による処理と
組み合わせることによって、最終的に「めりはり」のあ
る明瞭な合成音声信号１１４が生成される。

【００６３】（第３の実施形態）次に、図１０〜図１２
を用いて本発明の第３の実施形態を説明する。図１０
は、第２の実施形態に係る音声合成装置における合成単
位学習系の構成を示すブロック図である。

【００６４】本実施形態における合成単位学習系３０
は、ＬＰＣ分析・逆フィルタ部３１、音源信号記憶部３
２、ＬＰＣ係数記憶部３３、音源信号生成部３４、合成
フィルタ３５、歪み計算部３６および最小歪探索部１７
０からなる。この合成単位学習部３０には、トレーニン
グ音声素片１０１と、これにラベル付けされた音素環境
１０２および入力音声素片１０３が入力される。入力音
声素片１０３は、ＬＰＣ分析・逆フィルタ部３１に入力
され、ＬＰＣ分析が行われてＬＰＣ係数２０１と予測残
差信号２０２が出力される。ＬＰＣ係数２０１はＬＰＣ
係数記憶部３３に記憶され、また予測残差信号２０２は
音源信号記憶部３２に記憶される。

【００６５】音源信号記憶部３２に記憶された予測残差
信号は、最小歪み探索部３７からの指令に従って一つず
つ読み出され、音源信号生成部３４においてトレーニン
グ音声素片１０１の音素環境１０２に含まれるピッチパ
ターンおよび音韻継続時間長の情報に従って、そのピッ
チ周期および継続時間長が変更されることにより、音源
信号が生成される。このようにして生成された音源信号
は、最小歪探索部３７からの指令に従ってＬＰＣ係数記
憶部３３から読み出されたＬＰＣ係数をフィルタ係数と
する合成フィルタ３５に入力され、合成音声素片が作成
される。

【００６６】次に、歪計算部３６においてトレーニング
音声素片１０１に対する合成音声素片の誤差つまり歪み
が計算され、この歪みが最小歪探索部３７において評価
される。最小歪探索部３７は、ＬＰＣ係数記憶部３３と
音源信号記憶部３２にそれぞれ記憶されているＬＰＣ係
数と予測残差信号の全ての組み合わせを出力するように
指令を出して、それらの組み合わせに対応して合成フィ
ルタ３５で合成音声素片を生成させる。そして、最小の
歪みを与えるＬＰＣ係数と予測残差信号の組み合わせを
見い出し、それを記憶する。

【００６７】次に、この合成単位学習系３０の動作を図
１１のフローチャートを用いて説明する。まず、準備段
階として連続発声された多数の音声データに音韻毎にラ
ベリングを行い、ＣＶ，ＶＣＶ，ＣＶＣなどの合成単位
に従って、トレーニング音声素片Ｔ_i （ｉ＝１，２，
３，…，Ｎ_T ）を切り出す。また、各トレーニング音声
素片Ｔ_i に対応する音素環境Ｐ_i （ｉ＝１，２，３，
…，Ｎ_T ）を抽出しておく。ただし、Ｎ_T はトレーニン
グ音声素片Ｔ_i の個数を表す。音素環境は、少なくとも
当該トレーニング音声素片の音韻とそのピッチパターン
および継続時間長を含むものとし、その他に必要に応じ
て前後の音素などを含むものとする。

【００６８】次に、トレーニング音声素片を作成したの
と同様の方法により、多数の入力音声素片Ｓ_i （ｉ＝
１，２，３，…，Ｎ_S ）を作成する。ただし、Ｎ_S は入
力音声素片Ｓ_i の個数を表す。ここで、入力音声素片Ｓ
_i とトレーニング音声素片Ｔ_iの合成単位は一致させる
ものとする。例えば、あるＣＶ音節“ｋａ”の代表音声
素片を作成する場合、多数の音声データから切り出され
た音節“ｋａ”から入力音声素片Ｓ_i とトレーニング音
声素片Ｔ_i を設定する。なお、入力音声素片はトレーニ
ング音声素片と同じものを使用してもよいし（すなわ
ち、Ｔ_i ＝Ｓ_i ）、異なる音声素片を作成してもよい。
いずれにしても、豊富な音韻環境を有する多数のレ−ニ
ング音声素片と入力音声素片が用意されていることが望
ましい。

【００６９】このような準備段階の後、ＬＰＣ分析ステ
ップＳ５１で入力音声素片Ｓ_i （ｉ＝１，２，３，…，
Ｎ_S ）のＬＰＣ分析を行い、ＬＰＣ係数ａ_i （ｉ＝１，
２，３，…，Ｎ_S ）を求めると共に、その係数に基づい
た逆フィルタリングを行い、予測残差信号ｅ_i （ｉ＝
１，２，３，…，Ｎ_S ）を求める。ただし、ａはｐをＬ
ＰＣ分析の次数とすると、ｐ個の要素を持つぺクトルで
ある。

【００７０】次に、求められた予測残差信号を音源信号
として、ＬＰＣ係数とともにステップＳ５２で保存す
る。次のＬＰＣ係数・音源信号組み合わせステップＳ５
３では、保存されたＬＰＣ係数と音源信号の組み合わせ
を一組（ａ_i ，ｅ_j ）作成する。

【００７１】この一組の組み合わせに対して、次の音声
合成ステップＳ５４でＰ_k のピッチパターンおよび継続
時間長に等しくなるようにｅ_j のピッチおよび継続時間
長を変更して音源信号を生成した後、ＬＰＣ係数ａ_i を
持つ合成フィルタでフィルタリング演算を行い、合成音
声素片Ｇ_k （ｉ，ｊ）を生成する。

【００７２】このように、全てのＰ_k （ｋ＝１，２，
３，…，Ｎ_T ）に従って音声合成を行うことにより、Ｎ
_T 個の合成音声素片Ｇ_k （ｉ，ｊ），（ｋ＝１，２，
３，…，Ｎ_T ）を生成する。

【００７３】次の歪み評価ステップＳ５５では、合成音
声素片Ｇ_k （ｉ，ｊ）とトレーニング音声素片Ｔ_k との
間の歪みＥ_k （ｉ，ｊ）とＰ_k に関する歪みの総和Ｅを
次式（６）（７）により求める。

【００７４】

【数５】

【００７５】ここでＤは歪み関数であり、何らかのスペ
クトル距離を用いることができる。例えば、ＦＦＴなど
を用いてパワースペクトルを求めて、その間の距離を求
める方法や、あるいは線形予測分析を行ってＬＰＣまた
はＬＳＰパラメータなどを求めて、パラメータ間の距離
を評価する方法などがある。その他にも、短時間フーリ
エ変換やウェーブレット変換などの変換係数を用いて評
価する方法が考えられる。また、各素片のパワーを正規
化した上で、歪みの評価を行うことも考えられる。

【００７６】ステップＳ５３〜Ｓ５５の処理をＬＰＣ係
数と音源信号の全ての組み合わせ（ａ_i ，ｅ_j ），
（ｉ，ｊ＝１，２，３，…，Ｎ_S ）について行い、歪み
評価ステップＳ５５でＥ（ｉ，ｊ）の最小値を与える
ｉ，ｊの組を探索する。

【００７７】次の代表音声素片生成ステップＳ５７で
は、Ｅ（ｉ，ｊ）の最小値を与えるｉ，ｊの組、また
は、対応する（ａｉ，ｅｊ）、または、（ａｉ，ｅｊ）
から生成される波形を代表音声素片として保存する。た
だし、この代表音声素片生成ステップは、代表音声素片
を各合成単位毎に一組生成する場合の処理であり、Ｎ組
生成したい場合は、次のようにする。まず、Ｎ_S ＊Ｎ_S
個の（ａｉ，ｅｊ）の組の中からＮ組選択した集合を式
（８）と置き、歪みの総和を表す評価関数を式（９）の
ように定義する。

【００７８】

【数６】

【００７９】ただし、ｍｉｎ（）は最小値を表す関数
である。集合Ｕの組合せは、Ｎ_S ＊Ｎ_S Ｃ_N 通りあり、
これらの集合Ｕの中から評価関数ＥＤ（Ｕ）を最小にす
るＵを探索し、その要素（ａ_i ，ｅ_j ）^k を代表音声素
片とする。

【００８０】次に、本実施形態における規則合成系につ
いて図１２を用いて説明する。本実施形態における規則
合成系４０は、組み合せ記憶部４１、音源信号記憶部４
２、ＬＰＣ係数記憶部４３、音源信号生成部４４および
合成フィルタ４５からなる。規則合成部４０には、入力
されたテキストの言語処理とそれに続く音韻処理の結果
得られる韻律情報１１１と音韻記号列１１２が入力され
る。組み合せ記憶部４１、音源信号記憶部４２およびＬ
ＰＣ係数記憶部４３には、図１０の合成単位学習部３０
で求められたＬＰＣ係数と音源信号の組み合わせ情報
（ｉ，ｊ）と、音源信号ｅ_j ，ＬＰＣ係数ａ_i が予め記
憶されている。

【００８１】組み合せ記憶部４１は、音韻記号列１１２
を入力し、これに対応する合成単位（例えばＣＶ音節）
を与えるＬＰＣ係数と音源信号の組合せ情報を出力す
る。音源信号記憶部４２に記憶された音源信号は、組み
合せ記憶部４１からの指令に従って読み出され、音源信
号生成部４４において入力された韻律情報１１１に含ま
れるピッチパターンおよび音韻継続時間長の情報に従っ
て、そのピッチ周期および継続時間長が変更されると共
に音源信号の接続が行われる。

【００８２】こうして生成された音源信号は、組み合せ
記憶部４１の指令に従ってＬＰＣ係数記憶部４３から読
み出された係数をフィルタ係数とする合成フィルタ４５
に入力され、フィルタ係数の補間とフィルタリング演算
が行われることにより、合成音声信号１１３が作成され
る。

【００８３】（第４の実施形態）次に、図１３および図
１４を用いて本発明の第４の実施形態を説明する。図１
３は本実施形態における合成単位学習系の概略構成を示
す図であり、第３の実施形態の図１０に示した合成単位
学習系３０にクラスタリング部３８を付加した構成とな
っている。本実施形態では、クラスタリング部３８にお
いて何らかの先見的な知識に基づいて予め音素環境のク
ラスタリングを行い、各クラスタに対して代表音声素片
を生成する点が第３の実施形態と異なる。クラスタリン
グとしては、例えば当該素片のピッチによるクラスタリ
ングが考えられる。この場合、トレーニング音声素片１
０１をピッチに基づいてクラスタリングし、各クラスタ
のトレーニング音声素片に対して第３の実施形態で述べ
た代表音声素片の生成を行う。

【００８４】図１４は、本実施形態における規則合成系
の概略構成を示す図であり、第３の実施形態の図１２に
示した規則合成系４０にクラスタリング部４８を付加し
た構成となっている。韻律情報１１１をトレーニング音
声素片と同様にピッチクラスタリングし、合成単位学習
系３０で求められた各クラスタの代表音声素片に対応す
る音源信号及びＬＰＣ係数を用いて音声を合成する。

【００８５】（第５の実施形態）次に、図１５〜図１７
を用いて本発明の第５の実施形態を説明する。図１５
は、本実施形態における合成単位学習系を示すブロック
図であり、クラスタをトレーニング音声素片との歪み尺
度に基づいて自動的に生成する場合の構成例を示してい
る。本実施形態は、図１０に示した合成単位学習系３０
に音素環境クラスタ生成部５１とクラスタ記憶部５２が
追加された構成となっている。

【００８６】本実施形態における合成単位学習系の第１
の処理手順を図１６に示すフローチャートを用いて説明
する。この処理手順は第３の実施形態の処理手順を示し
た図１１に新たに音素環境クラスタ生成ステップＳ５８
でが追加されている。このステップＳ５８では、音素環
境Ｐ_k と歪みＥ_k （ｉ，ｊ）および代表音声素片Ｄ_mよ
り、音素環境に関するクラスタＣ_m （ｍ＝１，２，３，
…，Ｎ）を生成する。音素環境クラスタＣ_m は、例えば
次式（１０）で表されるクラスタリングの評価関数Ｅ_cm
を最小化するクラスタを探索することによって得られ
る。

【００８７】

【数７】

【００８８】図１７は、図１５の合成単位学習系の第２
の処理手順を示すフローチャートである。この処理で
は、初期音素環境クラスタ生成ステップＳ５０で何らか
の先見的な知識に基づいて予め音素環境のクラスタリン
グを行い、初期音素環境クラスタを生成する。コラスタ
リングとしては、例えば当該素片の音韻によるクラスタ
リングが考えられる。この場合、当該素片の音韻が一致
する音声素片およびトレーニング音声素片だけを用いて
第３の実施形態で述べた代表音声素片の生成および音素
環境クラスタの生成を行い、全ての初期音素環境クラス
タについて同様の操作を繰り返すことによって、全ての
代表音声素片および対応する音素環境クラスタの生成を
行う。

【００８９】ただし、各初期クラスタ当たりの代表音声
素片数が１であれば、初期音素環境クラスタが代表音声
素片の音素環境クラスタとなるため、音素環境クラスタ
生成ステップＳ５８は不要となり、初期音素環境クラス
タを図１５のクラスタ記憶部５２に記憶すればよい。

【００９０】本実施形態における規則合成系は、図１４
に示した第４の実施形態における規則合計系４０と同様
に構成される。この場合、クラスタリング部４８は図１
５のクラスタ記憶部５２に蓄積された情報に基づいて処
理を行う。

【００９１】（第６の実施形態）図１８に、本発明の第
６の実施形態における合成単位学習系の構成を示す。本
実施形態における合成単位学習系は、図１０に示した合
成単位学習系３０にバッファ６１，６２および量子化テ
ーブル作成部６３，６４が追加された構成となってい
る。

【００９２】本実施形態において、入力音声素片１０３
はＬＰＣ分析・逆フィルタ部３１に入力され、ここでＬ
ＰＣ分析により生成されたＬＰＣ係数２０１と予測残差
信号２０２が一旦バッファ６１，６２にそれぞれ蓄えら
れた後、量子化テーブル作成部６３，６４でそれぞれ量
子化され、量子化されたＬＰＣ係数と予測残差信号がＬ
ＰＣ係数記憶部３３および音源信号記憶部３４にそれぞ
れ記憶される。

【００９３】図１９は、図１８の合成単位学習系の処理
手順を示すフローチャートであり、図１１のフローチャ
ートに示した処理手順と異なるところは、ＬＰＣ分析ス
テップＳ５１の後に量子化ステップＳ６０が追加された
ことである。この量子化ステップＳ６０では、ＬＰＣ分
析ステップＳ５１で求められたＬＰＣ係数ａ_i （ｉ＝
１，２，３，…，Ｎ_S ）と予測残差信号ｅ_i （１＝１，
２，３，…，Ｎ_S ）を一旦バッファに蓄積した後、ＬＢ
Ｇアルゴリズムなどの公知の技術を用いて量子化テーブ
ルを作成し、ＬＰＣ係数と予測残差信号を量子化する。
このとき、量子化テーブルのサイズ、すなわち量子化の
代表ベクトルの数はＮ_S 未満とする。そして、量子化さ
れたＬＰＣ係数と予測残差信号が次のステップＳ５２で
保存される。その後の処理は、図１１の場合と同一であ
る。

【００９４】（第７の実施形態）図２０は、本発明の第
７の実施形態における合成単位学習系を示すブロック図
であり、クラスタをトレーニング音声素片との歪み尺度
に基づいて自動的に生成する場合の構成例を示してい
る。クラスタの生成は、第５の実施形態と同様に行うこ
とができる。すなわち、本実施形態における合成単位学
習系は、図１５に示した第５の実施形態と図１８に示し
た第６の実施形態とを組み合わせた構成となっている。

【００９５】（第８の実施形態）図２１は、本発明の第
８の実施形態における合成単位学習系であり、ＬＰＣ分
析部３１ａと逆フィルタ３１ｂを分離して、バッファ６
１および量子化テーブル作成部６３を経て量子化された
ＬＰＣ係数を用いて逆フイルタリングを行って予測残差
信号を計算する場合の構成例を示している。このように
することにより、ＬＰＣ係数の量子化歪みによる合成音
声の音質劣化を低減する代表音声素片を生成することが
可能になる。

【００９６】（第９の実施形態）図２２は、本発明の第
９の実施形態における合成単位学習系であり、第８の実
施形態と同様に、量子化されたＬＰＣ係数を用いて逆フ
イルタリングし、予測残差信号を計算する場合の他の構
成例を示している。ただし、本実施形態では逆フィルタ
３１ｂで逆フィルタリングされた予測残差信号がバッフ
ァ６２および量子化テーブル６４を経て量子化された
後、音源信号記憶部３２に入力される点が第８の実施形
態と異なっている。

【００９７】第６〜第９の実施形態において、量子化テ
ーブル作成部６３，６４で作成される量子化テーブルの
サイズ、すなわち量子化の代表スぺクトルの数は、クラ
スタ数または合成単位の総数（例えば、ＣＶ，ＶＣ音節
の総数）より少なく選ぶことができる。このようにＬＰ
Ｃ係数と予測残差信号を量子化することによって、代表
音声素片として記憶されるＬＰＣ係数と音源信号の数を
減少させることができるため、合成単位の学習に要する
計算時間を短縮することができると共に、規則合成系で
用いるメモリ量を低減することができる。

【００９８】しかも、ＬＰＣ係数と音源信号の組み合せ
（ａ_i ，ｅ_j ）で音声合成を行うので、ＬＰＣ係数と音
源信号数のどちらかの代表音声素片数がクラスタ数や合
成単位の総数（例えば、ＣＶ，ＶＣ音節の総数）より少
ない場合でも、良好な合成音声を得ることができる。

【００９９】また、第６〜第９の実施形態において、ト
レーニング音声素片と合成音声素片との歪み尺度として
合成素片間の接続歪みを考慮することにより、より滑ら
かな合成音を得ることもできる。

【０１００】さらに、合成単位の学習および規則合成に
おいて、第２の実施形態で説明したと同様の適応ポスト
フィルタを合成フィルタと合わせて用いることもでき、
これにより合成音声のスペクトルが整形され、「めりは
り」のある明瞭な合成音声を得ることができる。

【０１０１】

【発明の効果】以上説明したように、本発明の音声合成
方法によれば、入力音声素片に対してピッチおよび継続
時間長の少なくとも一方の変更を行って生成される合成
音声のレベルで自然音声に対する歪みを評価し、それに
基づいて入力音声素片から選択した音声素片を代表音声
素片とするため、音声合成装置の特性をも考慮した代表
音声素片の生成が可能であり、この代表音声素片を接続
して音声合成を行うことによって、自然音声に近い高品
質の合成音声を生成することができる。

【０１０２】また、本発明ではさらに代表音声素片の接
続によって合成される音声に対してスペクトル整形を行
うと共に、合成音声素片に対しても同様のスペクトル整
形を行うことにより、スペクトル整形後の最終的な合成
音声信号のレベルで、自然音声に対する歪が小さくなる
ような代表音声素片を生成できるため、「めりはり」の
あるより明瞭な合成音声を生成することができる。

【０１０３】また、各代表音声素片を音素環境に基づく
素片選択規則に従って選択して接続することにより、合
成音声は滑らかで自然性の高いものとなる。さらに、代
表音声素片として音源信号（例えば予測残差信号）音源
信号を入力として合成音声信号を生成する合成フィルタ
の係数（例えばＬＰＣ係数）の組の情報を記憶する場
合、これらを量子化することによって、代表音声素片と
して記憶する音源信号と合成フィルタの係数の数を減少
させることができるため、合成単位の学習に要する計算
時間を短縮することができると共に、規則合成系で用い
るメモリ量を低減することができる。

【０１０４】しかも、代表音声素片の情報として記憶す
る音源信号および合成フィルタの係数のうちの少なくと
も一方の数を音声合成単位の総数（例えば、ＣＶ，ＶＣ
音節の総数）や音素環境クラスタ数より少ない場合で
も、良好な合成音声を得ることができる。

【図面の簡単な説明】

【図１】本発明の第１の実施形態に係る音声合成装置の
構成を示すブロック図

【図２】図１中の代表音声素片生成部での第１の処理手
順を示すフローチャート

【図３】図１の中の代表音声素片生成部での第２の処理
手順を示すフローチャート

【図４】図１中の代表音声素片生成部での第３の処理手
順を示すフローチャート

【図５】本発明の第２の実施形態に係る音声合成装置の
構成を示すブロック図

【図６】図５中の適応ポストフィルタの構成例を示すブ
ロック図

【図７】図５中の代表音声素片生成部での第１の処理手
順を示すフローチャート

【図８】図５の中の代表音声素片生成部での第２の処理
手順を示すフローチャート

【図９】図５中の代表音声素片生成部での第３の処理手
順を示すフローチャート

【図１０】本発明の第３の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図

【図１１】図１０の合成単位学習系の処理手順を示すフ
ローチャート

【図１２】本発明の第３の実施形態に係る音声合成装置
における規則合成系の構成を示すブロック図

【図１３】本発明の第４の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図

【図１４】本発明の第４の実施形態に係る音声合成装置
における規則合成系の構成を示すブロック図

【図１５】本発明の第５の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図

【図１６】図１５の合成単位学習系の第１の処理手順を
示すフローチャート

【図１７】図１５の合成単位学習系の第２の処理手順を
示すフローチャート

【図１８】本発明の第６の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図

【図１９】図１８の合成単位学習系の処理手順を示すフ
ローチャート

【図２０】本発明の第７の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図

【図２１】本発明の第８の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図

【図２２】本発明の第９の実施形態に係る音声合成装置
における合成単位学習系の構成を示すブロック図

【符号の説明】

１…合成単位学習系２…規則合成系１１…代表音声素片生成部１２…音素環境クラスタ記憶部１３…代表音声素片記憶部１４…素片選択部１５…音声合成部１６…適応ポストフィルタ２１…ホルマント強調フィルタ２２…ピッチ強調フィルタ１０１…トレーニング音声素片（第１の音声素片）１０２…トレーニング音声素片にラベル付けされた音素
環境１０３…入力音声素片（第２の音声素片）１０４…代表音声素片１０５…音素環境クラスタ１０６…音素環境クラスタ１０７…代表音声素片選択情報１０８…代表音声素片１１１…韻律情報１１２…音韻記号列１１３…合成音声信号１１４…合成音声信号３０…合成単位学習系３１…ＬＰＣ分析・逆フィルタ３１ａ…ＬＰＣ分析部３１ｂ…逆フィルタ３２…音源信号記憶部３３…ＬＰＣ係数記憶部３４…音源信号生成部３５…合成フィルタ３６…歪計算部３７…最小歪探索部３８…クラスタリング部４０…規則合成系４１…組み合わせ記憶部４２…音源信号記憶部４３…ＬＰＣ係数記憶部４４…音源信号生成部４５…合成フィルタ４８…クラスタリング部５１…音素環境クラスタ生成部５２…クラスタ記憶部６１，６２…バッファ６３，６４…量子化テーブル作成部

Claims

【特許請求の範囲】

【請求項１】複数の第１の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第２の音声素片
のピッチおよび継続時間長の少なくとも一方を変更する
ことにより複数の合成音声素片を生成し、これらの合成音声素片と前記第１の音声素片との間の距
離尺度に基づいて前記第２の音声素片から複数の代表音
声素片を選択して記憶し、これらの代表音声素片から所定の代表音声素片を選択し
て接続することによって音声を合成することを特徴とす
る音声合成方法。
【請求項２】音素環境がラベル付けされた複数の第１の
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第２の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、これらの合成音声素片と前記第１の音声素片との間の距
離尺度に基づいて前記第２の音声素片から複数の代表音
声素片を選択して記憶し、前記距離尺度に基づいて前記代表音声素片にそれぞれ対
応する複数の音素環境クラスタを生成し、前記代表音声素片から入力音素の音素環境を含む音素環
境クラスタに対応する代表音声素片を選択して接続する
ことによって音声を合成することを特徴とする音声合成
方法。
【請求項３】音素環境がラベル付けされた複数の第１の
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第２の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、これらの合成音声素片と前記第１の音声素片との間の距
離尺度に基づいて複数の音素環境クラスタを生成し、前記距離尺度に基づいて前記第２の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、これらの代表音声素片から所定の代表音声素片を選択し
て接続することによって音声を合成することを特徴とす
る音声合成方法。
【請求項４】音素環境がラベル付けされた複数の第１の
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第２の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、これらの合成音声素片と前記第１の音声素片との間の距
離尺度に基づいて複数の音素環境クラスタを生成し、前記距離尺度に基づいて前記第２の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、これらの代表音声素片から入力音素の音素環境を含む音
素環境クラスタに対応する代表音声素片を選択して接続
することによって音声を合成することを特徴とする音声
合成方法。
【請求項５】複数の第１の音声素片のピッチおよび継続
時間長の少なくとも一方に従って複数の第２の音声素片
のピッチおよび継続時間長の少なくとも一方を変更する
ことにより複数の合成音声素片を生成し、これらの合成音声素片についてスペクトル整形を行い、このスペクトル整形を行った後の各合成音声素片と前記
第１の音声素片との間の距離尺度に基づいて前記第２の
音声素片から複数の代表音声素片を選択して記憶し、これらの代表音声素片から所定の代表音声素片を選択し
て接続することによって音声を合成し、この合成した音声のスペクトル整形を行って最終的な合
成音声を生成することを特徴とする音声合成方法。
【請求項６】音素環境がラベル付けされた複数の第１の
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第２の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、これらの合成音声素片についてスペクトル整形を行い、このスペクトル整形を行った後の各合成音声素片と前記
第１の音声素片との間の距離尺度に基づいて前記第２の
音声素片から複数の代表音声素片を選択して記憶し、前記距離尺度に基づいて前記代表音声素片にそれぞれ対
応する複数の音素環境クラスタを生成し、前記代表音声素片から入力音素の音素環境を含む音素環
境クラスタに対応する代表音声素片を選択して接続する
ことによって音声を合成し、この合成した音声のスペクトル整形を行って最終的な合
成音声を生成することを特徴とする音声合成方法。
【請求項７】音素環境がラベル付けされた複数の第１の
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第２の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、これらの合成音声素片についてスペクトル整形を行い、このスペクトル整形を行った後の各合成音声素片と前記
第１の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、前記距離尺度に基づいて前記第２の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、これらの代表音声素片から所定の代表音声素片を選択し
て接続することによって音声を合成し、この合成した音声のスペクトル整形を行って最終的な合
成音声を生成することを特徴とする音声合成方法。
【請求項８】音素環境がラベル付けされた複数の第１の
音声素片のピッチおよび継続時間長の少なくとも一方に
従って複数の第２の音声素片のピッチおよび継続時間長
の少なくとも一方を変更して複数の合成音声素片を生成
し、これらの合成音声素片についてスペクトル整形を行い、このスペクトル整形を行った後の各合成音声素片と前記
第１の音声素片との間の距離尺度に基づいて複数の音素
環境クラスタを生成し、前記距離尺度に基づいて前記第２の音声素片から各音素
環境クラスタにそれぞれ対応する複数の代表音声素片を
選択して記憶し、これらの代表音声素片から入力音素の音素環境を含む音
素環境クラスタに対応する代表音声素片を選択して接続
することによって音声を合成し、この合成した音声のスペクトル整形を行って最終的な合
成音声を生成することを特徴とする音声合成方法。
【請求項９】前記代表音声素片として、音源信号と該音
源信号を入力として合成音声信号を生成する合成フィル
タの係数の組の情報を記憶することを特徴とする請求項
１〜８のいずれか１項に記載の音声合成方法。
【請求項１０】前記音源信号と前記合成フィルタの係数
を量子化し、これら量子化した音源信号と合成フィルタ
の係数の組の情報を前記代表音声素片として記憶するこ
とを特徴とする請求項９に記載の音声合成方法。
【請求項１１】前記代表音声素片として、音源信号と該
音源信号を入力として合成音声信号を生成する合成フィ
ルタの係数の組の情報を記憶し、かつ該代表音声素片の情報として記憶する音源信号およ
び合成フィルタの係数のうちの少なくとも一方の数が音
声合成単位の総数より少ないことを特徴とする請求項１
〜８のいずれか１項に記載の音声合成方法。
【請求項１２】前記代表音声素片として、音源信号と該
音源信号を入力として合成音声信号を生成する合成フィ
ルタの係数の組の情報を記憶し、かつ該代表音声素片の情報として記憶する音源信号およ
び合成フィルタの係数のうちの少なくとも一方の数が前
記音素環境クラスタの総数より少ないことを特徴とする
請求項２、３、６、７、８、９のいずれか１項に記載の
音声合成方法。