JPH0756590A

JPH0756590A - 音声合成装置、音声合成方法及び記録媒体

Info

Publication number: JPH0756590A
Application number: JP5228156A
Authority: JP
Inventors: Keiichi Yamada; 敬一山田; Yoshiaki Oikawa; 芳明及川
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1993-08-19
Filing date: 1993-08-19
Publication date: 1995-03-03
Anticipated expiration: 2020-02-23
Also published as: JP3622990B2

Abstract

(57)【要約】【目的】本発明は、音声合成装置、音声合成方法及び記
録媒体において、実際の人間の音声に比して違和感のな
い合成音を発声する。【構成】音声単位記憶部におけるスペクトル包絡軌道が
正規化された音声単位データセツトを用いることによつ
て、時間軸上での単純な波形補間による合成方式に比
べ、補間処理を行うことなしに接続部をより滑らかに接
続していくことができ、人間の音声に近い高品質な任意
の合成音を得ることができる。

Description

【発明の詳細な説明】

【０００１】

【目次】以下の順序で本発明を説明する。産業上の利用分野従来の技術発明が解決しようとする課題課題を解決するための手段（図１、図２、図６）作用（図１、図２、図６）実施例（図１〜図９）（１）第１実施例（図１〜図５）（２）第２実施例（図１、図５〜図９）（３）他の実施例発明の効果

【０００２】

【産業上の利用分野】本発明は音声合成装置、音声合成
方法及び記録媒体に関し、特に単音節又はそれ以上の音
節数からなる音声単位波形を同一音素内で編集合成する
波形編集型の音声合成装置に適用して好適なものであ
る。

【０００３】

【従来の技術】従来、規則合成方式による音声合成装置
においては、入力された文字の系列を解析した後、所定
の規則に従つてパラメータを合成することにより、いか
なる言葉でも音声合成し得るようになされている。すな
わち規則合成方式による音声合成装置は、入力された文
字の系列を解析した後、所定の規則に従つて各文節ごと
にアクセントを検出し、各文節の並びから文字系列全体
としての抑揚、ポーズ等を表現するピツチパラメータを
合成する。

【０００４】さらに音声合成装置は、同様に所定の規則
に従つて各文節を例えばＣＶ／ＶＣ単位のような音声単
位に分割した後、そのスペクトラムを表現する合成パラ
メータを生成する。これによりピツチパラメータ及び合
成パラメータに基づいて合成音を発声するようになされ
ている。

【０００５】またより高品質な音声を合成するために、
音声単位として周期性を有する有声部分については実音
声を分析処理し、その１周期にあたる音声波形データを
それぞれ保持し、また周期性を有さない無声部分につい
ては実音声をそのまま音声波形データとして保持し、合
成時にはこれらの音声波形データをピツチパラメータに
基づいて波形編集して合成音を生成する。

【０００６】

【発明が解決しようとする課題】ところでこのような波
形編集の手法では、ピツチパラメータに基づいて音声単
位内の音声波形データを繰り返したり、あるいは間引く
ことによつてフレーム数を調整して音声を合成してい
る。ここで用いられる個々の音声単位は、それが抽出さ
れた実音声内での前後の音韻環境の影響を受けており、
その影響が合成音声内に表れてくる。

【０００７】すなわちある音声単位では合成時における
音韻環境と、抽出された実音声内での音韻環境とが異な
る場合が生じ、合成音声の各音声単位を接続した場合に
は、実音声と比べて不自然な音声波形が生成され、周波
数領域での不連続性が原因となつて異聴等が発生する。
またＣＶ／ＶＣ単位による音声合成のように音声単位を
同一音素内で接続する場合には、周波数領域での不連続
性が聴感上特に感知されやすく、合成音声の品質が劣化
しやすいという問題がある。

【０００８】この問題を解決するために、従来の音声合
成装置では音声単位間の接続部分で補間処理を行うこと
が一般的である。補間処理の一つとして、音声波形デー
タの時間領域における線形補間があるが、補間波形はス
ペクトル的に補間されたものとは対応せず、合成された
音声のスペクトル特性は自然音声からかけ離れたものと
なることがある。

【０００９】このため音声単位を構成する少なくとも一
つの音素に対して音声単位間の接続フレームにおける代
表的なスペクトル包絡特性を設定し、この各音素におけ
る代表的なスペクトル包絡特性を以て、音声単位内の音
声波形データのスペクトル包絡軌道を正規化する手法が
ある。この音声単位の正規化手法では、音声合成時の補
間処理を行うことなしに、音声単位間の接続部での周波
数領域の不連続性である接続歪みをほとんど解消するこ
とができ、人間の音声に近い高品質な合成音を得ること
ができる。

【００１０】また一般的に人間の聴覚は音の周波数特性
を聞き分けるが、位相特性に対しては周波数特性ほどの
弁別能力はないと言われている。しかし上述したような
音声単位のスペクトル包絡軌道の正規化手法を用いた波
形編集による合成音声では、音声単位間の接続部分での
接続歪みがほとんどないために、合成音声の有声部にお
ける接続部分での位相特性の不連続性が、実音声に比べ
て聴感的に違和感を生じさせてる問題がある。

【００１１】この問題の解決策として、音声単位内の有
声部の位相特性を零位相特性に整える方法がある。この
方法によつて得られる音声波形データは、波形データの
中心のサンプル点において左右対称な波形となる。従つ
て得られる音声波形データの半分のみを音声単位記憶部
に貯えればよく、この点で記憶データ容量の削減が可能
である。しかし音声合成時には半分のデータから対称な
音声波形データを生成する処理を必要とする。

【００１２】本発明は以上の点を考慮してなされたもの
で、実際の人間の音声に比して違和感のない合成音を発
声することができる音声合成装置、音声合成方法及び記
録媒体を提案しようとするものである。

【００１３】

【課題を解決するための手段】かかる課題を解決するた
めに本発明においては、音韻記号と韻律記号とに基づい
て所定の音韻規則及び韻律規則によつて韻律情報を設定
する音声合成規則部４と、音声波形データを必要フレー
ム数貯えた音声単位及び韻律情報に基づいて合成音を生
成する音声合成部５とを有する波形編集型の音声合成装
置１において、少なくとも一つの音素に対して、音声単
位間の接続フレームにおける代表的なスペクトル包絡特
性を設定し、その代表的なスペクトル包絡特性を以て音
声波形データのスペクトル包絡軌道を正規化した音声単
位を記憶する音声単位記憶部２を設けるようにした。

【００１４】また本発明においては、少なくとも一つの
音素に対して設定された、音声単位間の接続フレームに
おける代表的なスペクトル包絡特性を以て、スペクトル
包絡軌道が正規化された音声波形データを必要数貯えた
音声単位を記憶する音声単位記憶部２と、音韻記号と韻
律記号とに基づいて所定の音韻規則及び韻律規則によつ
て韻律情報を設定する音声合成規則部４と、音声単位及
び韻律情報に基づいて合成音を生成する音声合成部５と
を有する波形編集型の音声合成装置１において、音声単
位記憶部２に貯えられている音声単位内の有声部分にお
いて、各フレームの音声波形データの位相特性を最小位
相特性に整えるようにした。

【００１５】また本発明においては、音韻記号と韻律記
号とに基づいて所定の音韻規則及び韻律規則によつて韻
律情報を設定すると共に、音声波形データを必要フレー
ム数貯えた音声単位及び韻律情報に基づいて合成音を生
成する波形編集型の音声合成方法において、少なくとも
一つの音素に対して、音声単位間の接続フレームにおけ
る代表的なスペクトル包絡特性を設定し、その代表的な
スペクトル包絡特性を以て音声波形データのスペクトル
包絡軌道を正規化した音声単位を記憶するようにした。

【００１６】また本発明においては、少なくとも一つの
音素に対して設定された音声単位間の接続フレームにお
ける代表的なスペクトル包絡特性を以て、スペクトル包
絡軌道が正規化された音声波形データを必要数貯えた音
声単位を記憶すると共に、音韻記号と韻律記号とに基づ
いて所定の音韻規則及び韻律規則によつて韻律情報を設
定し、音声単位及び韻律情報に基づいて合成音を生成す
る波形編集型の音声合成方法において、音声単位内の有
声部分において、各フレームの音声波形データの位相特
性を最小位相特性に整えるようにした。

【００１７】

【作用】音声単位記憶部２におけるスペクトル包絡軌道
が正規化された音声単位データセツトを用いることによ
つて、時間軸上での単純な波形補間による合成方式に比
べ、補間処理を行うことなしに接続部をよりなめらかに
接続していくことができ、人間の音声に近い高品質な任
意の合成音を得ることができる。

【００１８】また音声波形データのスペクトル包絡軌道
が正規化された音声単位による波形編集では、合成音声
の有声部における音声単位間の接続部分での位相特性の
不連続性から、実音声に比べて聴感的に違和感が生じ品
質の劣化が問題となるが、音声波形データの位相特性を
全て最小位相特性に整えることによつて、聴感上の違和
感を解消することが出来、より高品質な任意の合成音声
を得ることができる。

【００１９】また、最小位相特性ということからその音
声波形データは、波形データの中心のサンプル点を原点
とした場合に、負の時間領域では波形振幅値が全て０で
あるので、音声単位記憶部２には音声波形データの正の
時間領域だけのデータを貯えれば良い。従つて零位相特
性の音声波形データと同様のデータ削減が可能である上
に、音声合成時には、零位相特性の音声波形データでは
必要な対称な音声波形を生成する処理が不用となり、合
成アルゴリズムを簡略化し得る。

【００２０】

【実施例】以下図面について、本発明の一実施例を詳述
する。

【００２１】（１）第１実施例図１において、１は全体として演算処理装置構成の音声
合成装置を示し、音声単位記憶部２、文章解析部３、音
声合成規則部４及び音声合成部５に分割される。文章解
析部３は、所定の入力装置から入力されたテキスト入力
（文字の系列で表された文章等でなる）を所定の辞書を
基準にして解析し、仮名文字列に変換した後、単語、文
節毎に分解する。

【００２２】すなわち日本語においては、英語のように
単語が分かち書きされていないことから、例えば「米国
産業界」のような言葉は、「米国／産業・界」、「米／
国産／業界」のように２種類以上に区分化し得る。この
ため文章解析部３は、辞書を参考にしながら、言葉の連
続関係及び単語の統計的性質を利用して、テキスト入力
を単語、文節毎に分解するようになされ、これにより単
語、文節の境界を検出するようになされている。さらに
文章解析部３は、各単語毎に基本アクセントを検出した
後、音声合成規則部４に出力する。

【００２３】音声合成規則部４は、日本語の特徴に基づ
いて設定された所定の音韻規則に従つて、文章解析部３
の検出結果及びテキスト入力を処理するようになされて
いる。すなわち、日本語の自然な音声は、言語学的特性
に基づいて区別すると、約１００程度の発声の単位に区
分することができる。例えば、「さくら」という単語を
発声の単位に区分すると、「sa」＋「ak」＋「ku」＋
「ur」＋「ra」の５つのＣＶ／ＶＣ単位に分割すること
ができる。

【００２４】さらに日本語は、単語が連続する場合、連
なつた後ろの語の語頭音節が濁音化したり（すなわち続
濁でなる）、語頭以外のガ行音が鼻音化したりして、単
語単体の場合と発声が変化する特徴がある。従つて音声
合成規則部４は、これら日本語の特徴に従つて音韻規則
が設定されるようになされ、その規則に従つてテキスト
入力を音韻記号列（すなわち上述の「sa」＋「ak」＋
「ku」＋「ur」＋「ra」等の連続する列でなる）に変換
するようになされている。さらに音声合成規則部４は、
この音韻記号列に基づいて、音声単位記憶部２から各音
声単位データをロードする。

【００２５】ここで音声合成装置１は、波形編集の手法
を用いて合成音を発声するようになされ、音声単位記憶
部２からロードされるデータは、各ＣＶ／ＶＣ単位で表
される合成音を生成する際に用いられる波形データでな
る。この波形合成に用いる音声単位データは次のように
構成される。

【００２６】すなわち音声単位データの有声部に関して
は、実音声の有声部分において１ピツチに対応する音声
波形データを必要なフレーム数だけ貯えたものからな
り、また音声単位データの無声部に関しては、実音声の
無声部分の波形を切り出してそのまま貯えたものからな
る。例えば音声単位データがＣＶ／ＶＣ単位である場合
には、ある１つの音声単位ＣＶは、その子音部Ｃが無声
子音である時には無声部分の切り出し波形と、１ピツチ
の音声波形の複数フレームからなる音声波形データから
構成され、また子音部Ｃが有声子音である時には１ピツ
チの音声波形からなる複数フレームの音声波形データか
ら構成される。

【００２７】またこの音声単位データは、音声単位記憶
部２に貯えられている全ての音声単位データの集まりで
ある音声単位データセツト内において、図２に示すよう
なブロツクによつて、音声単位データ内の音声波形デー
タのスペクトル包絡軌道が正規化される。この音声波形
データのスペクトル包絡軌道の正規化処理の具体例を以
下に示す。

【００２８】すなわちまず音声単位データセツトに含ま
れる少なくとも一つの音素に対して、音声単位間を接続
する場合の接続フレームにおける代表的なスペクトル包
絡特性を設定する。これはＣＶ／ＶＣ単位による音声単
位データセツトについて、音素/a/ に対する代表的なス
ペクトル包絡特性を設定する場合には、/ak/、/as/、/k
a/、/sa/のように音素/a/ を含む音声単位データセツト
内の当該音声単位データ全てについて、音素/a/ が音声
単位データの前方音素となる場合にはその音声単位デー
タ内の前端フレームを対象の接続フレームとし、また音
素/a/ が音声単位データの後方音素となる場合には、そ
の音声単位データ内の後端フレームを対象の接続フレー
ムとして、対象の接続フレームの音声波形データのスペ
クトル包絡特性を求める。

【００２９】このようにして求められた音声単位データ
全てにおけるスペクトル包絡特性から、そのスペクトル
包絡特性の空間内での重心であるセントロイドを求め、
これを音素/a/ における代表的なスペクトル包絡特性と
する。あるいはスペクトル包絡特性の空間内において求
められたセントロイドに最も近い位置にあるスペクトル
包絡特性を代表的なスペクトル包絡特性としても良い。
同様にして、スペクトル包絡軌道の正規化を行う他の音
素に対しても、その代表的なスペクトル包絡特性を設定
する。

【００３０】次に音素に対して設定された代表的なスペ
クトル包絡特性を用いて、各音声単位データ内の音声波
形データのスペクトル包絡軌道の正規化を行う。この具
体的な方法は、音声単位データ/am/の場合では次のよう
になる。すなわち音声単位データ/am/内の各フレームに
おける音声波形データを周波数分析し、それぞれの音声
波形データのスペクトル包絡特性とスペクトル微細構造
特性を抽出する。

【００３１】次に音素/a/ の代表的なスペクトル包絡特
性と、抽出された音声単位データ/am/内の前端フレーム
におけるスペクトル包絡特性との差分を計算して、これ
を前端フレームにおけるスペクトル包絡特性のギヤツプ
とし、また音素/m/ の代表的なスペクトル包絡特性と、
抽出された音声単位データ/am/内の後端フレームにおけ
るスペクトル包絡特性との差分を計算して、これを後端
フレームにおけるスペクトル包絡特性のギヤツプとす
る。

【００３２】音声単位データ/am/内の音素/a/ と音素/m
/ との境界となるフレームを中心として、求められた両
端のフレームにおけるスペクトル包絡特性のギヤツプを
打ち消すように、音声単位データ/am/に対するスペクト
ル包絡軌道の正規化関数を設定する。図３はスペクトル
包絡軌道の正規化関数である。この正規化関数は、音声
単位データ内の音素境界に接するフレームでスペクトル
包絡特性の補正量が０となるように、音声単位データの
両端のスペクトル包絡特性のギヤツプを直線補間する関
数である。

【００３３】また図４はスペクトル包絡軌道の正規化処
理である。設定された正規化関数を抽出された音声単位
データ/am/の各フレームのスペクトル包絡特性に適用す
ることで、両端のフレームにおけるスペクトル包絡特性
はそれぞれ音素/a/ と音素/m/ との代表的なスペクトル
包絡特性となり、しかも音声単位データ内では滑らかな
スペクトル包絡軌道が実現できる。

【００３４】最後に音声単位データ/am/内の各フレーム
において、正規化されたスペクトル包絡情報と、周波数
分析によつて得られた原音声波形データの微細構造情報
とを用いて時間波形を求め、この時間波形を各フレーム
の音声波形データとする。このような手法による音声単
位データのスペクトル包絡軌道の正規化を、該当する音
声単位データ全てに対して行う。

【００３５】音声合成規則部４は、音声単位記憶部２か
らロードされた音声単位データをテキスト入力に応じた
順序（以下このデータを合成波形データと呼ぶ）で合成
し、かくして抑揚のない状態で、テキスト入力を読み上
げた合成音声波形を得ることができる。さらに音声合成
規則部４は所定の韻律規則に基づいて、テキスト入力を
適当な長さで分割して、切れ目すなわちポーズを検出す
る。かくして図５に示すように、例えばテキスト入力と
して文章「きれいな花を山田さんからもらいました」が
入力された場合は（図５（Ａ））、当該テキスト入力は
「きれいな」、「はなを」、「やまださんから」、「も
らいました」に分解された後、「はなを」及び「やまだ
さんから」の間にポーズが検出される（図５（Ｂ））。

【００３６】さらに音声合成規則部４は、韻律規則及び
各単語の基本アクセントに基づいて、各文節のアクセン
トを検出する。すなわち日本語の文節単体のアクセント
は、感覚的に仮名文字を単位として（以下モーラと呼
ぶ）、高低の２レベルで表現することができる。このと
き文節の内容等に応じて、文節のアクセント位置を区別
することができる。例えば、端、箸、橋は、２モーラの
単語で、それぞれアクセントのない０型、アクセントの
位置が先頭のモーラにある１型、アクセントの位置が２
モーラ目にある２型に分類することができる。かくし
て、この実施例において音声合成規則部４は、テキスト
入力の各文節を、それぞれ１型、２型、０型、４型と分
類し（図５（Ｃ））、これにより文節単位でアクセント
及びポーズを検出する。

【００３７】さらに音声合成規則部４は、アクセント及
びポーズの検出結果に基づいて、テキスト入力全体の抑
揚を表す基本ピツチパターンを生成する。すなわち日本
語において文節のアクセントは、感覚的に２レベルで表
し得るのに対し、実際の抑揚は、アクセントの位置から
徐々に低下する特徴がある（図５（Ｄ））。さらに日本
語においては、文節が連続して１つの文章になると、ポ
ーズから続くポーズに向かつて、抑揚が徐々に低下する
特徴がある（図５（Ｅ））。

【００３８】従つて音声合成規則部４は、かかる日本語
の特徴に基づいて、テキスト入力全体の抑揚を表すパラ
メータを各モーラ毎に生成した後、人間が発声した場合
と同様に抑揚が滑らかに変化するように、モーラ間の補
間によりパラメータを設定する。かくして音声合成規則
部４は、テキスト入力に応じた順序で、各モーラのパラ
メータ及び補間したパラメータを合成し（以下ピツチパ
ターンと呼ぶ）、かくしてテキスト入力を読み上げた音
声の抑揚を表すピツチパターン（図５（Ｆ））を得るこ
とができる。

【００３９】音声合成部５は、合成波形データ及びピツ
チパターンに基づいて波形合成処理を行ない合成音を生
成する。この波形合成処理は次のように行う。すなわち
合成音声の有声部においては、合成波形データ内の１ピ
ツチに対応した波形データをピツチパターンに基づいて
並べ重畳していく。また合成音声の無声部分において
は、合成波形データ内の切り出し波形をそのまま所望の
合成音声の波形とする。これによりピツチパターンの変
化に追従して抑揚の変化する合成音を得ることができ
る。

【００４０】このように音声を合成するために用いる音
声単位データのスペクトル包絡軌道を正規化することに
よつて、高品質な合成音声が得られる波形重畳方式の音
声合成において、同一音素内における音声単位接続部で
の接続歪みがほとんど解消され、音声合成時における補
間処理を行うことなしに、音声単位データが滑らかに接
続された人間の音声に近い高品質な任意の合成音が得ら
れる。

【００４１】以上の構成において、所定の入力装置から
入力されたテキスト入力は、文章解析部２で、所定の辞
書を基準にして解析され、単語、文節の境界及び基本ア
クセントが検出される。単語、文節の境界及び基本アク
セントの検出結果は、音声合成規則部４で、所定の音韻
規則に従つて処理され、抑揚のない状態でテキスト入力
を読み上げた音声を表す合成波形データが生成される。

【００４２】さらに単語、文節の境界及び基本アクセン
トの検出結果は、音声合成規則部４で、所定の韻律規則
に従つて処理され、テキスト入力全体の抑揚を表すピツ
チパターンが生成される。ピツチパターンは合成波形デ
ータと共に音声合成部５に出力され、ここでピツチパタ
ーン及び合成波形データに基づいて合成音が生成され
る。

【００４３】以上の構成によれば、高品質な合成音声が
得られる波形重畳方式の音声合成において、合成時にお
ける音声単位間の補間処理を行うことなしに滑らかに音
声単位が接続され、人間の音声に近い高品質な合成音声
を任意に生成することができる。

【００４４】（２）第２実施例この第２実施例の場合、音声単位データは音声単位記憶
部２に貯えられている全ての音声単位データの集まりで
ある音声単位データセツト内において、図６に示すよう
なブロツクによつて、音声単位データ内の音声波形デー
タのスペクトル包絡軌道が正規化されている。この音声
波形データのスペクトル包絡軌道の正規化処理の具体例
を以下に示す。

【００４５】すなわちまず図２の場合と同様にして、音
声単位データセツトに含まれる少なくとも一つの音素に
対して、音声単位間を接続する場合の接続フレームにお
ける代表的なスペクトル包絡特性を設定する。これはＣ
Ｖ／ＶＣ単位による音声単位データセツトについて、音
素/a/ に対する代表的なスペクトル包絡特性を設定する
場合には、/ak/、/as/、/ka/、/sa/のように音素/a/ を
含む該当音声単位データ全てについて、音素/a/ が音声
単位データの前方音素となる場合にはその音声単位デー
タ内の前端フレームを対象の接続フレームとし、また音
素/a/ が音声単位データの後方音素となる場合には、そ
の音声単位データ内の後端フレームを対象の接続フレー
ムとして、対象の接続フレームの音声波形データのスペ
クトル包絡特性を求める。

【００４６】このようにして求められた音声単位データ
全てにおけるスペクトル包絡特性から、そのスペクトル
包絡特性の空間内での重心であるセントロイドを求め、
これを音素/a/における代表的なスペクトル包絡特性と
する。あるいは、スペクトル包絡特性の空間内において
求められたセントロイドに最も近い位置にあるスペクト
ル包絡特性を代表的なスペクトル包絡特性としても良
い。同様にして、スペクトル包絡軌道の正規化を行う他
の音素に対しても、その代表的なスペクトル包絡特性を
設定する。

【００４７】次に音素に対して設定された代表的なスペ
クトル包絡特性を用いて、各音声単位データ内の音声波
形データのスペクトル包絡軌道の正規化を行う。この具
体的な方法は、音声単位データ/am/の場合では次のよう
になる。すなわち音声単位データ/am/内の各フレームに
おける音声波形データ（図７（Ａ））をケプストラム分
析し、該当する音声波形データのケプストラムc(n)（図
７（Ｂ））を求める（ここでn:-(N/2)≦ n＜(N/2),N:ケ
プストラム分析のフレーム長）。この結果求められたケ
プストラムc(n)に対して任意の次数k （0 ＜ k＜(N/2)
、通常３２次程度）を設定し、次式

【数１】ようなケプストラム窓w1、w2によつてリフタリングを行
う。

【００４８】この（３）式によつて、k 次よりも低次の
ケプストラム係数、つまり低ケフレンシー部c1(n) （図
７（Ｃ））が抽出される。この低ケフレンシー部は、周
波数領域では分析対象の音声波形データのスペクトル包
絡特性を表現する。また（４）式によつて、k 次以上の
ケプストラム係数、つまり高ケフレンシー部c2(n) （図
７（Ｄ））が抽出される。この高ケフレンシー部は、周
波数領域では分析対象の音声波形データの微細構造特性
を表現する。このようにして、分析対象の音声波形デー
タのスペクトル包絡特性と微細構造特性をケプストラム
によつて分離しそれぞれを抽出する。

【００４９】次に音素/a/ の代表的なスペクトル包絡特
性のケプストラムを求め、（１）式のケプストラム窓に
よつて、低ケフレンシー部を取り出す。この音素/a/ の
代表的なスペクトル包絡特性を表すケプストラムと、抽
出された音声単位データ/am/内の前端フレームにおける
スペクトル包絡特性を表すケプストラムc1(n) との差分
を計算して、これを前端フレームにおけるスペクトル包
絡特性のケプストラム次元でのギヤツプとする。同様に
音素/m/ の代表的なスペクトル包絡特性を表すケプスト
ラムを求め、抽出された音声単位データ/am/内の後端フ
レームにおけるスペクトル包絡特性を表すケプストラム
c1(n) との差分を計算し、これを後端フレームにおける
スペクトル包絡特性のケプストラム次元でのギヤツプと
する。

【００５０】音声単位データ/am/内の音素/a/ と音素/m
/ との境界となるフレームを中心として、求められた両
端のフレームにおけるスペクトル包絡特性のケプストラ
ム次元でのギヤツプを打ち消すように、音声単位データ
/am/ に対するスペクトル包絡軌道の正規化関数を設定
する。図４はスペクトル包絡軌道の正規化関数を周波数
領域で表現したものである。この正規化関数は、次式

【数２】で表され、音声単位データ内の音素境界に接するフレー
ムでスペクトル包絡特性の補正量が０となるように、音
声単位データの両端のフレームにおける低次のケプスト
ラム係数の差、つまりスペクトル包絡特性のケプストラ
ム次元でのギヤツプを直線補間する関数である。

【００５１】図８はスペクトル包絡軌道の正規化処理で
ある。設定された正規化関数を、抽出された音声単位デ
ータ/am/の各フレームのスペクトル包絡特性を表す低ケ
フレンシー部に適用することで、両端のフレームにおけ
るスペクトル包絡特性は、それぞれ音素/a/ と音素/m/
との代表的なスペクトル包絡特性となり、しかも音声単
位データ内では滑らかなスペクトル包絡軌道が実現でき
る。

【００５２】次に音声単位データの/am/内の各フレーム
において、正規化されたスペクトル包絡情報を表す低ケ
フレンシー部c1'(n)（図７（Ｅ））と、ケプストラム分
析及び（２）式のケプストラム窓によつて抽出されてい
る原音声波形データの微細構造情報を表す高ケフレンシ
ー部c2(n) とを次式

【数３】のようにして加算する。

【００５３】この（６）式によつて得られるケプストラ
ムc'(n) は、分析対象の音声波形データの微細構造特性
と、正規化されたスペクトル包絡特性を合わせ持つ周波
数特性を表現する。求められたケプストラムc'(n) に対
して、ケプストラム分析における逆変換を行つて、スペ
クトル包絡特性が正規化された音声波形データを得る
が、この時点では音声波形データが最小位相信号となる
ために次のような処理を行う。

【００５４】すなわち、ケプストラムc'(n) は零位相特
性であるが、次式

【数４】によつて、c'(n) と同じ周波数特性であり、なおかつ最
小位相特性である複素ケプストラムc''(n)（図７
（Ｆ））が得られることが知られている（A. V. Oppenh
eim, "A Speech Analysis-Synthesis System Based on
Homomorphic Filtering", J. Acoust. Soc. Am., Vol.
45, pp. 458-465, Feb 1969 ）。

【００５５】最後に（７）式によつて求められる最小位
相の複素ケプストラム c''(n) を逆変換することによつ
て、正規化されたスペクトル包絡特性を持ち、なおかつ
最小位相信号である時間波形（図７（Ｇ））が得られ、
この時間波形を各フレームの音声波形データとする。上
述した手法による音声単位データのスペクトル包絡軌道
の正規化を、該当する音声単位データ全てに対して行
う。

【００５６】音声合成規則部４は、音声単位記憶部２か
らロードされた音声単位データをテキスト入力に応じた
順序（以下このデータを合成波形データと呼ぶ）で合成
し、かくして抑揚のない状態で、テキスト入力を読み上
げた合成音声波形を得ることができる。さらに音声合成
規則部４は所定の韻律規則に基づいて、テキスト入力を
適当な長さで分割して、切れ目すなわちポーズを検出す
る。かくして図５に示すように、例えばテキスト入力と
して文章「きれいな花を山田さんからもらいました」が
入力された場合は（図５（Ａ））、当該テキスト入力は
「きれいな」、「はなを」、「やまださんから」、「も
らいました」に分解された後、「はなを」及び「やまだ
さんから」の間にポーズが検出される（図５（Ｂ））。

【００５７】さらに音声合成規則部４は、韻律規則及び
各単語の基本アクセントに基づいて、各文節のアクセン
トを検出する。すなわち日本語の文節単体のアクセント
は、感覚的に仮名文字を単位として（以下モーラと呼
ぶ）、高低の２レベルで表現することができる。このと
き文節の内容等に応じて、文節のアクセント位置を区別
することができる。例えば、端、箸、橋は、２モーラの
単語で、それぞれアクセントのない０型、アクセントの
位置が先頭のモーラにある１型、アクセントの位置が２
モーラ目にある２型に分類することができる。かくし
て、この実施例において音声合成規則部４は、テキスト
入力の各文節を、それぞれ１型、２型、０型、４型と分
類し（図５（Ｃ））、これにより文節単位でアクセント
及びポーズを検出する。

【００５８】さらに音声合成規則部４は、アクセント及
びポーズの検出結果に基づいて、テキスト入力全体の抑
揚を表す基本ピツチパターンを生成する。すなわち日本
語において文節のアクセントは、感覚的に２レベルで表
し得るのに対し、実際の抑揚は、アクセントの位置から
徐々に低下する特徴がある（図５（Ｄ））。さらに日本
語においては、文節が連続して１つの文章になると、ポ
ーズから続くポーズに向かつて、抑揚が徐々に低下する
特徴がある（図５（Ｅ））。

【００５９】従つて音声合成規則部４は、かかる日本語
の特徴に基づいて、テキスト入力全体の抑揚を表すパラ
メータを各モーラ毎に生成した後、人間が発声した場合
と同様に抑揚が滑らかに変化するように、モーラ間の補
間によりパラメータを設定する。かくして音声合成規則
部４は、テキスト入力に応じた順序で、各モーラのパラ
メータ及び補間したパラメータを合成し（以下ピツチパ
ターンと呼ぶ）、かくしてテキスト入力を読み上げた音
声の抑揚を表すピツチパターン（図５（Ｆ））を得るこ
とができる。

【００６０】音声合成部５は、合成波形データ及びピツ
チパターンに基づいて波形合成処理を行ない合成音を生
成する。この波形合成処理は次のように行う。すなわち
合成音声の有声部においては、合成波形データ内の１ピ
ツチに対応した波形データをピツチパターンに基づいて
並べ重畳していく。また合成音声の無声部分において
は、合成波形データ内の切り出し波形をそのまま所望の
合成音声の波形とする。これによりピツチパターンの変
化に追従して抑揚の変化する合成音を得ることができ
る。

【００６１】このように、スペクトル包絡軌道が正規化
された音声単位データにおいて、その有声部分の音声波
形データの位相特性を最小位相特性に整えることによつ
て、音声単位データ間の接続部分での位相特性が連続と
なり、聴感的な違和感が解消され、高品質な任意合成音
が得られる波形重畳方式において、より自然で滑らかな
音声単位データの接続が実現できる。

【００６２】以上の構成において、所定の入力装置から
入力されたテキスト入力は、文章解析部２で、所定の辞
書を基準にして解析され、単語、文節の境界及び基本ア
クセントが検出される。単語、文節の境界及び基本アク
セントの検出結果は、音声合成規則部４で、所定の音韻
規則に従つて処理され、抑揚のない状態でテキスト入力
を読み上げた音声を表す合成波形データが生成される。

【００６３】さらに単語、文節の境界及び基本アクセン
トの検出結果は、音声合成規則部４で、所定の韻律規則
に従つて処理され、テキスト入力全体の抑揚を表すピツ
チパターンが生成される。ピツチパターンは合成波形デ
ータと共に音声合成部５に出力され、ここでピツチパタ
ーン及び合成波形データに基づいて合成音が生成され
る。

【００６４】以上の構成によれば、スペクトル包絡軌道
が正規化された音声単位データセツトを用いた波形重畳
方式の音声合成において、合成時における音声単位デー
タ間の位相特性のずれが解消され、人間の音声に近い高
品質な合成音声を任意に生成することができる。

【００６５】（３）他の実施例なお上述の第２実施例においては、音声単位データ内の
有声部分の音声波形データの位相特性を最小位相特性に
整える場合について述べたが、最小位相特性の複素ケプ
ストラムを求める（７）式の変わりに、次式

【数５】を用いて最大位相特性の複素ケプストラムを求め、これ
によつて音声波形データの位相特性を最大位相特性に整
えるようにしても良い。

【００６６】また上述の実施例においては、文章解析部
でテキスト入力を解析したが、これに代え音声合成装置
内には文章解析部を持たず、音声合成装置への直接の入
力として、音韻記号と韻律記号とが与えられるようにな
されても上述の実施例と同様の効果を実現できる。

【００６７】さらに上述の実施例においては、音声単位
データに対するスペクトル包絡軌道の正規化処理を、音
声単位データ内の音素境界を中心にして全てのフレーム
に対して施す場合について述べたが、本発明はこれに限
らず、音声単位データの前端からの任意のフレーム数及
び後端からの任意のフレーム数のみに対して正規化処理
を施しても良い。

【００６８】さらに上述の実施例においては、音声単位
データに対するスペクトル包絡軌道の正規化処理を、音
声単位データ全体に対して施す場合について述べたが、
本発明はこれに限らず、音声単位内の有声部分に対して
のみ正規化処理を施しても良い。

【００６９】さらに上述の実施例においては、音声単位
データがＣＶ／ＶＣ単位である場合について述べたが、
本発明はこれに限らず、音声単位データがＶＣＶ単位や
ＣＶＣ単位、あるいはその両者のように、音声単位デー
タを同一音素内で接続する音声合成方式において、音声
単位データ内の音韻連鎖が任意の数であつたり、音声単
位データ内の音韻連鎖のパターンが任意である場合に
も、音声単位内の前端フレーム及び後端フレームを含む
音素に対してのみ正規化処理を施しても良い。

【００７０】

【発明の効果】上述のように本発明によれば、高品質な
合成音声が得られる波形重畳方式の音声合成において、
音声合成時の音声単位間の補間処理を行うことなく、音
声単位接続部での接続歪みをほとんど解消することがで
き、人間の音声に近い高品質な合成音を任意に合成する
ことができる音声合成装置、音声合成装置及び記録媒体
を得ることができる。

【００７１】さらに上述のように本発明によれば、スペ
クトル包絡軌道が正規化された音声単位データセツトを
用いた波形重畳方式の音声合成において、合成時におけ
る音声単位データ間の位相特性のずれが解消され、人間
の音声に近い高品質な合成音を任意に合成することがで
きる音声合成装置、音声合成装置及び記録媒体を得るこ
とができる。

【図面の簡単な説明】

【図１】本発明による音声合成装置の一実施例を示すブ
ロツク図である。

【図２】図１の音声合成装置における音声単位データセ
ツトの正規化処理の第１実施例を示すブロツク図であ
る。

【図３】音声単位データのスペクトル包絡軌道の正規化
関数を示す特性曲線図である。

【図４】音声単位データのスペクトル包絡軌道の正規化
処理の説明に供する特性曲線図である。

【図５】本発明の一実施例の動作として基本ピツチパタ
ーンの生成の説明に供する略線図である。

【図６】図１の音声合成装置における音声単位データセ
ツトの正規化処理の第２実施例を示すブロツク図であ
る。

【図７】図６の正規化処理の動作の説明に供する特性曲
線図である。

【図８】音声単位データのスペクトル包絡軌道の正規化
関数を周波数領域で表現して示す特性曲線図である。

【図９】音声単位データのスペクトル包絡軌道の正規化
処理の説明に供する特性曲線図である。

【符号の説明】

１……音声合成装置、２……音声単位記憶部、３……文
章解析部、４……音声合成規則部、５……音声合成部。

Claims

【特許請求の範囲】

【請求項１】音韻記号と韻律記号とに基づいて所定の音
韻規則及び韻律規則によつて韻律情報を設定する音声合
成規則部と、音声波形データを必要フレーム数貯えた音
声単位及び上記韻律情報に基づいて合成音を生成する音
声合成部とを有する波形編集型の音声合成装置におい
て、少なくとも一つの音素に対して、上記音声単位間の接続
フレームにおける代表的なスペクトル包絡特性を設定
し、当該代表的なスペクトル包絡特性を以て上記音声波
形データのスペクトル包絡軌道を正規化した上記音声単
位を記憶する音声単位記憶部を具えることを特徴とする
音声合成装置。
【請求項２】入力された文字の系列を解析して、単語、
文節の境界及び基本アクセントを検出し、上記音韻記号
と上記韻律記号とを生成する文章解析部を具えることを
特徴とする請求項１に記載の音声合成装置。
【請求項３】上記音声単位の上記スペクトル包絡軌道の
正規化を、上記音声単位の前端及び又は後端の任意数の
フレームに対してのみ行うようにしたことを特徴とする
請求項１又は請求項２に記載の音声合成装置。
【請求項４】上記音声単位の上記スペクトル包絡軌道の
正規化を、上記音声単位内の有声部分に対してのみ行う
ようにしたことを特徴とする請求項１、請求項２又は請
求項３に記載の音声合成装置。
【請求項５】上記音声単位の上記スペクトル包絡軌道の
正規化を、上記音声単位内の前端及び又は後端の接続フ
レームを含む音素に対してのみ行うようにしたことを特
徴とする請求項１、請求項２又は請求項３に記載の音声
合成装置。
【請求項６】少なくとも一つの音素に対して設定され
た、音声単位間の接続フレームにおける代表的なスペク
トル包絡特性を以て、スペクトル包絡軌道が正規化され
た音声波形データを必要数貯えた音声単位を記憶する音
声単位記憶部と、音韻記号と韻律記号とに基づいて所定
の音韻規則及び韻律規則によつて韻律情報を設定する音
声合成規則部と、上記音声単位及び上記韻律情報に基づ
いて合成音を生成する音声合成部とを有する波形編集型
の音声合成装置において、上記音声単位記憶部に貯えられている上記音声単位内の
有声部分について、各フレームの上記音声波形データの
位相特性を最小位相特性に整えるようにしたことを特徴
とする音声合成装置。
【請求項７】上記音声単位記憶部に貯えられている上記
音声単位内の有声部分について、各フレームの上記音声
波形データの位相特性を最大位相特性に整えるようにし
たことを特徴とする請求項６に記載の音声合成装置。
【請求項８】音韻記号と韻律記号とに基づいて所定の音
韻規則及び韻律規則によつて韻律情報を設定すると共
に、音声波形データを必要フレーム数貯えた音声単位及
び上記韻律情報に基づいて合成音を生成する波形編集型
の音声合成方法において、少なくとも一つの音素に対して、上記音声単位間の接続
フレームにおける代表的なスペクトル包絡特性を設定
し、当該代表的なスペクトル包絡特性を以て上記音声波
形データのスペクトル包絡軌道を正規化した音声単位を
記憶するようにしたことを特徴とする音声合成方法。
【請求項９】入力された文字の系列を解析して、単語、
文節の境界及び基本アクセントを検出し、上記音韻記号
と上記韻律記号とを生成するようにしたことを特徴とす
る請求項８に記載の音声合成方法。
【請求項１０】上記音声単位の上記スペクトル包絡軌道
の正規化を、上記音声単位の前端及び又は後端の任意数
のフレームに対してのみ行うようにしたことを特徴とす
る請求項８又は請求項９に記載の音声合成方法。
【請求項１１】上記音声単位の上記スペクトル包絡軌道
の正規化を、上記音声単位内の有声部分に対してのみ行
うようにしたことを特徴とする請求項８、請求項９又は
請求項１０に記載の音声合成方法。
【請求項１２】上記音声単位の上記スペクトル包絡軌道
の正規化を、上記音声単位内の前端及び又は後端の接続
フレームを含む音素に対してのみ行うようにしたことを
特徴とする請求項８、請求項９、請求項１０又は請求項
１１に記載の音声合成方法。
【請求項１３】少なくとも一つの音素に対して設定され
た音声単位間の接続フレームにおける代表的なスペクト
ル包絡特性を以て、スペクトル包絡軌道が正規化された
音声波形データを必要数貯えた音声単位を記憶すると共
に、音韻記号と韻律記号とに基づいて所定の音韻規則及
び韻律規則によつて韻律情報を設定し、上記音声単位及
び上記韻律情報に基づいて合成音を生成する波形編集型
の音声合成方法において、上記音声単位内の有声部分において、各フレームの上記
音声波形データの位相特性を最小位相特性に整えるよう
にしたことを特徴とする音声合成方法。
【請求項１４】上記音声単位内の有声部分において、各
フレームの上記音声波形データの位相特性を最大位相特
性に整えるようにしたことを特徴とする請求項１３に記
載の音声合成方法。
【請求項１５】請求項８、請求項９、請求項１０、請求
項１１、請求項１２、請求項１３又は請求項１４に記載
の音声合成方法を記録した記録媒体。
【請求項１６】請求項８、請求項１０、請求項１１、請
求項１２、請求項１３又は請求項１４に記載の音声単位
のデータを記録した記録媒体。