JP2001312300A

JP2001312300A - 音声合成装置

Info

Publication number: JP2001312300A
Application number: JP2000133279A
Authority: JP
Inventors: Nobuhide Yamazaki; 信英山崎
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2000-05-02
Filing date: 2000-05-02
Publication date: 2001-11-09

Abstract

(57)【要約】【課題】多くの声種を用いてテキストデータに係る音
声合成を行う。【解決手段】テキストデータと、辞書データ記録部１
１からの辞書データとが言語解析部１０に供給される。
言語解析部１０は、辞書データを参照して、テキストデ
ータに基づく発音記号列データを生成し、生成した発音
記号列データを規則合成部１５に供給する。一方、基本
音声データ記録部１２からの基本音声データと、外部パ
ラメータとが音声データ変換部１３に供給される。音声
データ変換部１３は、外部パラメータを参照して、基本
音声データの音響的、或いは韻律的情報を変換する処理
を行うことにより、異なる声種の音声データを生成す
る。生成された音声データは、音声データ記憶部１４を
介して規則合成部１５に供給される。規則合成部１５
は、発音記号列データに基づいて、音声データ変換部１
３が生成した音声データを用いて音声波形データを生成
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、テキストデータ
に基づいて音声データを合成する音声合成装置に関す
る。

【０００２】

【従来の技術】テキスト音声合成、規則音声合成におい
て、従来から知られている方法では、声種毎に音声デー
タを用意する必要があった。音声データを記録する記録
部については、当該記録部を実装する際の設計上の都合
等により、記録容量等が制限される。

【０００３】

【発明が解決しようとする課題】このため、ある程度以
上多数の音声データを予め用意することは困難である。
このため、ユーザは、データ数が制限された音声データ
の内から声種を選択することになる。このため、選択の
自由度が小さくなり、所望の声質の合成音声を得ること
が難しかった。

【０００４】従って、この発明の目的は、多くの声種を
用いて、テキストデータに係る音声合成を行うことを可
能とする音声合成装置を提供することにある。

【０００５】

【課題を解決するための手段】請求項１の発明は、テキ
ストデータに基づいて音声データを合成する音声合成装
置において、外部から設定されるパラメータに応じて、
基本となる音声データを変換することにより、異なる声
種の音声データを生成する音声データ変換手段を有し、
音声データ変換手段によって生成される音声データを用
いて、テキストデータに対応する音声データを合成する
音声合成処理を行うようにしたことを特徴とする音声合
成装置である。

【０００６】以上のような発明によれば、基本となる音
声データに対して、音響的、或いは韻律的情報を変換す
る処理を施すことによって、異なる声種の音声データを
生成することができる。

【０００７】

【発明の実施の形態】図１を参照して、この発明の一実
施形態の全体的な構成について説明する。テキストデー
タが言語解析部１０に供給される。テキストデータは、
音声合成処理の対象とされるものであり、例えばシフト
ＪＩＳコード等で記述された漢字仮名混じりのテキスト
等、任意のテキストデータを用いることができる。言語
解析部１０には、さらに、辞書データ記録部１１から辞
書データが供給される。辞書データ記録部１１は、例え
ばＨＤＤ（ハードディスクドライブ）等を用いて構成す
ることができる。

【０００８】言語解析部１０は、入力されるテキストデ
ータに基づいて、音声合成を行うために必要とされる読
みの情報にアクセントの情報が付加されてなる発音記号
列データを生成する。例えば、辞書データ記録部１１か
ら供給される辞書データと、文法ルールとを参照して形
態素解析を行い、さらに、アクセント規則と、フレーズ
規則とを参照して発音記号列データを生成し、生成した
発音記号列データを規則合成部１５に供給する。言語解
析部１０としては、既存のテキスト音声合成装置におけ
る言語解析部を用いることができる。なお、文法ルー
ル、アクセント規則、フレーズ規則等の情報は、言語解
析部１０に内蔵される記憶部に記憶するようにしても良
いし、外部から供給されるようにしても良い。

【０００９】一方、基本音声データ記録部１２から、基
本音声データが音声データ変換部１３に供給される。音
声データ変換部１３には、さらに、外部パラメータが供
給される。音声データ変換部１３は、外部パラメータを
参照して、供給される基本音声データの音響的、或いは
韻律的情報を変換する処理を行うことにより、異なる声
種の音声データを再構成する。再構成された音声データ
は、音声データ記憶部１４に供給され、記憶される。音
声データ記憶部１４は、記憶したデータを、規則合成部
１５に適宜供給する。

【００１０】規則合成部１５は、音声データ記憶部１４
から供給される音声データを用いて、発音記号列データ
の韻律情報からイントネーションのパターンを生成する
と共に、発音記号列データの音韻列の並びに従って必要
な音韻データを順次取得し、さらに、イントネーション
に応じて組み立てながら音声波形データを生成する。規
則合成部１５としては、既存のテキスト音声合成装置の
規則合成部を使用することができる。

【００１１】図１に示したような構成により、以下のよ
うな処理が実現される。まず、音声データ変換部１３に
より、基本となる音声データから音声データが再構築さ
れる。このようにして、外部パラメータを適宜与えるこ
とにより、様々な種類の声種の音声を合成することがで
きる。さらに、テキストデータが言語解析部１０に供給
され、言語解析部１０は、供給されるテキストデータに
ついて言語解析を行うことにより、漢字の読み、アクセ
ント等の情報を含む発音記号列データを生成し、生成し
たデータを規則合成部１５に供給する。規則合成部１５
は、音声データ変換部１３によって再構成された音声デ
ータに基づいて、発音記号列データに対応する音声波形
を生成する。

【００１２】図２に、音声データ変換部１３の第１の構
成例を示す。このような構成は、規則合成部１５が１ピ
ッチ波形データの重畳方式を用いて音声波形を合成する
場合に使用することができる。基本音声データが１ピッ
チ波形抽出部１０１に供給される。１ピッチ波形抽出部
１０１は、供給される基本音声データから、１ピッチ波
形データを抽出し、抽出した１ピッチ波形データをＦＦ
Ｔ(Fast Fourier Transform)処理部１０２に供給する。

【００１３】この際の抽出処理は、基本音声データのフ
ォーマットに従って行うようにすれば良い。なお、１ピ
ッチ波形データは複数個得られるので、以下の処理は、
複数個の１ピッチ波形データのそれぞれについて行う必
要がある。また、１ピッチ波形抽出部１０１により、１
ピッチ波形データ以外のデータ（その他のデータと表記
する）も抽出される。その他のデータは、音声データ構
築部１０５に供給される。

【００１４】ＦＦＴ処理部１０２は、供給される１ピッ
チ波形データにフーリエ変換処理を施し、時間領域から
周波数領域のスペクトルパターンに変換する。ＦＦＴ処
理部１０２の出力は、伸縮処理部１０３に供給される。
伸縮処理部１０３には、外部パラメータとして伸縮率パ
ラメータがさらに供給される。伸縮処理部１０３は、伸
縮率パラメータに基づいて以下の式（１）に従う演算処
理を行うことにより、ＦＦＴ処理部１０２から供給され
る周波数領域のスペクトルパターンを伸縮する処理を行
う。

【００１５】ｒが１．０以下、ｉ＝〔０，（ＮＦＦＴ）／２〕の場合Ｙ’〔ｉ〕＝Ｙ〔ｉ×ｒ〕Ｙ’〔ＮＦＦＴ−ｉ〕＝Ｙ〔ｉ〕ｒ＞０、ｉ＝〔０，（ＮＦＦＴ）／２〕の場合Ｙ’〔ｉ〕＝Ｙ〔ｉ×ｒ〕Ｙ’〔ＮＦＦＴ−ｉ〕＝Ｙ〔ｉ×ｒ〕（但し、ｉ×ｒが（ＮＦＦＴ）／２以下）Ｙ’〔ｉ〕＝０Ｙ’〔ＮＦＦＴ−ｉ〕＝０（但し、ｉ×ｒ＞（ＮＦＦＴ）／２以下）（１）ここで、ｒは伸縮率パラメータであり、ＮＦＦＴはＦＦ
Ｔ処理におけるサンプル数である。また、Ｙ〔ｉ〕は、
スペクトルデータ中のｉ番目の値であり、Ｙ’〔ｉ〕
は、伸縮処理後のスペクトルデータ中のｉ番目の値であ
る。伸縮率パラメータｒの値としては、０．５から２．
０の間の値が適切である。

【００１６】伸縮処理部１０３の出力が逆ＦＦＴ処理部
１０４に供給される。逆ＦＦＴ処理部１０４は、伸縮処
理部１０３の出力である、伸縮処理された周波数領域の
スペクトルデータパターンに逆ＦＦＴ処理を施すことに
より、時間領域の１ピッチ波形データに変換する。ＦＦ
Ｔ処理部１０２、伸縮処理部１０３、逆ＦＦＴ処理部１
０４による上述したような処理は、１ピッチ波形抽出部
１０１が抽出する複数個の１ピッチ波形の各々に対して
行われる。逆ＦＦＴ処理部１０４の出力が音声データ構
築部１０５に供給される。音声データ構築部１０５は、
逆ＦＦＴ処理部１０４の出力と、１ピッチ波形抽出部１
０１から供給されるその他のデータとに基づいて、音声
データを構築する。

【００１７】なお、伸縮処理された周波数領域のスペク
トルデータパターンを、ｎ次平均フィルタやケプストラ
ムを用いて平滑化するようにしても良い。また、ＦＦＴ
処理を行わずに、時間領域で直接伸縮処理を行うように
しても良い。この場合、伸縮処理の前後にアンチエイリ
アス用のローパスフィルタを挿入する構成とすれば良
い。

【００１８】図３に、音声データ変換部１３の第２の構
成例を示す。このような構成は、規則合成部１５がＬＰ
ＣパラメータとＬＰＣ合成フィルタとを用いて音声波形
を合成する場合に使用することができる。勿論、ＬＰＣ
パラメータ以外の、例えばＬＳＰやケプストラム等の他
のパラメータを用いて音声波形を合成する場合にも、図
３に示す構成を使用することが可能である。基本音声デ
ータがＬＰＣパラメータ抽出部２０１に供給される。Ｌ
ＰＣパラメータ抽出部２０１は、供給される基本音声デ
ータからＬＰＣパラメータデータを抽出し、抽出したＬ
ＰＣパラメータデータを周波数領域変換部２０２に供給
する。

【００１９】この際の抽出処理は、基本音声データのフ
ォーマットに従って行うようにすれば良い。なお、ＬＰ
Ｃパラメータデータは複数個得られるので、以下の処理
は、複数個のＬＰＣパラメータデータのそれぞれについ
て行う必要がある。また、ＬＰＣパラメータ抽出部２０
１により、ＬＰＣパラメータデータ以外のデータ（その
他のデータと表記する）も抽出される。その他のデータ
は、音声データ構築部２０６に供給される。

【００２０】周波数領域変換部２０２は、供給されるＬ
ＰＣパラメータデータを周波数領域のデータに変換す
る。この変換処理は、当該ＬＰＣパラメータを設定した
ＬＰＣ合成フィルタにインパルスを与えて、その応答波
形をフーリエ変換することにより、以下の式（２）に従
ってパワースペクトルを得る処理によって実現すること
ができる。

【００２１】

【数１】

【００２２】なお、式（２）において、変数θを０から
πまで変化させることにより、直接、スペクトルパター
ンを得るようにしても良い。

【００２３】周波数領域変換部２０２の出力は、伸縮変
換部２０３に供給される。伸縮変換部２０３には、伸縮
率パラメータがさらに供給される。伸縮変換部２０３
は、伸縮率パラメータに基づいて上述の式（２）に従う
演算処理を行うことにより、周波数領域変換部２０２か
ら供給される周波数領域のスペクトルパターンを伸縮す
る処理を行う。なお、伸縮処理された周波数領域のスペ
クトルデータパターンを、ｎ次平均フィルタやケプスト
ラムを用いて平滑化するようにしても良い。

【００２４】伸縮変換部２０３の出力が逆フーリエ変換
処理部２０４に供給される。逆フーリエ変換処理部２０
４は、伸縮変換部２０３の出力である、伸縮処理された
周波数領域のスペクトルデータパターンに逆フーリエ変
換処理を施すことにより、時間領域のデータに変換す
る。逆フーリエ変換処理部２０４の出力がパラメータ分
析処理部２０５に供給される。

【００２５】パラメータ分析処理部２０５は、例えば自
己相関係数を用いる方法等の一般的なＬＰＣパラメータ
分析手法を用いてパラメータ分析を行い、ＬＰＣパラメ
ータを求める。周波数領域変換部２０２、伸縮変換部２
０３、逆フーリエ変換処理部２０４、パラメータ分析処
理部２０５による上述したような処理は、１ピッチ波形
抽出部１０１が抽出する複数個のＬＰＣパラメータの各
々に対して行われる。

【００２６】パラメータ分析処理部２０５の出力が音声
データ構築部２０６に供給される。音声データ構築部２
０６は、パラメータ分析処理部２０５の出力と、ＬＰＣ
パラメータ抽出部２０１から供給されるその他のデータ
とに基づいて、音声データを構築する。

【００２７】図４に、音声データ変換部１３の第３の構
成例を示す。このような構成は、規則合成部１５が１ピ
ッチ波形データの重畳方式を用いて音声波形を合成する
場合に使用することができる。基本音声データが１ピッ
チ波形抽出部３０１に供給される。１ピッチ波形抽出部
３０１は、供給される基本音声データから１ピッチ波形
データを抽出する。

【００２８】この際の抽出処理は、基本音声データのフ
ォーマットに従って行うようにすれば良い。なお、１ピ
ッチ波形データは複数個得られるので、以下の処理は、
複数個の１ピッチ波形データのそれぞれについて行う必
要がある。また、１ピッチ波形抽出部３０１により、１
ピッチ波形データ以外のデータ（その他のデータと表記
する）も抽出される。その他のデータは、音声データ構
築部３０５に供給される。１ピッチ波形抽出部３０１の
出力は、ＦＦＴ処理部３０２に供給される。ＦＦＴ処理
部３０２は、供給される１ピッチ波形データにフーリエ
変換処理を施し、時間領域から周波数領域のスペクトル
パターンに変換する。

【００２９】ＦＦＴ処理部３０２の出力は、イコライジ
ング処理部３０３に供給される。イコライジング処理部
３０３には、外部パラメータとしてイコライジングパラ
メータがさらに供給される。イコライジング処理部３０
３は、イコライジングパラメータに基づく処理を行うこ
とにより、周波数特性を変換する。より具体的には、図
５に示すようなイコライジング特性をスペクトルパター
ンに掛け合わせることにより、変更を行う。図５Ａに、
高域強調フィルタ特性の一例を図示し、また、図５Ｂ
に、高域抑圧フィルタ特性の一例を図示した。図５にお
いて、ｆｃは、遮断周波数であり、ｇは、強調または抑
圧のゲインであり、ｆｗは、減衰幅である。また、ｆｓ
は、サンプリング周波数である。図５Ａ，Ｂに示すフィ
ルタ特性においては、第１フォルマントと第２フォルマ
ントとの間に、遮断周波数が設定されている。なお、図
５Ａ，Ｂに示すフィルタ特性以外にも、種々のフィルタ
特性を用いることができる。

【００３０】イコライジング処理部３０３の出力は、逆
ＦＦＴ処理部３０４に供給される。逆ＦＦＴ処理部３０
４は、イコライジング処理部３０３の出力である、周波
数特性が変換された周波数領域のスペクトルデータパタ
ーンに逆ＦＦＴ処理を施すことにより、時間領域の１ピ
ッチ波形データに変換する。逆ＦＦＴ処理部３０４の出
力が音声データ構築部３０５に供給される。音声データ
構築部３０５は、逆ＦＦＴ処理部３０４の出力と、１ピ
ッチ波形抽出部３０１から供給されるその他のデータと
に基づいて、音声データを構築する。

【００３１】図６に、音声データ変換部１３の第４の構
成例を示す。このような構成は、規則合成部１５がＬＰ
ＣパラメータとＬＰＣ合成フィルタとを用いて音声波形
を合成する場合に使用することができる。勿論、ＬＰＣ
パラメータ以外の、例えばＬＳＰやケプストラム等の他
のパラメータを用いて音声波形を合成する場合にも、図
３に示す構成を使用することが可能である。基本音声デ
ータがＬＰＣパラメータ抽出部４０１に供給される。Ｌ
ＰＣパラメータ抽出部４０１は、供給される基本音声デ
ータからＬＰＣパラメータデータを抽出する。

【００３２】この際の抽出処理は、基本音声データのフ
ォーマットに従って行うようにすれば良い。なお、ＬＰ
Ｃパラメータデータは複数個得られるので、以下の処理
は、複数個のＬＰＣパラメータデータのそれぞれについ
て行う必要がある。また、ＬＰＣパラメータ抽出部４０
１により、ＬＰＣパラメータデータ以外のデータ（その
他のデータと表記する）も抽出される。その他のデータ
は、音声データ構築部４０６に供給される。

【００３３】ＬＰＣパラメータ抽出部４０１の出力は、
周波数領域変換部４０２に供給される。周波数領域変換
部４０２は、供給されるＬＰＣパラメータデータを周波
数領域のデータに変換する。この変換処理は、当該ＬＰ
Ｃパラメータを設定したＬＰＣ合成フィルタにインパル
スを与えて、その応答波形をフーリエ変換し、パワース
ペクトルを得ることによって実現することができる。ま
た、式（２）において、変数θを０からπまで変化させ
ることにより、直接、スペクトルパターンを得るように
しても良い。

【００３４】周波数領域変換部４０２の出力は、イコラ
イジング処理部４０３に供給される。イコライジング処
理部４０３には、外部パラメータとしてイコライジング
パラメータがさらに供給される。イコライジング処理部
４０３は、イコライジングパラメータに基づく処理を行
うことにより、周波数特性を変換する。より具体的に
は、図５に示したようなイコライジング特性をスペクト
ルパターンに掛け合わせることにより、変更を行う。な
お、図５Ａ，Ｂに示すフィルタ特性以外にも、種々のフ
ィルタ特性を用いることができる。

【００３５】イコライジング処理部４０３の出力は、逆
フーリエ変換処理部４０４に供給される。逆フーリエ変
換処理部４０４は、イコライジング処理部４０３の出力
である、周波数特性が変換された周波数領域のスペクト
ルデータパターンに逆フーリエ変換処理を施すことによ
り、時間領域のデータに変換する。逆フーリエ変換処理
部４０４の出力がパラメータ分析処理部４０５に供給さ
れる。

【００３６】パラメータ分析処理部４０５は、例えば自
己相関係数を用いる方法等の一般的なＬＰＣパラメータ
分析手法を用いてパラメータ分析を行い、ＬＰＣパラメ
ータを求める。周波数領域変換部４０２、イコライジン
グ処理部４０３、逆フーリエ変換処理部４０４、パラメ
ータ分析処理部４０５による上述したような処理は、１
ピッチ波形抽出部１０１が抽出する複数個のＬＰＣパラ
メータの各々に対して行われる。

【００３７】パラメータ分析処理部４０５の出力が音声
データ構築部４０６に供給される。音声データ構築部４
０６は、パラメータ分析処理部４０５の出力と、ＬＰＣ
パラメータ抽出部４０１から供給されるその他のデータ
とに基づいて、音声データを構築する。

【００３８】図７に、音声データ変換部１３の第５の構
成例を示す。基本音声データが音声データ分類処理部５
０１に供給される。音声データ分類処理部５０１は、供
給される基本音声データを、有声固定位相データ、有声
ランダム位相データ、無声摩擦音データ、破裂音デー
タ、およびその他のデータに分類し、分類した各データ
を出力する。実際には、音声データのフォーマットに基
づいてこれらの分類を行う。この内、その他のデータ
は、音声データ構築部５０６に供給される。

【００３９】有声固定位相データは、有声固定位相ゲイ
ン調整部５０２に供給される。有声固定位相ゲイン調整
部５０２には、さらに、外部パラメータとして有声固定
位相ゲインが供給される。有声固定位相ゲイン調整部５
０２は、供給される有声固定位相ゲインに基づいて有声
固定位相ゲイン調整処理を行う。これにより、有声固定
位相ゲイン調整部５０２に供給される有声固定位相デー
タの振幅ゲインが変更される。

【００４０】ここで、有声固定位相データが時間領域で
の１ピッチ波形であるとする。この場合、全ての１ピッ
チ波形に対して、有声固定位相ゲインで示される一定の
係数を乗算することにより、有声固定位相データの振幅
ゲインが変更される。有声固定位相ゲイン調整部５０２
の出力は、音声データ構築部５０６に供給される。

【００４１】有声ランダム位相データは、有声ランダム
位相ゲイン調整部５０３に供給される。有声ランダム位
相ゲイン調整部５０３には、さらに、外部パラメータと
して有声ランダム位相ゲインが供給される。有声ランダ
ム位相ゲイン調整部５０３は、供給される有声ランダム
位相ゲインに基づいて有声ランダム位相ゲイン調整処理
を行う。これにより、有声固定位相ゲイン調整部５０３
に供給される有声ランダム位相データの振幅ゲインが変
更される。

【００４２】ここで、有声固定位相データがＬＰＣパラ
メータで表現されているとする。この場合、全てのＬＰ
Ｃ係数の０次の項に有声ランダム位相ゲインで示される
一定の係数を乗算することにより、有声ランダム位相デ
ータの振幅ゲインが変更される。有声ランダム位相ゲイ
ン調整部５０３の出力は、音声データ構築部５０６に供
給される。

【００４３】無声摩擦音データは、無声摩擦音ゲイン調
整部５０４に供給される。無声摩擦音ゲイン調整部５０
４には、さらに、外部パラメータとして無声摩擦音ゲイ
ンが供給される。無声摩擦音ゲイン調整部５０４は、供
給される無声摩擦音ゲインに基づいて無声摩擦音ゲイン
調整処理を行う。これにより、無声摩擦音ゲイン調整部
５０３に供給される無声摩擦音データの振幅ゲインが変
更される。ここで、無声摩擦音データがＬＰＣパラメー
タで表現されているとする。この場合、全てのＬＰＣ係
数の０次の項に無声摩擦音ゲインで示される一定の係数
を乗算することにより、無声摩擦音データの振幅ゲイン
が変更される。無声摩擦音ゲイン調整部５０４の出力
は、音声データ構築部５０６に供給される。

【００４４】破裂音データは、破裂音ゲイン調整部５０
５に供給される。破裂音ゲイン調整部５０５には、さら
に、外部パラメータとして破裂音ゲインが供給される。
破裂音ゲイン調整部５０５は、供給される破裂音ゲイン
に基づいて破裂音ゲイン調整処理を行う。これにより、
破裂音ゲイン調整部５０４に供給される破裂音データの
振幅ゲインが変更される。ここで、破裂音データがＰＣ
Ｍ波形データで表現されているとする。この場合、全て
の破裂音データ波形に対して、破裂音ゲインで示される
一定の係数を乗算することにより、破裂音データの振幅
ゲインが変更される。破裂音ゲイン調整部５０５の出力
は、音声データ構築部５０６に供給される。

【００４５】音声データ構築処理部５０６は、有声固定
位相ゲイン調整部５０２、有声ランダム位相ゲイン調整
部５０３、無声摩擦音位相ゲイン調整部５０４、および
破裂音位相ゲイン調整部５０５の各々から供給されるゲ
イン調整された各データと、音声データ分類処理部５０
１から供給されるその他のデータとを組み合わせる処理
を行う。これにより、音声データのフォーマットに従っ
て１つの音声データを構築し、構築した音声データを出
力する。

【００４６】図８に、音声データ変換部１３の第６の構
成例を示す。基本音声データが音声データ分類処理部６
０１に供給される。音声データ分類処理部６０１は、供
給される基本音声データを、平均的な声の高さデータ、
アクセントの強さデータ、声立て成分の強さデータ、発
話速度データ、すなわち各音韻の平均的な時間長を示す
データおよびその他のデータに分類し、分類した各デー
タを出力する。実際には、音声データのフォーマットに
基づいてこれらの分類を行う。この内、その他のデータ
は、音声データ構築部６０６に供給される。

【００４７】声の高さデータは、韻律情報調整部６０２
に供給される。韻律情報調整部６０２には、さらに、韻
律パラメータの１つである、声の高さパラメータが外部
パラメータとして供給される。韻律情報調整部６０２
は、供給される声の高さパラメータに基づいて声の高さ
データの値を調整する。ここで、声の高さデータが１つ
のスカラ値であるとする。この場合、声の高さデータに
声の高さパラメータの値を乗算したものを、調整後の声
の高さデータとして韻律情報調整部６０２が出力するも
のとされる。韻律情報調整部６０２の出力は、音声デー
タ構築部６０６に供給される。

【００４８】アクセントの強さデータは、韻律情報調整
部６０３に供給される。韻律情報調整部６０３には、さ
らに、韻律パラメータの１つであるアクセントの強さパ
ラメータが外部パラメータとして供給される。韻律情報
調整部６０３は、供給されるアクセントの強さパラメー
タに基づいてアクセントの強さデータの値を調整する。
ここで、アクセントの強さデータが１つのスカラ値であ
るとする。この場合、アクセントの強さデータにアクセ
ントの強さパラメータの値を乗算したものを、調整後の
アクセントの強さデータとして韻律情報調整部６０３が
出力するものとされる。韻律情報調整部６０３の出力
は、音声データ構築部６０６に供給される。

【００４９】声立て成分の強さデータは、韻律情報調整
部６０４に供給される。韻律情報調整部６０４には、さ
らに、韻律パラメータの１つである声立て成分の強さパ
ラメータが外部パラメータとして供給される。韻律情報
調整部６０３は、供給される声立て成分の強さパラメー
タに基づいて声立て成分の強さデータの値を調整する。
ここで、声立て成分の強さデータが１つのスカラ値であ
るとする。この場合、声立て成分の強さデータに声立て
成分の強さパラメータの値を乗算したものを、調整後の
声立て成分の強さデータとして韻律情報調整部６０４が
出力するものとされる。韻律情報調整部６０４の出力
は、音声データ構築部６０６に供給される。

【００５０】発話速度データは、韻律情報調整部６０５
に供給される。韻律情報調整部６０５には、さらに、韻
律パラメータの１つである発話速度パラメータが外部パ
ラメータとして供給される。韻律情報調整部６０５は、
供給される発話速度パラメータに基づいて発話速度デー
タの値を調整する。ここで、発話速度データが１つのス
カラ値であるとする。この場合、発話速度データに発話
速度パラメータの値を乗算したものを、調整後の発話速
度データとして韻律情報調整部６０５が出力するものと
される。韻律情報調整部６０５の出力は、音声データ構
築部６０６に供給される。

【００５１】音声データ構築処理部６０６は、韻律情報
調整部６０２〜６０５の各々によって韻律情報が調整さ
れた、声の高さデータ、アクセントの強さデータ、声立
て成分の強さデータ、発話速度データと、音声データ分
類処理部６０１から供給されるその他のデータとを組み
合わせる処理を行う。これにより、音声データのフォー
マットに従って１つの音声データを構築し、構築した音
声データを出力する。

【００５２】図９は、伸縮率パラメータの生成に係る構
成の一例を示す。声質の高さパラメータが指数変換部７
０１に入力される。ここで、声質の高さパラメータが標
準を０．５とし、０から１の間で与えられるとする。こ
の場合、指数変換部７０１は、以下の式（３）に示すよ
うな演算処理を行うことにより、伸縮率パラメータとし
て、標準を１とした、２から０．５の間の値を出力す
る。

【００５３】ｒ＝０．５×ｅｘｐ｛（１−Ｐｋ）×ｌｎ（４）｝（３）ここで、ｒは伸縮率パラメータである。また、Ｐｋは声
質の高さパラメータであり、０＜Ｐｋ＜１である。

【００５４】このようにして生成される伸縮率パラメー
タが例えば図３中の伸縮変換部２０３に供給され、伸縮
変換処理を行うに際して使用される。例えば、声質の高
さパラメータの値として、標準より高めを意味する０．
７が指定されると、指数変換部７０１により、伸縮率パ
ラメータとして約０．７６が出力される。これにより、
２０３等の伸縮変換部において、スペクトルデータが周
波数軸上で伸長され、声質が高くなったような音声デー
タが構築される。このような処理により、声質の高さと
いう感覚的なパラメータを、伸縮率パラメータという物
理的なパラメータに変換し、当該伸縮率パラメータに基
づいて音声データを構築することが実現される。従っ
て、より人間の感覚に則した声種の音声データの作成が
可能となる。

【００５５】図１０に、イコライジングパラメータの生
成に係る処理手順の一例を示す。ステップＳ１として、
声質の堅さパラメータ値Ｐｈを取得する。ここで、声質
の堅さパラメータ値Ｐｈは、標準値を５０とし、０から
１００の間で与えられるとする。ステップＳ２では、ス
テップＳ１で取得した声質の堅さパラメータ値Ｐｈが５
０未満であるか否かを判定する。Ｐｈが５０未満である
場合にはステップＳ３に処理が移行し、それ以外の場合
にはステップＳ４に処理が移行する。ステップＳ３で
は、声質の堅さを大きくするモード（ＭＯＤＥ＝１）を
設定し、高域抑制フィルタを選択する。そして、処理は
ステップＳ５に移行する。ステップＳ５ではゲイン設定
を行う。すなわち、標準値５０からのＰｈの変位ｄの関
数ｆ（ｄ）として、ゲイン値ｇを計算する。ゲイン値ｇ
の計算は、例えば以下の式（４）や式（５）に従ってな
される。

【００５６】ｇ＝ｆ₁（ｄ）＝Ａ×ｄ（４）ｇ＝ｆ₂（ｄ）＝Ａ×ｅｘｐ（Ｂ×ｄ）（５）ここで、Ａ，Ｂは定数である。また、ステップＳ５では
Ｐｈが５０未満であることから、ｄ＝５０−Ｐｈであ
り、ｇ＝ｆ（５０−Ｐｈ）と計算される。

【００５７】一方、ステップＳ４では、声質をソフトに
する、すなわち声質の堅さを小さくするモード（ＭＯＤ
Ｅ＝２）を設定し、高域抑制フィルタを選択する。そし
て、ステップＳ６に処理が移行する。ステップＳ６では
ゲイン設定を行う。すなわち、標準値５０からのＰｈの
変位ｄの関数ｆ（ｄ）として、ゲイン値ｇを計算する。
ゲイン値ｇの計算は、例えば上述の式（４）や式（５）
に従ってなされる。但し、ここではＰｈが５０以上であ
ることから、ｄ＝Ｐｈ−５０であり、ｇ＝ｆ（Ｐｈ−５
０）と計算される。

【００５８】ステップＳ５またはステップＳ６によって
ゲイン設定がなされると、ステップＳ７に移行する。ス
テップＳ７では、遮断周波数と減衰幅とが設定される。
遮断周波数および減衰幅は、１つの音声データについて
固定値として設定することができる。ステップＳ８で
は、以上のようにして設定されるイコライジングパラメ
ータ（フィルタモード、ゲイン、遮断周波数、減衰幅）
を出力する。このようなイコライジングパラメータは、
例えば図４中のイコライジング処理部３０３に供給さ
れ、イコライジング処理を行うに際して使用される。

【００５９】例えば、声質の堅さパラメータＰｈの値と
して７０を与えると、フィルタモードは高域強調フィル
タになり、スペクトルデータの高域側が強調されて堅め
の声種の音声データを構築することができる。また、例
えば声質の堅さパラメータＰｈの値として３０を与える
と、フィルタモードは高域抑制フィルタになり、スペク
トルデータの高域側が抑制されてよりソフトな感じの声
種の音声データを構築することができる。このような処
理により、声質の堅さという感覚的なパラメータを、イ
コライジングパラメータという物理的なパラメータに変
換し、当該イコライジングパラメータに基づいて音声デ
ータを構築することが実現される。従って、より人間の
感覚に則した声種の音声データの作成が可能となる。

【００６０】図１１は、有声固定位相ゲイン、および有
声ランダム位相ゲインの生成に係る構成の一例を示す。
パラメータ変換部８０１に、ハスキー度パラメータＰｐ
が入力される。ここで、ハスキー度パラメータＰｐは、
標準値を５０とし、０から１００の間で与えられるとす
る。パラメータ変換部８０１では、よりハスキー度の大
きい声質にする場合には有声固定位相ゲインの値を小さ
くし、有声ランダム位相ゲインの値を大きくする。ま
た、くっきりした、すなわちハスキー度の小さい声質と
する場合には、有声固定位相ゲインを大きくし、有声ラ
ンダム位相ゲインの値を小さくする。より具体的には、
パラメータ変換部８０１が以下の式（６）、式（７）に
従う計算処理を行うようにすれば良い。

【００６１】Ｇ_K＝Ａ×（１００−Ｐｐ）（６）Ｇ_R＝Ｂ×Ｐｐ（７）ここで、Ｇ_Kは有声固定位相ゲイン値であり、Ｇ_Rは有
声ランダム位相ゲイン値である。また、Ａ，Ｂは定数で
ある。

【００６２】このような処理により、ハスキー度という
感覚的なパラメータを、有声固定位相ゲインおよび有声
ランダム位相ゲインという物理的なパラメータに変換
し、これらのパラメータに基づいて音声データを構築す
ることが実現される。従って、より人間の感覚に則した
声種の音声データの作成が可能となる。

【００６３】次に、図１２を参照して、この発明の他の
実施形態の全体的な構成について説明する。図１２にお
いて、図１中の構成要素と同様なものについては、同一
の符号を付し、重複する説明を省略する。言語解析部１
０は、図１を参照して上述したようにして発音記号列デ
ータを生成し、生成した発音記号列データを規則合成部
１５’に供給する。

【００６４】一方、音声データ変換部１３’は、図１中
の音声データ変換部１３と同様な処理を行うことによ
り、基本音声データから、異なった声種の音声データを
再構成する。音声データ変換部１３’は、さらに、規則
合成部１５’からのデータ要求に応じて、再構成された
音声データを規則合成部１５’に供給する。

【００６５】規則合成部１５’は、図１中の規則合成部
１５と同様な処理を行うことにより、言語解析部１０か
ら供給される発音記号列データと、音声データ変換部１
３’から供給される再構成された音声データとに基づい
て音声波形データを生成する。以上のような、この発明
の他の実施形態では、上述したこの発明の一実施形態と
同等な処理を行うことができ、また、音声データ記憶部
１４を有しないため、回路構成が小さくて済むという利
点がある。

【００６６】図１３に、この発明の一実施形態における
音声データ変換の処理手順の一例を示す。ステップＳ１
０１では、規則合成部１５からのデータ要求が摩擦音デ
ータに係るものであるか否かを判定する。当該データ要
求が摩擦音データに係るものであると判定される場合に
はステップＳ１０２に移行し、それ以外の場合にはステ
ップＳ１０３に移行する。ステップＳ１０２では、音声
データから摩擦音データを取得する。そして、処理はス
テップＳ１０４に移行し、ステップＳ１０２にて取得さ
れた摩擦音データのデータ形式に従ってゲイン調整を行
う。例えば、摩擦データがＬＰＣパラメータで格納され
ていた場合には、ＬＰＣパラメータの０次の項を、外部
パラメータの内で摩擦音のゲインに対応する値に基づい
て調整する。ステップＳ１０４が完了すると、処理はス
テップＳ１１８に移行する。

【００６７】また、ステップＳ１０３では、規則合成部
１５からのデータ要求が破裂音データに係るものである
か否かを判定する。当該データ要求が破裂音データに係
るものであると判定される場合にはステップＳ１０５に
移行し、それ以外の場合にはステップＳ１０６に移行す
る。ステップＳ１０５では、音声データから破裂音デー
タを取得する。そして、処理はステップＳ１０７に移行
し、ステップＳ１０５にて取得された摩擦音データのデ
ータ形式に従ってゲイン調整を行う。例えば、破裂デー
タがＰＣＭ波形データとして格納されていた場合には、
波形全体の振幅を、外部パラメータの内で破裂音のゲイ
ンに対応する値に基づいて調整する。ステップＳ１０７
が完了すると、処理はステップＳ１１８に移行する。

【００６８】また、ステップＳ１０６では、規則合成部
１５からのデータ要求が１ピッチ波形データに係るもの
であるか否かを判定する。当該データ要求が１ピッチ波
形データに係るものであると判定される場合にはステッ
プＳ１０８に移行し、それ以外の場合にはステップＳ１
０９に移行する。ステップＳ１０８では、音声データか
ら１ピッチ波形データを取得する。そして、処理はステ
ップＳ１１０に移行する。ステップＳ１１０では、ステ
ップＳ１０８にて取得された１ピッチ波形データにＦＦ
Ｔ（高速フーリエ変換）処理を施すことにより、時間領
域の１ピッチ波形データを周波数領域のスペクトルパタ
ーンに変換する。

【００６９】そして、処理はステップＳ１１１に移行
し、外部パラメータ内の伸縮パラメータを用いて、周波
数領域のスペクトルパターンを伸縮する。さらに、処理
はステップＳ１１２に移行する。ステップＳ１１２、Ｓ
１１３では、それぞれ、イコライジング処理、ゲイン調
整処理を順次行なう。そして、ステップＳ１１４に処理
が移行し、逆ＦＦＴ処理を施すことにより、周波数領域
のスペクトルパターンを時間領域の１ピッチ波形データ
に変換する。ステップＳ１１４が完了すると、ステップ
Ｓ１１８に処理が移行する。

【００７０】また、ステップＳ１０９では、規則合成部
１５からのデータ要求が韻律データに係るものであるか
否かを判定する。当該データ要求が韻律データに係るも
のであると判定される場合にはステップＳ１１５に移行
し、それ以外の場合にはステップＳ１１６に移行する。
ステップＳ１１５では、音声データから韻律データを取
得する。そして、処理はステップＳ１１７に移行する。
ステップＳ１１７では、外部パラメータを用いて韻律デ
ータの値を調整することにより、音声データを構築する
処理を行う。ステップＳ１１７が完了すると、ステップ
Ｓ１１８に処理が移行する。

【００７１】また、ステップＳ１１６では、規則合成部
１５からのデータ要求が特に変換を伴わない音声データ
に係るものであるとみなせるので、音声データから、デ
ータ要求に対応するデータを取得する。ステップＳ１１
６が完了すると、ステップＳ１１８に処理が移行する。
ステップＳ１１８では、規則合成部１５に対するデータ
出力がなされる。以上のような処理手順により、外部パ
ラメータを適宜供給することによって、様々な種類の声
種の音声を合成することが可能とされている。

【００７２】この発明は、上述したこの発明の一実施形
態等に限定されるものでは無く、この発明の主旨を逸脱
しない範囲内で様々な変形や応用が可能である。

【００７３】

【発明の効果】この発明によれば、予め記録された基本
的な音声データに変換処理を施すことによって、音響
的、或いは韻律的情報が変更された様々な声種の音声デ
ータを生成することができる。

【００７４】このようにして生成される様々な声種の音
声データを用いてテキストデータに係る音声データを合
成することにより、多くの声種の音声データを予め記録
しておかなくとも、多くの声種の音声データを用いてテ
キストデータに係る音声データを合成することが可能と
される。

【００７５】従って、テキストデータに係る音声データ
を合成する処理に供される音声データを記録するための
記録容量が小さい場合にも、多様な声種の音声データを
用いてテキストデータに係る音声データを合成すること
ができる。

【図面の簡単な説明】

【図１】この発明の一実施形態の全体的な構成の一例を
示すブロック図である。

【図２】この発明の一部の構成の第１の例を示すブロッ
ク図である。

【図３】この発明の一部の構成の第２の例を示すブロッ
ク図である。

【図４】この発明の一部の構成の第３の例を示すブロッ
ク図である。

【図５】この発明の一実施形態において使用されるイコ
ライジング特性の一例を示す略線図である。

【図６】この発明の一部の構成の第４の例を示すブロッ
ク図である。

【図７】この発明の一部の構成の第５の例を示すブロッ
ク図である。

【図８】この発明の一部の構成の第６の例を示すブロッ
ク図である。

【図９】外部パラメータの生成に係る構成の一例を示す
ブロック図である。

【図１０】外部パラメータの生成に係る処理手順の一例
を示すフローチャートである。

【図１１】外部パラメータの生成に係る構成の他の例を
示すブロック図である。

【図１２】この発明の一実施形態の全体的な構成の他の
例を示すブロック図である。

【図１３】この発明の一実施形態における音声データ変
換の処理手順の一例を示すフローチャートである。

【符号の説明】

１３・・・音声データ変換部、１０３・・・伸縮処理
部、３０３、４０４・・・イコライジング部、５０１、
６０１・・・音声データ分類部、５０６、６０６・・・
音声データ構築部

Claims

【特許請求の範囲】

【請求項１】テキストデータに基づいて音声データを
合成する音声合成装置において、外部から設定されるパラメータに応じて、基本となる音
声データを変換することにより、異なる声種の音声デー
タを生成する音声データ変換手段を有し、上記音声データ変換手段によって生成される音声データ
を用いて、テキストデータに対応する音声データを合成
する音声合成処理を行うようにしたことを特徴とする音
声合成装置。
【請求項２】請求項１において、音声データ変換手段は、上記基本となる音声データを記憶する手段を有すること
を特徴とする音声合成装置。
【請求項３】請求項１において、上記外部から設定されるパラメータは、伸縮率パラメー
タを含み、上記音声データ変換手段は、上記基本となる音声データ中の１ピッチ波形データを抽
出し、抽出した上記１ピッチ波形データの周波数特性
を、上記伸縮率パラメータに基づいて、周波数軸上で伸
縮させる周波数軸変換手段を有し、上記周波数軸変換手段によって変換された１ピッチ波形
データに基づいて、音声データを構築することを特徴と
する音声合成装置。
【請求項４】請求項１において、上記外部から設定されるパラメータは、伸縮率パラメー
タを含み、上記音声データ変換手段は、上記基本となる音声データ中のスペクトルパラメータを
抽出し、抽出した上記スペクトルパラメータの周波数特
性を、上記伸縮率パラメータに基づいて、周波数軸上で
伸縮させる周波数軸伸縮手段とを有し、上記周波数軸変換手段によって変換されたスペクトルパ
ラメータに基づいて、音声データを構築することを特徴
とする音声合成装置。
【請求項５】請求項１において、上記外部から設定されるパラメータは、イコライジング
パラメータを含み、上記音声データ変換手段は、上記基本となる音声データ中の１ピッチ波形データを抽
出し、抽出した上記１ピッチ波形データの周波数特性
を、上記イコライジングパラメータに基づいてイコライ
ジング処理するイコライジング手段を有し、上記イコライジング手段によって変換された１ピッチ波
形データに基づいて、音声データを構築することを特徴
とする音声合成装置。
【請求項６】請求項１において、上記外部から設定されるパラメータは、イコライジング
パラメータを含み、上記音声データ変換手段は、上記基本となる音声データ中のスペクトルパラメータを
抽出し、抽出した上記スペクトルパラメータの周波数特
性を、上記イコライジングパラメータに基づいてイコラ
イジング処理するイコライジング手段を有し、上記イコライジング手段によって変換されたスペクトル
パラメータに基づいて、音声データを構築することを特
徴とする音声合成装置。
【請求項７】請求項５または６において、上記イコライジング処理の特性を高域抑制フィルタと
し、遮断周波数を、第１フォルマントと第２フォルマントと
の間に設定することを特徴とする音声合成装置。
【請求項８】請求項１において、上記外部から設定されるパラメータは、ゲインパラメー
タを含み、上記音声データ変換手段は、上記基本となる音声データ中の有声音声に係る固定位相
成分のデータを抽出し、抽出したデータの振幅ゲイン
を、上記ゲインパラメータに基づいて変更するゲイン調
整手段を有し、上記ゲイン調整手段によって変更されたスペクトルパラ
メータに基づいて、音声データを構築することを特徴と
する音声合成装置。
【請求項９】請求項１において、上記外部から設定されるパラメータは、ゲインパラメー
タを含み、上記音声データ変換手段は、上記基本となる音声データ中の有声音声に係るランダム
位相成分を抽出し、抽出したデータの振幅ゲインを、上
記ゲインパラメータに基づいて変更するゲイン調整手段
を有し、上記ゲイン調整手段によって変更されたスペクトルパラ
メータに基づいて、音声データを構築することを特徴と
する音声合成装置。
【請求項１０】請求項１において、上記外部から設定されるパラメータは、ゲインパラメー
タを含み、上記音声データ変換手段は、上記基本となる音声データ中の無声摩擦音を生成するデ
ータを抽出し、抽出したデータの振幅ゲインを、上記ゲ
インパラメータに基づいて変更するゲイン調整手段を有
し、上記ゲイン調整手段によって変更された無声摩擦音を生
成するデータに基づいて、音声データを構築することを
特徴とする音声合成装置。
【請求項１１】請求項１において、上記外部から設定されるパラメータは、ゲインパラメー
タを含み、上記音声データ変換手段は、上記基本となる音声データ中の破裂音を生成するデータ
を抽出し、抽出したデータの振幅ゲインを、上記ゲイン
パラメータに基づいて変更するゲイン調整手段を有し、上記ゲイン調整手段によって変更された破裂音を生成す
るデータに基づいて、音声データを構築することを特徴
とする音声合成装置。
【請求項１２】請求項１において、上記音声データ変換手段は、上記基本となる音声データ中の韻律情報の平均的な声の
高さを示すデータを抽出し、抽出したデータを、上記外
部から設定されるパラメータに基づいて変更する韻律情
報調整手段を有し、上記韻律情報調整手段によって変更されたデータに基づ
いて、音声データを構築することを特徴とする音声合成
装置。
【請求項１３】請求項１において、上記音声データ変換手段は、上記基本となる音声データ中の韻律情報のアクセントの
強さを示すデータを抽出し、抽出したデータを、上記外
部中の設定されるパラメータに基づいて変更する韻律情
報調整手段を有し、上記韻律情報調整手段によって変更されたデータに基づ
いて、音声データを構築することを特徴とする音声合成
装置。
【請求項１４】請求項１において、上記音声データ変換手段は、上記基本となる音声データ中の韻律情報の声立て成分の
強さを示すデータを抽出し、抽出したデータを、上記外
部から設定されるパラメータに基づいて変更する韻律情
報調整手段を有し、上記韻律情報調整手段によって変更されたデータに基づ
いて、音声データを構築することを特徴とする音声合成
装置。
【請求項１５】請求項１において、上記音声データ変換手段は、上記基本となる音声データ中の韻律情報の平均的な時間
長を示すデータを抽出し、抽出したデータを、上記外部
から設定されるパラメータに基づいて変更する韻律情報
調整手段を有し、上記韻律情報調整手段によって変更された各音韻の平均
的な時間長を示すデータに基づいて、音声データを構築
することを特徴とする音声合成装置。
【請求項１６】請求項３または４において、上記音声データ変換手段に外部から与えられる声質の高
さを表現するパラメータを指数変換することによって、
上記伸縮率パラメータを生成することを特徴とする音声
合成装置。
【請求項１７】請求項５または６において、上記音声データ変換手段に外部から与えられる声質の堅
さを表現するパラメータに基づいて、上記イコライジン
グパラメータを生成することを特徴とする音声合成装
置。
【請求項１８】請求項１７において、声質の堅さを大きくすることが所望される場合に、フィ
ルタ特性として高域強調特性を選択すると共に、選択し
た上記高域強調特性に関連して、上記イコライジングパ
ラメータとしての高域強調のゲインを設定することを特
徴とする音声合成装置。
【請求項１９】請求項１７において、声質の堅さを小さくすることが所望される場合に、フィ
ルタ特性として高域抑制特性を選択すると共に、選択し
た上記高域抑制特性に関連して、上記イコライジングパ
ラメータとしての高域抑制のゲインを設定することを特
徴とする音声合成装置。
【請求項２０】請求項８、９、１０および１１におい
て、上記音声データ変換手段に外部から与えられるハスキー
度を表現するパラメータに基づいて、上記ゲインパラメ
ータを生成することを特徴とする音声合成装置。
【請求項２１】請求項２０において、ハスキー度を大きくすることが所望される場合に、固定
位相成分に係るゲインを大きくし、ランダム位相成分に
係るゲインを小さくすることにより、上記ゲインパラメ
ータを設定することを特徴とする音声合成装置。
【請求項２２】請求項２０において、ハスキー度を小さくすることが所望される場合に、固定
位相成分に係るゲインを小さくし、ランダム位相成分に
係るゲインを大きくすることにより、上記ゲインパラメ
ータを設定することを特徴とする音声合成装置。
【請求項２３】請求項１において、上記音声データ変換手段は、上記音声合成処理に伴って、上記音声合成処理の進行に
関連して処理を行うことを特徴とする音声合成装置。