JP2001312300A - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JP2001312300A
JP2001312300A JP2000133279A JP2000133279A JP2001312300A JP 2001312300 A JP2001312300 A JP 2001312300A JP 2000133279 A JP2000133279 A JP 2000133279A JP 2000133279 A JP2000133279 A JP 2000133279A JP 2001312300 A JP2001312300 A JP 2001312300A
Authority
JP
Japan
Prior art keywords
data
voice
parameter
gain
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000133279A
Other languages
English (en)
Inventor
Nobuhide Yamazaki
信英 山崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2000133279A priority Critical patent/JP2001312300A/ja
Publication of JP2001312300A publication Critical patent/JP2001312300A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 多くの声種を用いてテキストデータに係る音
声合成を行う。 【解決手段】 テキストデータと、辞書データ記録部1
1からの辞書データとが言語解析部10に供給される。
言語解析部10は、辞書データを参照して、テキストデ
ータに基づく発音記号列データを生成し、生成した発音
記号列データを規則合成部15に供給する。一方、基本
音声データ記録部12からの基本音声データと、外部パ
ラメータとが音声データ変換部13に供給される。音声
データ変換部13は、外部パラメータを参照して、基本
音声データの音響的、或いは韻律的情報を変換する処理
を行うことにより、異なる声種の音声データを生成す
る。生成された音声データは、音声データ記憶部14を
介して規則合成部15に供給される。規則合成部15
は、発音記号列データに基づいて、音声データ変換部1
3が生成した音声データを用いて音声波形データを生成
する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、テキストデータ
に基づいて音声データを合成する音声合成装置に関す
る。
【0002】
【従来の技術】テキスト音声合成、規則音声合成におい
て、従来から知られている方法では、声種毎に音声デー
タを用意する必要があった。音声データを記録する記録
部については、当該記録部を実装する際の設計上の都合
等により、記録容量等が制限される。
【0003】
【発明が解決しようとする課題】このため、ある程度以
上多数の音声データを予め用意することは困難である。
このため、ユーザは、データ数が制限された音声データ
の内から声種を選択することになる。このため、選択の
自由度が小さくなり、所望の声質の合成音声を得ること
が難しかった。
【0004】従って、この発明の目的は、多くの声種を
用いて、テキストデータに係る音声合成を行うことを可
能とする音声合成装置を提供することにある。
【0005】
【課題を解決するための手段】請求項1の発明は、テキ
ストデータに基づいて音声データを合成する音声合成装
置において、外部から設定されるパラメータに応じて、
基本となる音声データを変換することにより、異なる声
種の音声データを生成する音声データ変換手段を有し、
音声データ変換手段によって生成される音声データを用
いて、テキストデータに対応する音声データを合成する
音声合成処理を行うようにしたことを特徴とする音声合
成装置である。
【0006】以上のような発明によれば、基本となる音
声データに対して、音響的、或いは韻律的情報を変換す
る処理を施すことによって、異なる声種の音声データを
生成することができる。
【0007】
【発明の実施の形態】図1を参照して、この発明の一実
施形態の全体的な構成について説明する。テキストデー
タが言語解析部10に供給される。テキストデータは、
音声合成処理の対象とされるものであり、例えばシフト
JISコード等で記述された漢字仮名混じりのテキスト
等、任意のテキストデータを用いることができる。言語
解析部10には、さらに、辞書データ記録部11から辞
書データが供給される。辞書データ記録部11は、例え
ばHDD(ハードディスクドライブ)等を用いて構成す
ることができる。
【0008】言語解析部10は、入力されるテキストデ
ータに基づいて、音声合成を行うために必要とされる読
みの情報にアクセントの情報が付加されてなる発音記号
列データを生成する。例えば、辞書データ記録部11か
ら供給される辞書データと、文法ルールとを参照して形
態素解析を行い、さらに、アクセント規則と、フレーズ
規則とを参照して発音記号列データを生成し、生成した
発音記号列データを規則合成部15に供給する。言語解
析部10としては、既存のテキスト音声合成装置におけ
る言語解析部を用いることができる。なお、文法ルー
ル、アクセント規則、フレーズ規則等の情報は、言語解
析部10に内蔵される記憶部に記憶するようにしても良
いし、外部から供給されるようにしても良い。
【0009】一方、基本音声データ記録部12から、基
本音声データが音声データ変換部13に供給される。音
声データ変換部13には、さらに、外部パラメータが供
給される。音声データ変換部13は、外部パラメータを
参照して、供給される基本音声データの音響的、或いは
韻律的情報を変換する処理を行うことにより、異なる声
種の音声データを再構成する。再構成された音声データ
は、音声データ記憶部14に供給され、記憶される。音
声データ記憶部14は、記憶したデータを、規則合成部
15に適宜供給する。
【0010】規則合成部15は、音声データ記憶部14
から供給される音声データを用いて、発音記号列データ
の韻律情報からイントネーションのパターンを生成する
と共に、発音記号列データの音韻列の並びに従って必要
な音韻データを順次取得し、さらに、イントネーション
に応じて組み立てながら音声波形データを生成する。規
則合成部15としては、既存のテキスト音声合成装置の
規則合成部を使用することができる。
【0011】図1に示したような構成により、以下のよ
うな処理が実現される。まず、音声データ変換部13に
より、基本となる音声データから音声データが再構築さ
れる。このようにして、外部パラメータを適宜与えるこ
とにより、様々な種類の声種の音声を合成することがで
きる。さらに、テキストデータが言語解析部10に供給
され、言語解析部10は、供給されるテキストデータに
ついて言語解析を行うことにより、漢字の読み、アクセ
ント等の情報を含む発音記号列データを生成し、生成し
たデータを規則合成部15に供給する。規則合成部15
は、音声データ変換部13によって再構成された音声デ
ータに基づいて、発音記号列データに対応する音声波形
を生成する。
【0012】図2に、音声データ変換部13の第1の構
成例を示す。このような構成は、規則合成部15が1ピ
ッチ波形データの重畳方式を用いて音声波形を合成する
場合に使用することができる。基本音声データが1ピッ
チ波形抽出部101に供給される。1ピッチ波形抽出部
101は、供給される基本音声データから、1ピッチ波
形データを抽出し、抽出した1ピッチ波形データをFF
T(Fast Fourier Transform)処理部102に供給する。
【0013】この際の抽出処理は、基本音声データのフ
ォーマットに従って行うようにすれば良い。なお、1ピ
ッチ波形データは複数個得られるので、以下の処理は、
複数個の1ピッチ波形データのそれぞれについて行う必
要がある。また、1ピッチ波形抽出部101により、1
ピッチ波形データ以外のデータ(その他のデータと表記
する)も抽出される。その他のデータは、音声データ構
築部105に供給される。
【0014】FFT処理部102は、供給される1ピッ
チ波形データにフーリエ変換処理を施し、時間領域から
周波数領域のスペクトルパターンに変換する。FFT処
理部102の出力は、伸縮処理部103に供給される。
伸縮処理部103には、外部パラメータとして伸縮率パ
ラメータがさらに供給される。伸縮処理部103は、伸
縮率パラメータに基づいて以下の式(1)に従う演算処
理を行うことにより、FFT処理部102から供給され
る周波数領域のスペクトルパターンを伸縮する処理を行
う。
【0015】 rが1.0以下、i=〔0,(NFFT)/2〕の場合 Y’〔i〕=Y〔i×r〕 Y’〔NFFT−i〕=Y〔i〕 r>0、i=〔0,(NFFT)/2〕の場合 Y’〔i〕=Y〔i×r〕 Y’〔NFFT−i〕=Y〔i×r〕 (但し、i×rが(NFFT)/2以下) Y’〔i〕=0 Y’〔NFFT−i〕=0 (但し、i×r>(NFFT)/2以下) (1) ここで、rは伸縮率パラメータであり、NFFTはFF
T処理におけるサンプル数である。また、Y〔i〕は、
スペクトルデータ中のi番目の値であり、Y’〔i〕
は、伸縮処理後のスペクトルデータ中のi番目の値であ
る。伸縮率パラメータrの値としては、0.5から2.
0の間の値が適切である。
【0016】伸縮処理部103の出力が逆FFT処理部
104に供給される。逆FFT処理部104は、伸縮処
理部103の出力である、伸縮処理された周波数領域の
スペクトルデータパターンに逆FFT処理を施すことに
より、時間領域の1ピッチ波形データに変換する。FF
T処理部102、伸縮処理部103、逆FFT処理部1
04による上述したような処理は、1ピッチ波形抽出部
101が抽出する複数個の1ピッチ波形の各々に対して
行われる。逆FFT処理部104の出力が音声データ構
築部105に供給される。音声データ構築部105は、
逆FFT処理部104の出力と、1ピッチ波形抽出部1
01から供給されるその他のデータとに基づいて、音声
データを構築する。
【0017】なお、伸縮処理された周波数領域のスペク
トルデータパターンを、n次平均フィルタやケプストラ
ムを用いて平滑化するようにしても良い。また、FFT
処理を行わずに、時間領域で直接伸縮処理を行うように
しても良い。この場合、伸縮処理の前後にアンチエイリ
アス用のローパスフィルタを挿入する構成とすれば良
い。
【0018】図3に、音声データ変換部13の第2の構
成例を示す。このような構成は、規則合成部15がLP
CパラメータとLPC合成フィルタとを用いて音声波形
を合成する場合に使用することができる。勿論、LPC
パラメータ以外の、例えばLSPやケプストラム等の他
のパラメータを用いて音声波形を合成する場合にも、図
3に示す構成を使用することが可能である。基本音声デ
ータがLPCパラメータ抽出部201に供給される。L
PCパラメータ抽出部201は、供給される基本音声デ
ータからLPCパラメータデータを抽出し、抽出したL
PCパラメータデータを周波数領域変換部202に供給
する。
【0019】この際の抽出処理は、基本音声データのフ
ォーマットに従って行うようにすれば良い。なお、LP
Cパラメータデータは複数個得られるので、以下の処理
は、複数個のLPCパラメータデータのそれぞれについ
て行う必要がある。また、LPCパラメータ抽出部20
1により、LPCパラメータデータ以外のデータ(その
他のデータと表記する)も抽出される。その他のデータ
は、音声データ構築部206に供給される。
【0020】周波数領域変換部202は、供給されるL
PCパラメータデータを周波数領域のデータに変換す
る。この変換処理は、当該LPCパラメータを設定した
LPC合成フィルタにインパルスを与えて、その応答波
形をフーリエ変換することにより、以下の式(2)に従
ってパワースペクトルを得る処理によって実現すること
ができる。
【0021】
【数1】
【0022】なお、式(2)において、変数θを0から
πまで変化させることにより、直接、スペクトルパター
ンを得るようにしても良い。
【0023】周波数領域変換部202の出力は、伸縮変
換部203に供給される。伸縮変換部203には、伸縮
率パラメータがさらに供給される。伸縮変換部203
は、伸縮率パラメータに基づいて上述の式(2)に従う
演算処理を行うことにより、周波数領域変換部202か
ら供給される周波数領域のスペクトルパターンを伸縮す
る処理を行う。なお、伸縮処理された周波数領域のスペ
クトルデータパターンを、n次平均フィルタやケプスト
ラムを用いて平滑化するようにしても良い。
【0024】伸縮変換部203の出力が逆フーリエ変換
処理部204に供給される。逆フーリエ変換処理部20
4は、伸縮変換部203の出力である、伸縮処理された
周波数領域のスペクトルデータパターンに逆フーリエ変
換処理を施すことにより、時間領域のデータに変換す
る。逆フーリエ変換処理部204の出力がパラメータ分
析処理部205に供給される。
【0025】パラメータ分析処理部205は、例えば自
己相関係数を用いる方法等の一般的なLPCパラメータ
分析手法を用いてパラメータ分析を行い、LPCパラメ
ータを求める。周波数領域変換部202、伸縮変換部2
03、逆フーリエ変換処理部204、パラメータ分析処
理部205による上述したような処理は、1ピッチ波形
抽出部101が抽出する複数個のLPCパラメータの各
々に対して行われる。
【0026】パラメータ分析処理部205の出力が音声
データ構築部206に供給される。音声データ構築部2
06は、パラメータ分析処理部205の出力と、LPC
パラメータ抽出部201から供給されるその他のデータ
とに基づいて、音声データを構築する。
【0027】図4に、音声データ変換部13の第3の構
成例を示す。このような構成は、規則合成部15が1ピ
ッチ波形データの重畳方式を用いて音声波形を合成する
場合に使用することができる。基本音声データが1ピッ
チ波形抽出部301に供給される。1ピッチ波形抽出部
301は、供給される基本音声データから1ピッチ波形
データを抽出する。
【0028】この際の抽出処理は、基本音声データのフ
ォーマットに従って行うようにすれば良い。なお、1ピ
ッチ波形データは複数個得られるので、以下の処理は、
複数個の1ピッチ波形データのそれぞれについて行う必
要がある。また、1ピッチ波形抽出部301により、1
ピッチ波形データ以外のデータ(その他のデータと表記
する)も抽出される。その他のデータは、音声データ構
築部305に供給される。1ピッチ波形抽出部301の
出力は、FFT処理部302に供給される。FFT処理
部302は、供給される1ピッチ波形データにフーリエ
変換処理を施し、時間領域から周波数領域のスペクトル
パターンに変換する。
【0029】FFT処理部302の出力は、イコライジ
ング処理部303に供給される。イコライジング処理部
303には、外部パラメータとしてイコライジングパラ
メータがさらに供給される。イコライジング処理部30
3は、イコライジングパラメータに基づく処理を行うこ
とにより、周波数特性を変換する。より具体的には、図
5に示すようなイコライジング特性をスペクトルパター
ンに掛け合わせることにより、変更を行う。図5Aに、
高域強調フィルタ特性の一例を図示し、また、図5B
に、高域抑圧フィルタ特性の一例を図示した。図5にお
いて、fcは、遮断周波数であり、gは、強調または抑
圧のゲインであり、fwは、減衰幅である。また、fs
は、サンプリング周波数である。図5A,Bに示すフィ
ルタ特性においては、第1フォルマントと第2フォルマ
ントとの間に、遮断周波数が設定されている。なお、図
5A,Bに示すフィルタ特性以外にも、種々のフィルタ
特性を用いることができる。
【0030】イコライジング処理部303の出力は、逆
FFT処理部304に供給される。逆FFT処理部30
4は、イコライジング処理部303の出力である、周波
数特性が変換された周波数領域のスペクトルデータパタ
ーンに逆FFT処理を施すことにより、時間領域の1ピ
ッチ波形データに変換する。逆FFT処理部304の出
力が音声データ構築部305に供給される。音声データ
構築部305は、逆FFT処理部304の出力と、1ピ
ッチ波形抽出部301から供給されるその他のデータと
に基づいて、音声データを構築する。
【0031】図6に、音声データ変換部13の第4の構
成例を示す。このような構成は、規則合成部15がLP
CパラメータとLPC合成フィルタとを用いて音声波形
を合成する場合に使用することができる。勿論、LPC
パラメータ以外の、例えばLSPやケプストラム等の他
のパラメータを用いて音声波形を合成する場合にも、図
3に示す構成を使用することが可能である。基本音声デ
ータがLPCパラメータ抽出部401に供給される。L
PCパラメータ抽出部401は、供給される基本音声デ
ータからLPCパラメータデータを抽出する。
【0032】この際の抽出処理は、基本音声データのフ
ォーマットに従って行うようにすれば良い。なお、LP
Cパラメータデータは複数個得られるので、以下の処理
は、複数個のLPCパラメータデータのそれぞれについ
て行う必要がある。また、LPCパラメータ抽出部40
1により、LPCパラメータデータ以外のデータ(その
他のデータと表記する)も抽出される。その他のデータ
は、音声データ構築部406に供給される。
【0033】LPCパラメータ抽出部401の出力は、
周波数領域変換部402に供給される。周波数領域変換
部402は、供給されるLPCパラメータデータを周波
数領域のデータに変換する。この変換処理は、当該LP
Cパラメータを設定したLPC合成フィルタにインパル
スを与えて、その応答波形をフーリエ変換し、パワース
ペクトルを得ることによって実現することができる。ま
た、式(2)において、変数θを0からπまで変化させ
ることにより、直接、スペクトルパターンを得るように
しても良い。
【0034】周波数領域変換部402の出力は、イコラ
イジング処理部403に供給される。イコライジング処
理部403には、外部パラメータとしてイコライジング
パラメータがさらに供給される。イコライジング処理部
403は、イコライジングパラメータに基づく処理を行
うことにより、周波数特性を変換する。より具体的に
は、図5に示したようなイコライジング特性をスペクト
ルパターンに掛け合わせることにより、変更を行う。な
お、図5A,Bに示すフィルタ特性以外にも、種々のフ
ィルタ特性を用いることができる。
【0035】イコライジング処理部403の出力は、逆
フーリエ変換処理部404に供給される。逆フーリエ変
換処理部404は、イコライジング処理部403の出力
である、周波数特性が変換された周波数領域のスペクト
ルデータパターンに逆フーリエ変換処理を施すことによ
り、時間領域のデータに変換する。逆フーリエ変換処理
部404の出力がパラメータ分析処理部405に供給さ
れる。
【0036】パラメータ分析処理部405は、例えば自
己相関係数を用いる方法等の一般的なLPCパラメータ
分析手法を用いてパラメータ分析を行い、LPCパラメ
ータを求める。周波数領域変換部402、イコライジン
グ処理部403、逆フーリエ変換処理部404、パラメ
ータ分析処理部405による上述したような処理は、1
ピッチ波形抽出部101が抽出する複数個のLPCパラ
メータの各々に対して行われる。
【0037】パラメータ分析処理部405の出力が音声
データ構築部406に供給される。音声データ構築部4
06は、パラメータ分析処理部405の出力と、LPC
パラメータ抽出部401から供給されるその他のデータ
とに基づいて、音声データを構築する。
【0038】図7に、音声データ変換部13の第5の構
成例を示す。基本音声データが音声データ分類処理部5
01に供給される。音声データ分類処理部501は、供
給される基本音声データを、有声固定位相データ、有声
ランダム位相データ、無声摩擦音データ、破裂音デー
タ、およびその他のデータに分類し、分類した各データ
を出力する。実際には、音声データのフォーマットに基
づいてこれらの分類を行う。この内、その他のデータ
は、音声データ構築部506に供給される。
【0039】有声固定位相データは、有声固定位相ゲイ
ン調整部502に供給される。有声固定位相ゲイン調整
部502には、さらに、外部パラメータとして有声固定
位相ゲインが供給される。有声固定位相ゲイン調整部5
02は、供給される有声固定位相ゲインに基づいて有声
固定位相ゲイン調整処理を行う。これにより、有声固定
位相ゲイン調整部502に供給される有声固定位相デー
タの振幅ゲインが変更される。
【0040】ここで、有声固定位相データが時間領域で
の1ピッチ波形であるとする。この場合、全ての1ピッ
チ波形に対して、有声固定位相ゲインで示される一定の
係数を乗算することにより、有声固定位相データの振幅
ゲインが変更される。有声固定位相ゲイン調整部502
の出力は、音声データ構築部506に供給される。
【0041】有声ランダム位相データは、有声ランダム
位相ゲイン調整部503に供給される。有声ランダム位
相ゲイン調整部503には、さらに、外部パラメータと
して有声ランダム位相ゲインが供給される。有声ランダ
ム位相ゲイン調整部503は、供給される有声ランダム
位相ゲインに基づいて有声ランダム位相ゲイン調整処理
を行う。これにより、有声固定位相ゲイン調整部503
に供給される有声ランダム位相データの振幅ゲインが変
更される。
【0042】ここで、有声固定位相データがLPCパラ
メータで表現されているとする。この場合、全てのLP
C係数の0次の項に有声ランダム位相ゲインで示される
一定の係数を乗算することにより、有声ランダム位相デ
ータの振幅ゲインが変更される。有声ランダム位相ゲイ
ン調整部503の出力は、音声データ構築部506に供
給される。
【0043】無声摩擦音データは、無声摩擦音ゲイン調
整部504に供給される。無声摩擦音ゲイン調整部50
4には、さらに、外部パラメータとして無声摩擦音ゲイ
ンが供給される。無声摩擦音ゲイン調整部504は、供
給される無声摩擦音ゲインに基づいて無声摩擦音ゲイン
調整処理を行う。これにより、無声摩擦音ゲイン調整部
503に供給される無声摩擦音データの振幅ゲインが変
更される。ここで、無声摩擦音データがLPCパラメー
タで表現されているとする。この場合、全てのLPC係
数の0次の項に無声摩擦音ゲインで示される一定の係数
を乗算することにより、無声摩擦音データの振幅ゲイン
が変更される。無声摩擦音ゲイン調整部504の出力
は、音声データ構築部506に供給される。
【0044】破裂音データは、破裂音ゲイン調整部50
5に供給される。破裂音ゲイン調整部505には、さら
に、外部パラメータとして破裂音ゲインが供給される。
破裂音ゲイン調整部505は、供給される破裂音ゲイン
に基づいて破裂音ゲイン調整処理を行う。これにより、
破裂音ゲイン調整部504に供給される破裂音データの
振幅ゲインが変更される。ここで、破裂音データがPC
M波形データで表現されているとする。この場合、全て
の破裂音データ波形に対して、破裂音ゲインで示される
一定の係数を乗算することにより、破裂音データの振幅
ゲインが変更される。破裂音ゲイン調整部505の出力
は、音声データ構築部506に供給される。
【0045】音声データ構築処理部506は、有声固定
位相ゲイン調整部502、有声ランダム位相ゲイン調整
部503、無声摩擦音位相ゲイン調整部504、および
破裂音位相ゲイン調整部505の各々から供給されるゲ
イン調整された各データと、音声データ分類処理部50
1から供給されるその他のデータとを組み合わせる処理
を行う。これにより、音声データのフォーマットに従っ
て1つの音声データを構築し、構築した音声データを出
力する。
【0046】図8に、音声データ変換部13の第6の構
成例を示す。基本音声データが音声データ分類処理部6
01に供給される。音声データ分類処理部601は、供
給される基本音声データを、平均的な声の高さデータ、
アクセントの強さデータ、声立て成分の強さデータ、発
話速度データ、すなわち各音韻の平均的な時間長を示す
データおよびその他のデータに分類し、分類した各デー
タを出力する。実際には、音声データのフォーマットに
基づいてこれらの分類を行う。この内、その他のデータ
は、音声データ構築部606に供給される。
【0047】声の高さデータは、韻律情報調整部602
に供給される。韻律情報調整部602には、さらに、韻
律パラメータの1つである、声の高さパラメータが外部
パラメータとして供給される。韻律情報調整部602
は、供給される声の高さパラメータに基づいて声の高さ
データの値を調整する。ここで、声の高さデータが1つ
のスカラ値であるとする。この場合、声の高さデータに
声の高さパラメータの値を乗算したものを、調整後の声
の高さデータとして韻律情報調整部602が出力するも
のとされる。韻律情報調整部602の出力は、音声デー
タ構築部606に供給される。
【0048】アクセントの強さデータは、韻律情報調整
部603に供給される。韻律情報調整部603には、さ
らに、韻律パラメータの1つであるアクセントの強さパ
ラメータが外部パラメータとして供給される。韻律情報
調整部603は、供給されるアクセントの強さパラメー
タに基づいてアクセントの強さデータの値を調整する。
ここで、アクセントの強さデータが1つのスカラ値であ
るとする。この場合、アクセントの強さデータにアクセ
ントの強さパラメータの値を乗算したものを、調整後の
アクセントの強さデータとして韻律情報調整部603が
出力するものとされる。韻律情報調整部603の出力
は、音声データ構築部606に供給される。
【0049】声立て成分の強さデータは、韻律情報調整
部604に供給される。韻律情報調整部604には、さ
らに、韻律パラメータの1つである声立て成分の強さパ
ラメータが外部パラメータとして供給される。韻律情報
調整部603は、供給される声立て成分の強さパラメー
タに基づいて声立て成分の強さデータの値を調整する。
ここで、声立て成分の強さデータが1つのスカラ値であ
るとする。この場合、声立て成分の強さデータに声立て
成分の強さパラメータの値を乗算したものを、調整後の
声立て成分の強さデータとして韻律情報調整部604が
出力するものとされる。韻律情報調整部604の出力
は、音声データ構築部606に供給される。
【0050】発話速度データは、韻律情報調整部605
に供給される。韻律情報調整部605には、さらに、韻
律パラメータの1つである発話速度パラメータが外部パ
ラメータとして供給される。韻律情報調整部605は、
供給される発話速度パラメータに基づいて発話速度デー
タの値を調整する。ここで、発話速度データが1つのス
カラ値であるとする。この場合、発話速度データに発話
速度パラメータの値を乗算したものを、調整後の発話速
度データとして韻律情報調整部605が出力するものと
される。韻律情報調整部605の出力は、音声データ構
築部606に供給される。
【0051】音声データ構築処理部606は、韻律情報
調整部602〜605の各々によって韻律情報が調整さ
れた、声の高さデータ、アクセントの強さデータ、声立
て成分の強さデータ、発話速度データと、音声データ分
類処理部601から供給されるその他のデータとを組み
合わせる処理を行う。これにより、音声データのフォー
マットに従って1つの音声データを構築し、構築した音
声データを出力する。
【0052】図9は、伸縮率パラメータの生成に係る構
成の一例を示す。声質の高さパラメータが指数変換部7
01に入力される。ここで、声質の高さパラメータが標
準を0.5とし、0から1の間で与えられるとする。こ
の場合、指数変換部701は、以下の式(3)に示すよ
うな演算処理を行うことにより、伸縮率パラメータとし
て、標準を1とした、2から0.5の間の値を出力す
る。
【0053】 r=0.5×exp{(1−Pk)×ln(4)} (3) ここで、rは伸縮率パラメータである。また、Pkは声
質の高さパラメータであり、0<Pk<1である。
【0054】このようにして生成される伸縮率パラメー
タが例えば図3中の伸縮変換部203に供給され、伸縮
変換処理を行うに際して使用される。例えば、声質の高
さパラメータの値として、標準より高めを意味する0.
7が指定されると、指数変換部701により、伸縮率パ
ラメータとして約0.76が出力される。これにより、
203等の伸縮変換部において、スペクトルデータが周
波数軸上で伸長され、声質が高くなったような音声デー
タが構築される。このような処理により、声質の高さと
いう感覚的なパラメータを、伸縮率パラメータという物
理的なパラメータに変換し、当該伸縮率パラメータに基
づいて音声データを構築することが実現される。従っ
て、より人間の感覚に則した声種の音声データの作成が
可能となる。
【0055】図10に、イコライジングパラメータの生
成に係る処理手順の一例を示す。ステップS1として、
声質の堅さパラメータ値Phを取得する。ここで、声質
の堅さパラメータ値Phは、標準値を50とし、0から
100の間で与えられるとする。ステップS2では、ス
テップS1で取得した声質の堅さパラメータ値Phが5
0未満であるか否かを判定する。Phが50未満である
場合にはステップS3に処理が移行し、それ以外の場合
にはステップS4に処理が移行する。ステップS3で
は、声質の堅さを大きくするモード(MODE=1)を
設定し、高域抑制フィルタを選択する。そして、処理は
ステップS5に移行する。ステップS5ではゲイン設定
を行う。すなわち、標準値50からのPhの変位dの関
数f(d)として、ゲイン値gを計算する。ゲイン値g
の計算は、例えば以下の式(4)や式(5)に従ってな
される。
【0056】g=f1 (d)=A×d (4) g=f2 (d)=A×exp(B×d) (5) ここで、A,Bは定数である。また、ステップS5では
Phが50未満であることから、d=50−Phであ
り、g=f(50−Ph)と計算される。
【0057】一方、ステップS4では、声質をソフトに
する、すなわち声質の堅さを小さくするモード(MOD
E=2)を設定し、高域抑制フィルタを選択する。そし
て、ステップS6に処理が移行する。ステップS6では
ゲイン設定を行う。すなわち、標準値50からのPhの
変位dの関数f(d)として、ゲイン値gを計算する。
ゲイン値gの計算は、例えば上述の式(4)や式(5)
に従ってなされる。但し、ここではPhが50以上であ
ることから、d=Ph−50であり、g=f(Ph−5
0)と計算される。
【0058】ステップS5またはステップS6によって
ゲイン設定がなされると、ステップS7に移行する。ス
テップS7では、遮断周波数と減衰幅とが設定される。
遮断周波数および減衰幅は、1つの音声データについて
固定値として設定することができる。ステップS8で
は、以上のようにして設定されるイコライジングパラメ
ータ(フィルタモード、ゲイン、遮断周波数、減衰幅)
を出力する。このようなイコライジングパラメータは、
例えば図4中のイコライジング処理部303に供給さ
れ、イコライジング処理を行うに際して使用される。
【0059】例えば、声質の堅さパラメータPhの値と
して70を与えると、フィルタモードは高域強調フィル
タになり、スペクトルデータの高域側が強調されて堅め
の声種の音声データを構築することができる。また、例
えば声質の堅さパラメータPhの値として30を与える
と、フィルタモードは高域抑制フィルタになり、スペク
トルデータの高域側が抑制されてよりソフトな感じの声
種の音声データを構築することができる。このような処
理により、声質の堅さという感覚的なパラメータを、イ
コライジングパラメータという物理的なパラメータに変
換し、当該イコライジングパラメータに基づいて音声デ
ータを構築することが実現される。従って、より人間の
感覚に則した声種の音声データの作成が可能となる。
【0060】図11は、有声固定位相ゲイン、および有
声ランダム位相ゲインの生成に係る構成の一例を示す。
パラメータ変換部801に、ハスキー度パラメータPp
が入力される。ここで、ハスキー度パラメータPpは、
標準値を50とし、0から100の間で与えられるとす
る。パラメータ変換部801では、よりハスキー度の大
きい声質にする場合には有声固定位相ゲインの値を小さ
くし、有声ランダム位相ゲインの値を大きくする。ま
た、くっきりした、すなわちハスキー度の小さい声質と
する場合には、有声固定位相ゲインを大きくし、有声ラ
ンダム位相ゲインの値を小さくする。より具体的には、
パラメータ変換部801が以下の式(6)、式(7)に
従う計算処理を行うようにすれば良い。
【0061】GK =A×(100−Pp) (6) GR =B×Pp (7) ここで、GK は有声固定位相ゲイン値であり、GR は有
声ランダム位相ゲイン値である。また、A,Bは定数で
ある。
【0062】このような処理により、ハスキー度という
感覚的なパラメータを、有声固定位相ゲインおよび有声
ランダム位相ゲインという物理的なパラメータに変換
し、これらのパラメータに基づいて音声データを構築す
ることが実現される。従って、より人間の感覚に則した
声種の音声データの作成が可能となる。
【0063】次に、図12を参照して、この発明の他の
実施形態の全体的な構成について説明する。図12にお
いて、図1中の構成要素と同様なものについては、同一
の符号を付し、重複する説明を省略する。言語解析部1
0は、図1を参照して上述したようにして発音記号列デ
ータを生成し、生成した発音記号列データを規則合成部
15’に供給する。
【0064】一方、音声データ変換部13’は、図1中
の音声データ変換部13と同様な処理を行うことによ
り、基本音声データから、異なった声種の音声データを
再構成する。音声データ変換部13’は、さらに、規則
合成部15’からのデータ要求に応じて、再構成された
音声データを規則合成部15’に供給する。
【0065】規則合成部15’は、図1中の規則合成部
15と同様な処理を行うことにより、言語解析部10か
ら供給される発音記号列データと、音声データ変換部1
3’から供給される再構成された音声データとに基づい
て音声波形データを生成する。以上のような、この発明
の他の実施形態では、上述したこの発明の一実施形態と
同等な処理を行うことができ、また、音声データ記憶部
14を有しないため、回路構成が小さくて済むという利
点がある。
【0066】図13に、この発明の一実施形態における
音声データ変換の処理手順の一例を示す。ステップS1
01では、規則合成部15からのデータ要求が摩擦音デ
ータに係るものであるか否かを判定する。当該データ要
求が摩擦音データに係るものであると判定される場合に
はステップS102に移行し、それ以外の場合にはステ
ップS103に移行する。ステップS102では、音声
データから摩擦音データを取得する。そして、処理はス
テップS104に移行し、ステップS102にて取得さ
れた摩擦音データのデータ形式に従ってゲイン調整を行
う。例えば、摩擦データがLPCパラメータで格納され
ていた場合には、LPCパラメータの0次の項を、外部
パラメータの内で摩擦音のゲインに対応する値に基づい
て調整する。ステップS104が完了すると、処理はス
テップS118に移行する。
【0067】また、ステップS103では、規則合成部
15からのデータ要求が破裂音データに係るものである
か否かを判定する。当該データ要求が破裂音データに係
るものであると判定される場合にはステップS105に
移行し、それ以外の場合にはステップS106に移行す
る。ステップS105では、音声データから破裂音デー
タを取得する。そして、処理はステップS107に移行
し、ステップS105にて取得された摩擦音データのデ
ータ形式に従ってゲイン調整を行う。例えば、破裂デー
タがPCM波形データとして格納されていた場合には、
波形全体の振幅を、外部パラメータの内で破裂音のゲイ
ンに対応する値に基づいて調整する。ステップS107
が完了すると、処理はステップS118に移行する。
【0068】また、ステップS106では、規則合成部
15からのデータ要求が1ピッチ波形データに係るもの
であるか否かを判定する。当該データ要求が1ピッチ波
形データに係るものであると判定される場合にはステッ
プS108に移行し、それ以外の場合にはステップS1
09に移行する。ステップS108では、音声データか
ら1ピッチ波形データを取得する。そして、処理はステ
ップS110に移行する。ステップS110では、ステ
ップS108にて取得された1ピッチ波形データにFF
T(高速フーリエ変換)処理を施すことにより、時間領
域の1ピッチ波形データを周波数領域のスペクトルパタ
ーンに変換する。
【0069】そして、処理はステップS111に移行
し、外部パラメータ内の伸縮パラメータを用いて、周波
数領域のスペクトルパターンを伸縮する。さらに、処理
はステップS112に移行する。ステップS112、S
113では、それぞれ、イコライジング処理、ゲイン調
整処理を順次行なう。そして、ステップS114に処理
が移行し、逆FFT処理を施すことにより、周波数領域
のスペクトルパターンを時間領域の1ピッチ波形データ
に変換する。ステップS114が完了すると、ステップ
S118に処理が移行する。
【0070】また、ステップS109では、規則合成部
15からのデータ要求が韻律データに係るものであるか
否かを判定する。当該データ要求が韻律データに係るも
のであると判定される場合にはステップS115に移行
し、それ以外の場合にはステップS116に移行する。
ステップS115では、音声データから韻律データを取
得する。そして、処理はステップS117に移行する。
ステップS117では、外部パラメータを用いて韻律デ
ータの値を調整することにより、音声データを構築する
処理を行う。ステップS117が完了すると、ステップ
S118に処理が移行する。
【0071】また、ステップS116では、規則合成部
15からのデータ要求が特に変換を伴わない音声データ
に係るものであるとみなせるので、音声データから、デ
ータ要求に対応するデータを取得する。ステップS11
6が完了すると、ステップS118に処理が移行する。
ステップS118では、規則合成部15に対するデータ
出力がなされる。以上のような処理手順により、外部パ
ラメータを適宜供給することによって、様々な種類の声
種の音声を合成することが可能とされている。
【0072】この発明は、上述したこの発明の一実施形
態等に限定されるものでは無く、この発明の主旨を逸脱
しない範囲内で様々な変形や応用が可能である。
【0073】
【発明の効果】この発明によれば、予め記録された基本
的な音声データに変換処理を施すことによって、音響
的、或いは韻律的情報が変更された様々な声種の音声デ
ータを生成することができる。
【0074】このようにして生成される様々な声種の音
声データを用いてテキストデータに係る音声データを合
成することにより、多くの声種の音声データを予め記録
しておかなくとも、多くの声種の音声データを用いてテ
キストデータに係る音声データを合成することが可能と
される。
【0075】従って、テキストデータに係る音声データ
を合成する処理に供される音声データを記録するための
記録容量が小さい場合にも、多様な声種の音声データを
用いてテキストデータに係る音声データを合成すること
ができる。
【図面の簡単な説明】
【図1】この発明の一実施形態の全体的な構成の一例を
示すブロック図である。
【図2】この発明の一部の構成の第1の例を示すブロッ
ク図である。
【図3】この発明の一部の構成の第2の例を示すブロッ
ク図である。
【図4】この発明の一部の構成の第3の例を示すブロッ
ク図である。
【図5】この発明の一実施形態において使用されるイコ
ライジング特性の一例を示す略線図である。
【図6】この発明の一部の構成の第4の例を示すブロッ
ク図である。
【図7】この発明の一部の構成の第5の例を示すブロッ
ク図である。
【図8】この発明の一部の構成の第6の例を示すブロッ
ク図である。
【図9】外部パラメータの生成に係る構成の一例を示す
ブロック図である。
【図10】外部パラメータの生成に係る処理手順の一例
を示すフローチャートである。
【図11】外部パラメータの生成に係る構成の他の例を
示すブロック図である。
【図12】この発明の一実施形態の全体的な構成の他の
例を示すブロック図である。
【図13】この発明の一実施形態における音声データ変
換の処理手順の一例を示すフローチャートである。
【符号の説明】
13・・・音声データ変換部、103・・・伸縮処理
部、303、404・・・イコライジング部、501、
601・・・音声データ分類部、506、606・・・
音声データ構築部

Claims (23)

    【特許請求の範囲】
  1. 【請求項1】 テキストデータに基づいて音声データを
    合成する音声合成装置において、 外部から設定されるパラメータに応じて、基本となる音
    声データを変換することにより、異なる声種の音声デー
    タを生成する音声データ変換手段を有し、 上記音声データ変換手段によって生成される音声データ
    を用いて、テキストデータに対応する音声データを合成
    する音声合成処理を行うようにしたことを特徴とする音
    声合成装置。
  2. 【請求項2】 請求項1において、 音声データ変換手段は、 上記基本となる音声データを記憶する手段を有すること
    を特徴とする音声合成装置。
  3. 【請求項3】 請求項1において、 上記外部から設定されるパラメータは、伸縮率パラメー
    タを含み、 上記音声データ変換手段は、 上記基本となる音声データ中の1ピッチ波形データを抽
    出し、抽出した上記1ピッチ波形データの周波数特性
    を、上記伸縮率パラメータに基づいて、周波数軸上で伸
    縮させる周波数軸変換手段を有し、 上記周波数軸変換手段によって変換された1ピッチ波形
    データに基づいて、音声データを構築することを特徴と
    する音声合成装置。
  4. 【請求項4】 請求項1において、 上記外部から設定されるパラメータは、伸縮率パラメー
    タを含み、 上記音声データ変換手段は、 上記基本となる音声データ中のスペクトルパラメータを
    抽出し、抽出した上記スペクトルパラメータの周波数特
    性を、上記伸縮率パラメータに基づいて、周波数軸上で
    伸縮させる周波数軸伸縮手段とを有し、 上記周波数軸変換手段によって変換されたスペクトルパ
    ラメータに基づいて、音声データを構築することを特徴
    とする音声合成装置。
  5. 【請求項5】 請求項1において、 上記外部から設定されるパラメータは、イコライジング
    パラメータを含み、 上記音声データ変換手段は、 上記基本となる音声データ中の1ピッチ波形データを抽
    出し、抽出した上記1ピッチ波形データの周波数特性
    を、上記イコライジングパラメータに基づいてイコライ
    ジング処理するイコライジング手段を有し、 上記イコライジング手段によって変換された1ピッチ波
    形データに基づいて、音声データを構築することを特徴
    とする音声合成装置。
  6. 【請求項6】 請求項1において、 上記外部から設定されるパラメータは、イコライジング
    パラメータを含み、 上記音声データ変換手段は、 上記基本となる音声データ中のスペクトルパラメータを
    抽出し、抽出した上記スペクトルパラメータの周波数特
    性を、上記イコライジングパラメータに基づいてイコラ
    イジング処理するイコライジング手段を有し、 上記イコライジング手段によって変換されたスペクトル
    パラメータに基づいて、音声データを構築することを特
    徴とする音声合成装置。
  7. 【請求項7】 請求項5または6において、 上記イコライジング処理の特性を高域抑制フィルタと
    し、 遮断周波数を、第1フォルマントと第2フォルマントと
    の間に設定することを特徴とする音声合成装置。
  8. 【請求項8】 請求項1において、 上記外部から設定されるパラメータは、ゲインパラメー
    タを含み、 上記音声データ変換手段は、 上記基本となる音声データ中の有声音声に係る固定位相
    成分のデータを抽出し、抽出したデータの振幅ゲイン
    を、上記ゲインパラメータに基づいて変更するゲイン調
    整手段を有し、 上記ゲイン調整手段によって変更されたスペクトルパラ
    メータに基づいて、音声データを構築することを特徴と
    する音声合成装置。
  9. 【請求項9】 請求項1において、 上記外部から設定されるパラメータは、ゲインパラメー
    タを含み、 上記音声データ変換手段は、 上記基本となる音声データ中の有声音声に係るランダム
    位相成分を抽出し、抽出したデータの振幅ゲインを、上
    記ゲインパラメータに基づいて変更するゲイン調整手段
    を有し、 上記ゲイン調整手段によって変更されたスペクトルパラ
    メータに基づいて、音声データを構築することを特徴と
    する音声合成装置。
  10. 【請求項10】 請求項1において、 上記外部から設定されるパラメータは、ゲインパラメー
    タを含み、 上記音声データ変換手段は、 上記基本となる音声データ中の無声摩擦音を生成するデ
    ータを抽出し、抽出したデータの振幅ゲインを、上記ゲ
    インパラメータに基づいて変更するゲイン調整手段を有
    し、 上記ゲイン調整手段によって変更された無声摩擦音を生
    成するデータに基づいて、音声データを構築することを
    特徴とする音声合成装置。
  11. 【請求項11】 請求項1において、 上記外部から設定されるパラメータは、ゲインパラメー
    タを含み、 上記音声データ変換手段は、 上記基本となる音声データ中の破裂音を生成するデータ
    を抽出し、抽出したデータの振幅ゲインを、上記ゲイン
    パラメータに基づいて変更するゲイン調整手段を有し、 上記ゲイン調整手段によって変更された破裂音を生成す
    るデータに基づいて、音声データを構築することを特徴
    とする音声合成装置。
  12. 【請求項12】 請求項1において、 上記音声データ変換手段は、 上記基本となる音声データ中の韻律情報の平均的な声の
    高さを示すデータを抽出し、抽出したデータを、上記外
    部から設定されるパラメータに基づいて変更する韻律情
    報調整手段を有し、 上記韻律情報調整手段によって変更されたデータに基づ
    いて、音声データを構築することを特徴とする音声合成
    装置。
  13. 【請求項13】 請求項1において、 上記音声データ変換手段は、 上記基本となる音声データ中の韻律情報のアクセントの
    強さを示すデータを抽出し、抽出したデータを、上記外
    部中の設定されるパラメータに基づいて変更する韻律情
    報調整手段を有し、 上記韻律情報調整手段によって変更されたデータに基づ
    いて、音声データを構築することを特徴とする音声合成
    装置。
  14. 【請求項14】 請求項1において、 上記音声データ変換手段は、 上記基本となる音声データ中の韻律情報の声立て成分の
    強さを示すデータを抽出し、抽出したデータを、上記外
    部から設定されるパラメータに基づいて変更する韻律情
    報調整手段を有し、 上記韻律情報調整手段によって変更されたデータに基づ
    いて、音声データを構築することを特徴とする音声合成
    装置。
  15. 【請求項15】 請求項1において、 上記音声データ変換手段は、 上記基本となる音声データ中の韻律情報の平均的な時間
    長を示すデータを抽出し、抽出したデータを、上記外部
    から設定されるパラメータに基づいて変更する韻律情報
    調整手段を有し、 上記韻律情報調整手段によって変更された各音韻の平均
    的な時間長を示すデータに基づいて、音声データを構築
    することを特徴とする音声合成装置。
  16. 【請求項16】 請求項3または4において、 上記音声データ変換手段に外部から与えられる声質の高
    さを表現するパラメータを指数変換することによって、
    上記伸縮率パラメータを生成することを特徴とする音声
    合成装置。
  17. 【請求項17】 請求項5または6において、 上記音声データ変換手段に外部から与えられる声質の堅
    さを表現するパラメータに基づいて、上記イコライジン
    グパラメータを生成することを特徴とする音声合成装
    置。
  18. 【請求項18】 請求項17において、 声質の堅さを大きくすることが所望される場合に、フィ
    ルタ特性として高域強調特性を選択すると共に、選択し
    た上記高域強調特性に関連して、上記イコライジングパ
    ラメータとしての高域強調のゲインを設定することを特
    徴とする音声合成装置。
  19. 【請求項19】 請求項17において、 声質の堅さを小さくすることが所望される場合に、フィ
    ルタ特性として高域抑制特性を選択すると共に、選択し
    た上記高域抑制特性に関連して、上記イコライジングパ
    ラメータとしての高域抑制のゲインを設定することを特
    徴とする音声合成装置。
  20. 【請求項20】 請求項8、9、10および11におい
    て、 上記音声データ変換手段に外部から与えられるハスキー
    度を表現するパラメータに基づいて、上記ゲインパラメ
    ータを生成することを特徴とする音声合成装置。
  21. 【請求項21】 請求項20において、 ハスキー度を大きくすることが所望される場合に、固定
    位相成分に係るゲインを大きくし、ランダム位相成分に
    係るゲインを小さくすることにより、上記ゲインパラメ
    ータを設定することを特徴とする音声合成装置。
  22. 【請求項22】 請求項20において、 ハスキー度を小さくすることが所望される場合に、固定
    位相成分に係るゲインを小さくし、ランダム位相成分に
    係るゲインを大きくすることにより、上記ゲインパラメ
    ータを設定することを特徴とする音声合成装置。
  23. 【請求項23】 請求項1において、 上記音声データ変換手段は、 上記音声合成処理に伴って、上記音声合成処理の進行に
    関連して処理を行うことを特徴とする音声合成装置。
JP2000133279A 2000-05-02 2000-05-02 音声合成装置 Pending JP2001312300A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000133279A JP2001312300A (ja) 2000-05-02 2000-05-02 音声合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000133279A JP2001312300A (ja) 2000-05-02 2000-05-02 音声合成装置

Publications (1)

Publication Number Publication Date
JP2001312300A true JP2001312300A (ja) 2001-11-09

Family

ID=18641804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000133279A Pending JP2001312300A (ja) 2000-05-02 2000-05-02 音声合成装置

Country Status (1)

Country Link
JP (1) JP2001312300A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006195207A (ja) * 2005-01-14 2006-07-27 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
US7421304B2 (en) 2002-01-21 2008-09-02 Kenwood Corporation Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method
JP2015191431A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 外国語のカタカナ表現作成装置、外国語のカタカナ表現作成方法及び外国語のカタカナ表現作成プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7421304B2 (en) 2002-01-21 2008-09-02 Kenwood Corporation Audio signal processing device, signal recovering device, audio signal processing method and signal recovering method
JP2006195207A (ja) * 2005-01-14 2006-07-27 Kenwood Corp 音声合成装置、音声合成方法及びプログラム
JP2015191431A (ja) * 2014-03-28 2015-11-02 株式会社ゼンリンデータコム 外国語のカタカナ表現作成装置、外国語のカタカナ表現作成方法及び外国語のカタカナ表現作成プログラム

Similar Documents

Publication Publication Date Title
JP4246792B2 (ja) 声質変換装置および声質変換方法
JP6561499B2 (ja) 音声合成装置および音声合成方法
JPH031200A (ja) 規則型音声合成装置
JP5148026B1 (ja) 音声合成装置および音声合成方法
JP6821970B2 (ja) 音声合成装置および音声合成方法
JP3576840B2 (ja) 基本周波数パタン生成方法、基本周波数パタン生成装置及びプログラム記録媒体
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP2017167526A (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2904279B2 (ja) 音声合成方法および装置
JP4648878B2 (ja) 様式指定型音声合成方法、及び様式指定型音声合成装置とそのプログラムと、その記憶媒体
JP6578544B1 (ja) 音声処理装置、および音声処理方法
JP5360489B2 (ja) 音素符号変換装置および音声合成装置
JP2001312300A (ja) 音声合成装置
JP2013033103A (ja) 声質変換装置および声質変換方法
WO2004027753A1 (en) Method of synthesis for a steady sound signal
JP2020204755A (ja) 音声処理装置、および音声処理方法
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JP4353174B2 (ja) 音声合成装置
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP3081300B2 (ja) 残差駆動型音声合成装置
JP6587308B1 (ja) 音声処理装置、および音声処理方法
JPH09179576A (ja) 音声合成方法
WO2023182291A1 (ja) 音声合成装置、音声合成方法及びプログラム
JP3994333B2 (ja) 音声辞書作成装置、音声辞書作成方法、及び、プログラム