JP2987089B2 - 音声素片作成方法および音声合成方法とその装置 - Google Patents

音声素片作成方法および音声合成方法とその装置

Info

Publication number
JP2987089B2
JP2987089B2 JP7220963A JP22096395A JP2987089B2 JP 2987089 B2 JP2987089 B2 JP 2987089B2 JP 7220963 A JP7220963 A JP 7220963A JP 22096395 A JP22096395 A JP 22096395A JP 2987089 B2 JP2987089 B2 JP 2987089B2
Authority
JP
Japan
Prior art keywords
unit
speech
synthesized
waveform
parameter
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP7220963A
Other languages
English (en)
Other versions
JPH0962295A (ja
Inventor
孝浩 釜井
謙二 松井
紀代 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP7220963A priority Critical patent/JP2987089B2/ja
Priority to US08/565,401 priority patent/US5864812A/en
Priority to KR1019950046901A priority patent/KR100385603B1/ko
Priority to CNB951190490A priority patent/CN1146863C/zh
Priority to CNB2003101028665A priority patent/CN1294555C/zh
Publication of JPH0962295A publication Critical patent/JPH0962295A/ja
Application granted granted Critical
Publication of JP2987089B2 publication Critical patent/JP2987089B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電話照会サービ
ス、音声情報案内システム、パソコン用音声規則合成装
置などに応用可能な音声素片作成方法及び音声合成方
法、装置に関するものである。
【0002】
【従来の技術】テキストを音声に変換する音声規則合成
技術は、例えばパソコンなどで別の仕事をしながら説明
文や電子メールを聞いたり、ワープロで作成した原稿を
耳で聞きながら校正するのに用いることができる。ま
た、電子ブックなどの機器に組み込むことによりフロッ
ピーディスクやCD−ROMなどに格納されたテキスト
を液晶ディスプレイを用いずに読むことが可能となる。
【0003】このような目的に用いられる音声合成シス
テムは小型化および低価格化が可能であることが要求さ
れるが、従来の音声合成方式ではDSP(ディジタル・
シグナル・プロセッサ)等の特殊なハードウェアや大容
量のメモリを利用しているので、上記のような用途への
応用はほとんど行われていない。
【0004】テキストを音声に変換するためには、音韻
の連鎖をモデルによってルール化し、目的のテキストに
従ってルールによってパラメータを変化させながら合成
を行う方法と、音声をCV単位やVCV単位と言った細
かな音韻連鎖単位でとらえ(Cは子音、Vは母音を表
す)、必要な全ての音韻連鎖を実音声から採取し、素片
として蓄積しておき、目的のテキストに従って接続しな
がら合成する方法がある。
【0005】ここでは前者をパラメータ合成法、後者を
接続合成法と呼ぶことにする。
【0006】パラメータ合成法で代表的なものはフォル
マント合成方式である。これは音声の生成過程を、声帯
振動の音源モデルと声道の伝達関数モデルに分離し、目
的とする音声を上記の二つのモデルのパラメータ時間変
化で合成する方式である。フォルマント合成法における
パラメータの代表的なものはフォルマントと呼ばれる音
声振動の周波数軸上でのピークの位置である。これらの
パラメータ生成は音声学的な知見に基づくルールとパラ
メータの代表値を記憶したテーブルを用いて行う。
【0007】パラメータ合成法は声道伝達関数の演算な
どで計算コストが大きいので、リアルタイムの合成には
DSPなどが不可欠である。また、パラメータ制御には
膨大なルールが関与するため音質改良が難しいという欠
点がある。しかし、テーブルやルールなどはデータ量と
しては小さいので記憶容量が少なくて済むという利点が
ある。
【0008】一方、接続合成法には素片の記憶形態によ
って以下の二つの種類がある。素片を音声モデルを用い
てPARCOR係数やLSPパラメータなどに変換して
おくパラメータ接続法と、音声モデルを用いずに音声波
形を直接蓄積する波形接続法である。
【0009】パラメータ接続法は記憶形態が音声パラメ
ータであるため、合成時にピッチや時間長などを容易に
変更できるという利点があり、また、記憶容量も比較的
小容量で済む。
【0010】しかし、再合成のための計算処理量が比較
的大きいという欠点がある。このため、DSP(ディジ
タル・シグナル・プロセッサ)などの専用のハードウェ
アが必要である。また、音声のモデル化が十分ではない
ために、パラメータから再合成できる音声の音質に限界
があることも問題である。
【0011】一方、波形接続法はパラメータ接続法に比
べて忠実な音声が合成できる可能性がある。しかし、素
片ごとの記憶容量はパラメータ接続法に比べて10倍以
上となり、高品質をねらう場合さらに大きな記憶容量を
必要とする。
【0012】記憶容量が大きくなる要因としては素片に
用いる音韻連鎖単位の複雑さと、ピッチや時間長のバリ
エーションを考慮した素片を用意することが支配的であ
る。
【0013】音韻連鎖単位には前述したようにCV単位
やVCV単位等が考えられる。
【0014】CV単位とは日本語の1音節に対応する一
対の子音と母音の組み合わせの単位である。CV単位は
子音が26種類、母音が5種類とするとその組み合わせ
は130種類である。CV単位の接続では直前の母音か
ら子音への連続的な波形変化を表現できないため、自然
性が損なわれる。
【0015】そこで、CV単位の直前の母音も含めた単
位がVCV単位である。VCV単位はCV単位の5倍の
650種類に上る。
【0016】また、ピッチや時間長に関しては、波形接
続法ではパラメータ接続法と違って一旦作成した素片の
ピッチや時間長を変更することが困難であることから、
あらかじめ様々なピッチや時間長で発声した音声から、
それらのバリエーションを含めた形で素片化しておく必
要性から、記憶容量の増大を招く。
【0017】このように、波形接続法で高品質の音声を
合成するには大きな記憶容量が必要である。
【0018】波形接続法における上記の問題を克服する
ために、PSOLA(Pitch Synchronous Overlap Add)
法が発明されている(特表平3−501896)。
【0019】この方法は音声波形をピッチに同期して窓
関数で切り出し、合成時に目的のピッチになるように重
ね合わせを行う方法である。また、切り出したピッチ波
形を間引いたり繰り返したりすることによって、時間長
の変更も可能である。
【0020】これによってピッチや時間長のバリエーシ
ョンのための記憶容量増大は軽減された。しかし、合成
時の窓かけの計算コストが大きいという問題がある。窓
かけには窓関数の演算と乗算が必要なので計算コストが
大きくなる。
【0021】音韻連鎖単位の増大を防ぐ方法としてハイ
ブリッド方式が考案されている(特願平6−05089
0)。この方式は基本的にCV単位のみで素片を構築
し、母音から子音への波形変化の部分はパラメータ合成
方式を用いて生成する方法である。
【0022】したがって、音韻連鎖単位の種類は130
種類程度でよく、また、パラメータ合成法式部分の稼働
率を低くできるので、純粋なパラメータ合成方式に比べ
ると計算コストを低く抑えることができる方法である。
【0023】PSOLA方式の窓関数演算の計算コスト
を低減する目的で事前窓かけ方式(特願平6−031
3)が発明されている。この方式はPSOLA方式で合
成時に行っていた窓関数演算を、素片作成時に済ませて
おくことによって、合成時には窓関数演算や乗算がなく
なり、計算コストを低く抑えることができる。PSOL
A方式では合成ピッチに合わせて窓の長さを変化させる
が、事前窓かけ方式では当然固定の長さとなる。しか
し、固定の窓長を用いても合成品質が劣化することはな
く、理論的にも無理はない。
【0024】この、事前窓かけ方式とハイブリッド方式
を融合する事によって(以下、事前窓かけハイブリッド
方式)、少ない記憶容量と低い計算コストを実現するこ
とができる。
【0025】しかし、残る課題として、ハイブリッド方
式を用いる以上パラメータ合成方式部分の計算コストが
大きいという問題がある。
【0026】すなわち事前窓かけハイブリッド方式の特
性として、接続合成方式部分の計算コストとパラメータ
合成方式部分の計算コストに極めて大きい差があり、合
成時の計算量が周期的に変動することが上げられる。こ
のことは、事前窓かけハイブリッド方式をリアルタイム
の合成に用いるとき、パラメータ合成方式部分の計算コ
ストの大きさを、接続合成方式部分で吸収できるだけの
計算能力と、計算速度の変動を吸収するためのバッファ
メモリが必要であることを意味する。
【0027】また、パラメータ合成をリアルタイムで行
う場合、パラメータの変化速度が大きい場合などに計算
精度の影響や合成伝達関数(いわゆるフィルタ)の過渡
特性の影響で、有害な雑音が発生する場合がある。これ
によって合成音の途中に「ポコッ」とか「ケロッ」とい
った異音が発生する場合がある。
【0028】
【発明が解決しようとする課題】このように、従来の技
術ではパラメータ合成方式部分の計算コストが大きく、
その分の計算能力とメモリの消費が問題である。また、
パラメータ合成をリアルタイムで駆動した場合、計算精
度や過渡特性の影響で異音が発生することがあり、この
ことによって音質が劣化するという問題もあった。
【0029】本発明は、このような従来の課題を解決す
ることを目的とする。
【0030】
【課題を解決するための手段】この課題を解決するため
に、本発明は従来パラメータ合成を行っていた母音から
子音への波形変化部分を特殊な接続合成に置き換える。
その手段として、波形変化部分の生成に用いる素片をパ
ラメータ合成によって事前に合成しておく。
【0031】上記の手段によって、従来のパラメータ合
成部分に相当する子音から母音への波形変化部分におけ
る計算コストは、そのほかの接続合成部分と同程度とな
り、従来以上に低い計算能力での合成が可能であり、ま
た、計算速度の変動を吸収するためのバッファメモリの
容量も小さくすることが可能となる。さらに、波形変化
部分に用いる素片は事前に定常なパラメータを用いて合
成されたものであるため、パラメータを変動させながら
合成した場合の問題点である異音が原理的に発生しな
い。
【0032】
【発明の実施の形態】以下に本発明の実施の形態例につ
いて図面を参照しながら詳しく説明する。
【0033】図1は本発明にかかる音声合成装置の実施
の形態例を示したものである。その音声合成装置には音
韻記号解析部1が設けられ、その出力は制御部2に接続
されている。また、個人情報DB10が設けられ、制御
部2と互いに接続されている。自然音声素片チャンネル
12と合成音声素片チャンネル11が設けられ、自然音
声素片チャンネル12の内部には音声素片DB6と音声
素片読み出し部5が設けられている。合成音声素片チャ
ンネル11の内部にも同様に音声素片DB4と音声素片
読み出し部3が設けられている。音声素片読み出し部5
は音声素片DB6と互いに接続されている。音声素片読
み出し部3は音声素片DB4と互いに接続されている。
音声素片読み出し部3と音声素片読み出し部5の出力は
混合部7の二つの入力に接続されており、混合部7の出
力は振幅制御部8に入力されている。振幅制御部8の出
力は出力部9に入力されている。
【0034】制御部2からは各種の制御情報が出力され
る。制御情報には自然音声素片インデックス、合成音声
素片ンデックス、混合制御情報、振幅制御情報がある。
まず、自然音声素片インデックスは自然音声素片チャン
ネル12の音声素片読み出し部5に入力されている。合
成音声素片インデックスは合成音声素片チャンネル11
の音声素片読み出し部3に入力されている。混合制御情
報は混合部7に入力されている。そして、振幅制御情報
は振幅制御部8に入力されている。
【0035】図3に音声素片DB6に格納されているデ
ータの形式を示す。素片IDとは例えば音節一つ一つに
対して録音されたそれぞれの自然音声素片を区別する値
である。この素片ID一つ一つに対して、複数のピッチ
IDがある。ピッチIDは0から順に自然音声素片の先
頭から窓かけによって切り出されたピッチ波形を区別す
る値である。
【0036】図4に窓かけによってピッチ波形を切り出
す様子を示す。図4の最上段は切り出しの対象となる原
音声波形である。ピッチIDが0に相当する波形は図4
のように子音の先頭部分が含まれる場合があるので、先
頭部分が長い非対称な窓で切り出されている。ピッチI
Dが1以降はその時点でのピッチ周期の1.5〜2倍程度の
ハニング窓で切り出されている。
【0037】このようにして1素片ID分の自然音声素
片が作成される。同様に複数の波形についてこのような
操作を行って音声素片DB6が作成される。
【0038】続いて、図5は音声素片DB4に格納され
ているデータの形式を示したものである。図のようにF
1インデックスとF2インデックスを軸にとった平面に
ピッチ波形を配置している。
【0039】F1インデックス、F2インデックスはそ
れぞれ音声の第1フォルマント周波数及び第2フォルマ
ント周波数に対応している。F1インデックスが0、
1、2、と大きくなるにつれて第1フォルマント周波数
が高くなることに対応する。F2インデックスについて
も同様である。つまり、音声素片DB4に記憶されたピ
ッチ波形はF1インデックスとF2インデックスの2つ
の値によって特定される。
【0040】さて、このようにF1インデックス、F2
インデックスで表される波形は事前にフォルマント合成
によって作成される。そのような処理のアルゴリズムを
図6のフローチャートを参照しながら説明する。
【0041】まず、第1、第2フォルマント周波数の最
小値と最大値を決定する。これらの値は自然音声素片を
録音した際の話者の個人データから決定する。次に、F
1インデックスおよびF2インデックスの階級数を決定
する。この値はどちらも20前後が適当である(以上ス
テップ6001)。
【0042】ステップ6001で決定した値から、第1
フォルマント周波数及び第2フォルマント周波数のステ
ップ幅を求める(ステップ6002)。次にF1インデ
ックス及びF2インデックスを0に初期化し(ステップ
6003、及びステップ6004)、ステップ6005
の式に従って第1フォルマント周波数及び第2フォルマ
ント周波数を計算する。こうして得られたフォルマント
パラメータを用いてステップ6006においてフォルマ
ント合成を行い、その波形からピッチ波形を切り出す。
【0043】次に、F2インデックスに1を加算し(ス
テップ6007)、ステップ6005以降の処理を繰り
返す。F2インデックスが階級数を越えたら(ステップ
6008)F1インデックスに1を加える(ステップ6
009)。その後、ステップ6004以降の処理を繰り
返す。もし、F1インデックスが階級数を越えたら処理
を終える。
【0044】このように、第1フォルマント周波数と第
2フォルマント周波数のとり得る範囲を均等に区切り、
2つの値の組み合わせを網羅した波形を合成することに
より音声素片DB4を構築する。
【0045】ステップ6006における処理は以下のよ
うなものである。まず、第1フォルマント周波数及び第
2フォルマント周波数以外のパラメータを、自然音声素
片の話者の個人データから決定する。そのパラメータは
第1フォルマントバンド幅、第2フォルマントバンド
幅、第3から6フォルマント周波数及びバンド幅、ピッ
チ周波数などである。
【0046】上記のパラメータはその話者における平均
値を用いるとよい。第1及び第2フォルマント周波数は
母音の種類によって大きく変化し、第3以上のフォルマ
ント周波数は変化が少ないという性質がある。また、第
1及び第2フォルマントバンド幅は母音による変化は大
きいが、フォルマント周波数ほど近くに与える効果は大
きくない。すなわち、第1及び第2フォルマント周波数
が狂うと音韻性(音声が特定の音韻に聞こえやすい度合
い)が大きく低下するが、第1及び第2フォルマントバ
ンド幅は音韻性をあまり低下させることはない。従っ
て、第1及び第2フォルマント周波数以外のパラメータ
を固定とする。
【0047】ステップ6005によって算出された第1
及び第2フォルマント周波数と上記の固定パラメータを
用いて音声波形を数ピッチ周期分合成する。こうして合
成された波形から、図4で自然音声素片のピッチ波形を
切り出したように窓関数を用いて切り出しを行う。ただ
し、ここでは切り出すピッチ波形は一つだけでよい。
【0048】こうして、ステップ6005からステップ
6008までのループを1回実行するごとに、F1イン
デックスとF2インデックスの組み合わせに対する合成
音声素片が一つ生成される。
【0049】ところで、フォルマント合成に用いる音源
波形には一般的に使われる関数によるものを用いてもよ
いが、自然音声素片の録音時の話者の音声から声道逆フ
ィルタで抽出した波形を使用することが望ましい。声道
逆フィルタとは「従来の技術」の項目で述べた声道の伝
達関数の逆関数を用いて、音声波形から伝達特性を除去
し、その結果得られる波形である。その波形は声帯の振
動波形を表している。
【0050】そこで、その波形をそのままフォルマント
合成の音源として用いることにより、合成された波形は
極めてその話者の個人的な特性を忠実に再現することと
なる。
【0051】このようにして、音声素片DB4が構築さ
れる。
【0052】次に、上記のように構成された音声合成装
置の動作を説明する。まず、音韻記号列が音韻記号解析
部1に入力されると、その入力に対応した音韻情報、時
間長情報、ピッチ情報などが制御部2に出力される。図
2に音韻記号解析部1で解析され、制御部2に出力され
る情報の例を示す。図2では音韻記号列は入力される文
字列である。この例ではカタカナで表現されている。音
韻情報は音韻記号列に対応する音韻を表す値である。こ
の例ではカタカナ1文字ずつに対応して、すなわち音節
単位で値が決められる。時間長は各音節の持続時間であ
る。この例ではミリ秒(msec)で表現されている。この値
は発声の速度、音韻ごとの統計データ、自然音声素片の
ラベル情報などから決定される。開始ピッチおよび中央
ピッチはそれぞれ音節開始部と音節の中央部でのピッチ
であり、この例ではヘルツ(Hz)で表現されている。
【0053】制御部2はこれらの情報と個人情報DB1
0に記憶された個人情報から自然音声素片インデック
ス、合成音声素片インデックス、混合制御情報、振幅制
御情報の制御情報を生成する。個人情報DB10には各
自然音声素片ごとに母音部の第1、第2フォルマント周
波数、開始部の子音の種類などが記憶されている。
【0054】自然音声素片インデックスは、音韻情報に
対応する適切な自然音声素片を指す情報である。例えば
図2の最初の音韻情報/a/に対応して、「あ」という音
声で作成された自然音声素片を指す値を出力する。
【0055】同時に自然音声素片インデックスにはピッ
チIDの情報も含まれており、開始ピッチと中央ピッチ
を補間してなめらかなピッチ変化を作り出し、その情報
からピッチ波形を適切なタイミングで読み出すような情
報として、音声素片読み出し部5に出力される。音声素
片読み出し部5はその情報に従って音声素片DB6から
波形を次々と読み出し、それらの波形を重ね合わせるこ
とによって自然音声素片チャンネル12の合成波形を生
成する。自然音声素片インデックスの例とそれに従って
自然音声素片を読み出し、自然音声素片チャンネル12
の波形として合成される様子を図7に示す。
【0056】合成音声素片インデックスは、音韻情報に
対応する適切な合成音声素片を指す情報である。その情
報の本質は第1及び第2フォルマント周波数である。実
際にはフォルマント周波数情報を対応するフォルマント
インデックスに変換したものである。フォルマントイン
デックスは図6で用いられたもので、(数1)(数2)
で与えられる。F1idxは第1フォルマントインデッ
クス、F2idxは第2フォルマントインデックスであ
る。
【0057】
【数1】F1idx = (F1-F1min)/(F1max-F1min)*nF1idx
【0058】
【数2】F2idx = (F2-F2min)/(F2max-F2min)*nF2idx F1、F2はそれぞれ第1フォルマント周波数、第2フ
ォルマント周波数で、そのとき合成されている自然音声
素片の母音部の第1、第2フォルマント周波数と、次に
接続される子音の種類により決まる。これらの情報は個
人情報DB10を参照することによって得られる。具体
的には母音から子音への過渡域において、母音のフォル
マント周波数を個人情報DB10から取り出し、その値
から開始して子音にかけて変化していくフォルマント周
波数のパターンをルールによって生成し、それに従って
フォルマント周波数の軌跡を描く。その軌跡とピッチ情
報で決まる各素片のタイミングで、その時点でのフォル
マント周波数を算出する。
【0059】このようにして生成される合成音声素片イ
ンデックス情報の例と、それに従って合成音声素片チャ
ンネル11の波形が合成される様子を図8に示す。また
混合制御情報は図9のように生成される。すなわち、混
合比は各音節に対して開始部から中間部までは完全に自
然音声素片チャンネル12で、中間部から終了部にかけ
て徐々に合成音声素片チャンネル11側に移る。終了部
から次の音節の開始部にかけては比較的短い区間で自然
音声素片チャンネル12側に戻る。
【0060】このように、各音節の主要部分は自然音声
素片を用い、次の音節との変化部を合成音声素片でなめ
らかにつなぐように変化させる。
【0061】最後に振幅制御情報によって全体の波形の
振幅が制御を受けて、出力部から音声波形として出力さ
れる。振幅制御情報は例えば文末でなめらかに振幅を小
さくするなどの目的で用いられる。
【0062】以上説明したように、音節間のつなぎに用
いられる合成音声素片波形は、従来の技術ではリアルタ
イムに合成を行う必要があったが、本実施の形態例によ
れば次々に変化する波形をピッチごとに読み出しながら
接続するという、きわめて低い計算コストで生成するこ
とができる。また、別の従来技術ではこのようなつなぎ
部分を自然音声素片側に含めるために、非常に大容量の
音声素片DBを保持する必要があったが、本実施の形態
例では自然音声素片のデータは基本的にCV単位で構築
すればよいので、小容量となる。そのために合成音声素
片を保持しなければならないが、その容量は本実施の形
態例ではF1インデックスとF2インデックスをともに
20個とした場合、わずか400ピッチ波形を保持する
だけでよいので、非常に少ない記憶容量でよい。
【0063】続いて、図10に合成音声素片チャンネル
11の別の実施の形態例を示す。そこには、第1の音声
素片読み出し部13と第2の音声素片読み出し部15が
設けられている。第1の音声素片読み出し部13には第
1の音声素片DB14が接続され、第2の音声素片読み
出し部15には第2の音声素片DB16が接続されてい
る。また、混合部17が設けられ、その2つの入力には
それぞれ第1の音声素片読み出し部13と第2の音声素
片読み出し部15の出力が接続されている。混合部17
の出力は合成音声素片チャンネル11の出力となってい
る。
【0064】第1の音声素片DB14と第2の音声素片
DB16に格納された合成音声素片はそれぞれ同じF1
インデックス、F2インデックスで構成されているが、
異なる音源波形を使用して合成されたものである。
【0065】第1の音声素片DB14で使用する音源は
通常のスタイルで発声された音声から抽出されたもので
ある。一方、第2の音声素片DB16で使用する音源は
弱く発声された音声から抽出されたものである。
【0066】それらの音源の違いは周波数スペクトルの
全体の傾斜にある。強く発声されたとき、音源波形は高
い周波数まで高調波を多く含んでおり、スペクトルの傾
斜は小さい(水平に近い)。一方、弱く発声されたと
き、音源波形の高調波は少なくなり、スペクトルの傾斜
は大きい(高周波数方向に行くに従って低下する)。
【0067】実際の音声では発声中に音源のスペクトル
傾斜はめまぐるしく変化しており、そのような特性を模
擬するために二つの音源波形を比率を変えながら混合す
るという方法がある。本実施の形態例では、合成音声素
片チャンネルは事前に合成した波形を使うため、二つの
特性を持った音源波形で別々に合成された合成波形を後
から混合することで同様の効果を得ることができる。
【0068】このような構成にすることで、文頭から文
末にかけて、あるいは鼻音などでのスペクトル傾斜の変
化を模擬することが可能となる。
【0069】なお、本実施の形態例では合成音声素片の
作成時にフォルマント合成を用いたが、これはパラメー
タ合成に属する合成方法、例えばLPC合成、PARC
OR合成、LSP合成等でももちろんかまわない。
【0070】この時、声道逆フィルタを用いて抽出した
音源波形を用いる代わりに、LPC残差波形などを用い
てももちろん構わない。
【0071】また、合成音声素片でF1インデックス、
F2インデックスの全ての組み合わせに対して素片を対
応させたが、第1フォルマント周波数と第2フォルマン
ト周波数には物理的に考えられない組み合わせもあり、
また生起確立が低い組み合わせも存在するので、そのよ
うな素片は用意しなくても構わない。そうすることによ
って記憶容量をさらに低減することができる。
【0072】また、この生起確立を調べることによって
第1フォルマントと第2フォルマントを軸とする空間を
ベクトル量子化などの手法で不均一に分割することによ
ってさらに効率良くメモリを活用し、合成品質が向上さ
せることも考えられる。
【0073】本実施の形態例では合成音声素片のパラメ
ータ軸として、第1フォルマント周波数、第2フォルマ
ント周波数を用い、さらに別の実施の形態例では音源の
スペクトル傾斜を用いたが、記憶容量に余裕があればさ
らに別のパラメータを加えてももちろん構わない。例え
ば第1フォルマント周波数、第2フォルマント周波数に
加えて第3フォルマント周波数を加えれば、それらによ
って張られる3次元空間を分割して合成音声素片を構築
すればよい。あるいは、スペクトル傾斜以外の音源特性
変化、例えば地声と裏声などを変化させたい場合は、そ
れぞれの音源で別々の合成音声素片を構築し、合成時に
混合するなどとすればよい。
【0074】また、本実施の形態例では個人情報DB1
0を設け、音声素片DB6の自然音声素片のフォルマン
ト周波数を用いて合成音声素片インデックスを生成した
が、フォルマント周波数は母音が決まればだいたい決定
するので、母音別のフォルマント周波数表を設けること
によって代用しても構わない。
【0075】
【発明の効果】以上説明したように、本発明によれば従
来のパラメータ合成部分に相当する子音から母音への波
形変化部分における計算コストは、そのほかの接続合成
部分と同程度となり、全体の計算コストを極めて低く抑
えることが可能である。
【0076】また、従来計算速度の変動を吸収するため
に必要であったバッファメモリの容量も小さくすること
が可能である。
【0077】さらに、パラメータ合成を行うことにより
発生していた異音の問題も原理的に取り除くことができ
る。
【図面の簡単な説明】
【図1】本発明の音声合成装置の実施の形態例を示す構
成図
【図2】音韻記号解析部1から制御部2に出力される情
報構成図
【図3】音声素片DB6に格納されているデータの形式
【図4】自然音声波形から窓かけによってピッチ波形を
切り出す様子を示す波形図
【図5】音声素片DB4に格納されているデータの形式
【図6】音声素片DB4に格納するピッチ波形の生成ア
ルゴリズムを示すフローチャート
【図7】自然音声素片インデックスの例、及び自然音声
素片チャンネル波形が合成される様子を示す波形図
【図8】合成音声素片インデックスの例、及び合成音声
素片チャンネル波形が合成される様子を示す波形図
【図9】混合制御情報の例のグラフ
【図10】合成音声素片チャンネルの別の実施の形態例
を示す構成図
【符号の説明】
1 音韻記号解析部 2 制御部 3 音声素片読み出し部 4 音声素片DB 5 音声素片読み出し部 6 音声素片DB 7 混合部 8 振幅制御部 9 出力部 10 個人情報DB 11 合成音声素片チャンネル 12 自然音声素片チャンネル 13 音声素片読み出し部 14 音声素片DB 15 音声素片読み出し部 16 音声素片DB 17 混合部
フロントページの続き (56)参考文献 特開 平7−72898(JP,A) 特開 昭60−57399(JP,A) 特開 昭62−296198(JP,A) 特開 平5−19790(JP,A) 特開 平7−110697(JP,A) 特開 平6−266390(JP,A) 特開 平8−36397(JP,A) (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/20 JICSTファイル(JOIS)

Claims (12)

    (57)【特許請求の範囲】
  1. 【請求項1】 パラメータを生成するパラメータ生成部
    と、前記パラメータ生成部が生成したパラメータに従っ
    て合成波形を生成する音声合成部と、前記合成波形を記
    憶する波形記憶部と、前記合成波形に対応するパラメー
    タの値を記憶するパラメータ記憶部とを利用して音声素
    片を作成する方法であって、 前記パラメータ生成部は、N(Nは正の整数)個のパラ
    メータからなるパラメータベクトルPが張るN次元空間
    SをM(Mは正の整数)個の領域A0〜AM-1に分割し、
    0からM−1に渡って変化する全ての整数iについて領
    域Ai内の所望の位置に対応するパラメータベクトルPi
    を生成し、 前記音声合成部はパラメータベクトルPiに従って合成
    波形を生成し、 前記波形記憶部は前記合成波形を記憶するとともに、前
    記パラメータ記憶部は前記合成波形に対応するパラメー
    タベクトルPiを記憶し、前記パラメータベクトルPi
    の要素パラメータは、音声の一つまたは複数のフォルマ
    ントの中心周波数、声帯振動のスペクトル傾斜角の内
    の、一つまたは任意の組み合わせであることを特徴とす
    る音声素片作成方法。
  2. 【請求項2】 音声合成部は、パラメータに従って合成
    した波形の適当な位置の単一のピッチ周期の波形を該ピ
    ッチ周期内のピークを中心として窓関数で切り出したピ
    ッチ波形を生成し、前記波形記憶部は前記ピッチ波形を
    記憶することを特徴とする請求項記載の音声素片作成
    方法。
  3. 【請求項3】 音声合成部はいわゆるフォルマント合成
    方式によるものであることを特徴とする請求項1又は2
    記載のいずれかの音声素片作成方法。
  4. 【請求項4】 自然音声波形から声道伝達特性を抽出
    し、前記声道伝達特性の逆特性を有する声道逆フィルタ
    を構成し、前記自然音声波形から前記声道逆フィルタに
    より声道伝達特性を除去し、その結果得られる振動波形
    を励振音源波形として用いることを特徴とする請求項
    記載の音声素片作成方法。
  5. 【請求項5】 自然音声素片記憶部により、あらかじめ
    録音された音声波形を、所定の音韻連鎖ごとに切り出し
    て作成された自然音声素片を記憶し、 合成音声素片記憶部により、請求項1〜4のいずれかの
    音声素片作成方法によって作成された音声素片を記憶
    し、接続合成部により、前記自然音声素片と前記合成音
    声素片を接続しながら音声を合成することを特徴とする
    音声合成方法。
  6. 【請求項6】 自然音声素片記憶部に記憶された自然音
    声素片のパラメータを記憶する自然音声素片パラメータ
    記憶部と、前記合成音声素片記憶部に記憶された合成音
    声素片のパラメータを記憶する合成音声素片パラメータ
    記憶部とを利用して音声を合成する音声合成方法であっ
    て、 前記自然音声素片パラメータ記憶部と前記合成音声素片
    パラメータ記憶部に記憶されたパラメータは同一または
    同一の組み合わせであり、 前記接続合成部は、二つの自然音声素片を互いに接続す
    る際に、接続部における互いのパラメータの違いを所定
    の時間区間に渡って内挿し、各タイミングにおいて内挿
    されたパラメータの組み合わせに最も近いパラメータで
    合成された合成音声素片を前記合成音声素片記憶部から
    読み出し、前記二つの自然音声素片の間を前記合成音声
    素片で接続することを特徴とする請求項記載の音声合
    成方法。
  7. 【請求項7】 合成音声素片記憶部は請求項の音声素
    片作成方法によって作成された合成音声素片を記憶し、
    前記自然音声素片記憶部に記憶された自然音声素片と、
    前記音声合成部の励振音源波形は同一の話者によって発
    声されたものである ことを特徴とする請求項5又は6
    記載の音声合成方法。
  8. 【請求項8】 合成音声素片パラメータ記憶部は請求項
    の音声素片作成方法によって作成された合成音声素片
    のパラメータを記憶することを特徴とする請求項記載
    の音声合成方法。
  9. 【請求項9】 あらかじめ録音された音声波形を所定の
    音韻連鎖ごとに切り出して作成された自然音声素片を記
    憶する合成音声素片記憶部と、 請求項1〜4のいずれかの音声素片作成方法によって作
    成された音声素片を記憶する自然音声素片記憶部と、前
    記自然音声素片と前記合成音声素片を接続しながら音声
    を合成する接続合成部とを備えたことを特徴とする音声
    合成装置。
  10. 【請求項10】 自然音声素片記憶部に記憶された自然
    音声素片のパラメータを記憶する自然音声素片パラメー
    タ記憶部と、前記合成音声素片記憶部に記憶された合成
    音声素片のパラメータを記憶する合成音声素片パラメー
    タ記憶部とを有し、前記自然音声素片パラメータ記憶部
    と前記合成音声素片パラメータ記憶部に記憶されたパラ
    メータは、同一または同一の組み合わせであり、 前記接続合成部は、二つの自然音声素片を互いに接続す
    る際に、接続部における互いのパラメータの違いを所定
    の時間区間に渡って内挿し、各タイミングにおいて内挿
    されたパラメータの組み合わせに最も近いパラメータで
    合成された合成音声素片を合成音声素片記憶部から読み
    出し、前記二つの自然音声素片の間を前記合成音声素片
    で接続することを特徴とする請求項記載の音声合成装
    置。
  11. 【請求項11】 合成音声素片記憶部は請求項の音声
    素片作成方法によって作成された合成音声素片を記憶
    し、 前記自然音声素片記憶部に記憶された自然音声素片と、
    前記音声合成部の励振音源波形は同一の話者によって発
    声されたものであることを特徴とする請求項9又は10
    記載の音声合成装置。
  12. 【請求項12】 合成音声素片パラメータ記憶部は、請
    求項の音声素片作成方法によって作成された合成音声
    素片のパラメータを記憶することを特徴とする請求項
    記載の音声合成装置。
JP7220963A 1994-12-06 1995-08-30 音声素片作成方法および音声合成方法とその装置 Expired - Fee Related JP2987089B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP7220963A JP2987089B2 (ja) 1995-08-30 1995-08-30 音声素片作成方法および音声合成方法とその装置
US08/565,401 US5864812A (en) 1994-12-06 1995-11-30 Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
KR1019950046901A KR100385603B1 (ko) 1994-12-06 1995-12-05 음성세그먼트작성방법,음성합성방법및그장치
CNB951190490A CN1146863C (zh) 1994-12-06 1995-12-06 语音合成方法及其装置
CNB2003101028665A CN1294555C (zh) 1994-12-06 1995-12-06 语音段制作方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7220963A JP2987089B2 (ja) 1995-08-30 1995-08-30 音声素片作成方法および音声合成方法とその装置

Publications (2)

Publication Number Publication Date
JPH0962295A JPH0962295A (ja) 1997-03-07
JP2987089B2 true JP2987089B2 (ja) 1999-12-06

Family

ID=16759306

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7220963A Expired - Fee Related JP2987089B2 (ja) 1994-12-06 1995-08-30 音声素片作成方法および音声合成方法とその装置

Country Status (1)

Country Link
JP (1) JP2987089B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3706112B2 (ja) * 2003-03-12 2005-10-12 独立行政法人科学技術振興機構 音声合成装置及びコンピュータプログラム
WO2006134736A1 (ja) 2005-06-16 2006-12-21 Matsushita Electric Industrial Co., Ltd. 音声合成装置、音声合成方法およびプログラム

Also Published As

Publication number Publication date
JPH0962295A (ja) 1997-03-07

Similar Documents

Publication Publication Date Title
JP3294604B2 (ja) 波形の加算重畳による音声合成のための処理装置
US5864812A (en) Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
US8219398B2 (en) Computerized speech synthesizer for synthesizing speech from text
JP4705203B2 (ja) 声質変換装置、音高変換装置および声質変換方法
JPS62160495A (ja) 音声合成装置
JPH031200A (ja) 規則型音声合成装置
JP3673471B2 (ja) テキスト音声合成装置およびプログラム記録媒体
US20110046957A1 (en) System and method for speech synthesis using frequency splicing
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
JP4963345B2 (ja) 音声合成方法及び音声合成プログラム
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
JPH08248993A (ja) 音韻時間長制御方法
JPH09179576A (ja) 音声合成方法
JP3081300B2 (ja) 残差駆動型音声合成装置
JP2577372B2 (ja) 音声合成装置および方法
JP3853923B2 (ja) 音声合成装置
JPH08160991A (ja) 音声素片作成方法および音声合成方法、装置
JPH0836397A (ja) 音声合成装置
JP2002244693A (ja) 音声合成装置および音声合成方法
JPH10301599A (ja) 音声合成装置
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
JP2001312300A (ja) 音声合成装置
JPH06138894A (ja) 音声合成装置及び音声合成方法

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees