JP3394281B2 - 音声合成方式および規則合成装置 - Google Patents

音声合成方式および規則合成装置

Info

Publication number
JP3394281B2
JP3394281B2 JP03162793A JP3162793A JP3394281B2 JP 3394281 B2 JP3394281 B2 JP 3394281B2 JP 03162793 A JP03162793 A JP 03162793A JP 3162793 A JP3162793 A JP 3162793A JP 3394281 B2 JP3394281 B2 JP 3394281B2
Authority
JP
Japan
Prior art keywords
fluctuation component
pitch
speech
superimposing
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP03162793A
Other languages
English (en)
Other versions
JPH06250685A (ja
Inventor
充 海老原
泰 石川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP03162793A priority Critical patent/JP3394281B2/ja
Publication of JPH06250685A publication Critical patent/JPH06250685A/ja
Application granted granted Critical
Publication of JP3394281B2 publication Critical patent/JP3394281B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音声合成方式と規則合成
装置、特に文字で与えられる文章を音声に変換する規則
合成に適用する音声合成方式および規則合成装置に関す
る。
【0002】
【従来の技術】音声を直接人間の発声そのままによらな
いで、人工的に作り出すことを音声合成(speech
synthesis)という。音声合成方式として
は、録音編集方式、パラメータ編集方式、規則合成方式
の3種類に分類できる。このなかで、録音編集方式やパ
ラメータ編集方式は、予め記憶しておいた人の声をその
まま接続して出力する方式であるので、自然に近い音声
を合成することができるという利点があるが、出力可能
な語彙や文構造が限られてしまうという問題がある。こ
の点、規則合成方式は、文字列あるいは音素記号列から
音声学的ないし言語学的規則に基づいて音声を作り出す
方式であり、録音編集方式やパラメータ編集方式と異
り、少ない記憶容量で任意の語彙の音声合成が可能とな
【0003】ここで示す規則合成方式は、蓄えておく
単位として音節、音素、1ピッチ区間の波形などのよう
な、基本的な小さな単位の特パラメータを用い、その
かわりそれらを接続する規則や、ピッチ・振幅などの
律情報を制御する規則を精密に定めることにより、いか
なる言葉でも、音素、音節記号あるいは文字の系列から
合成できるようにしようとするものである。このとき、
音声が自然で聞きやすいものであるためには、ピッチや
ストレスの変化及び、スペクトルの時間的変化が滑らか
で、しかもポーズなどが自然でなければならない。した
がって、この規則合成方式の場合は、合成に用いる基
位の品質とともに、自然音声の音声学的ないし言語学
的特性に基づく、音響パラメータの制御規則(制御情報
と制御機構)が重要な役割を果たす。
【0004】ところで、このような規則合成に適用でき
る、任意のピッチ周期・パワー・継続時間長の合成音声
を得る音声合成方式としては、従来からボコーダ方式が
知られていた。ボコーダ方式は、例えば、“ディジタル
音声処理”古井貞煕 東海大学出版に示されているよう
に、音声信号の分析結果により音声を音源情報と声道情
報に分離してモデル化することで合成音声を得る方式で
あり、所望のピッチ周期の合成音声を比較的容易に得る
ことができる。
【0005】図8は、線形予測分析を用いた音声分析合
成を行う従来のボコーダ方式による音声分析合成系の一
構成例を示す構成図である。図において、従来のボコー
ダ方式による音声分析合成系は、有声音源生成手段10
と、無声音源生成手段11と、声道フィルタ手段12と
を有し、音声信号の分析結果により入力音声を分離・モ
デル化した音源情報であるフレーム平均ピッチ100
と、フレーム平均パワー101と、有声無声情報102
と、同じく入力音声を分離・モデル化して得られた声道
情報である声道特性103とを入力し、有声音源104
と無声音源105とを中間出力するとともに、最終的に
は合成音声106を出力する。
【0006】上記の通り構成される従来のボコーダ方式
による音声分析合成系の動作について説明する。有声音
源生成手段10は、有声無声情報102により判別され
る有声区間において、フレーム平均パワー101とフレ
ーム平均ピッチ100により、一定のフレーム平均ピッ
チ間隔のインパルス列で表現される有声音源104を生
成する。また、無声音源生成手段11は、有声無声情報
102により判別される無声区間において、フレーム平
均パワー101により、白色雑音で表現される無声音源
105を生成する。声道フィルタ手段12は、上記有声
音源104または無声音源105で声道特性103を近
似する声道フィルタを駆動し、合成音声106を出力す
る。
【0007】
【発明が解決しようとする課題】上記のような従来のボ
コーダ方式は、音源にインパルス列を用いているために
有声音のピッチ間隔毎の時間的な微細な特徴が失われる
という問題点や、声道特性の推定が不十分である際にス
ペクトルの微細な特徴が失われてしまうことにより合成
音声の品質が劣化するという問題点があった。この問題
を解決するために音声の微細な特徴を残すことができよ
るうに改良した方法として、音声を逆フィルタにより分
析して得られる残差波形を音源に用いる方式や、残差波
形を近似した音源を用いるマルチパルス方式などが提案
されている。
【0008】しかし、これらの改良されたボコーダ方式
より十分に高品質な合成音を得ることができるようには
なったが、反面記憶すべきデータ量が膨大になる問題
や、さらには、音声の微細な時間特徴はパワーやピッチ
に依存する傾向にあって、これらの方式では規則合成の
適用に際して、パワーやピッチを変化させた時に元の音
声の微細な時間特徴がそのまま合成音声に保存されてし
まうという問題点が指摘されている。
【0009】一方、フィルタを利用しない方式として、
音声波形の直接表現によってピッチ周期の制御を可能と
する波形重畳法が提案され、高品質な合成音を実現する
ことができるようになった。しかし、この方式も規則合
成への適用に関しては、上記の残差波形を音源に用いる
方式と同じ問題点がある。
【0010】また、予め記憶した自然音声あるいは自然
音源のゆらぎ成分を合成音声または合成音源に重畳する
方式や、あるいは乱数により生成したゆらぎ成分を合成
音源に重畳する方式が提案されているが、これらいずれ
の方式も前記方式と同様に、ゆらぎ成分がパワーまたは
ピッチに依存する傾向にあることが考慮されておらず、
所望のパワーまたはピッチに対して適切なゆらぎ成分を
生成しないという問題点があった。
【0011】本発明は上記のような問題点、すなわち上
記の音声の微細な特徴を直接保存しようとする方式にお
いて記憶すべきデータ量が膨大になるという問題や、微
細な時間特徴はパワーやピッチを変化させた時には元と
同一の特徴を示すわけではないという問題などを解消す
るためになされたもので、規則合成への適用を可能とす
る高品質化された音声合成方式を提供することを目的と
している。
【0012】
【課題を解決するための手段】上記目的を達成するため
に、本発明の第1の発明に係る音声合成方式は、音声の
分析により得られる声道特性、フレーム平均パワー、フ
レーム平均ピッチ、有声無声情報を入力とし、白色雑音
で表現される無声音源を生成する無声音源生成手段と、
インパルスあるいはフレームを代表する1ピッチ長残差
波形のフレーム平均ピッチ毎の繰り返しからなる有声音
源を生成する有声音源生成手段を有する音声合成方式で
あって、フレーム平均パワーあるいはフレーム平均ピッ
チを入力し、パワーまたはピッチにより規定されるゆら
ぎ成分を生成するゆらぎ成分生成手段と、ゆらぎ生成手
段より得られるゆらぎ成分を、フレーム平均ピッチ区間
毎に1ピッチ分の有声音源波形に重畳するゆらぎ成分重
畳手段と、ゆらぎ成分重畳手段で得られたゆらぎ成分重
畳音源波形を入力とし、声道特性を近似するフィルタに
より合成音声を得る声道フィルタ手段と、を備えたこと
を特徴とする。
【0013】また、第2の発明に係る規則合成装置は、
文字列あるいは音素記号列を入力し、あらかじめ記憶さ
れた辞書情報や音声素片情報などに基づき、音声学的な
いし言語学的規則にしたがって合成音声を出力する規則
合成装置であって、文章に応じ規則に基づいて生成され
るパワーまたはピッチにより規定されるゆらぎ成分を生
成するゆらぎ成分生成手段と、ゆらぎ生成手段より得ら
れるゆらぎ成分を、ピッチ区間毎に1ピッチ分の有声音
源波形に重畳するゆらぎ成分重畳手段と、ゆらぎ成分重
畳手段で得られたゆらぎ成分重畳音源波形を入力とし、
規則により生成される声道特性を近似するフィルタで合
成音声を得る声道フィルタ手段と、を備えたことを特徴
とする。
【0014】また、第3の発明に係る音声合成方式は、
有声無声情報により判別される有声音区間についてフレ
ーム平均パワーまたはフレーム平均ピッチを入力し、パ
ワーまたはピッチにより規定されるゆらぎ成分を生成す
るゆらぎ成分生成手段と、ゆらぎ生成手段より得られる
ゆらぎ成分を、各フレームの声道特性に対しフレーム平
均ピッチに同期して重畳するゆらぎ成分重畳手段と、ピ
ッチ区間毎に、有声音源波形を入力とし、ゆらぎ成分重
畳手段で得られたゆらぎ成分重畳声道特性を近似するフ
ィルタにより合成音声を得る声道フィルタ手段と、を備
えたことを特徴とする。
【0015】また、第4の発明に係る規則合成装置は、
文章に応じ規則に基づいて生成されるパワーまたはピッ
チにより規定されるゆらぎ成分を生成するゆらぎ成分生
成手段と、ゆらぎ生成手段より得られるゆらぎ成分を、
規則により生成される有声区間の各フレームの声道特性
に対しフレーム平均ピッチに同期して重畳するゆらぎ成
分重畳手段と、ピッチ区間毎に、有声音源波形を入力と
し、上記ゆらぎ成分重畳手段で得られたゆらぎ成分重畳
声道特性を近似するフィルタにより合成音声を得る声道
フィルタ手段と、を備えたことを特徴とする。
【0016】また、第5の発明に係る音声合成方式は、
フレーム平均パワーまたはフレーム平均ピッチを入力
し、パワーまたはピッチにより規定されるゆらぎ成分を
生成するゆらぎ成分生成手段と、ゆらぎ生成手段より得
られるゆらぎ成分を、フレーム平均ピッチ区間毎に1ピ
ッチ長音声波形に重畳するゆらぎ成分重畳手段と、ゆら
ぎ成分重畳手段で得られた1ピッチ長のゆらぎ成分重畳
音声波形をフレーム平均ピッチ間隔で重畳することによ
り合成音声を得る波形重畳手段と、を備えたことを特徴
とする。
【0017】さらに、第6の発明に係る規則合成装置
は、文章に応じ規則に基づいて生成されるパワーまたは
ピッチにより規定されるゆらぎ成分を生成するゆらぎ成
分生成手段と、ゆらぎ生成手段より得られるゆらぎ成分
を、ピッチ区間毎に、規則により生成される1ピッチ長
音声波形に重畳するゆらぎ成分重畳手段と、ゆらぎ成分
重畳手段で得られた1ピッチ長のゆらぎ成分重畳音声波
形をピッチ間隔で重畳することにより合成音声を得る波
形重畳手段と、を備えたことを特徴とする。
【0018】
【作用】従って、本発明の第1の発明に係る音声合成方
式によれば、ゆらぎ成分生成手段が入力される音声のパ
ワーまたはピッチにより規定されるゆらぎ成分である信
号波形を生成し、ゆらぎ成分重畳手段によりそのゆらぎ
成分をフレーム平均ピッチ区間毎に1ピッチ分の有声音
源波形に重畳し、そのゆらぎ成分重畳音源波形を入力し
て声道フィルタ手段が声道特性を近似するフィルタによ
り合成音声を得るようにしているので、自然性の高い合
成音声が再生される。
【0019】また、第2の発明に係る規則合成装置によ
れば、ゆらぎ成分生成手段によりパワーまたはピッチに
より規定されるゆらぎ成分を生成し、ゆらぎ成分重畳手
段によりゆらぎ成分をピッチ区間毎に1ピッチ分の有声
音源波形に重畳して、そのゆらぎ成分重畳音源波形を入
力する声道フィルタ手段が規則により生成される声道特
性を近似するフィルタで合成音声を発声させるようにし
ているので、高品質の規則合成音が得られる。
【0020】また、第3の発明に係る音声合成方式によ
れば、ゆらぎ成分生成手段が入力される音声のパワーま
たはピッチにより規定されるゆらぎ成分を生成し、ゆら
ぎ成分重畳手段によりそのゆらぎ成分を各フレームの声
道特性に対しフレーム平均ピッチに同期して重畳して、
ピッチ区間毎に有声音源波形を入力する声道フィルタ手
段がそのゆらぎ成分重畳声道特性を近似するフィルタに
より合成音声を得るようにしているので、自然性の高い
合成音声が再生される。
【0021】また、第4の発明に係る規則合成装置によ
れば、ゆらぎ成分生成手段によりパワーまたはピッチに
より規定されるゆらぎ成分を生成し、ゆらぎ成分重畳手
段によりゆらぎ成分を規則により生成される有声区間の
各フレームの声道特性に対しフレーム平均ピッチに同期
して重畳して、ピッチ区間毎に有声音源波形を入力する
声道フィルタ手段がそのゆらぎ成分重畳声道特性を近似
するフィルタにより合成音声を発声させるようにしてい
るので、高品質の規則合成音が得られる。
【0022】また、第5の発明に係る音声合成方式によ
れば、ゆらぎ成分生成手段が入力される音声のパワーま
たはピッチにより規定されるゆらぎ成分を生成し、ゆら
ぎ成分重畳手段によりそのゆらぎ成分をフレーム平均ピ
ッチ区間毎に1ピッチ長音声波形に重畳して、その1ピ
ッチ長のゆらぎ成分重畳音声波形を波形重畳手段がフレ
ーム平均ピッチ間隔で重畳することにより合成音声を得
るようにしているので、自然性の高い合成音声が再生さ
れる。
【0023】さらに、第6の発明に係る規則合成装置に
よれば、ゆらぎ成分生成手段によりパワーまたはピッチ
により規定されるゆらぎ成分を生成し、ゆらぎ成分重畳
手段によりゆらぎ成分をピッチ区間毎に規則により生成
される1ピッチ長音声波形に重畳して、その1ピッチ長
のゆらぎ成分重畳音声波形を波形重畳手段がピッチ間隔
で重畳することにより合成音声を発声させるようにして
いるので、高品質の規則合成音が得られる。
【0024】
【実施例】以下、本発明の好適な実施例を図に基づいて
説明する。図1〜図6は本実施例に係る音声合成方式に
よる音声分析合成系、あるいは本実施例に係る規則合成
装置の構成例を示す構成図である。なお、図において、
従来の音声合成方式による音声分析合成系と同一あるい
は相当部分には、同一符号を付して説明を省略する。
【0025】実施例1.図1は本実施例に係る音声合成
方式による第1の音声分析合成系の構成例を示す構成図
である。図において、本実施例の第1の音声分析合成系
は、有声音源生成手段10、無声音源生成手段11、声
道フィルタ手段12に加えて、ゆらぎ成分生成手段13
と、ゆらぎ成分重畳手段14とを有している。また、音
声信号の分析結果により入力音声を分離・モデル化した
音源情報であるフレーム平均ピッチ100、フレーム平
均パワー101、有声無声情報102と、同じく入力音
声を分離・モデル化して得られた声道情報である声道特
性103に加えて、1ピッチ長残差波形107を入力
し、有声音源104、無声音源105に加えて、ゆらぎ
成分200と、ゆらぎ成分重畳有声音源201を中間出
力するとともに、最終的には合成音声206を出力す
る。
【0026】次に、上記の通り構成される本実施例の第
1の音声分析合成系の動作について説明する。ゆらぎ成
分生成手段13は、フレーム平均パワー101を入力し
て、例えば、図7に示す様なパワーにより規定されるゆ
らぎ成分200を出力する。なお、図7はフレーム平均
パワーとゆらぎ成分との関係を示すグラフである。
【0027】無声音源生成手段11は、有声無声情報1
02により無声と判別されるときに白色雑音からなる無
声音源105を生成する。有声音源生成手段10は、有
声無声情報102により有声と判別されるときに1ピッ
チ長残差波形107をフレーム平均ピッチ100間隔で
繰り返した有声音源104を生成する。ゆらぎ成分重畳
手段14は、1ピッチ分の有声音源波形104にゆらぎ
成分200である信号波形を重畳、すなわち加算し、ゆ
らぎ成分重畳有声音源201を出力する。声道フィルタ
手段12は、ゆらぎ成分重畳有声音源201または無声
音源105を入力し、LSPフィルタなどの声道特性1
03を近似するフィルタにより合成音声206を得る。
【0028】実施例2.図2は、本実施例に係る第1の
規則合成装置の構成例を示す構成図である。図におい
て、本実施例の第1の規則合成装置20は、文章解析手
段21と、合成規則手段22と、音声合成手段23とか
ら構成され、音声合成手段23は有声音源生成手段10
と、無声音源生成手段11と、声道フィルタ手段12
と、ゆらぎ成分生成手段13と、ゆらぎ成分重畳手段1
4とから構成されている。そして、第1の規則合成装置
20は、文字列あるいは音素記号列からなる入力文章2
02を入力し、辞書情報203と、音声素片情報204
とを用いて規則合成を行う。
【0029】次に、上記の通り構成される本実施例の第
1の規則合成装置の動作について説明する。入力文章2
02を入力し、合成音声206を出力する規則合成装置
20において、文章解析手段21は、文字で与えられた
入力文章202を、あらかじめ記憶された辞書情報20
3を参照して解析し、単語の読み・アクセントなどの文
章解析結果205を出力する。合成規則手段22は、上
記文章解析手段21からの文章解析結果205を入力し
て、あらかじめ記憶された音声素片情報204を参照
し、規則によって音声合成に用いる1ピッチ長残差波形
107・声道特性103・フレーム平均パワー101・
フレーム平均ピッチ100・有声無声情報102を決定
し出力する。
【0030】音声合成手段23においては、上記1ピッ
チ長残差波形107・声道特性103・フレーム平均パ
ワー101・フレーム平均ピッチ100・有声無声情報
102を入力し、音声合成手段23の無声音源生成手段
11は、有声無声情報102により無声と判別されると
きに白色雑音からなる無声音源105を生成する。ま
た、有声音源生成手段10は、有声無声情報102によ
り有声と判別されるときに1ピッチ長残差波形107を
フレーム平均ピッチ100間隔で繰り返した有声音源1
04を生成する。ゆらぎ成分生成手段13は、フレーム
平均パワー101を入力して、例えば、図7に示す様な
パワーにより規定されるゆらぎ成分200を出力する。
ゆらぎ成分重畳手段14は、上記ゆらぎ成分200をフ
レーム平均ピッチ100区間毎に1ピッチ分の有声音源
104に重畳し、ゆらぎ成分重畳有声音源201を出力
する。声道フィルタ手段12は、上記ゆらぎ成分重畳有
声音源201または無声音源105を入力し、LSPフ
ィルタなど声道特性103を近似するフィルタにより合
成音声206を得る。
【0031】実施例3.図3は、本実施例に係る音声合
成方式による第2の音声分析合成系の構成例を示す構成
図である。図において、本実施例の第2の音声分析合成
系は、有声音源生成手段10、無声音源生成手段11、
声道フィルタ手段12、ゆらぎ成分生成手段13、ゆら
ぎ成分重畳手段14を有している。また、フレーム平均
ピッチ100、フレーム平均パワー101、有声無声情
報102、声道特性103、1ピッチ長残差波形107
を入力し、有声音源104、無声音源105、ゆらぎ成
分200、ゆらぎ成分重畳声道特性207を中間出力す
るとともに、最終的には合成音声206を出力する。こ
のような構成は図1に示す本実施例の第1の音声分析合
成系の構成と同様であるが、第2の音声分析合成系のゆ
らぎ成分重畳手段14は、ゆらぎ成分200をフレーム
平均ピッチ100に同期させて重畳してゆらぎ成分重畳
声道特性207を出力し、これを声道フィルタ手段12
に入力することにより合成音声206を生成するところ
に特徴を有している。
【0032】次に、上記の通り構成される本実施例の第
2の音声分析合成系の動作について説明する。ゆらぎ成
分生成手段13は、フレーム平均パワー101を入力し
て、例えば、図7に示す様なパワーにより規定されるゆ
らぎ成分200を出力する。無声音源生成手段11は、
有声無声情報102により無声と判別されるときに白色
雑音からなる無声音源105を生成する。有声音源生成
手段10は、有声無声情報102により有声と判別され
るときに1ピッチ長残差波形107をフレーム平均ピッ
チ100間隔で繰り返した有声音源104を生成する。
さらに有声時において、ゆらぎ成分重畳手段14は、声
道特性103のインパルス応答にゆらぎ成分200をフ
レーム平均ピッチ100に同期して重畳し、ゆらぎ成分
重畳声道特性207を出力する。声道フィルタ手段12
は有声音源104または無声音源105を入力し、ゆら
ぎ成分重畳声道特性207を近似するフィルタにより合
成音声206を得る。
【0033】実施例4.図4は、本実施例に係る第2の
規則合成装置の構成例を示す構成図である。図におい
て、本実施例の第2の規則合成装置20は、文章解析手
段21と、合成規則手段22と、音声合成手段23とか
ら構成され、音声合成手段23は有声音源生成手段10
と、無声音源生成手段11と、声道フィルタ手段12
と、ゆらぎ成分生成手段13と、ゆらぎ成分重畳手段1
4とから構成されている。そして、第2の規則合成装置
20は、入力文章202を入力し、辞書情報203と、
音声素片情報204とを用いて規則合成を行う。
【0034】次に、上記の通り構成される本実施例の第
2の規則合成装置の動作について説明する。入力文章2
02を入力し、合成音声106を出力する規則合成装置
17において、文章解析手段21は、文字で与えられた
入力文章202を、あらかじめ記憶された辞書情報20
3を参照して解析し、単語の読み・アクセント等の文章
解析結果205を出力する。合成規則手段22は、上記
文章解析結果205を入力して、あらかじめ記憶された
音声素片情報204を参照し、規則によって音声合成に
用いる1ピッチ長残差波形107・声道特性103・フ
レーム平均パワー101・フレーム平均ピッチ100・
有声無声情報102を決定し、音声合成手段23に出力
する。
【0035】音声合成手段23においては、上記1ピッ
チ長残差波形107・声道特性103・フレーム平均パ
ワー101・フレーム平均ピッチ100・有声無声情報
102を入力し、音声合成手段23の無声音源生成手段
11は、有声無声情報102により無声と判別されると
きに白色雑音からなる無声音源105を生成する。ま
た、有声音源生成手段10は、有声無声情報102によ
り有声と判別されるときに1ピッチ長残差波形107を
フレーム平均ピッチ100間隔で繰り返した有声音源1
04を生成する。ゆらぎ成分生成手段13は、フレーム
平均パワー101を入力して、例えば、図7に示す様な
パワーにより規定されるゆらぎ成分200を出力し、ゆ
らぎ成分重畳手段14は、上記ゆらぎ成分200をフレ
ーム平均ピッチ100に同期して声道特性103のイン
パルス応答に重畳し、ゆらぎ成分重畳声道特性207を
出力する。声道フィルタ手段12は有声音源104また
は無声音源105を入力し、ゆらぎ成分重畳声道特性2
07を近似するフィルタにより合成音声206を得る。
【0036】実施例5.図5は、本実施例に係る音声合
成方式による第3の音声分析合成系の構成例を示す構成
図である。図において、本実施例の第3の音声分析合成
系は、ゆらぎ成分生成手段13、ゆらぎ成分重畳手段1
4、波形重畳手段15を有している。また、フレーム平
均ピッチ100、フレーム平均パワー101、1ピッチ
長音声波形208を入力し、ゆらぎ成分200、ゆらぎ
成分重畳音声波形209を中間出力するとともに、最終
的には合成音声206を出力する。
【0037】次に、上記の通り構成される本実施例の第
3の音声分析合成系の動作について説明する。ゆらぎ成
分生成手段13は、フレーム平均パワー101を入力し
て、例えば、図7に示す様なパワーにより規定されるゆ
らぎ成分200を出力する。ゆらぎ成分重畳手段14
は、有声無声情報により有声と判別されるときに、上記
ゆらぎ成分生成手段13からのゆらぎ成分200を1ピ
ッチ長音声波形208に重畳し、ゆらぎ成分重畳音声波
形209を出力する。波形重畳手段15は、そのゆらぎ
成分重畳音声波形209を入力し、フレーム平均ピッチ
100間隔で重畳することより合成音声206を得る。
【0038】実施例6.図6は、本実施例に係る第3の
規則合成装置の構成例を示す構成図である。図におい
て、本実施例の第3の規則合成装置20は、文章解析手
段21と、合成規則手段22と、音声合成手段23とか
ら構成され、音声合成手段23は、ゆらぎ成分生成手段
13と、ゆらぎ成分重畳手段14と、波形重畳手段15
とから構成されている。そして、第3の規則合成装置2
0は、入力文章202を入力し、辞書情報203と、音
声素片情報204を用いて規則合成を行う。
【0039】次に、上記の通り構成される本実施例の第
3の規則合成装置の動作について説明する。入力文章2
02を入力し、合成音声206を出力する規則合成装置
20において、文章解析手段21は、文字で与えられた
入力文章202を、あらかじめ記憶された辞書情報20
3を参照して解析し、単語の読み・アクセント等の文章
解析結果205を出力する。合成規則手段22は、上記
文章解析手段21からの文章解析結果205を入力し
て、あらかじめ記憶された音声素片情報204を参照
し、規則によって音声合成に用いる1ピッチ長音声波形
208・フレーム平均ピッチ100・フレーム平均パワ
ー101を決定し、音声合成手段23に出力する。
【0040】音声合成手段23においては、上記1ピッ
チ長音声波形208・フレーム平均ピッチ100・フレ
ーム平均パワー101を入力し、音声合成手段23のゆ
らぎ成分生成手段13はフレーム平均パワー101を入
力して、例えば、図7に示す様なパワーにより規定され
るゆらぎ成分200を出力する。またし、ゆらぎ成分重
畳手段14は、上記ゆらぎ成分200を1ピッチ長音声
波形208に重畳し、ゆらぎ成分重畳音声波形209を
出力する。波形重畳手段15はゆらぎ成分重畳音声波形
209を入力し、フレーム平均ピッチ100の間隔での
重畳を行い、合成音声206を得る。
【0041】その他の実施例.なお、上記実施例1〜実
施例6のゆらぎ成分生成手段13の説明においては、ゆ
らぎ成分生成手段13はフレーム平均パワー101を入
力して、パワーにより規定されるゆらぎ成分200を出
力するものとして説明したが、これに限られるものでは
なく、例えば、フレーム平均ピッチを入力してピッチに
より規定されるゆらぎ成分を出力するものとして構成す
ることもできる。
【0042】また、上記実施例1〜実施例4の有声音源
生成手段10の説明においては、有声音源生成手段10
は、有声無声情報102により有声と判別されるときに
1ピッチ長残差波形107をフレーム平均ピッチ100
間隔で繰り返した有声音源104を生成するものとして
説明したが、これに限られるものではなく、例えば、入
力されるパワーおよびピッチにより生成されるインパル
ス列を用いるものとして構成することもできる。
【0043】
【発明の効果】以上説明したように、本発明の音声合成
方式によれば、入力される音声のパワーまたはピッチに
より規定されるゆらぎ成分を生成するようにし、そのゆ
らぎ成分を合成に用いるピッチ長の有声音源波形または
有声区間の声道特性にピッチ間隔毎に重畳し、あるい
は、ピッチ間隔毎に重畳した有声音声波形をピッチ間隔
毎に重畳するように構成したので、自然性の高い合成音
声を実現することができるという効果がある。
【0044】また、本発明の規則合成装置によれば、規
則により生成されたパワーまたはピッチにより規定され
るゆらぎ成分を生成するようにし、そのゆらぎ成分を合
成に用いるピッチ長の有声音源波形または有声区間の声
道特性にピッチ間隔毎に重畳し、あるいは、ピッチ長の
有声音声波形にピッチ間隔毎に重畳して得られた波形を
ピッチ間隔毎に重畳するように構成したので、高品質の
規則合成音を得ることができるという効果がある。
【図面の簡単な説明】
【図1】本実施例に係る音声合成方式による第1の音声
分析合成系の構成例を示す構成図である。
【図2】本実施例に係る第1の規則合成装置の構成例を
示す構成図である。
【図3】本実施例に係る音声合成方式による第2の音声
分析合成系の構成例を示す構成図である。
【図4】本実施例に係る第2の規則合成装置の構成例を
示す構成図である。
【図5】本実施例に係る音声合成方式による第3の音声
分析合成系の構成例を示す構成図である。
【図6】本実施例に係る第3の規則合成装置の構成例を
示す構成図である。
【図7】フレーム平均パワーとゆらぎ成分生成手段によ
り生成されるゆらぎ成分との関係を示すグラフである。
【図8】従来の音声合成方式による音声分析合成系の構
成例を示す構成図である。
【符号の説明】
10 有声音源生成手段 11 無声音源生成手段 12 声道フィルタ手段 13 ゆらぎ成分生成手段 14 ゆらぎ成分重畳手段 15 波形重畳手段 20 規則合成装置 21 文章解析手段 22 合成規則手段 23 音声合成手段 100 フレーム平均ピッチ 101 フレーム平均パワー 102 有声無声情報 103 声道特性 104 有声音源 105 無声音源 106、206 合成音声 107 1ピッチ長残差波形 200 ゆらぎ成分 201 ゆらぎ成分重畳有声音源 202 入力文章 203 辞書情報 204 音声素片情報 205 文章解析結果 207 ゆらぎ成分重畳声道特性 208 1ピッチ長音声波形 209 ゆらぎ成分重畳音声波形

Claims (6)

    (57)【特許請求の範囲】
  1. 【請求項1】 音声の分析により得られる声道特性、フ
    レーム平均パワー、フレーム平均ピッチ、有声無声情報
    を入力とし、 白色雑音で表現される無声音源を生成する無声音源生成
    手段と、 インパルスあるいはフレームを代表する1ピッチ長残差
    波形のフレーム平均ピッチ毎の繰り返しからなる有声音
    源を生成する有声音源生成手段を有する音声合成方式に
    おいて、 フレーム平均パワーあるいはフレーム平均ピッチを入力
    し、パワーまたはピッチにより規定されるゆらぎ成分を
    生成するゆらぎ成分生成手段と、 ゆらぎ生成手段より得られるゆらぎ成分を、フレーム平
    均ピッチ区間毎に1ピッチ分の有声音源波形に重畳する
    ゆらぎ成分重畳手段と、 ゆらぎ成分重畳手段で得られたゆらぎ成分重畳音源波形
    を入力とし、声道特性を近似するフィルタにより合成音
    声を得る声道フィルタ手段と、を備えたことを特徴とす
    る音声合成方式。
  2. 【請求項2】 文字列あるいは音素記号列を入力し、あ
    らかじめ記憶された辞書情報や音声素片情報などに基づ
    き、音声学的ないし言語学的規則にしたがって合成音声
    を出力する規則合成装置において、 文章に応じ規則に基づいて生成されるパワーまたはピッ
    チにより規定されるゆらぎ成分を生成するゆらぎ成分生
    成手段と、 ゆらぎ生成手段より得られるゆらぎ成分を、ピッチ区間
    毎に1ピッチ分の有声音源波形に重畳するゆらぎ成分重
    畳手段と、 ゆらぎ成分重畳手段で得られたゆらぎ成分重畳音源波形
    を入力とし、規則により生成される声道特性を近似する
    フィルタで合成音声を得る声道フィルタ手段と、を備え
    たことを特徴とする規則合成装置。
  3. 【請求項3】 音声の分析により得られる声道特性、フ
    レーム平均パワー、フレーム平均ピッチ、有声無声情報
    を入力とし、 白色雑音で表現される無声音源を生成する無声音源生成
    手段と、 インパルスあるいはフレームを代表する1ピッチ長残差
    波形のフレーム平均ピッチ毎の繰り返しからなる有声音
    源を生成する有声音源生成手段を有する音声合成方式に
    おいて、 有声無声情報により判別される有声音区間についてフレ
    ーム平均パワーまたはフレーム平均ピッチを入力し、パ
    ワーまたはピッチにより規定されるゆらぎ成分を生成す
    るゆらぎ成分生成手段と、 ゆらぎ生成手段より得られるゆらぎ成分を、各フレーム
    の声道特性に対しフレーム平均ピッチに同期して重畳す
    るゆらぎ成分重畳手段と、 ピッチ区間毎に、有声音源波形を入力とし、ゆらぎ成分
    重畳手段で得られたゆらぎ成分重畳声道特性を近似する
    フィルタにより合成音声を得る声道フィルタ手段と、を
    備えたことを特徴とする音声合成方式。
  4. 【請求項4】 文字列あるいは音素記号列を入力し、あ
    らかじめ記憶された辞書情報や音声素片情報などに基づ
    き、音声学的ないし言語学的規則にしたがって合成音声
    を出力する規則合成装置において、 文章に応じ規則に基づいて生成されるパワーまたはピッ
    チにより規定されるゆらぎ成分を生成するゆらぎ成分生
    成手段と、 ゆらぎ生成手段より得られるゆらぎ成分を、規則により
    生成される有声区間の各フレームの声道特性に対しフレ
    ーム平均ピッチに同期して重畳するゆらぎ成分重畳手段
    と、 ピッチ区間毎に、有声音源波形を入力とし、上記ゆらぎ
    成分重畳手段で得られたゆらぎ成分重畳声道特性を近似
    するフィルタにより合成音声を得る声道フィルタ手段
    と、を備えたことを特徴とする規則合成装置。
  5. 【請求項5】 音声の分析により得られるフレーム平均
    パワー、フレーム平均ピッチ、有声無声情報を入力と
    し、有声無声情報により判別される有声区間でフレーム
    を代表する1ピッチ長音声波形を入力する音声合成方式
    において、 フレーム平均パワーまたはフレーム平均ピッチを入力
    し、パワーまたはピッチにより規定されるゆらぎ成分を
    生成するゆらぎ成分生成手段と、 ゆらぎ生成手段より得られるゆらぎ成分を、フレーム平
    均ピッチ区間毎に1ピッチ長音声波形に重畳するゆらぎ
    成分重畳手段と、 ゆらぎ成分重畳手段で得られた1ピッチ長のゆらぎ成分
    重畳音声波形をフレーム平均ピッチ間隔で重畳すること
    により合成音声を得る波形重畳手段と、を備えたことを
    特徴とする音声合成方式。
  6. 【請求項6】 文字列あるいは音素記号列を入力し、あ
    らかじめ記憶された辞書情報や音声素片情報などに基づ
    き、音声学的ないし言語学的規則にしたがって合成音声
    を出力する規則合成装置において、 文章に応じ規則に基づいて生成されるパワーまたはピッ
    チにより規定されるゆらぎ成分を生成するゆらぎ成分生
    成手段と、 ゆらぎ生成手段より得られるゆらぎ成分を、ピッチ区間
    毎に、規則により生成される1ピッチ長音声波形に重畳
    するゆらぎ成分重畳手段と、 ゆらぎ成分重畳手段で得られた1ピッチ長のゆらぎ成分
    重畳音声波形をピッチ間隔で重畳することにより合成音
    声を得る波形重畳手段と、を備えたことを特徴とする規
    則合成装置。
JP03162793A 1993-02-22 1993-02-22 音声合成方式および規則合成装置 Expired - Fee Related JP3394281B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP03162793A JP3394281B2 (ja) 1993-02-22 1993-02-22 音声合成方式および規則合成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP03162793A JP3394281B2 (ja) 1993-02-22 1993-02-22 音声合成方式および規則合成装置

Publications (2)

Publication Number Publication Date
JPH06250685A JPH06250685A (ja) 1994-09-09
JP3394281B2 true JP3394281B2 (ja) 2003-04-07

Family

ID=12336456

Family Applications (1)

Application Number Title Priority Date Filing Date
JP03162793A Expired - Fee Related JP3394281B2 (ja) 1993-02-22 1993-02-22 音声合成方式および規則合成装置

Country Status (1)

Country Link
JP (1) JP3394281B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6240384B1 (en) 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
WO2008010413A1 (fr) * 2006-07-21 2008-01-24 Nec Corporation Dispositif, procédé et programme de synthèse audio
JP6281336B2 (ja) * 2014-03-12 2018-02-21 沖電気工業株式会社 音声復号化装置及びプログラム

Also Published As

Publication number Publication date
JPH06250685A (ja) 1994-09-09

Similar Documents

Publication Publication Date Title
JPH031200A (ja) 規則型音声合成装置
JP2009163121A (ja) 音声処理装置及びそのプログラム
JPH0632020B2 (ja) 音声合成方法および装置
JPH08254993A (ja) 音声合成装置
JP3394281B2 (ja) 音声合成方式および規則合成装置
JP3437064B2 (ja) 音声合成装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JPH0247700A (ja) 音声合成方法および装置
US7130799B1 (en) Speech synthesis method
JP2001034284A (ja) 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体
Al-Said et al. An Arabic text-to-speech system based on artificial neural networks
JP3081300B2 (ja) 残差駆動型音声合成装置
JPS5914752B2 (ja) 音声合成方式
JPH09179576A (ja) 音声合成方法
JP2001100777A (ja) 音声合成方法及び装置
JPH11161297A (ja) 音声合成方法及び装置
Muralishankar et al. Human touch to Tamil speech synthesizer
JP3284634B2 (ja) 規則音声合成装置
JP2573586B2 (ja) 規則型音声合成装置
JP2573587B2 (ja) ピッチパタン生成装置
Lavner et al. Voice morphing using 3D waveform interpolation surfaces and lossless tube area functions
JP2001312300A (ja) 音声合成装置
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
JPH01244499A (ja) 音声素片ファイル作成装置
JPH0464080B2 (ja)

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees