JP3089940B2 - 音声合成装置 - Google Patents

音声合成装置

Info

Publication number
JP3089940B2
JP3089940B2 JP06050890A JP5089094A JP3089940B2 JP 3089940 B2 JP3089940 B2 JP 3089940B2 JP 06050890 A JP06050890 A JP 06050890A JP 5089094 A JP5089094 A JP 5089094A JP 3089940 B2 JP3089940 B2 JP 3089940B2
Authority
JP
Japan
Prior art keywords
waveform
pitch
consonant
unit
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP06050890A
Other languages
English (en)
Other versions
JPH07152396A (ja
Inventor
孝浩 釜井
謙二 松井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP06050890A priority Critical patent/JP3089940B2/ja
Publication of JPH07152396A publication Critical patent/JPH07152396A/ja
Application granted granted Critical
Publication of JP3089940B2 publication Critical patent/JP3089940B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、任意のテキストを音声
に変換する音声合成装置に関する。
【0002】
【従来の技術】任意のテキストを音声に変換する音声合
成方式には、大きく分けて2種類ある。一つは音声の発
声機構、即ち、声帯や口、喉の動きを理解し、その知識
を規則にして電気回路などを制御する合成方式である。
もう一つの方式は、音声の知識はあまり必要とせず、音
声の素片をたくさん用意して入力に応じて適した素片を
つなぎあわせる方式である。前者には、例えばホルマン
ト合成方式とホルマント制御規則の組合せがよく知られ
ている。図4は、このホルマント合成方式とホルマント
制御規則の組合せの構成例である。同図において、ホル
マント合成器制御規則格納部9はホルマント合成器を制
御するための複数の規則を格納する部分、ホルマント合
成器制御用係数生成部8は、前記の制御規則に基づいて
ホルマント合成器を制御するための係数を生成する部
分、ホルマント合成器10は実際に音声を合成する部
分、有声音源部1は声帯の振動を模擬する部分、直列型
ホルマント合成部2はホルマント共振器を直列に接続
し、母音や鼻音などの有声音を合成する部分、無声音源
部6は摩擦音や破裂音などの合成に必要な乱流雑音源、
並列型ホルマント合成部7は共振器が並列に接続され摩
擦音や破裂音などの無声子音部分を合成する。合成部5
は直列型ホルマント合成部2の出力と並列型ホルマント
合成部7の出力を合成し合成音を出力する部分である。
【0003】音声合成に必要な発音記号、アクセント位
置、イントネーションに関する情報などがホルマント合
成器制御用係数生成部8に入力されると、ホルマント合
成器制御用係数生成部8はホルマント合成器制御規則格
納部9から必要な規則を参照し、ホルマント合成器制御
用係数をホルマント合成器10に出力する。ホルマント
合成器10の内部において、以下のように動作する。有
声音源部1は母音などの有声音を合成する時に人間の声
帯で生じるパルス状の音源波形を模擬する。このパルス
状の信号は直列型ホルマント合成部2に入力され、直列
型ホルマント合成部2は、複数のホルマント共振器によ
って音源波形に母音や鼻音として適切な特徴を与え、合
成部5に出力する。一方、無声音源部6は摩擦音や破裂
音の音源となる雑音状の波形を並列型ホルマント合成部
7に送り、並列型ホルマント合成部7で複数の共振器に
よりそれぞれの子音に必要な周波数的特徴を瞬時に形成
し、合成部5に出力する。合成部5は、直列型ホルマン
ト合成部2の母音や鼻音と並列型ホルマント合成部7の
子音を合成し合成音声として出力する。
【0004】次に、もう一つの従来例である波形素片
(音声素片)を用いる方式を説明する。図5はこの方式
の構成図である。波形素片選択部11は入力である発音
記号列やアクセント情報から合成に必要な波形素片を波
形素片データベース格納部12から選択する。この場
合、波形素片は例えば線形予測係数などのような係数に
圧縮されて格納されているのが通常である。選択された
複数の波形素片は素片接続合成部13で接続され適切な
基本周波数で音声波形に合成される。
【0005】
【発明が解決しようとする課題】ところで、我々発明者
は、上記2つの方式を検討した結果、それらの2つの方
式には、次に示すような異なる特徴があることを見いだ
した。
【0006】すなわち、前者の方式の長所は、音をすべ
て規則で作り上げるので柔軟性に富み様々な音質やイン
トネーションの音声を合成できることである。短所とし
ては、特に子音などのように発声メカニズムが複雑な音
声は合成規則がまだ十分研究されていないのが現状で、
自然な音質の子音生成が難しい点である。
【0007】また、後者の方式の場合の長所は、波形素
片が基本的にモデルとなる自然音声から切り出されてい
るので素片間の滑らかな接続が出来れば合成品質は極め
て高い。一方、この方式の短所は波形素片格納に大容量
の記憶装置が必要であるのでコストが高くなる。また、
モデル音声の声質しか合成できず、柔軟性に欠けるとい
う問題がある。
【0008】まとめると、音をすべて規則で作り上げる
方式の場合は、柔軟性に富み様々な音質やイントネーシ
ョンの音声を合成できるが、子音などのように発声メカ
ニズムが複雑な音声は合成規則がまだはっきりしていな
いので合成が難しい。一方、波形素片を用いた方式の場
合は、合成品質は極めて高いが、波形素片格納に大容量
の記憶装置が必要という問題や、モデル音声の声質しか
合成できず、柔軟性に欠けるという問題がある。
【0009】本発明の目的は、音質の柔軟性に富み、記
憶容量も波形素片を用いる従来方式に比べて大幅に削減
できる、合成品質の高い音声合成装置の提供を目的とす
るものである。
【0010】
【課題を解決するための手段】請求項1の本発明は、有
声音源信号を出力する有声音源部と、前記有声音源部か
らの有声音源信号を入力とし、複数の直列に接続された
ホルマント共振器を有し、母音など所定の音を合成する
直列型ホルマント合成部と、無声および有声の複数の子
音など所定の音の波形を記憶する波形記憶部と、前記波
形記憶部の中から必要な波形を読み出す波形読み出し部
と、前記直列型ホルマント合成部からの出力と前記波形
読み出し部が読み出す波形とを接続して合成音声として
出力する波形結合部と、を具備する音声合成装置であっ
て、前記波形結合部は接続時に前記直列型ホルマント合
成部からの出力波形と前記波形読み出し部が読み出す波
形を有声音部での波形上のピークの位置を一致させるよ
うにして重ね合わせを行い、徐々に混合比率を変化させ
ることで滑らかに両者の波形を接続することを特徴とす
音声合成装置である。
【0011】請求項3の本発明は、有声音源信号を出力
する有声音源部と、音声信号を生成する音生成手段と、
音声から切り出された波形素片を記憶する波形素片記憶
手段と、その記憶された波形素片についての所定の特徴
量を記憶する波形素片特徴量記憶手段と、その記憶され
た波形素片の特徴量に基づき、前記音生成手段により生
成された音声信号と前記波形素片記憶手段から得られる
波形素片信号とを合成させる制御手段とを備えた音声合
成装置であって、前記特徴パラメータは前記波形素片の
子音に後続する母音開始部付近の波形上のピーク位置で
あり、前記有声音源部は前記ピーク位置と同じ位置にピ
ークが発生するようなタイミングで有声音源波形を生成
し、前記音生成手段は前記有声音源信号を入力として母
音音声波形を合成し、前記制御手段は前記ピーク位置付
近で前記母音音声波形と前記波形素片を重ね合わせるこ
とによって両者を接続することを特徴とする音声合成装
置である。
【0012】請求項17の本発明は、有声音を生成する
有声音源波形生成手段と直列型ホルマント合成部と子音
を生成する子音波形生成手段と波形を接続する波形接続
手段とピッチ同期信号生成手段を具備し、前記ピッチ同
期信号生成手段は所望のピッチ周期に対応したピッチ同
期信号を出力し、前記有声音源波形生成手段と前記子音
波形生成手段はともに前記ピッチ同期信号に同期した位
相の波形を生成し、前記直列型ホルマント合成部は前記
有声音源波形生成手段の出力波形に声道特性を模擬した
伝達関数にて周波数特性の変更を行い、前記波形接続手
段は前記直列型ホルマント合成部の出力波形と前記子音
波形生成手段の出力波形を接続または混合することによ
り音声波形を生成する音声合成装置である。
【0013】
【作用】請求項1の本発明では、有声音源部が有声音源
信号を出力し、直列型ホルマント合成部が、有声音源部
からの有声音源信号を入力とし、複数の直列に接続され
たホルマント共振器を有し、母音など所定の音を合成
し、波形記憶部が複数の子音など所定の音の波形を記憶
し、波形読み出し部が、前記波形記憶部の中から必要な
波形を読み出す。また、波形結合部が、前記直列型ホル
マント合成部からの出力と前記波形読み出し部が読み出
す波形とを重ね合わせたり、切り替えたりして合成音声
として出力する。
【0014】請求項3の本発明では、音生成手段が、音
声から抽出された特徴パラメータに基づいて、音声信号
を生成し、波形素片記憶手段が、音声から切り出された
波形素片を記憶し、波形素片特徴量記憶手段が、その記
憶された波形素片についての所定の特徴量を記憶し、制
御手段が、その記憶された波形素片の特徴量に基づき、
前記音生成手段により生成された音声信号と前記波形素
片記憶手段から得られる波形素片信号とを合成させる。
【0015】請求項17の本発明では、ピッチ同期信号
生成手段は所望のピッチ周期に対応したピッチ同期信号
を出力し、有声音源波形生成手段と前記子音波形生成手
段はともにピッチ同期信号に同期した位相の波形を生成
し、直列型ホルマント合成部は有声音源波形生成手段の
出力波形に声道特性を模擬した伝達関数にて周波数特性
の変更を行い、波形接続手段は直列型ホルマント合成部
の出力波形と子音波形生成手段の出力波形を接続または
混合することにより音声波形を生成する。
【0016】
【実施例】以下、本発明の実施例について図面を参照し
て説明する。
【0017】図1は本発明の第1の実施例における音声
合成装置の構成を示すものである。以下の実施例では、
おもに日本語を対象として説明するが、支障の無い限り
英語等他の言語にも適用可能である。同図において、有
声音源部1は、声帯の振動を模擬し音源信号を生成する
部分である。直列型ホルマント合成部2は、母音などの
有声音を合成する部分である。子音波形記憶部3は、自
然な音声から切り出した子音の波形素片を格納する部
分、子音波形読み出し部4は必要な波形素片を選択し取
り出す部分、合成部5は直列型ホルマント合成部2の出
力と子音波形読み出し部4の出力を合成し、合成音声と
して出力する部分である。
【0018】上記のように構成された本実施例の音声合
成装置について以下にその動作を説明する。
【0019】従来例で説明したように本合成装置に対し
て先ずホルマント合成器制御用係数が与えられる。有声
音源部1は、ホルマント合成器制御用係数の中の基本周
波数に関する情報、音源の振幅情報に関する情報などか
ら所望の音源信号を生成し、直列型ホルマント合成部2
に入力する。子音区間や無声区間では、音源信号は出力
されない。直列型ホルマント合成部2は、ホルマント合
成器制御用係数の中のホルマント周波数情報、ホルマン
ト共振峰のバンド幅に関する情報、などから直列に並ん
だ共振器の特性を決定し、上記の音源信号から母音など
の音声信号に変換する。直列型ホルマント合成部2の出
力は合成部5に送られる。一方、ホルマント合成器制御
用係数の中の音素に関する情報から子音波形読み出し部
4は、その音素が子音波形記憶部3に存在するかどうか
を確認して、もし存在すればその波形素片を子音波形記
憶部3から取り出し、合成部5に送る。例えば、図2に
示すように、合成しようとする音素が「k」で後続母音
が「あ」の場合、子音波形読み出し部4は、子音波形記
憶部3の中に子音「k」で「か」から切り出した波形素
片があるか検索する。合成部5は、直列型ホルマント合
成部2からの母音信号と子音波形読み出し部4の子音信
号を加算処理や重ねあわせ処理などにより合成する。こ
のように構成することにより、母音に関してはホルマン
ト合成方式により柔軟で様々な音質やイントネーション
を付与でき、子音に関しては波形素片を用いた方式によ
りホルマント合成方式では実現出来ない高品質な音声を
提供できる。波形素片としての格納は持続時間の短い子
音に限るため小容量の記憶装置で実現が可能である。
【0020】次に、図3を参照しながら、上記方式の特
長を保持し、且つ、波形素片の種類を減らすことができ
必要な記憶容量の削減が可能な本発明の第2の実施例に
おける音声合成装置を説明する。
【0021】同図において、無声音源部6は、子音の音
源となる部分、並列型ホルマント合成部7は前記無声音
源部6からの信号を複数の並列に接続された共振器によ
り破裂音や摩擦音などの子音を合成する部分である。他
の手段は、第1の実施例と同様である。
【0022】上記のように構成された本実施例の音声合
成装置について以下その動作を説明する。
【0023】第1の実施例と同様に、本合成装置に対し
て先ずホルマント合成器制御用係数が与えられ、有声音
源部1と直列型ホルマント合成部2によって母音性信号
に変換し合成部5に送られる。さらに、子音の中でホル
マント合成方式で十分高品質が実現できるものに関して
は、無声音源部6と並列型ホルマント合成部7が取り扱
う。即ち、与えられたホルマント合成器制御用係数の中
の無声音源に関する情報に基づいて無声音源部6が雑音
性信号の振幅、タイミングなどを調整し並列型ホルマン
ト合成部7に送る。並列型ホルマント合成部7では合成
しようとする子音の周波数特徴に関する情報などを基に
並列に並べられた共振器によって雑音性信号が所望の子
音性信号に変換され合成部5に渡される。子音波形読み
出し部4と子音波形記憶部3は第1の実施例と同様に、
上記並列型ホルマント合成部7で取り扱わない子音を波
形素片データベースから検索し、それを合成部5に送
る。合成部5は、第1の実施例と同様に、直列型ホルマ
ント合成部2からの母音性信号と子音波形読み出し部4
からの子音性信号あるいは並列型ホルマント合成部7か
らの子音性信号を加算処理や重ねあわせ処理などにより
合成する。このように構成することにより、子音の中で
ホルマント合成方式で十分高品質が実現できるものに関
しては、無声音源部と並列型ホルマント合成部が利用で
き、波形素片格納に必要な記憶容量の削減が可能にな
る。
【0024】また、並列型ホルマント合成部7と子音波
形読み出し部9を同時に駆動することにより、例えば、
ある波形素片の破裂部分を並列型ホルマント合成部7の
信号によってさらに強調するなど、雑音環境下などで明
瞭度を自然音声以上に高めることが可能になる。
【0025】次に、本発明の別の実施例に付いて説明す
る。
【0026】上記子音波形記憶部には自然音声波形から
子音部分を切り出したものが格納されている。無声子音
の場合は破裂部分や摩擦部分などの子音部分を有声音部
分すなわち声帯振動が開始した後の部分と切り離すこと
が可能で、それらのみを格納しておくことにより同一の
素片を任意のピッチの合成に使用することが可能であ
る。しかし、有声子音は子音部分を有声音部分と分離す
ることが出来ないので、声帯振動が開始した後の波形を
素片に含めなくてはならない。
【0027】また、一般に子音の知覚のためのキューは
後続母音にも含まれている。したがって、子音波形素片
に後続母音の冒頭部分を含めることにより音質を向上さ
せることが出来る。
【0028】したがって、子音波形素片と直列型ホルマ
ント合成波形を後続母音部分で接続しなくてはならな
い。この時、例えば子音波形素片の途中で瞬間的に直列
型ホルマント合成波形に切り替えると波形不連続が発生
し、インパルス性の雑音が発生する。
【0029】所定の区間幅でなめらかな重ね合わせを行
う方法が考えられる。すなわち、子音波形素片をなめら
かに減衰させるとともに、直列型ホルマント合成波形を
なめらかに立ち上げる。後続母音部分の先頭1〜2ピッ
チ周期を子音波形素片に含め、1ピッチ周期程度の区間
幅で重ね合わせを行えば、ピッチを考慮せずに子音波形
素片を用いることができる。
【0030】しかし、上記の方法で接続を行っても両者
の波形のタイミングを制御しなければ位相不連続が起こ
り、音質劣化が起こる。例えば、同じピッチを持つ子音
波形素片と直列型ホルマント合成波形を接続すると、両
者のタイミングが正確に制御されていなければ接続点付
近でピッチ周期が瞬間的に変化する。これは言い替えれ
ば両者の位相が異なるためである。
【0031】また、そのほかにも子音の発音(出力)タ
イミングを正確に制御しなければ音韻性が損なわれ、例
えば「さ」が「つぁ」に変化してしまうなどの問題が発
生する。
【0032】そこで、次の実施例では上記の問題を解決
するために子音波形素片にラベルを付与し、それをもと
に接続点での波形タイミングを制御する構成を取る。
【0033】すなわち、図6は本発明にかかる第3の実
施例の音声合成装置の構成図である。すなわち、音声合
成装置には有声音生成部14および子音波形生成部17
が設けられ、それら有声音生成部14と子音波形生成部
17には、音声波形の生成を制御する制御部21が接続
されている。その制御部21には、子音波形生成部17
の子音波形記憶部19に記憶されている各子音素片に付
けられたラベルを記憶する子音波形ラベル記憶部18が
接続され、又、有声音生成部14と子音波形生成部17
の出力は合成部22を介して出力部20に並列に接続さ
れている。又、有声音生成部15の内部には有声音源部
15及び直列型ホルマント合成部16が設けられ、有声
音源部15の出力は直列型ホルマント合成部16に接続
され、直列型ホルマント合成部16の出力は有声音生成
部14の出力として合成部22へ接続されている。ここ
で、前述の有声音生成部14が音生成手段であり、子音
波形記憶部19が波形素片記憶手段であり、子音波形ラ
ベル記憶部18が波形素片特徴量記憶手段である。
【0034】上述の子音波形ラベル記憶部18には必要
な全ての子音素片に対し、図7に示すように、特徴量と
して波形のタイミングを表すラベルが記憶されている。
図7は無声子音素片に対するラベル付与方法の説明図で
ある。図7においてstrtは「開始ラベル」、brstは「バ
ーストラベル」、sovは「ボイシング開始ラベル」、pea
kは「ピークラベル」、endは「終了ラベル」である。特
徴量としてはその他に、gainとmagnという値も記憶され
ている。gainは「利得情報」、magnは「ピーク値情報」
である。
【0035】ここで、開始ラベル、終了ラベルは文字ど
おり子音素片の発音(出力)開始点、および終了点であ
る。終了ラベルは声帯音源振動の開始後2ピッチ周期の
ゼロクロス点に付けられている。これは後続母音部分に
含まれている子音の特徴を子音素片に含めるためであ
る。できるだけ多くの特徴を子音素片に含めるために、
ピッチ周期数を大きくとりたいが、そうすると子音素片
自身のピッチが強く知覚されるようになる。合成時のピ
ッチがこれと異なるとき、ピッチの不連続を生むために
音質は劣化する。そこで、これらを考慮して子音の特徴
を十分含む範囲でできるだけ少ないピッチ周期数を個々
の子音素片に対して選択する。ピッチ周期数が1または
2の子音素片はピッチの知覚の度合い(ピッチ性と呼
ぶ)が弱いため合成時のピッチを考慮せずにそのまま用
いても差し支えない。ピッチ周期数がそれよりも大きい
子音素片や有声子音などはピッチ性が強いので、合成時
のピッチを考慮する必要がある。そこで、複数のピッチ
の子音素片を用意しておき、合成時にそれらの中から最
も近いピッチのものを選んで用いる方法や、子音素片に
ピッチ変更操作を行う(線形伸縮法やピッチ同期重畳
法)方法などを用いる。
【0036】バーストラベルは破裂子音の破裂部、摩擦
子音の摩擦部などそれぞれの子音を特徴づける調音が行
われる瞬間(ここではそれらを総称して破裂事象とす
る)に付けられるラベルで、合成時に子音素片の発音タ
イミングを決定するために使用する。
【0037】ボイシング開始ラベルは子音素片が無声子
音の場合に付けられるラベルである。このラベルは無声
化した子音を合成するために用いられる。無声化とは語
尾や後続の音韻環境によって無声子音の後続母音が消滅
する現象である。無声化した子音を合成するときは子音
素片の発音をこのラベルで終了する。無声化は、本質的
には子音部分の後に声帯が振動するかしないかの差であ
るので、このように声帯振動開始点で発音を停止すれば
再現できる。
【0038】ピークラベルは終了ラベル直前の波形上の
ピークに付与され、後述する有声音生成部14と子音波
形生成部17の出力の同期に用いられる。このピークは
声帯が閉じた瞬間に発生する。
【0039】子音素片が有声子音の場合にはボイシング
開始ラベルの代わりに音韻性開始ラベルが付与される。
図8は有声子音素片に対するラベル付与方法の説明図で
ある。strt、brst、peak、endは無声子音と同様に付与
されるがボイシング開始ラベルは付与されない。ここで
はsovは音韻性開始ラベルとして使用されている。音韻
性開始ラベルは発音開始位置を開始ラベルから徐々に遅
らせて行ったときに音韻性が変化する直前に付与する。
この位置は一般にバーストラベル以前にあり、破裂音で
は閉鎖区間の中、その他の音韻では閉鎖区間に相当する
区間内にある。閉鎖区間とは破裂音の発音の際に声道の
ある箇所が閉鎖し、声道内圧力を高めている間の波形で
ある。有声子音素片の発音は文の先頭、または休止の直
後では開始ラベルから行い、それ以外(文の途中など、
直前が無音や休止でない場合)では音韻性開始ラベルか
ら行うように制御する。このようにして、文中で閉鎖区
間などが短縮する現象を再現し、文頭と文中の子音素片
を共通にすることを可能にする。
【0040】利得情報は個々の子音素片が持つ音量の違
いを吸収し、合成時に適切な音量で発音させるための値
である。
【0041】ピーク値情報はピークラベルを付与された
ピーク波形の振幅を示し、子音素片の振幅包絡と有声音
生成部14の出力波形の振幅包絡をなめらかに接続する
ために用いる。
【0042】有声音源部15は声帯音源波形を発生す
る。この波形は実音声から逆フィルタ法で抽出されたも
のである。逆フィルタ法とは実音声波形に含まれる声道
の影響すなわちホルマントを、声道の逆特性を持ったフ
ィルタ(逆フィルタ)で除去することによって声帯音源
波形を抽出する方法である。こうして得られる波形は微
分声門体積流波形と呼ばれ、声道に加わる音響振動波形
を微分した波形に相当する。従って、この波形は急速に
声帯が閉じた瞬間に上向きの鋭いパルスを発生する。こ
の波形の上向きの鋭いパルスは急速に声帯が閉じること
により発生したものである。
【0043】次に、上記実施例の音声合成装置の動作に
ついて、図面を参照しながら説明する。
【0044】まず、合成したい音声が母音の場合、有声
音源部15はピッチ周期に対応した声帯音源波形を生成
する。自然な音声では母音開始部分でパワーがなだらか
に立ち上がるので、有声音源部15は出力の振幅を適当
な時定数で立ち上げるように制御する。この音源波形に
直列型ホルマント合成部16がホルマントを付加するこ
とにより母音となって出力される。
【0045】次に、合成したい音声が子音の場合につい
て説明する。子音の合成には子音波形生成部17の出力
とと有声音生成部14の出力を合わせて用いる。まず、
子音素片の発音タイミングを決定する。音声合成装置に
は刻々と変化する合成パラメータが伝送されてくるが、
この中には音素セグメントの切り替わりに関する情報が
含まれている。たとえば、「ka」という音節の場合は
「/k/」のセグメントと「/a/」のセグメントに分
かれる。それらのセグメントの切り替わりをパラメータ
列から取り出し、そこにバーストラベルが一致するよう
に子音波形生成部17があらかじめ子音素片の発音を開
始する。このようにすることで子音の自然な発音タイミ
ングが生成される。また、子音波形生成部17は利得情
報を用いて子音素片の出力レベルを制御する。
【0046】バーストラベルが発音された後、制御部2
1は終了ラベルが訪れるまでの間に、有声音生成部14
の発音を開始する。このときに、ピークラベルと有声音
源部15の出力のピークが一致するように有声音源部1
5の発音開始タイミングを制御する。前述したように有
声音源部15の声帯閉鎖に伴う上向きの鋭いパルスは直
列型ホルマント合成部16の出力波形上に上向きのピー
クを発生させるので、結果的にピークラベルと直列型ホ
ルマント合成部16の出力波形のピークは一致する。
【0047】終了ラベルの1ピッチ周期手前に来た時点
で有声音生成部14と子音波形生成部17の出力の重ね
合わせを開始する。すなわち、子音波形生成部17の出
力を余弦特性で終了ラベルまでの区間で減衰させるとと
もに、有声音生成部14の出力をその逆の特性で立ち上
げる。この操作により、波形上の不連続は除去される
が、ピークマークによる子音波形生成部17と有声音生
成部14の同期が行われているので、ピッチ周期の変動
がない極めてスムーズな波形接続が実現される。
【0048】また、同時に有声音源部15の出力振幅立
ち上げの時定数を制御することで、有声音生成部14と
子音波形生成部17の出力の振幅包絡をなめらかに接続
する。この制御にはピーク値情報を用いる。すなわち、
ピークラベル時点での有声音生成部14の振幅が、ピー
ク値情報の表す値になるように時定数を決定すれば良
い。なお、ピーク値は子音素片のピークラベル時点での
値を読みだすことでも得られるので、子音波形ラベル記
憶部18に記憶しておかなくても構わない。
【0049】次に、波形接続の様子を図9に示す。図9
は上から有声音源部15の出力波形、有声音生成部14
(直列型ホルマント合成部16)の出力波形、子音波形
生成部17の出力波形、出力部20の出力波形(合成波
形)を表している。図9において4つの波形全てに渡っ
て記されている破線は子音素片のピークラベルを表して
いる。有声音源部15のピークが子音素片のピークラベ
ルと同期する事によって、有声音生成部14の出力が子
音素片と適正なタイミングで接続されていることがわか
る。
【0050】同様の波形接続手法は有声音源部15の出
力波形の後に子音素片を接続する際にも用いることがで
きる。子音素片が有声子音の場合は子音素片開始直後の
波形上のピークなどにピークラベルを付与しておき、こ
のピークラベルを先行する有声音源部15の出力波形の
ピークに同期させるように制御することでスムーズな接
続ができる。
【0051】以上のように、接続点での波形不連続及び
ピッチ変動を防ぐために、子音素片にあらかじめラベル
を付与し、これを手がかりとして有声音生成部14と子
音波形生成部17の出力の同期をはかるものである。ま
た、無声化のために専用の子音素片を用意する必要をな
くするために、無声化していない通常の子音素片にラベ
ルを付与し、合成時にラベルを利用して無声化を再現す
るものである。そして、音韻性開始ラベルの利用により
文頭と文中で共通の子音素片を用いて合成することを可
能とするものである。
【0052】その結果、有声音生成部14の出力と子音
波形生成部17の出力がなめらか、かつ適正なタイミン
グで接続され、雑音やピッチの不連続のない高品質な音
声を合成することができる。また、無声化や文頭、文中
のための専用の波形素片を用意する必要がなく、共通の
子音素片を用いることができ、記憶容量及び録音作業の
時間を縮小することができる。
【0053】なお、上記実施例では、波形素片として子
音素片を用いる場合について説明したが、用いる波形素
片はそれ以外の音韻のものでも勿論構わない。
【0054】また、上記実施例では、制御部21は、波
形上のピーク位置を一致させるのに有声音源部15の発
音開始タイミングを制御するようにしたが、これに限ら
ず、有声音源部15の出力波形及び子音波形生成部17
の発音時期のいずれか一方、またはその両方を制御する
ようにしても良い。
【0055】また、上記実施例では、各処理部を専用の
ハードウェアにより構成したが、これに代えて、同様の
機能をコンピュータを用いてソフトウェア的に実現して
も勿論良い。
【0056】以上これまで、無声子音、有声摩擦音、有
声破裂音などの合成のための構成法について説明した
が、鼻音のように特徴パラメータが相当長い時間長にお
よぶ音韻については、上記の子音素片の構成では十分な
音質が得られない。前述したように、ピッチを考慮せず
に接続を行うためには素片の長さは十分に短くなければ
ならない。しかし、そのような短い素片の中に鼻音のよ
うな長時間におよぶ特徴パラメータの変化を含めること
は不可能である。また、鼻音以外にも後続母音部分にま
で特徴パラメータが長く存在する音韻は多く、それらに
ついては調音結合を考慮せずにすむ範囲で素片長を長く
することにより音質の向上が期待できる。
【0057】素片長を長くしたとき、素片と直列型ホル
マント合成波形との接続は母音の中心付近で行われる。
母音の中心付近はスペクトル変化が少ない比較的定常な
部位なので、接続による急速なスペクトル変化が音質に
与える影響は大きい。この問題を解決するためには接続
点での重ね合わせ処理をより長い区間で行うことが効果
的である。
【0058】しかし、重ね合わせ区間において素片のピ
ッチと合成ピッチが異なる場合、両波形が干渉し、エコ
ーや雑音を発生する。また、長い素片自身がピッチ性を
強く持つために接続前後のピッチ不連続が大きく音質を
損ねる。
【0059】そこで、合成ピッチに合わせた各種のピッ
チを持つ子音素片を用意しておくことが考えられるが、
十分に精度の高いピッチ整合を行うためには極めて多く
の種類の素片を用意しなくてはならない。また、合成ピ
ッチはイントネーションパターンによって変化してお
り、子音素片の継続時間内にも大きく変化が起こる。こ
のように多様なピッチ変化に対応した子音素片を用意す
ることは実質的に不可能である。
【0060】そこで、用意した子音素片にピッチ変更操
作を加えることが不可欠になる。ピッチ変更法として簡
単なものには線形伸縮法がある。この方法は記憶された
波形を読み出す際に通常は1サンプルずつを順番に読み
出すところを、1以外の間隔で読み出すことによって時
間軸に沿って伸縮した波形を得る方法である。非整数の
間隔によって記憶波形の読み出し番地が実際には存在し
ない非整数の番地になるので、前後の値から直線を用い
て内挿する。
【0061】しかし、重ね合わせ区間内でピッチが整合
しても、位相の同期を正確に行うことは困難である。そ
れは、線形伸縮法があくまで原ピッチを元に一定の割合
でピッチ変更を行う方法のため、極めて正確な原ピッチ
およびその揺らぎに関する情報を持っていなければなら
ないからである。このため、上記の実施例による波形同
期方法では長期に渡る位相同期は不可能といえる。ま
た、線形伸縮によるピッチ変更操作はスペクトル形状の
変化を伴うため、音質劣化、音韻性の低下、接続による
スペクトル不連続の発生などの問題を引き起こす。この
ため、原ピッチに比べて極めて小さい範囲でしかピッチ
変更ができない。
【0062】そこで、次の実施例では上記の問題を解決
するためにピッチ同期重畳法を用い、ピッチ同期信号を
用いて常に波形の位相同期をはかる方法をとる。
【0063】図10は本発明にかかる第4の実施例の音
声合成装置の構成図である。その音声合成装置にはピッ
チ制御部1が設けられ、その出力はピッチ同期信号生成
部24、波形読み出し部26a、26b、26c、26
d、窓掛け部28a、28b、28c、28dに接続さ
れている。ピッチ同期信号生成部24の出力はピッチ同
期信号分配部24aおよび遅延部37に接続されてい
る。ピッチ同期信号分配部25aの第1の出力は波形読
み出し部26aに、第2の出力は波形読み出し部26b
にそれぞれ入力されている。遅延部37の出力はピッチ
同期信号分配部25bに入力され、その第1の出力は波
形読み出し部26cに、第2の出力は波形読み出し部2
6dにそれぞれ入力されている。
【0064】波形読み出し部26a、26bには有声音
源波形記憶部27とオフセット制御部41の出力が接続
されている。オフセット制御部41の入力には有声音源
ピーク位置記憶部29の出力が接続されている。波形読
み出し部26aの出力は窓掛け部28aに、波形読み出
し部26bの出力は窓掛け部28bにそれぞれ入力され
ている。窓掛け部28aの出力は混合部31aに接続さ
れている。窓掛け部28bの出力は利得制御部30を介
して混合部31aに接続されている。混合部31aの出
力は利得制御部40aを介して直列型ホルマント合成部
32に入力されている。
【0065】波形読み出し部26c、26dには子音波
形記憶部33、子音波形ピーク位置記憶部34、および
子音波形ラベル記憶部42の出力が接続され、波形読み
出し部26cの出力は窓掛け部28cに、波形読み出し
部26dの出力は窓掛け部28dにそれぞれ入力されて
いる。窓掛け部28cおよび窓掛け部28dの出力はと
もに混合部31bに入力されている。混合部31bの出
力は利得制御部40bに接続されている。
【0066】直列型ホルマント合成部32および利得制
御部40bの出力は合成部35に接続され、その出力は
出力部36に接続されている。
【0067】続いて、以上のように構成された音声合成
装置の動作について説明する。
【0068】ピッチ制御部23がイントネーションパタ
ーンに従って生成したF0パラメータはピッチ同期信号生
成部24、波形読み出し部26a、26b、26c、2
6d、窓掛け部28a、28b、28c、28dに伝達
される。ピッチ同期信号生成部24はF0パラメータに従
った周期のピッチ同期信号を生成し、ピッチ同期信号分
配部25aおよび遅延部37に出力する。
【0069】それではまずピッチ同期重畳法を用いた有
声音源の生成方法について説明する。
【0070】ピッチ同期信号分配部25aは入力された
ピッチ同期信号を2つの波形読み出し部26a、26b
に交互に出力する。
【0071】波形読み出し部26aはピッチ同期信号を
受け取ったとき、オフセット制御部41を通じて有声音
源ピーク位置記憶部29から最初のピーク位置を読み取
る。オフセット制御部41は有声音源ピーク位置記憶部
29の出力にオフセットNoffを加算して出力する。Noff
については後述する。波形読み出し部26aはこうして
得られたオフセット付きピーク位置を元に有声音源波形
記憶部27に記憶された有声音源波形の読み出しを開始
する。読み出し開始位置N0は(数1)で与えられる。
【0072】
【数1】 N0 = P0 - Noff - Tsyn ここで、P0は有声音源ピーク位置記憶部29に記憶され
た0番目のピーク位置、TsynはF0パラメータに基づいた
合成ピッチ周期である。
【0073】波形読み出し部26aの出力は窓掛け部2
8aに入力され、Hanning窓によって窓掛けが行われ
る。Hanning窓の長さTwinは合成ピッチ周期Tsynと有声
音源波形の原ピッチ周期Torgのどちらか小さい方の2倍
である。これは、TwinがTorgの2倍を越えると両隣のピ
ークがHanning窓の中に入ることによる音質劣化を防ぐ
ためである。このようにしてピッチ波形が生成される。
【0074】この動作よりも1ピッチ周期遅れて波形読
み出し部26bにピッチ同期信号が伝達される。波形読
み出し部26bは先ほどと同様に波形を読み出し、窓掛
け部28bによって窓掛けが行われる。この時の波形読
み出し開始位置は(数2)で与えられる。
【0075】
【数2】 N1 = P1 - Noff - Tsyn ここで、P1は有声音源ピーク位置記憶部29に記憶され
た1番目のピーク位置である。
【0076】窓掛け部28bの出力は利得制御部30に
おいて0〜1の範囲で利得制御を受ける。この目的は語
頭や語尾などで発生する不安定な声帯振動を模擬するた
めである。すなわち、語頭、語尾においては声帯が1ピ
ッチ周期ごとに大小の振動を繰り返す場合があり、その
結果倍ピッチ周期成分が生まれる。利得制御部30にお
いて利得を0.5などにすることにより、倍ピッチ周期成
分を発生させることが可能である。
【0077】以上のようにして交互に生成されたピッチ
波形を混合部31aにおいて重ね合わせることにより、
所望のピッチ周期を持った有声音源波形が生成される。
また、個々のピッチ波形は時間軸に対して伸縮されてい
ないのでスペクトル形状の変化は起きない。
【0078】このようにして生成された有声音源波形は
利得制御部40aにおいて振幅の制御を受けた後、従来
通りの直列型ホルマント合成部32によって調音を受け
て母音成分となる。
【0079】続いて前述のNoffについて説明する。有声
音源波形のピッチ変更を行うと以下のような理由でスペ
クトル歪を生じる場合がある。逆フィルタ法により抽出
された声門体積流波形は図11のような構造を持ってい
る。この中で声門開放部波形は低域のエネルギーを持っ
ており、声門閉鎖部波形は高域のエネルギーを持ってい
る。
【0080】図12はNoff=0のもとでピッチ周波数を原
ピッチ周波数よりも低く変更した場合の図である。声門
閉鎖部はHanning窓の端に近い部分に位置するため、両
隣のHanning窓が重なり合っている区間が短くなると減
衰する。このために生成された有声音源波形は低域のエ
ネルギー成分が低下する。
【0081】このことを防ぐために図13のように声門
閉鎖部をHanning窓の中心からNoffサンプルずらし、声
門開放部がHanning窓の中心に近付くようにする。ただ
し、Noffを大きくし過ぎるとピッチを上げたときに声門
閉鎖部のパルス状波形が減衰し、高域のエネルギーが低
下する。これは、ピッチ周波数を原ピッチ周波数よりも
高く変更したときにHanning窓長が短くなることによ
り、Hanning窓の端に近付いた声門閉鎖パルスが減衰す
るためである。このような理由からNoffは例えば0.1To
程度を用いる。
【0082】子音の生成過程では有声音源と同様に波形
の読み出しおよび窓掛けが行われるが、その入力である
ピッチ同期信号は遅延部37によってNoffサンプルの遅
延を受ける。これにより子音波形のピーク位置と有声音
源波形のピーク位置の同期が行われる。また、第3の実
施例と同様に子音波形ラベル記憶部42に従って発音タ
イミングの制御が行われる。
【0083】このように互いの同期をとって生成された
母音成分波形と子音成分波形は合成部35においてなめ
らかに重ね合わせが行われ、出力部36で音声に変換さ
れて出力される。その結果、子音部分に波形素片を用い
た波形不連続、ピッチ不連続、位相不連続のない極めて
高品質な合成音が得られる。
【0084】本実施例では有声音源部に単一の有声音源
波形を用いたが、簡単な拡張により複数の音源波形を用
いたさらに高品質な合成音を得ることも可能である。例
えば、高調波成分が多い音源と少ない音源を場合によっ
て混合することや、5母音に対して専用の音源を用意し
ておいて切り替えながら合成することなどが考えられ
る。
【0085】図14は本発明にかかる第5の実施例の音
声合成装置の構成図である。その音声合成装置は第4の
実施例における有声音源部38が5系統設けられた構成
である。すなわち、ピッチ制御部1が設けられ、その出
力はピッチ同期信号生成部24、有声音源部38a、3
8b、38c、38d、38eに入力されている。ピッ
チ同期信号生成部24の出力はピッチ同期信号分配部2
5aと遅延部37に入力されている。ピッチ同期信号分
配部25aの2つの出力はそれぞれが有声音源部38
a、38b、38c、38d、38eにそれぞれ2つず
つ設けられた入力に接続されている。有声音源部38
a、38b、38c、38d、38eの内部では第4の
実施例と同様に有声音源が生成され、それらの出力は混
合されて直列型ホルマント合成部32に入力される。
【0086】一方、遅延部37の出力はピッチ同期信号
分配部25bに接続されている。ピッチ同期信号分配部
25bの2つの出力は子音生成部39に接続されてい
る。子音生成部39の内部では第4の実施例と同様に子
音波形素片を用いて子音成分が生成される。
【0087】直列型ホルマント合成部32と子音生成部
39の出力は合成部35に入力され、合成部35の出力
は出力部36に入力されている。
【0088】5つの有声音源部38a〜38eには5母
音/a/〜/o/から逆フィルタ法で抽出した声門体積
流波形を格納しておく。逆フィルタ法によって抽出され
る音源波形は5母音によって微妙に異なっている。した
がって、5母音の合成を共通の音源波形から行うより
も、5母音それぞれから抽出した音源波形から行う方が
高品質の音声が合成できる。
【0089】そこで、母音や音節の区切りでこれらの音
源を切り替えることにより、それぞれの母音の音質を向
上することができる。切り替え時には利得制御部40a
によって互いの音源の利得をなめらかに上下させること
で雑音や異音を抑制することができる。各音源は正確に
ピーク同期されているので、このように重ね合わせや切
り替えをおこなっても極めて自然な音源波形を生成する
ことができる。
【0090】5母音の音源の原ピッチが互いに異なるこ
とや、それぞれのピッチが揺らぎを含んでいることによ
り、従来の線形伸縮を用いた有声音源部の構成による完
全な同期は極めて困難である。しかし、本発明の構成に
よれば各音源の原ピッチは異なっていてもよく、ピッチ
が揺らぎを含んでいても差し支えない。
【0091】なお、本実施例では有声音源部を5母音に
対して複数化したが、別の基準で複数化しても勿論構わ
ない。例えば、高調波の多い音源と高調波の少ない音源
による複数化や、ピッチ範囲による複数化、文中の位置
(文頭、文中、文末など)による複数化などである。
【0092】また、本実施例では全ての有声音源部、子
音部に共通のピッチ同期信号を用いて同期を行ったが、
F0パラメータをもとにそれぞれの部分でピッチ周期を算
出し、波形の読み出しを行ってもかまわない。この場合
には発音開始時に互いの同期をとればよい。
【0093】また、窓関数は合成ピッチ周期と原ピッチ
周期のいずれか小さい方の2倍の長さのHanning窓とし
たが、他の形状や長さの窓を用いても勿論構わない。
【0094】
【発明の効果】以上述べたところから明らかなように、
本発明によれば、母音性信号は直列型ホルマント合成方
式により柔軟で様々な音質やイントネーションを付与で
き、子音性信号は波形素片を用いた方式によりホルマン
ト合成方式では実現出来ない高品質な子音を提供できる
ので、それらを組み合わせた合成音は高品質で且つ色々
な声質に対応できる。また、従来の波形素片を用いた方
式に対して、本方式の場合、波形素片としての格納が持
続時間の短い子音に限るため小容量の記憶装置で実現が
可能である。
【0095】さらに、無声音源部と並列型ホルマント合
成部を設けることにより、子音の中でホルマント合成方
式で十分高品質が実現できるものに関しては、並列型ホ
ルマント合成部が利用でき、波形素片格納に必要な記憶
容量の一層の削減が可能になる。また、並列型ホルマン
ト合成部と波形素片を同時に用いることにより、波形素
片自体の特性を変化させることができ、電話帯域や、雑
音環境化などで明瞭度を確保する場合に有効である。
【0096】また、本発明は、波形素片の特徴量に基づ
き、音生成手段により生成された音声信号と波形素片記
憶手段から得られる波形素片信号とを合成させる制御手
段とを備えているので、音声波形の接続による雑音の発
生を抑制でき、波形素片を格納するための記憶容量、録
音作業が軽減できるという長所を有する。
【0097】さらに、本発明は、有声音源部と子音生成
部のピッチ制御にピッチ同期重畳法を用いることによ
り、有声音源波形と子音波形の完全な同期がとれ、波形
不連続、ピッチ不連続、位相不連続のない極めて高品質
な音声を合成することができる。また、ピッチ変更にと
もなうスペクトル形状の変化を回避することができる。
さらに、複数の異なる特徴を持った有声音源を目的に応
じて混合または切り替えて用いることが可能となり、様
々な局面に応じて適切な音源を用いた高品質な音声を合
成することができる。
【図面の簡単な説明】
【図1】本発明第1の実施例における音声合成装置のブ
ロック図である。
【図2】子音「/k/」の波形素片と母音「あ」の合成
信号が合わされて「か」になる様子。
【図3】本発明第2の実施例における並列型ホルマント
合成部を併せ持つ音声合成装置のブロック図である。
【図4】従来のホルマント型音声合成装置のブロック図
である。
【図5】従来の波形素片を用いた音声合成装置のブロッ
ク図である。
【図6】本発明第3の実施例における音声合成装置のブ
ロック図である。
【図7】同実施例における無声子音素片のラベル付けを
説明する図である。
【図8】同実施例における有声子音素片のラベル付けを
説明する図である。
【図9】同実施例における波形接続を説明する図であ
る。
【図10】本発明第4の実施例における音声合成装置の
ブロック図である。
【図11】声門体積流波形を説明する図である。
【図12】ピッチ同期重畳法でピッチ周波数を下げる操
作を説明する図である。
【図13】本発明のHanning窓と声門体積流波形の位置
関係を説明する図である。
【図14】本発明第5の実施例における音声合成装置の
ブロック図である。
【符号の説明】
1 有声音源部 2 直列型ホルマント合成部 3 子音波形記憶部 4 子音波形読み出し部 5 合成部 6 無声音源部 7 並列型ホルマント合成部 8 ホルマント合成器制御用係数生成部 9 ホルマント合成器制御規則格納部 10 ホルマント合成器 11 音声素片選択部 12 音声素片データベース格納部 13 素片接続合成部 14 有声音生成部 15 有声音源部 16 直列型ホルマント合成部 17 子音波形生成部 18 子音波形ラベル記憶部 19 子音波形記憶部 20 出力部 21 制御部 22 合成部 23 ピッチ制御部 24 ピッチ同期信号生成部 25 ピッチ同期信号分配部 26 波形読み出し部 27 有声音源波形記憶部 28 窓掛け部 29 有声音源ピーク位置記憶部 30 利得制御部 31 混合部 32 直列型ホルマント合成部 33 子音波形記憶部 34 子音波形ピーク位置記憶部 35 合成部 36 出力部 37 遅延部 38 有声音源部 39 子音生成部 40 利得制御部 41 オフセット制御部 42 子音波形ラベル記憶部
フロントページの続き (56)参考文献 特開 昭59−72494(JP,A) 特開 平4−263299(JP,A) 特開 昭60−225198(JP,A) 特開 平7−72898(JP,A) 特公 平3−15759(JP,B2) 特公 平4−80399(JP,B2) 特公 昭45−35323(JP,B1) 古井「ディジタル音声処理」(1985− 9−25)東海大学出版会 p.138−141 (58)調査した分野(Int.Cl.7,DB名) G10L 11/00 - 13/08 G10L 19/00 - 21/06 JICSTファイル(JOIS)

Claims (24)

    (57)【特許請求の範囲】
  1. 【請求項1】 有声音源信号を出力する有声音源部と、 前記有声音源部からの有声音源信号を入力とし、複数の
    直列に接続されたホルマント共振器を有し、母音など所
    定の音を合成する直列型ホルマント合成部と、無声および有声の 複数の子音など所定の音の波形を記憶
    する波形記憶部と、 前記波形記憶部の中から必要な波形を読み出す波形読み
    出し部と、 前記直列型ホルマント合成部からの出力と前記波形読み
    出し部が読み出す波形とを接続して合成音声として出力
    する波形結合部と、 を具備する音声合成装置であって、 前記波形結合部は接続時に前記直列型ホルマント合成部
    からの出力波形と前記波形読み出し部が読み出す波形を
    有声音部での波形上のピークの位置を一致させるように
    して重ね合わせを行い、徐々に混合比率を変化させるこ
    とで滑らかに両者の波形を接続することを特徴とする音
    声合成装置。
  2. 【請求項2】 有声音源信号を出力する有声音源部と、 前記有声音源部からの有声音源信号を入力とし、複数の
    直列に接続されたホルマント共振器を有し、母音など所
    定の音を合成する直列型ホルマント合成部と、無声および有声の 複数の子音など所定の音の波形を記憶
    する波形記憶部と、 前記波形記憶部の中から必要な波形を読み出す波形読み
    出し部と、 白色雑音などの無声音を生成する無声音源部と、 前記無声音源部からの音源信号を入力とし、複数の並列
    に接続された共振器を有し、破裂音や摩擦音などの所定
    の音を合成する並列型ホルマント合成部と、 前記直列型ホルマント合成部の出力と、前記並列型合成
    部の出力と、前記子音波形読み出し部が読み出す波形と
    接続して合成音声として出力する波形結合部とを具備
    する音声合成装置であって、 前記波形結合部は前記直列型ホルマント合成部からの出
    力波形と前記波形読み出し部が読み出す波形を接続する
    再に有声音部での波形上のピークの位置を一致させるよ
    うにして重ね合わせを行い、徐々に混合比率を変化させ
    ることで滑らかに両者の波形を接続することを特徴とす
    る音声合成装置。
  3. 【請求項3】有声音源信号を出力する有声音源部と、 音声信号を生成する音生成手段と、 音声から切り出された波形素片を記憶する波形素片記憶
    手段と、 その記憶された波形素片についての所定の特徴量を記憶
    する波形素片特徴量記憶手段と、 その記憶された波形素片の特徴量に基づき、前記音生成
    手段により生成された音声信号と前記波形素片記憶手段
    から得られる波形素片信号とを合成させる制御手段とを
    備えた音声合成装置であって、 前記特徴パラメータは前記波形素片の子音に後続する母
    音開始部付近の波形上のピーク位置であり、 前記有声音源部は前記ピーク位置と同じ位置にピークが
    発生するようなタイミングで有声音源波形を生成し、 前記音生成手段は前記有声音源信号を入力として母音音
    声波形を合成し、 前記制御手段は前記ピーク位置付近で前記母音音声波形
    と前記波形素片を重ね合わせることによって両者を接続
    することを特徴とする音声合成装置。
  4. 【請求項4】所定の特徴量は、波形素片の利得値であっ
    て、前記波形素片信号の振幅は、その利得値により制御
    されることを特徴とする請求項3記載の音声合成装置。
  5. 【請求項5】波形素片特徴量記憶手段は、前記波形素片
    上の所望の特徴を有する波形の存在時期を記憶するもの
    であることを特徴とする請求項3、または請求項4記載
    の音声合成装置。
  6. 【請求項6】所望の特徴は、前記波形素片の波形上のい
    ずれかのピーク位置、またはピーク値であることを特徴
    とする請求項5記載の音声合成装置。
  7. 【請求項7】音生成手段は有声音源を生成する有声音源
    生成部を有し、前記制御手段は、前記波形素片の波形上
    のピーク位置に、前記音生成手段の出力波形のピーク位
    置が一致するように、前記有声音源生成部の出力波形の
    位相、または前記波形素片の発音(出力)時期のいずれ
    か一方または両方を制御することを特徴とする請求項6
    記載の音声合成装置。
  8. 【請求項8】波形素片の波形上の前記ピーク位置に、前
    記有声音源生成部の出力波形のピークを一致させるよう
    に、前記有声音源生成部の駆動を開始することを特徴と
    する請求項7記載の音声合成装置。
  9. 【請求項9】音生成手段の出力の振幅包絡が前記ピーク
    位置でピークの振幅値になるように、前記有声音源生成
    部の振幅を制御することを特徴とする請求項7または請
    求項8記載の音声合成装置。
  10. 【請求項10】波形素片は子音の開始部から後続母音の
    所定の数ピッチ周期分までを切り出して作られているこ
    とを特徴とする請求項3または請求項4または請求項5
    または請求項6または請求項7または請求項8または請
    求項9記載の音声合成装置。
  11. 【請求項11】所望の特徴は、子音素片が破裂音のとき
    は、破裂事象、摩擦音のときは、摩擦事象など、それぞ
    れの子音の調音の時期であることを特徴とする請求項5
    記載の音声合成装置。
  12. 【請求項12】調音の時期を基準として、あらかじめ子
    音素片の発音を開始することを特徴とする請求項11記
    載の音声合成装置。
  13. 【請求項13】子音素片が無声子音である場合、所望の
    特徴は、前記無声子音の声帯振動開始事象の存在時期で
    あることを特徴とする請求項5記載の音声合成装置。
  14. 【請求項14】無声化した子音を合成する際に、前記声
    帯振動開始事象の位置を用いて子音素片の発音を停止す
    ることを特徴とする請求項11記載の音声合成装置。
  15. 【請求項15】子音素片が有声子音である場合、所望の
    特徴は、その位置以前の波形を除去しても音韻の特徴に
    変化をきたさない位置である音韻性開始事象の存在位置
    であることを特徴とする請求項5記載の音声合成装置。
  16. 【請求項16】発音すべき対象の子音の直前が無音また
    は休止でない場合、前記音韻性開始事象の存在時期から
    発音を開始することを特徴とする請求項15記載の音声
    合成装置。
  17. 【請求項17】有声音を生成する有声音源波形生成手段
    と直列型ホルマント合成部と子音を生成する子音波形生
    成手段と波形を接続する波形接続手段とピッチ同期信号
    生成手段を具備し、前記ピッチ同期信号生成手段は所望
    のピッチ周期に対応したピッチ同期信号を出力し、前記
    有声音源波形生成手段と前記子音波形生成手段はともに
    前記ピッチ同期信号に同期した位相の波形を生成し、前
    記直列型ホルマント合成部は前記有声音源波形生成手段
    の出力波形に声道特性を模擬した伝達関数にて周波数特
    性の変更を行い、前記波形接続手段は前記直列型ホルマ
    ント合成部の出力波形と前記子音波形生成手段の出力波
    形を接続または混合することにより音声波形を生成する
    ことを特徴とする音声合成装置。
  18. 【請求項18】ピッチ同期信号分配手段を具備し、 前記有声音源波形生成手段は有声音源波形記憶手段と前
    記有声音源波形記憶手段に記憶された有声音源波形上の
    ピーク位置を記憶する有声音源ピーク位置記憶手段と第
    1のピッチ波形切り出し手段と第2のピッチ波形切り出
    し手段と混合部を具備し、 前記ピッチ同期信号分配手段はピッチ同期信号を交互に
    2つに分配した分配ピッチ同期信号をおのおの前記第1
    のピッチ波形切り出し手段および前記第2のピッチ波形
    切り出し手段に出力し、 前記第1のピッチ波形切り出し手段および前記第2のピ
    ッチ波形切り出し手段は前記有声音源波形記憶手段から
    前記有声音源ピーク位置記憶手段に記憶されたピーク位
    置を中心に、窓長が所望のピッチ周期の2倍程度で両端
    が零近傍に集束する窓関数にて切り出したピッチ波形
    を、前記分配ピッチ同期信号を受信した直後から前記混
    合部に出力し、 前記混合部は前記第1のピッチ波形切り出し手段および
    前記第2のピッチ波形切り出し手段の出力を混合する、 ことを特徴とする請求項17記載の音声合成装置。
  19. 【請求項19】有声音源生成手段は利得制御手段を具備
    し、前記混合手段に入力される2つの波形のいずれか一
    方の利得を制御することを特徴とする請求項18記載の
    音声合成装置。
  20. 【請求項20】ピッチ同期信号分配手段を具備し、 前記子音波形生成手段は複数の子音波形記憶手段と前記
    複数の子音波形記憶手段に対応する複数の子音波形ピー
    ク位置記憶手段と第1のピッチ波形切り出し手段と第2
    のピッチ波形切り出し手段と混合手段を具備し、 前記ピッチ同期信号分配手段はピッチ同期信号を交互に
    2つに分配した分配ピッチ同期信号をおのおの前記第1
    のピッチ波形切り出し手段および前記第2のピッチ波形
    切り出し手段に出力し、 前記第1のピッチ波形切り出し手段および前記第2のピ
    ッチ波形切り出し手段は前記子音波形記憶手段から所望
    の子音に対応する子音波形を、前記子音波形ピーク位置
    記憶手段に記憶された前記所望の子音に対応するピーク
    位置を中心に、窓長が所望のピッチ周期の2倍程度で両
    短が零近傍に集束する窓関数にて切り出したピッチ波形
    を、前記分配ピッチ同期信号を受信した直後から前記混
    合部に出力し、 前記混合部は前記第1の窓掛け部および前記第2の窓掛
    け部の出力を混合する、 ことを特徴とする請求項17記載の音声合成装置。
  21. 【請求項21】ピッチ同期信号分配手段を具備し、 前記子音波形生成手段は複数の子音波形記憶手段と前記
    複数の子音波形記憶手段に対応する複数の子音波形ピー
    ク位置記憶手段と第1のピッチ波形切り出し手段と第2
    のピッチ波形切り出し手段と混合手段を具備し、 前記ピッチ同期信号分配手段はピッチ同期信号を交互に
    2つに分配した分配ピッチ同期信号をおのおの前記第1
    のピッチ波形切り出し手段および前記第2のピッチ波形
    切り出し手段に出力し、 前記第1のピッチ波形切り出し手段および前記第2のピ
    ッチ波形切り出し手段は前記子音波形記憶手段から所望
    の子音に対応する子音波形を、前記子音波形ピーク位置
    記憶手段に記憶された前記所望の子音に対応するピーク
    位置を中心に、窓長が所望のピッチ周期の2倍程度で両
    短が零近傍に集束する窓関数にて切り出したピッチ波形
    を、前記分配ピッチ同期信号を受信した直後から前記混
    合部に出力し、 前記混合部は前記第1の窓掛け部および前記第2の窓掛
    け部の出力を混合する、 ことを特徴とする請求項18記載の音声合成装置。
  22. 【請求項22】ピッチ同期信号遅延手段を有し、 前記有声音源波形生成手段はオフセット制御手段を具備
    し、 前記オフセット制御手段はピッチ波形切り出し手段の読
    み出し開始位置をオフセット値分早めることによって窓
    関数の中心に対する有声音源波形の位相を遅らせ、 前記ピッチ同期信号遅延手段はピッチ同期信号を前記オ
    フセット値分遅延させ、前記子音波形生成手段の出力を
    前記オフセット分遅延させることによって前記有声音源
    波形の遅れを補償することを特徴とする請求項21記載
    の音声合成装置。
  23. 【請求項23】複数の有声音源生成手段を有し、前記有
    声音源生成手段は全て共通のピッチ同期信号または分配
    ピッチ同期信号を用いて同期を行うことを特徴とする請
    求項18、請求項19または請求項21記載の音声合成
    装置。
  24. 【請求項24】複数の有声音源生成手段を有し、前記有
    声音源生成手段は全て共通のピッチ同期信号または分配
    ピッチ信号およびオフセット値を用いて同期を行う請求
    項22記載の音声合成装置。
JP06050890A 1993-03-24 1994-03-22 音声合成装置 Expired - Fee Related JP3089940B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP06050890A JP3089940B2 (ja) 1993-03-24 1994-03-22 音声合成装置

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP6495293 1993-03-24
JP5-64952 1993-10-04
JP5-248230 1993-10-04
JP24823093 1993-10-04
JP06050890A JP3089940B2 (ja) 1993-03-24 1994-03-22 音声合成装置

Publications (2)

Publication Number Publication Date
JPH07152396A JPH07152396A (ja) 1995-06-16
JP3089940B2 true JP3089940B2 (ja) 2000-09-18

Family

ID=27294117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP06050890A Expired - Fee Related JP3089940B2 (ja) 1993-03-24 1994-03-22 音声合成装置

Country Status (1)

Country Link
JP (1) JP3089940B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3912913B2 (ja) 1998-08-31 2007-05-09 キヤノン株式会社 音声合成方法及び装置
JP4722443B2 (ja) * 2004-09-30 2011-07-13 株式会社河合楽器製作所 電子メトロノーム
US7953600B2 (en) 2007-04-24 2011-05-31 Novaspeech Llc System and method for hybrid speech synthesis

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
古井「ディジタル音声処理」(1985−9−25)東海大学出版会 p.138−141

Also Published As

Publication number Publication date
JPH07152396A (ja) 1995-06-16

Similar Documents

Publication Publication Date Title
EP2140447B1 (en) System and method for hybrid speech synthesis
US8195464B2 (en) Speech processing apparatus and program
JPS62160495A (ja) 音声合成装置
JP2000172285A (ja) フィルタパラメ―タとソ―ス領域において独立にクロスフェ―ドを行う半音節結合型のフォルマントベ―スのスピ―チシンセサイザ
JPH06110498A (ja) 音声合成システムの音声断片コーディングおよびそのピッチ調節方法とその有声音合成装置
JPH08110789A (ja) 波形の連結及び部分的重複化による音声合成方法
JP3732793B2 (ja) 音声合成方法、音声合成装置及び記録媒体
JP3450237B2 (ja) 音声合成装置および方法
JP2761552B2 (ja) 音声合成方法
JP3089940B2 (ja) 音声合成装置
JPH0247700A (ja) 音声合成方法および装置
JP5175422B2 (ja) 音声合成における時間幅を制御する方法
JP2002525663A (ja) ディジタル音声処理装置及び方法
JP4747434B2 (ja) 音声合成方法、音声合成装置、半導体装置及び音声合成プログラム
JP2008058379A (ja) 音声合成システム及びフィルタ装置
JPH0642158B2 (ja) 音声合成装置
JPH09510554A (ja) 言語合成
Verhelst et al. Rejection phenomena in inter-signal voice transplantations
JPH0836397A (ja) 音声合成装置
JP2002244693A (ja) 音声合成装置および音声合成方法
JP2577372B2 (ja) 音声合成装置および方法
JP2987089B2 (ja) 音声素片作成方法および音声合成方法とその装置
Bonada et al. Improvements to a sample-concatenation based singing voice synthesizer
JPH0572599B2 (ja)
JPH056191A (ja) 音声合成装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees