JPH0632020B2 - 音声合成方法および装置 - Google Patents
音声合成方法および装置Info
- Publication number
- JPH0632020B2 JPH0632020B2 JP61065029A JP6502986A JPH0632020B2 JP H0632020 B2 JPH0632020 B2 JP H0632020B2 JP 61065029 A JP61065029 A JP 61065029A JP 6502986 A JP6502986 A JP 6502986A JP H0632020 B2 JPH0632020 B2 JP H0632020B2
- Authority
- JP
- Japan
- Prior art keywords
- frame
- synthesis
- speech
- parameter
- frames
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000001308 synthesis method Methods 0.000 title claims description 8
- 230000015572 biosynthetic process Effects 0.000 claims description 52
- 238000003786 synthesis reaction Methods 0.000 claims description 52
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000000034 method Methods 0.000 description 15
- 238000012545 processing Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 239000002131 composite material Substances 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 240000000220 Panda oleosa Species 0.000 description 2
- 235000016496 Panda oleosa Nutrition 0.000 description 2
- 230000008602 contraction Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000009751 slip forming Methods 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
【発明の詳細な説明】 A.産業上の利用分野 この発明は音声合成に関し、とくに高品質の音韻特性を
維持しつつ簡易に音声の継続時間を可変しうるようにし
たものである。
維持しつつ簡易に音声の継続時間を可変しうるようにし
たものである。
B.従来の技術 自然音声では種々の要因からその発声速度すなわち継続
時間が変化する。たとえば、発話のテンポに応じて発話
文全体の継続時間が伸縮する。また構文や意味内容等の
言語的制約に応じて所定の句や単語が局所的に伸縮す
る。また1つの呼気段落内の発話音節数に応じて音節の
長さが伸縮する。したがつて高品質すなわち自然音声に
近い合成音声を得るには音声の継続時間を制御すること
が必要となる。
時間が変化する。たとえば、発話のテンポに応じて発話
文全体の継続時間が伸縮する。また構文や意味内容等の
言語的制約に応じて所定の句や単語が局所的に伸縮す
る。また1つの呼気段落内の発話音節数に応じて音節の
長さが伸縮する。したがつて高品質すなわち自然音声に
近い合成音声を得るには音声の継続時間を制御すること
が必要となる。
ところで音声の継続時間を制御するために従来2つの手
法が提案されている。その1つはある区間の合成パラメ
ータを除去したり、繰り返したりするものであり、他の
1つは合成フレーム周期を可変にする(分析フレーム周
期は固定)ものである。これらについてはたとえば特開
昭50−62709号公報に記載がある。しかしなが
ら、合成パラメータの除去および繰り返しを行う手法で
は、このような除去、繰り返しに適した部分、たとえば
母音定常部を予め視察により求めて、可変部分として設
定しておく必要があり、作業が煩雑である。さらに、継
続時間が変化すると、調音器官の動的な特徴が変化する
ため、音韻特性も変化する。たとえば母音のホルマント
は継続時間が短かくなるにつれて一般に中性化する。こ
の従来の手法ではこのような変化を合成音声に反映させ
ることができない。他方合成フレーム周期を可変させる
手法では、簡易に継続時間長を変化させることができる
けれど、どの部分も一率に長くなつたり、短かくなつた
りしてしまう。通常の音声は伸縮の激しい部分と少ない
部分とからなるので、このような手法によると非常に不
自然な合成音になる。この手法では上述の音韻特性の変
化を反映できないことはもちろんである。
法が提案されている。その1つはある区間の合成パラメ
ータを除去したり、繰り返したりするものであり、他の
1つは合成フレーム周期を可変にする(分析フレーム周
期は固定)ものである。これらについてはたとえば特開
昭50−62709号公報に記載がある。しかしなが
ら、合成パラメータの除去および繰り返しを行う手法で
は、このような除去、繰り返しに適した部分、たとえば
母音定常部を予め視察により求めて、可変部分として設
定しておく必要があり、作業が煩雑である。さらに、継
続時間が変化すると、調音器官の動的な特徴が変化する
ため、音韻特性も変化する。たとえば母音のホルマント
は継続時間が短かくなるにつれて一般に中性化する。こ
の従来の手法ではこのような変化を合成音声に反映させ
ることができない。他方合成フレーム周期を可変させる
手法では、簡易に継続時間長を変化させることができる
けれど、どの部分も一率に長くなつたり、短かくなつた
りしてしまう。通常の音声は伸縮の激しい部分と少ない
部分とからなるので、このような手法によると非常に不
自然な合成音になる。この手法では上述の音韻特性の変
化を反映できないことはもちろんである。
C.発明が解決しようとしている問題点 この発明は以上の事情を考慮してなされたものであり、
音韻特性を高品質に維持したままで、簡易に合成音声の
単位素片(たとえば音素、音節、単語等)の継続時間を
可変させることができる音声合成方法および装置を提供
することを目的としている。
音韻特性を高品質に維持したままで、簡易に合成音声の
単位素片(たとえば音素、音節、単語等)の継続時間を
可変させることができる音声合成方法および装置を提供
することを目的としている。
D.問題点を解決するための手段 この発明では以上の目的を達成するために音声合成の単
位素片を異なる継続時間長で発声させて得た複数の音声
をそれぞれ分析し、この結果として得た複数の分析デー
タに補間を施こして音声の合成に用いるようにしてい
る。
位素片を異なる継続時間長で発声させて得た複数の音声
をそれぞれ分析し、この結果として得た複数の分析デー
タに補間を施こして音声の合成に用いるようにしてい
る。
すなわち、所望の継続時間長の目的音声は複数の可変長
フレーム(第3フレーム)から構成され、これら可変長
フレームの各々は第1の基準分析データの固定長のフレ
ーム(第1フレーム)の各々に1対1に対応するものと
する。また、第1の基準分析データのフレーム(第1フ
レーム)と第2の基準分析データの固定長のフレーム
(第4フレーム)とをそれぞれの音響的特徴に基づいて
対応付ける。このことは目的音声の可変長フレームの各
々が第1の分析データの所定部分(第1フレーム)およ
び第2の分析データの所定部分(第2フレーム、固定長
でない)に対応付けられることを意味する。目的音声の
可変長フレームの長さは、第1および第2の分析データ
の対応部分の長さを補間して決定される。目的音声の可
変長フレームの合成パラメータは第1および第2の分析
データの対応部分の合成パラメータを補間して決定され
る。
フレーム(第3フレーム)から構成され、これら可変長
フレームの各々は第1の基準分析データの固定長のフレ
ーム(第1フレーム)の各々に1対1に対応するものと
する。また、第1の基準分析データのフレーム(第1フ
レーム)と第2の基準分析データの固定長のフレーム
(第4フレーム)とをそれぞれの音響的特徴に基づいて
対応付ける。このことは目的音声の可変長フレームの各
々が第1の分析データの所定部分(第1フレーム)およ
び第2の分析データの所定部分(第2フレーム、固定長
でない)に対応付けられることを意味する。目的音声の
可変長フレームの長さは、第1および第2の分析データ
の対応部分の長さを補間して決定される。目的音声の可
変長フレームの合成パラメータは第1および第2の分析
データの対応部分の合成パラメータを補間して決定され
る。
第3以降の分析データは可変長フレームの長さおよび合
成パラメータの補正を行うのに用いることができる。
成パラメータの補正を行うのに用いることができる。
また第1および第2の基準分析データのうち、補間の原
点となるものを、標準的な速度の発声を分析して得れ
ば、より高品質の合成音声を得ることができる。
点となるものを、標準的な速度の発声を分析して得れ
ば、より高品質の合成音声を得ることができる。
また、第1および第2の基準分析データの対応付けをダ
イナミック・プログラミングに基づいて行えば比較的少
ない計算で対応付け処理を行うことができる。
イナミック・プログラミングに基づいて行えば比較的少
ない計算で対応付け処理を行うことができる。
E.実施例 以下この発明を規則合成による日本語テキスト音声合成
に適用した一実施例について図面を参照して説明しよ
う。なお、テキスト音声合成は任意の入力テキストから
自動的に音声合成を行うものであり、一般にテキスト
入力、文章解析、音声合成および音声出力の4つ
のステージを有している。のステージでは漢字・カナ
変換辞書や韻律規則辞書を参照して音韻データや韻律デ
ータを決定する。のステージではパラメータ・フアイ
ルを参照して合成パラメータを順次取り出すようにす
る。この実施例では、後述するように2つの入力音声か
ら1つの合成音声を生成するようにしているので、パラ
メータ・フアイルとして複合的なものを採用している。
これについては後に詳述する。
に適用した一実施例について図面を参照して説明しよ
う。なお、テキスト音声合成は任意の入力テキストから
自動的に音声合成を行うものであり、一般にテキスト
入力、文章解析、音声合成および音声出力の4つ
のステージを有している。のステージでは漢字・カナ
変換辞書や韻律規則辞書を参照して音韻データや韻律デ
ータを決定する。のステージではパラメータ・フアイ
ルを参照して合成パラメータを順次取り出すようにす
る。この実施例では、後述するように2つの入力音声か
ら1つの合成音声を生成するようにしているので、パラ
メータ・フアイルとして複合的なものを採用している。
これについては後に詳述する。
また音声合成の単位素片としては101個の日本語の音
節を用いた。
節を用いた。
第1図はこの発明の一実施例の方法を実現するシステム
を全体として示している。この第1図において、ワーク
ステーシヨン1は日本語テキストを入力するためのもの
であり、カナ漢字変換等の日本語処理を行えるようにな
つている。このワークステーシヨン1は回線2を介して
ホストコンピユータ3に接続されており、このホストコ
ンピユータ3には補助記憶装置4が接続されている。実
施例の手順の多くは、ホストコンピユータ3で実行され
るソフトウエアで実現されるけれども、理解を容易にす
るためブロツクでその機能を表わすことにした。これら
ブロツクにおける機能の詳細は第2図に譲る。なお、第
1図のブロツクには第2図の対応する箇所と同一の番号
を付した。
を全体として示している。この第1図において、ワーク
ステーシヨン1は日本語テキストを入力するためのもの
であり、カナ漢字変換等の日本語処理を行えるようにな
つている。このワークステーシヨン1は回線2を介して
ホストコンピユータ3に接続されており、このホストコ
ンピユータ3には補助記憶装置4が接続されている。実
施例の手順の多くは、ホストコンピユータ3で実行され
るソフトウエアで実現されるけれども、理解を容易にす
るためブロツクでその機能を表わすことにした。これら
ブロツクにおける機能の詳細は第2図に譲る。なお、第
1図のブロツクには第2図の対応する箇所と同一の番号
を付した。
ホストコンピユータ3にはさらに回線5を介してパーソ
ナルコンピユータ6が接続され、このパーソナルコンピ
ユータ6にはA/D−D/Aコンバータ7が接続されて
いる。コンバータ7にはマイクロホン8およびスピーカ
9が接続されている。パーソナルコンピユータ6はA/
D変換およびD/A変換の駆動ルーチンを実行するよう
になつている。
ナルコンピユータ6が接続され、このパーソナルコンピ
ユータ6にはA/D−D/Aコンバータ7が接続されて
いる。コンバータ7にはマイクロホン8およびスピーカ
9が接続されている。パーソナルコンピユータ6はA/
D変換およびD/A変換の駆動ルーチンを実行するよう
になつている。
この構成において、音声をマイクロホン8に入力する
と、この入力音声がパーソナルコンピユータ6の制御の
もとでA/D変換され、こののちホストコンピユータ3
に供給される。ホストコンピユータ3の音声分析部1
0,11はデジタル音声データを分析フレーム周期T0
ごとに分析し、合成パラメータを生成して記憶装置4に
記憶させる。このことは第3図の線分l1およびl2に
示される。線分l1およびl2に関し、分析フレーム周
期T0で示され、合成パラメータpiおよびqiで示さ
れている。なお合成パラメータとしてはαパラメータ、
ホルマント・パラメータ、PARCOR係数等を用いる
ことができ、この実施例では線スペクトル対パラメータ
を採用している。
と、この入力音声がパーソナルコンピユータ6の制御の
もとでA/D変換され、こののちホストコンピユータ3
に供給される。ホストコンピユータ3の音声分析部1
0,11はデジタル音声データを分析フレーム周期T0
ごとに分析し、合成パラメータを生成して記憶装置4に
記憶させる。このことは第3図の線分l1およびl2に
示される。線分l1およびl2に関し、分析フレーム周
期T0で示され、合成パラメータpiおよびqiで示さ
れている。なお合成パラメータとしてはαパラメータ、
ホルマント・パラメータ、PARCOR係数等を用いる
ことができ、この実施例では線スペクトル対パラメータ
を採用している。
他方合成時のパラメータ列は第3図に線分l3で示され
るものである。T1〜TMで示されるM個の合成フレー
ムは可変長であり、合成パラメータriで示されてい
る。このパラメータ列の詳細はのちに説明する。このパ
ラメータ列の合成パラメータは順次ホストコンピユータ
3の音声合成部17に供給され、合成音声を表わすデジ
タル音声データがパーソナルコンピユータ6を介してコ
ンバータ7に供給される。コンバータ7はパーソナルコ
ンピユータ6の制御のもとでデジタル音声データをアナ
ログ音声データに変換し、スピーカ9を介して合成音声
を生成させる。
るものである。T1〜TMで示されるM個の合成フレー
ムは可変長であり、合成パラメータriで示されてい
る。このパラメータ列の詳細はのちに説明する。このパ
ラメータ列の合成パラメータは順次ホストコンピユータ
3の音声合成部17に供給され、合成音声を表わすデジ
タル音声データがパーソナルコンピユータ6を介してコ
ンバータ7に供給される。コンバータ7はパーソナルコ
ンピユータ6の制御のもとでデジタル音声データをアナ
ログ音声データに変換し、スピーカ9を介して合成音声
を生成させる。
第2図はこの実施例の手順を全体として示している。こ
の第2図において、まずパラメータ・フアイルの設定が
行われる。すなわち、始めに音声合成の単位素片の1つ
すなわちこの例では101個の音節のうちの1つ(たと
えば「ア」)を遅く発声して得た音声を分析する(ステ
ツプ10)。この分析データはたとえば第3図に線分l
1で示すように、フレーム周期T0のフレームをM個継
続して構成されている。分析データの継続時間t0は
(M×T0)である。つぎに同一の単位素片を速く発声
して得た音声を分析する(ステツプ11)。この分析デ
ータはたとえば第3図に線分l2で示すように、フレー
ム周期T0のフレームをN個継続して構成されている。
この分析データの継続時間t1は(N×T0)である。
つぎに線分l1およびl2の分析データをDPマツチン
グにより対応付ける(ステツプ12)。すなわち、第4
図に示すように、フレーム間の累積距離が一番小さくな
るようなパスPをDPマツチングにより求め、このパス
Pにより線分l1のフレームと線分l2のフレームとを
対応付ける。DPマツチングは具体的には第5図に示す
ように2つの方向にしか移行することができないもので
ある。本来遅く発声した場合のフレームの1つが速く発
声した場合のフレームの2つ以上に対向することはあつ
てはいけないことであり、このような対応付けを禁止す
るのが第5図の規則である。
の第2図において、まずパラメータ・フアイルの設定が
行われる。すなわち、始めに音声合成の単位素片の1つ
すなわちこの例では101個の音節のうちの1つ(たと
えば「ア」)を遅く発声して得た音声を分析する(ステ
ツプ10)。この分析データはたとえば第3図に線分l
1で示すように、フレーム周期T0のフレームをM個継
続して構成されている。分析データの継続時間t0は
(M×T0)である。つぎに同一の単位素片を速く発声
して得た音声を分析する(ステツプ11)。この分析デ
ータはたとえば第3図に線分l2で示すように、フレー
ム周期T0のフレームをN個継続して構成されている。
この分析データの継続時間t1は(N×T0)である。
つぎに線分l1およびl2の分析データをDPマツチン
グにより対応付ける(ステツプ12)。すなわち、第4
図に示すように、フレーム間の累積距離が一番小さくな
るようなパスPをDPマツチングにより求め、このパス
Pにより線分l1のフレームと線分l2のフレームとを
対応付ける。DPマツチングは具体的には第5図に示す
ように2つの方向にしか移行することができないもので
ある。本来遅く発声した場合のフレームの1つが速く発
声した場合のフレームの2つ以上に対向することはあつ
てはいけないことであり、このような対応付けを禁止す
るのが第5図の規則である。
以上の対応付けにより線分l1のフレームと線分l2の
フレームとについて似ているものどうしの対応付けが行
われたことになる。これを第3図に示す。すなわちp1
q1、p2q2、p3q3、・・・が似たものと
して対応付けられる。線分l1の複数のフレームが線分
l2の1つのフレームに対応することがあり、この場合
線分l2のフレームを等分して、線分l1の1つのフレ
ームがその等分部分の1つに対応すると考える。たとえ
ば第3図の線分l1の第2番目のフレームは線分l2の
第2番目のフレームの半分の部分に対応する。この結
果、線分l1のM個のフレームの各々が線分l2のM個
の時間部分に対応することになる。これら時間部分が必
らずしも同一長でないことは明らかである。
フレームとについて似ているものどうしの対応付けが行
われたことになる。これを第3図に示す。すなわちp1
q1、p2q2、p3q3、・・・が似たものと
して対応付けられる。線分l1の複数のフレームが線分
l2の1つのフレームに対応することがあり、この場合
線分l2のフレームを等分して、線分l1の1つのフレ
ームがその等分部分の1つに対応すると考える。たとえ
ば第3図の線分l1の第2番目のフレームは線分l2の
第2番目のフレームの半分の部分に対応する。この結
果、線分l1のM個のフレームの各々が線分l2のM個
の時間部分に対応することになる。これら時間部分が必
らずしも同一長でないことは明らかである。
ところで、継続時間tがt0およびt1の間にある合成
音声は第3図の線分l3で表わされる。この合成音声で
はフレームがM個あり、これらのフレームの各々が線分
l1の1つのフレームおよび線分l2の1つの時間部分
に対応する。したがつて合成音声のフレームは、対応す
る線分l1の1つのフレームの長さ、すなわちT0と、
対応する線分l2の1つの時間部分の長さとを補間した
ものとなる。また、合成パラメータriは対応する合成
パラメータpiおよびqjを補間したものとなる。
音声は第3図の線分l3で表わされる。この合成音声で
はフレームがM個あり、これらのフレームの各々が線分
l1の1つのフレームおよび線分l2の1つの時間部分
に対応する。したがつて合成音声のフレームは、対応す
る線分l1の1つのフレームの長さ、すなわちT0と、
対応する線分l2の1つの時間部分の長さとを補間した
ものとなる。また、合成パラメータriは対応する合成
パラメータpiおよびqjを補間したものとなる。
さてDPマツチングののちフレームの時間長変化量ΔT
iおよびパラメータ変化量Δpiを求める(ステツプC
13)。フレームの時間長変化量ΔTiは、線分l1の
第1番のフレームに対応する線分l2の時間部分の長さ
が、線分l1の第i番目のフレームの長さ、すなわちT
0からどれだけ変化しているかを示すものである。第3
図ではΔT2を一例として示している。線分l1の第i
番目のフレームに対応する線分l2のフレームをjで表
わせば、ΔTiは で表わすことができる。ただしnjは線分l2のj番目
のフレームに対応する線分l1のフレーム数である。
iおよびパラメータ変化量Δpiを求める(ステツプC
13)。フレームの時間長変化量ΔTiは、線分l1の
第1番のフレームに対応する線分l2の時間部分の長さ
が、線分l1の第i番目のフレームの長さ、すなわちT
0からどれだけ変化しているかを示すものである。第3
図ではΔT2を一例として示している。線分l1の第i
番目のフレームに対応する線分l2のフレームをjで表
わせば、ΔTiは で表わすことができる。ただしnjは線分l2のj番目
のフレームに対応する線分l1のフレーム数である。
合成音声の継続時間tを、t0を補間原点としてt0お
よびt1の直線補間により表わすと、 t=t0+x(t1−t0)ただし0≦x≦1となる。
なお、以下ではxを補間変数と呼ぶことにする。補間変
数xが0に近いほど原点に近い。この補間変数xと変化
量ΔTiとを用いると、合成音声の各フレームの時間長
Tiは、T0を補間原点とした補間式 Ti=T0−xΔTi により表わされる。ΔTiを求めておくことにより、t
0−t1の間の任意の継続時間を有する合成音声の各フ
レームの時間長Tiを得ることができる。
よびt1の直線補間により表わすと、 t=t0+x(t1−t0)ただし0≦x≦1となる。
なお、以下ではxを補間変数と呼ぶことにする。補間変
数xが0に近いほど原点に近い。この補間変数xと変化
量ΔTiとを用いると、合成音声の各フレームの時間長
Tiは、T0を補間原点とした補間式 Ti=T0−xΔTi により表わされる。ΔTiを求めておくことにより、t
0−t1の間の任意の継続時間を有する合成音声の各フ
レームの時間長Tiを得ることができる。
他方パラメータを変化量Δpiは(pi−qj)であ
り、つぎの式により合成音声の各フレームのパラメータ
riを得ることができる。
り、つぎの式により合成音声の各フレームのパラメータ
riを得ることができる。
ri=pi−xΔpi したがつてΔpiを求めておくことにより、t0〜t1
の間の任意の継続時間を有する合成音声の各フレームの
合成パラメータriを得ることができる。
の間の任意の継続時間を有する合成音声の各フレームの
合成パラメータriを得ることができる。
以上のようにして得た変化量ΔTiおよびΔpiはpi
とともに第7図に示すようなフオーマットで補助記憶装
置4に記憶される。以上の処理は他の単位素片について
も同様に実行されて最終的に複合的なパラメータ・フア
イルが構成される。
とともに第7図に示すようなフオーマットで補助記憶装
置4に記憶される。以上の処理は他の単位素片について
も同様に実行されて最終的に複合的なパラメータ・フア
イルが構成される。
パラメータ・フアイルを構成すればテキスト音声合成の
準備が完了し、以降テキストを入力する(ステツプ1
4)。このテキスト入力がワークステーシヨン1で実行
され、テキスト・データがホストコンピユータ3に送ら
れることについてはすでに述べた。ホストコンピユータ
3の文章解析部15では漢字カナ変換、韻律パラメータ
の決定、単位素片の継続時間の決定を行う。これについ
ては表1においてその動作の流れを具体例に沿つて示し
た。なお、この例では一旦音韻(子音および母音)ごと
の継続時間を求め、単位素片である音節の継続時間長は
音韻の継続時間の和になつている。
準備が完了し、以降テキストを入力する(ステツプ1
4)。このテキスト入力がワークステーシヨン1で実行
され、テキスト・データがホストコンピユータ3に送ら
れることについてはすでに述べた。ホストコンピユータ
3の文章解析部15では漢字カナ変換、韻律パラメータ
の決定、単位素片の継続時間の決定を行う。これについ
ては表1においてその動作の流れを具体例に沿つて示し
た。なお、この例では一旦音韻(子音および母音)ごと
の継続時間を求め、単位素片である音節の継続時間長は
音韻の継続時間の和になつている。
文章解析からテキスト内の単位素片の各々の継続時間が
求まると、つぎに単位素片の各々についてフレームの時
間長および合成パラメータの補間を行う(ステツプ1
6)。この詳細は第6図に示す。すなわち第6図に示す
ように、まず補間変数xを求める。t=t0+x(t1
−t0)であるから である(ステツプ161)。これにより単位素片の各々
がどの程度補間原点に近いのかがわかる。つぎにパラメ
ータ・フアイルを参照しながら単位素片の各フレームの
時間長Tiおよび合成パラメータriをそれぞれつぎの
式から求める(ステツプ162、163)。
求まると、つぎに単位素片の各々についてフレームの時
間長および合成パラメータの補間を行う(ステツプ1
6)。この詳細は第6図に示す。すなわち第6図に示す
ように、まず補間変数xを求める。t=t0+x(t1
−t0)であるから である(ステツプ161)。これにより単位素片の各々
がどの程度補間原点に近いのかがわかる。つぎにパラメ
ータ・フアイルを参照しながら単位素片の各フレームの
時間長Tiおよび合成パラメータriをそれぞれつぎの
式から求める(ステツプ162、163)。
Ti=T0−xΔTi ri=pi−xΔpi こののち時間長Tiおよび合成パラメータriに基づい
て順次音声合成を行つていく(第2図のステツプ1
7)。なお音声合成は模式的に第8図に示すように考え
られる。すなわち音声モデルを音源18とフイルタ19
とから構成されるものとするのである。そして音源制御
データとして有声(パルス列)および無声(白色雑音)
いずれかを示す指示信号(それぞれUおよびVで示す)
を供給し、フイルタ制御データとして線スペクトル対パ
ラメータ等を供給する。
て順次音声合成を行つていく(第2図のステツプ1
7)。なお音声合成は模式的に第8図に示すように考え
られる。すなわち音声モデルを音源18とフイルタ19
とから構成されるものとするのである。そして音源制御
データとして有声(パルス列)および無声(白色雑音)
いずれかを示す指示信号(それぞれUおよびVで示す)
を供給し、フイルタ制御データとして線スペクトル対パ
ラメータ等を供給する。
以上の処理によりテキストたとえば表1の「私は、言葉
を・・・」の音声が合成されてスピーカ9から発音され
ていく。
を・・・」の音声が合成されてスピーカ9から発音され
ていく。
表2〜表5は一例として表1により決定された172m
秒の「WA」の音節が処理されていくようすを示す。す
なわち、表2は分析フレーム周期10m秒で200m秒
の継続時間(遅い発声)の「WA」の音声を分析したも
のを示し、表3は150m秒(速い発声)のものを示
す。そして表4はこれらの音声のDPマツチングによる
対応付けを示す。表2〜表4により作成された、パラメ
ータ・フアイルの「WA」の部分を表5に示す(ただし
線スペクトル対パラメータは第1パラメータのみを示し
た)。また表5は172m秒の継続時間の各フレームの
時間長および合成パラメータ(第1パラメータに関する
もの)も示してある。
秒の「WA」の音節が処理されていくようすを示す。す
なわち、表2は分析フレーム周期10m秒で200m秒
の継続時間(遅い発声)の「WA」の音声を分析したも
のを示し、表3は150m秒(速い発声)のものを示
す。そして表4はこれらの音声のDPマツチングによる
対応付けを示す。表2〜表4により作成された、パラメ
ータ・フアイルの「WA」の部分を表5に示す(ただし
線スペクトル対パラメータは第1パラメータのみを示し
た)。また表5は172m秒の継続時間の各フレームの
時間長および合成パラメータ(第1パラメータに関する
もの)も示してある。
ただしpi、Δpi、qiおよびriは第1パラメータ
のみを示した。
のみを示した。
なお、上述実施例は第1図に示すシステムを用いる場合
について説明したけれども、第9図に示すように信号処
理ボード20を用いることにより、小さなシステムでも
この発明を実現できることはもちろんである。なお第9
図の例ではワークステーシヨン1Aが文章編集、文章解
析、変化量計算、補間等を行うようになつている。第9
図においては第1図の各部と等価な機能を実現する部分
に対応する番号を付して説明を省略する。
について説明したけれども、第9図に示すように信号処
理ボード20を用いることにより、小さなシステムでも
この発明を実現できることはもちろんである。なお第9
図の例ではワークステーシヨン1Aが文章編集、文章解
析、変化量計算、補間等を行うようになつている。第9
図においては第1図の各部と等価な機能を実現する部分
に対応する番号を付して説明を省略する。
つぎに上述実施例の2つの変形例について説明する。
変形例の1つはパラメータ・フアイルの学習を導入した
ものである。ここではまず学習を行わない場合の誤差に
ついて考えておく。第10図は合成パラメータと継続時
間との関係を示している。この第10図において、遅い
発声のパラメータpiおよび速い発声のパラメータqj
から合成パラメータriを生成するには、線分OA1を
用いて破線(a)で示すような補間を行う。これに対しも
う1つの速い発声のパラメータsk(継続時間はt2)
およびパラメータpiから合成パラメータri′を生成
するには、線分OA2を用いて破線(b)で示すように補
間を行う。明らかに合成パラメータri、ri′は異な
つてしまう。これは、DPマツチングによる対応付けの
際のエラー等によるものである。
ものである。ここではまず学習を行わない場合の誤差に
ついて考えておく。第10図は合成パラメータと継続時
間との関係を示している。この第10図において、遅い
発声のパラメータpiおよび速い発声のパラメータqj
から合成パラメータriを生成するには、線分OA1を
用いて破線(a)で示すような補間を行う。これに対しも
う1つの速い発声のパラメータsk(継続時間はt2)
およびパラメータpiから合成パラメータri′を生成
するには、線分OA2を用いて破線(b)で示すように補
間を行う。明らかに合成パラメータri、ri′は異な
つてしまう。これは、DPマツチングによる対応付けの
際のエラー等によるものである。
この変形例では線分OA1および線分OA2を平均化し
た線分OA′を利用してriを生成するようにしてい
る。このようにすると第10図から明らかなように線分
OA1のエラーと線分OA2のエラーとが相殺する蓋然
性が高いからである。第10図は学習が一回の場合を示
しているが、多数回繰り返せば、よりエラーが小さくな
ることは明らかであり、この変形例でもそのようにして
いる。
た線分OA′を利用してriを生成するようにしてい
る。このようにすると第10図から明らかなように線分
OA1のエラーと線分OA2のエラーとが相殺する蓋然
性が高いからである。第10図は学習が一回の場合を示
しているが、多数回繰り返せば、よりエラーが小さくな
ることは明らかであり、この変形例でもそのようにして
いる。
第11図はこの変形例の手順を示すものであり、第2図
と対応する箇所には対応する番号を付して詳細な説明を
省略する。第10図においては、ステツプ21でパラメ
ータ・フアイルの更新を行うとともに、ステツプ22で
学習の必要性を判断して、必要な場合にはステツプ1
1、12および21が繰り返されるようにしている。
と対応する箇所には対応する番号を付して詳細な説明を
省略する。第10図においては、ステツプ21でパラメ
ータ・フアイルの更新を行うとともに、ステツプ22で
学習の必要性を判断して、必要な場合にはステツプ1
1、12および21が繰り返されるようにしている。
なおステツプ21では Δpi=Δpi+(Pi−qi) でΔTiおよびΔpiを求めているけれども、初期状態
ではΔTi=0、Δpi=0とされているため、第2図
のステツプと同様の処理が行われることは明らかであ
る。なお、学習前の値(t1−t0)、(pi−qj)
および に対応する学習後の値をそれぞれ(t1−t0)′、
(pi−qj)′および というようにダツシユを付けて表わすと、 となる(第10図参照)。したがつて学習前の値Δpi
およびΔTiに対応する学習後の値をそれぞれΔpi′
およびΔTi′として表わすと、 となる。また、学習後の値による補間変数をx′で表わ
すと あるいは となる。
ではΔTi=0、Δpi=0とされているため、第2図
のステツプと同様の処理が行われることは明らかであ
る。なお、学習前の値(t1−t0)、(pi−qj)
および に対応する学習後の値をそれぞれ(t1−t0)′、
(pi−qj)′および というようにダツシユを付けて表わすと、 となる(第10図参照)。したがつて学習前の値Δpi
およびΔTiに対応する学習後の値をそれぞれΔpi′
およびΔTi′として表わすと、 となる。また、学習後の値による補間変数をx′で表わ
すと あるいは となる。
第11図のステツプ21では表記上混同が生じないた
め、ダツシユを省略するとともに、kをjに、sをqに
それぞれ置た代えてある。
め、ダツシユを省略するとともに、kをjに、sをqに
それぞれ置た代えてある。
つぎにもう1つの変形例について説明しよう。
上述実施例では遅い発声の分析によつて求めたパラメー
タが補間原点となり、遅い発声と同程度の発声速度の合
成音声は、原点付近のパラメータを利用できるので高品
質のものとなる。他方速い発声速度の合成音声ほど品質
が劣化する。そこで、テキスト音声合成等のアプリケー
シヨンにおいて、最も高頻度で用いられる速度(この速
度を「標準速度」と呼ぶ。)の発声の分析によるパラメ
ータを補間原点に用いることが合成音の品質向上に有効
である。このとき、標準速度より速い発声については、
標準速度の発声の分析によるパラメータを補間原点とし
て上述実施例の方法がそのまま適用できる。他方、標準
速度より遅い発声については、第12図に示すように標
準速度発声の1フレームに遅い発声の複数フレームが対
応する場合があるので、この場合、これらのフレームの
パラメータの平均値を遅い発声側の補間端点として用い
る。
タが補間原点となり、遅い発声と同程度の発声速度の合
成音声は、原点付近のパラメータを利用できるので高品
質のものとなる。他方速い発声速度の合成音声ほど品質
が劣化する。そこで、テキスト音声合成等のアプリケー
シヨンにおいて、最も高頻度で用いられる速度(この速
度を「標準速度」と呼ぶ。)の発声の分析によるパラメ
ータを補間原点に用いることが合成音の品質向上に有効
である。このとき、標準速度より速い発声については、
標準速度の発声の分析によるパラメータを補間原点とし
て上述実施例の方法がそのまま適用できる。他方、標準
速度より遅い発声については、第12図に示すように標
準速度発声の1フレームに遅い発声の複数フレームが対
応する場合があるので、この場合、これらのフレームの
パラメータの平均値を遅い発声側の補間端点として用い
る。
具体的には、標準速度発声の時間長をt0(t0=MT
0)、遅い発声の時間長をt1(t1=NT0、N>
M)とするとき、時間長t(t0≦t≦t1)の音声の
パラメータをMフレームに分けて求める(第12図参
照)。t=t0+x(t1−t0)とすると、 第iフレームの継続時間長Tiは、 Ti=T0+xT0(ni−1) 第iフレームの合成パラメータriは、 となる。ここでpiは標準速度発声の第iフレームのパ
ラメータ、qjは遅い発声の第jフレームのパラメー
タ、Jiは標準速度発声の第iフレームに対応する遅い
発声のフレームの集合、niはJiの要素数である。
0)、遅い発声の時間長をt1(t1=NT0、N>
M)とするとき、時間長t(t0≦t≦t1)の音声の
パラメータをMフレームに分けて求める(第12図参
照)。t=t0+x(t1−t0)とすると、 第iフレームの継続時間長Tiは、 Ti=T0+xT0(ni−1) 第iフレームの合成パラメータriは、 となる。ここでpiは標準速度発声の第iフレームのパ
ラメータ、qjは遅い発声の第jフレームのパラメー
タ、Jiは標準速度発声の第iフレームに対応する遅い
発声のフレームの集合、niはJiの要素数である。
このように、標準速度発声の各フレームに対応する遅い
発声のパラメータを をもつて一意に定めることにより標準速度より遅い合成
音についても補間によるパラメータの決定を行うことが
できる。なお、この場合にもパラメータの学習を行える
ことはもちろんである。
発声のパラメータを をもつて一意に定めることにより標準速度より遅い合成
音についても補間によるパラメータの決定を行うことが
できる。なお、この場合にもパラメータの学習を行える
ことはもちろんである。
以上説明したようにこの発明によれば異なる発声速度の
音声を分析して得た合成パラメータを補間して可変継続
長の合成音声を得るようにしている。補間の処理は簡易
であり、またもとの合成パラメータの特徴を加味するこ
とができる。したがつて、簡易かつ音韻特性を損うこと
なく可変継続長の合成音声を得ることができる。また学
習が可能であるため、必要に応じて一層品質を向上させ
ることができる。なおこの発明はどの言語にも適用でき
る。またパラメータ・フアイルをパッケージとして用意
してもよい。
音声を分析して得た合成パラメータを補間して可変継続
長の合成音声を得るようにしている。補間の処理は簡易
であり、またもとの合成パラメータの特徴を加味するこ
とができる。したがつて、簡易かつ音韻特性を損うこと
なく可変継続長の合成音声を得ることができる。また学
習が可能であるため、必要に応じて一層品質を向上させ
ることができる。なおこの発明はどの言語にも適用でき
る。またパラメータ・フアイルをパッケージとして用意
してもよい。
第1図はこの発明の一実施例を実行するシステムを全体
として示すブロツク図、第2図は第1図のシステムで実
行される処理を説明するフローチヤート、第3図〜第8
図は第2図の処理を説明するための図、第9図は第1図
のシステムを代わる簡易なシステムを示すブロツク図、
第10図は上述実施例の変形例を説明するための図、第
11図は上述変形例の処理を説明するフローチヤート、
第12図は上述実施例の他の変形例を説明するための図
である。 1……ワークステーシヨン、3……ホストコンピユー
タ、7……A/D−D/Aコンバータ。
として示すブロツク図、第2図は第1図のシステムで実
行される処理を説明するフローチヤート、第3図〜第8
図は第2図の処理を説明するための図、第9図は第1図
のシステムを代わる簡易なシステムを示すブロツク図、
第10図は上述実施例の変形例を説明するための図、第
11図は上述変形例の処理を説明するフローチヤート、
第12図は上述実施例の他の変形例を説明するための図
である。 1……ワークステーシヨン、3……ホストコンピユー
タ、7……A/D−D/Aコンバータ。
Claims (7)
- 【請求項1】音声合成の単位素片の各々について当該単
位素片の第1音声データから一定時間の第1フレームご
とに第1合成パラメータを生成するステップと、 上記単位素片の各々について当該単位素片の第2音声デ
ータから上記第1フレームの各々と音響的にそれぞれ対
応する第2フレームごとに第2合成パラメータを生成す
るステップと、 上記第1および第2合成パラメータを記憶するステップ
と、 音声合成対象の単位素片を決定するステップと、 上記決定された単位素片の目標継続時間を決定するステ
ップと、 上記決定された目標継続時間にわたって継続する、上記
第1フレームと同数の一連の第3フレームの各々の時間
長を、当該第3フレームに対応する上記第1フレームお
よび第2フレームのそれぞれの時間長を参照して上記目
標継続時間に基づく補間により決定するステップと、 上記第3フレームの各々の合成パラメータを、当該第3
フレームに対応する上記第1フレームおよび第2フレー
ムのそれぞれの合成パラメータを参照して上記目標継続
時間長に基づく補間により決定するステップと、 上記決定された上記第3フレームの時間長および合成パ
ラメータに基づいて順次合成音を生成するステップとを
有することを特徴とする音声合成方法。 - 【請求項2】上記第2音声データが単位素片ごとに1つ
用意され、上記第2パラメータを生成するステップが、 上記単位素片の各々について当該単位素片の上記第2音
声データから一定時間長の第4フレームごとに合成パラ
メータを生成するサブ・ステップと、 上記第4フレームを上記第1フレームに音響的特徴に基
づいて対応付けるサブ・ステップと、 上記対応付けに基づいて上記第2音声データを上記第2
フレームに分割するサブ・ステップと、 上記第2フレームの各々の時間長および合成パラメータ
を、当該第2フレームに対応する第4フレームから決定
するステップとからなる特許請求の範囲第1項記載の音
声合成方法。 - 【請求項3】上記第2音声データが単位素片ごとに複数
用意され、上記第2パラメータを生成するステップが、 上記単位素片の各々について当該単位素片の上記複数の
第2音声データから、一定時間長の第4フレームごとに
合成パラメータを生成するサブ・ステップと、 上記複数の第2音声データの各々について当該第2音声
データの上記第4フレームを上記第1音声データの上記
第1フレームに音響的特徴に基づいて対応付けるサブ・
ステップと、 上記対応付けに基づいて1の上記第2音声データを上記
第2フレームに分割するサブ・ステップと、 上記第2フレームの各々の時間長および合成パラメータ
を、当該第2フレームに対応する第4フレームから決定
するステップと、 上記対応付けに基づいて他の上記第2音声データにより
上記1の第2音声データの第2フレームの合成パラメー
タおよび時間長を補正するサブ・ステップとからなる特
許請求の範囲第1項記載の音声合成方法。 - 【請求項4】上記一定時間長を分析フレームの時間長と
した特許請求の範囲第1項、第2項または第3項記載の
音声合成方法。 - 【請求項5】上記音響的特徴に基づいて対応付けるサブ
・ステップはダイナミック・プログラミングに基づいて
行う特許請求の範囲第2項、第3項または第4項記載の
音声合成方法。 - 【請求項6】上記第1音声データの継続時間を当該単位
素片に応じた標準的な発声時間とした特許請求の範囲第
1項、第2項、第3項、第4項または第5項記載の音声
合成方法。 - 【請求項7】音声合成の単位素片の各々について、当該
単位素片の一定時間の第1フレームごとに割り当てられ
る第1合成パラメータと、上記第1フレームの各々とそ
れぞれ対応する第2フレームごとに割り当てられる第2
合成パラメータとを記憶する手段と、 音声合成対象の単位素片を決定する手段と、 上記決定された単位素片の目標継続時間を決定する手段
と、 上記決定された目標継続時間にわたって継続する、上記
第1フレームと同数の一連の第3フレームの各々の時間
長さ、当該第3フレームに対応する上記第1フレームお
よび第2フレームのそれぞれの時間長を参照して上記目
標継続時間に基づく補間により決定する手段と、 上記第3フレームの各々の合成パラメータを、当該第3
フレームに対応する上記第1フレームおよび第2フレー
ムのそれぞれの合成パラメータを参照して上記目標継続
時間長に基づく補間により決定する手段と、 上記決定された上記第3フレームの時間長および合成パ
ラメータに基づいて順次合成音を生成する手段とを有す
ることを特徴とする音声合成装置。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61065029A JPH0632020B2 (ja) | 1986-03-25 | 1986-03-25 | 音声合成方法および装置 |
US07/027,711 US4817161A (en) | 1986-03-25 | 1987-03-19 | Variable speed speech synthesis by interpolation between fast and slow speech data |
EP87302602A EP0239394B1 (en) | 1986-03-25 | 1987-03-25 | Speech synthesis system |
DE8787302602T DE3773025D1 (de) | 1986-03-25 | 1987-03-25 | Sprachsynthesesystem. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61065029A JPH0632020B2 (ja) | 1986-03-25 | 1986-03-25 | 音声合成方法および装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS62231998A JPS62231998A (ja) | 1987-10-12 |
JPH0632020B2 true JPH0632020B2 (ja) | 1994-04-27 |
Family
ID=13275141
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP61065029A Expired - Lifetime JPH0632020B2 (ja) | 1986-03-25 | 1986-03-25 | 音声合成方法および装置 |
Country Status (4)
Country | Link |
---|---|
US (1) | US4817161A (ja) |
EP (1) | EP0239394B1 (ja) |
JP (1) | JPH0632020B2 (ja) |
DE (1) | DE3773025D1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5091931A (en) * | 1989-10-27 | 1992-02-25 | At&T Bell Laboratories | Facsimile-to-speech system |
US5163110A (en) * | 1990-08-13 | 1992-11-10 | First Byte | Pitch control in artificial speech |
FR2678103B1 (fr) * | 1991-06-18 | 1996-10-25 | Sextant Avionique | Procede de synthese vocale. |
KR940002854B1 (ko) * | 1991-11-06 | 1994-04-04 | 한국전기통신공사 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
EP0542628B1 (en) * | 1991-11-12 | 2001-10-10 | Fujitsu Limited | Speech synthesis system |
JP3083640B2 (ja) * | 1992-05-28 | 2000-09-04 | 株式会社東芝 | 音声合成方法および装置 |
SE516521C2 (sv) * | 1993-11-25 | 2002-01-22 | Telia Ab | Anordning och förfarande vid talsyntes |
CN1116668C (zh) * | 1994-11-29 | 2003-07-30 | 联华电子股份有限公司 | 语音合成数据存储器的数据编码方法 |
US6151575A (en) * | 1996-10-28 | 2000-11-21 | Dragon Systems, Inc. | Rapid adaptation of speech models |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
US6212498B1 (en) | 1997-03-28 | 2001-04-03 | Dragon Systems, Inc. | Enrollment in speech recognition |
JP3195279B2 (ja) * | 1997-08-27 | 2001-08-06 | インターナショナル・ビジネス・マシーンズ・コーポレ−ション | 音声出力システムおよびその方法 |
US6163768A (en) | 1998-06-15 | 2000-12-19 | Dragon Systems, Inc. | Non-interactive enrollment in speech recognition |
JP3374767B2 (ja) * | 1998-10-27 | 2003-02-10 | 日本電信電話株式会社 | 録音音声データベース話速均一化方法及び装置及び話速均一化プログラムを格納した記憶媒体 |
DE60215296T2 (de) * | 2002-03-15 | 2007-04-05 | Sony France S.A. | Verfahren und Vorrichtung zum Sprachsyntheseprogramm, Aufzeichnungsmedium, Verfahren und Vorrichtung zur Erzeugung einer Zwangsinformation und Robotereinrichtung |
US20060136215A1 (en) * | 2004-12-21 | 2006-06-22 | Jong Jin Kim | Method of speaking rate conversion in text-to-speech system |
US8447609B2 (en) * | 2008-12-31 | 2013-05-21 | Intel Corporation | Adjustment of temporal acoustical characteristics |
CN112820289A (zh) * | 2020-12-31 | 2021-05-18 | 广东美的厨房电器制造有限公司 | 语音播放方法、语音播放系统、电器和可读存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US2575910A (en) * | 1949-09-21 | 1951-11-20 | Bell Telephone Labor Inc | Voice-operated signaling system |
JPS5650398A (en) * | 1979-10-01 | 1981-05-07 | Hitachi Ltd | Sound synthesizer |
US4470150A (en) * | 1982-03-18 | 1984-09-04 | Federal Screw Works | Voice synthesizer with automatic pitch and speech rate modulation |
CA1204855A (en) * | 1982-03-23 | 1986-05-20 | Phillip J. Bloom | Method and apparatus for use in processing signals |
FR2553555B1 (fr) * | 1983-10-14 | 1986-04-11 | Texas Instruments France | Procede de codage de la parole et dispositif pour sa mise en oeuvre |
-
1986
- 1986-03-25 JP JP61065029A patent/JPH0632020B2/ja not_active Expired - Lifetime
-
1987
- 1987-03-19 US US07/027,711 patent/US4817161A/en not_active Expired - Fee Related
- 1987-03-25 EP EP87302602A patent/EP0239394B1/en not_active Expired
- 1987-03-25 DE DE8787302602T patent/DE3773025D1/de not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
EP0239394B1 (en) | 1991-09-18 |
JPS62231998A (ja) | 1987-10-12 |
DE3773025D1 (de) | 1991-10-24 |
EP0239394A1 (en) | 1987-09-30 |
US4817161A (en) | 1989-03-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH0632020B2 (ja) | 音声合成方法および装置 | |
JPH031200A (ja) | 規則型音声合成装置 | |
US5659664A (en) | Speech synthesis with weighted parameters at phoneme boundaries | |
JP2761552B2 (ja) | 音声合成方法 | |
JP2001242882A (ja) | 音声合成方法及び音声合成装置 | |
JP3437064B2 (ja) | 音声合成装置 | |
JPH0580791A (ja) | 音声規則合成装置および方法 | |
JP2001034284A (ja) | 音声合成方法及び装置、並びに文音声変換プログラムを記録した記録媒体 | |
JP3113101B2 (ja) | 音声合成装置 | |
JPH0756590A (ja) | 音声合成装置、音声合成方法及び記録媒体 | |
JP2956936B2 (ja) | 音声合成装置の発声速度制御回路 | |
JP2703253B2 (ja) | 音声合成装置 | |
JPH11161297A (ja) | 音声合成方法及び装置 | |
JP3614874B2 (ja) | 音声合成装置及び方法 | |
JP3284634B2 (ja) | 規則音声合成装置 | |
JP3034554B2 (ja) | 日本語文章読上げ装置及び方法 | |
JP3303428B2 (ja) | 音声合成装置のアクセント成分基本テーブルの作成方法 | |
JPH06214585A (ja) | 音声合成装置 | |
JP2001100777A (ja) | 音声合成方法及び装置 | |
JPH06250685A (ja) | 音声合成方式および規則合成装置 | |
JPH09292897A (ja) | 音声合成装置 | |
JP2003005774A (ja) | 音声合成装置 | |
JPH09325788A (ja) | 音声合成装置及び方法 | |
JPH056191A (ja) | 音声合成装置 | |
JPH0667685A (ja) | 音声合成装置 |