JP3368948B2 - Voice rule synthesizer - Google Patents

Voice rule synthesizer

Info

Publication number
JP3368948B2
JP3368948B2 JP24799493A JP24799493A JP3368948B2 JP 3368948 B2 JP3368948 B2 JP 3368948B2 JP 24799493 A JP24799493 A JP 24799493A JP 24799493 A JP24799493 A JP 24799493A JP 3368948 B2 JP3368948 B2 JP 3368948B2
Authority
JP
Japan
Prior art keywords
power
envelope
rule
speech
vowel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP24799493A
Other languages
Japanese (ja)
Other versions
JPH07104790A (en
Inventor
知樹 濱上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Secom Co Ltd
Original Assignee
Secom Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Secom Co Ltd filed Critical Secom Co Ltd
Priority to JP24799493A priority Critical patent/JP3368948B2/en
Publication of JPH07104790A publication Critical patent/JPH07104790A/en
Application granted granted Critical
Publication of JP3368948B2 publication Critical patent/JP3368948B2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 【0001】 【産業上の利用分野】本発明は、音声規則合成装置に関
し、特に、音声規則合成装置におけるパワー包絡を作成
する技術に関するものである。 【0002】 【従来の技術】従来、音声規則合成におけるパワー制御
方法は、音源振幅パタン生成部において、スペクトルパ
タンに同期したパワーパタンを滑らかに結合、変形する
程度の処理しか行われていない。つまり、母音の中心位
置における1点のパワーを規則を用いて導出し、各母音
の中心位置間を適当に補間することにより、スペクトル
パタンに同期した自然発声パワーパタンを滑らかに変形
する方法が一般的であった。もとより、音声規則合成に
おいては、スペクトル制御等の工夫と比較すると、パワ
ー方法制御はとりたてて検討された例は極めて少ない。 【0003】ところが、最近の研究調査の結果、前記パ
ワー制御方法においては、パワー包絡の形状が継続時間
を始めとする他の知覚要素と無関係でない事が明らかと
なってきた(濱上等:「パワー包絡が聴覚に与える影響
について」日本音響学会講演論文集、平成4年11
月)。一方、母音部エネルギー重心位置を基準とした継
続時間長制御を行う規則音声合成方式(加藤:「母音部
エネルギー重心位置に着目した日本語リズム規則につい
て」電子情報通信学会技術研究報告(平成5年5月22
日))を用いる場合、エネルギー重心の位置とパワー包
絡の形状は直接的な相関から、継続時間長規則に従って
パワー包絡を制御する必要性がでてくる。 【0004】 【発明が解決しようとする課題】これらの立場からは、
パワー包絡の形状に対する新しいモデルが必要となる。
さらに、規則合成に用いるパワー制御モデルを考える上
でそれに望まれる事は、目的とする物理的特徴を直接規
則で制御できるモデルが得られることである。本発明
は、音声規則合成装置において、自然なパワー包絡を作
り、合成音声の品質を向上させることを目的とするもの
である。 【0005】 【課題を解決するための手段】本発明者は、高品質な規
則音声合成を実現するためには、パワーパタンの生成過
程を、より聴覚への影響を考慮した精度の高いモデルで
表し、それをパワーパタンに適用することが不可欠であ
ると考えた。なぜならば、従来の音声合成方式の改良が
主にスペクトルやピッチといった重要なパラメータに施
された結果、これまで重要視されていなかったパワー包
絡の形状が、合成音の品質劣化の原因として無視できな
くなってきたためである。 【0006】また、一般的な音声規則合成方式における
音韻継続時間長生成部では、母音のエネルギー重心位置
を元に各音韻の継続時間長を決定しており、パワー包絡
の概形そのものが、音韻継続時間長感覚に影響を与える
ことが確かめられているため、優れた継続時間長規則を
正確に合成音声に反映させられるようなパワー包絡モデ
ルが必要であると考えた。 【0007】始めに、自然発声されたパワー包絡を元
に、本発明のパワー包絡モデルの成り立ちを説明する。
図4は、「爆音が……」と発声した場合の音声パワー包
絡を示す。横軸に各音声をとり、縦軸は文章中の有声音
ブロックのピークパワーを、その文章中のピークパワー
で正規化したものである。これを結ぶ包絡がマクロ包絡
の概形となる。 【0008】ここで数回にわたり同様の発声を行った場
合、パワーの平均値で正規化された包絡の概形は、ある
ばらつきの範囲内(±4db)に収まり、発話中の自然
性に対するパワー変動の検知限界に一致していることが
分かった。すなわち、自然発声中には、もともと、検知
限界内のある程度のばらつきがあるもののある決まった
大まかなパワー概形の存在が認められる。これをマクロ
包絡とする。マクロ包絡は、発声中、母音のように安定
して大きなパワーを出す声帯振動を音源とする有声音の
パワー変化である。 【0009】一方、子音に特徴的な鋭いパワー変化が生
ずる箇所が存在する。この短時間のパワー変化は、口唇
等の破裂や摩擦などによって、子音のスペクトル変化に
同期して発生するものである。これをミクロ包絡とす
る。ミクロ包絡は子音の音韻性にとって極めて重要な役
割をもつ。本発明は、以上の原理に基づき、前記課題を
達成するため、音声規則合成装置において、パワー制御
部が、母音を始めとする有声音で特徴付けられる音声パ
ワーの緩やかな変化を制御するマクロ包絡モデルと、子
音の調音によって特徴付けられる細かいパワー変化を制
御するミクロ包絡モデルを、母音−子音−母音の組合せ
毎に記憶したデータベースを作成し、このデータベース
を用いて音声パワー包絡を形成する。 【0010】 【作用】本発明のパワー制御方法によれば、自然のパワ
ー包絡の母音の中心パワーを直線で結んだ大まかな概形
にある代表的なパターンを利用する。このパターンから
±4db程度の変化では聴覚上違和感を生じない。これ
により、母音の中心パワーを結ぶような大まかな概形
(マクロパタン)を母音中心パワーという少ないパラメ
ータで表現できる。一方、子音に特徴的に見られる鋭い
パワー変化(ミクロパターン)は、子音のスペクトルパ
ラメータと同期させて、マクロパタンと分離して扱うこ
とが可能となる。 【0011】合成すべき音声のパワーパタンを、母音の
中心パワーと、スペクトルに同期してデータベース化さ
れている正規化パワーパタンを用いてマクロな変化とミ
クロな変化で表現することによって、自然な合成音声が
得られるようになる。また、音声規則合成を実施する際
に、パワー包絡を規則によって決定するために、必要な
モデルとその制御方法を確立できるので、音声の低ビッ
トレート伝送方法において、パワーパラメータの情報量
削減に著しい効果を奏する。 【0012】自然発声された文章のパワー包絡中から、
前記の分離法を用いてマクロ包絡とミクロ包絡を求め再
合成した結果、自然音声のパワーパタンと遜色ない包絡
が得られることが確かめられた。また、このパワー包絡
を用いて合成された音声は、自然のパワー包絡を用いて
合成された合成音声と比べて、区別がつかないことが確
かめられた。 【0013】 【実施例】以下本発明の実施例について図面を参照して
説明する。図1は本発明の実施例に係る日本語音声合成
システムの構成を示す図である。文章入力装置1により
音声合成しようとする合成文章が入力される。テキスト
解析部2は、発音情報生成規則3を用いてこの合成文章
を解析し、音声合成処理に必要なアクセントの情報、ポ
ーズ、母音の無音声化などといった発音情報を加えた音
韻記号列に変換する。音韻継続時間長生成部4は、テキ
スト解析部2によって生成された音韻記号列をリズム規
則5により音韻継続時間長を決定する。 【0014】音響振幅パタン生成部6は、音声のパワー
包絡をパワー規則7により決定する。ピッチパタン生成
部8は、韻律制御規則9から各アクセント句について点
ピッチパタンを決めて、それらを補間して連続点ピッチ
パタンを生成する。音源生成部10は、前記パワーパタ
ンと前記ピッチパタンをもとに音源を生成する。スペク
トルパタン生成部11は、音韻性向上規則12により、
母音・子音といった音韻の種類から、音声合成基本単位
データベース13を検索し、音韻結合規則14により各
音韻のスペクトルを結合し、フォルマントパタンを作成
する。音声合成器15は、前記音源生成部10から得ら
れた音源情報と前記スペクトルパタン生成部11から得
られたフォルマントパタンから合成音声を作成する。作
成された合成音声はスピーカ16により外部に発声され
る。 【0015】次に、本発明の特徴部である音源振幅パタ
ン生成部6のパワー制御方法について説明する。最初に
マクロ包絡の分離法を図2を用いて述べる。図2に自然
音声パワー包絡21の一部が示される。図において、横
軸は時間で、Vは母音が発声された時、Cは子音が発声
された時を表す。縦軸はパワーをdBで表している。 【0016】まず、各母音V,Vについて、リズム規則
5が与える母音エネルギー重心(CEGV)時刻がアン
カーポイントとして決定される。次に、CEGV間のパ
ワー変化をCEGV間の子音に応じて合成する。そのた
めに、子音ターゲット(TC)という概念を導入する。
TCは「分割係数α」「ディップ係数β」の2つのパラ
メータからなり、予めVCV(母音−子音−母音)単位
毎にデータベース化する。 【0017】分割係数αは、VCV中の子音継続時間に
おいて最もパワーが少なくなる点を子音継続時間の内分
比で表す。ディップ係数β、VCVの2つのCEGVを
結んだ線分から見て、子音区間で最もパワーが小さくな
る点の落ち込み具合を、dBで表す。マクロ包絡22
は、先行するCEGVから始まりTCを余弦関数の形で
通過し、後続するCEGVに至る。このαとβによっ
て、VCVの調音の変化に伴うパワー変化を制御する。
このように、マクロ包絡22とは、ある母音から子音の
調音点を通過して次の母音へ至る過程における有声音パ
ワーの滑らかな変化をモデル化したものである。 【0018】次に、ミクロ包絡について図3を用いて述
べる。ミクロ包絡は、マクロ包絡22だけでは表し切れ
ない子音音源等の比較的変化の速いパワーパタンを扱
う。ミクロ包絡はデータベース化された正規化ミクロ包
絡を時間伸縮させることによって得る。予めデータベー
ス化される正規化ミクロ包絡の作り方は以下の通りであ
る。 【0019】自然発声のVCVパワー包絡31から、前
述の方法によりマクロ包絡22を求める。VCV波形の
子音区間を子音の波形特徴に応じた窓でパワー31を再
分析する。この再分析パワー包絡32からマクロ包絡2
2を差し引き差分パワー33を求める。差分パワーの子
音区間を数分の1程度の固定長に圧縮し、正規化ミクロ
包絡34とする。ここでは、10サンプルに圧縮し、正
規化ミクロ包絡34とする。 【0020】このミクロ包絡34は、VCVの組合せ毎
にパラメータ化される。次に、図1の音源振幅パタン生
成部6で振幅パタンを生成する方法について述べる。パ
ワー規則6には、規則合成に用いる音声の基本単位とし
て、VCVの組合せ発声パタンがデータベース化されて
いる。前述のマクロ包絡、ミクロ包絡の分離方法を用い
て各VCV毎に子音ターゲットパラメータと正規化ミク
ロ包絡を求めておく。 【0021】音韻継続時間長生成部4が与える母音部エ
ネルギー重心位置に、当該母音の種類と、その時点で韻
律制御規則が与える点ピッチ周波数、および当該文内文
節番号、文節内モーラ番号によって母音部重心パワー
(Pv)が決定される。Pv1,Pv2のパワーを持つ
2つの母音V1,V2間の子音Cについて、子音ターゲ
ットと正規化ミクロ包絡が検索され、与えられた継続時
間長内に当てはまるように伸縮操作され、マクロ包絡、
ミクロ包絡を作りこれを足し合わせた結果、合成パワー
方法が得られる。 【0022】 【発明の効果】以上説明したように、本発明によれば、
合成音の自然性に強く影響するマクロ包絡と、音韻性に
影響があるミクロ包絡を独立に扱うモデルを用いること
によって、容易に自然音声の形状に近いパワー包絡を生
成することができる。これにより、合成音声の品質を向
上させることができる。
Description: BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a speech rule synthesizer, and more particularly to a technique for creating a power envelope in a speech rule synthesizer. 2. Description of the Related Art Conventionally, in a power control method in speech rule synthesis, a sound source amplitude pattern generation unit only performs processing to such an extent that power patterns synchronized with a spectrum pattern are smoothly combined and deformed. That is, a method is generally used in which the power of one point at the center position of a vowel is derived using a rule, and the natural utterance power pattern synchronized with the spectral pattern is smoothly deformed by appropriately interpolating between the center positions of the vowels. It was a target. Of course, in speech rule synthesis, there are very few examples in which power method control has been studied in comparison to techniques such as spectrum control. However, as a result of recent research and investigation, it has become clear that in the power control method, the shape of the power envelope is not irrelevant to other perceptual factors such as the duration (Hamagami et al .: " Effect of Power Envelope on Hearing ", Proc. Of the Acoustical Society of Japan, November 1992
Month). On the other hand, a rule-based speech synthesis method that performs duration control based on the vowel part energy centroid position (Kato: "Japanese rhythm rule focusing on vowel part energy centroid position" IEICE Technical Report (1993) May 22
When using day), the position of the energy center of gravity and the shape of the power envelope are directly correlated, so that it becomes necessary to control the power envelope according to the duration rule. [0004] From these viewpoints,
A new model for the shape of the power envelope is needed.
Further, what is desired in considering a power control model used for rule synthesis is to obtain a model capable of directly controlling a target physical characteristic by a rule. SUMMARY OF THE INVENTION It is an object of the present invention to create a natural power envelope and improve the quality of synthesized speech in a speech rule synthesis device. [0005] In order to realize high-quality regular speech synthesis, the present inventor has proposed a power pattern generation process using a high-accuracy model taking into account the effect on hearing. And applied it to the power pattern. Because the improvement of the conventional speech synthesis method was applied mainly to important parameters such as spectrum and pitch, the shape of the power envelope, which had not been regarded as important, can be ignored as a cause of the quality degradation of the synthesized sound. Because it is gone. The phoneme duration generation unit in the general speech rule synthesis method determines the duration of each phoneme based on the position of the center of gravity of the energy of the vowel, and the outline of the power envelope itself is the phoneme. Since it has been confirmed that it has an effect on the duration sensation, it is necessary to develop a power envelope model that can accurately reflect the excellent duration rule in synthesized speech. First, the formation of the power envelope model of the present invention will be described based on a naturally uttered power envelope.
FIG. 4 shows an audio power envelope when “explosive sound is made”. The horizontal axis represents each voice, and the vertical axis represents the peak power of the voiced sound block in the text normalized by the peak power in the text. The envelope connecting them is the outline of the macro envelope. When the same utterance is made several times, the outline of the envelope normalized by the average value of the power falls within a certain range of variation (± 4 db), and the power for naturalness during utterance is reduced. It was found that it coincided with the fluctuation detection limit. That is, during spontaneous utterance, the existence of a fixed rough power profile, which originally has some variation within the detection limit, is recognized. This is the macro envelope. The macro-envelope is a power change of a voiced sound using a vocal cord vibration as a sound source that generates a large power stably like a vowel during utterance. On the other hand, there are places where sharp power changes characteristic of consonants occur. This short-time power change is generated in synchronization with the consonant spectrum change due to rupture or friction of the lips or the like. This is called a microenvelope. Microenvelopes have a crucial role in the phonological properties of consonants. According to the present invention, based on the above principle, in order to achieve the above object, in a speech rule synthesizing apparatus, a power control unit controls a gradual change in speech power characterized by voiced sounds including vowels. A database is created in which a model and a micro-envelope model that controls fine power changes characterized by articulation of consonants are stored for each vowel-consonant-vowel combination, and a speech power envelope is formed using this database. According to the power control method of the present invention, a representative pattern having a rough outline formed by connecting the central powers of vowels of a natural power envelope with straight lines is used. A change of about ± 4 db from this pattern does not cause auditory discomfort. As a result, a rough outline (macro pattern) connecting the central powers of vowels can be represented by a small parameter called vowel central power. On the other hand, sharp power changes (micro patterns) characteristic of consonants can be handled separately from macro patterns in synchronization with the consonant spectral parameters. By expressing the power pattern of the voice to be synthesized as a macro change and a micro change using a center power of a vowel and a normalized power pattern stored in a database in synchronization with the spectrum, a natural change is obtained. Synthesized speech can be obtained. In addition, when performing speech rule synthesis, a necessary model and a control method thereof can be established in order to determine a power envelope by a rule. It works. From the power envelope of a naturally uttered sentence,
As a result of obtaining and re-synthesizing the macro-envelope and the micro-envelope using the above-mentioned separation method, it was confirmed that an envelope comparable to the power pattern of natural speech was obtained. It was also confirmed that the speech synthesized using the power envelope is indistinguishable from the synthesized speech synthesized using the natural power envelope. Embodiments of the present invention will be described below with reference to the drawings. FIG. 1 is a diagram showing a configuration of a Japanese speech synthesis system according to an embodiment of the present invention. The text input device 1 inputs a synthesized text to be synthesized. The text analysis unit 2 analyzes the synthesized sentence using the pronunciation information generation rule 3 and converts it into a phoneme symbol string to which pronunciation information such as accent information, pause, and vowel de-voice necessary for speech synthesis processing is added. I do. The phoneme duration generation unit 4 determines the phoneme duration of the phoneme symbol string generated by the text analysis unit 2 according to the rhythm rule 5. The sound amplitude pattern generation unit 6 determines the power envelope of the voice according to the power rule 7. The pitch pattern generation unit 8 determines a point pitch pattern for each accent phrase from the prosodic control rules 9 and generates a continuous point pitch pattern by interpolating them. The sound source generator 10 generates a sound source based on the power pattern and the pitch pattern. The spectrum pattern generation unit 11 uses the phonological improvement rule 12
The speech synthesis basic unit database 13 is searched from the types of phonemes such as vowels and consonants, and the spectra of the phonemes are combined according to the phoneme combination rules 14 to form a formant pattern. The speech synthesizer 15 creates a synthesized speech from the sound source information obtained from the sound source generation unit 10 and the formant pattern obtained from the spectrum pattern generation unit 11. The generated synthesized voice is uttered outside by the speaker 16. Next, a power control method of the sound source amplitude pattern generation unit 6, which is a feature of the present invention, will be described. First, the separation method of the macro envelope will be described with reference to FIG. FIG. 2 shows a part of the natural audio power envelope 21. In the figure, the horizontal axis represents time, V represents the time when a vowel is uttered, and C represents the time when a consonant is uttered. The vertical axis represents power in dB. First, for each vowel V, V, the vowel energy centroid (CEGV) time given by the rhythm rule 5 is determined as an anchor point. Next, a power change between CEGVs is synthesized according to a consonant between CEGVs. For that purpose, the concept of a consonant target (TC) is introduced.
The TC is composed of two parameters, “division coefficient α” and “dip coefficient β”, and is stored in a database in advance for each VCV (vowel-consonant-vowel). The division coefficient α represents the point at which the power becomes minimum in the consonant duration in the VCV by the internal division ratio of the consonant duration. When viewed from the line connecting the two CEGVs of the dip coefficient β and the VCV, the degree of drop at the point where the power becomes the smallest in the consonant section is expressed in dB. Macro envelope 22
Starts from the preceding CEGV, passes through TC in the form of a cosine function, and reaches the following CEGV. A power change accompanying a change in the articulation of the VCV is controlled by α and β.
As described above, the macro envelope 22 models a smooth change in voiced sound power in the process of passing from a vowel to the consonant to the next vowel. Next, the micro envelope will be described with reference to FIG. The micro-envelope deals with a relatively fast-changing power pattern such as a consonant sound source that cannot be expressed by the macro-envelope 22 alone. The microenvelope is obtained by time-stretching the normalized microenvelope in the database. The method of creating a normalized microenvelope that is made into a database in advance is as follows. The macro envelope 22 is obtained from the naturally uttered VCV power envelope 31 by the above-described method. The power 31 is re-analyzed in the consonant section of the VCV waveform with a window corresponding to the waveform characteristics of the consonant. From the re-analysis power envelope 32, the macro envelope 2
2 is subtracted to obtain a difference power 33. The consonant section of the differential power is compressed to a fixed length of about a fraction to obtain a normalized micro envelope 34. Here, it is compressed to 10 samples, and the normalized micro envelope 34 is obtained. The micro envelope 34 is parameterized for each VCV combination. Next, a method of generating an amplitude pattern by the sound source amplitude pattern generation unit 6 in FIG. 1 will be described. In the power rule 6, a database of VCV combination utterance patterns is stored as a basic unit of speech used for rule synthesis. A consonant target parameter and a normalized micro-envelope are obtained for each VCV using the above-described macro-envelope and micro-envelope separation methods. At the vowel part energy center of gravity given by the phoneme duration generator 4, the vowel is determined by the type of the vowel, the point pitch frequency given by the prosody control rule at that time, the in-sentence segment number, and the in-segment mora number. The center of gravity power (Pv) is determined. For the consonant C between the two vowels V1 and V2 having the powers of Pv1 and Pv2, a consonant target and a normalized microenvelope are searched and expanded and contracted to fit within a given duration, and the macroenvelope is
As a result of creating and adding the microenvelopes, a combined power method is obtained. As described above, according to the present invention,
By using a model that independently treats a macro envelope that strongly affects the naturalness of a synthesized sound and a micro envelope that affects phonology, a power envelope close to the shape of natural speech can be easily generated. Thereby, the quality of the synthesized speech can be improved.

【図面の簡単な説明】 【図1】本発明の実施例の音声合成システムの構成を示
す図。 【図2】図1のパワー規則に利用するマクロ包絡の求め
方を説明するための図。 【図3】図2のパワー規則に利用するミクロ包絡の求め
方を説明するための図。 【図4】自然発声におけるマクロ包絡のばらつきを説明
するためのグラフ。 【符号の説明】 1…文章入力装置 2…テキスト解析部 3…発音情報生成規則 4…音韻継続時間長生成部 5…リズム規則 6…音響振幅パタン生成部 7…パワー規則 8…ピッチパタン生成部 9…韻律制御規則 10…音源生成部 11…スクペクトルパタン生成部 12…音韻性向上規則 13…音声合成基本単位データベース 14…音韻結合規則 15…音声合成器 16…スピーカ 21…自然音声パワー包絡 22…マクロ包絡 31…VCVパワー包絡 32…再分析パワー包絡 33…差分パワー 34…正規化ミクロ包絡
BRIEF DESCRIPTION OF THE DRAWINGS FIG. 1 is a diagram showing a configuration of a speech synthesis system according to an embodiment of the present invention. FIG. 2 is a view for explaining how to obtain a macro envelope used for the power rule in FIG. 1; FIG. 3 is a view for explaining a method of obtaining a micro envelope used for the power rule in FIG. 2; FIG. 4 is a graph for explaining a variation of a macro envelope in natural utterance. [Description of Signs] 1 ... Sentence input device 2 ... Text analysis unit 3 ... Pronunciation information generation rule 4 ... Phonological duration length generation unit 5 ... Rhythm rule 6 ... Sound amplitude pattern generation unit 7 ... Power rule 8 ... Pitch pattern generation unit 9 Prosody control rule 10 Sound source generation unit 11 Spectrum pattern generation unit 12 Phonological improvement rule 13 Speech synthesis basic unit database 14 Phoneme connection rule 15 Speech synthesizer 16 Speaker 21 Natural sound power envelope 22 ... macro envelope 31 ... VCV power envelope 32 ... reanalysis power envelope 33 ... difference power 34 ... normalized micro envelope

Claims (1)

(57)【特許請求の範囲】 【請求項1】 音声規則合成装置において、パワー制御
部が、母音を始めとする有声音で特徴付けられる音声パ
ワーの緩やかな変化を制御するマクロ包絡モデルと、子
音の調音によって特徴付けられる細かいパワー変化を制
御するミクロ包絡モデルを、母音−子音−母音の組合せ
毎に記憶したデータベースを具備し、このデータベース
を用いて音声パワー包絡を形成することを特徴とする音
声規則合成装置。
(57) [Claims 1] In the speech rule synthesizing device, a power control unit controls a gradual change of speech power characterized by voiced sounds including vowels, and a macro envelope model. A microenvelope model for controlling a fine power change characterized by articulation of a consonant is provided for each vowel-consonant-vowel combination, and a speech power envelope is formed using this database. Voice rule synthesizer.
JP24799493A 1993-10-04 1993-10-04 Voice rule synthesizer Expired - Fee Related JP3368948B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP24799493A JP3368948B2 (en) 1993-10-04 1993-10-04 Voice rule synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP24799493A JP3368948B2 (en) 1993-10-04 1993-10-04 Voice rule synthesizer

Publications (2)

Publication Number Publication Date
JPH07104790A JPH07104790A (en) 1995-04-21
JP3368948B2 true JP3368948B2 (en) 2003-01-20

Family

ID=17171616

Family Applications (1)

Application Number Title Priority Date Filing Date
JP24799493A Expired - Fee Related JP3368948B2 (en) 1993-10-04 1993-10-04 Voice rule synthesizer

Country Status (1)

Country Link
JP (1) JP3368948B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630896B2 (en) 2005-03-29 2009-12-08 Kabushiki Kaisha Toshiba Speech synthesis system and method

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7630896B2 (en) 2005-03-29 2009-12-08 Kabushiki Kaisha Toshiba Speech synthesis system and method

Also Published As

Publication number Publication date
JPH07104790A (en) 1995-04-21

Similar Documents

Publication Publication Date Title
Saino et al. An HMM-based singing voice synthesis system
US6625575B2 (en) Intonation control method for text-to-speech conversion
US8719030B2 (en) System and method for speech synthesis
Macon et al. A singing voice synthesis system based on sinusoidal modeling
US7010488B2 (en) System and method for compressing concatenative acoustic inventories for speech synthesis
Liu et al. High quality voice conversion through phoneme-based linear mapping functions with straight for mandarin
JP2000305582A (en) Speech synthesizing device
US20040030555A1 (en) System and method for concatenating acoustic contours for speech synthesis
Aryal et al. Foreign accent conversion through voice morphing.
JP3576840B2 (en) Basic frequency pattern generation method, basic frequency pattern generation device, and program recording medium
JPH0887296A (en) Voice synthesizer
US7280969B2 (en) Method and apparatus for producing natural sounding pitch contours in a speech synthesizer
JP2904279B2 (en) Voice synthesis method and apparatus
JP3368948B2 (en) Voice rule synthesizer
Saitou et al. Analysis of acoustic features affecting" singing-ness" and its application to singing-voice synthesis from speaking-voice
JP3437064B2 (en) Speech synthesizer
JPH0580791A (en) Device and method for speech rule synthesis
JP5175422B2 (en) Method for controlling time width in speech synthesis
Waghmare et al. Analysis of pitch and duration in speech synthesis using PSOLA
JP2848604B2 (en) Speech synthesizer
JP3078073B2 (en) Basic frequency pattern generation method
Ngo et al. Toward a rule-based synthesis of vietnamese emotional speech
Lai F0 control model for mandarin singing voice synthesis
JPH0836397A (en) Voice synthesizer
JP2004206144A (en) Fundamental frequency pattern generating method and program recording medium

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees