JPH01262598A - Utterance speed control circuit for voice synthesizing device - Google Patents

Utterance speed control circuit for voice synthesizing device

Info

Publication number
JPH01262598A
JPH01262598A JP63091131A JP9113188A JPH01262598A JP H01262598 A JPH01262598 A JP H01262598A JP 63091131 A JP63091131 A JP 63091131A JP 9113188 A JP9113188 A JP 9113188A JP H01262598 A JPH01262598 A JP H01262598A
Authority
JP
Japan
Prior art keywords
speech
spectrum
conversion means
converting
rate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP63091131A
Other languages
Japanese (ja)
Other versions
JP2956936B2 (en
Inventor
Yoshinori Kitahara
義典 北原
Yoichi Higashikura
東倉 洋一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
A T R SHICHIYOUKAKU KIKO KENKYUSHO KK
Original Assignee
A T R SHICHIYOUKAKU KIKO KENKYUSHO KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A T R SHICHIYOUKAKU KIKO KENKYUSHO KK filed Critical A T R SHICHIYOUKAKU KIKO KENKYUSHO KK
Priority to JP63091131A priority Critical patent/JP2956936B2/en
Publication of JPH01262598A publication Critical patent/JPH01262598A/en
Application granted granted Critical
Publication of JP2956936B2 publication Critical patent/JP2956936B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

PURPOSE:To generate a composition voice being natural and easily listenable to a listener even in case when an utterance speed has been varied by calculating a spectrum variation rate by analyzing an hourly variation of a spectrum and providing a function relation between the spectrum variation rate and the utterance speed. CONSTITUTION:The title circuit is provided with a spectrum variation analyzing means 4 for converting a digital sound signal which has been brought to A/D conversion by an A/D converting means 1, to a spectrum by an analyzing means 3, and calculating a spectrum variation rate by analyzing an hourly variation of its spectrum, and a function relation is provided between the spectrum variation rate and the utterance speed by an utterance speed control part 6. In such a way, in case of varying the utterance speed of a composite voice, a degree of shrinkage is varied in accordance with magnitude of a spectral variation, and a sound source and a composite frame period of a spectral parameter are determined, therefore, decay caused by time expansion and contraction of a phoneme whose spectral variation is violent can be prevented, and a voice being natural and easily listenable can be obtained.

Description

【発明の詳細な説明】 [産業上の利用分野] この発明は音声合成装置の発声速度制御回路に関し、特
に、音声合成装置において発声速度を変化させた場合で
あっても、聴取者にとって自然で聞きやすい合成音を出
力するような発声速度制御回路に関する。
[Detailed Description of the Invention] [Industrial Application Field] This invention relates to a speech rate control circuit for a speech synthesizer, and in particular, even when the speech rate is changed in a speech synthesizer, it is possible to control the speech rate in a way that is natural to the listener. This invention relates to a speech rate control circuit that outputs synthesized sounds that are easy to hear.

【従来の技術および発明が解決しようとする課功]従来
の音声合成装置は、たとえば特開昭50−153807
号公報に記載されているように、/p/、/l/、/に
/のような破裂性の短時間子音では伸縮率を小さくし、
また安定した母音では伸縮率を大きくして、音韻単位で
合成音の発声速度を制御するようにしていた。しかしな
がら、単に音韻側に伸縮率を変えるだけでは、細かい音
韻性の保存に対する配慮が不十分であり、合成音を聴取
したとき、不自然さが残るという欠点があった。
[Prior art and problems to be solved by the invention] A conventional speech synthesis device is, for example, disclosed in Japanese Patent Application Laid-Open No.
As stated in the publication, the expansion and contraction ratio is reduced for plosive short consonants such as /p/, /l/, and /ni/.
In addition, for stable vowels, the expansion and contraction ratio was increased to control the speech rate of synthesized sounds on a phoneme-by-phoneme basis. However, simply changing the expansion/contraction rate on the phonetic side does not give sufficient consideration to the preservation of fine phonological properties, and has the disadvantage that an unnatural sound remains when listening to the synthesized sound.

それゆえに、この発明の主たる目的は、音声合成装置に
おいて発声速度を変化させた場合であっても、聴取者に
とって自然で聞きやすい合成音声を生成できるような発
声速度制御回路を提供することである。
Therefore, the main object of the present invention is to provide a speech rate control circuit that can generate synthesized speech that is natural and easy for listeners to hear even when the speech rate is changed in a speech synthesizer. .

[課題を解決するための手段] 第1請求項に係る発明は、音声を入力するための入力手
段と、入力された音声をディジタル信号に変換するため
のA/D変換手段と、A/D変換されたディジタル音声
信号を分析して特徴パラメータを抽出する分析手段と、
抽出された特徴パラメータを合成音声に変換する合成音
声変換手段と、変換された合成音声をアナログ信号に変
換して出力するD/A変換手段とを備えた音声合成装置
において、A/D変換されたディジタル音声信号をスペ
クトルに変換し、そのスペクトルの時間的変化を解析し
てスペクトル変化率を算出するスペクトル変化解析手段
を設け、スペクトル変化率と発声速度との間に関数関係
を持たせるように発声速度制御回路を構成したものであ
る。
[Means for Solving the Problem] The invention according to the first claim includes an input means for inputting audio, an A/D conversion means for converting the input audio into a digital signal, and an A/D conversion means for converting the input audio into a digital signal. analysis means for analyzing the converted digital audio signal and extracting feature parameters;
In a speech synthesis device comprising a synthetic speech converting means for converting extracted feature parameters into synthetic speech, and a D/A converting means for converting the converted synthetic speech into an analog signal and outputting it, A/D conversion is performed. A spectral change analysis means is provided to convert a digital audio signal into a spectrum, analyze temporal changes in the spectrum, and calculate a spectral change rate, and create a functional relationship between the spectral change rate and the speaking rate. This is a configuration of a speech rate control circuit.

請求項第2項に係る発明は、文字列または記号列を入力
するための入力手段と、入力された文字列または記号列
を読み列に変換するための読み列変換手段と、変換され
た読み列を合成音声に変換する合成音声変換手段と、変
換された合成音声をアナログ信号に変換するD/A変換
手段とを備えた音声合成装置において、変換された読み
列をスペクトルに変換し、そのスペクトルの時間的変化
を解析してスペクトル変化率を算出するスペクトル変化
解析手段を設け、スペクトル変化率と発声速度との間に
関数関係を持たせるように発声速度制御回路を構成した
ものである。
The invention according to claim 2 includes: an input means for inputting a character string or a symbol string; a reading sequence converting means for converting the input character string or symbol string into a reading string; and a converted reading string. In a speech synthesizer equipped with synthetic speech conversion means for converting a sequence into synthetic speech and D/A conversion means for converting the converted synthetic speech into an analog signal, the converted pronunciation sequence is converted into a spectrum and its A spectral change analysis means for calculating a spectral change rate by analyzing temporal changes in the spectrum is provided, and a voicing rate control circuit is configured to provide a functional relationship between the spectral change rate and the utterance rate.

[作用] この発明に係る音声合成装置の発声速度制御回路は、音
声信号または変換された読み列をスペクトルに関するパ
ラメータに変換し、そのスペクトルパラメータの時間的
変化を算出し、その時間的変化に対応させて合成音声信
号の時間伸縮を行なって出力する。
[Operation] The speech rate control circuit of the speech synthesizer according to the present invention converts a speech signal or a converted pronunciation sequence into a parameter related to a spectrum, calculates a temporal change in the spectral parameter, and responds to the temporal change. The synthesized audio signal is then time-stretched and output.

[発明の実施例] 第1図はこの発明の一実施例の概略ブロック図である。[Embodiments of the invention] FIG. 1 is a schematic block diagram of an embodiment of the present invention.

第1図において、音声入力部10は発声された音声が入
力されるものであって、その発声された音声は、A/D
変換変換部1に入力され、所定の間隔のサンプリング信
号によりディジタル信号に変換される。ディジタル信号
に変換された音声は、スペクトル分析部3に与えられ、
音韻性情報を担ったスペクトルパラメータに変換される
。このスペクトルパラメータとしては、たとえば斉藤・
中田著″音声情報処理の基礎′ (オーム社発行)に紀
裁されているようなPARCOR係数などがある。なお
、このPARCOR係数はスペクトルパラメータの一例
であり、この発明は特にこれに限定されるものではない
In FIG. 1, an audio input unit 10 is used to input uttered audio, and the uttered audio is input to the A/D
The signal is input to the converter 1 and converted into a digital signal using sampling signals at predetermined intervals. The audio converted into a digital signal is given to the spectrum analysis section 3,
It is converted into spectral parameters that carry phonological information. As this spectral parameter, for example, Saito
There are PARCOR coefficients as described in "Fundamentals of Speech Information Processing" by Nakata (published by Ohmsha).Please note that this PARCOR coefficient is an example of a spectral parameter, and this invention is particularly limited to this. It's not a thing.

A/D変換部1から出力された音声のディジタル信号は
音声分析部2にも入力され、音声のディジタル信号から
音源情報であるピッチ周期やパワー情報などの音源パラ
メータが抽出される。音源分析部2によって抽出された
音源パラメータとスペクトル分析部3によって分析され
たスペクトルパラメータは合成部5に与えられる。合成
部5はスペクトルパラメータおよび音源パラメータを用
いて合成音声を生成する。
The audio digital signal output from the A/D converter 1 is also input to the audio analyzer 2, and sound source parameters such as pitch period and power information, which are sound source information, are extracted from the audio digital signal. The sound source parameters extracted by the sound source analysis section 2 and the spectrum parameters analyzed by the spectrum analysis section 3 are provided to the synthesis section 5. The synthesis unit 5 generates synthesized speech using the spectral parameters and the sound source parameters.

すなわち、合成部5では、前述のピッチ周期の間隔で単
位フレーム内のスペクトルパラメータヲ繰返し、音声パ
ラメータの列に変換する。この合成部5としては、たと
えばJ、D、Markeland  A、H,Gray
  Jr著、鈴木訳″音声の線形予測″ (コロナ社発
行)に記載されているような2乗算器格子形音声合成フ
ィルタを用いて、前述のスペクトルパラメータおよび音
源パラメータにより音声波形を合成する。なお、2乗算
器格子形音声合成フィルタは一例であって、他の音声合
成手段を用いるようにしてもよい。合成された音声波形
はD/A変換部7を介して音声として出力される。
That is, the synthesis unit 5 repeats the spectral parameters within a unit frame at intervals of the pitch period described above and converts them into a string of audio parameters. This synthesis section 5 includes, for example, J, D, Markeland A, H, Gray.
A speech waveform is synthesized using the above-mentioned spectral parameters and sound source parameters using a square multiplier lattice speech synthesis filter such as that described in "Linear Prediction of Speech" (published by Corona Publishing Co., Ltd.), written by John Jr. and translated by Suzuki (published by Corona Publishing). Note that the square multiplier lattice type voice synthesis filter is only an example, and other voice synthesis means may be used. The synthesized audio waveform is output as audio via the D/A converter 7.

次に、前述の合成音声の発声速度の制御について説明す
る。合成音声の発声速度の制御は、合成部5において、
音源パラメータおよびスペクトルパラメータより音声波
形を合成する際に、音源パルスおよびスペクトルパラメ
ータの合成フレーム周期を変えることによって実現され
る。このような発声の制御を行なうものが、スペクトル
変化分析部4および発声速度制御部6である。まず、ス
ペクトル変化分析部4では、スペクトル分析部3におい
て算出されたスペクトルパラメータを用いて時間的な変
化率Δを求める。たとえば、嵯峨山。
Next, control of the speech rate of the synthesized speech mentioned above will be explained. The speech rate of the synthesized speech is controlled by the synthesis unit 5,
This is achieved by changing the synthesis frame period of the sound source pulses and spectrum parameters when synthesizing the speech waveform from the sound source parameters and spectrum parameters. The spectral change analysis section 4 and the speech rate control section 6 perform such vocal control. First, the spectrum change analysis section 4 uses the spectrum parameters calculated in the spectrum analysis section 3 to find the temporal change rate Δ. For example, Mt. Saga.

板倉著、“音声の動的尺度に含まれる個人性情報。Itakura, “Personality information contained in dynamic measures of speech.

日本音響学会講演論文集(昭和54年6月発行)に記載
されているようなLPCケプストラム回帰係数を用いた
動的尺度をスペクトル変化率Δとして使用することがで
きる。もちろんスペクトル変化率の尺度はこれに限定さ
れるものではない。
A dynamic scale using LPC cepstral regression coefficients as described in the Proceedings of the Acoustical Society of Japan (published in June 1974) can be used as the spectral change rate Δ. Of course, the scale of the spectral change rate is not limited to this.

第2図(a)は音声のスペクトル変化率Δの時間変化の
一例を示したものであり、この変化率Δのフレームごと
の平均値を示したものが第2図(b)である。第2図(
c)は原音声と同じ速度で発声させる場合の音源パルス
およびスペクトルパラメータの例であり、第2図(C)
においては、第iフレーム目と第jフレーム目の音源を
表示して示す。また、それぞれのフレームにおけるスペ
クトルパラメータは、それぞれベクトル(P、。
FIG. 2(a) shows an example of a temporal change in the voice spectrum change rate Δ, and FIG. 2(b) shows the average value of this change rate Δ for each frame. Figure 2 (
c) is an example of the sound source pulse and spectral parameters when vocalizing at the same speed as the original voice, and Figure 2 (C)
, the sound sources of the i-th frame and the j-th frame are displayed. Also, the spectral parameters in each frame are vectors (P, .

P1□・・・p′= + 、  (P’、 、  P’
2・・・p’m lで表わされでいる。
P1□...p'= + , (P', , P'
2... It is expressed as p'ml.

次に、合成音声の発声速度を低下させる、すなわち音声
を時間軸方向に伸長させる場合について説明する。この
発明の一実施例では、第2図(b)に示すように、フレ
ームごとに求めたスペクトル変化率Δに基づいて、音源
パルスの時間長を決定する。第2図(b)に示した例で
は、第iフレームのスペクトル変化率Δi、第2図(C
)に示シた例では第iフレーム目の原音声の音源パルス
の時間長Liに対して、新たな音源パルス時間長しNi
を次の第(1)式により決定する。
Next, a case will be described in which the speaking speed of synthesized speech is reduced, that is, the speech is expanded in the time axis direction. In one embodiment of the present invention, as shown in FIG. 2(b), the time length of the sound source pulse is determined based on the spectral change rate Δ determined for each frame. In the example shown in FIG. 2(b), the spectral change rate Δi of the i-th frame is
), the new sound source pulse time length is Ni for the time length Li of the sound source pulse of the i-th original audio.
is determined by the following equation (1).

LN i =L i XΔmax/Δ1−(1)ここで
、Δmax””maxΔに ト である。このようにして、スペクトル変化率Δの値の大
きさと伸縮率の間に逆相量関係を持たせて、新しく音源
パルスおよび第2図(d)に示すようにスペクトルパラ
メータ fP’+ 、  P′2・・・P−) を配置
する。
LN i =L i In this way, an inverse relationship is established between the magnitude of the value of the spectral change rate Δ and the expansion/contraction rate, and new sound source pulses and spectral parameters fP'+ and P' are obtained as shown in FIG. 2(d). 2...P-) is placed.

上述の手続きは合成音声発声速度を上げる場合にも適用
でき、第(1)式を LNi−r、txΔi/Δmax−(2)とし、新しい
音源パルス時間長LNiを決定する。
The above procedure can also be applied to increase the synthetic speech production speed, and the new sound source pulse time length LNi is determined by setting equation (1) to LNi-r, txΔi/Δmax-(2).

ここで、スペクトル変化率と伸縮率の間の関係は、逆相
関でなくてもよく、任意の関数を用いることができる。
Here, the relationship between the spectral change rate and the expansion/contraction rate does not need to be an inverse correlation, and any function can be used.

第3図はこの発明の他の実施例を示す概略ブロック図で
ある。
FIG. 3 is a schematic block diagram showing another embodiment of the invention.

第3図において、入力端子20には、図示しないOCR
やキーボードなどの人力手段が文字列または記号列で表
現された文章や単語などが入力される。入力された文章
や単語は、形態素解析部8によって、形態素辞書部9に
記憶されている内容に基づいて、形態素の列に変換され
る。形態素辞書部9は少なくとも“読み”および″品詞
”を記憶しており、入力された文字列または記号列に対
して、たとえば相沢、江原著″計算機によるかな漢字変
換’、NHK技術研究、25−5に記載されているよう
な最長一致法などの手段を用いて形態素への分割を行な
う。この最長一致法は、形態素分割のための手段の一例
であり、これに限定されるものではない。
In FIG. 3, the input terminal 20 has an OCR (not shown)
Sentences, words, etc. expressed as character strings or symbol strings are input using manual means such as a computer or a keyboard. The input sentences and words are converted into a string of morphemes by the morphological analysis section 8 based on the contents stored in the morphological dictionary section 9. The morpheme dictionary unit 9 stores at least "pronunciation" and "part of speech," and uses, for example, Aizawa and Ehara, "Kana-Kanji Conversion by Computer," NHK Technical Research, 25-5, for input character strings or symbol strings. Division into morphemes is performed using a means such as the longest match method as described in 2003. This longest match method is an example of a means for morpheme division, and is not limited thereto.

形態素解析部8によって解析された形態素は、ピッチ制
御処理部10に与えられ、アクセント辞書部11および
アクセント結合規則部12に記憶されている内容に基づ
いて、音の高低を表わすピッチ周波数成分が決定される
。ピッチ周波数成分の付与された形態素列は、音声パラ
メータ生成部13に与えられ、音素片辞書部14に記憶
されている内容に基づいて、音素のパラメータの列に変
換される。音素片辞書部14は音素片すなわち、文章や
単語を構成している音素、またはCV、VCなどの音韻
連鎖をパラメータとして保持しており、形態素を構成す
る音素またはCV、VCなどの音韻の順に従って該音素
片を配列し、上述のピッチ周波数の間隔で単位フレーム
内のパラメータを繰返し音声パラメータの列に変換する
The morphemes analyzed by the morphological analysis unit 8 are given to the pitch control processing unit 10, and based on the contents stored in the accent dictionary unit 11 and accent combination rule unit 12, pitch frequency components representing the pitch of the sound are determined. be done. The morpheme string to which the pitch frequency component has been added is provided to the speech parameter generation section 13, and is converted into a string of phoneme parameters based on the contents stored in the phoneme segment dictionary section 14. The phoneme segment dictionary section 14 holds phoneme segments, that is, phonemes that make up sentences and words, or phoneme chains such as CV and VC as parameters, and the order of phonemes that make up a morpheme or phonemes such as CV and VC. The phonemes are arranged according to the above pitch frequency, and the parameters within a unit frame are repeatedly converted into a string of voice parameters at intervals of the pitch frequency described above.

以下、スペクトル分析部15.スペクトル変化分析部1
61合成部170発声速度制御部18およびD/A変換
部19は前述の第1図に示した実施例と同様の動作を行
なう。
Below, the spectrum analysis section 15. Spectral change analysis section 1
61 synthesis section 170 speech rate control section 18 and D/A conversion section 19 perform the same operations as in the embodiment shown in FIG. 1 described above.

〔発明の効果〕〔Effect of the invention〕

以上のように、この発明によれば、合成音声の発声速度
を変化させる場合に、スペクトル変化の大きさに応じて
伸縮率を変化させ、音源およびスペクトルパラメータの
合成フレーム周期を決定するようにしたので、スペクト
ル変化の激しい音韻の時間伸縮による崩壊を防ぐことが
でき、自然で聞きやすい音声を得ることができる。
As described above, according to the present invention, when changing the speech rate of synthesized speech, the expansion/contraction rate is changed according to the magnitude of the spectral change, and the synthesis frame period of the sound source and spectral parameters is determined. Therefore, it is possible to prevent phonemes with severe spectral changes from collapsing due to time warping, and it is possible to obtain natural and easy-to-listen speech.

【図面の簡単な説明】[Brief explanation of the drawing]

第1図はこの発明の一実施例の概略ブロック図である。 第2図(a)はスペクトル変化率の一例を示す図であり
、第2図(b)は第2図(a)に示したスペクトル変化
率をフレームごとに平均化して示したものであり、第2
図(c)は原音声と同じ速度の場合の音源パルスおよび
びスペクトルパラメータの配置図であり、第2図(d)
は第2図(b)に示したスペクトル変化率に基づいて決
定した新しい音源パルスおよびスペクトルパラメータの
配置を示す図である。第3図はこの発明の他の実施例の
概略ブロック図である。 図において、1はA/D変換部、2は音源分析部、3,
15はスペクトル分析部、4.16はスペクトル変化分
析部、5.ニアは合成部、6,18は発声速度制御部、
7,19はD/A変換部、8は形態素解析部、9は形態
素辞書部、10はピッチ制御処理部、11はアクセント
辞書部、12はアクセント結合規則部、13は音声パラ
メータ生成部、14は音素片辞書部を示す。 特許出願人 株式会社エイ・ティ・アールト2−一  
−輪 手続補正書(、filc) 昭和63年8月10日 1、事件の表示 昭和63年特許願第 91131  号昭和  年  
月  口提出の特性別 2、発明の名称 音声合成装置の発声速度制御回路 3、補正をする者 事件との関係  特許出願人 住 所 京都府)■楽部精華町大字乾谷小字三平谷5番
地名 称 株式会社エイ・ティ・アール現聴宛機構研究
所代表者淀用英司 4、代理人 住 所  大阪市北区南森町2丁目1番29号 住友銀
行南森町ビル6、補正の対象 図面 7、補正の内容 図面の第2図を別紙のとおり補正する。 以上
FIG. 1 is a schematic block diagram of an embodiment of the present invention. FIG. 2(a) is a diagram showing an example of the spectral change rate, and FIG. 2(b) is a diagram showing the spectral change rate shown in FIG. 2(a) averaged for each frame. Second
Figure (c) is a diagram showing the arrangement of sound source pulses and spectral parameters when the speed is the same as that of the original voice, and Figure 2 (d)
2(b) is a diagram showing the arrangement of new sound source pulses and spectral parameters determined based on the spectral change rate shown in FIG. 2(b). FIG. 3 is a schematic block diagram of another embodiment of the invention. In the figure, 1 is an A/D converter, 2 is a sound source analyzer, 3,
15 is a spectrum analysis section, 4.16 is a spectrum change analysis section, and 5. Nia is a synthesis unit, 6 and 18 are speech rate control units,
7 and 19 are D/A conversion units, 8 is a morphological analysis unit, 9 is a morphological dictionary unit, 10 is a pitch control processing unit, 11 is an accent dictionary unit, 12 is an accent combination rule unit, 13 is a speech parameter generation unit, 14 indicates the phoneme dictionary section. Patent applicant: A.T.A.R.T. 2-1 Co., Ltd.
- Proceedings Amendment (, filc) August 10, 1988 1, Case Description 1988 Patent Application No. 91131 Showa Year
Monthly Submission Characteristics 2, Name of the invention Speech rate control circuit for speech synthesis device 3, Relationship to the case of the person making the amendment Patent applicant address Kyoto Prefecture) ■Rakubu Seika-cho Oaza Inuiya Koza Sanpeidani 5 name Name: ATR Co., Ltd. Research Institute Representative: Eiji Yodoyo 4; Agent Address: Sumitomo Bank Minamimorimachi Building 6, 2-1-29 Minamimorimachi, Kita-ku, Osaka; Drawing subject to amendment 7; Contents of the amendment Figure 2 of the drawings will be amended as shown in the attached sheet. that's all

Claims (2)

【特許請求の範囲】[Claims] (1)音声を入力するための入力手段と、 前記入力手段から入力された音声をディジタル信号に変
換するためのA/D変換手段と、前記A/D変換手段に
よって変換されたディジタル音声信号を分析して特徴パ
ラメータを抽出する分析手段と、 前記分析手段によって抽出された特徴パラメータを合成
音声に変換する合成音声変換手段と、前記合成音声変換
手段によって変換された合成音声をアナログ信号に変換
して出力するD/A変換手段とを備えた音声合成装置に
おいて、 前記A/D変換手段によって変換されたディジタル音声
信号をスペクトルに変換し、該スペクトルの時間的変化
を解析してスペクトル変化率を算出するスペクトル変化
解析手段を含み、 前記スペクトル変化率と発声速度との間に関数関係を持
たせることを特徴とする、発声速度制御回路。
(1) An input means for inputting audio, an A/D conversion means for converting the audio input from the input means into a digital signal, and a digital audio signal converted by the A/D conversion means. an analysis means for analyzing and extracting feature parameters; a synthetic speech conversion means for converting the feature parameters extracted by the analysis means into synthetic speech; and a synthetic speech conversion means for converting the synthetic speech converted by the synthetic speech conversion means into an analog signal. A speech synthesis device comprising a D/A conversion means for outputting a signal, the digital audio signal converted by the A/D conversion means is converted into a spectrum, and temporal changes in the spectrum are analyzed to determine the rate of change in the spectrum. A speech rate control circuit, comprising a spectral change analysis means for calculating, and creating a functional relationship between the spectral change rate and the speech rate.
(2)文字列または記号列を入力するための入力手段と
、 前記入力手段によって入力された文字列または記号列を
読み列に変換するための読み列変換手段と、 前記読み列変換手段によって変換された読み列を合成音
声に変換する合成音声変換手段と、前記合成音声変換手
段によって変換された合成音声をアナログ信号に変換す
るD/A変換手段とを備えた音声合成装置において、 前記読み列変換手段によって変換された読み列をスペク
トルに変換し、該スペクトルの時間的変化を解析してス
ペクトル変化率を算出するスペクトル変化解析手段を含
み、 前記スペクトル変化率と発声速度との間に関数関係を持
たせることを特徴とする、発声速度制御回路。
(2) an input means for inputting a character string or a symbol string; a pronunciation conversion means for converting the character string or symbol string input by the input means into a pronunciation; and conversion by the pronunciation conversion means. A speech synthesis device comprising a synthetic speech conversion means for converting the read sequence into a synthesized speech, and a D/A conversion means for converting the synthesized speech converted by the synthetic speech conversion means into an analog signal, spectral change analysis means for converting the pronunciation sequence converted by the conversion means into a spectrum, analyzing temporal changes in the spectrum to calculate a spectral change rate, and determining a functional relationship between the spectral change rate and the speaking rate. A speech rate control circuit characterized by having:
JP63091131A 1988-04-13 1988-04-13 Speech rate control circuit of speech synthesizer Expired - Lifetime JP2956936B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63091131A JP2956936B2 (en) 1988-04-13 1988-04-13 Speech rate control circuit of speech synthesizer

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63091131A JP2956936B2 (en) 1988-04-13 1988-04-13 Speech rate control circuit of speech synthesizer

Publications (2)

Publication Number Publication Date
JPH01262598A true JPH01262598A (en) 1989-10-19
JP2956936B2 JP2956936B2 (en) 1999-10-04

Family

ID=14017982

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63091131A Expired - Lifetime JP2956936B2 (en) 1988-04-13 1988-04-13 Speech rate control circuit of speech synthesizer

Country Status (1)

Country Link
JP (1) JP2956936B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005331588A (en) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> Method and program to adjust voice reproducing speed and recording medium which stores the program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6364098A (en) * 1986-09-05 1988-03-22 株式会社日立製作所 Voice synthesization system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6364098A (en) * 1986-09-05 1988-03-22 株式会社日立製作所 Voice synthesization system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005331588A (en) * 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> Method and program to adjust voice reproducing speed and recording medium which stores the program

Also Published As

Publication number Publication date
JP2956936B2 (en) 1999-10-04

Similar Documents

Publication Publication Date Title
Isewon et al. Design and implementation of text to speech conversion for visually impaired people
Choi et al. Korean singing voice synthesis based on auto-regressive boundary equilibrium gan
JPH0632020B2 (en) Speech synthesis method and apparatus
JPH0772900A (en) Method of adding feelings to synthetic speech
RU61924U1 (en) STATISTICAL SPEECH MODEL
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
JP3109778B2 (en) Voice rule synthesizer
JPH01262598A (en) Utterance speed control circuit for voice synthesizing device
PATIL A wavelet based concatenation algorithm for Gujarati speech synthesis
JPH0580791A (en) Device and method for speech rule synthesis
JP2536169B2 (en) Rule-based speech synthesizer
Kumar et al. Building a Light Weight Intelligible Text-to-Speech Voice Model for Indian Accent Telugu
JP3081300B2 (en) Residual driven speech synthesizer
JPH02106799A (en) Synthetic voice emotion imparting circuit
WO2023182291A1 (en) Speech synthesis device, speech synthesis method, and program
JP2703253B2 (en) Speech synthesizer
JPH02293900A (en) Voice synthesizer
JPH02236600A (en) Circuit for giving emotion of synthesized voice information
JP2907828B2 (en) Voice interactive document creation device
Singh et al. Removal of spectral discontinuity in concatenated speech waveform
JPH0667685A (en) Speech synthesizing device
JPH06250685A (en) Voice synthesis system and rule synthesis device
Barakat et al. The effect of speech features and HMM parameters on the quality of HMM based Arabic synthesis system
Strecha et al. Low resource tts synthesis based on cepstral filter with phase randomized excitation
JPH07140999A (en) Device and method for voice synthesis