JPH03189697A - Regular voice synthesizing device - Google Patents

Regular voice synthesizing device

Info

Publication number
JPH03189697A
JPH03189697A JP1328257A JP32825789A JPH03189697A JP H03189697 A JPH03189697 A JP H03189697A JP 1328257 A JP1328257 A JP 1328257A JP 32825789 A JP32825789 A JP 32825789A JP H03189697 A JPH03189697 A JP H03189697A
Authority
JP
Japan
Prior art keywords
amplitude
phoneme
speech
output
pitch pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1328257A
Other languages
Japanese (ja)
Inventor
Naoto Iwahashi
直人 岩橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP1328257A priority Critical patent/JPH03189697A/en
Publication of JPH03189697A publication Critical patent/JPH03189697A/en
Pending legal-status Critical Current

Links

Abstract

PURPOSE:To improve the working efficiency of an input and rewriting of a document, etc., and also, to obtain a regular voice synthesizing device having a high tone quality obtaining a more complete composite voice by synthesizing a prescribed parameter, a pitch pattern and amplitude and obtaining the composite voice. CONSTITUTION:A document into which phoneme information obtained by a syntex analysis and a symantic analysis of an arbitrary document is inserted as a phoneme symbol S is inputted from a keyboard, etc., and its data is trans mitted to a phoneme parameter converting circuit 4. To the circuit 4, an output from a phoneme parameter file 3 in which a list of parameters is stored is also supplied, therefore, the data of the symbol S is converted to a phoneme parameter, based on this output. Also, a signal from a microphone 2 passes through an A/D converter 9 and an output signal is transmitted to a pitch pattern determining circuit 5 and an amplitude determining circuit 6, and by the circuit 5, 6, a pitch pattern and amplitude of a voice based on the output signal are determined. In a synthesizing 7, the phoneme parameter, the pitch pattern and the amplitude synthesize a voice, and this composite voice output is outputted from an output terminal 8.

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は、いわゆる規則合成方式によって音声る。[Detailed description of the invention] [Industrial application field] The present invention generates speech using a so-called rule synthesis method.

〔発明の概要〕[Summary of the invention]

本発明は、音韻情報を所定のパラメータに変換し、音声
を電気的信号に変換してその信号のピッチパターンと振
幅を求め、それらを合成して合成音声を得るようにした
ことにより、作業効率が高く、かつ、より完全な合成音
声を得ることが可能な規則音声合成装置を提供するもの
である。
The present invention improves work efficiency by converting phonological information into predetermined parameters, converting speech into electrical signals, determining the pitch pattern and amplitude of the signals, and synthesizing them to obtain synthetic speech. The present invention provides a regular speech synthesizer that is capable of obtaining high-quality synthesized speech and more complete synthesized speech.

〔従来の技術〕[Conventional technology]

音声を人工的につくり出すことを音声合成という、この
音声合成の方式は録音編集方式、パラメータ編集方式、
規則合成方式等に分類できる。
Artificially creating sounds is called speech synthesis, and this method of speech synthesis includes recording editing method, parameter editing method,
It can be classified into rule synthesis methods, etc.

上記録音編集方式は、予め、人が発声した音声を単語や
文節等を単位にとって蓄積(録音)しておき、必要に応
じてそれらを読み出して接a([集)し、音声を合成す
るものである。
The recording/editing method described above stores (records) voices uttered by a person in units of words, phrases, etc., and reads them out and aggregates them as needed to synthesize voices. It is.

上記パラメータ編集方式は、上記録音編集方式の場合と
同様に単語1文節等を単位とするが、予め人が発声した
音声を音声生成モデルに基づいて分析して、パラメータ
時系列の形で蓄え、必要に応じて接続したパラメータ時
系列を用いて音声合成装置を駆動し、音声を合成する方
式である。具体的な音声合成装置としては、いわゆるチ
ャネルボコーダや、LSP (線スペクトル対)、PA
RCOR(偏自己相関)方式等の線形予測分析法に基づ
く合成装置が用いられる。
The above parameter editing method uses a single word, phrase, etc. as a unit, as in the case of the above recording editing method, but it analyzes the voice uttered by a person in advance based on a speech generation model and stores it in the form of a parameter time series. This method uses connected parameter time series as necessary to drive a speech synthesizer to synthesize speech. Specific speech synthesis devices include a so-called channel vocoder, LSP (line spectrum pair), and PA.
A synthesis device based on a linear predictive analysis method such as the RCOR (partial autocorrelation) method is used.

上記規則合成方式は、比較的短い長さの音声パラメータ
を合成の単位として蓄積しておき、接続の仕方や長さの
調整、アクセントやイントネーション等を人力として与
え、規則によって合成装置を制御する音声パラメータの
生成を行う。そして、生成された音声パラメータを合成
装置に与えることによって、合成音を人工的に作り出す
。この方法を用いれば、与えられた文字情報に基づいて
どのような文章も合成できる。入力された発音記号等の
音韻記号とアクセント等の韻律記号は、各音韻に対応し
たパラメータの一覧表やアクセントパターンの一覧表等
を用いて、入力記号系列から制御パラメータに変換され
る。また、音調結合を考慮したパラメータの変形等が規
則によって行われる。
The rule synthesis method described above stores relatively short audio parameters as units of synthesis, and then manually adds settings such as connection methods, length adjustments, accents, and intonation, and controls the synthesizer using rules. Generate parameters. Then, by giving the generated voice parameters to a synthesizer, a synthesized sound is artificially created. Using this method, any text can be synthesized based on given character information. The input phonetic symbols such as phonetic symbols and prosodic symbols such as accents are converted from the input symbol series into control parameters using a list of parameters, a list of accent patterns, etc. corresponding to each phoneme. Further, parameters are modified in consideration of tonal combination, etc., according to rules.

ここで、上記規則合成方式により音声を生成する原理と
しては、声道内の音波の伝搬を電気的にシミュレートす
るいわゆる声道アナログ、調音の結果としての音声の周
波数スペクトル構造すなわち共振及び反共振現象のみを
電気的にシミュレートするターミナルアナログ、或いは
、線形予測分析法に基づく音声合成法等が用いられ、基
本単位の特徴パラメータの抽出に人間の音声を素材とし
て用いる場合と、完全に人工的に生成する場合とがある
0合成単位としては音素が基本であり、30〜50種類
ですむので記憶容量は少なくてすむが、この結合規則は
かなり複雑で、良い品質を得るのが難しい、このため、
これよりやや大きい単位を用いることが多い。日本語の
場合は、仮名文字に対応する100音節(CV単位;C
が子音■が母音)が用いられることが多い。より良好な
合成音を得るために、CVCを単位とする方式も検討さ
れている。ただし、日本語に可能な全てのCVCを準備
すると5000〜6000と膨大な数になるため、高頻
度の約1000種類のCVCとCV及びVC単位が用い
られている。■C■CVを用いる方法も検討されており
、この場合は単位の数は700〜800となる。
Here, the principles of generating speech using the above-mentioned rule synthesis method include the so-called vocal tract analog, which electrically simulates the propagation of sound waves in the vocal tract, and the frequency spectrum structure of speech as a result of articulation, that is, resonance and anti-resonance. Terminal analog, which electrically simulates only the phenomenon, or speech synthesis based on linear predictive analysis is used. In some cases, human voice is used as the material to extract the characteristic parameters of the basic unit, and in some cases it is completely artificial. Phonemes are the basic unit of 0 synthesis, and only 30 to 50 types are needed, so the storage capacity is small, but the combination rules are quite complex, and it is difficult to obtain good quality. For,
A slightly larger unit is often used. In the case of Japanese, there are 100 syllables (CV unit; C
is a consonant and ■ is a vowel) is often used. In order to obtain better synthesized speech, a method using CVC as a unit is also being considered. However, if all possible CVCs in Japanese are prepared, the number will be enormous, 5,000 to 6,000, so approximately 1,000 types of CVCs, CVs, and VC units, which are frequently used, are used. A method using ■C■CV is also being considered, and in this case the number of units would be 700 to 800.

第4図に、従来の規則音声合成装置の概略構成を示す、
この第4図において、例えば、任意の文書を、構文解析
、意味解析して音韻情報と韻律情報を得て、この音韻情
報と韻律情報を、音韻記号Sと韻律記号Rとして挿入し
た文書がキーボード等から入力される。上記音韻記号S
のデータは、音韻パラメータ変換回路104に伝送され
る。この音韻パラメータ変換回路104には、例えばメ
モリ等で構成され音韻に対応したパラメータの一覧表が
ストアされた音韻パラメータファイル103からの出力
が供給されている。したがって、上記音韻記号Sのデー
タは、この音韻パラメータファイル103の出力に基づ
いて音韻パラメータに変換される。この音韻パラメータ
は合成装置107に送られる。
FIG. 4 shows a schematic configuration of a conventional regular speech synthesis device.
In FIG. 4, for example, a document in which phonological information and prosodic information are obtained by syntactic analysis and semantic analysis of an arbitrary document, and this phonological information and prosodic information are inserted as phonological symbol S and prosodic symbol R is a keyboard. It is input from etc. Above phonetic symbol S
The data is transmitted to the phoneme parameter conversion circuit 104. This phoneme parameter conversion circuit 104 is supplied with an output from a phoneme parameter file 103 which is made up of, for example, a memory and stores a list of parameters corresponding to phonemes. Therefore, the data of the phoneme symbol S is converted into phoneme parameters based on the output of the phoneme parameter file 103. This phonological parameter is sent to the synthesizer 107.

また、上記韻律記号Rのデータは、ピッチパターン決定
回路105及び振幅決定回路106に伝送される。当該
ピッチパターン決定回路105゜振幅決定回路106で
は、上記韻律記号Rに基づいた音声のピッチパターンと
振幅とが決定される。
Further, the data of the prosodic symbol R is transmitted to the pitch pattern determining circuit 105 and the amplitude determining circuit 106. The pitch pattern determining circuit 105 and the amplitude determining circuit 106 determine the pitch pattern and amplitude of the speech based on the prosodic symbol R.

このピッチパターンと振幅が上記合成装置107に伝送
される。当該合成装置107では、上記音韻パラメータ
とピッチパターン、振幅から音声を合成し、この合成音
声出力が出力端子108から出力されることになる。
This pitch pattern and amplitude are transmitted to the synthesizer 107. The synthesizer 107 synthesizes speech from the above phoneme parameters, pitch pattern, and amplitude, and this synthesized speech output is output from the output terminal 108.

〔発明が解決しようとする課題〕[Problem to be solved by the invention]

しかし、上述した規則音声合成装置では、文書及び音韻
、韻律記号等の入力を全てキーボード等で入力している
。そのため、これらのキーボード入力に時間がかかり、
また、韻律記号はアクセントボーズの位置等を示してい
るため、キーボードでの入力が困難である。更に、実際
に合成され出力された音声を聞いてみると、韻律が間違
っていることがある。このような場合には、入力する韻
律記号を書き換えなければならず、そのため従来より、
上記キーボードを使って直接韻律記号を消去、変更して
いた。上述のように、規則音声合成では、韻律、音韻記
号の入力及び韻律記号の書き換え等に非常に時間がかか
り作業能率が低く、かつ合成音声が不完全であることが
多かった。
However, in the above-mentioned regular speech synthesis device, all inputs such as text, phonemes, prosodic symbols, etc. are inputted using a keyboard or the like. Therefore, these keyboard inputs take time,
Furthermore, since the metrical symbols indicate the position of the accent voice, etc., it is difficult to input them using a keyboard. Furthermore, when listening to the actually synthesized and output speech, the prosody may be incorrect. In such cases, it is necessary to rewrite the input prosodic symbols, so conventionally,
The above keyboard was used to directly delete and change prosodic symbols. As described above, in regular speech synthesis, inputting prosody and phonetic symbols, rewriting prosodic symbols, etc. takes a very long time, resulting in low work efficiency and often resulting in incomplete synthesized speech.

そこで、本発明は、上述のような実情に鑑みて提案され
たものであり、文書等の入力及び韻律情報書き換えの作
業効率を上げ、かつ、より完全な合成音声を得ることが
可能な規則音声合成装置を提供することを目的とするも
のである。
Therefore, the present invention has been proposed in view of the above-mentioned actual situation, and is a method of regular speech that can improve the work efficiency of inputting documents and rewriting prosodic information, and can obtain more complete synthesized speech. The purpose is to provide a synthesis device.

[i!!題を解決するための手段] 本発明の規則音声合成装置は、上述の目的を達成するた
めに提案されたものであり、音韻情報を所定のパラメー
タに変換するパラメータ変換手段と、音声を電気的信号
に変換する音響−電気変換手段と、上記音響−電気変換
手段の出力のピッチパターンを求めるピッチパターン決
定手段と、上記音響−電気変換手段の出力の振幅を求め
る振幅決定手段とを有し、上記所定のパラメータと上記
ピッチパターンと上記振幅を合成して合成音声を得るよ
うにしたものである。
[i! ! Means for Solving the Problem] The regular speech synthesis device of the present invention has been proposed to achieve the above-mentioned object, and includes a parameter conversion means for converting phonological information into predetermined parameters, and a method for converting speech into electrical signals. comprising an acousto-electric conversion means for converting into a signal, a pitch pattern determination means for determining the pitch pattern of the output of the acousto-electric conversion means, and an amplitude determination means for determining the amplitude of the output of the acousto-electric conversion means, The predetermined parameter, the pitch pattern, and the amplitude are synthesized to obtain a synthesized speech.

〔作用〕[Effect]

本発明によれば、音声を電気的信号に変換する電気−音
響変換手段の出力から、直接、韻律情報としてのピッチ
パターンと振幅を求めているため、韻律情報を韻律記号
としてキーボード入力する必要がない。
According to the present invention, since the pitch pattern and amplitude as prosodic information are directly obtained from the output of the electro-acoustic conversion means that converts speech into an electrical signal, it is not necessary to input the prosodic information as prosodic symbols on the keyboard. do not have.

〔実施例〕〔Example〕

以下、本発明を通用した実施例について図面を参照しな
がら説明する。
Embodiments in which the present invention is applied will be described below with reference to the drawings.

第1図に本発明実施例の規則音声合成装置の概略構成を
示す。
FIG. 1 shows a schematic configuration of a regular speech synthesizer according to an embodiment of the present invention.

この規則音声合成装置は、音韻情報を所定のパラメータ
としての音韻パラメータに変換する音韻パラメータ変換
回路4と、音声を電気的信号に変換する音響−電気変換
手段であるマイクロホン2と、上記マイクロホン2の出
力のピッチパターンを求めるピッチパターン決定回路5
と、上記マイクロホン2の出力の振幅を求める振幅決定
回路6とを有してなるものであり、上記音韻パラメータ
と上記ピンチパターンと上記振幅を合成装置7によって
合成することで合成音声を得るようにしたものである。
This regular speech synthesis device includes a phonological parameter conversion circuit 4 that converts phonological information into phonological parameters as predetermined parameters, a microphone 2 that is an acoustic-to-electrical conversion means that converts speech into an electrical signal, and Pitch pattern determination circuit 5 for determining the output pitch pattern
and an amplitude determining circuit 6 for determining the amplitude of the output of the microphone 2, and a synthesizer 7 synthesizes the phonological parameters, the pinch pattern, and the amplitude to obtain synthesized speech. This is what I did.

すなわち、第1図において、例えば、任意の文書を、構
文解析、意味解析することで、音韻情報が得られ、この
音韻情報を音韻記号Sとして挿入した文書がキーボード
等から入力されるようになっている。上記音韻記号Sの
データは、音韻パラメータ変換回路4に伝送される。こ
の音韻パラメータ変換回路4には、例えばメモリ等で構
成され音韻に対応したパラメータの一覧表がストアされ
た音韻パラメータファイル3からの出力も供給されてい
る。したがって、上記音韻記号Sのデータは、この音韻
パラメータファイル3の出力に基づいて音韻パラメータ
に変換される。この音韻パラメータは合成装置7に送ら
れる。
That is, in FIG. 1, for example, phonological information can be obtained by syntactically and semantically analyzing an arbitrary document, and a document with this phonological information inserted as a phonological symbol S can be input from a keyboard or the like. ing. The data of the phoneme symbol S is transmitted to the phoneme parameter conversion circuit 4. The phoneme parameter conversion circuit 4 is also supplied with an output from a phoneme parameter file 3 which is made up of, for example, a memory and stores a list of parameters corresponding to phonemes. Therefore, the data of the phoneme symbol S is converted into phoneme parameters based on the output of this phoneme parameter file 3. This phoneme parameter is sent to the synthesizer 7.

また、本実施例では、上記マイクロホン2からの信号が
アナログ/ディジタル(A/D)変換器9を介して得ら
れた信号から、直接韻律情報としてのピッチパターンと
振幅が求められている。すなわち、上記A/D変換器9
の出力信号は、上記ピッチパターン決定回路5及び振幅
決定回路6に伝送される。該ピッチパターン決定回路5
.振幅決定回路6で上記出力信号に基づいた音声のピッ
チパターンと振幅とが決定され、このピッチパターンと
振幅が上記合成装置7に伝送される。該合成装置7では
、上記音韻パラメータとピッチパターン、振幅から音声
を合成し、この合成音声出力が出力端子8から出力され
ることになる。
Further, in this embodiment, the pitch pattern and amplitude as prosodic information are directly determined from the signal obtained from the microphone 2 via the analog/digital (A/D) converter 9. That is, the A/D converter 9
The output signal is transmitted to the pitch pattern determining circuit 5 and the amplitude determining circuit 6. The pitch pattern determining circuit 5
.. The amplitude determining circuit 6 determines the pitch pattern and amplitude of the voice based on the output signal, and the pitch pattern and amplitude are transmitted to the synthesizing device 7. The synthesizer 7 synthesizes speech from the above-mentioned phoneme parameters, pitch pattern, and amplitude, and this synthesized speech output is outputted from the output terminal 8.

ここで、上記ピッチパターン決定回路5は、例えば第2
図に示すような構成とすることができる。
Here, the pitch pattern determining circuit 5 is configured to, for example,
A configuration as shown in the figure can be used.

この第2図の構成は、いわゆる自己相関法を用いること
でピッチを求めるものである。この第2図において、上
記A/D変換器9からの出力信号すなわち音声信号は、
入力端子11を介して、例えば予測器と加算器(或いは
減算器)とで構成される予測残差フィルタ12に供給さ
れる。また、上記音声信号は、線形予測分析(LPG分
析)回路13にも供給されている。該線形予測分析回路
13では上記音声信号を例えば20m5毎に線形予測分
析している。該線形予測分析回路13からのLPG係数
が上記予測残差フィルタ12に伝送される。したがって
、該予測残差フィルタ12では、例えば上記LPG係数
に基づいた予測器からの予測信号が、加算器に減算信号
として送られ、上記音声信号から上記予測信号が減算さ
れることで予測誤差信号が得られている。この予測誤差
信号は、例えば30m5程度の長さの分析窓(例えばハ
ミング窓)を乗する分析窓乗算回路14に伝送される。
The configuration shown in FIG. 2 determines the pitch by using a so-called autocorrelation method. In FIG. 2, the output signal from the A/D converter 9, that is, the audio signal, is
The signal is supplied via an input terminal 11 to a prediction residual filter 12 composed of, for example, a predictor and an adder (or subtracter). The audio signal is also supplied to a linear predictive analysis (LPG analysis) circuit 13. The linear predictive analysis circuit 13 performs linear predictive analysis on the audio signal every 20 m5, for example. The LPG coefficients from the linear prediction analysis circuit 13 are transmitted to the prediction residual filter 12. Therefore, in the prediction residual filter 12, for example, a prediction signal from a predictor based on the LPG coefficients is sent to an adder as a subtraction signal, and the prediction signal is subtracted from the audio signal to generate a prediction error signal. is obtained. This prediction error signal is transmitted to an analysis window multiplication circuit 14 that multiplies it by an analysis window (for example, a Hamming window) having a length of, for example, about 30 m5.

この分析窓乗算回路14の出力は、自己相関係数演算回
路15に伝送され、当該自己相関係数演算回路15で、
自己相関関数r(n)+n・0,1.・・・が求められ
る。その後、この自己相関関数r(n・)が最大値探索
回路16に送られ、当該回路16で上記自己相関関数r
 (n)の最大値が求められる。この自己相関関数r 
(n)が最大となるnがピッチとなり、出力端子17か
ら出力される。すなわち、上述の処理を例えば20m5
毎に繰り返すことでピッチパターンが求められるように
なる。なお、上述した自己相関法による方法の他には、
例えば、ケプストラム法等を用いることも可能である。
The output of this analysis window multiplication circuit 14 is transmitted to an autocorrelation coefficient calculation circuit 15, and the autocorrelation coefficient calculation circuit 15 calculates
Autocorrelation function r(n)+n・0,1. ...is required. Thereafter, this autocorrelation function r(n·) is sent to the maximum value search circuit 16, where the autocorrelation function r(n.)
The maximum value of (n) is determined. This autocorrelation function r
The pitch is the maximum value (n) and is output from the output terminal 17. In other words, the above process is carried out for example on 20m5.
By repeating each time, the pitch pattern can be found. In addition to the autocorrelation method described above, there are
For example, it is also possible to use the cepstral method.

ここで、ケプストラムとは、波形の短時間振幅スペクト
ルの対数の逆フーリエ変換として定義され、スペクトル
包絡と微細構造を近似的に分離して抽出できる特徴を有
するものである。
Here, the cepstrum is defined as the inverse Fourier transform of the logarithm of the short-time amplitude spectrum of a waveform, and has the characteristic that the spectral envelope and fine structure can be approximately separated and extracted.

また、第1図の上記振幅決定回路6では、次のような処
理により音声信号から振幅が求められる。
Further, in the amplitude determination circuit 6 of FIG. 1, the amplitude is determined from the audio signal by the following processing.

すなわち、上記振幅決定回路6に伝送された上記A/D
変換器9からの音声信号は、当該振幅決定回路6で、例
えば20m5毎に線形予測分析され、予測残差信号が形
成される。その後、当該予測残差信号の平均パワーの平
方根を上記20m5の区間毎に算出するとこで、これを
振幅として得ることができる。
That is, the A/D transmitted to the amplitude determining circuit 6
The audio signal from the converter 9 is subjected to linear prediction analysis in the amplitude determination circuit 6, for example, every 20 m5, and a prediction residual signal is formed. Thereafter, by calculating the square root of the average power of the prediction residual signal for each section of 20 m5, this can be obtained as the amplitude.

更に、第1図の装置においては、音韻パラメータとピン
チパターンと振幅の時間的対応付けは、以下のようにし
て行うことができる。ここで、第3回のaは音韻パラメ
ータ列を示し、第3図のbは入力音声信号のピンチパタ
ーンを、第3図のCは振幅のパターンを示す、すなわち
、第3図のaに示すように、音韻パラメータ列の時間長
T、は音韻パラメータ列毎に予め固定させておく、この
第3図のaにおいて、tlは対象となる音韻パラメータ
列の始点を示す時間で、t!は対象となる音韻パラメー
タ列の終点を示す時間である。また、第3図のb及びC
に示すように、入力音声信号の始点時間【、〜終点時間
t4は、入力音声信号の短時間パワーがある値以上であ
ることで決定される。このようなことから、音韻パラメ
ータとピッチパターンと振幅の時間的対応付けを行うた
めには、上記時間t、〜時間t4までの時間長T2と上
記時間長T、とが等しくなるようにピッチパターン及び
振幅のパターンを時間軸で線形に伸縮させる。上述のよ
うにすることで、上記音韻パラメータ列の始点時間1.
と終点時間t2と、上記ピッチパターンと振幅のパター
ンの始点時間t、〜終点時間t4とを一致させることが
できる。
Furthermore, in the apparatus shown in FIG. 1, the temporal correspondence between phoneme parameters, pinch patterns, and amplitudes can be performed as follows. Here, the third a indicates the phonological parameter sequence, b in Fig. 3 indicates the pinch pattern of the input speech signal, and C in Fig. 3 indicates the amplitude pattern, that is, as shown in a in Fig. 3. The time length T of the phoneme parameter string is fixed in advance for each phoneme parameter string. In a of FIG. 3, tl is the time indicating the starting point of the target phoneme parameter string, and t! is the time indicating the end point of the target phonetic parameter sequence. Also, b and C in Figure 3
As shown in the figure, the starting point time [, ~ ending point time t4 of the input audio signal is determined by the fact that the short-time power of the input audio signal is greater than or equal to a certain value. Therefore, in order to temporally associate phonetic parameters, pitch patterns, and amplitudes, it is necessary to create a pitch pattern so that the time length T2 from time t to time t4 is equal to the time length T. and expand/contract the amplitude pattern linearly on the time axis. By doing as described above, the starting point time 1.
It is possible to make the end point time t2 and the start point time t to the end point time t4 of the pitch pattern and the amplitude pattern coincide with each other.

ここで、規則音声合成として、例えば、「ここは、日本
です、」という文書を例にとると、上記音韻記号Sとし
てキーボードから入力されるのは「ココハニホンデス」
となる。従来は、この「ココハニホンデス」の音韻記号
Sに韻律情報を表す上記韻律記号Rとして、例えばアク
セントを示す記号(例えばA)と、ポーズを示す記号(
例えばP)が挿入される。したがって、「ここは、日本
です、」の文書に、上記音韻記号Sと韻律記号Rを付加
することにより「ココハPニホAンデAスP」となる、
これに対して、本実施例では、先ず、音韻記号Sとして
「ココハニホンデス」を入力し、直接マイクロホン2で
「ここは、日本です。」という音声を入力することで、
上記韻律記号Rを用いずにすむ、すなわち、当該韻律記
号Rをキーボード等で入力する必要がない、また、従来
は、韻律が間違っている場合には、韻律記号Rをキーボ
−ドによって書き換えていたのに対し、本実施例ではマ
イクロホンから直接音声を入力するため、キーボードに
よる書き換えの必要がない。したがって、本実施例の規
則音声合成装置では、文書の入力及び訂正が非常に短時
間でできるようになり、作業能率が向上し、かつ、より
完全な合成音を得ることが可能となる。
Here, as an example of regular speech synthesis, if we take the document "This is Japan," as an example, the phonetic symbol S input from the keyboard is "Kokohanihondesu."
becomes. Conventionally, the prosodic symbol R representing prosodic information in the phonetic symbol S of "Kokohanihondesu" includes, for example, a symbol indicating an accent (for example, A) and a symbol indicating a pause (
For example, P) is inserted. Therefore, by adding the above-mentioned phonetic symbol S and metrical symbol R to the document "This is Japan," it becomes "Kokoha P Niho Ande As P."
In contrast, in this embodiment, first, "Kokohanihondesu" is input as the phonetic symbol S, and the voice "This is Japan" is input directly into the microphone 2.
There is no need to use the prosodic symbol R, that is, there is no need to input the prosodic symbol R using a keyboard, etc., and conventionally, if the prosody is incorrect, the prosody symbol R can be rewritten using the keyboard. On the other hand, in this embodiment, since the voice is input directly from the microphone, there is no need for rewriting using the keyboard. Therefore, with the regular speech synthesis device of this embodiment, it is possible to input and correct documents in a very short time, improving work efficiency and making it possible to obtain more complete synthesized speech.

ところで、規則音声合成では、合成音の質を高めるため
に、長い音節(その中に複数の音曲を含む)を合成単位
とする方法がある。この場合の規則音声合成装置は、上
記音節のファイルを備えており、この音節ファイルは合
成単位を連続した音声から分析した音節パラメータ列と
して持っている。上記合成単位としては、前述したC■
(子音母音)、VCV(母音−子音−母音)、CVC(
子音−母音−子音)等が考えられる。この時の規則音声
合成装置では、音韻記号列に基づき必要な合成単位を順
次呼出し、肉声に近くなるように信号処理的に各合成単
位を接続している。この合成音質は、一般には合成単位
が長い方が良くなる傾向にある。しかしながら、合成単
位を長くとれば、それだけ音節ファイルに必要な容量が
大きくなってしまう、このことは実際に合成装置を作製
する上での大きなネックとなる。
By the way, in regular speech synthesis, in order to improve the quality of synthesized speech, there is a method in which long syllables (including multiple musical pieces) are used as synthesis units. The regular speech synthesis device in this case is equipped with the above-mentioned syllable file, and this syllable file has synthesis units as a syllable parameter string analyzed from continuous speech. As the above synthetic unit, the above-mentioned C■
(consonant vowel), VCV (vowel-consonant-vowel), CVC (
consonant-vowel-consonant), etc. In this case, the regular speech synthesizer sequentially calls out the necessary synthesis units based on the phonetic symbol string, and connects each synthesis unit using signal processing so that the voice becomes close to the real voice. In general, the synthesized sound quality tends to be better as the synthesis unit is longer. However, the longer the synthesis unit is, the larger the capacity required for the syllable file becomes, which becomes a major bottleneck in actually creating a synthesis device.

このようなことから、上記音節パラメータを圧縮符号化
して、音節ファイルを作成することが考えられる。した
がって、音声を合成する時には、必要な音節パラメータ
の圧縮符号を音節ファイルから取り出して復号化してか
ら用いることになる。
For this reason, it is conceivable to create a syllable file by compressing and encoding the syllable parameters. Therefore, when synthesizing speech, compression codes for necessary syllable parameters are extracted from the syllable file, decoded, and then used.

ここで、上記圧縮符号化としては、いわゆるベクトル量
子化等を挙げることができる。
Here, examples of the above-mentioned compression encoding include so-called vector quantization.

また、前記音韻パラメータとは、具体的には音声のスペ
クトル包絡を表すものであり、例えば、いわゆるPAR
COR分析によるにパラメータ。
Further, the phonological parameters specifically represent the spectral envelope of speech, and for example, the so-called PAR
parameters by COR analysis.

線形予測フィルタ係数(LPG係数)、線スペクトル対
(LSP)係数、ケプストラム係数、メルケプストラム
係数等が挙げられる。
Examples include linear prediction filter coefficients (LPG coefficients), line spectrum pair (LSP) coefficients, cepstral coefficients, and mel cepstral coefficients.

すなわち、上述のように音節パラメータを圧縮符号化し
て音節ファイルを作成することで、音節ファイルのため
に必要な記憶容量が減り、長い音節を合成単位にした高
音質の音声合成装置の実現が可能になる。
In other words, by compressing and encoding syllable parameters to create a syllable file as described above, the storage capacity required for the syllable file is reduced, making it possible to realize a high-quality speech synthesizer that uses long syllables as synthesis units. become.

また、本発明は、上述したような規則合成の他に、いわ
ゆるテキスト合成方式にも適用することができる。ここ
で、上記テキスト合成方式とは、通常の書法によって書
かれたテキストから規則によって制御パラメータの系列
を生成する音声合成手法である。このテキスト合成方式
では、テキストはまず単語やそれよりも小さい形態素に
分解され、構文解析・意味解析等の言語レベルの処理を
行った後に、辞書を用いて音韻記号への変換、アクセン
トの付与等の音声レベルの処理を行う。日本語の場合に
は、入力系列に漢字が含まれるので漢字の音訓辞書が必
要である。英語などの表音文字ではすべての単語につい
て音韻変換辞書が必要であるが、動詞の時制・人称・形
容詞の変化等をすべて考えると辞書が膨大になってしま
う。そこで、単語を語根・接頭辞・接尾辞等のより小さ
い単位である形態素に分解し、これらから規則によって
音韻の系列に変換することが行われる。このようにテキ
スト合成は、通常の文字で書かれたテキストを人間が声
を出して読むように、機械によって自動的に音声を合成
する方式であり、この方法は人間の発話という知能的な
活動にまで踏み込んだ最終的な音声合成の形態であると
いえる。パラメータ編集方式や規則合成方式はテキスト
合成方式の一部分であり、ここで使われる技術はテキス
ト合成の中でも用いられている。
Further, the present invention can be applied to a so-called text synthesis method in addition to the above-described rule synthesis. Here, the above-mentioned text synthesis method is a speech synthesis method that generates a sequence of control parameters according to rules from text written in normal calligraphy. In this text synthesis method, text is first broken down into words and smaller morphemes, and after performing language-level processing such as syntactic analysis and semantic analysis, it is converted into phonological symbols using a dictionary, accents are added, etc. Performs audio level processing. In the case of Japanese, since the input sequence includes kanji, a kanji phonetic dictionary is required. For phonograms such as English, a phonological conversion dictionary is required for every word, but if you consider all the changes in verb tense, person, and adjective, the dictionary becomes enormous. Therefore, words are broken down into morphemes, which are smaller units such as roots, prefixes, and suffixes, and these are converted into phoneme sequences using rules. In this way, text synthesis is a method of automatically synthesizing speech by a machine, similar to how a human reads aloud text written in ordinary letters. It can be said that this is the final form of speech synthesis that goes all the way to the top. Parameter editing methods and rule synthesis methods are part of text synthesis methods, and the techniques used here are also used in text synthesis.

〔発明の効果〕〔Effect of the invention〕

本発明の音声データの規則音声合成装置においては、音
韻情報を所定のパラメータに変換し、音声を電気的信号
に変換してその信号のピッチパターンと振幅を求め、そ
れらを合成して合成音声を得るようにしたことにより、
文書等の入力及び書き換えの作業効率が向上し、かつ、
より完全な合成音声を得ることが可能となる。
The regular speech synthesis device for speech data of the present invention converts phonological information into predetermined parameters, converts speech into electrical signals, determines the pitch pattern and amplitude of the signals, and synthesizes them to produce synthesized speech. By making it possible to obtain
The work efficiency of inputting and rewriting documents, etc. is improved, and
It becomes possible to obtain more complete synthesized speech.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明実施例装置の概略構成を示すプロック図
、第2図はピッチパターン決定のための構成を示すブロ
ック図、第3図は音韻パラメータとピッチパターンと振
幅との時間的対応を示す図、第4図は従来例の装置の概
略構成を示すブロック図である。 ・・・・・・・・・・・・マイクロホン・・・・・・・
・・・・・音韻パラメータファイル・・・・・・・・・
・・・音韻パラメータ変換回路・・・・・・・・・・・
・ピッチパターン決定回路・・・・・・・・・・・・振
幅決定回路・・・・・・・・・・・・合成装置
FIG. 1 is a block diagram showing a schematic configuration of an apparatus according to an embodiment of the present invention, FIG. 2 is a block diagram showing a configuration for determining pitch patterns, and FIG. 3 shows temporal correspondence between phonetic parameters, pitch patterns, and amplitudes. FIG. 4 is a block diagram showing a schematic configuration of a conventional device.・・・・・・・・・・・・Microphone・・・・・・
・・・・・・Phonological parameter file・・・・・・・・・
...Phonological parameter conversion circuit...
・Pitch pattern determination circuit・・・・・・・・・Amplitude determination circuit・・・・・・・・・Synthesizing device

Claims (1)

【特許請求の範囲】 音韻情報を所定のパラメータに変換するパラメータ変換
手段と、 音声を電気的信号に変換する音響−電気変換手段と、 上記音響−電気変換手段の出力のピッチパターンを求め
るピッチパターン決定手段と、 上記音響−電気変換手段の出力の振幅を求める振幅決定
手段とを有し、 上記所定のパラメータと上記ピッチパターンと上記振幅
を合成して合成音声を得るようにしたことを特徴とする
規則音声合成装置。
[Scope of Claims] Parameter converting means for converting phonetic information into predetermined parameters; acoustic-to-electrical converting means for converting speech into electrical signals; and a pitch pattern for determining the pitch pattern of the output of the acoustic-to-electrical converting means. and an amplitude determining means for determining the amplitude of the output of the acousto-electric conversion means, and is characterized in that the predetermined parameter, the pitch pattern, and the amplitude are synthesized to obtain a synthesized speech. A rule-based speech synthesizer.
JP1328257A 1989-12-20 1989-12-20 Regular voice synthesizing device Pending JPH03189697A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1328257A JPH03189697A (en) 1989-12-20 1989-12-20 Regular voice synthesizing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1328257A JPH03189697A (en) 1989-12-20 1989-12-20 Regular voice synthesizing device

Publications (1)

Publication Number Publication Date
JPH03189697A true JPH03189697A (en) 1991-08-19

Family

ID=18208199

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1328257A Pending JPH03189697A (en) 1989-12-20 1989-12-20 Regular voice synthesizing device

Country Status (1)

Country Link
JP (1) JPH03189697A (en)

Similar Documents

Publication Publication Date Title
JP3408477B2 (en) Semisyllable-coupled formant-based speech synthesizer with independent crossfading in filter parameters and source domain
Syrdal et al. Applied speech technology
EP1643486A1 (en) Method and apparatus for preventing speech comprehension by interactive voice response systems
Wouters et al. Control of spectral dynamics in concatenative speech synthesis
US20030158734A1 (en) Text to speech conversion using word concatenation
JPH031200A (en) Regulation type voice synthesizing device
JP6733644B2 (en) Speech synthesis method, speech synthesis system and program
US6829577B1 (en) Generating non-stationary additive noise for addition to synthesized speech
JPH0887297A (en) Voice synthesis system
JP5360489B2 (en) Phoneme code converter and speech synthesizer
JPH05307395A (en) Voice synthesizer
d’Alessandro et al. The speech conductor: gestural control of speech synthesis
JPH0580791A (en) Device and method for speech rule synthesis
JP2001034284A (en) Voice synthesizing method and voice synthesizer and recording medium recorded with text voice converting program
JP3081300B2 (en) Residual driven speech synthesizer
JPH03189697A (en) Regular voice synthesizing device
WO2023182291A1 (en) Speech synthesis device, speech synthesis method, and program
JP3394281B2 (en) Speech synthesis method and rule synthesizer
JPH10133678A (en) Voice reproducing device
JP3994333B2 (en) Speech dictionary creation device, speech dictionary creation method, and program
JP2001100777A (en) Method and device for voice synthesis
JP3862300B2 (en) Information processing method and apparatus for use in speech synthesis
KR100608643B1 (en) Pitch modelling apparatus and method for voice synthesizing system
Espic Calderón In search of the optimal acoustic features for statistical parametric speech synthesis
Yazu et al. The speech synthesis system for an unlimited Japanese vocabulary