JPS58147798A - Voice synthesizer - Google Patents
Voice synthesizerInfo
- Publication number
- JPS58147798A JPS58147798A JP57030733A JP3073382A JPS58147798A JP S58147798 A JPS58147798 A JP S58147798A JP 57030733 A JP57030733 A JP 57030733A JP 3073382 A JP3073382 A JP 3073382A JP S58147798 A JPS58147798 A JP S58147798A
- Authority
- JP
- Japan
- Prior art keywords
- frame
- scale
- signal
- data
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 23
- 238000003786 synthesis reaction Methods 0.000 claims description 23
- 230000002194 synthesizing effect Effects 0.000 claims description 12
- 230000005236 sound signal Effects 0.000 claims description 8
- 239000002131 composite material Substances 0.000 claims description 4
- 238000000034 method Methods 0.000 description 16
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 238000001308 synthesis method Methods 0.000 description 4
- 210000001260 vocal cord Anatomy 0.000 description 4
- 239000003795 chemical substances by application Substances 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000013016 damping Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002747 voluntary effect Effects 0.000 description 2
- 230000010356 wave oscillation Effects 0.000 description 2
- 241000473391 Archosargus rhomboidalis Species 0.000 description 1
- 241000931705 Cicada Species 0.000 description 1
- 241000255925 Diptera Species 0.000 description 1
- 241000668842 Lepidosaphes gloverii Species 0.000 description 1
- 241000238413 Octopus Species 0.000 description 1
- 241000282806 Rhinoceros Species 0.000 description 1
- 241000270666 Testudines Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013144 data compression Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000003415 peat Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- QHGVXILFMXYDRS-UHFFFAOYSA-N pyraclofos Chemical compound C1=C(OP(=O)(OCC)SCCC)C=NN1C1=CC=C(Cl)C=C1 QHGVXILFMXYDRS-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Landscapes
- Reciprocating, Oscillating Or Vibrating Motors (AREA)
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.
Description
【発明の詳細な説明】
本発明鉱複合正弦tI1.℃ダk (Composit
e 5inu−soHal Modeliag :以下
C8Mと略称する)を用いた音声合成装置に関するもの
であり、その目的とするところは、音程のずれがない音
階音【合成することができるとともに、ダータメ℃りの
容量を少くすることができ、しかも減り1mりのある音
階音1−*成することができる音声合成装置を提供する
ことKToる〇
一般に音声合成方式Fi顕奮声の音声波形そのものを符
号化する波形符号化方式と、音声波形の特赦倉利用して
パラメータ化するパラメータ合成方式K 大別テ14、
前者K i! PCM 、DPCM 、 DM 、AP
CM 。DETAILED DESCRIPTION OF THE INVENTION The present invention has a complex sine tI1. ℃ da k (Composite
This relates to a speech synthesis device using the e5inu-soHal Model (hereinafter abbreviated as C8M), and its purpose is to be able to synthesize scale tones with no pitch deviation, and to have a capacity as large as data. To provide a speech synthesizer that can reduce the noise and also produce a scale tone 1-* with a reduction of 1 m.Generally speaking, speech synthesis method Fi is a waveform that encodes the speech waveform of an aroused voice. Encoding method and parameter synthesis method K that utilizes audio waveforms to parameterize Oobetsu Te 14,
The former Ki! PCM, DPCM, DM, AP
CM.
ADPCM 、ADMといりた各方式があり、後!和は
自己相関1:I−J 、LPC,PARCOR,LSP
とZ’)た各方式がある■ところで、波形符号化方式
は合成回路が簡拳になるが、ダークの圧縮度が小さいた
めヅータメtりのメ℃り容量を大きくする必要があり、
また、パラメータ合成方式#iデータ圧縮度が大きいた
めデータメでりのメ℃り容量を小さくすることができる
が合成回路が複雑になるとhう41&をもりている。現
在、複雑な合成回路のLSI化が容lhK出来るように
なってきたので、パラメータ方式が主流罠なりククあり
、パラメータ方式のうちPARCOR方式が最も広く実
用化されている。このPARCOR方式は人間の発声過
程を声帯振動と声道伝達特性とに分離することによって
でダル化して特徴パラメータを抽出し、この特徴パラメ
ータに基いて音声を合成する方式であり、%歇パラメー
タを抽出する際、音声のほぼ足音状態と見なせる区間を
1フレームとし、各フし一ムの音声信号flag〜12
KHzのサンプリングパルスでサンプリングして奮の
大小を表す振巾パラメータ、基本周期を表すピッチパラ
メータおよびスペクトル分布を表わすにパラメータより
なる%欽パラメータを抽出し、サンフリンジパルスと−
1−周波数を合成用りOツクとしてこの%僚パラメータ
を用いて音声波形の演算を行なうものである・しかしな
がら、このPARCOR方式にあっては合成される音声
の基本周波数はサンプリングパルスの周波数で決足され
る離散値しかと9得ない0例えばIOK七でサンプリン
グした場合、合成し得る音声の基本周波数は下表の通り
である。There are various methods such as ADPCM and ADM. The sum is autocorrelation 1: I-J, LPC, PARCOR, LSP
By the way, the waveform encoding method simplifies the synthesis circuit, but since the degree of compression of the dark is small, it is necessary to increase the capacity due to the degree of compression.
Further, since the parameter synthesis method #i has a high degree of data compression, it is possible to reduce the data capacity, but if the synthesis circuit becomes complicated, it will increase the amount of data. Nowadays, it has become possible to integrate complex synthesis circuits into LSIs, so the parameter method has become mainstream, and among the parameter methods, the PARCOR method is the most widely put into practical use. This PARCOR method is a method that separates the human vocalization process into vocal fold vibration and vocal tract transfer characteristics, extracts feature parameters, and synthesizes speech based on these feature parameters. When extracting, the section of the audio that can be considered to be almost in the footsteps state is taken as one frame, and the audio signal flag ~ 12 of each frame is
Sampled with a KHz sampling pulse, extract the amplitude parameter representing the amplitude of the vibration, the pitch parameter representing the fundamental period, and the %K parameter consisting of the parameter representing the spectral distribution.
1-Frequency is used as an output for synthesis, and the frequency parameter is used to calculate the audio waveform. However, in this PARCOR method, the fundamental frequency of the audio to be synthesized is determined by the frequency of the sampling pulse. For example, when sampling is performed with an IOK of 7, the fundamental frequencies of the voices that can be synthesized are as shown in the table below.
通常、人間Of声(話し6葉)の基本周波数は80〜4
00Hz程度であり、またその基本周波数は時々刻々変
化するため、合成された音声が実際の音声と若干音程が
ずれていても耳で社判別できない。Normally, the fundamental frequency of the human voice (six words) is 80 to 4.
00 Hz, and the fundamental frequency changes from moment to moment, so even if the synthesized voice is slightly out of tune with the actual voice, it is impossible to distinguish it by ear.
しかしながら、比較的規則正しい変化をする音階音の場
合は音相のずれがはっきり感知される(例えば音階音「
う」は880Hzであるが、ピッチパラメータ「11」
として合成すると音程ずれがはっきりと感知できる)と
いう問題があり、また、合tM、efルが声帯、声道を
各1伽と仮定したでデルであるので、複数の基本周期を
有する和音の合wLは隊理的に非常に困難であった0そ
こで、発明者等は電々公社武蔵野過信研究所から提案さ
れているC5M方弐K1る音声合成を検討し九〇複合正
弦波℃デル(C5M)とは、時間離散的な信号(時系列
) (yt )の℃デルとして、yt−2ms aim
(wet+φt)+−−−・・・+2m論mwmt+φ
−)・tllt潰えるもので、tは整数で時制t−表し
、’2ml。However, in the case of scale notes that change relatively regularly, the shift in tone phase is clearly perceived (for example, the scale note "
'U' is 880Hz, but the pitch parameter is '11'
There is a problem in that when synthesized as wL was extremely difficult mechanically. Therefore, the inventors investigated the C5M method proposed by the Musashino Masanobu Research Institute of Telecommunications Corporation, and created a 90 complex sine wave ℃ del (C5M). is a time-discrete signal (time series) (yt) as °C del, yt-2ms aim
(wet+φt)+−−−・・・+2m theory mwmt+φ
-)・tllt is something that can be crushed, where t is an integer and is expressed in the tense t-, '2ml.
wi、φ1(i−12,・・・・・・n)はそれぞれ第
i番目の正極゛波成分゛の振幅、角周波数、位相t−表
しておりmi、fn富、・・・・・・9n亀> 0.0
<w s<w曾〈・・・・・・Wa<π ・・・(2
)である・
いま、原音声の音声信号は明らかに非定常な信号である
が、これを10m−〜g Oms 81度の短区間(以
下フレームと称する)K分割すれば各フレームの中で嫁
はぼ定常な信号と見なすことができる。そこで、このよ
うなフレームにおける音声信号と(1)式に示されるよ
うなC5M信号が目己相[11域で0−2n−1次まで
一致するようなml、V、tO甑を求めることにより、
音声の%黴パラメータ1i(ai=’2m1)、wiが
抽出される(用式の自己相関係数はφ1とは無関係にな
る)0なお、mi、yiの求め方にりいては文[1(日
本音響学会昭和54年度秋季発表金講演論文集P、55
7−5581979年、[複合正蚊波による簡易な音声
合IC&J嵯峨山、&倉)sPよび文献2(日本音響学
会音声晴究会資料579−19.1979年10月、「
複合正弦波による音声合成」嵯峨山、板倉〕K詳述され
ているので説明を省略する。また、有声音の場合KFi
、声帯振動による基本周期が存在するので、この基本周
期も特徴へ5メータTとして抽出される〇以下、上述の
ようにして抽出され九特徴パラメータ@I 、、I I
Tt−用いた音声合成方法について説明する0いま、C
3M方式における音声合成用傷号f!デルとしては前述
の(1)式における位相φ1 を零とした
yt−JlxmWtt+ ・・・・・・@alJllW
Bj ・・・151m1 +w+’2mi e i
= 1 * 2 、 ・・・・・・*を用いる。wi, φ1 (i-12, . . . n) represent the amplitude, angular frequency, and phase t- of the i-th positive polar wave component, respectively, and mi, fn wealth, . . . 9n turtle > 0.0
<w s<w曾〈・・・・・・Wa<π ・・・(2
) Now, the audio signal of the original audio is obviously an unsteady signal, but if it is divided into K short sections (hereinafter referred to as frames) of 10m-~g Oms 81 degrees, the signal will be divided into K in each frame. It can be regarded as a fairly stationary signal. Therefore, by finding ml, V, and tO values such that the audio signal in such a frame and the C5M signal as shown in equation (1) are in phase with each other up to the 0-2n-1 order in the 11th region, ,
The speech % mold parameters 1i (ai='2m1) and wi are extracted (the autocorrelation coefficient in the formula is independent of φ1). (Acoustical Society of Japan 1976 Fall Presentation Proceedings P, 55
7-558 1979, [Simple audio synthesis IC & J Sagayama, & Kura) using composite positive mosquito waves] sP and document 2 (Acoustical Society of Japan audio study group material 579-19. October 1979,
``Speech Synthesis Using Composite Sine Waves'' by Sagayama and Itakura [K]K. In addition, in the case of voiced sounds, KFi
, since there is a fundamental period due to vocal cord vibration, this fundamental period is also extracted as a feature as 5 meters T 〇 Below, nine feature parameters are extracted as described above @I ,,I I
Tt-Explain the speech synthesis method used 0 Now, C
The f! symbol for speech synthesis in the 3M system. As del, yt-JlxmWtt+ ...@alJllW with the phase φ1 in equation (1) above as zero
Bj...151m1 +w+'2mi e i
= 1 * 2, ......* is used.
まず、有声音フレームを合成する場合にりいて説明する
と、いま、声帯振#Jを伴う有声!(“a″、C″ ”
m″、 etc )のフレームには基本周期が存在する
。したがって%故パラメータml 、wit131式に
代入して演算合成された信号に特徴パラメータTK基い
て基本周期を付与する必要があり、特徴パラメータTに
基い九ピッチ局期tpで時刻tlリセットする。このよ
うKして形成される信号波形はIR1図に示すようにな
り、パワースペクトルは基本周波数(1/lp)の高調
波構造となる0ところで、このようにして得られた合F
ILf声は時刻tがリセットされたとき(t =OL音
声波形か不連続にな9、この不連続部分の発生罠より合
成された1声の品質が劣化するという間組がある。そこ
で、このような波形の不連続を緩和するために例えは第
2図に示すような指数減衰関数蝉を用いたピッチ同期包
絡を与える。すなわち、%叙パラメータ@l、wi、
TlC41/1て合成された音声波形(一点鎖41)t
−ピッチ同期用包絡曲線(点線)K&つ九波形(実線で
示す)K変換して波形の不連続を緩和しているわけであ
る。lまた、一般Kf声は複数フレームから構成されて
おり、フレーム毎にパラメータ@i 、wi 、T f
更新して音声の合F!Lを行うよう罠なっているが、%
徴パラメータaI 、wi 、Tの更新時に%徴パラメ
ータai 、wI 、’l”が急激に変化するとフレー
ムの接続点において歪が発生するOこのために一特徴パ
ラメータ1’ 、w+ 、Tを徐々に変化させるパラメ
ータ補間が行なわれる。First, to explain the case of synthesizing voiced sound frames, we now have a voiced sound with vocal cord vibration #J! (“a”, C””
There is a fundamental period in the frame of ``m'', etc.).Therefore, it is necessary to assign the % parameter ml to the wit131 formula and give the fundamental period to the signal that is calculated and synthesized based on the characteristic parameter TK, and the characteristic parameter T The time tl is reset at the nine-pitch station period tp based on .The signal waveform formed by K in this way is as shown in the IR1 diagram, and the power spectrum has a harmonic structure of the fundamental frequency (1/lp). By the way, the combination F obtained in this way
When the ILf voice is reset at time t (t = OL voice waveform), it becomes discontinuous9, and the quality of the synthesized single voice deteriorates due to the occurrence of this discontinuous part. In order to alleviate the waveform discontinuity, a pitch synchronization envelope using an exponential decay function cicada as shown in Fig. 2 is given.That is, the %descriptive parameters @l, wi,
Speech waveform synthesized by TLC41/1 (single-dot chain 41) t
- Pitch synchronization envelope curve (dotted line) K & 9 waveform (solid line) K conversion is performed to alleviate waveform discontinuity. In addition, general Kf voice is composed of multiple frames, and parameters @i, wi, T f
Update and audio combination F! It is a trap to do L, but %
When the characteristic parameters aI, wI, T are updated, if the characteristic parameters ai, wI, 'l'' change suddenly, distortion will occur at the connection point of the frame.For this reason, one of the characteristic parameters 1', w+, T is gradually changed. Parameter interpolation is performed to vary the parameters.
次に1無声脩フレームおよび無音フレームを合成する場
合について説明すると、いま、声帯振動を伴わな腔無声
奮(”s″ IIP″r −b”e etc )のフレ
ームには基本周期tpが存在しない口したがりて時刻t
はフレームの先頭でt蒙Oとし、以後単調圧増加させる
。−万、無音フレーム罠おいては常にt”oとしてFt
−OKすれば良いコ
リ上のようにして有声音フレームー無声音フレームおよ
び無音フレームがそれぞれ合成されるようになって&?
、合成に用いる各%黴パラメータ畠i、wi&よびTは
音声合成用のデータを記憶するダータメtりの記憶料量
を減少させるために量子化を行って&−9、例えば、特
&バ5メータのTの量子化パラメータは6ピツト、wi
の量子化パラメータF14〜5ピットであり、aiij
相対振巾を示すへ5メータml’と絶対振巾を示すAと
の積(ai”AXai )として量子化されており、各
量子パラメータは4〜5ピツトとなっている0したがっ
て、通常の音声を合成する場合、1200〜2400ビ
ット秒でデータ処理が行なわれる0なお、特徴パラメー
タII IWI eTの抽出に際しては、PARCOR
方式の場合と同様、音声信号を適当な周波数(例えば1
OKHz)のサンプリングパルスでサシプリシタして演
算処理を行なうものであり、各%欽パラメータa1.蛸
、Tijデジタル値として抽出され、サシプリンタパル
スの周波数が8K)IZのときは次数n■4.10KH
zのときはn−5が適当である5以下、C5M方式の音
声合成装置の構成例にりいて説明する0纂3図はアナo
I)式音声合Flt装置であり、(1)はヂータメ℃す
、(りFiパラメータダコード部、 +31FiD/A
) :/バーク、(4)はアナ0タデマルチプレクサ、
ll#i位相リセッす付電圧制御型正弦波発振s (P
haseresettable VOltage Co
ntro−11ed sin Qsilator )、
(・)および171 ri電圧制御製増巾器(Volt
age Controlled Amp + )、t!
IIFi加算器、1i11は電圧制fiemパルス発振
器(Voltage Con−trolled Pu1
se Generator )、(llaアナ0ジデマ
ルチプレクサ(AM)出力(D/A変換された%欽パラ
メータml IWI 、Tの時系列信号)K基いてフレ
ーム補間および各部のバイアス電圧を発生するバイアス
制御部であり、16)には特徴パラメータW1に基いた
バイアス電圧Vwi k与え%l@)Icは特故パラメ
ータ1′、に基い友バイアス電圧ya i l t−与
え□7)Kは%徴バ5メータAK基いたバイアス電圧V
Aを与え、(―)Kは特赦パラメータTK基い九バイア
ス電圧Vtを与えるようになっている。Next, to explain the case of synthesizing 1 voiceless frame and silent frame, the fundamental period tp does not exist in the frame of voiceless voice without vocal fold vibration ("s"IIP"r-b"e etc). I want to talk and it's time t
is set to tMonO at the beginning of the frame, and the pressure is monotonically increased thereafter. - 10,000, in silent frame trap always Ft as t”o
- All you have to do is OK.The voiced frame, unvoiced frame, and silent frame are each synthesized as shown above.&?
, each of the parameters Hatakei, Wi&, and T used for synthesis is quantized to reduce the amount of memory required to store data for speech synthesis. The quantization parameter of T of the meter is 6 pits, wi
The quantization parameter F14-5 pits, aiij
It is quantized as the product (ai"AXai) of 5 meters ml', which indicates the relative amplitude, and A, which indicates the absolute amplitude, and each quantum parameter is 4 to 5 pits. Therefore, normal voice In addition, when extracting the feature parameter II IWI eT, PARCOR
As with the method, the audio signal is set to an appropriate frequency (for example, 1
It performs arithmetic processing using a sampling pulse (OKHz) as a supplicator, and each % parameter a1. Octopus, Tij is extracted as a digital value, and the frequency of the sashi printer pulse is 8K) When IZ, the order is n 4.10KH
When z, n-5 is appropriate.
I) is a voice synthesis Flt device, and (1) is a digital filter (Fi parameter code section, +31FiD/A).
):/Bark, (4) is an analog 0 demultiplexer,
ll#i Voltage controlled sine wave oscillation with phase reset (P
hasresettable VOltage Co
ntro-11ed sin Qsilator),
(・) and 171 ri voltage-controlled amplifier (Volt
age Controlled Amp +), t!
IIFi adder, 1i11 is voltage controlled fiem pulse oscillator (Voltage Controlled Pu1
se Generator ), (lla analog 0 demultiplexer (AM) output (D/A converted time series signal of %Kin parameter ml IWI , T)) A bias control section that performs frame interpolation based on K and generates bias voltages for each part. 16) gives a bias voltage Vwi k based on the characteristic parameter W1, %l @) Ic gives a bias voltage ya i l t- based on the characteristic parameter 1', 7) K gives a % characteristic bar 5 Bias voltage V based on meter AK
A is given, and (-)K is designed to give a nine bias voltage Vt based on the amnesty parameter TK.
イマ、チータメ℃す(M)より音声合成部(S)に送ら
れて来る特徴パラメータmI 、wi *Tの量子化パ
ラメータはバラメータヅコータ(りKよりて合成に必要
なパラメータwLK変換され、変換されたパラメータ値
(デジタル’)tD/Aコシバータ(3)、アナojヂ
フルチプレクサ(4)によりそれぞれのパラメータ値(
アナ□j )K変換、分割されるbこのパラメータ値は
バイアス制御部−にて予め設定された補間電画により補
間が施されるとともに補間されたパラメータ値に対応す
るバイアス電圧(Vw 1)(Va l ) ’ (V
A )(VT )が発生される。各正弦波発振器+il
はバイアス電圧(V、1)[て投足される角周波数を有
する正弦波を発生し、有音音フレームの場合はピッチ周
期tp毎にパルス発振器(VCPG)から出力されるリ
セットパルスにてリセットされる〇各正弦波発振l5I
I)出力はそれぞれバイアス電圧(Val) で増巾
器が設定される増巾器11にで増巾され、加算l511
11にて合成される0この加算器+81出カはさらにバ
イアス電圧(Va)で増巾器が設定される増巾f! i
ll Kて増巾され合成音声信号(V、 )が出方され
るようになっている。Now, the quantization parameters of the feature parameters mI, wi*T sent from the chitame (M) to the speech synthesis section (S) are converted into the parameters wLK necessary for synthesis by the parameters The respective parameter values (digital') are determined by the tD/A converter (3) and the analog oj diful multiplexer (4).
Ana □j ) K conversion, divided b This parameter value is interpolated by the interpolation voltage set in advance in the bias control unit, and the bias voltage (Vw 1) corresponding to the interpolated parameter value is Val)' (V
A)(VT) is generated. Each sine wave oscillator +il
generates a sine wave with an angular frequency that is thrown at the bias voltage (V, 1) [, and in the case of a sound frame, it is reset by a reset pulse output from a pulse oscillator (VCPG) every pitch period tp. 〇Each sine wave oscillation l5I
I) The outputs are each amplified by the amplifier 11 whose amplifier is set by the bias voltage (Val), and added by l511.
The output of this adder +81 is further added to the amplification f! where an amplifier is set using a bias voltage (Va). i
The signal is amplified and a synthesized speech signal (V, ) is output.
纂4図はデジタル式音声合成装置の構成例であり〜(鳳
υはバラメータデ]−タ部(りにてデコードされた特徴
パラメータTの値によって合成する音声が無声音および
有声it判定する有声/無声判定回路であ?、Tの籠が
0のとき無声音と判別する、 tpsは補間回路、(l
鴫は特赦パラメータT・をラッチするTラッチ、(14
a特徴パラメ一タwitラッ予するw5ツチ、01 t
i 4I漱パラメータ鳳i′・Aをラッチする1にラッ
チ〜α時は特赦パラメータwi&よびal、AK基い丸
角周波数および振巾を有する正弦波を発生する正弦波演
算回路、0’/)は各正弦波演算(ロ)路−出力を加算
する加算器、■は掛算1’、1lFiDZAコシバータ
、−は0−バスフィルタ、制Fiサップリ:、ジバルス
(10KH2)と略等しい合成用り0ツクパルスtカウ
ントして正弦波演算回路(l−の演算側89−夕を出力
するピッチカウンタ、四ははTラッチ−場のデータとピ
ッチ力ウシタ@υ出力との一致を検出してピッチカウン
ターをリセットする一致検出回路、(2)はピッチ同期
用包#I!を与える包絡係数を格納し九ピッチ同期用包
絡係数テーブル、@は有声/無声切換回路である◎
以下、音声合成部(S)のピッチ周期tpk付与する部
分およびピッチ同期用包絡を付与する部分について説明
する0なお、他の部分の動作は前記アナOり式音声合成
装置と略同−であるので説明を省略する。いま、デコー
ドされた%故パラメータTがOの場合、有声/無声判定
画wI幽)から有声/無声切換回路−を無声音IIK切
換える信号が出力されて足数が掛算FM鯛に送られると
ともに、有声/無声判犀回路11りからピッチカウンタ
ーυをフレームの先頭でリセットする信号が出力され、
無声音が合成される・但し、前フレームが有声音の場合
KFiフレームの先頭が1ピッチ周期tpの途中のとき
がめるが、仁の場合、そのピッチ周期tpが終了するま
でまりてピッチカウンターがリセットされる。一方、有
声音を合成する場合、デコードされた特徴パラメータ’
rFi’r5ツチ111IKラッチされ、とのTラッチ
DIのラッチデータとピッチカウンターの出力とが一致
したとき、−数構出回路間からピッチカウンタ@υのリ
セット信号が出力される。Figure 4 shows an example of the configuration of a digital speech synthesis device. tps is an interpolation circuit, (l
T-latch that latches the amnesty parameter T, (14
a Characteristic parameters wit 5 t, 01 t
i 4I So parameter Otori Latch i'・A latched to 1 ~ When α, amnesty parameter wi & al, AK Based on AK, sine wave calculation circuit that generates a sine wave with rounded corner frequency and amplitude, 0'/) is an adder that adds the outputs of each sine wave calculation (b) path, ■ is a multiplication 1', 1lFiDZA cosciverter, - is a 0-bus filter, and a 0-ts pulse for synthesis that is approximately equal to the control Fi supple:, dibars (10KH2). Pitch counter that counts t and outputs sine wave calculation circuit (l- calculation side 89), fourth is T latch field data and pitch force output @υ detects coincidence and resets pitch counter (2) is a nine-pitch synchronization envelope coefficient table that stores the envelope coefficients that give the pitch synchronization envelope #I!, @ is a voiced/unvoiced switching circuit ◎ Below, the speech synthesis section (S) The operation of the other parts is approximately the same as that of the above-mentioned analog voice synthesizer, so the explanation will be omitted. When the parameter T is O, a signal to switch the voiced/unvoiced switching circuit to the unvoiced sound IIK is output from the voiced/unvoiced judgment screen wI, and the count is sent to the multiplication FM sea bream, and the voiced/unvoiced judgment screen is output. A signal to reset the pitch counter υ at the beginning of the frame is output from the rhinoceros circuit 11,
An unvoiced sound is synthesized. However, if the previous frame is a voiced sound, the beginning of the KFi frame will be detected in the middle of one pitch period tp, but in the case of KFi, the pitch counter will be reset until the end of that pitch period tp. Ru. On the other hand, when synthesizing voiced sounds, the decoded feature parameters'
rFi'r5T111IK is latched, and when the latched data of the T latch DI and the output of the pitch counter match, a reset signal of the pitch counter @υ is output from between the -number output circuits.
このようKしてピッチカウンタ@υがピッチ周期jpで
リセットされること罠より各正弦波演算器(l−にて発
生される信号にピッチ周期tpが付与される。Since the pitch counter @υ is reset with the pitch period jp in this way, the pitch period tp is given to the signal generated by each sine wave arithmetic unit (l-).
このとき、有声/無声切換回路−は有声fllKll光
られてI?す、ピッチカウンター出方をアドレスとして
包絡係数テーブル−からピッチ同期用髄絡を与える減衰
係数値が順次読出され、掛算−0時の乗数が減衰係数値
に基いて順次設定される。掛算器拳時の出力FiD/A
コンバータ・鴫にてアナ0り信号に変換され、0−バス
フィルターを通して合成音声信号(V、)が得られる。At this time, the voiced/unvoiced switching circuit lights up as voiced fllKll and I? Then, the damping coefficient values that provide pitch synchronization meridians are sequentially read out from the envelope coefficient table using the output direction of the pitch counter as an address, and the multiplier at the time of multiplication -0 is sequentially set based on the damping coefficient values. Output FiD/A when using multiplier
It is converted into an analog 0-signal by a converter, and then passed through a 0-bus filter to obtain a synthesized audio signal (V,).
ところで、いま、音階音をC5M方式の音声合成装置に
て合成する場合を考えると、単1は1個の基本周期を有
してν9、m重和音Fim個の基本周期を有しているこ
とKなり、いずれも有声音である◎そこで、このような
音階fは有声音として取扱われることKなるが、前述し
たPARCOR方式の音声合成装置Kl?ける問題点と
同様、合成音声の基本周波数が離散値をとるために起き
る音程ずれが問題となるとともに、複数の基本周期を付
与することが困難であるので和音の合成ができなかった
。一方、音階音は人間の声と違って規則性があり、一般
にlりの音階tは特徴パラメータa!、−1Tが略同−
な複数フレームにて構成される場合が多い。したがりて
、ダータメtす(1)のメ℃り容量を少くする九めIK
−は、音階音の各フレームの特徴パラメータii 、W
t eT t−すべてイータメ℃すtllに記憶させる
ので社なく、前フレームと略同−の特徴パラメータ鳳1
ew1.Tが抽出されたフレームの音声ダークとしてリ
ピートコードを記憶させておき、ヅータメ℃す(1)か
らリピートコードが読出され九とき前フレームの特徴パ
ラメータa1、wI、Tを用いて当該フレームの音声を
合成することが考えられている口しかしながら〜このよ
うKした場合、合成された音声が数フレームに亘りりと
が同一振巾になって、いわゆる減り張りがない合成音声
となってしまうという欠点があったD特忙ピアノのよう
々楽l!による音階音を合成する場合におφて問題であ
った。本発明は上記の点罠鑑みて為されたものである。By the way, if we now consider the case where scale tones are synthesized using a C5M type speech synthesizer, a single chord has one fundamental period, ν9, and an m-duplex has a fundamental period of Fim. K, all of which are voiced sounds. Therefore, such a scale f is treated as a voiced sound. Similar to the problems encountered in this technique, the fundamental frequency of synthesized speech takes on discrete values, resulting in pitch deviations, which is a problem, and it is difficult to assign multiple fundamental periods, making it impossible to synthesize chords. On the other hand, unlike the human voice, scale sounds have regularity, and in general, the scale t of l is the characteristic parameter a! , -1T are approximately the same.
It is often composed of multiple frames. Therefore, the ninth IK that reduces the capacity of the data meter (1)
- is the characteristic parameter ii of each frame of the scale note, W
t eT t- Since all of them are stored in the Etame ℃ tll, there is no need to change the feature parameters, which are almost the same as the previous frame.
ew1. A repeat code is stored as the audio dark of the frame from which T is extracted, and when the repeat code is read out from the frame (1) and the characteristic parameters a1, wI, and T of the previous frame are used, the audio of the frame is reproduced. However, when using K in this way, the synthesized speech has the same amplitude over several frames, resulting in what is called a weak synthesized speech. It's so easy to play the D special piano! There was a problem with φ when synthesizing scale tones. The present invention has been made in view of the above points.
以下、実施例について図を用いて説明するコ飢5図は本
発明一実施例を示すもので、音声合成部(S)の概略構
成および動作は前述した第4図従来例と略同−であるの
で、以下、従来例との差異点にりいて詳述する。本発明
は、音階音を有声音として合成すると、音程ずれが発生
し、かつ和音の合成ができないので、音階音を無声音と
見なして抽出した特赦パラメータ畠’owlt音声ダー
タ(量子化パラメータ、)とし、この音声ダークをデー
タメ℃す(1)K記憶させるよう和してあり、また、ダ
ータメでリロ)のメ℃り容量を少くするため前フし−ム
と略同−の特徴パラメータ、l 、Wiが抽出されたフ
レームの音声ダークとしてリピートコード(1ピツトで
も良い)をデータメ℃す(1)K記憶させ、イータメで
り(1)からリピートコードが読出され九とき、前フレ
ームの%黴パラメータilewiを用いて当該フレーム
Ot声を合成するリピート手段(X)を設けてあり、さ
らにリピート手段にて合成される複数フレームに亘る音
声信号に減衰曲線よりなる音階用包絡を付与する音階用
包絡付与手段(Y)を設けであるコ
以下、具体的構成に基いて動作を説明する◎−は人聞の
声を合成するのか、あるいは音階音を合成するのかを示
す合成音切換え用コードを検出してゲート回路cmtl
IIIImするコード判別回路であり、人間の声を合成
するコードが入力されたとtk。Hereinafter, an embodiment will be explained with reference to the drawings. Figure 5 shows an embodiment of the present invention, and the general structure and operation of the speech synthesis section (S) are approximately the same as the conventional example in Figure 4 described above. Therefore, the differences from the conventional example will be explained in detail below. In the present invention, if scale tones are synthesized as voiced sounds, pitch deviations occur and chords cannot be synthesized. , this audio dark is summed so that it can be stored in the data frame (1), and in order to reduce the memory capacity of the data frame (1), the characteristic parameters, l, which are almost the same as those of the previous frame, are added. The repeat code (even 1 pit) is stored in the data memory as the audio dark of the extracted frame (1), and when the repeat code is read out from the data memory (1), the % mold parameter of the previous frame is A repeat means (X) is provided for synthesizing the voice over the frame using ilewi, and further a scale envelope imparting function is provided for imparting a scale envelope consisting of an attenuation curve to the audio signal over a plurality of frames synthesized by the repeat means. Hereinafter, the operation will be explained based on a specific configuration. ◎- detects a synthesized sound switching code indicating whether to synthesize a human voice or a scale tone. gate circuit cmtl
It is a code discrimination circuit that performs tk when a code for synthesizing a human voice is input.
コード判別回路−出力にて制御されるゲート回路tmF
i有声/無声判定回路DI)出力がそのままピッチカウ
ンタ健1)K入力されるように制御され、無声音を合成
する場合、ピッチカウンタ鍵υは従来例と同様に各フレ
ームの先頭でリセットされる。したがって、人間の声の
無声音を合成する場合は従来例と全く同一動作を行なう
。一方、音階音tn−成するコードが入力されたとき、
ゲート回路−は数フレームKl[る音階音の最初のフレ
ームの先IN’c対応して有声/無声切換回路111)
から出力されるピッチカウンターのリセット信号のみを
通して、以後の各フレームの先l!lK対応するリセッ
ト信号tしゃ断する。この場合、音階音の最初のフレー
ムの検出方法としては音階音の変更点に無音フレームを
挿入し、無音フレームに基いて最初のフレームを検出す
る方法、あるいFi奮音階の全7L/−ムのII#徽パ
ラメータ鳳i、Wiを同一に&定(リピート手* (X
) を用いた場合も含む)して特徴パラメータ鳳i 、
wlの変更点を最初のフレームt−検出する方法などが
考えられる。以上のよう虻音階音を無声音として合成す
る場合KThいて、複数フレームKlる音階音の最初の
フレームの先端でのみピッチカウンタIl萄をリセット
するよう罠すると、第4図従来例KWいて、音階音を無
声音として合成した場合に発生するところのフレームの
接続点でのtIL形の不連続が起きることがなく、合成
された音階音の歪を少くすることができることになる。Code discrimination circuit - gate circuit controlled by output tmF
The voiced/unvoiced determination circuit DI) is controlled so that its output is directly input to the pitch counter 1)K, and when unvoiced sounds are synthesized, the pitch counter key υ is reset at the beginning of each frame as in the conventional example. Therefore, when synthesizing the unvoiced sound of a human voice, the operation is exactly the same as in the conventional example. On the other hand, when a chord consisting of the scale note tn- is input,
The gate circuit is a voiced/unvoiced switching circuit 111 for several frames Kl [corresponding to IN'c after the first frame of the scale note]
Only the reset signal of the pitch counter output from l! of each subsequent frame is passed through. The reset signal t corresponding to lK is cut off. In this case, the first frame of the scale note can be detected by inserting a silent frame at the change point of the scale note and detecting the first frame based on the silent frame, or by detecting all 7L/- frames of the Fi scale. II # Wi parameter Feng i, Wi same & constant (repeat hand * (X
)) and set the feature parameter Otori i,
A possible method is to detect a change in wl in the first frame t. As described above, when synthesizing a pitch tone as an unvoiced tone, if we trap the pitch counter Il to be reset only at the tip of the first frame of a scale tone that has multiple frames KTh, as shown in Fig. 4, the conventional example The tIL-shaped discontinuity at the frame connection point, which occurs when synthesized as an unvoiced sound, does not occur, and distortion of the synthesized scale tone can be reduced.
−はリピート手[(X)を構成するリピートコード検出
部であり、リピートコードが検出されたとき、パラメー
タデコード部(りの出力を保持して前フレームの%撤パ
ラメータai 、yiを保持させるようKなりS?す、
リピートコードが音声データとして読出されたフレーム
の音声は前フレームの特徴パラメータ25 、wi f
用いて合成されることになる。なお、人間の声を合成す
る場合においてもリピート手段(X)を適用する場合に
は、リピートコードが検出されたときパラメータデコー
ド部(2)にて特徴パラメータTも保持させれば良いロ
ーは加算器0ηから出力される信号に@6図に示すよう
な減衰曲線よりなる音階用包絡を付与する音階用包絡付
与手段(Y) を構成する音階用包絡係数テーブルであ
り、複数フレーム(ps)(Fm)・・・川よりなる音
階音の全域に亘りて減衰曲線よりなる音階用包絡を付与
する音階用包絡係数が格納されている0このfWI用包
絡係数テーブル(ハ)からピッチhウシタ@υ出カをア
ドレスとして読出された音階用包絡係数に基いて掛算器
α四の乗aを設定することKより合成音声信号(V6)
t−減衰信号にして、減り張りのある音階音を合成する
ようにしたものであるっこの場合、ピッチhウンタ@u
#iヒツト数が16ピツトとなっており、多数フレーム
に亘る長い音階音が合成できるようになっている。ナな
わち、ピッチカウンタl!1は合成用り0ツクパルスを
65536個カウントするまではリセット状114にな
らず、例えば、り0ツクパルスを10KHzとすれば、
約6.5秒もの長LnliF#fK対して上記音階用包
絡を付与ブることができ、また、フレーム接続点におけ
る波形の不連続をなくすことができる0なお、fN用包
絡係数テーブル四のメでり容量を少くするIL予め設定
された時刻を以後、りまりピッチカウンタ(!υ比出力
一定値以上になったとき、w#用包絡係数テーブル圀の
同一のアドレスから音階用包絡係数を続出すようKして
も良い。掛算器舖の乗数を設定する有声/無声切換回路
@はコード判別回路−出力にても制御されるよ?になっ
て1?り、人聞の声を合成する場合KFi、従来例と同
様にして有声音のときピッチ同期用包絡係数テーブル−
から読出されたデータを、無声音のとき定数をそれぞれ
掛算器(1呻の乗数として設定し、また、音階音を無声
音として合成する場合KVi、音階用包絡係数テーブル
(至)からピッチカウンタ体υ出力にて順次読出される
音階用包絡係数を掛算器ll呻の乗数として設定する。- is a repeat code detection unit that constitutes the repeat hand K becomes S?
The audio of the frame in which the repeat code is read as audio data is the characteristic parameter 25 of the previous frame, wif
It will be synthesized using In addition, when applying the repeat means (X) when synthesizing human voices, it is sufficient to also hold the characteristic parameter T in the parameter decoding section (2) when a repeat code is detected. This is a scale envelope coefficient table constituting a scale envelope imparting means (Y) that imparts a scale envelope consisting of an attenuation curve as shown in Figure @6 to the signal output from the instrument Fm) ... The scale envelope coefficient that gives a scale envelope consisting of an attenuation curve over the entire range of the scale note consisting of a river is stored.0 From this fWI envelope coefficient table (c), pitch h ushita @υ Synthesized speech signal (V6) from K by setting the multiplier α4 multiplier a based on the scale envelope coefficient read out using the output as an address.
In this case, the pitch h counter @ u
#i The number of hits is 16 pits, making it possible to synthesize long scale notes spanning multiple frames. In other words, the pitch counter! 1 does not enter the reset state 114 until it counts 65,536 0-tsku pulses for synthesis. For example, if the 0-tsku pulse for synthesis is 10 KHz,
It is possible to apply the above-mentioned scale envelope to a long LnliF#fK of approximately 6.5 seconds, and also to eliminate waveform discontinuity at the frame connection point. After the pre-set time, the pitch counter (!υ ratio output exceeds a certain value), the scale envelope coefficient is continuously output from the same address in the w# envelope coefficient table area. The voiced/unvoiced switching circuit that sets the multiplier is also controlled by the code discrimination circuit output. In the case of KFi, as in the conventional example, the envelope coefficient table for pitch synchronization is set for voiced sounds.
For unvoiced sounds, set the constant as a multiplier (1 multiplier), and when synthesizing a scale sound as an unvoiced sound, set the data read from KVi and the pitch counter body υ output from the scale envelope coefficient table (to). The scale envelope coefficients sequentially read out are set as multipliers of the multipliers.
第7図は他の実施例を示すもので、第5図実施例の各構
1!!をアナ0ジ的に実現するものであり、第3図従来
例において・、第5図実施例のコード判別−1路(至)
およびリピート手段(X)を設けるとともに、vt階用
包絡付与手段として増巾節電7)の増巾器を制御する利
得制御回路−t7設けたものであり、利得制御回路−で
Fi奮端階用包絡係数抵抗およびコンデンサなどを用い
走時定数回路にて発生させ、この音階用包絡係数および
特徴パラメータAK基いて増巾器171の増巾器を制御
するようKなりてνす、増巾器())から出力される複
数フし−ムに亘る音階音の合成音声信号(Vs)l−を
音階用包絡が付与された信号となり、減り張りのある音
階音が合成されることKなる)
本発明は上述のように構成されており、C5M方式の音
声合成装置において、音階音を無F’ll音と見なして
抽出した特徴パラメータを音声データとしてデータメ℃
りに記憶させ、データメ℃りから、 読出された音声デ
ータにて音階音を合成するよう罠なっているので、音程
ずれのない音階音を合成することができる上、複数の幕
末周期を有する和音も容易に合成することができ、また
、前フレームと略同−の特徴パラメータが抽出されたフ
し−6の音声データとしてリピートコードをデータメ℃
すに記憶させ、テータメ℃りからリピートコードが読出
されたとき、前フレームの%&J〜ラメータに基いて音
声を合成するリピート手段t−設けているので、略同−
の特徴パラメータを有する複数フレームよりなる音階音
の音声データを少くすることができ、ヂータメ℃りのメ
芒り料量を少くすることができ、さらに、リピート手段
によって合成される複数フレームに亘る音声信号に減衰
曲線よりなる音階用包絡付与手段を設けであるので、滅
!11g1kvのある音階音を合成することができると
いう利点がある。なお、第5図1!施例にあっでは音階
音を無声音として合成する場合において、ピプ予カウン
タのリセットを音階音の最初のフレームの先喘で行ない
、以後のフレームの先頭でのリセットを行なわないよう
Kしているので、第4図従来例に見られるところの各フ
レームの接続JilKおける波形の歪が発生せず、複数
フレームよりなる音階音が歪なく合成できるよう罠なっ
ている0FIG. 7 shows another embodiment, each structure 1 of the embodiment in FIG. 5! ! This is achieved analogously, and the code discrimination in the conventional example shown in Fig. 3 and the code discrimination in the embodiment shown in Fig. 5 - 1 (up to)
and a repeat means (X), and a gain control circuit t7 for controlling the amplifier of power saving 7) as an envelope imparting means for the VT floor. An envelope coefficient K is generated in a travel time constant circuit using a resistor, a capacitor, etc., and the amplifier of the amplifier 171 is controlled based on this scale envelope coefficient and characteristic parameter AK. The synthesized speech signal (Vs)l- of scale tones over multiple frames outputted from )) becomes a signal with a scale envelope added, and a scale tone with reduced tension is synthesized.) The invention is configured as described above, and in a C5M type speech synthesis device, feature parameters extracted by regarding scale tones as non-F'll tones are transferred to a data file as voice data.
Since the system is designed to synthesize scale tones using the audio data read out from the data media, it is possible to synthesize scale tones without any pitch deviation, and also to synthesize chords with multiple period periods. In addition, the repeat code can be easily synthesized as frame 6 audio data, which has almost the same feature parameters as the previous frame.
When the repeat code is read out from the data meter, the repeating means for synthesizing audio based on the % & J ~ parameter of the previous frame is provided, so it is almost the same.
It is possible to reduce the amount of audio data for scale tones made up of multiple frames having the characteristic parameters of Since the signal is provided with a scale envelope imparting means consisting of an attenuation curve, there is no problem! It has the advantage of being able to synthesize scale tones of 11g1kv. In addition, Figure 5 1! In this example, when a scale note is synthesized as an unvoiced sound, the pip pre-counter is reset at the beginning of the first frame of the scale note, and is not reset at the beginning of subsequent frames. Therefore, the distortion of the waveform in the connection of each frame, which is seen in the conventional example shown in Fig. 4, does not occur, and the scale tone consisting of multiple frames can be synthesized without distortion.
第1図および第2図はC5M方式の音声合成装置の動作
説明図、第3図および第4図はそれぞれ従来例のブロッ
ク回路図、第5図は本発明一実施例のブーロック回路図
、@6図は他の実施例の−50ツク回路図である。
+1)ii5’−1j151J、C3)ti奮音声成部
、(X)#iミリピート段、(Y)Fi奮音階包絡付与
手段である代理人 弁理士 石 1)長 上
第1図
γ2 y1
手 続 補 正 書(自発)
1.事件の表示
16和57年持KF順第30733号
2、発 明の名称
仔声台改装賄
3、補正をする者
事件との関係 特許出願人
性 所 大阪府門真市大字門真1048番地名 称
(583)松下電工株式会社
代表者小 林 郁
4、代理人
郵便番号 530
電話大阪(06)345 =7777(代表)手 続
補 正 書(自9)
1、事件の表示
昭和57年特ff験第80788号
2、発 明の名称
音声合成装置
3、補正をする者
事件との関係 特肝出願人
住 所 大阪府門真市大字門真1048番地名 称
(583)松下電工株式会社
代表者小 林 郁
4、代理人
郵便番号 530
住 所 大阪市北区梅田1丁目12番17号(梅141
ヒル5階)氏 名 (6176)弁理土石 [11長
し電話大阪(06) 345 7777 (代表)5、
補正命令の日付
自 発
訂 正 書
願書番号 特願昭57−80788号1、 奉幀用細
書第6自5行目のr90m8J1kF80m8Jと訂正
致しま丁。
2 本願添付図中第4図および第5図を別紙のように訂
正致します。
代理人 弁理士 石 1)長 七1 and 2 are operation explanatory diagrams of a C5M type speech synthesizer, FIGS. 3 and 4 are block circuit diagrams of conventional examples, respectively, and FIG. 5 is a Boolock circuit diagram of an embodiment of the present invention, @ FIG. 6 is a -50 block circuit diagram of another embodiment. +1) ii5'-1j151J, C3) ti-speech production part, (X) #i milli-peat stage, (Y) Fi-speech scale envelope imparting means Patent attorney Ishi 1) Chief Figure 1 γ2 y1 Procedure Amendment (voluntary) 1. Indication of the case 16 Wa 57 years old KF order No. 30733 2, name of the invention 3, person making the amendment Relationship with the case Patent applicant Location 1048 Kadoma, Kadoma City, Osaka Prefecture Name (583) ) Matsushita Electric Works Co., Ltd. Representative Iku Kobayashi 4, Agent postal code 530 Telephone Osaka (06) 345 = 7777 (Representative) Procedures
Amendment (No. 9) 1. Indication of the case 1982 Special Examination No. 80788 2. Name of the invention Speech synthesis device 3. Relationship with the person making the amendment Address of the special liver applicant Kadoma City, Osaka Prefecture 1048 Oaza Kadoma Name (583) Matsushita Electric Works Co., Ltd. Representative Iku Kobayashi 4, Agent Zip code 530 Address 1-12-17 Umeda, Kita-ku, Osaka (Ume 141)
Hill 5th floor) Name (6176) Benri Doshi [11th Chief
Telephone Osaka (06) 345 7777 (Representative) 5,
Voluntary correction of the date of the amendment order.Application number: 1988-80788 No. 1, 6th line, 5th line of the dedication document, corrected to r90m8J1kF80m8J. 2. Figures 4 and 5 of the attached drawings of this application are corrected as shown in the attached sheet. Agent Patent Attorney Ishi 1) Choshichi
Claims (1)
ムとして複数フレームに分割し、各フレーム内の音声信
号を複数の正弦波の合成信号としてでデル化し、各正弦
波の振巾、角周波数および脅声彊号の基本周期に対応す
る量子化された特徴パラメータを適宜抽出して音声合成
データとしてダータメ℃すに記憶させ、音声合成f!B
Kて、データメ℃りから読出された振巾、角周波数に対
応する%黴バ5メータに基いて複数の正弦波の振巾、角
周波数tU足して加算すること罠より得られる合g信号
九基本周期に対応する特徴パラメータに、1!にいてピ
ッチ周期を付与して音声信号を合成するようにして成る
音声合成装置において、データメ℃すに音階音を無声音
と見なすこと罠より抽出された振巾および角周波数に対
応する特徴パラメータを音声データとして記憶させると
ともに1藺フレームと略同−の特徴パラメータが抽出さ
れ良フレームの音声データとしてリピートコードを記憶
させ、ヂータメ℃りからリピートコードが読出されたと
1〜前フレームの轡欽ljラメータを用いて当該フレー
ムの音声信号を合成するリピート手段を設け、リピート
手#ItKて合成される複数フレームKlる音声信号に
減衰曲線よりなる音階音用包絡を付与する音階用包絡付
与手段fr設けて成ることtW款とする音声台F1.装
置9[Divide the 11-boo voice into multiple frames as an interval kl frame that can be almost in a steady state, convert the audio signal in each frame into a delta as a composite signal of multiple sine waves, and calculate the amplitude and angle of each sine wave. The quantized feature parameters corresponding to the frequency and the fundamental period of the threatening voice signal are extracted as appropriate and stored in the database as voice synthesis data, and the voice synthesis f! B
Then, the amplitude and angular frequency tU of multiple sine waves are added based on the amplitude and angular frequency tU read out from the data meter. 1 for the characteristic parameter corresponding to the fundamental period! In a speech synthesizer that synthesizes a speech signal by adding a pitch period to the data, the feature parameters corresponding to the amplitude and angular frequency extracted from the data file are considered to be unvoiced sounds. At the same time, the characteristic parameters that are almost the same as those of the first frame are extracted, and the repeat code is stored as the audio data of the good frame. repeating means for synthesizing the audio signals of the frame using the repeating means, and a scale envelope imparting means fr for imparting a scale tone envelope consisting of an attenuation curve to the voice signal of a plurality of frames synthesized by the repeating step #ItK. Audio stand F1. Device 9
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57030733A JPS58147798A (en) | 1982-02-27 | 1982-02-27 | Voice synthesizer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP57030733A JPS58147798A (en) | 1982-02-27 | 1982-02-27 | Voice synthesizer |
Publications (1)
Publication Number | Publication Date |
---|---|
JPS58147798A true JPS58147798A (en) | 1983-09-02 |
Family
ID=12311866
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP57030733A Pending JPS58147798A (en) | 1982-02-27 | 1982-02-27 | Voice synthesizer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS58147798A (en) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6088327A (en) * | 1983-10-19 | 1985-05-18 | Kawai Musical Instr Mfg Co Ltd | Main spectrum extractor for sound analyzer |
JPS6088326A (en) * | 1983-10-19 | 1985-05-18 | Kawai Musical Instr Mfg Co Ltd | Sound analyzer |
JPS6091227A (en) * | 1983-10-25 | 1985-05-22 | Kawai Musical Instr Mfg Co Ltd | Synthesizing apparatus of sound analyzer |
JPS6091226A (en) * | 1983-10-25 | 1985-05-22 | Kawai Musical Instr Mfg Co Ltd | Main spectrum display device of sound analyzer |
JPS6097397A (en) * | 1983-11-01 | 1985-05-31 | 株式会社河合楽器製作所 | Sound analyzer |
JPS6097398A (en) * | 1983-11-01 | 1985-05-31 | 株式会社河合楽器製作所 | Sound analyzer |
JPS6121000A (en) * | 1984-07-10 | 1986-01-29 | 日本電気株式会社 | Csm type voice synthesizer |
JPS6139100A (en) * | 1984-07-31 | 1986-02-25 | 日本電気株式会社 | Secret talk apparatus |
JPS6142699A (en) * | 1984-08-06 | 1986-03-01 | 日本電気株式会社 | Secret talk apparatus |
JPS6184681A (en) * | 1984-10-02 | 1986-04-30 | デ−タイ−スト株式会社 | Graphic display method and apparatus |
JPS6184682A (en) * | 1984-10-02 | 1986-04-30 | デ−タイ−スト株式会社 | Graphic display unit |
-
1982
- 1982-02-27 JP JP57030733A patent/JPS58147798A/en active Pending
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6088327A (en) * | 1983-10-19 | 1985-05-18 | Kawai Musical Instr Mfg Co Ltd | Main spectrum extractor for sound analyzer |
JPS6088326A (en) * | 1983-10-19 | 1985-05-18 | Kawai Musical Instr Mfg Co Ltd | Sound analyzer |
JPS6091227A (en) * | 1983-10-25 | 1985-05-22 | Kawai Musical Instr Mfg Co Ltd | Synthesizing apparatus of sound analyzer |
JPS6091226A (en) * | 1983-10-25 | 1985-05-22 | Kawai Musical Instr Mfg Co Ltd | Main spectrum display device of sound analyzer |
JPS6097397A (en) * | 1983-11-01 | 1985-05-31 | 株式会社河合楽器製作所 | Sound analyzer |
JPS6097398A (en) * | 1983-11-01 | 1985-05-31 | 株式会社河合楽器製作所 | Sound analyzer |
JPS6121000A (en) * | 1984-07-10 | 1986-01-29 | 日本電気株式会社 | Csm type voice synthesizer |
JPH051957B2 (en) * | 1984-07-10 | 1993-01-11 | Nippon Electric Co | |
JPS6139100A (en) * | 1984-07-31 | 1986-02-25 | 日本電気株式会社 | Secret talk apparatus |
JPH051958B2 (en) * | 1984-07-31 | 1993-01-11 | Nippon Electric Co | |
JPS6142699A (en) * | 1984-08-06 | 1986-03-01 | 日本電気株式会社 | Secret talk apparatus |
JPH051959B2 (en) * | 1984-08-06 | 1993-01-11 | Nippon Electric Co | |
JPS6184681A (en) * | 1984-10-02 | 1986-04-30 | デ−タイ−スト株式会社 | Graphic display method and apparatus |
JPS6184682A (en) * | 1984-10-02 | 1986-04-30 | デ−タイ−スト株式会社 | Graphic display unit |
JPH051950B2 (en) * | 1984-10-02 | 1993-01-11 | Deeta Iisuto Kk |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US4214125A (en) | Method and apparatus for speech synthesizing | |
AU639394B2 (en) | Speech synthesis using perceptual linear prediction parameters | |
JP6733644B2 (en) | Speech synthesis method, speech synthesis system and program | |
JPS58147798A (en) | Voice synthesizer | |
Chandna et al. | Content based singing voice extraction from a musical mixture | |
JP2018004870A (en) | Speech synthesis device and speech synthesis method | |
JP3701671B2 (en) | Method and apparatus for testing communication devices using test signals with reduced redundancy | |
WO2004072951A1 (en) | Multiple speech synthesizer using pitch alteration method | |
JP5360489B2 (en) | Phoneme code converter and speech synthesizer | |
JP5560769B2 (en) | Phoneme code converter and speech synthesizer | |
JP2001508197A (en) | Method and apparatus for audio reproduction of speech encoded according to the LPC principle by adding noise to a constituent signal | |
JP3362491B2 (en) | Voice utterance device | |
Marolt | Transcription of polyphonic piano music with neural networks | |
JP6578544B1 (en) | Audio processing apparatus and audio processing method | |
JP2020204755A (en) | Speech processing device and speech processing method | |
CN113255313B (en) | Music generation method, device, electronic equipment and storage medium | |
Li et al. | Music Definition Language & Music Manipulation Language: A Coding Scheme for Music Representation and Storage | |
JPS6040633B2 (en) | Speech synthesizer with silent plosive sound source | |
JP2011237602A (en) | Apparatus for converting pitch of encoded audio data | |
Howard | Virtual choirs | |
JPS59176782A (en) | Digital sound apparatus | |
Skirlis et al. | Spectral and temporal changes in singer performance with variation in vocal effort | |
CN114974271A (en) | Voice reconstruction method based on sound channel filtering and glottal excitation | |
JP2003255930A (en) | Encoding method for sound signal | |
JPS58123591A (en) | Electronic musical instrument |