JPS5816297A - Voice synthesizing system - Google Patents

Voice synthesizing system

Info

Publication number
JPS5816297A
JPS5816297A JP11483481A JP11483481A JPS5816297A JP S5816297 A JPS5816297 A JP S5816297A JP 11483481 A JP11483481 A JP 11483481A JP 11483481 A JP11483481 A JP 11483481A JP S5816297 A JPS5816297 A JP S5816297A
Authority
JP
Japan
Prior art keywords
sound source
frame
source signal
waveform
signal waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11483481A
Other languages
Japanese (ja)
Inventor
雄三 布施
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP11483481A priority Critical patent/JPS5816297A/en
Publication of JPS5816297A publication Critical patent/JPS5816297A/en
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
(57) [Summary] This bulletin contains application data before electronic filing, so abstract data is not recorded.

Description

【発明の詳細な説明】 本発明は音声合成方式、特に線形予測符号化(以下LP
Cと略称する)による音声合成方式に関する。
DETAILED DESCRIPTION OF THE INVENTION The present invention relates to a speech synthesis method, particularly linear predictive coding (hereinafter referred to as LP).
The present invention relates to a speech synthesis method based on the method (abbreviated as C).

通常のLPC音声合成方式では合成用の音源信号として
単純なパルスを用いているが、大幅な情報圧縮が可能と
なるも、音源情報の細部が失われ、導出される合成音声
の品質が劣化する不都合がある。
Normal LPC speech synthesis methods use simple pulses as the sound source signal for synthesis, but although it is possible to significantly compress information, the details of the sound source information are lost and the quality of the derived synthesized speech deteriorates. It's inconvenient.

そこで斯る不都合を解消すべく、複数個の合成用音源信
号を用い、それ等のうちの1つをフレーム毎に選択して
そのフレームでのLPC音声合成を行う第1図乃至第7
図に示すような音声合成方式が、本発明者により先に提
案さねた。
Therefore, in order to solve this problem, a plurality of sound source signals for synthesis are used, one of them is selected for each frame, and LPC speech synthesis is performed in that frame.
A speech synthesis method as shown in the figure was previously proposed by the present inventor.

すなわち第1図はその構成を漿略的に示すもので、同図
において、(1)は原音声が印加される入力端子、(2
)は入力される原音声から分析しようとする波形部分を
切り出し、その切り出した波形からLPCパラメータ等
声道の伝達特性に関する特徴パラメータや有声/無声、
ピッチ周波数、撮幅等の音源に関する特徴パラメータを
抽出する音声分析器、(3)は伝送路、(4)は特徴パ
ラメータより音声の再合成を行う音声合成器である。
That is, FIG. 1 schematically shows its configuration. In the figure, (1) is an input terminal to which the original sound is applied, and (2) is an input terminal to which the original sound is applied.
) extracts the waveform part to be analyzed from the input original speech, and extracts characteristic parameters related to vocal tract transfer characteristics such as LPC parameters, voiced/unvoiced, etc. from the extracted waveform.
A speech analyzer extracts feature parameters related to the sound source such as pitch frequency and imaging width, (3) is a transmission path, and (4) is a speech synthesizer that resynthesizes speech from the feature parameters.

そしてこの方式では上述の如く予測残差信号そのものを
音声合成器(4)側に伝送するには膨大な情報量を必要
とするので、その代りに各フレームでの予測残差信号を
周波数分析し2、その微細成分を平滑して得られるスベ
クトラル包絡に関する情報を音声合成器(4)側に伝送
するようにする。
In this method, as mentioned above, transmitting the prediction residual signal itself to the speech synthesizer (4) requires a huge amount of information, so instead, the prediction residual signal in each frame is frequency-analyzed. 2. Information regarding the spectral envelope obtained by smoothing the fine components is transmitted to the speech synthesizer (4) side.

この動作を第2図のフローチャートに従って説明する。This operation will be explained according to the flowchart in FIG.

ステップ0υで例えば第3図の如き原音声(第3図は女
性音”ア”の時間波形を表わしている)を印加し、ステ
ップO2でLPC分析を行い、ステップ(t31Kr、
pcパラメータすなわち上述の線形予測係数akを抽出
する。一般に音声合成に必要なパラメータは、音源に関
しては有声/無声、ピッチ周波数、振幅であり、声道の
伝達特性(スペクトラム包絡)に関しては方式により異
なるが、このLPC音声合成方式の場合上記LPCパラ
メータが対応する。
At step 0υ, for example, the original voice as shown in Figure 3 (Figure 3 represents the time waveform of the female sound "a") is applied, LPC analysis is performed at step O2, and step (t31Kr,
The pc parameter, that is, the above-mentioned linear prediction coefficient ak is extracted. In general, the parameters required for speech synthesis are voiced/unvoiced, pitch frequency, and amplitude for the sound source, and the vocal tract transfer characteristics (spectral envelope) differ depending on the method, but in the case of this LPC speech synthesis method, the above LPC parameters are handle.

またLPC分析によりステップQ4)K予測残差信号を
得、との予測残差信号からステラ1a勺で音源パラメー
タの一つである振幅を抽出し、更にステップQI19で
第4図の如き予測残差信号を得る。第4図は第3図の原
音声に対応した予測残差信号である。そしてこの予測残
差信号によりステップ06)でピッチ分析を行い、ステ
ップ(17)にピッチ周波数(ピッチ周期)を得る。こ
のピッチ周期は声帯音源における音声振動の基本周期で
あり、有声音を特徴づける重要なパラメータである。な
おこれ等の各パラメータを求める周期(フレーム周期)
としては通常10〜2Qm96G程度、波形切り出し窓
の時間長は15〜3Q m8ec程度が用いらねる。
In addition, step Q4) K predicted residual signal is obtained by LPC analysis, and the amplitude, which is one of the sound source parameters, is extracted from the predicted residual signal using Stella 1a. Get a signal. FIG. 4 shows a prediction residual signal corresponding to the original speech shown in FIG. Then, a pitch analysis is performed in step 06) using this prediction residual signal, and a pitch frequency (pitch period) is obtained in step (17). This pitch period is the fundamental period of sound vibration in the vocal cord sound source, and is an important parameter characterizing voiced sounds. The cycle (frame cycle) for determining each of these parameters
Usually, the time length of the waveform cutting window is about 15 to 3Q m8ec.

そしてこれ等ステップQl)〜αηは音声分析器(2)
側で行われ、慣用されているものである。
And these steps Ql) to αη are the speech analyzer (2)
It is done on the side and is customary.

次にステップa樽で第4図の如き予測残差信号に例えば
256サンプルポイントをもってフーリエ変換を施し、
時間−周波数変換、を行う。この結果第5図に波形Sで
示すような予測残差信号の周波数スペクトルが得られる
。この周波数スペクトルは位相情報が除去され実質的に
パワースペクトルで表わされる。そしてこの周波数スペ
クトルをステップ(11で例えばケプストラム法により
スペクトル平滑を行い、第5図に包絡線Eで示すような
スペクトル包絡を得る。第5図では略々1フレ一ム分を
表わしている。
Next, in step a, the prediction residual signal as shown in FIG. 4 is subjected to Fourier transformation using, for example, 256 sample points.
Performs time-frequency conversion. As a result, a frequency spectrum of the prediction residual signal as shown by waveform S in FIG. 5 is obtained. This frequency spectrum is substantially represented by a power spectrum with phase information removed. Then, this frequency spectrum is subjected to spectral smoothing by, for example, the cepstral method in step 11, to obtain a spectral envelope as shown by the envelope E in FIG. 5. In FIG. 5, approximately one frame is represented.

このスペクトル平滑を各フレームに付いて行い、ステッ
プ(イ)に複数個のスペクトル包絡を得る。この得られ
た複数個のスペクトル包絡はフレーム毎に異なるので、
それらをフレーム毎に伝送するにはやはりかなりの情報
量を必要とする。そこでステップ(2I)においてスペ
クトル包絡間の距離によって分離する、すなわちスペク
トル包絡の形状が似ているものは1つの群VCまとめ、
それらの内の1つのスペクトル包絡を代表パターンとし
て用いるようにする。次に残余のスペクトル包絡群につ
いても同様の操作を行い、順次代表パターンを抽出する
。そしてこの操作を繰り返すことによりステップ0渇に
複数個例えば16個の代表パターンを表わすスペクトル
包絡す1〜+16を得ることができ、これKよって全フ
レームの予測残差信号情報を表現することができる。ま
たこの16個のスペクトル包絡す1〜+16は、2=1
6であるからフレーム毎に4ビツト、例えばスペクトル
包絡+1には[0001]、スペクトル包絡+2には(
0010:1等各スペクトル包終に対するビットコード
を予め割り当て−おけば、所望時その対応するビット情
報により対応する任意のスペクトル包絡を選ぶことがで
きる。  ′ 次にステップ(2りで適当な位相条件の下でフーリエ逆
変換を行い、各スペクトル包絡+1〜+16に対応した
第6図に示すような時間波形すなわちインパルス≠1〜
+16をステップc!4)に得る。ここで位相情報を必
要とする、つまり上述のステップ08)におけるフーリ
エ変換で位相情報が除去されているので、このフーリエ
逆変換の際に何等かの位相情報を与えてやる必要がある
わけであるが、合成音声の音質は音源信号の波形にはさ
して影響されないものと思われるので、このステップ(
2国におけるフーリエ逆変換の際の位相情報は、その後
の信号処理の都合の良いように与えればよい。この位相
情報の与え方によりステップC!(イ)に得られるイン
パルス÷1〜+16の波形は、例えば第7図A 、 B
 、 CK示すような種々なものとなる。この第7図A
、B、Cのインパルス波形のうち、インパルスの持続時
間を一定としたとき、インパルス波形の最終端部の信号
レベルが最も小さくなるのは第7図Cの波形である。従
ってこの第7図Cの如きインパルス波形を用いた場合に
ステップ(25)におけるLPC音声合成の際音源波形
接続誤差が最も少なくなると考えられる。そこでステッ
プ@におけるフーリエ逆変換の際は、ステップ(財)に
得らねるインパルス−#−1〜+16の波形が実質的に
第7図Cに示すような波形になるよう位相条件を与える
のが好ましい。この第7図Cのインパルスは最小位相推
移系のインパルス・レスポンスであって、それを得るた
めの位相条件は容易に示すことができる。
This spectral smoothing is performed for each frame to obtain a plurality of spectral envelopes in step (a). Since the obtained multiple spectrum envelopes differ from frame to frame,
Transmitting them frame by frame still requires a considerable amount of information. Therefore, in step (2I), the spectral envelopes are separated by the distance between them, that is, those with similar spectral envelope shapes are grouped into one group VC,
The spectral envelope of one of them is used as a representative pattern. Next, similar operations are performed on the remaining spectral envelope groups to sequentially extract representative patterns. By repeating this operation, it is possible to obtain spectrum envelopes 1 to +16 representing a plurality of representative patterns, for example 16, in step 0, and this K can represent the predicted residual signal information of all frames. . Also, these 16 spectrum envelopes 1 to +16 are 2=1
6, so there are 4 bits per frame, for example, [0001] for spectrum envelope +1 and ( for spectrum envelope +2).
If a bit code for each spectral envelope end such as 0010:1 is assigned in advance, any corresponding spectral envelope can be selected according to the corresponding bit information when desired. ' Next, in step (2), perform inverse Fourier transform under appropriate phase conditions to obtain time waveforms as shown in Figure 6 corresponding to each spectral envelope +1 to +16, that is, impulse ≠ 1 to
+16 step c! 4) Obtain. Phase information is required here; in other words, the phase information has been removed by the Fourier transform in step 08) above, so it is necessary to provide some kind of phase information during this inverse Fourier transform. However, since the sound quality of the synthesized speech is not expected to be significantly affected by the waveform of the sound source signal, this step (
The phase information during the inverse Fourier transform in the two countries may be provided in a manner convenient for subsequent signal processing. Step C! The waveform of impulse ÷ 1 to +16 obtained in (a) is, for example, shown in Fig. 7 A and B.
, CK. This figure 7A
, B, and C, when the duration of the impulse is constant, the waveform shown in FIG. 7C has the lowest signal level at the final end of the impulse waveform. Therefore, when an impulse waveform as shown in FIG. 7C is used, it is considered that the sound source waveform connection error will be minimized during LPC speech synthesis in step (25). Therefore, when performing inverse Fourier transform in step @, it is best to provide phase conditions so that the waveforms of impulses -#-1 to +16 that cannot be obtained in step (goods) become substantially the waveforms shown in Figure 7C. preferable. The impulse shown in FIG. 7C is an impulse response of a minimum phase shift system, and the phase conditions for obtaining it can be easily shown.

このように予測残差信号情報の代表パターンであるスペ
クトル包絡+1〜÷16をステップいでフーリエ逆変換
を行い対応する時間波形に変換したものを音声合成器(
4)(第1図)の音源信号として用いることになる。な
おこのフーリエ逆変換は音声合成器(4)側で行うには
膨大なハードウェアを必要とするので実時間動作を要し
ない場合には音声分析器(1)(第1図)側でソフトウ
ェアでフーリエ逆変換を行ってスペクトル包絡を時間波
形に変換し、それを音声合成器(1)側に伝送する方法
をとるのがよい。
In this way, the spectral envelope +1 to ÷16, which is a representative pattern of prediction residual signal information, is subjected to inverse Fourier transform in steps and converted into a corresponding time waveform, which is then converted into a corresponding time waveform by a speech synthesizer (
4) It will be used as the sound source signal (Fig. 1). Note that this Fourier inverse transform requires a huge amount of hardware to perform on the speech synthesizer (4) side, so if real-time operation is not required, it can be performed using software on the speech analyzer (1) (Figure 1) side. It is preferable to perform an inverse Fourier transform to convert the spectral envelope into a time waveform, and then transmit it to the speech synthesizer (1) side.

そして音声合成器(4)側で行われるLPC音声合成の
ステップ(25)では各フレームに付き4ビット程度の
情報量を割り当て、上述の如くステップ0りにある16
個のインパルス≠1〜+16のうちの1つを選択してそ
のフレームの合成用音源とする。つまりこの選択された
インパルスが、そのフレームの音声合成に必要な音源情
報のうちの有声音に関する情報に実質的に対応するわけ
である。
Then, in the step (25) of LPC speech synthesis performed on the speech synthesizer (4) side, approximately 4 bits of information are allocated to each frame, and as described above, the 16 bits at step 0 are
One of the impulses≠≠1 to +16 is selected and used as the sound source for synthesis of that frame. In other words, the selected impulse substantially corresponds to the information regarding voiced sound among the sound source information necessary for speech synthesis of that frame.

またステップQ印では音源情報としてステップ(+51
の振幅情報、ステップαDのピッチ情報が付加されると
共に、ステップ(1皺のLPCパラメータが声道の伝達
特性に関する情報として付加さね、この結果ステップ(
26) K合成音声が取り出される。
Also, in the step Q mark, the step (+51
The amplitude information of step αD and the pitch information of step αD are added, and the LPC parameter of step (1 wrinkle) is added as information regarding the transfer characteristics of the vocal tract, and as a result, step (
26) K synthesized speech is extracted.

このような音声合成方式により、各々のフレームでの合
成音声の周波数スペクトルが原音声のものに、より近似
したものとなり、合成音声の品質が改善される。
With such a speech synthesis method, the frequency spectrum of the synthesized speech in each frame becomes more similar to that of the original speech, and the quality of the synthesized speech is improved.

ところで上述の如き音声合成方式の場合、1つのフレー
ムでの合成用音源波形として1種の音源波形をピッチ周
期毎に配置したものを用いるので、各フレームの接続部
で合成音声の波形、信号レベルが不連続になりやすく、
合成音声の音質が滑らかでない不都合がある。
By the way, in the case of the above-mentioned speech synthesis method, one type of sound source waveform arranged for each pitch cycle is used as the sound source waveform for synthesis in one frame, so the waveform and signal level of the synthesized speech are determined at the connection part of each frame. tends to become discontinuous,
There is an inconvenience that the sound quality of the synthesized speech is not smooth.

本発明は斯る点に鑑み、上述の如き合成音声のフレーム
毎の不連続を少なくしてその音質を滑らかなものとする
ことができる音声合成方式を提供するものである。
In view of the above, the present invention provides a speech synthesis method that can reduce discontinuities between frames of synthesized speech as described above and make the sound quality smooth.

本発明では2つの有声フレーム(或いは2つの無声フレ
ーム)が相続く場合、それ等のフレーム間で各フレーム
での音源信号波形の対応するサンプル値に補間を旋すこ
とにより、各フレーム間で音源信号波形が滑らかに少し
ずつ変化するようにする。
In the present invention, when two voiced frames (or two unvoiced frames) are consecutive, by interpolating the corresponding sample values of the sound source signal waveform in each frame between those frames, the sound source is Make the signal waveform change smoothly and little by little.

以下本発明の一実施例を第8図乃至第10図に基づいて
詳しく説明する。
An embodiment of the present invention will be described in detail below with reference to FIGS. 8 to 10.

第8図は本実施例の構成を示すもので、同図において、
 C31)はクロック発生器、0りはアドレスカウンタ
、(3→はフレームカウンタ、04)は補間りpツクカ
ウンタであって、クロック発生器C31)からのクロッ
クを夫々各カウンタによりカウントすることにより3種
類のタイミング信号が生成される。
FIG. 8 shows the configuration of this embodiment, and in the figure,
C31) is a clock generator, 0 is an address counter, (3→ is a frame counter, and 04) is an interpolation counter. Different types of timing signals are generated.

051は音源信号波形メモリであって、このメモリ0つ
には第2図に関連して説明したように予測残差信号情報
の代表パターンである複数個のスペクトル包絡を適当な
位相条件の下でフーリエ逆変換して時間波形(インパル
スレスポンス)に変換シ、それ等をLPC音声合成の音
源として用いるべく、予めフレーム毎に音源信号波形デ
ータとして記憶している。このメモリc3茄に記憶され
ている音源信号波形データのうちから、アドレスカウン
タ国の出力により一つのフレームの音源信号波形が選択
される。
Reference numeral 051 denotes a sound source signal waveform memory, and as explained in connection with FIG. Inverse Fourier transform is performed to convert it into a time waveform (impulse response), which is stored in advance as sound source signal waveform data for each frame in order to be used as a sound source for LPC speech synthesis. From among the sound source signal waveform data stored in the memory c3, one frame of sound source signal waveform is selected by the output of the address counter.

C(6)は現在のフレームより時間的に1つ前のフレー
ムの音源信号波形を一時的に蓄えておくバッファメモリ
であって、フレームカウンタ(至)の出力によりフレー
ム毎にその内容が更新される。(37)及び(38)は
共に係数器であって、係数器07)はメモ!J C35
1より出力された現在のフレームの音源信号波形に後述
されるような成る係数を付加するように働き、−力係数
器(到はバッファメモリ(絢の出力すなわち上述の現在
のフレームより1つ前のフレームの音源信号波形に上記
とは別の成る係数を付加するように働く。なおこれ等係
数器07)及び(至)により付加される係数は、補間ク
ロックカウンタ04)から補間クロックが係数器C37
)及び(至)に供給される毎に更新される。また補間ク
ロックの周波数は1フレームを何等分して補間するかに
よって異なり、例えば1フレームを4等分して補間を行
なう場合には、フレーム周波数の4倍の周波数とされる
C(6) is a buffer memory that temporarily stores the sound source signal waveform of the frame one frame before the current frame, and its contents are updated every frame by the output of the frame counter (to). Ru. Both (37) and (38) are coefficient units, and coefficient unit 07) is a memo! JC35
It works to add coefficients as described below to the sound source signal waveform of the current frame output from 1, It works to add coefficients different from those mentioned above to the sound source signal waveform of the frame.The coefficients added by these coefficient multipliers 07) and (to) C37
) and (to) are updated each time they are supplied. Further, the frequency of the interpolation clock varies depending on how many equal parts one frame is divided into for interpolation. For example, when one frame is divided into four equal parts and interpolation is performed, the frequency is set to four times the frame frequency.

0!は係数器037)及び□□□の各出力を加算・・す
葛ための加算器、 (40)は補間さねた音源信号が取
り出される出力端子である。
0! is an adder for adding the respective outputs of the coefficient unit 037) and □□□, and (40) is an output terminal from which the interpolated sound source signal is taken out.

次に本実施例の動作を説明する。いまメモIJ G5!
に記憶されて各フレームに対応した音源信号波形のうち
、例えばフレーム−#−nでの音源信号波形をen (
m)、これに続くフレーム+n + 1での音源信号波
形をen+1(m)とする。mはメモリc351に記憶
された音源信号波形のサンプルポイント数でm=1゜2
、・・・・・yで表わされる。例えばサンプリング周波
数10kHz (サンプリング周期100μs)でt=
30とすると音源信号波形の長さはQ、 1m8 X 
30= 3msとなる。
Next, the operation of this embodiment will be explained. Now Memo IJ G5!
Among the sound source signal waveforms stored in and corresponding to each frame, for example, the sound source signal waveform at frame -#-n is en (
m), and the sound source signal waveform at the subsequent frame +n+1 is assumed to be en+1(m). m is the number of sample points of the sound source signal waveform stored in the memory c351, m = 1°2
, ... is represented by y. For example, at a sampling frequency of 10kHz (sampling period of 100μs), t=
30, the length of the sound source signal waveform is Q, 1m8
30=3ms.

そして、第9図に示すように、1フレ一ム区間を複数個
に分割、例えば4等分した場合を考え、各フレームの接
続部の前後4つの分割区間に分割数J=1.2,3.4
と番号をつける。
As shown in FIG. 9, consider the case where one frame section is divided into a plurality of parts, for example, divided into four equal parts. 3.4
and number it.

そしてその各々の分割区間内での音源信号波形enJ(
m)を、次のように直線補間によって決定する。
And the sound source signal waveform enJ(
m) is determined by linear interpolation as follows.

上記(1)式において分割数JはJ=1.2,3.4で
アリ、サンプルポイント数mはm = l 、 2 、
・・・・、Qである。
In the above equation (1), the number of divisions J is J = 1.2, 3.4, and the number of sample points m is m = l, 2,
..., Q.

上記(1)式よりJ=1の分割区間での音源信号波形e
nl(m)は enl(m)=en(m)          ・・・
・・(2)となり、フレームナnでの補間前の音源信号
波形に一致することがわかる。
From the above equation (1), the sound source signal waveform e in the divided section of J=1
nl(m) is enl(m)=en(m)...
...(2), and it can be seen that it matches the sound source signal waveform before interpolation at frame number n.

またJ=2の分割区間での音源信号波形en2(m)は
上記(1)より となる。第10図はこのJ=2において実際に数値を入
れて補間な行った場合を示すものである。
Further, the sound source signal waveform en2(m) in the divided section of J=2 is based on the above (1). FIG. 10 shows a case in which numerical values are actually entered and interpolation is performed for J=2.

すなわち、上記(3)式より、m =−1の時のen(
m) 。
That is, from the above equation (3), en(
m).

en+ 1(”)の各レベルを夫々1.0,0.9とす
ると補間後ノe112(m)のレベルは0.975とな
り、以下同様Km=2の時のen(m) 、 en+t
(m)の各レベルを夫々−0,8,−0,7とすると補
間後のenz(m)のレベルは−0,775となり、m
 = 3の時のen(m) 。
If the levels of en+ 1('') are respectively 1.0 and 0.9, the level of e112(m) after interpolation is 0.975, and similarly en(m) and en+t when Km=2.
If each level of (m) is -0, 8, -0, and 7, the level of enz(m) after interpolation is -0,775, and m
= en(m) when 3.

en+x(m)の各レベルを夫々0.5,0.7とする
と補間後のen2(m)のレベルは0.55となり、m
 = 4の時(7) en(m) 、 en+t(m)
の各レベルを夫々−〇、2゜−〇、3とすると補間後の
en2(m)のレベルは−0,225となり、結果とし
て第10図Aに実線で示す音源信号波形en(m)と第
10図Bに実線で示す音源信号波形en+ s (”)
により第10図Aに破線で示すような補間された音源信
号波形en 2 (m )が得られることになる。
If each level of en+x(m) is 0.5 and 0.7, the level of en2(m) after interpolation will be 0.55, and m
When = 4 (7) en(m), en+t(m)
If the respective levels of are -〇, 2゜-〇, and 3 respectively, the level of en2(m) after interpolation becomes -0,225, and as a result, the sound source signal waveform en(m) shown by the solid line in Fig. 10A is obtained. The sound source signal waveform en+s ('') shown by the solid line in Figure 10B
As a result, an interpolated sound source signal waveform en 2 (m) as shown by the broken line in FIG. 10A is obtained.

以下同様にして補間を行うことにより、に2→3→4と
進むVCつれて、音源信号波形en、1(m)は次第に
次のフレーム+n+1での補間前の音源信号波形en+
x(”)に近づいてゆく。
By performing interpolation in the same manner, as the VC progresses from 2 to 3 to 4, the sound source signal waveform en,1(m) gradually becomes the sound source signal waveform before interpolation en+ at the next frame +n+1.
It approaches x(”).

、(I9 上述は1フレ一ム区間を4等分した場合であるが、一般
に1フレ一ム区間なに等分した場合の各々の分割区間内
での音源信号波形en、1(m)は次式%式% つまりこの(4)式より補間された音源信号は、これ等
2つの相続くフレームでの音源信号波形の対応するサン
プル値を線形結合したものとなるので、係数器C37)
 、(至)及び加算器0特を用いて得ることができる。
, (I9 The above is a case where one frame section is divided into four equal parts, but in general, when one frame section is divided into four equal parts, the sound source signal waveform en,1(m) in each divided section is The following formula % Formula % In other words, the sound source signal interpolated by this formula (4) is a linear combination of the corresponding sample values of the sound source signal waveform in these two consecutive frames, so the coefficient multiplier C37)
, (to) and the adder 0.

なお上記(4)式においてJ=l、J・・・・・km=
12、・・・・・eである。分割数にとしては2,4.
8・・・・等2のベキ乗に選べば上記(4)式の補間計
算が2進データのビットシフトで容易に行われるので好
都合である。
In addition, in the above equation (4), J=l, J...km=
12,...e. The number of divisions is 2, 4.
It is convenient to select a power of 2, such as 8, because the interpolation calculation of the above equation (4) can be easily performed by bit shifting of binary data.

そしてこのような補間動作を第8図の回路を用いて行う
わけであるが、それには先ず、クロック発生器01)か
らのクロックをアドレスカウンタ02でカウントして、
そのアドレス情報によりメモリ4351内の対応する各
フレームの波形データ、例えばフ(1→ レームナnの音源信号波形en(m)を選択する。そし
てこのフレーム4 nの音源信号波形en(m)はフレ
ームカウンタ03)の出力によりバッファメモリ(至)
に蓄積される。
Such an interpolation operation is performed using the circuit shown in FIG. 8. First, the clock from the clock generator 01) is counted by the address counter 02,
Based on the address information, the waveform data of each corresponding frame in the memory 4351, for example, the frame number n sound source signal waveform en(m) is selected.Then, this frame 4n sound source signal waveform en(m) is The buffer memory (to) is reached by the output of counter 03).
is accumulated in

続いてフレームナnの次のフレーム+n+1の音源信号
波形en(m)が同様にメモリGツ内からアドレスカウ
ンタC32のアドレス情報により選択され、フレームカ
ウンタO■の出力によりバッファメモリ(36)に蓄積
される。との特売にバッファメモリ06)に蓄積されて
(・たフレーム4nの音源信号波形en(m)は係数器
−に供給される。つまりバッファメモリ(至)の内容は
フレームカウンタC331の出力によりフレーム毎に更
新される。
Subsequently, the sound source signal waveform en(m) of the next frame +n+1 of frame number n is similarly selected from within the memory G by the address information of the address counter C32, and is stored in the buffer memory (36) by the output of the frame counter O. be done. The sound source signal waveform en(m) of frame 4n is stored in the buffer memory 06) and supplied to the coefficient multiplier.In other words, the contents of the buffer memory (to) are stored in the buffer memory 06) and the frame 4n is supplied to the coefficient multiplier. Updated every time.

またメモリ(35)よりフレーム+n+1の音源信号波
形en +1(” )がバッファメモリ(ト)に供給さ
れる時点で係数器(37)にも供給される。そして補間
クロックカウンタ04)の出力が係数器G′?)及び(
至)に供給された時点で、これ等の係数器により夫々成
る係数が付加される。すなわち、上記(4)式より係数
器間にに−J+1 おいては音源信号波形en(m)に対して係数 。
Also, at the time when the sound source signal waveform en +1('') of frame +n+1 is supplied from the memory (35) to the buffer memory (g), it is also supplied to the coefficient unit (37).Then, the output of the interpolation clock counter 04) is Vessel G′?) and (
(to), the respective coefficients are added by these coefficient units. That is, from the above equation (4), between the coefficient units -J+1, there is a coefficient for the sound source signal waveform en(m).

k−J+1 が付加されてその出力側にはen(m)・−Y−の信号
が取り出され、一方係数器07)にお℃・ては音源信−
1 その出力側にはen+1(m)・−に−の信号が取り出
される。そして取り出されたこれ等の信号は加算器0鴎
に供給されて加算され、もって出力端子(4(IIKは
上記(4)式で表わされるような補間された音源信号波
形en、1(m)が出力される。
k-J+1 is added, and the signal en(m)・-Y- is taken out on the output side, while the coefficient unit 07) receives the sound source signal −
1 A negative signal is taken out at the output side of en+1(m). Then, these extracted signals are supplied to the adder 0 and added, and the output terminal (4 (IIK is the interpolated sound source signal waveform en, 1 (m) as expressed by the above equation (4) is output.

上述の如く本発明によれば、2つの有声フレーム(或い
は2つの無声フレーム)が相続く場合、それ等のフレー
ム間で各フレームでの音源信号波形の対応するサンプル
値に補間を旋して、各フレーム間で音源信号波形が滑ら
かに少しずつ変化するようにしたので、各フレームの接
続部での合成音声の波形、信号レベルの不連続が除去さ
れて音質の滑らかな品、質のすぐれた合成音声を得るこ
とができる。
As described above, according to the present invention, when two voiced frames (or two unvoiced frames) are consecutive, interpolation is performed between the frames to the corresponding sample value of the sound source signal waveform in each frame, Since the sound source signal waveform changes smoothly and little by little between each frame, discontinuities in the synthesized speech waveform and signal level at the connections between each frame are removed, resulting in smooth sound quality and excellent quality. You can get synthesized speech.

【図面の簡単な説明】[Brief explanation of drawings]

第1図は本発明の先行技術に係る一例を概略的に示すブ
ロック図、第2図乃至第7図は第1図の動作駅1明に供
するための線図、第8図は本発明の一実施例を示す構成
図、第9図及び第10図は第8図の動作説明に供するた
めの線図である。 Gelはクロック発生器、 C321はアドレスカウン
タ、03)はフレームカウンタ、(財)は補間クロック
カウンタ、 C35iは音源信号波形メモリ、(至)は
バッファメモリ、(37)、(至)は係数器、0坤は加
算器である。 第1図 第7図
FIG. 1 is a block diagram schematically showing an example of the prior art of the present invention, FIGS. 2 to 7 are line diagrams for providing the operating station 1 of FIG. 1, and FIG. A configuration diagram showing one embodiment, FIGS. 9 and 10 are diagrams for explaining the operation of FIG. 8. Gel is a clock generator, C321 is an address counter, 03) is a frame counter, (goods) is an interpolation clock counter, C35i is a sound source signal waveform memory, (to) is a buffer memory, (37), (to) is a coefficient unit, 0kon is an adder. Figure 1 Figure 7

Claims (1)

【特許請求の範囲】[Claims] 音源信号波形をフレーム毎に変える音声合成方式におい
て、連続するフレーム間で各フレームでの音源信号波形
の対応すゐサンプル値に補間を旋し、フレーム間での音
源信号波形が滑らかに変化するようにしたことを特徴と
する音声合成方式。
In a speech synthesis method that changes the sound source signal waveform for each frame, interpolation is performed between consecutive frames to the corresponding sample value of the sound source signal waveform in each frame, so that the sound source signal waveform changes smoothly between frames. A speech synthesis method characterized by the following.
JP11483481A 1981-07-22 1981-07-22 Voice synthesizing system Pending JPS5816297A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11483481A JPS5816297A (en) 1981-07-22 1981-07-22 Voice synthesizing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11483481A JPS5816297A (en) 1981-07-22 1981-07-22 Voice synthesizing system

Publications (1)

Publication Number Publication Date
JPS5816297A true JPS5816297A (en) 1983-01-29

Family

ID=14647855

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11483481A Pending JPS5816297A (en) 1981-07-22 1981-07-22 Voice synthesizing system

Country Status (1)

Country Link
JP (1) JPS5816297A (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60118899A (en) * 1983-11-30 1985-06-26 松下電器産業株式会社 Voice analysis synthesization
JPS60173285A (en) * 1984-02-17 1985-09-06 大成建設株式会社 Rock drilling bit
JPS61150000A (en) * 1984-12-24 1986-07-08 日本電気株式会社 Voice encoding system and apparatus
JPS6238500A (en) * 1985-08-13 1987-02-19 日本電気株式会社 Highly efficient voice coding system and apparatus
JPS62159199A (en) * 1985-12-26 1987-07-15 エイ・ティ・アンド・ティ・コーポレーション Voice message processing apparatus and method

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5672500A (en) * 1979-11-20 1981-06-16 Tokyo Shibaura Electric Co Voice synthesizer
JPS5680099A (en) * 1979-12-03 1981-07-01 Matsushita Electric Ind Co Ltd Parameter interporation system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5672500A (en) * 1979-11-20 1981-06-16 Tokyo Shibaura Electric Co Voice synthesizer
JPS5680099A (en) * 1979-12-03 1981-07-01 Matsushita Electric Ind Co Ltd Parameter interporation system

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60118899A (en) * 1983-11-30 1985-06-26 松下電器産業株式会社 Voice analysis synthesization
JPS60173285A (en) * 1984-02-17 1985-09-06 大成建設株式会社 Rock drilling bit
JPS6350510B2 (en) * 1984-02-17 1988-10-11 Taisei Kensetsu Kk
JPS61150000A (en) * 1984-12-24 1986-07-08 日本電気株式会社 Voice encoding system and apparatus
JPS6238500A (en) * 1985-08-13 1987-02-19 日本電気株式会社 Highly efficient voice coding system and apparatus
JPS62159199A (en) * 1985-12-26 1987-07-15 エイ・ティ・アンド・ティ・コーポレーション Voice message processing apparatus and method

Similar Documents

Publication Publication Date Title
KR960002387B1 (en) Voice processing system and method
CA1046642A (en) Phase vocoder speech synthesis system
CA1157564A (en) Sound synthesizer
CA1065490A (en) Emphasis controlled speech synthesizer
JPS5936275B2 (en) Residual excitation predictive speech coding method
US3909533A (en) Method and apparatus for the analysis and synthesis of speech signals
JPH04134400A (en) Voice encoding device
JPS62159199A (en) Voice message processing apparatus and method
JPH01155400A (en) Voice encoding system
US4382160A (en) Methods and apparatus for encoding and constructing signals
JPH10319996A (en) Efficient decomposition of noise and periodic signal waveform in waveform interpolation
AU724355B2 (en) Waveform synthesis
GB2050125A (en) Data converter for a speech synthesizer
US5715363A (en) Method and apparatus for processing speech
WO1998021710A1 (en) Sound reproducing speed converter
JPS5816297A (en) Voice synthesizing system
JPH05265495A (en) Speech encoding device and its analyzer and synthesizer
JP3731575B2 (en) Encoding device and decoding device
JPH0632037B2 (en) Speech synthesizer
JPS62102294A (en) Voice coding system
JPH051957B2 (en)
JP3112462B2 (en) Audio coding device
JPH0468400A (en) Voice encoding system
EP1267327A2 (en) Optimization of model parameters in speech coding
JPS60150100A (en) Voice analysis/synthesization system