DE69024899T2 - Method and device for analysis by synthesizing speech - Google Patents

Method and device for analysis by synthesizing speech

Info

Publication number
DE69024899T2
DE69024899T2 DE69024899T DE69024899T DE69024899T2 DE 69024899 T2 DE69024899 T2 DE 69024899T2 DE 69024899 T DE69024899 T DE 69024899T DE 69024899 T DE69024899 T DE 69024899T DE 69024899 T2 DE69024899 T2 DE 69024899T2
Authority
DE
Germany
Prior art keywords
speech
pulse
phase
filter
waveform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE69024899T
Other languages
German (de)
Other versions
DE69024899D1 (en
Inventor
Masaaki Honda
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of DE69024899D1 publication Critical patent/DE69024899D1/en
Application granted granted Critical
Publication of DE69024899T2 publication Critical patent/DE69024899T2/en
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren und eine Vorrichtung zur Sprachanalyse-Synthese, bei denen ein lineares Filter, das die Spektralhüllkurvencharakteristik einer Sprache repräsentiert, zur Synthetisierung eines Sprachsignals mittels eines Anregungssignals angeregt wird.The present invention relates to a method and a device for speech analysis synthesis, in which a linear filter representing the spectral envelope characteristic of a speech is excited to synthesize a speech signal by means of an excitation signal.

Es sind bislang ein linearer prädiktiver Vocoder und eine prädiktive Mehrpulscodierung zur Verwendung bei Sprachanalyse-Synthesesystemen dieser Art vorgeschlagen worden. Der lineare prädiktive Vocoder wird jetzt in großem Umfang für Sprachcodierung in einem Bereich niedriger Bitrate unter 4,8 kb/s verwendet, und dieses System schließt ein PARCOR-System und ein Linienspektrumpaar-(LSP)-System ein. Diese Systeme sind im einzelnen beispielsweise beschrieben in Saito und Nakata, "Fundamentals of Speech Signal Processing," ACADEMIC PRESS, INC., 1985. Der lineare prädiktive Vocoder ist aus einem Allpolfilter, das die Spektralhüllkurvencharakteristik einer Sprache repräsentiert, und einem Anregungssignalgeneratorteil zur Erzeugung eines Signals zum Anregen des Allpolfilters aufgebaut. Das Anregungssignal ist eine Tonlagen-(pitch)-Frequenz-Impulsfolge für einen stimmhaften Laut und weißes Rauschen für eine stimmlosen Laut. Anregungsparameter sind die Unterscheidung zwischen stimmhaften und stimmlosen Lauten, die Tonlagenfrequenz und die Stärke des Anregungssignals. Diese Parameter werden als gemittelte Merkmale des Sprachsignals in einem Analysefenster von etwa 30 msec extrahiert. Bei dem linearen prädiktivem Vocoder können, da für jedes Analysefenster extrahierte Parameter, wie oben erwähnt, zur Sprachsynthese zeitlich interpoliert werden, Merkmale seiner Wellenform nicht mit ausreichender Genauigkeit reproduziert werden, wenn die Tonlagenfrequenz, die Stärke und die Spektralcharakteristik der Sprache schnellen Änderungen unterliegen. Da ferner das Anregungssignal, das sich aus der Tonlagenfrequenz-Impulsfolge und dem weißen Rauschen zusammensetzt, zur Reproduktion von Merkmalen verschiedener Sprachwellenformen ungenügend ist, ist es schwierig, eine sehr natürlich klingende synthetisierte Sprache zu erzeugen. Zur Verbesserung der Qualität der synthetisierten Sprache in dem linearen prädiktiven Vocoder hat man im Stand der Technik in Erwägung gezogen, eine Anregung zu verwenden, die eine genauere Reproduktion der Merkmale der Sprachwellenformen erlaubt.A linear predictive vocoder and a multi-pulse predictive coding have been proposed for use in speech analysis synthesis systems of this type. The linear predictive vocoder is now widely used for speech coding in a low bit rate range below 4.8 kb/s, and this system includes a PARCOR system and a line spectrum pair (LSP) system. These systems are described in detail, for example, in Saito and Nakata, "Fundamentals of Speech Signal Processing," ACADEMIC PRESS, INC., 1985. The linear predictive vocoder is constructed of an all-pole filter representing the spectral envelope characteristic of a speech and an excitation signal generator part for generating a signal for exciting the all-pole filter. The excitation signal is a pitch-frequency pulse train for a voiced sound and white noise for an unvoiced sound. Excitation parameters are the distinction between voiced and unvoiced sounds, the pitch frequency and the strength of the excitation signal. These parameters are extracted as averaged features of the speech signal in an analysis window of about 30 msec. In the linear predictive vocoder, since parameters extracted for each analysis window are temporally interpolated for speech synthesis as mentioned above, features of its waveform cannot be reproduced with sufficient accuracy when the pitch frequency, strength and spectral characteristics of the speech undergo rapid changes. Furthermore, since the excitation signal composed of the pitch frequency pulse train and the white noise is insufficient to reproduce features of various speech waveforms, it is difficult to produce a highly natural-sounding synthesized speech. To improve the quality of the synthesized speech in the linear predictive vocoder, the prior art has considered using an excitation that allows more accurate reproduction of the features of the speech waveforms.

Auf der anderen Seite ist das prädiktive Mehrimpulscodieren ein Verfahren, das eine Anregung höherer Herstellbarkeit als bei dem herkömmlichen Vocoder verwendet. Bei diesem Verfahren wird das Anregungssignal ausgedrückt, indem eine Mehrzahl von Impulsen verwendet wird, und zwei Allpolfilter, die die Nähenkorrelations- und die Tonlagenkorrelationscharakteristiken von Sprache repräsentieren, werden von dem Anregungssignal zur Sprachsynthese angeregt. Die zeitlichen Lagen und Stärken der Impulse werden so gewählt, daß ein Fehler zwischen der eingegebenen originalen Sprachwellenform und der synthetisierten Sprachwellenform minimal wird. Dies ist im einzelnen beschrieben in B.S. Atal, "A New Model of LPC Excitation for Producing Natural-Sounding Speech at Low Bit Rates," IEEE Int. Conf. on ASSP, Seiten 614- 617, 1982. Mit dem prädiktiven Mehrpulscodieren kann die Sprachqualität durch Erhöhung der Anzahl verwendeter Impulse verbessert werden, jedoch ist, wenn die Bitrate niedrig ist, die Anzahl von Impulsen begrenzt, so daß folglich die Reproduzierbarkeit der Sprachwellenform verschlechtert wird und keine ausreichende Sprachqualität erzielt werden kann. Man geht im Stand der Technik davon aus, daß eine Informationsmenge von etwa 8 kb/s zur Erzeugung einer hohen Sprachqualität erforderlich ist.On the other hand, predictive multi-pulse coding is a method that uses excitation of higher manufacturability than the conventional vocoder. In this method, the excitation signal is expressed using a plurality of pulses, and two all-pole filters representing the proximity correlation and pitch correlation characteristics of speech are excited by the excitation signal for speech synthesis. The timing and strength of the pulses are selected so that an error between the input original speech waveform and the synthesized speech waveform becomes minimal. This is described in detail in BS Atal, "A New Model of LPC Excitation for Producing Natural-Sounding Speech at Low Bit Rates," IEEE Int. Conf. on ASSP, pages 614-617, 1982. With multipulse predictive coding, the speech quality can be improved by increasing the number of pulses used, but when the bit rate is low, the number of pulses is limited, and consequently the reproducibility of the speech waveform is deteriorated and sufficient speech quality cannot be obtained. It is considered in the prior art that an information amount of about 8 kb/s is required to produce high speech quality.

Bei der prädiktiven Mehrimpulscodierung wird die Anregung so festgelegt, daß die eingegebene Sprachwellenform selbst reproduziert wird. Auf der anderen Seite ist auch ein Verfahren vorgeschlagen worden, bei dem ein phasenangeglichenes Sprachsignal, das vom Gleichmachen einer Phasenkomponente der Sprachwellenform mit einer bestimmten Phase resultiert, der prädiktiven Mehrpulscodierung unterzogen wird, wie in dem US Patent Nr.4,850,022 ausgeführt, das dem Erfinder der vorliegenden Anmeldung erteilt ist. Dieses Verfahren verbessert die Sprachqualität bei niedrigen Bitraten, da die Anzahl von Impulsen zur Reproduzierung des Anregungssignals dadurch reduziert werden kann, daß von der Sprachwellenform die Phasenkomponente einer Sprache entfernt wird, die für das menschliche Hören nicht signifikant ist. Wenn jedoch bei diesem Verfahren die Bitrate auf 4,8 kb/s oder so fällt, wird die Anzahl von Impulsen zur Reproduzierung von Merkmalen der Sprachwellenform mit hoher Genauigkeit ungenügend, und ebenso wenig kann Sprache hoher Qualität erzeugt werden.In the predictive multipulse coding, the excitation is set so that the input speech waveform itself is reproduced. On the other hand, a method has also been proposed in which a phase-adjusted speech signal resulting from equalizing a phase component of the speech waveform with a certain phase is subjected to the predictive multipulse coding, as set forth in U.S. Patent No. 4,850,022 assigned to the inventor of the present application. This method improves the speech quality at low bit rates because the number of pulses for reproducing the excitation signal can be reduced by removing from the speech waveform the phase component of a speech that is not significant to human hearing. However, in this method, when the bit rate drops to 4.8 kb/s or so, the number of pulses for reproducing features of the speech waveform with high accuracy becomes insufficient, and high-quality speech cannot be produced either.

ZUSAMMENFASSUNG DER ERFINDUNGSUMMARY OF THE INVENTION

Es ist daher eine Aufgabe der vorliegenden Erfindung, ein Verfahren und eine Vorrichtung zur Sprachanalyse-Synthese zu schaffen, die die Erzeugung von Sprache hoher Qualität mit Bitraten im Bereich von 2,4 bis 4,8 kb/s erlauben, d.h. im Grenzbereich zwischen den Informationsmen gen, die für den linearen prädiktiven Vocoder und die Sprachwellenformcodierung benötigt werden.It is therefore an object of the present invention to provide a method and an apparatus for speech analysis synthesis which allow the generation of high quality speech at bit rates in the range of 2.4 to 4.8 kb/s, i.e. in the border area between the amounts of information required for the linear predictive vocoder and the speech waveform coding.

Diese Aufgabe wird mit einem Verfahren gemäß Anspruch 1, einer Sprachanalysevorrichtung gemäß Anspruch bzw. einer Sprachsynthesevorrichtung gemäß Anspruch 9 gelöst.This object is achieved with a method according to claim 1, a speech analysis device according to claim or a speech synthesis device according to claim 9.

Bevorzugte Ausführungsformen der Erfindung sind Gegenstand der abhängigen Ansprüche.Preferred embodiments of the invention are the subject of the dependent claims.

Gemäß der vorliegenden Erfindung wird eine quasi-periodische Impulsfolge mit begrenzter Schwankung ihrer Tonlagenperiode erzeugt. Durch Verwendung der quasi-periodischen Impuls folge als ein Anregungssignal für einen stimmhaften Laut bei der Sprachanalyse ist es möglich, die Menge der Parameterinformation, die die Impulsfolge repräsentiert, zu verringern.According to the present invention, a quasi-periodic pulse train is generated with limited variation of its pitch period. By using the quasi-periodic pulse train as an excitation signal for a voiced sound in speech analysis, it is possible to reduce the amount of parameter information that the pulse train represents.

KURZE BESCHREIBUNG DER ZEICHNUNGENBRIEF DESCRIPTION OF THE DRAWINGS

Fig. 1 ist ein Blockdiagramm, das eine Ausführungsform des Sprachanalyse-Syntheseverfahrens gemäß der vorliegenden Erfindung zeigt;Fig. 1 is a block diagram showing an embodiment of the speech analysis synthesis method according to the present invention;

Fig. 2 ist ein Blockdiagramm, das ein Beispiel eines Phasenangleichungs- und Analyseteils 4 zeigt;Fig. 2 is a block diagram showing an example of a phase adjustment and analysis part 4 ;

Fig. 3 ist ein Diagramm zur Erläuterung eines quasi-periodischen Impulsanregungssignals;Fig. 3 is a diagram for explaining a quasi-periodic pulse excitation signal;

Fig. 4 ist ein Flußdiagramm eines Impulsposistionserzeugungsprozesses;Fig. 4 is a flowchart of a pulse position generating process;

Fig. 5A ist ein Diagramm zur Erläuterung der Einfügung einer Impulsposition in Fig. 4;Fig. 5A is a diagram for explaining the insertion of a pulse position in Fig. 4;

Fig. 5B ist ein Diagramm zur Erläuterung der Verschiebung einer Impulsposition in Fig. 4;Fig. 5B is a diagram for explaining the shift of a pulse position in Fig. 4;

Fig. 5C ist ein Diagramm zur Erläuterung der Entfernung einer Impulsposition in Fig. 4;Fig. 5C is a diagram for explaining the distance of a pulse position in Fig. 4;

Fig. 6 ist ein Blockdiagramm, das ein Beispiel eines Impulsgrößenberechnungsteils 8 zeigt;Fig. 6 is a block diagram showing an example of a pulse size calculation part 8;

Fig. 6A ist ein Blockdiagramm, das einen Frequenzgewichtungsfilter-Verarbeitungsteil 39, der in Fig. 6 gezeigt ist, zeigt;Fig. 6A is a block diagram showing a frequency weighting filter processing part 39 shown in Fig. 6;

Fig. 7A ist ein Diagramm, das ein Beispiel der Wellenform eines phasenangeglichenen Prädiktionsrests zeigt;Fig. 7A is a diagram showing an example of the waveform of a phase-aligned prediction residual;

Fig. 7B ist ein Diagramm, das eine Impulsantwort eines Nullfilters zeigt;Fig. 7B is a graph showing an impulse response of a zero filter;

Fig. 8 ist ein Blockdiagramm, das ein Beispiel eines Nullfilterkoeffizienten-Berechnungsteils 11 zeigt;Fig. 8 is a block diagram showing an example of a zero filter coefficient calculation part 11;

Fig. 9 ist ein Blockdiagramm, das ein anderes Beispiel des Impulsgrößenberechnungsteils 8 zeigt; undFig. 9 is a block diagram showing another example of the pulse magnitude calculation part 8 ; and

Fig. 10 ist ein Diagramm, das die Vergleichsergebnisse der synthetisierten Sprachqualität zwischen der vorliegenden Erfindung und dem Stand der Technik zeigt.Fig. 10 is a graph showing the comparison results of synthesized speech quality between the present invention and the prior art.

BESCHREIBUNG DER BEVORZUGTEN AUSFÜHRUNGSFORMDESCRIPTION OF THE PREFERRED EMBODIMENT

Fig. 1 zeigt in Blockform den Aufbau des Sprachanalyse-Synthesesystems der vorliegenden Erfindung. Ein abgetastetes digitales Sprachsignal s(t) wird über einen Eingangsanschluß 1 eingegeben. In einem linearen prädiktiven Analysatorteil 2 werden die Abtastwerte von N Sprachsignalen auf einmal in einem Datenpuffer für jedes Analysefenster gespeichert und diese Abtastwerte dann einer linearen prädiktiven Analyse mittels eines bekannten linearen prädiktiven Codierungsverfahrens zur Berechnung eines Satzes von Prädiktionskoeffizienten ai (wobei i = 1, 2, ..., p) unterzogen. In dem linearen prädiktiven Analysatorteil 2 wird ein Prädiktionsrestsignal e(t) des eingegebenen Sprachsignals s(t) mittels eines (nicht gezeigten) inversen Filters erhalten, welches den Satz von Prädiktionskoeffizienten als seine Filterkoeffizienten verwendet. Auf der Basis der Entscheidung des Pegels für einen Maximalwert einer Autokorrelationsfunktion des Prädiktionsrestsignals wird festgelegt, ob die Sprache stimmhaft (V) oder stimmlos (U) ist, und ein Entscheidungssignal UV wird dementsprechend ausgegeben. Diese Verarbeitung ist im einzelnen in der vorgenannten Literaturstelle von Saito et al beschrieben. Die Prädiktionskoeffizienten ai, die in dem linearen prädiktiven Analysatorteil 2 erhalten werden, werden einem Phasenangleichungs-Analysatorteil 4 geliefert und zur gleichen Zeit mittels eines Quantisierers 3 quantisiert.Fig. 1 shows in block form the structure of the speech analysis synthesis system of the present invention. A sampled digital speech signal s(t) is input via an input terminal 1. In a linear predictive analyzer section 2, the samples of N speech signals are stored at once in a data buffer for each analysis window and these Samples are then subjected to linear predictive analysis by a known linear predictive coding method to calculate a set of prediction coefficients ai (where i = 1, 2, ..., p). In the linear predictive analyzer part 2, a prediction residual signal e(t) of the input speech signal s(t) is obtained by means of an inverse filter (not shown) which uses the set of prediction coefficients as its filter coefficients. On the basis of the decision of the level for a maximum value of an autocorrelation function of the prediction residual signal, it is determined whether the speech is voiced (V) or unvoiced (U), and a decision signal UV is output accordingly. This processing is described in detail in the aforementioned reference by Saito et al. The prediction coefficients ai obtained in the linear predictive analyzer part 2 are supplied to a phase matching analyzer part 4 and quantized by a quantizer 3 at the same time.

In dem Phasenangleichungs-Analysatorteil 4 werden Koeffizienten eines Phasenangleichungsfilters, welches die Phasencharakteristik der Sprache zu einer Nullphase machen soll, und Referenzzeitpunkte der Phasenangleichung berechnet. Fig. 2 zeigt im einzelnen den Aufbau des Phasenangleichungs-Analysatorteils 4. Das Sprachsignal s(t) wird an ein inverses Filter 31 zum Erhalt des Prädiktionsrests e(t) angelegt. Der Prädiktionsrest e(t) wird einem Maximalgrößenpositionsdetektorteil 32 und einem Phasenangleichungsfilter 37 geliefert. Ein Schaltersteuerteil 33C überwacht das Entscheidungssignal VU, das von dem linearen prädikitiven Analysatorteil 2 geliefert wird, und verbindet normalerweise einen Schalter 33 mit der Ausgangsseite eines Größenvergleichsteils 38. Wenn jedoch das momentane Fenster von einem stimmhaften Laut V und der unmittelbar vorhergehende Rahmen von einem stimmlosen Laut U ist, wird der Schalter 33 mit der Ausgangsseite des Maximalgrößenpositionsdetektorteils 32 verbunden. In diesem Fall erfaßt der Maximalgrößenpositionsdetektorteil 32 einen Abtastpunkt t'p, an welchem die Größe des Prädiktionsrest e(t) maximal ist, und gibt ihn aus.In the phase equalization analyzer part 4, coefficients of a phase equalization filter which is to make the phase characteristic of the speech a zero phase and reference times of the phase equalization are calculated. Fig. 2 shows the detailed structure of the phase equalization analyzer part 4. The speech signal s(t) is applied to an inverse filter 31 to obtain the prediction residual e(t). The prediction residual e(t) is supplied to a maximum magnitude position detector part 32 and a phase equalization filter 37. A switch control part 33C monitors the decision signal VU supplied from the linear predictive analyzer part 2 and normally connects a switch 33 to the output side of a magnitude comparison part 38. However, when the current window is of a voiced sound V and the immediately preceding frame is of an unvoiced sound U, the switch 33 is connected to the output side of the maximum magnitude position detector part 32. In this case, the maximum magnitude position detector part 32 detects and outputs a sampling point t'p at which the magnitude of the prediction residual e(t) is maximum.

Es sei angenommen, daß geglättete Phasenangleichungsfilterkoeffizienten ht'i(k) für den momentan bestimmten Referenzzeitpunkt t'i an einem Koeffizientenglättungsteil 35 erhalten wurden. Die Koeffizienten ht'i(k) werden von dem Filterkoeffizientenhalteteil 36 an das Phasenangleichungsfilter 37 geliefert. Der Prädiktionsrest e(t), welcher die Ausgabe des inversen Filters 31 ist, wird von dem Phasenangleichungsfilter 37 phasenangeglichen und von diesem als phasenangeglichener Prädiktionsrest ep(t) ausgegeben. Es ist bekannt, daß, wenn das Eingangssprachsignal s(t) ein Signal stimmhaften Lauts ist, der Prädiktionsrest e(t) des Sprachsignals eine Wellenform mit Impulsen an den Tonlagenintervallen des stimmhaften Lauts aufweist. Das Phasenangleichungsfilter 37 erzeugt einen Effekt der Hervorhebung der Größen der Impulse solcher Tonlagenintervalle.Assume that smoothed phase matching filter coefficients ht'i(k) for the currently determined reference time t'i have been obtained at a coefficient smoothing part 35. The coefficients ht'i(k) are supplied from the filter coefficient holding part 36 to the phase matching filter 37. The prediction residual e(t), which is the output of the inverse filter 31, is phase-matched by the phase matching filter 37 and outputted therefrom as a phase-matched prediction residual ep(t). It is known that when the input speech signal s(t) is a voiced sound signal, the prediction residual e(t) of the speech signal has a waveform having pulses at the pitch intervals of the voiced sound. The phase equalization filter 37 produces an effect of emphasizing the magnitudes of the pulses of such pitch intervals.

Der Größenvergleichsteil 38 vergleicht Pegel des phasenangeglichenen Prädiktionsrests ep(t) mit einem vorbestimmten Schwellenwert, bestimmt, als Impulsposition, jeden Abtastzeitpunkt, wo der Abtastwert den Schwellenwert übersteigt, und gibt die Impulsposition als den nächsten Referenzzeitpunkt t'i+1 unter der Bedingung aus, daß ein zulässiger Minimalwert der Impulsintervalle Lmin ist, und nach dem nächsten Referenzzeitpunkt t'i+1 wird unter Abtastpunkten gesucht, die mehr als um den Wert Lmin von dem Zeitpunkt t'i beabstandet sind.The magnitude comparison part 38 compares levels of the phase-adjusted prediction residual ep(t) with a predetermined threshold value, determines, as a pulse position, each sampling time point where the sampling value exceeds the threshold value, and outputs the pulse position as the next reference time point t'i+1 under the condition that an allowable minimum value of the pulse intervals is Lmin, and the next reference time point t'i+1 is searched for among sampling points spaced more than the value Lmin from the time point t'i.

Wenn der Rahmen ein stimmloser Lautrahmen ist, setzt sich der phasenangeglichene Rest ep(t) während des stimmlosen Lautrahmens im wesentlichen aus Zufallskomponenten (oder weißem Rauschen) zusammen, die deutlich niedriger als der oben erwähnte Schwellenwert sind, und der Größenvergleichsteil 38 erzeugt nicht den nächsten Referenzzeitpunkt t'i+1 als eine Ausgabe des Phasenangleichungs-Analysatorteils 4. Stattdessen bestimmt der Größenvergleichsteil 38 einen Dummy-Referenzzeitpunkt t'i+1 an beispielsweise dem letzten Abtastpunkt des Rahmens (ohne darauf beschränkt zu sein), und zwar zur Verwendung zur Bestimmung der geglätteten Filterkoeffizienten an dem Glättungsteil 35, wie später erläutert.If the frame is an unvoiced phone frame, the phase-matched residual ep(t) during the unvoiced phone frame is composed essentially of random components (or white noise) that are significantly lower than the above-mentioned threshold, and the magnitude comparison part 38 does not generate the next reference time point t'i+1 as an output of the phase-matching analyzer part 4. Instead, the magnitude comparison part 38 determines a dummy reference time point t'i+1 at, for example, the last sampling point of the frame (but not limited to), for use in determining the smoothed filter coefficients at the smoothing part 35, as explained later.

Als Antwort auf den nächsten Referenzzeitpunkt t'i+1 der auf diese Weise in dem stimmhaften Lautrahmen erhalten wird, berechnet ein Filterkoeffizienten-Berechnungsteil 34 (2M + 1) Filterkoeffizienten h*(k) des Phasenangleichungsfilters 37 nach Maßgabe der folgenden Gleichung: In response to the next reference time t'i+1 thus obtained in the voiced sound frame, a filter coefficient calculation part 34 calculates (2M + 1) filter coefficients h*(k) of the phase adjustment filter 37 according to the following equation:

wobei k = -M, -(M-1), ..., 0, 1, ..., M ist.where k = -M, -(M-1), ..., 0, 1, ..., M.

Wenn es sich andererseits bei dem Rahmen um einen stimmlosen Lautrahmen handelt, berechnet der Filterkoeffizienten-Berechnungsteil 34 die Filterkoeffizienten h*(k) des Phasenangleichungsfilters 37 anhand folgender Gleichung: On the other hand, when the frame is an unvoiced phone frame, the filter coefficient calculation part 34 calculates the filter coefficients h*(k) of the phase adjustment filter 37 using the following equation:

wobei k = -M, ..., M ist.where k = -M, ..., M.

Die Charakteristik des durch Gleichung (2) ausgedrückten Phasenangleichungsfilter 37 stellt eine solche Charakteristik dar, daß sein Eingangssignal unverändert hindurchgelassen wird.The characteristic of the phase matching filter 37 expressed by equation (2) represents such a characteristic that its input signal is passed through unchanged.

Die so für den nächsten Referenzzeitpunkt ti+1 berechneten Filterkoeffizienten h*(k) werden mittels des Koeffizientenglättungsteils 35 geglättet, wie später beschrieben, um geglättete Phasenangleichungsfilterkoeffizienten ht'i+1(k) zu erhalten, die von dem Koeffizientenhalteteil 36 gehalten werden und als erneuerte Koeffizienten ht'i(k) an das Phasenangleichungsfilter 37 geliefert werden. Das Phasenangleichungsfilter 37, dessen Koeffizienten auf diese Weise erneuert wurden, führt erneut eine Phasenangleichung des Prädiktionsrests e(t) aus, und auf der Basis seiner Ausgabe wird von dem Größenvergleichsteils 38 die nächste Impulsposition, d.h. ein neuer nächster Referenzpunkt t'i+1 bestimmt. Auf diese Weise wird ein nächster Referenzzeit punkt t'i+1 auf der Basis des phasenangeglichenen Rests ep(t) bestimmt, der von dem Phasenangleichungsfitter 37 ausgegeben wird, dessen Koeffizienten auf ht'i(k) gesetzt wurden, und danach werden neue geglättete Filterkoeffizienten hti+1(k) für den Referenzzeitpunkt t'i+1 berechnet. Durch Wiederholen dieser Prozesse unter Verwendung des Referenzzeitpunkts t'i+1 und der geglätteten Filterkoeffizienten ht'i+1(k) als neue t'i und ht'i(k) werden Referenzzeitpunkte in jedem Rahmen und die geglätteten Filterkoeffizienten ht'i(k) für diese Referenzzeitpunkte in sequentieller Folge bestimmt.The filter coefficients h*(k) thus calculated for the next reference time ti+1 are smoothed by the coefficient smoothing part 35 as described later to obtain smoothed phase-adjustment filter coefficients ht'i+1(k), which are held by the coefficient holding part 36 and supplied as renewed coefficients ht'i(k) to the phase-adjustment filter 37. The phase-adjustment filter 37, whose coefficients have been renewed in this way, again performs phase-adjustment of the prediction residual e(t), and on the basis of its output, the next pulse position, that is, a new next reference point t'i+1, is determined by the magnitude comparing part 38. In this way, a next reference time t'i+1 is determined on the basis of the phase-adjusted residual ep(t) output from the phase-adjustment fitter 37 whose coefficients have been set to ht'i(k), and then, new smoothed filter coefficients hti+1(k) are calculated for the reference time t'i+1. By repeating these processes using the reference time t'i+1 and the smoothed filter coefficients ht'i+1(k) as new t'i and ht'i(k), reference time points in each frame and the smoothed filter coefficients ht'i(k) for these reference time points are determined in sequential order.

In dem Fall, wo Sprache nach einer Ruheperiode beginnt oder ein stimmhafter Laut nach fortgesetzten stimmlosen Lauten einsetzt, wird der Prädiktionsrest e(t), der Impulse der Tonlagenfrequenz enthält, das erste Mal dem Phasenangleichungsfilter 37 geliefert, in welchem die im wesentlichen durch Gleichung (1) gegebenen Filterkoeffizienten eingestellt sind. In diesem Fall sind die Größen der Impulse nicht hervorgehoben, und folglich wird der Prädiktionsrest e(t) unverändert von dem Filter 37 ausgegeben. wenn somit die Größen der Impulse der Tonlagenfrequenz zufällig kleiner sind als der Schwellenwert, können die Impulse in dem Größenvergleichsteil 38 nicht erfaßt werden. D.h., die Sprache wird verarbeitet, wie wenn keine Impulse in dem Prädiktionsrest enthalten wären, und folglich werden die Filterkoeffizienten h*(k) für die Impulspositionen nicht erhalten. Dies ist unter dem Gesichtspunkt der Sprachqualität in der Sprachanalyse-Synthese ungünstig.In the case where speech begins after a period of silence or a voiced sound begins after continued unvoiced sounds, the prediction residual e(t) containing pulses of the pitch frequency is supplied for the first time to the phase matching filter 37 in which the filter coefficients given essentially by equation (1) are set. In this case, the magnitudes of the pulses are not emphasized and hence the prediction residual e(t) is output unchanged from the filter 37. Thus, if the magnitudes of the pulses of the pitch frequency happen to be smaller than the threshold value, the pulses cannot be detected in the magnitude comparison part 38. That is, the speech is processed as if no pulses were included in the prediction residual and hence the filter coefficients h*(k) for the pulse positions are not obtained. This is unfavorable from the point of view of speech quality in speech analysis synthesis.

Zur Lösung dieses Problems erfaßt bei der Ausführungsform in Fig. 2, wenn sich das Eingangssprachsignal-Analysefenster von einem stimmlosen Lautrahmen zu einem stimmhaften Lautrahmen ändert, wie oben erwähnt, der Maximalgrößendetektorteil 32 die Maximalgrößenposition t'p des Prädiktionsrests e(t) in dem stimmhaften Lautrahmen und liefert sie über den Schalter 33 an den Filterkoeffizienten-Berechnungsteil 34 und gibt sie gleichzeitig als Referenzzeitpunkt aus. Der Filterkoeffizienten-Berechnungsteil 34 berechnet die Filterkoeffizienten h*(k) unter Verwendung des Referenzzeitpunkt t'p anstelle von t'i+1 in Gleichung (2).To solve this problem, in the embodiment in Fig. 2, when the input speech signal analysis window changes from an unvoiced phone frame to a voiced phone frame as mentioned above, the maximum magnitude detector part 32 detects the maximum magnitude position t'p of the prediction residual e(t) in the voiced phone frame and supplies it to the filter coefficient calculation part 34 via the switch 33 and simultaneously outputs it as a reference time point. The filter coefficient calculation part 34 calculates the filter coefficients h*(k) using the reference time point t'p instead of t'i+1 in equation (2).

Als nächstes erfolgt eine Beschreibung des Glättungsprozesses der Phasenangleichungsfilterkoeffizienten h*(k) durch den Koeffizientenglättungsteil 35. Die Filterkoeffizienten h*(k), die für den nächsten Referenzzeitpunkt t'i+1 bestimmt und an den Glättungsteil 35 geliefert wurden, werden von einem Filterprozeß erster Ordnung, der beispielsweise durch die folgende Rekursionsformel ausgedrückt ist, vorübergehend geglättet:Next, a description will be given of the smoothing process of the phase matching filter coefficients h*(k) by the coefficient smoothing part 35. The filter coefficients h*(k) determined for the next reference time t'i+1 and supplied to the smoothing part 35 are temporarily smoothed by a first-order filtering process expressed, for example, by the following recursion formula:

ht(k) = bht-1(k) + (1-b)h*(k) ...(3)ht(k) = bht-1(k) + (1-b)h*(k) ...(3)

wobei: t'i < t &le; t'i+1 ist.where: t'i < t &le; t'i+1.

Der Koeffizient b wird auf einen Wert von etwa 0,97 gesetzt. In Gleichung (3) stellt ht-1(k) geglättete Filterkoeffizienten an einem beliebigen Abtastpunkt (t-1) im Zeitintervall zwischen dem momentanen Referenzzeitpunkt t'i und dem nächsten Referenzzeitpunkt t'i+1 dar, während ht(k) die geglätteten Filterkoeffizienten an dem nächsten Abtastpunkt darstellt. Diese Glättung findet für jeden Abtastpunkt von einem Abtastpunkt nächst dem momentanen Referenzzeitpunkt t'i, für den die geglätteten Filterkoeffizienten bereits erhalten wurden, bis zum nächsten Referenzzeitpunkt t'i+1 für den die geglätteten Filterkoeffizienten als nächstes zu erhalten sind, statt. Der Filterkoeffizientenhalteteil 36 hält jene der so sequentiell geglätteten Filterkoeffizienten ht(k), die für den letzten Abtastpunkt erhalten wurden, welcher der nächste Referenzzeitpunkt, d.h. ht'i+1(k) ist, und liefert sie als erneuerte Filterkoeffizienten ht'i(k) an das Phasenangleichungsfilter 37 zur weiteren Bestimmung eines nachfolgenden nächsten Referenzzeitpunkts.The coefficient b is set to a value of about 0.97. In equation (3), ht-1(k) represents smoothed filter coefficients at any sampling point (t-1) in the time interval between the current reference time t'i and the next reference time t'i+1, while ht(k) represents the smoothed filter coefficients at the next sampling point. This smoothing is performed for each sampling point from a sampling point next to the current reference time t'i for which the smoothed filter coefficients have already been obtained to the next reference time t'i+1 for which the smoothed filter coefficients are to be obtained next. The filter coefficient holding part 36 holds those of the filter coefficients thus sequentially smoothed ht(k) obtained for the last sampling point which is the next reference time, ie ht'i+1(k), and supplies them as renewed filter coefficients ht'i(k) to the phase adjustment filter 37 for further determination of a subsequent next reference time.

Das Phasenangleichungsfilter 37 wird mit dem Prädiktionsrest e(t) beliefert und berechnet, den phasenangeglichenen Prädiktionsrest ep(t) anhand folgender Gleichung: The phase adjustment filter 37 is supplied with the prediction residual e(t) and calculates the phase-adjusted prediction residual ep(t) using the following equation:

Die Berechnung der Gleichung (4) braucht nur ausgeführt zu werden, bis die nächste Impulsposition durch den Größenvergleichsteil 38 nach dem Referenzzeitpunkt t'i erfaßt wird, an welchem die oben erwähnten geglätteten Filterkoeffizienten erhalten wurden. In dem Größenvergleichsteil 38 wird der Größenpegel des phasenangeglichenen Prädiktionsrest ep(t) mit einem Schwellenwert verglichen, und der Abtastpunkt, wo der erstere den letzteren übersteigt, wird als der nächste Referenzzeitpunkt t'i+1 in dem momentanen Rahmen festgestellt. Nebenbei bemerkt erfolgt in dem Fall, wo keine Größe den Schwellenwert innerhalb einer vorbestimmten Periode nach der letzten Impulsposition (Referenzzeitpunkt) t'i übersteigt, eine Verarbeitung, durch die der Zeitpunkt, wo der phasenangeglichene Prädiktionsrest ep(t) bis dahin die maximale Größe annimmt, als der nächste Referenzzeitpunkt t'i+1 festgestellt wird.The calculation of the equation (4) only needs to be carried out until the next pulse position is detected by the magnitude comparison part 38 after the reference time t'i at which the above-mentioned smoothed filter coefficients were obtained. In the magnitude comparison part 38, the magnitude level of the phase-adjusted prediction residual ep(t) is compared with a threshold value, and the sampling point where the former exceeds the latter is determined as the next reference time t'i+1 in the current frame. Incidentally, in the case where no magnitude exceeds the threshold value within a predetermined period after the last pulse position (reference time) t'i, processing is carried out by which the time at which the phase-adjusted prediction residual ep(t) assumes the maximum magnitude up to that point is determined as the next reference time t'i+1.

Die Prozedur zum Erhalt des Referenzzeitpunkts t'i und der geglätteten Filterkoeffizienten ht'i(k) an diesem Punkt, wie sie oben beschrieben wurde, kann kurz in folgender Übersicht zusammengefaßt werden.The procedure for obtaining the reference time t'i and the smoothed filter coefficients ht'i(k) at this point, as described above, can be briefly summarized in the following overview.

Schritt 1: Zuerst wird der phasenangeglichene Prädiktionsrest ep(t) mit Gleichung (4) berechnet, wobei die Filterkoeffizienten ht'i(k) verwendet werden, die bis dahin in dem Phasenangleichungsfilter 37 eingestellt wurden, d.h. die geglätteten Filterkoeffizien ten, die für die letzte Impulsposition in dem vorangehenden Rahmen erhalten wurden, sowie des Prädiktionsrest ep(t) des gegebenen Rahmens. Diese Berechnung braucht nur bis zur Erfassung des nächsten Impulses nach der vorangehenden Impulsposition ausgeführt zu werden.Step 1: First, the phase-aligned prediction residual ep(t) is calculated using equation (4) using the filter coefficients ht'i(k) set up until then in the phase-alignment filter 37, i.e. the smoothed filter coefficients obtained for the last pulse position in the previous frame, as well as the prediction residual ep(t) of the given frame. This calculation only needs to be carried out until the detection of the next pulse after the previous pulse position.

Schritt 2: Die Größe des phasenangeglichenen Prädiktionsrests wird in dem Größenvergleichsteil 38 mit einem Schwellenwert verglichen, der Abtastpunkt, an dem der Rest den Schwellenwert übersteigt, wird als eine Impulsposition ermittelt, und die erste Impulsposition t'i+1 (i = 0, d.h. t&sub1;) in dem momentanen Rahmen wird als der nächste Referenzzeitpunkt erhalten.Step 2: The magnitude of the phase-adjusted prediction residual is compared with a threshold value in the magnitude comparison part 38, the sampling point at which the residual exceeds the threshold value is determined as a pulse position, and the first pulse position t'i+1 (i = 0, i.e., t₁) in the current frame is obtained as the next reference time point.

Schritt 3: Die Koeffizienten h*(k) des Phasenangleichungsfilters an dem Referenzzeitpunkt t&sub1; werden berechnet, wobei in Gleichung (1) der Zeitpunkt t&sub1; für t'i+1eingesetzt wird.Step 3: The coefficients h*(k) of the phase matching filter at the reference time t₁ are calculated, where the time t₁ is substituted for t'i+1 in equation (1).

Schritt 4: Die Filterkoeffizienten h*(k) für die erste Referenzzeit t&sub1; wird in Gleichung (3) eingesetzt und die geglätteten Filterkoeffizienten ht(k) an jedem von Abtastpunkten nach der vorangehenden Impulsposition (die letzte Impulsposition t&sub0; in dem vorangehenden Rahmen) werden anhand von Gleichung (3) berechnet, bis zum Zeitpunkt der Impulsposition t&sub1;. Die geglätteten Filterkoeffizienten an dem Referenzzeitpunkt t&sub1;, die als Ergebnis erhalten werden, sind durch ht(k) dargestellt.Step 4: The filter coefficients h*(k) for the first reference time t₁ is inserted into equation (3) and the smoothed filter coefficients ht(k) at each of sampling points after the previous pulse position (the last pulse position t₀ in the previous frame) are calculated from equation (3) until the time of the pulse position t₁. The smoothed filter coefficients at the reference time t₁ obtained as a result are represented by ht(k).

Schritt 5: Der phasenangeglichene Prädiktionsrest ep(t) wird dadurch berechnet, daß die geglätteten Filterkoeffizienten hti(k) für den Referenzzeitpunkt t&sub1; in Gleichung (4) eingesetzt werden. Diese Berechnung wird für eine Periode von dem Referenzzeitpunkt t&sub1; bis zur Feststellung der nächsten Impulsposition (Referenzzeitpunkt) t&sub2; durchgeführt.Step 5: The phase-adjusted prediction residual ep(t) is calculated by substituting the smoothed filter coefficients hti(k) for the reference time t1 into equation (4). This calculation is performed for a period from the reference time t1 until the detection of the next pulse position (reference time) t2.

Schritt 6: Die zweite Impulsposition t&sub2; des so errechneten phasenangeglichenen Prädiktionsrests wird in dem Größenvergleichsteil 38 bestimmt.Step 6: The second pulse position t2 of the phase-aligned prediction residual thus calculated is determined in the magnitude comparison part 38.

Schritt 7: Die zweite Impulsposition t&sub2; wird für den Referenzzeitpunkt t'i+1 in Gleichung (1) eingesetzt, und die phasenangeglichenen Filterkoeffizienten h*(k) für die Impulsposition t&sub2; werden berechnet.Step 7: The second pulse position t2 is substituted for the reference time t'i+1 in equation (1) and the phase-matched filter coefficients h*(k) for the pulse position t2 are calculated.

Schritt 8: Die Filterkoeffizienten für die zweite Impulsposition t&sub2; wird in Gleichung (4) eingesetzt, und die geglätteten Filterkoeffizienten an jeweiligen Abtastpunkten werden der Reihe nach berechnet, beginnend mit einem Abtastpunkt nächst der ersten Impulsposition t&sub1; und endend an der zweiten Impulsposition t&sub2;. Als Ergebnis davon werden die geglätteten Filterkoeffizienten ht&sub2;(k) an der zweiten Impulsposition t&sub2; erhalten.Step 8: The filter coefficients for the second pulse position t₂ are substituted into equation (4), and the smoothed filter coefficients at respective sampling points are calculated in order, starting from a sampling point closest to the first pulse position t₁ and ending at the second pulse position t₂. As a result, the smoothed filter coefficients ht₂(k) at the second pulse position t₂ are obtained.

Danach werden beispielweise die Schritte 5 bis 8 in gleicher Weise wie oben erwähnt wiederholt durchgeführt, wodurch die geglätteten Filterkoeffizienten h*(k) an allen Impulspositionen in dem Rahmen erhalten werden können.Thereafter, for example, steps 5 to 8 are repeatedly performed in the same manner as mentioned above, whereby the smoothed filter coefficients h*(k) can be obtained at all pulse positions in the frame.

Wie in Fig. 1 gezeigt, werden die geglätteten Filterkoeffizienten ht(k), die in dem Phasenangleichungs-Analysatorteil 4 erhalten werden, zur Steuerung des Phasenangleichungsfilters 5 verwendet. Durch Eingabe des Sprachsignals s(t) in das Phasenangleichungsfilter 5 wird die durch die nachstehende Gleichung ausgedrückte Verarbeitung ausgeführt, um ein phasenangeglichenes Sprachsignal Sp(t) zu erhalten. As shown in Fig. 1, the smoothed filter coefficients ht(k) obtained in the phase equalization analyzer part 4 are used to control the phase equalization filter 5. By inputting the speech signal s(t) to the phase equalization filter 5, the processing expressed by the following equation is carried out to obtain a phase-adjusted speech signal Sp(t).

Als nächstes wird ein Anregungsparameteranalysatorteil 30 beschrieben. Bei dem Analyse- Synthese-Verfahren der vorliegenden Erfindung werden verschiedene Anregungsquellen für stimmhafte und stimmlose Laute verwendet, und ein Schalter 17 wird von dem Entscheidungssignal VU für stimmhaften oder stimmlosen Laut umgeschaltet. Die Anregungsquelle für den stimmhaften Laut umfaßt einen Impulsfolgegeneratorteil 7 und ein Alles-Null-Filter (nachfolgend einfach als Nullfilter bezeichnet) 10.Next, an excitation parameter analyzer part 30 will be described. In the analysis-synthesis method of the present invention, different excitation sources for voiced and unvoiced sounds are used, and a switch 17 is switched by the voiced or unvoiced sound decision signal VU. The excitation source for the voiced sound comprises a pulse train generator part 7 and an all-zero filter (hereinafter simply referred to as a zero filter) 10.

Der Impulsfolgegeneratorteil 7 erzeugt solch eine quasi-periodische Impulsfolge, wie sie in Fig. 3 gezeigt ist, bei der die Impulsposition ti und die Größe mi jedes Impulses spezifiziert sind. Die zeitliche Position (die Impulsposition) ti und die Größe mi jedes Impulses in der quasi-periodischen Impulsfolge werden als Parameter dargestellt. Die Impulsposition ti wird von einem Impulspositionsgeneratorteil 6 auf der Basis des Referenzzeitpunkt t'i er zeugt, und die Impulsgröße m wird von einem Impulsgrößenberechnungsteil 8 gesteuert.The pulse train generating part 7 generates such a quasi-periodic pulse train as shown in Fig. 3 in which the pulse position ti and the size mi of each pulse are specified. The temporal position (the pulse position) ti and the size mi of each pulse in the quasi-periodic pulse train are represented as parameters. The pulse position ti is generated by a pulse position generating part 6 on the basis of the reference time t'i, and the pulse size m is controlled by a pulse size calculating part 8.

In dem Impulspositionsgeneratorteil 6 wird das Intervall zwischen den Referenzzeitpunkten (die die Positionen von Impulsen der Tonlagenfrequenz in dem phasenangeglichenen Prädiktionsrest repräsentieren), die in dem Phasenangleichungs-Analysatorteil 4 bestimmt wurden, so gesteuert, daß es quasi-periodisch ist, damit Schwankungen der Impulsposition verringert werden und damit die Informationsmenge verringert wird, die zur Darstellung der Impulsposition nötig ist. D.h., daß Intervall Ti = ti - ti-1 zwischen zu erzeugenden Impulsen, das in Fig. 3 gezeigt ist, ist so begrenzt, daß eine Differenz in dem Intervall zwischen aufeinanderfolgenden Impulsen gleich oder kleiner ist als ein fester zulässiger Wert J, wie durch die folgende Gleichung ausgedrückt:In the pulse position generator part 6, the interval between the reference time points (representing the positions of pulses of the pitch frequency in the phase-aligned prediction residual) determined in the phase-alignment analyzer part 4 is controlled to be quasi-periodic in order to reduce fluctuations in the pulse position and to reduce the amount of information required to represent the pulse position. That is, the interval Ti = ti - ti-1 between pulses to be generated shown in Fig. 3 is limited so that a difference in the interval between successive pulses is equal to or smaller than a fixed allowable value J as expressed by the following equation:

&Delta;Ti = Ti - Ti-1 &le; J ...(6)ΔTi = Ti - Ti-1 ≤ J ...(6)

Als nächstes wird unter Bezugnahme auf Fig. 4 ein Beispiel der Impulspositionsgenertorprozedur beschrieben, die der Impulspositionsgeneratorteil 6 implementiert.Next, an example of the pulse position generating procedure that the pulse position generating part 6 implements will be described with reference to Fig. 4.

Schritt S&sub1;: Wenn alle Referenzzeitpunkte t'i (wobei i = 1, 2,...) in dem laufenden Rahmen von dem Phasenangleichungs-Analysatorteil 4 eingegeben sind, geht der Prozeß zum nächsten Schritt S&sub2; weiter, wenn der vorherige Rahmen ein stimmhafter Lautrahmen ist (wobei der laufende Rahmen ebenfalls ein stimmhafter Lautrahmen ist).Step S₁: When all the reference time points t'i (where i = 1, 2, ...) in the current frame are input from the phase matching analyzer part 4, the process proceeds to the next step S₂ if the previous frame is a voiced phone frame (the current frame is also a voiced phone frame).

Schritt S&sub2;: Es erfolgt die Berechnung einer Differenz &Delta;T&sub1; = Ti - Ti-1, zwischen zwei aufeinanderfolgenden Intervallen Ti = t'i - ti-1 und Ti-1 = ti-1 - ti-2 des ersten Referenzzeitpunkts ti (wobei i = 1) und der beiden Impulspositionen ti-1 und ti-2 die durch die Verarbeitung von Fig. 4 bereits bestimmt wurden (durch die Verarbeitung bereits für die letzten beiden Referenzzeitpunkt ti-2 und ti-1 im vorhergehenden Rahmen bestimmt).Step S2: A difference ΔT1 = Ti - Ti-1 is calculated between two consecutive intervals Ti = t'i - ti-1 and Ti-1 = ti-1 - ti-2 of the first reference instant ti (where i = 1) and the two pulse positions ti-1 and ti-2 already determined by the processing of Fig. 4 (already determined by the processing for the last two reference instants ti-2 and ti-1 in the previous frame).

Schritt S&sub3;: Der Absolutwert der Differenz &Delta;T&sub1; wird mit dem vorbestimmten Wert J verglichen. Wenn der erstere gleich oder kleiner ist als der letztere, wird bestimmt, daß der eingegebene Referenzzeitpunkt t'i. innerhalb eines vorbestimmten Variationsbereichs liegt, und der Prozeß geht weiter zum Schritt S&sub4;. Wenn der erstere größer als der letztere ist, wird bestimmt, daß der Referenzzeitpunkt t'i sich über das vorbestimmte Limit hinaus ändert, und der Prozeß geht weiter zum Schritt S&sub6;.Step S₃: The absolute value of the difference ΔT₁ is compared with the predetermined value J. If the former is equal to or smaller than the latter, it is determined that the inputted reference time t'i. is within a predetermined range of variation, and the process proceeds to step S₄. If the former is larger than the latter, it is determined that the reference time t'i changes beyond the predetermined limit, and the process proceeds to step S₆.

Schritt S&sub4;: Da der Referenzzeitpunkt t'i. innerhalb des vorbestimmten Variationsbereichs liegt, wird dieser Referenzzeitpunkt als die Impulsposition ti bestimmt.Step S4: Since the reference time t'i. is within the predetermined variation range, this reference time is determined as the pulse position ti.

Schritt S&sub5;: Es wird bestimmt, ob oder ob nicht die Verarbeitung für alle Referenzzeitpunkte t'i in dem Rahmen beendet ist, und falls nicht, geht der Prozeß zurück zum Schritt S&sub2; und beginnt die Verarbeitung für den nächsten Referenzzeitpunkt ti+1. Wenn die Verarbeitung für aller Referenzzeitpunkte beendet ist, dann geht der Prozeß weiter zum Schritt S&sub1;&sub7;.Step S₅: It is determined whether or not the processing for all the reference time points t'i in the frame is completed, and if not, the process goes back to step S₂ and starts the processing for the next reference time point ti+1. If the processing for all the reference time points is completed, then the process goes to step S₁₇.

Schritt S&sub6;: Es erfolgt die Berechnung einer Differenz &Delta;T&sub2; = (t'i - ti-1)/2 - (ti-1 - ti-2) zwischen der Hälfte des Intervalls Ti zwischen der Impulsposition ti-1 und dem Referenzzeitpunkt t'i und dem bereits bestimmten Intervall Ti-1.Step S6: A difference ΔT2 = (t'i - ti-1)/2 - (ti-1 - ti-2) is calculated between half of the interval Ti between the pulse position ti-1 and the reference time t'i and the already determined interval Ti-1.

Schritt S&sub7;: Der Absolutwert der oben erwähnten Differenz &Delta;T&sub2; wird mit dem Wert J verglichen, und falls der erstere gleich oder kleiner ist als der letztere, ist das Intervall T etwa zweimal so groß wie das entschiedene Intervall Ti-1 wie in Fig. 5A gezeigt. In diesem Fall geht der Prozeß weiter zum Schritt S&sub8;.Step S7: The absolute value of the above-mentioned difference ΔT2 is compared with the value J, and if the former is equal to or smaller than the latter, the interval T is about twice as large as the decided interval Ti-1 as shown in Fig. 5A. In this case, the process proceeds to step S8.

Schritt S&sub8;: Etwa an der Mitte zwischen dem Referenzzeitpunkt t'i und der vorangehenden Impulsposition ti-1 wird eine Impulsposition tc gesetzt, und der Referenzzeitpunkt t'i wird an die Impulsposition ti+1 gesetzt, und der Prozeß geht dann zum Schritt S&sub5; weiter.Step S�8: A pulse position tc is set approximately halfway between the reference time t'i and the previous pulse position ti-1, and the reference time t'i is set to the pulse position ti+1, and the process then proceeds to step S�5; .

Schritt S&sub9;: Wenn die Bedingung im Schritt 57 nicht erfüllt ist, erfolgt eine Berechnung einer Differenz &Delta;T&sub3; zwischen dem Intervall von dem nächsten Referenzzeitpunkt ti+1 zur Impulsposition ti-1 und dem entschiedenen Intervall von der Impulsposition ti-1 zu ti-2.Step S9: If the condition in step S7 is not satisfied, a calculation is made of a difference ΔT3 between the interval from the next reference time ti+1 to the pulse position ti-1 and the decided interval from the pulse position ti-1 to ti-2.

Schritt S&sub1;&sub0;: Der Absolutwert der oben erwähnten Differenz &Delta;T&sub3; wird mit dem Wert J verglichen. Wenn der erstere gleich oder kleiner ist als der letztere, liegt der Referenzzeitpunkt t'i+1 innerhalb eines erwarteten Bereichs der Impulsposition ti nächst der entschiedenen Impulsposition ti-1 und der Referenzzeitpunkt t'i ist außerhalb des Bereichs und zwischen t'i+1 und ti-1 Der Prozeß geht weiter zum Schritt s&sub1;&sub1;.Step S₁₀: The absolute value of the above-mentioned difference ΔT₃ is compared with the value J. If the former is equal to or smaller than the latter, the reference time t'i+1 is within an expected range of the pulse position ti closest to the decided pulse position ti-1 and the reference time t'i is outside the range and between t'i+1 and ti-1. The process proceeds to step s₁₁.

Schritt S&sub1;&sub1;: Der herausragende Referenzzeitpunkt t'i, der in Fig. 5B gezeigt ist, bleibt unberücksichtigt, und stattdessen wird der Referenzzeitpunkt t'i+1 an die Impulsposition ti gesetzt, und der Prozeß geht weiter zum Schritt S&sub5;.Step S₁₁: The outstanding reference time t'i shown in Fig. 5B is disregarded, and instead the reference time t'i+1 is set at the pulse position ti, and the process proceeds to step S₅.

Schritt S&sub1;&sub2;: Wenn die Bedingung in Schritt S&sub1;&sub0; nicht erfüllt ist, erfolgt eine Berechnung einer Differenz &Delta;T&sub4; zwischen der Hälfte des Intervalls zwischen dem Referenzzeitpunkt t'i+1 und der Impulsposition ti-1 und dem oben erwähnten entschiedenen Intervall Ti-1.Step S₁₂: If the condition in step S₁₀ is not satisfied, a calculation is made of a difference ΔT₄ between half of the interval between the reference time t'i+1 and the pulse position ti-1 and the above-mentioned decided interval Ti-1.

Schritt S&sub1;&sub3;: Der Absolutwert der Differenz &Delta;T&sub4; wird mit dem Wert J verglichen. Wenn der erstere gleich oder kleiner ist als der letztere, bedeutet dies, daß der Referenzzeitpunkt t'i+1 innerhalb eines erwarteten Bereichs der Impulsposition t'i+1 nächst zu derjenigen ti, wie in Fig. 5C gezeigt, liegt, und daß der Referenzzeitpunkt t'i einer von zwei Referenzzeitpunkten t'i, die in Fig. 5C gezeigt sind, ist und außerhalb eines erwarteten Bereichs der Impulsposition ti liegt. In diesem Fall geht der Prozeß weiter zum Schritt S&sub1;&sub4;.Step S₁₃: The absolute value of the difference ΔT₄ is compared with the value J. If the former is equal to or smaller than the latter, it means that the reference time t'i+1 is within an expected range of the pulse position t'i+1 closest to that of ti as shown in Fig. 5C, and that the reference time t'i is one of two reference times t'i shown in Fig. 5C and is outside an expected range of the pulse position ti. In this case, the process proceeds to step S₁₄.

Schritt S&sub1;&sub4;: Der Referenzzeitpunkt t'i+1 wird als die Impuisposition ti+1 gesetzt, und zur gleichen Zeit wird der Referenzzeitpunkt t'i zur Mitte zwischen t'i+1 und ti-1 verschoben und als Impulsposition ti gesetzt, das heißt ti = (t'i+1 + ti-1)/2. Der Prozeß geht weiter zum Schritt S&sub5;.Step S₁₄: The reference time t'i+1 is set as the pulse position ti+1, and at the same time the reference time t'i is shifted to the middle between t'i+1 and ti-1 and set as the pulse position ti, that is, ti = (t'i+1 + ti-1)/2. The process proceeds to step S₅.

Schritt S&sub1;&sub5;: Wenn die Bedingung in Schritt S&sub1;&sub4; nicht erfüllt ist, wird der Referenzzeitpunkt t'i als die Impulsposition ti gesetzt, ohne daß irgendein Schritt wegen seiner Ungeeignetheit als eine Tonlagenposition unternommen wird. Der Prozeß geht weiter zum Schritt S&sub5;.Step S₁₅: If the condition in step S₁₄ is not satisfied, the reference time t'i is set as the pulse position ti without taking any step because of its unsuitability as a pitch position. The process proceeds to step S₅.

Schritt S&sub1;&sub6;: Wenn im Schritt S&sub1; der vorhergehende Rahmen ein stimmloser Lautrahmen ist, werden alle Referenzzeitpunkte t'i im momentanen Rahmen auf die Impulspositionen ti gesetzt.Step S₁₆: If in step S₁ the previous frame is an unvoiced phone frame, all reference time points t'i in the current frame are set to the pulse positions ti.

Schritt S&sub1;&sub7;: Die Anzahl von Impulspositionen wird mit einer vorbestimmten maximal zulässigen Anzahl von Impulsen Np verglichen, und wenn erstere gleich oder kleiner ist als letztere, wird die gesamte Verarbeitung beendet. Die Anzahl Np ist eine feste ganze Zahl im Bereich von beispielsweise 5 bis 6, und dies ist die Anzahl von Impulsen, die in einem 15 msec Rahmen in dem Fall vorhanden sind, wo die obere Grenze der Tonlagenfrequenz einer Sprache als von etwa 350 bis höchstens 400 Hz reichend angesehen wird.Step S17: The number of pulse positions is compared with a predetermined maximum allowable number of pulses Np, and if the former is equal to or smaller than the latter, the entire processing is terminated. The number Np is a fixed integer in the range of, for example, 5 to 6, and this is the number of pulses present in a 15 msec frame in the case where the upper limit of the pitch frequency of a speech is considered to range from about 350 to 400 Hz at most.

Schritt S&sub1;&sub8;: Wenn die Bedingung im Schritt S&sub1;&sub7; nicht erfüllt ist, ist die Anzahl von Impulspositionen größer als die Zahl Np, so daß Größen von Impulsen für die jeweiligen Impulspositionen durch den Impulsgrößenberechnungsteil 8 in Fig. 1 berechnet werden, wie später beschrieben.Step S₁₈: When the condition in step S₁₇ is not satisfied, the number of pulse positions is larger than the number Np, so that sizes of pulses for the respective pulse positions are calculated by the pulse size calculation part 8 in Fig. 1, as described later.

Schritt S&sub1;&sub9;: Ein Impulspositionswählteil 6A in Fig. 1 wählt Np Impulspositionen in der Reihenfolge der Größe und zeigt die gewählten Impulse dem Impulspositionsgeneratorteil 6 an, womit der Prozeß beendet ist.Step S₁₉: A pulse position selecting part 6A in Fig. 1 selects Np pulse positions in the order of magnitude and indicates the selected pulses to the pulse position generating part 6, thus terminating the process.

Gemäß der oben unter Bezug auf Fig. 4 beschriebenen Verarbeitung, selbst wenn die Impulsposition des phasenangeglichenen Prädiktionsrests, die als der Referenzzeitpunkt t'i bestimmt wird, einer wesentlichen Änderung unterliegt, ist die Schwankung der Impulsposition ti, die von dem Impulspositionsgeneratorteil 6 erzeugt wird, auf innerhalb eines gewissen Bereichs beschränkt. Damit kann die zur Darstellung der Impulsposition nötige Informationsmenge reduziert werden. Selbst in dem Fall, wo die Impulsgröße an der Tonlagenposition in dem phasenangeglichenen Prädiktionsrest kleiner sein sollte als ein Schwellenwert und durch den Größenvergleichsteil 38 in Fig. 2 nicht erfaßt werden kann, wird darüberhinaus ein Impulssignal durch die Schritte S&sub7; und S&sub8; in Fig. 4 eingefügt, so daß die Qualität der synthetisierten Sprache ungeachtet eines Fehlers bei der Impulserfassung nicht wesentlich verschlechtert wird.According to the processing described above with reference to Fig. 4, even if the pulse position of the phase-matched prediction residual determined as the reference time t'i undergoes a substantial change, the fluctuation of the pulse position ti generated by the pulse position generating part 6 is limited to within a certain range. Thus, the amount of information required to represent the pulse position can be reduced. Moreover, even in the case where the pulse magnitude at the pitch position in the phase-matched prediction residual should be smaller than a threshold value and cannot be detected by the magnitude comparing part 38 in Fig. 2, a pulse signal is detected by the Steps S�7 and S�8 in Fig. 4 are inserted so that the quality of the synthesized speech is not significantly deteriorated despite an error in pulse detection.

In dem Impulsgrößenberechnungsteil 8 wird die Impulsgröße an jeder Impulsposition t&sub1;, die von dem Impulspositionsgeneratorteil 6 erzeugt wird, so ausgewählt, daß ein frequenzgewichteter mittlerer quadratischer Fehler zwischen eines synthetisierten Sprachwellenform Sp'(t), die durch Anregung solch eines Allpolfilters 18 mit der Impulsfolge, die von dem Impulsfolgegeneratorteil 7 erzeugt wird, und einer Eingangssprachwellenform Sp(t), die durch ein Phasenangleichungsfilter 5 phasenangeglichen wurde, schließlich minimal gemacht werden kann. Fig. 6 zeigt den internen Aufbau des Impulsgrößenberechnungsteils 8. Die phasenangeglichene Eingangssprachwellenform Sp(t) wird einem Frequenzgewichtungsfilter-Verarbeitungsteil 39 zugeführt. Der Frequenzgewichtungsfilter-Verarbeitungsteil 39 erweitert die Bandbreite der Resonanzfrequenzkomponenten eines Sprachspektrums, und seine übertragungskennlinie ist wie folgt:In the pulse size calculation part 8, the pulse size at each pulse position t1 generated by the pulse position generator part 6 is selected so that a frequency-weighted mean square error between a synthesized speech waveform Sp'(t) generated by exciting such an all-pole filter 18 with the pulse train generated by the pulse train generator part 7 and an input speech waveform Sp(t) phase-adjusted by a phase-adjustment filter 5 can be finally minimized. Fig. 6 shows the internal structure of the pulse size calculation part 8. The phase-adjusted input speech waveform Sp(t) is supplied to a frequency-weighting filter processing part 39. The frequency-weighting filter processing part 39 expands the bandwidth of the resonance frequency components of a speech spectrum, and its transfer characteristic is as follows:

Hw(z) = A(z)/A(z/&gamma;) ... (7)Hw(z) = A(z)/A(z/γ) ... (7)

wobei:where:

A(z) = 1 + a&sub1;z&supmin;¹ + ... + apz-p ... (8)A(z) = 1 + a₁z⊃min;¹ + ... + apz-p ... (8)

wobei ai lineare Prädiktionskoeffizienten und z&supmin;¹ eine Abtastverzögerung sind. &gamma; ist ein Parameter, der das Unterdrückungsmaß steuert und liegt im Bereich von 0 < &gamma; &le; 1. Das Unterdrückungsmaß nimmt mit abnehmenden Wert von &gamma; zu. Gewöhnlich liegt &gamma; im Bereich von 0,7 bis 0,9.where ai are linear prediction coefficients and z-1 is a sampling delay. γ is a parameter that controls the suppression level and is in the range of 0 < γ ≤ 1. The suppression level increases with decreasing value of γ. Usually γ is in the range of 0.7 to 0.9.

Der Frequenzgewichtungsfilter-Verarbeitungsteil 39 hat einen Aufbau, wie er in Fig. 6A gezeigt ist. Die linearen Prädiktionskoeffizienten a werden einem Frequenzgewichtungsfilter-Koeffizientenberechnungsteil 39A geliefert, in welchem Koeffizienten &gamma;iai eines Filters mit einer Übertragungskennlinie A(z/&gamma;) berechnet werden. Ein Frequenzgewichtungsfilter 39B berechnet Koeffizienten eines Filters mit einer Übertragungskennlinie Hw(z) = A(z)/A(z/&gamma;) aufgrund der linearen Prädiktionskoeffizienten a und der frequenzgewichteten Koeffizienten &gamma;iai und zur gleichen Zeit wird die phasenangeglichene Sprache Sp(t) durch das Filter dieser Übertragungskennlinie zum Erhalt eines Signals S'w(t) geschickt.The frequency weighting filter processing part 39 has a structure as shown in Fig. 6A. The linear prediction coefficients a are supplied to a frequency weighting filter coefficient calculation part 39A in which coefficients γiai of a filter having a transfer characteristic A(z/γ) are calculated. A frequency weighting filter 39B calculates coefficients of a filter having a transfer characteristic Hw(z) = A(z)/A(z/γ) based on the linear prediction coefficients a and the frequency weighted coefficients γiai, and at the same time the phase-aligned speech Sp(t) is passed through the filter of this transfer characteristic to obtain a signal S'w(t).

Ein Nulleingangsantwort-Berechnungsteil 39C verwendet als einen Anfangswert eine synthetisierte Sprache A zero-input response calculation part 39C uses as an initial value a synthesized speech

die als die Ausgabe des Allpolfilters 18A (siehe Fig. 1) einer übertragungskennlinie 1/A(z/&gamma;) im vorangehenden Rahmen erhalten wurde, und gibt eine Anfangsantwort aus, wenn das Alpolfilter 18A durch einen Nulleingang angeregt wird.obtained as the output of the all-pole filter 18A (see Fig. 1) of a transfer characteristic 1/A(z/γ) in the previous frame, and outputs an initial response when the all-pole filter 18A is excited by a zero input.

Ein Zielsignalberechnungsteil 39D subtrahiert die Ausgabe des Nulleingangsantwort-Berechnungsteus 39C von dem Ausgangssignal S'w(t) des Frequenzgewichtungsfilters 39B zum Erhalt eines frequenzgewichteten Signals Sw(t). Andererseits wird die Ausgabe &gamma;iai des Frequenzgewichtungsfilter-Koeffizientenverarbeitungsteils 39A an einen Impulsantwortberechnungsteil 40 in Fig. 6 geliefert, in welchem eine Impulsantwort f(t) eines Filters mit der Übertragungskennlinie 1/A(z/&gamma;) berechnet wird.A target signal calculation part 39D subtracts the output of the zero input response calculation part 39C from the output signal S'w(t) of the frequency weighting filter 39B to obtain a frequency weighted signal Sw(t). On the other hand, the output γiai of the frequency weighting filter coefficient processing part 39A is supplied to an impulse response calculation part 40 in Fig. 6, in which an impulse response f(t) of a filter having the transfer characteristic 1/A(z/γ) is calculated.

Ein Korrelationsberechnungsteil 41 berechnet für jede Impulsposition ti eine Kreuzkorrelation &psi;(i) zwischen der Impulsantwort f(t-ti) und dem frequenzgewichteten Signal Sw(t) wie folgt: A correlation calculation part 41 calculates for each pulse position ti a cross-correlation ψ(i) between the impulse response f(t-ti) and the frequency-weighted signal Sw(t) as follows:

wobei i = 1, 2 ..., np. np ist die Anzahl von Impulsen in dem Rahmen, und N ist die Anzahl von Abtastwerten in dem Rahmen.where i = 1, 2 ..., np. np is the number of pulses in the frame, and N is the number of samples in the frame.

Ein anderer Korrelationsberechnungsteil 42 berechnet eine Kovarianz &phi;(i, j) der Impulsantwort für einen Satz von Impulspositionen ti, tj wie folgt: Another correlation calculation part 42 calculates a covariance φ(i, j) of the impulse response for a set of impulse positions ti, tj as follows:

Ein Impulsgrößenberechnungsteil 43 erhält Impulsgrößen mi von &psi;(t) und &phi;(i, j) durch Lösen der folgenden Simultangleichungen, die äquivalent einen mittleren quadratischen Fehler minimieren zwischen einer synthetisierten Sprachwellenform, erhalten durch Anregung des Allpolfilters 18 mit der so bestimmten Impulsfolge, und der phasenangeglichenen Sprachwellenform Sp(t). A pulse magnitude calculation part 43 obtains pulse magnitudes mi of ψ(t) and φ(i, j) by solving the following simultaneous equations which equivalently minimize a mean square error between a synthesized speech waveform obtained by exciting the all-pole filter 18 with the pulse train thus determined and the phase-aligned speech waveform Sp(t).

Die Impulsgrößen m werden von dem Quantisierer 9 in Fig. 1 für jeden Rahmen quantisiert. Dies wird durch beispielsweise ein Skalar-Quantisierungsverfahren oder ein Vektor-Quantisierungsverfahren ausgeführt. Im Fall des Einsatzes der Vektor-Quantisierungstechnik wird ein Vektor (ein Größenmuster), der jeweilige Impulsgrößen m als seine Elemente verwendet, mit einer Vielzahl vorbestimmter Standardimpulsgrößenmuster verglichen und zu demjenigen von ihnen quantisiert, welches den Abstand zwischen den Mustern minimiert. Ein Maß des Abstands zwischen den Größenmustern entspricht im wesentlichen einem mittleren quadratischen Fehler der Sprachwellenform Sp'(t), die ohne Verwendung des Nullfilter aus dem im Quantisierer 9 ausgewählten Standardimpulsgrößenmuster synthetisiert wurde, und der phasenangeglichenen Eingangssprachweltenform Sp(t). Bezeichnet man beispielsweise den Größenmustervektor, den man durch Lösen von Gleichung (11) erhält, mit m = (m&sub1;, m&sub2; ..., mnp) und bezeichnet man Standardmustervektoren, die als eine Tabelle in dem Quantisierer 9 gespeichert sind, mit mci (i = 1, 2 ..., Nc), dann ist der mittlere quadratische Fehler durch folgende Gleichung gegeben:The pulse sizes m are quantized by the quantizer 9 in Fig. 1 for each frame. This is carried out by, for example, a scalar quantization method or a vector quantization method. In the case of using the vector quantization technique, a vector (a magnitude pattern) using respective pulse sizes m as its elements is compared with a plurality of predetermined standard pulse size patterns and quantized to that one of them which minimizes the distance between the patterns. A measure of the distance between the magnitude patterns substantially corresponds to a mean square error of the speech waveform Sp'(t) synthesized without using the zero filter from the standard pulse size pattern selected in the quantizer 9 and the phase-aligned input speech waveform Sp(t). For example, denoting the magnitude pattern vector obtained by solving equation (11) by m = (m₁, m₂..., mnp) and If standard pattern vectors stored as a table in the quantizer 9 are denoted by mci (i = 1, 2 ..., Nc), then the mean square error is given by the following equation:

d(m, mc) = (m - mci)t&Phi;(m, mci) ... (12)d(m, mc) = (m - mci)t&Phi;(m, mci) ... (12)

worin t die Transposition einer Matrix bezeichnet und &Phi; eine Matrix ist, die als ihre Elemente die Auto-Kovarianz &phi;(i, j) der Impulsantwort verwendet. In diesem Fall ist der quantisierte wert m des oben erwähnten Größenmusters durch die folgende Gleichung als ein Standardmuster ausgedrückt, welches den mittleren quadratischen Fehler d(m, mc) in Gleichung (12) in der vorgenannten Vielzahl von Standardmustervektoren mci minimiert. where t denotes the transposition of a matrix and Φ is a matrix using as its elements the auto-covariance Φ(i, j) of the impulse response. In this case, the quantized value m of the above-mentioned magnitude pattern is expressed by the following equation as a standard pattern which minimizes the mean square error d(m, mc) in equation (12) in the aforementioned plurality of standard pattern vectors mci.

Das Nullfilter 10 dient dazu, eine Eingangsimpulsfolge mit einem Merkmal der phasenangeglichenen Prädiktionsrestwellenform zu liefern, und die Koeffizienten dieses Filters werden von einem Nullfilterkoeffizienten-Berechnungsteil 11 erzeugt. Fig. 7A zeigt ein Beispiel der phasenangeglichenen Prädiktionsrestwellenform ep(t) und Fig. 78 ein Beispiel einer Impulsantwortwellenform des Nullfilters 10 für den Eingangsimpuls zu diesem. Der phasenangeglichene Prädiktionsrest ep(t) hat eine flache Spektralhüllkurvencharakteristik und eine Phase nahe Null und ist damit impulsartig und weist eine große Größe an Impulspositionen ti, ti-1, ... auf, ist aber relativ klein an anderen Positionen. Die Wellenform ist im wesentlichen symmetrisch in bezug auf jede Impulsposition bzw. jeden Mittelpunkt zwischen benachbarten Impulspositionen. In vielen Fällen ist die Größe an dem Mittelpunkt relativ größer als an anderen Positionen (mit Ausnahme der Impulspositionen) wie aus Fig. 7A erkennbar, und diese Tendenz nimmt insbesondere für eine Sprache mit einer langen Tonlagenfrequenz zu. Das Nullfilter 10 wird so eingestellt, daß seine Impulsantwort Werte an q aufeinanderfolgenden Abtastpunkten auf beiden Seiten der Impulsposition t und an r aufeinanderfolgenden Abtastpunkten auf beiden Seiten des Mittelpunkts zwischen den benachbarten Impulspositionen ti und ti+1 annimmt, wie in Fig. 78 gezeigt. In diesem Fall ist die übertragungskennlinie des Nullfilters 10 wie folgt: The zero filter 10 serves to supply an input pulse train having a feature of the phase-matched prediction residual waveform, and the coefficients of this filter are generated by a zero filter coefficient calculation part 11. Fig. 7A shows an example of the phase-matched prediction residual waveform ep(t) and Fig. 7B shows an example of an impulse response waveform of the zero filter 10 for the input pulse thereto. The phase-matched prediction residual ep(t) has a flat spectral envelope characteristic and a phase close to zero and is thus pulse-like and has a large size at pulse positions ti, ti-1, ... but is relatively small at other positions. The waveform is substantially symmetrical with respect to each pulse position or each midpoint between adjacent pulse positions. In many cases, the magnitude at the center is relatively larger than at other positions (except the pulse positions) as seen from Fig. 7A, and this tendency increases particularly for a speech with a long pitch frequency. The null filter 10 is set so that its impulse response takes values at q consecutive sampling points on both sides of the pulse position t and at r consecutive sampling points on both sides of the center between the adjacent pulse positions ti and ti+1, as shown in Fig. 7B. In this case, the transfer characteristic of the null filter 10 is as follows:

In dem Nullfilterkoeffizienten-Berechnungsteil 11 werden für eine Impulsfolge gegebener Impulspositionen und Impulsgrößen Filterkoeffizienten vk so bestimmt, daß ein frequenzgewichteter mittlerer quadratischer Fehler zwischen der synthetisierten Sprachwellenform Sp'(t) und der phasenangeglichenen Eingangssprachwellenform Sp(t) minimal sein kann. Fig. 8 zeigt den Aufbau des Filterkoeffizienten-Berechnungsteils 11. Ein Frequenzgewichtungsfilter-Verarbeitungsteil 44 und ein Impulsantwortberechnungsteil 45 sind identisch im Aufbau mit dem Frequenzgewichtungsfilter-Verarbeitungsteil 39 bzw. dem Impulsantwortberechnungsteil 40 in Fig. 6. Ein Addierer 46 addiert die Ausgangsimpulsantwort f(t) des Impulsantwortberechnungsteils 45 nach Maßgabe der folgenden Gleichung: In the zero filter coefficient calculation part 11, for a pulse train of given pulse positions and pulse sizes, filter coefficients vk are determined so that a frequency-weighted mean square error between the synthesized speech waveform Sp'(t) and the phase-aligned input speech waveform Sp(t) can be minimal. Fig. 8 shows the structure of the filter coefficient calculation part 11. A frequency weighting filter processing part 44 and an impulse response calculation part 45 are identical in structure to the frequency weighting filter processing part 39 and the impulse response calculation part 40 in Fig. 6, respectively. An adder 46 adds the output impulse response f(t) of the impulse response calculation part 45 according to the following equation:

wobei l = q + r + 1.where l = q + r + 1.

Ein Korrelationsberechnungsteil 47 berechnet die Kreuz-Kovarianz &phi;(i) zwischen den Signalen Sw(t) und ui(t) und ein anderer Korrelationsberechnungsteil 48 berechnet die Auto-Kovarianz &phi;(i, j) zwischen den Signalen ui(t) und uj(t). Ein Filterkoeffizienten-Berechnungsteil 49 berechnet Koeffizienten vi des Nullfilters 10 aus der oben genannten Kreuz-Korrelation &phi;(i) und der Kovarianz &phi;(i, j) durch Lösen der folgenden Simultangleichungen: A correlation calculation part 47 calculates the cross-covariance φ(i) between the signals Sw(t) and ui(t), and another correlation calculation part 48 calculates the auto-covariance φ(i, j) between the signals ui(t) and uj(t). A filter coefficient calculation part 49 calculates coefficients vi of the zero filter 10 from the above-mentioned cross-correlation φ(i) and the covariance φ(i, j) by solving the following simultaneous equations:

Diese Lösungen minimieren schließlich einen mittleren quadratischen Fehler zwischen einer synthetisierten Sprachwellenform, erhältlich durch Anregen des Allpolfilters 18 mit dem Ausgangssignal des Nullfilters 10, und der phasenangeglichenen Sprachwellenform Sp(t).These solutions ultimately minimize a mean square error between a synthesized speech waveform, obtainable by exciting the all-pole filter 18 with the output signal of the zero filter 10, and the phase-aligned speech waveform Sp(t).

Der Filterkoeffizient vi wird von einem Quantisierer 12 in Fig. 1 quantisiert. Dies erfolgt beispielsweise unter Verwendung einer Skalar-Quantisierungstechnik oder einer Vektor-Quantisierungstechnik. Im Fall des Einsatzes der Vektor-Quantisierungstechnik wird ein Vektor (ein Koeffizientenmuster), der die Filterkoeffizienten vi als seine Elemente verwendet, mit einer Vielzahl vorbestimmter Standardkoeffizientenmuster verglichen und zu einem Standardmuster quantisiert, das den Abstand zwischen den Mustern minimiert. Wenn ein Maß im wesentlichen entsprechend dem mittleren quadratischen Fehler zwischen der synthetisierten Sprachwellenform Sp'(t) und der phasenangeglichenen Eingangssprachwellenform Sp(t) as Abstandsmaß im Fall der Vektorquantisierung der Impulsgröße durch der vorgenannten Quantisierer 9 verwendet wird, wird der quantisiert Wert v der Filterkoeffizienten durch folgende Gleichung erhalten: The filter coefficient vi is quantized by a quantizer 12 in Fig. 1. This is done using, for example, a scalar quantization technique or a vector quantization technique. In the case of using the vector quantization technique, a vector (a coefficient pattern) using the filter coefficients vi as its elements is compared with a plurality of predetermined standard coefficient patterns and quantized into a standard pattern that minimizes the distance between the patterns. When a measure substantially corresponding to the mean square error between the synthesized speech waveform Sp'(t) and the phase-aligned input speech waveform Sp(t) is used as the distance measure in the case of vector quantization of the pulse size by the aforementioned quantizer 9, the quantized value v of the filter coefficients is obtained by the following equation:

wobei v ein Vektor ist, der als seine Elemente Koeffizienten v-q, v-q+1, ..., vq+2r+1, durch Lösung von Gleichung (16) erhalten, verwendet, und vci ein Standardmustervektor der Filterkoeffizienten ist. Ferner ist &Phi; eine Matrix, die als ihre Elemente die Kovarianz &phi;(i, j) der Impulsantwort ui(t) verwendet.where v is a vector using as its elements coefficients v-q, v-q+1, ..., vq+2r+1 obtained by solving equation (16), and vci is a standard pattern vector of the filter coefficients. Further, Φ is a matrix using as its elements the covariance Φ(i, j) of the impulse response ui(t).

Um zusammenzufassen, in dem stimmhaften Lautrahmen wird das Sprachsignal Sp'(t) durch Anregen eines Allpolfilters, das die Sprachspektralhüllkurvencharakteristik aufweist, mit einer quasi-periodischen Impulsfolge synthetisiert, welche von Impulspositionen auf der Basis des phasenangeglichenen Rests ep(t) sowie Impulsgrößen bestimmt wird, die so bestimmt sind, daß ein Fehler der synthetisierten Sprache minimal ist. Von den Anregungsparametern werden die Impulsgrößen m und die Koeffizienten v des Nullfilters auf Optimalwerte gesetzt, welche den Übereinstimmungsfehler zwischen der synthetisierten Sprachwellenform Sp'(t) und der phasenangeglichenen Sprachwellenform Sp(t) minimieren.To summarize, in the voiced sound frame, the speech signal Sp'(t) is synthesized by exciting an all-pole filter having the speech spectral envelope characteristic with a quasi-periodic pulse train determined by pulse positions based on the phase-matched residual ep(t) and pulse sizes determined so that an error of the synthesized speech is minimal. Of the excitation parameters, the pulse sizes m and the coefficients v of the zero filter are set to optimal values which minimize the matching error between the synthesized speech waveform Sp'(t) and the phase-matched speech waveform Sp(t).

Als nächstes wird die Anregung in dem stimmlosen Lautrahmen beschrieben. In dem stimmlosen Lautrahmen wird ein Zufallsmuster als ein Anregungssignal verwendet, wie dies bei der code-erregten linearen prädiktiven Codierung der Fall ist (Schroeder, et al., "Code excited linear prediction (CELP)", IEEE Int. On ASSP, Seiten 937-940, 1985). In einem Zufallsmustergeneratorteil 13 in Fig. 1 ist eine Mehrzahl von Mustern gespeichert, die sich je aus einer Mehrzahl normaler Zufallszahlen mit einem Mittel 0 und einer Varianz 1 zusammensetzen. Ein Verstärkungsberechnungsteil 15 berechnet für jedes Zufallsmuster eine Verstärkung gi, die die Leistung der synthetisierten Sprache Sp'(t) durch das ausgegebene Zufallsmuster und die Leistung der phasenangeglichenen Sprache Sp(t) gleich macht, und eine skalar-quantisierte Verstärkung i von einem Quantisierer 16 wird zur Steuerung eines Verstärkers 14 verwendet. Ein Anpassungs- oder Übereinstimmungsfehler zwischen einer synthetisierten Sprachwellenform Sp'(t), erhalten durch Anlegen jedes aller Zufallsmuster an das Allpolfilter 18, und der phasenangeglichenen Sprache Sp'(t) wird von einem Wellenformübereinstimmungsfehler-Berechnungsteil 19 erhalten. Die so erhaltenen Fehler werden von dem Fehlerentscheidungsteil 20 entschieden, und der Zufallsmustergeneratorteil 13 sucht nach einem optimalen Zufallsmuster, das den Wellenformübereinstimmungsfehler minimal macht. Bei dieser Ausführungsform setzt sich ein Rahmen aus drei aufeinanderfolgenden Zufallsmustern zusammen. Diese Zufallsmusterfolge wird als das Anregungssignal über den Verstärker 14 an das Allpolfilter 18 angelegt.Next, the excitation in the unvoiced sound frame is described. In the unvoiced sound frame, a random pattern is used as an excitation signal as is the case in code excited linear predictive coding (Schroeder, et al., "Code excited linear prediction (CELP)", IEEE Int. On ASSP, pp. 937-940, 1985). In a random pattern generator part 13 in Fig. 1, a plurality of patterns each composed of a plurality of normal random numbers having a mean of 0 and a variance of 1 are stored. A gain calculation part 15 calculates, for each random pattern, a gain gi which makes the power of the synthesized speech Sp'(t) by the output random pattern and the power of the phase-matched speech Sp(t) equal, and a scalar-quantized gain i from a quantizer 16 is used to control an amplifier 14. A matching error between a synthesized speech waveform Sp'(t) obtained by applying each of the random patterns to the all-pole filter 18 and the phase-matched speech Sp'(t) is obtained by a waveform matching error calculation part 19. The errors thus obtained are decided by the error decision part 20, and the random pattern generator part 13 searches for an optimal random pattern which makes the waveform matching error minimum. In this embodiment, a frame is composed of three consecutive random patterns. This random pattern sequence is applied as the excitation signal via the amplifier 14 to the all-pole filter 18.

Der obigen Prozedur folgend wird das Sprachsignal von den linearen Prädiktionskoeffizienten ai und dem stimmhaft/stimmlos Lautparameter VU dargestellt. Der stimmhafte Laut wird durch die Impulspositionen ti, die Impulsgrößen i und Nullfilterkoeffizienten i dar gestellt, und der stimmlose Laut wird durch das Zufallszahlencodemuster (Nummer) ci und die Verstärkung i dargestellt. Diese Sprachparameter werden von einem Codierteil 21 codiert und dann übertragen oder gespeichert. In einem Sprachsynthetisierteil werden die Sprachparameter von einem Decoderteil 22 decodiert. Im Fall des stimmhaften Lauts wird in einem Impulsfolgegeneratorteil 23 eine Impulsfolge erzeugt, die sich aus den Impulspositionen ti und den Impulsgrößen i zusammensetzt, und zur Schaffung eines Anregungssignals an ein Nullfilter 24 angelegt. Im Fall des stimmlosen Lauts wird von einem Zufallsmustergeneratorteil 25 selektiv ein Zufallsmuster erzeugt, wobei der Zufallsnummerncode (Signal) c verwendet wird, und an einen Verstärker 26 angelegt, der von der Verstärkung i gesteuert wird und in welchem es zur Erzeugung eines Anregungssignals größen-gesteuert wird. Eines der so erzeugten Anregungssignale wird von einem Schalter 27 ausgewählt, welcher von dem stimmhaft/stimmlos Parameter VU gesteuert wird, und das so ausgewählte Anregungssignal wird an ein Allpolfilter 28 zu dessen Anregung angelegt, welches an seinem Ausgangsende eine synthetisierte Sprache liefert. Die Filterkoeffizienten des Nullfilters 24 werden von i gesteuert, und die Filterkoeffizienten des Allpolfilters 28 werden von ai gesteuert.Following the above procedure, the speech signal is represented by the linear prediction coefficients ai and the voiced/unvoiced sound parameter VU. The voiced sound is represented by the pulse positions ti, the pulse sizes i and zero filter coefficients i, and the unvoiced sound is represented by the random number code pattern (number) ci and the gain i. These speech parameters are encoded by an encoding part 21 and then transmitted or stored. In a speech synthesizing part 21, the speech parameters are decoded by a decoder part 22. In the case of the voiced sound, a pulse train composed of the pulse positions ti and the pulse sizes i is generated in a pulse train generator part 23 and applied to a zero filter 24 to provide an excitation signal. In the case of the unvoiced sound, a random pattern is selectively generated by a random pattern generator part 25 using the random number code (signal) c and is supplied to an amplifier 26 which is controlled by the gain i and in which it is magnitude-controlled to produce an excitation signal. One of the excitation signals thus produced is selected by a switch 27 which is controlled by the voiced/unvoiced parameter VU and the excitation signal thus selected is applied to an all-pole filter 28 for excitation thereof which provides a synthesized speech at its output end. The filter coefficients of the zero filter 24 are controlled by i and the filter coefficients of the all-pole filter 28 are controlled by ai.

In einer ersten modifizierten Form der obigen Ausführungsform wird bei dem Aufbau von Fig. 1 die Impulsanregungsquelle gemeinsam für stimmhafte und stimmlose Laute verwendet. Das heißt, der Zufallsmustergeneratorteil 13, der Verstärker 14, der Verstärkungsberechnungsteil 15, der Quantisierer 16 und der Schalter 17 entfallen, und das Ausgangssignal des Nullfilters 10 wird direkt an das Allpolfilter 18 angelegt. Dies verschlechtert etwas die Sprachqualität für einen frikativen Konsonanten, erlaubt aber eine Vereinfachung des Aufbaus zur Verarbeitung und ermöglicht eine Verringerung der zu verarbeitenden Datenmenge. Damit kann der Umfang der verwendeten Hardware klein sein. Darüberhinaus wird, da der stimmhaft/stimmlos Lautparameter nicht übertragen zu werden braucht, die Bitrate um 60 Bits pro Sekunde verringert.In a first modified form of the above embodiment, in the structure of Fig. 1, the pulse excitation source is used in common for voiced and unvoiced sounds. That is, the random pattern generator part 13, the amplifier 14, the gain calculation part 15, the quantizer 16 and the switch 17 are omitted, and the output of the zero filter 10 is directly applied to the all-pole filter 18. This slightly deteriorates the speech quality for a fricative consonant, but allows the structure for processing to be simplified and enables the amount of data to be processed to be reduced. Thus, the amount of hardware used can be small. In addition, since the voiced/unvoiced sound parameter does not need to be transmitted, the bit rate is reduced by 60 bits per second.

Bei einer zweiten modifizierten Form ist das Nullfilter 10 nicht in der Impulsanregungsquelle in Fig. 1 enthalten, das heißt das Nullfilter 10, der Nullfilterkoeffizienten-Berechnungsteil 11 und der Quantisierer 1 2 entfallen, und das Ausgangssignal des Impulsfolgegeneratorteils 7 wird über den Schalter 17 an das Allpolfilter 18 geliefert. (Das Nullfilter 24 entfällt dementsprechend ebenfalls.) Bei diesem Verfahren wird die natürliche Lauteigenschaft der synthetisierten Sprache etwas verschlechtert für eine Sprache einer männlichen Stimme mit einer niedrigen Tonlagenfrequenz, aber die Entfernung des Nullfilters 10 verringert den Umfang der verwendeten Hardware, und die Bitrate wird um 600 Bits pro Sekunde reduziert, die zur Codierung von Filterkoeffizienten benötigt werden.In a second modified form, the zero filter 10 is not included in the pulse excitation source in Fig. 1, that is, the zero filter 10, the zero filter coefficient calculation part 11 and the quantizer 12 are eliminated, and the output signal of the pulse train generator part 7 is supplied to the all-pole filter 18 via the switch 17. (The zero filter 24 is also eliminated accordingly.) In this method, the natural sound characteristic of the synthesized speech is slightly deteriorated for a speech of a male voice with a low pitch frequency, but the removal of the zero filter 10 reduces the amount of hardware used and the bit rate is reduced by 600 bits per second required for coding filter coefficients.

Bei einer dritten modifizierten Form sind die Verarbeitung durch den Impulsgrößenberechnungsteil 8 und die Verarbeitung durch den Vektorquantisierungsteil 9 in Fig. 1 zur Berechnung eines quantisierten Werts der Impulsgrößen integriert. Fig. 9 zeigt den Aufbau dieser modifizierten Form. Ein Frequenzgewichtungsfilter-Verarbeitungsteit 50, ein Impulsantwortberechnungsteil 51, eine Korrelationsberechnungsteil 52 und ein anderer Korrelationsberechnungsteil 53 sind im Aufbau identisch mit denen in Fig. 6. In einem Impulsgrößen-(Vektor)-Quantisierungsteil 54 wird für jedes Impulsstandardmuster mci (wobei i = 1, 2 ..., Nc) ein mittlerer quadratischer Fehler zwischen einer Sprachwellenform, die unter Verwendung des Größenstandardmusters synthetisiert wurde, und der phasenangeglichenen Eingangssprachwellenform Sp(t) berechnet, und ein Impulsgrößenstandardmuster erhalten, das den Fehler minimiert. Eine Abstandsberechnung wird anhand folgender Gleichung durchgeführt:In a third modified form, the processing by the pulse magnitude calculation part 8 and the processing by the vector quantization part 9 in Fig. 1 are integrated to calculate a quantized value of the pulse magnitudes. Fig. 9 shows the structure of this modified form. A frequency weighting filter processing part 50, an impulse response calculation part 51, a correlation calculation part 52 and another correlation calculation part 53 are identical in structure to those in Fig. 6. In a pulse magnitude (vector) quantization part 54, for each pulse standard pattern mci (where i = 1, 2 ..., Nc), a mean square error between a speech waveform synthesized using the magnitude standard pattern and the phase-aligned input speech waveform Sp(t) is calculated, and a pulse magnitude standard pattern that minimizes the error is obtained. A distance calculation is performed using the following equation:

d = mcit&Phi;mci - 2mcit&psi;d = mcit&Phi;mci - 2mcit&psi;

wobei &Phi; eine Matrix ist, die die Kovarianz &phi;(i, j) der Impulsantwort f(t) als Matrixelemente verwendet, und &psi; ein Spaltenvektor ist, der als seine Elemente die Kreuzkorrelation &psi;(i) (wobei i = 1, 2, ..., np) der Impulsantwort und der Ausgabe Sw(t) des Frequenzgewichtungsfilter-Verarbeitungsteils 50 ist, verwendet.where Φ is a matrix that uses the covariance Φ(i, j) of the impulse response f(t) as matrix elements, and Ψ is a column vector that has as its elements the cross-correlation Ψ(i) (where i = 1, 2, ..., np) of the impulse response and the output Sw(t) of the frequency weighting filter processing part 50.

Die Aufbauten in den Fig. 6 und 9 sind hinsichtlich der zu verarbeitenden Datenmenge zum Erhalt der optimalen Impulsgröße nahezu identisch, jedoch ist in Fig. 9 die Verarbeitung zur Lösung der Simultangleichungen, die in der Verarbeitung von Fig. 6 enthalten ist, nicht erforderlich, und der Prozessor dementsprechend einfach aufgebaut. In Fig. 6 kann jedoch der Maximalwert der Impulsgröße skalar-quantisiert werden, während in Fig. 9 vorausgesetzt ist, daß das Vektorquantisierungsverfahren verwendet wird.The structures in Figs. 6 and 9 are almost identical in terms of the amount of data to be processed to obtain the optimum pulse size, but in Fig. 9 the processing for solving the simultaneous equations, which is included in the processing in Fig. 6, is not required and the processor is therefore simple. In Fig. 6, however, the maximum value of the pulse size can be scalar-quantized, while in Fig. 9 it is assumed that the vector quantization method is used.

Es ist ebenso möglich, quantisierte Werte von Koeffizienten zu berechnen, in dem die Berechnung der Koeffizienten vi des Nullfilters 10 und die Vektorquantisierung durch den Quantisierer 12 in gleicher Weise integriert werden, wie dies oben unter Bezug auf Fig. 9 erwähnt wurde.It is also possible to calculate quantized values of coefficients by integrating the calculation of the coefficients vi of the zero filter 10 and the vector quantization by the quantizer 12 in the same way as mentioned above with reference to Fig. 9.

In einer vierten modifizierten Form der Ausführungsform von Fig. 1 ist der Impulspositionsgeneratorteil 6 nicht vorgesehen, und folglich die in Fig. 4 gezeigte Verarbeitung nicht enthalten. Stattdessen werden alle Referenzzeitpunkte t'i, die von dem Phasenangleichungs-Analysatorteil 4 geliefert werden, als Impulspositionen ti verwendet. Dies erhöht etwas die zur Codierung der Impulspositionen erforderliche Informationsmenge, vereinfacht aber den Aufbau und beschleunigt die Verarbeitung. Dennoch kann der Durchsatz zur Erhöhung der Qualität der synthetisierten Sprache durch die Verwendung des Nullfilters 10 auch der Verringerung der Impulspositionsinformation auf Kosten der Sprachqualität zugewiesen werden.In a fourth modified form of the embodiment of Fig. 1, the pulse position generator part 6 is not provided and hence the processing shown in Fig. 4 is not included. Instead, all reference instants t'i provided by the phase alignment analyzer part 4 are used as pulse positions ti. This slightly increases the amount of information required to encode the pulse positions, but simplifies the design and speeds up the processing. Nevertheless, the throughput for increasing the quality of the synthesized speech by using the zero filter 10 can also be allocated to reducing the pulse position information at the expense of speech quality.

Es ist evident, daß in den Ausführungsformen der Sprachanalyse-Synthesevorrichtung gemäß der vorliegenden Erfindung deren dargestellte funktionale Blöcke durch Hardware gebildet werden können und Funktionen von einigen oder allen mittels eines Computers ausgeführt werden können.It is evident that in the embodiments of the speech analysis synthesis apparatus according to the present invention, the illustrated functional blocks thereof may be constituted by hardware and functions of some or all may be executed by means of a computer.

Zur Abschätzung der Wirkung des Sprachanalyse-Syntheseverfahrens gemäß der vorliegenden Erfindung wurde Experimente unter Benutzung der folgenden Bedingungen ausgeführt. Nach Abtasten einer Sprache in einem 0 bis 4 kHz Band mit einer Abtastfrequenz von 8 kHz wird das Sprachsignal mit einem Hamming-Fenster eines Analysefensters von 30 ms Länge multipliziert und eine lineare prädiktive Analyse durch ein Autokorrelationsverfahren ausgeführt, wobei der Grad der Analyse auf 12 gesetzt ist, wodurch 12 Prädiktionskoeffizienten ai und der stimmhaft/stimmlos Lautparameter erhalten werden. Die Verarbeitung des Anregungsparameteranalysatorteils 30 wird für jeden Rahmen von 15 ms ausgeführt (120 Sprachabtastwerte) gleich der Hälfte des Analysefensters. Die Prädiktionskoeffizienten werden durch ein Differenzmehrstufen- Vektorquantisierungsverfahren quantisiert. Als Abstandskriterium bei der Vektorquantisierung wurde ein frequenz-gewichteter Cepstrum-Abstand verwendet. Wenn die Bitrate 4,8 kb/s ist, beträgt die Anzahl von Bits pro Rahmen 72, und die Einzelheiten sind wie folgt: Parameter Anzahl von Bits/Rahmen Prädiktionskoeffizienten stimmhaft/stimmlos Lautparameter Anregungsquelle (für stimmhaften Laut) Impulspositionen Impulsgrößen Nullfilterkoeffizienten Anregungsquelle (für stimmlosen Laut) Zufallsmuster VerstärkungenTo estimate the effect of the speech analysis synthesis method according to the present invention, experiments were carried out using the following conditions. After sampling a speech in a 0 to 4 kHz band at a sampling frequency of 8 kHz, the speech signal is multiplied by a Hamming window of an analysis window of 30 ms in length, and linear predictive analysis is carried out by an autocorrelation method with the degree of analysis set to 12, thereby obtaining 12 prediction coefficients ai and the voiced/unvoiced sound parameter. The processing of the excitation parameter analyzer part 30 is carried out for each frame of 15 ms (120 speech samples) equal to half of the analysis window. The prediction coefficients are quantized by a differential multi-stage vector quantization method. A frequency-weighted cepstrum distance was used as a distance criterion in the vector quantization. When the bit rate is 4.8 kb/s, the number of bits per frame is 72, and the details are as follows: Parameter Number of bits/frame Prediction coefficients voiced/unvoiced Sound parameters Excitation source (for voiced sound) Pulse positions Pulse sizes Zero filter coefficients Excitation source (for unvoiced sound) Random pattern Gains

Die Konstante J, die die zulässige Grenze von Schwankungen der Impulsfrequenz in der Impulsquelle darstellt, die zulässige maximale Anzahl Np von Impulsen pro Rahmen und der zulässige Minimalwert Lmin von Impulsintervallen hängen von der Anzahl von zur Codierung der Impulspositionen zugewiesenen Bits ab. Im Fall der Codierung der Impulspositionen mit einer Rate von 29 Bits/Rahmen ist es beispielsweise günstig, daß die Differenz zwischen benachbarten Impulsintervallen &Delta;T gleich oder kleiner ist als 5 Abtastpunkte, die maximale Anzahl Np von Impulsen gleich oder kleiner ist als 6 Abtastpunkte und das zulässige minimale Impulsintervall Lmin gleich oder größer ist als 13 Abtastpunkte. Ein Filter siebter Ordnung (q = r = 1) wurde als das Nullfilter 10 verwendet. Der Zufallsmustervektor ci setzt sich aus 40 Abtastwerten (5 ms) zusammen und wird von 512 Arten von Mustern (9 Bit) ausgewählt. Die Verstärkung gi ist unter Verwendung von 6 Bits einschließlich eines Vorzeichenbits skalar-quantisiert.The constant J representing the permissible limit of fluctuations of the pulse frequency in the pulse source, the permissible maximum number Np of pulses per frame and the permissible minimum value Lmin of pulse intervals depend on the number of bits allocated for coding the pulse positions. For example, in the case of coding the pulse positions at a rate of 29 bits/frame, it is favorable that the difference between adjacent pulse intervals ΔT is equal to or less than 5 sampling points, the maximum number Np of pulses is equal to or less than 6 sampling points and the permissible minimum pulse interval Lmin is equal to or greater than 13 sampling points. A seventh-order filter (q = r = 1) was used as the zero filter 10. The random pattern vector ci is composed of 40 samples (5 ms) and is selected from 512 kinds of patterns (9 bits). The gain gi is scalar-quantized using 6 bits including a sign bit.

Die unter Verwendung der obigen Bedingungen codierte Sprache klingt sehr viel natürlicher als die durch den herkömmlichen Vocoder codierte Sprache, und ihre Qualität liegt nahe bei der der Orignalsprache. Ferner ist die Abhängigkeit der Sprachqualität vom Sprecher bei der vorliegenden Erfindung geringer als im Fall des bekannten Vocoders. Es hat sich erwiesen, daß die Qualität der codierten Sprache deutlich höher als im Fall der herkömmlichen prädiktiven Mehrimpulscodierung und der code-angeregten prädiktiven Codierung ist. Ein Spektralhüllkurvenfehler einer bei 4,8 kb/s codierten Sprache beträgt etwa 1 dB. Eine Codierungsverzögerung dieser Erfindung beträgt 45 ms, was gleich oder kürzer ist als die der herkömmlichen Sprachcodierschemata niedriger Bitrate.The speech encoded using the above conditions sounds much more natural than the speech encoded by the conventional vocoder, and its quality is close to that of the original speech. Furthermore, the dependence of the speech quality on the speaker is lower in the present invention than in the case of the known vocoder. It has been proved that the quality of the encoded speech is significantly higher than in the case of the conventional multi-pulse predictive coding and the code-excited predictive coding. A spectral envelope error of a speech encoded at 4.8 kb/s is about 1 dB. An encoding delay of this invention is 45 ms, which is equal to or shorter than that of the conventional low-bit-rate speech coding schemes.

Ein kurzer japanischer Satz, von zwei Männern und zwei Frauen ausgesprochen, wurde unter Verwendung im wesentlichen derselben Bedingungen wie oben erwähnt zum Erhalt der Anregungsparameter, der Prädiktionskoeffizienten und des stimmhaft/stimmlos Parameters VU sprachanalysiert, welche dann dazu verwendet wurden, eine Sprache zu synthetisieren. Ein Meinungstest für die subjektive Qualitätsbewertung der synthetisierten Sprache wurde von 30 Personen ausgeführt. In Fig. 10 sind die Ergebnisse des Tests im Vergleich mit jenen in den Fällen anderer Codierungsverfahren dargestellt. Die Abszisse zeigt MOS (mittlere Meinungsnote) und ORG der Originalsprache. PCM4 bis PCM8 repräsentieren synthetisierte Sprachen durch 4 bis 8 Bit Log-PCM-Codierungsverfahren und EQ bezeichnet eine phasenangeglichene Sprache. Die Testergebnisse zeigen, daß die Codierung durch die vorliegende Erfindung mit einer niedrigen Bitrate von 4,8 kb/s durchgeführt wird, aber eine synthetisierte Sprache hoher Qualität liefert, die in der Qualität gleich der durch die 8 Bit Log-PCM-Codierung synthetisierten Sprache ist.A short Japanese sentence uttered by two men and two women was speech analyzed using substantially the same conditions as mentioned above to obtain the excitation parameters, the prediction coefficients and the voiced/unvoiced parameter VU, which were then used to synthesize a speech. An opinion test for subjective quality evaluation of the synthesized speech was carried out by 30 persons. In Fig. 10, the results of the test are shown in comparison with those in the cases of other coding methods. The abscissa shows MOS (mean opinion score) and ORG of the original speech. PCM4 to PCM8 represent synthesized speeches by 4 to 8 bit log-PCM coding methods, and EQ denotes a phase-aligned speech. The test results show that the coding by the present invention is performed at a low bit rate of 4.8 kb/s, but a high quality synthesized speech which is equal in quality to the speech synthesized by the 8-bit Log-PCM coding.

Gemäß der vorliegenden Erfindung ist durch Ausdrücken des Anregungssignals für einen stimmhaften Laut als einer quasi periodischen Impulsfolge die Wiederholbarkeit der Sprachwellenforminformation höher als bei dem herkömmlichen Vocoder, und das Anregungssignal kann mit einer geringeren Informationsmenge als bei der herkömmlichen prädiktiven Mehrimpulscodierung ausgedrückt werden. Da darüberhinaus ein Fehler zwischen der Eingangssprachwellenform und der phasenangeglichenen Sprachwellenform als das Kriterium zur Abschätzung der Parameter des Anregungssignals von der Eingangssprache verwendet wird, vergrößert die vorliegende Erfindung die Übereinstimmung zwischen der synthetisierten Sprachwellenform und der Eingangssprachwellenform verglichen mit dem Stand der Technik, der einen Fehler zwischen der Eingangssprachwellenform selbst und der synthetisierten Sprache verwendet. Damit erlaubt die Erfindung einen akkurate Abschätzung der Anregungsparameter. Außerdem erzeugt das Nulifilter die Wirkung der Reproduzierung feiner spektraler Charakteristiken der Originalsprache, wodurch die synthetisierte Sprache natürlicher klingen wird.According to the present invention, by expressing the excitation signal for a voiced sound as a quasi-periodic pulse train, the repeatability of the speech waveform information is higher than in the conventional vocoder, and the excitation signal can be expressed with a smaller amount of information than in the conventional multi-pulse predictive coding. Moreover, since an error between the input speech waveform and the phase-matched speech waveform is used as the criterion for estimating the parameters of the excitation signal from the input speech, the present invention increases the agreement between the synthesized speech waveform and the input speech waveform compared with the prior art which uses an error between the input speech waveform itself and the synthesized speech. Thus, the invention allows accurate estimation of the excitation parameters. In addition, the null filter produces the effect of reproducing subtle spectral characteristics of the original speech, whereby the synthesized speech will sound more natural.

Es ist ersichtlich, daß viele Modifikationen und Variationen ausgeführt werden können, ohne der Rahmen des neuen Konzepts der Erfindung, so wie sie in den anhängenden Ansprüchen beansprucht wird, zu verlassen.It will be apparent that many modifications and variations may be made without departing from the scope of the novel concept of the invention as claimed in the appended claims.

Claims (9)

1. Verfahren der Analyse von Sprache zur Erzeugung eines Anregungssignals zur Anregung eines linearen Filters, das eine Sprachspektralhüllkurvencharakteristik repräsentiert, umfassend:1. A method of analyzing speech for generating an excitation signal for exciting a linear filter representing a speech spectral envelope characteristic, comprising: einen Schritt, bei dem Positionen von Impulsen bestimmt werden und eine Folge von Impulsen an den bestimmten Positionen zum Ausdruck des Anregungssignals erzeugt wird, einen Schritt, bei dem Parameter, die das Anregungssignal repräsentieren, so bestimmt werden, daß ein Fehler zwischen einer phasenangeglichenen Sprachwellenform nach Phasenangleichung einer Eingangssprache und einer synthetisierten Sprachwellenform, erhältlich durch Anregen des linearen Filters mit der Impulsfolge, minimal wird,a step of determining positions of pulses and generating a train of pulses at the determined positions to express the excitation signal, a step of determining parameters representing the excitation signal so that an error between a phase-aligned speech waveform after phase-aligning an input speech and a synthesized speech waveform obtainable by exciting the linear filter with the pulse train is minimized, einen Schritt, bei dem ein phasenangeglichener Prädiktionsrest der Eingangssprachwellenform erzeugt wird,a step of generating a phase-aligned prediction residual of the input speech waveform, dadurch gekennzeichnet, daßcharacterized in that der Schritt der Bestimmung der Impulspositionen und der Erzeugung der das Anregungssignal ausdrückenden Impulsfolge enthält:the step of determining the pulse positions and generating the pulse sequence expressing the excitation signal includes: einen Schritt, bei dem Referenzzeitpunkte bestimmt werden, wo Pegel des phasenangeglichenen Prädiktionsrests einen vorbestimmten Schwellenwert übersteigen, und einen Schritt, bei dem Impulspositionen einer quasi-periodischen Impulsfolge als die Impulspositionen der Impulsfolge auf der Basis der Referenzzeitpunkte so bestimmt werden, daß eine Schwankung aufeinanderfolgender Zeitintervalle der Impulspositionen innerhalb eines begrenzten Bereichs liegt.a step of determining reference time points where levels of the phase-adjusted prediction residual exceed a predetermined threshold value, and a step of determining pulse positions of a quasi-periodic pulse train as the pulse positions of the pulse train on the basis of the reference time points such that a fluctuation of successive time intervals of the pulse positions is within a limited range. 2. Verfahren nach Anspruch 1, enthaltend einen Schritt, bei dem Koeffizienten eines Nullfilters (10), das eine Feinspektralstruktur der Sprache charakterisiert, so bestimmt werden, daß ein Fehler zwischen der phasenangeglichenen Sprachwellenform und einer synthetisierten Sprachwellenform, erhältlich durch Anregen des linearen Filters (18) mit dem Ausgangssignal des Nullfilters, minimal wird, wobei die Koeffizienten des Nullfilters als einer der Parameter verwendet werden, die das Anregungssignal repräsentieren.2. The method according to claim 1, comprising a step of determining coefficients of a zero filter (10) characterizing a fine spectral structure of the speech so that an error between the phase-aligned speech waveform and a synthesized speech waveform obtainable by exciting the linear filter (18) with the output signal of the zero filter becomes minimal, the coefficients of the zero filter being used as one of the parameters representing the excitation signal. 3. Verfahren nach Anspruch 1 oder 2, bei dem das Anregungssignal für einen stimmhaften Laut verwendet wird und eine Zufallsfolge, ausgewählt aus einer Vielzahl von Zufallsmustern, als ein Anregungssignal für einen stimmlosen Laut verwendet wird, und das einen Schritt enthält, bei dem Parameter, die das Anregungssignal für den stimmlosen Laut repräsentieren, so bestimmt werden, daß ein Fehler zwischen der phasenangeglichenen Sprachwellenform und einer synthetisierten Sprachwellenform, erhältlich durch Anregen des linearen Filters mit den Zufallsmustern, minimal wird.3. A method according to claim 1 or 2, wherein the excitation signal for a voiced sound is used and a random sequence selected from a plurality of random patterns is used as an excitation signal for an unvoiced sound, and which includes a step of determining parameters representing the excitation signal for the unvoiced sound so that an error between the phase-aligned speech waveform and a synthesized speech waveform obtainable by exciting the linear filter with the random patterns becomes minimal. 4. Verfahren nach Anspruch 1 oder 2, bei dem die Parameter, die das Anregungssignal repräsentieren, einen Parameter enthalten, der die Größe jedes einzelnen Impulses der Impulsfolge repräsentiert, wobei der Größenparameter so bestimmt wird, daß ein Fehler zwischen der phasenangeglichenen Sprachwellenform und einer synthetisierten Sprachwellenform, erhältlich durch Anregen des linearen Filters mit der Impulsfolge, mimimal wird.4. A method according to claim 1 or 2, wherein the parameters representing the excitation signal include a parameter which determines the size of each individual pulse of the pulse sequence wherein the magnitude parameter is determined such that an error between the phase-aligned speech waveform and a synthesized speech waveform obtainable by exciting the linear filter with the pulse train is minimized. 5. Sprachanalysevorrichtung, umfassend:5. Speech analysis device comprising: lineare prädiktive Analysemittel (2) zur Durchführung einer linearen prädiktiven Analyse eines Eingangssprachsignals (s(t)) für jedes Analysefenster einer festen Länge zum Erhalt von Prädiktionskoeffizienten (ai),linear predictive analysis means (2) for performing a linear predictive analysis of an input speech signal (s(t)) for each analysis window of a fixed length to obtain prediction coefficients (ai), inverse Filtermittel (31) gesteuert von den Prädiktionskoeffizienten zum Ableiten eines Prädiktionsrests (e(t)) von dem Eingangssprachsignal (s(t)),inverse filter means (31) controlled by the prediction coefficients for deriving a prediction residual (e(t)) from the input speech signal (s(t)), Sprachphasenangleichungsfiltermittel (5) zum Überführen der Phase des Eingangssprachsignals zu einer Nullphase zum Erhalt eines phasenangeglichenen Sprachsignals (Sp(t)),Speech phase adjustment filter means (5) for converting the phase of the input speech signal to a zero phase to obtain a phase-adjusted speech signal (Sp(t)), Prädiktionsrest-Phasenangleichungsfiltermittel (37) zum Überführen der Phase des Prädiktionsrests (e(t)) zu einer Nullphase zum Erhalt eines phasenangeglichenen Prädiktionsrestsignals ep(t),Prediction residual phase adjustment filter means (37) for converting the phase of the prediction residual (e(t)) to a zero phase to obtain a phase-adjusted prediction residual signal ep(t), Mittel (4, 6, 7) zur Bestimmung von Impulspositionen und Erzeugung einer Folge von Impulsen an den Positionen als ein Anregungssignal,Means (4, 6, 7) for determining pulse positions and generating a sequence of pulses at the positions as an excitation signal, Allpolfiltermittel (18) gesteuert von den Prädiktionskoeffizienten und angeregt von der Impulsfolge zur Erzeugung einer synthetisierten Sprache, undAll-pole filter means (18) controlled by the prediction coefficients and excited by the pulse sequence for generating a synthesized speech, and Impulsgrößenberechnungsmittel (8), durch die Größenwerte der Folge von Impulsen so bestimmt werden, daß ein Fehler zwischen einer Wellenform einer synthetisierten Sprache, erhältlich durch Anregen der Allpolfiltermittel mit der Impulsfolge, und einer Wellenform der phasenangeglichenen Sprache, minimiert wird, wobei Parameter, die die Impulspositionen und die Größenwerte der Impulse enthalten, von der Sprachanalysevorrichtung ausgegeben werden,Pulse magnitude calculation means (8) for determining magnitudes of the pulse train so as to minimize an error between a waveform of synthesized speech obtainable by exciting the all-pole filter means with the pulse train and a waveform of the phase-aligned speech, parameters including the pulse positions and the magnitudes of the pulses being output from the speech analyzing device, dadurch gekennzeichnet, daß die Mittel (4, 6, 7) zur Bestimmung der Impulspositionen und Erzeugung der Impulsfolge enthalten:characterized in that the means (4, 6, 7) for determining the pulse positions and generating the pulse sequence contain: Referenzzeitpunktgeneratormittel (4, 38) zur Erfassung von Impulsgrößen größer als ein vorbestimmter Schwellenwert in dem phasenangeglichenen Prädiktionsrestsignal und zur Ausgabe der Positionen der Impulse als Referenzzeitpunkte, undReference time point generator means (4, 38) for detecting pulse sizes greater than a predetermined threshold value in the phase-adjusted prediction residual signal and for outputting the positions of the pulses as reference times, and Impulspositionsgeneratormittel (6) zur Bestimmung, auf der Basis der Referenzzeitpunkte, der Positionen der Impulse, die eine Tonlagenfrequenz mit einer beschränkten Schwankungsbreite aufweisen.Pulse position generator means (6) for determining, on the basis of the reference times, the positions of the pulses having a pitch frequency with a limited fluctuation range. 6. Vorrichtung nach Anspruch 5, ferner umfassend:6. The device of claim 5, further comprising: Nullfiltermittel (10), die mit der Impulsfolge beliefert werden, zur Lieferung der Impulsfolge mit Merkmalen der Wellenform des phasenangeglichenen Prädiktionsrestsignals und zur Lieferung ihrer Ausgabe an die Allpolfiltermittel (18) als das Anregungssignal, und Nullfilterkoeffizienten-Berechungsmittel (11) zur Bestimmung von Koeffizienten der Nullfiltermittel so, daß ein Fehler zwischen einer Wellenform einer synthetisierten Sprache, die durch Anregen der Allpolfiltermittel mit der Ausgabe der Nullfiltermittel erhalten wird, und einer Wellenform der phasenangeglichenen Sprache minimal wird.null filter means (10) supplied with the pulse train for supplying the pulse train having characteristics of the waveform of the phase-aligned prediction residual signal and for supplying its output to the all-pole filter means (18) as the excitation signal, and null filter coefficient calculating means (11) for determining coefficients of the null filter means such that an error between a waveform of a synthesized speech obtained by exciting the all-pole filter means with the output of the null filter means and a waveform of the phase-aligned speech becomes minimal. 7. Vorrichtung nach Anspruch 5 oder 6, bei der die linearen prädiktiven Analysemittel (2) Mittel enthalten zur Bestimmung, ob das Eingangssprachsignal in einem Analysefenster einer festen Länge stimmhaft oder stimmlos ist, und zur Ausgabe eines stimmhaft/stimmlos Entscheidungssignals (VU), wobei die Vorrichtung ferner Zufallsmustergeneratormittel (13) enthält zur Erzeugung eines Zufallsmusters, das einen Fehler zwischen einer Wellenform einer synthetisierten Sprache, die durch Anregung der Allpolfiltermittel (18) mit einem einer Mehrzahl vorbestimmter Zufallsmuster erhalten wird, und einer Wellenform der phasenangeglichenen Sprache in einem Fenster, während dessen das Entscheidungssignal stimmlos ist, minimal wird.7. Apparatus according to claim 5 or 6, wherein the linear predictive analysis means (2) include means for determining whether the input speech signal is in an analysis window of a fixed length is voiced or unvoiced, and for outputting a voiced/unvoiced decision signal (VU), the apparatus further comprising random pattern generator means (13) for generating a random pattern which minimizes an error between a waveform of a synthesized speech obtained by exciting the all-pole filter means (18) with one of a plurality of predetermined random patterns and a waveform of the phase-aligned speech in a window during which the decision signal is unvoiced. 8. Vorrichtung nach Anspruch 5 oder 6, bei dem die Mittel (4, 6, 7) zur Erzeugung der Impuisfolge Vektorquantisierungsmittel (9) zur Vektorquantisierung der Größenwerte der Impulse, die von den Impulsgrößenberechnungsmittels (8) bestimmt werden, enthalten, wodurch die Impulsfolge die quantisierten Größenwerte aufweist.8. Device according to claim 5 or 6, wherein the means (4, 6, 7) for generating the pulse sequence contain vector quantization means (9) for vector quantizing the magnitude values of the pulses determined by the pulse magnitude calculation means (8), whereby the pulse sequence has the quantized magnitude values. 9. Sprachsynthesevorrichtung, die eine Sprache als Antwort auf Parameter synthetisiert, welche ein Anregungssignal repräsentieren, das von einer Sprachanalysevorrichtung gemäß Anspruch 5 oder 6 ausgegeben wurde, umfassend:9. A speech synthesis apparatus that synthesizes a speech in response to parameters representing an excitation signal output from a speech analysis apparatus according to claim 5 or 6, comprising: Impulsfolgegeneratormittel (23) zur Erzeugung einer Impulsfolge auf der Basis der Parameter,Pulse train generator means (23) for generating a pulse train based on the parameters, Nullfiltermittel (24), die von der Impulsfolge unter der Steuerung von Nullfilterkoeffizienten angeregt werden, welche ihnen als einer der Parameter zugeführt werden, zur Schaffung der Impulsfolge mit einer Spektralcharakteristik der Sprache, undzero filter means (24) excited by the pulse train under the control of zero filter coefficients supplied thereto as one of the parameters, for creating the pulse train with a spectral characteristic of the speech, and Allpolfiltermittel (28), die von der Ausgabe der Nullfiltermittel unter der Steuerung von Prädiktionskoeffizienten angeregt werden, welche eine Sprachspektralhüllkurvencharakteristik repräsentieren, zum Synthetisieren einer Sprachwellenform.All-pole filter means (28) excited by the output of the null filter means under the control of prediction coefficients representing a speech spectral envelope characteristic, for synthesizing a speech waveform.
DE69024899T 1989-10-02 1990-10-02 Method and device for analysis by synthesizing speech Expired - Fee Related DE69024899T2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1257503A JPH0782360B2 (en) 1989-10-02 1989-10-02 Speech analysis and synthesis method

Publications (2)

Publication Number Publication Date
DE69024899D1 DE69024899D1 (en) 1996-02-29
DE69024899T2 true DE69024899T2 (en) 1996-07-04

Family

ID=17307200

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69024899T Expired - Fee Related DE69024899T2 (en) 1989-10-02 1990-10-02 Method and device for analysis by synthesizing speech

Country Status (4)

Country Link
EP (1) EP0421360B1 (en)
JP (1) JPH0782360B2 (en)
CA (1) CA2026640C (en)
DE (1) DE69024899T2 (en)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2741744B1 (en) * 1995-11-23 1998-01-02 Thomson Csf METHOD AND DEVICE FOR EVALUATING THE ENERGY OF THE SPEAKING SIGNAL BY SUBBAND FOR LOW-FLOW VOCODER
US6408268B1 (en) 1997-03-12 2002-06-18 Mitsubishi Denki Kabushiki Kaisha Voice encoder, voice decoder, voice encoder/decoder, voice encoding method, voice decoding method and voice encoding/decoding method
US7072832B1 (en) 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6385573B1 (en) * 1998-08-24 2002-05-07 Conexant Systems, Inc. Adaptive tilt compensation for synthesized speech residual
JP4999757B2 (en) * 2008-03-31 2012-08-15 日本電信電話株式会社 Speech analysis / synthesis apparatus, speech analysis / synthesis method, computer program, and recording medium
JP5325130B2 (en) * 2010-01-25 2013-10-23 日本電信電話株式会社 LPC analysis device, LPC analysis method, speech analysis / synthesis device, speech analysis / synthesis method, and program
CN108281150B (en) * 2018-01-29 2020-11-17 上海泰亿格康复医疗科技股份有限公司 Voice tone-changing voice-changing method based on differential glottal wave model
CN113066476B (en) * 2019-12-13 2024-05-31 科大讯飞股份有限公司 Synthetic voice processing method and related device

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0163829B1 (en) * 1984-03-21 1989-08-23 Nippon Telegraph And Telephone Corporation Speech signal processing system

Also Published As

Publication number Publication date
EP0421360A3 (en) 1991-12-27
JPH03119398A (en) 1991-05-21
JPH0782360B2 (en) 1995-09-06
DE69024899D1 (en) 1996-02-29
EP0421360A2 (en) 1991-04-10
EP0421360B1 (en) 1996-01-17
CA2026640A1 (en) 1991-04-03
CA2026640C (en) 1996-07-09

Similar Documents

Publication Publication Date Title
DE69910058T2 (en) IMPROVING THE PERIODICITY OF A BROADBAND SIGNAL
DE69928288T2 (en) CODING PERIODIC LANGUAGE
DE69530442T2 (en) Device for speech coding
US5293448A (en) Speech analysis-synthesis method and apparatus therefor
DE69604526T2 (en) Method for adjusting the noise masking level in an analysis-by-synthesis speech coder with a perceptual short-term filter
DE69916321T2 (en) CODING OF AN IMPROVEMENT FEATURE FOR INCREASING PERFORMANCE IN THE CODING OF COMMUNICATION SIGNALS
DE3244476C2 (en)
DE68912692T2 (en) Transmission system suitable for voice quality modification by classifying the voice signals.
DE69009545T2 (en) Speech analysis and synthesis processes.
DE69534942T2 (en) SYSTEM FOR SPEAKER IDENTIFICATION AND VERIFICATION
DE69309557T2 (en) Method and device for speech coding
DE69529356T2 (en) Waveform interpolation by breaking it down into noise and periodic signal components
DE69619284T2 (en) Device for expanding the voice bandwidth
DE60123651T2 (en) METHOD AND DEVICE FOR ROBUST LANGUAGE CLASSIFICATION
DE69727895T2 (en) Method and apparatus for speech coding
DE68907629T2 (en) Vector quantization for an arrangement for harmonic speech coding.
DE60011051T2 (en) CELP TRANS CODING
DE69621393T2 (en) Quantization of speech signals in predictive coding systems using models of human hearing
DE69730779T2 (en) Improvements in or relating to speech coding
DE68922134T2 (en) Coded speech transmission system with codebooks for synthesizing low amplitude components.
DE60309651T2 (en) Method for speech coding by means of generalized analysis by synthesis and speech coder for carrying out this method
DE69615870T2 (en) Speech encoder with features extracted from current and previous frames
DE60028500T2 (en) speech decoding
DE60023851T2 (en) METHOD AND DEVICE FOR GENERATING RANDOM COUNTS FOR 1/8 BIT RATE WORKING LANGUAGE CODERS
DE69921066T2 (en) Method and apparatus for speech coding

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee