DE3220281A1 - System for composing a voice through compilation of phoneme components - Google Patents

System for composing a voice through compilation of phoneme components

Info

Publication number
DE3220281A1
DE3220281A1 DE19823220281 DE3220281A DE3220281A1 DE 3220281 A1 DE3220281 A1 DE 3220281A1 DE 19823220281 DE19823220281 DE 19823220281 DE 3220281 A DE3220281 A DE 3220281A DE 3220281 A1 DE3220281 A1 DE 3220281A1
Authority
DE
Germany
Prior art keywords
phoneme
pieces
voice
interpolation
phoneme piece
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE19823220281
Other languages
German (de)
Inventor
Tomoaki Abe
Masahiro Hirakata Osaka Hamada
Fumio Zama Kanagawa Kosuge
Shiro Kyoto Mizutani
Daisuke Mori
Hideo Yokohama Kanagawa Shibuya
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Publication of DE3220281A1 publication Critical patent/DE3220281A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Image Processing (AREA)

Abstract

The system for composing a voice through phoneme component compilation, when the required voice signal is generated through sequential output of phoneme component data from a memory, effects an equalisation to a specific number of the number of samplings of two phoneme component data elements to be interpolated. The interpolation is carried out between the phoneme component data of identically numbered start and end phoneme components. The phoneme component data to be interpolated are output according to a predefined sampling cycle. The system effects interference-free or noise-free generation of a composite voice by smoothing the amplitude or frequency transition between consecutive phoneme components. <IMAGE>

Description

System zum Zusammensetzen einer Stimme durchSystem for composing a voice through

Kompilation von Phonemstücken Die Erfindung betrifft ein System zum Zusammensetzen einer Stimme durch Kompilation von Phonemstücken, welches mit einem Mikrocomputer und einem Digital/ Analog-Umsetzer arbeitet und eine glatte Interpolation der Amplitude der ausgegebenen Stimme und/oder der Tonhöhenperiode und der Formantenfrequenz durchführt.Compilation of Phoneme Pieces The invention relates to a system for Composing a voice by compiling phoneme pieces, which with a Microcomputer and a digital / analog converter works and a smooth interpolation the amplitude of the output voice and / or the pitch period and the formant frequency performs.

Bei den herkömmlichen Systemen zur Zusammensetzung von Stimmen durch Phonemstück-Kompilation sind als wesentliche Komponenten ein Mikrocomputer, ein ROM-Speicher und ein Digital/Analog-Umsetzer sowie eine Vokalstimmeneinheit vorgesehen, mit denen jeweils bestimmte Phonemstückdaten mehrere Male hintereinander wiederholt und verarbeitet werden. Die Phonemstückdaten enthalten in den ROM eingeschriebene Tonhöhen-Einheiten einer Stimme. Ein Wort entsteht dadurch, daß die vokalen Klangeinheiten in bestimmter Folge nacheinander erzeugt und miteinander verbunden werden. Dies ist in Fig. 1 dargestellt. Gemäß Fig. 1 besteht die Phonemstückgruppe 1 aus einem zweimal wiederholten Phonemstück Ph die Phonemstückgruppe 2 aus einem viermal wiederholten Phonemstück Ph2 und die Phonemstückgruppe 3 aus einem zweimal wiederholten Phonemstück Ph3.In the conventional systems for composing votes through Phoneme piece compilation are as essential components a microcomputer, a ROM memory and a digital / analog converter as well as a vocal part unit are provided, with each of which certain phoneme piece data is repeated several times in succession and processed. The phoneme piece data includes those written in the ROM Units of pitch of a voice. A word arises from the fact that the vocal sound units are generated one after the other in a certain sequence and connected to one another. this is shown in FIG. According to Fig. 1, the phoneme piece group 1 consists of one Phoneme piece Ph repeated twice the phoneme piece group 2 from one repeated four times Phoneme piece Ph2 and the phoneme piece group 3 from a repeated twice Phoneme piece Ph3.

Da in diesem Fall die Amplitude, die Tonhöhenperiode usw.In this case, since the amplitude, pitch period, etc.

der zusammengesetzten Stimme durch die aus einem ROM-Speicher ausgelesenen Phonemstückdaten bestimmt werden, verändern sich die Amplitude, die Tonhöhe und die Formantenfrequenz des zusammengesetzten Klanges an den Grenzen der oben erläuterten vokalen Klangeinheiten abrupt. Dies ist in Fig. 2 dargestellt. Die Details des in Fig. 2 mit einem Kreis umrandeten Bereichs sind in den Fig. 3 und 4 abgebildet. Gemäß Fig. 3 stellen F11 bis F31 jeweils Formantenfrequenzen der Phonemstückgruppe 1 dar und F12 bis F32 und F13 bis F33 bilden die jeweiligen Formantenfrequenzen der Phonemstückgruppen 2 und 3. Man erkennt, daß jede dieser Formantenfrequenzen an der Übergangsstelle zwischen den Phonemstückgruppen einen Sprung hat. Fig. 4 zeigt die höheren Harmonischen P-ter Ordnung in der Form Af11 bis Af31, Af12 bis Af32 und Af1 3 bis Af33. Infolge der diskontinuierlichen Verläufe der Amplitude, der Tonhöhe und der Formantenfrequenz wird bei dem konventionellen System zur Zusammensetzung von Phonemstücken periodisch Rauschen erzeugt und es entsteht keine natürliche Stimmenfolge, wie dies bei anderen bekannten Systemen, z.B. dem Stimmenzusammensetzungssystem PARCOR der Fall ist.the composite voice by reading from a ROM memory Phoneme piece data are determined, the amplitude, the pitch and change the formant frequency of the composite sound at the limits of those discussed above vocal sound units abruptly. This is shown in FIG. The details of the in Fig. 2 with a circle bordered area are shown in Figs. According to Fig. 3, F11 to F31 represent formant frequencies of the phoneme piece group, respectively 1 and F12 to F32 and F13 to F33 constitute the respective formant frequencies of phoneme piece groups 2 and 3. It can be seen that each of these formant frequencies has a jump at the transition point between the phoneme piece groups. Fig. 4 shows the higher P-th order harmonics in the form Af11 to Af31, Af12 to Af32 and Af1 3 to Af33. Due to the discontinuous course of the amplitude, the pitch and the formant frequency become the composition in the conventional system Periodically noise is generated by phoneme pieces and there is no natural sequence of voices, as is the case with other known systems such as the voice composition system PARCOR is the case.

Andererseits könnte man zur Vermeidung der geschilderten Nachteile die Amplitude eines auszugebenden Phonemstückes mittels arithmetischer und logischer Operationen gegenüber dem in dem ROM gespeicherten Phonemstück verändern, jedoch würde dies die Durchführung schwieriger arithmetischer Funktionen in einem Mikroprozessor erfordern. Ein solches System wäre für einen Stimmenerzeuger, der mit niedrigen Kosten hergestellt werden soll, nicht geeignet.On the other hand, one could avoid the disadvantages described the amplitude of a phoneme piece to be output by means of arithmetic and logical Operations versus that stored in the ROM Change phoneme piece, however, this would be performing difficult arithmetic functions all in one Require microprocessor. Such a system would be for a voice generator who to be manufactured at a low cost is not suitable.

Der Erfindung liegt die Aufgabe zugrunde, die oben geschilderten Nachteile und Schwierigkeiten zu beseitigen und ein System der eingangs genannten Art zu schaffen, das bei relativ geringer Beanspruchung eines Mikroprozessors die abrupten Änderungen an den Übergangsstellen der vokalen Klangeinheiten glättet.The invention is based on the disadvantages outlined above and to eliminate difficulties and to create a system of the type mentioned above, that with relatively little stress on a microprocessor, the abrupt changes smooths at the transition points of the vocal sound units.

Bei dem erfindungsgemäßen System können die Daten eines jeden Phonemstückes durch Interpolation leicht in der Weise verarbeitet werden, daß sich die Amplitude, die Tonhöhe und die Formantenfrequenz von einer vokalen Klangeinheit zur nächsten kontinuierlich verändern, wobei die Interpolation auf einfache Weise durchgeführt wird.In the system according to the invention, the data of each phoneme piece can easily be processed by interpolation in such a way that the amplitude, the pitch and formant frequency from one vocal sound unit to the next continuously change, the interpolation being carried out in a simple manner will.

Im folgenden wird unter Bezugnahme auf die Zeichnungen zunächst ein System nach dem Stand der Technik unci anschließend ein Ausführungsbeispiel der Erfindung näher erläutert: Es zeigen: Fig. 1 einen Teil der synthetisierten Wellenform, die sich bei der Aneinanderreihung von Phonemstücken nach dem Stand der Technik ergibt, Fig. 2 eine dreidimensionale Darstellung des Spektrums einer Stimme, Fig. 3 ein Diagramm zur Verdeutlichung der Änderungen der Formantenfrequenz, Fig. 4 ein Diagramm zur Verdeutlichung der Amplitudenänderungen bei derselben Frequenz bei dem bekannten System, Fig. 5 ein Diagramm zur Verdeutlichung der Amplituden-Interpolation bei derselben Tonhöhe bei einem System zur Zusammensetzung einer Stimme durch Aneinanderreihung von Phonemstücken nach der Erfindung, Fig. 6 eine Wellenform zur Verdeutlichung des Zustands der Zusammenreihung von Phonemstücken nach dem Prinzip der Interpolation mit derselben Tonhöhen-Periode, Fig. 7 ein Diagramm der Wellenform eines Phonemstückes nach dem Prinzip derselben Tonhöhen-Periode, Fig. 8 ein Diagramm der Wellenform eines neuen Phonemstückes, das aus Ph2/1i entstanden ist, Fig. 9 ein charakteristisches Diagramm der Interpolation von Phonemstücken mit unterschiedlichen Tonhöhen-Perioden und Fig. 10 ein Flußdiagramm einer Ausfuhrungsform der Erfindung.In the following, with reference to the drawings, a Prior art system and then an embodiment of FIG The invention is explained in more detail: FIG. 1 shows a part of the synthesized waveform, which arise in the stringing together of phoneme pieces according to the prior art results, 2 shows a three-dimensional representation of the spectrum of a Voice, Fig. 3 is a diagram to illustrate the changes in the formant frequency, 4 shows a diagram to illustrate the changes in amplitude at the same frequency in the known system, FIG. 5 is a diagram to illustrate the amplitude interpolation at the same pitch in a system for composing a voice by stringing of phoneme pieces according to the invention, Fig. 6 shows a waveform for clarification the state of the arrangement of phoneme pieces according to the principle of interpolation having the same pitch period, Fig. 7 is a diagram showing the waveform of a phoneme piece on the principle of the same pitch period, Fig. 8 is a waveform diagram of a new phoneme piece which arose from Ph2 / 1i, Fig. 9 a characteristic Diagram of the interpolation of phoneme pieces with different pitch periods and Fig. 10 is a flow chart of an embodiment of the invention.

Das nachstehend beschriebene Ausführungsbeispiel beschränkt sich aus Gründen der Kürze der Darstellung auf die Beschreibung eines Systems, bei dem ein Phonemstück durch die Summe von Sinuswellen ausgedrückt werden kann, die eindeutig bestimmte (definite) Phasen haben.The exemplary embodiment described below is limited For the sake of brevity, the description of a system in which a Phoneme piece can be expressed by the sum of sine waves that are unique have certain (definite) phases.

Zunächst wird das Helmholtz'sche Phasengesetz ("Das menschliche Ohr ist unempfindlich gegenüber Phasen lagen, soweit es sich um Musik handelt") auf eine Stimme angewandt. Die Phase eines Frequenzanteils eines jeden Phonemstückes wird variiert und die Phonemstücke werden durch Sinuswellen ersetzt, die mit 0° oder 180° beginnen.First of all, Helmholtz's phase law ("The human ear is insensitive to phases as far as music is concerned ") a voice applied. The phase of a frequency component of each phoneme piece is varied and the phoneme pieces are replaced by sine waves starting with 0 ° or start 180 °.

Dies wird durch die folgende Gleichung (1) verdeutlicht: worin Ph1 einem Phonemstück 1, w1 die Grund-Winkelfrequenz des Phonemstückes 1, i die höhere Harmonische der Ordnung i der Grund-Winkelfrequenz (Tonhöhen-Periode) und A1i die Amplitude der Harmonischen i-ter Ordnung representieren.This is illustrated by the following equation (1): where Ph1 represents a phoneme piece 1, w1 the fundamental angular frequency of the phoneme piece 1, i the higher harmonic of order i the fundamental angular frequency (pitch period) and A1i the amplitude of the harmonic of the i-th order.

Jedes Phonemstück kann, wenn es entsprechend Gleichung (1) substituiert wird, wie folgt ausgedrückt werden: worin der Index "n" das Phonemstück n bezeichnet.Each phoneme piece, when substituted according to equation (1), can be expressed as follows: where the subscript "n" denotes the phoneme piece n.

Die Differenz zwischen benachbarten Phonemstücken Phn und Phn-1 kann durch die folgende Gleichung (3) ausgedrückt werden: Zur Entwicklung der Gleichung werden die Amplitude und die Grund-Winkelfrequenz zwischen den beiden Phonemstücken jeweils durch die folgenden Gleichungen ausgedrückt: Ani = kn1i.An1i (4) #n = ln-1 . #n-1, (5) worin Kn-1i das Verhältnis der höheren Harmonischen i - ten Grades und ln-1 das Verhältnis der Grund-Winkelfrequenz darstellt, Sezt man Gleichungen (4) und (5) in Gleichung (3) ein, so ergibt sich die folgende Gleichung (6): I. Wenn in Gleichung (6) ln-1 = 1 ist (d.h., wenn die Grund-Winkelfrequenzen der beiden Phonemstücke einander gleich sind) ergibt sich folgendes: Gleichung (6) kann wie folgt ausgedrückt werden: Unter Benutzung von Gleichung (7) kann man ein neues Phonemstück Phn/n~1 erhalten, das durch die folgende Gleichung (8) ausgedrückt wird: Phn-Phn-1 (8) Phn/n-1=Phn-1 + 2 Wenn Gleichung (7) in Gleichung (8) eingesetzt wird, ergibt sich Gleichung (9) gibt den Mittelwert der Amplituden höherer Harmonischenanteile der jeweiligen Phonemstücke Phn und Phn 1 an. Die Amplitudenänderung des neuen Phonemstückes Phn/n 1 ist passend zu Fig. 4 in Fig. 5 dargestellt.The difference between adjacent phoneme pieces Phn and Phn-1 can be expressed by the following equation (3): To develop the equation, the amplitude and the fundamental angular frequency between the two phoneme pieces are each expressed by the following equations: Ani = kn1i.An1i (4) #n = In-1. # n-1, (5) where Kn-1i is the ratio of the higher harmonics of the i - th degree and In-1 is the ratio of the fundamental angular frequency, inserting equations (4) and (5) into equation (3), the following equation (6) results: I. If ln-1 = 1 in equation (6) (that is, if the fundamental angular frequencies of the two phoneme pieces are equal to each other) the following results: Equation (6) can be expressed as follows: Using equation (7), one can obtain a new phoneme piece Phn / n ~ 1, which is expressed by the following equation (8): Phn-Phn-1 (8) Phn / n-1 = Phn-1 + 2 if Equation (7) is substituted into equation (8), results Equation (9) gives the mean value of the amplitudes of higher harmonic components of the respective phoneme pieces Phn and Phn 1. The change in amplitude of the new phoneme piece Phn / n 1 is shown in FIG. 5 in accordance with FIG. 4.

Bei dem neuen Phonemstück Ph2/1 in Fig. 5 handelt es sich um ein Phonemstück, das zwischen den Phonemstücken Ph2 und Ph1 interpoliert ist und man erkennt leicht, daß das neue Phonemstück, das dieselbe Grund-Winkelfrequenz hat, aus einer Amplituden-Interpolation der höheren Harmonischen dieser Phonemstücke besteht. Die Änderung der Wellenform des Phonemstückes, die hierbei entsteht, ist in Fig. 6 dargestellt.The new phoneme piece Ph2 / 1 in Fig. 5 is a phoneme piece, which is interpolated between the phoneme pieces Ph2 and Ph1 and one can easily see that the new phoneme piece, which has the same fundamental angular frequency, comes from an amplitude interpolation of the higher harmonics of these phoneme pieces. The change in waveform of the phoneme piece that arises here is shown in FIG.

Fig. 7 zeigt die Wellenform, die man durch Abtasten der Phonemstücke Ph1 und Ph2 derselben Grund-Winkelfrequenz, wie in Fig. 6, für dieselbe Abtastdatenzeit, d.h. T1 (s) erhält.Fig. 7 shows the waveform obtained by scanning the phoneme pieces Ph1 and Ph2 of the same fundamental angular frequency as in Fig. 6 for the same sampling data time, i.e. get T1 (s).

Die Zeit t beim j - ten Abtastvorgang kann durch die folgende Gleichung ausgedrückt werden: t = jT1 (sec) (10) und daher können die abgetasteten Werte der jeweiligen Phonemstücke Ph1 und Ph durch die folgenden 2 Gleichungen ausgedrückt werden: j = 1, 2, 3, .The time t at the j-th sampling can be expressed by the following equation: t = jT1 (sec) (10) and therefore the sampled values of the respective phoneme pieces Ph1 and Ph can be expressed by the following 2 equations: j = 1, 2, 3,.

Die Abtastzeit T1 (s) kann durch die folgende Gleichung (13) ausgedrückt werden: T1 (13) T1 N , worin T1 diejenige Periodendauer representiert, die der Grund-Winkelfrequenz der Phonemstücke Ph1 und Phz entspricht, und worin N die Anzahl der Abtastvorgänge innerhalb einer Periode der Phonemstücke Ph und Ph2 darstellt.The sampling time T1 (s) can be expressed by the following equation (13) become: T1 (13) T1 N, where T1 represents the period which is the fundamental angular frequency of phoneme pieces Ph1 and Phz, and where N is the number of times of sampling represents Ph and Ph2 within a period of the phoneme pieces.

Die Gleichungen (11) und (12) können unter Benutzung von Gleichung (13) wie folgt umgeschrieben werden: Die Differenz zwischen den Phonemstücken Ph1j und Ph2j erhält man aus den Gleichungen (14) und (15) wie folgt: Der beim j - ten Abtastvorgang des neuen Phonemstückes abgetastete Wert Ph2/1j ergibt sich unter Benutzung von Gleichung 16 wie folgt: Das aus Gleichung (9) erhaltene neue Phonemstück wird abgetastet. Wenn die Abtastzeit Tn 1(s) beträgt, erhält man die folgende Gleichung (18): Tn-1 Tn-1 = N , (18) worin Tn-1 die Zeit der Grund-Winkelfrequenz des Phonemstückes Ph und N die Zahl der Abtastvorgänge in derjenigen Zeit darstellt, in der eine Periode des Phonemstückes Phn/n,l für T (s) abgetastet wird.Equations (11) and (12) can be rewritten using equation (13) as follows: The difference between the phoneme pieces Ph1j and Ph2j is obtained from equations (14) and (15) as follows: The value Ph2 / 1j sampled during the jth sampling process of the new phoneme piece is obtained using equation 16 as follows: The new phoneme piece obtained from equation (9) is scanned. When the sampling time Tn is 1 (s), the following equation (18) is obtained: Tn-1 Tn-1 = N, (18) where Tn-1 is the time of the fundamental angular frequency of the phoneme piece Ph and N is the number of times of sampling represents that time in which a period of the phoneme piece Phn / n, l is sampled for T (s).

Der j - te abgetaste Wert Ph j kann unter Ben/n-1 nutzung von Gleichung (18) wie folgt ausgedrückt werden: Demnach wird Gleichung (17) gleich Gleichung (19).The j th sampled value Ph j can be expressed as follows using equation (18): Hence, equation (17) becomes the same as equation (19).

Aus diesem Grunde ist leicht erkennbar, daß das neue Phonemstück {Ph2/1j j=1, 2 ... ..., N} das aus dem Mittelwert (Durchschnittswert) zwischen dem j - ten abgetasteten Wert Ph1j und Ph2j der Phonemstücke besteht,ein Phonemstück bildet, dessen Amplitude dem Mittelwert der Amplituden der Frequenzanteile der Phonemstücke Ph1 und Ph2 entspricht.For this reason it is easy to see that the new phoneme piece {Ph2 / 1j j = 1, 2 ... ..., N} that of the mean (average) between the jth sampled value Ph1j and Ph2j of the phoneme pieces, forms a phoneme piece, whose amplitude corresponds to the mean value of the amplitudes of the frequency components of the phoneme pieces Ph1 and Ph2 corresponds.

Dieses neue Phonemstück (Ph2/17 j = 1, 2 ... ..., , ist in Fig. 8 dargestellt. Mit anderen Worten: Wenn zwischen den zwei Phonemstücken mit derselben Grund-Winkelfrequenz eine Interpolation ausgeführt werden soll, werden die Phonemstücke für dieselbe Abtastzeit von T (s) abgetastet. Dies bedeutet, daß die Abtastung N-mal erfolgt, wobei (20) T ist.This new phoneme piece (Ph2 / 17 j = 1, 2 ... ...,, is in Fig. 8 shown. In other words, if between the two phoneme pieces with the same Basic angular frequency an interpolation is to be performed, the phoneme pieces sampled for the same sampling time of T (s). This means that the sampling is N times occurs, where (20) is T.

Durch aufeinanderfolgende Berechnung der j - ten Abtastwerte der abgetasteten beiden Phonemstücke zur Ermittlung eines Mittel- oder Durchschnittswertes erfolgt eine Amplituden-Interpolation der höheren Harmonischenanteile.By successively calculating the j-th sample values of the sampled two phoneme pieces to determine a mean or average value takes place an amplitude interpolation of the higher harmonic components.

II. Wenn Qn 1 f 1 ist (d.h. wenn die Grund-Winkelfrequenzen der beiden Phonemstücke voneinander unterschiedlich sind) gilt folgendes: Es sei angenommen, daß die Grund-Periodendauer des Phonems Ph1 den Wert T1 (s) hat, und daß die Grund-Periodendauer des Phonemstücks Ph2den Wert T2(s) hat.II. If Qn 1 f 1 (i.e. if the fundamental angular frequencies of the two Phoneme pieces are different from each other) the following applies: It it is assumed that the basic period of the phoneme Ph1 has the value T1 (s), and that the basic period of the phoneme piece Ph2 has the value T2 (s).

Dann gilt die folgende Beziehung: T2 T1 Q1 . (21) Diese Phonemstücke Ph1 und Ph2 werden gleich oft, nämlich N mal abgetastet. Mit anderen Worten: Die Abtastzeit ist nicht so fest, wie im Stand der Technik, sie ist jedoch für ein Phonemstück fest.Then the following relationship applies: T2 T1 Q1. (21) These phoneme pieces Ph1 and Ph2 are scanned the same number of times, namely N times. In other words: the Sampling time is not as fixed as in the prior art, but it is for one phoneme piece fixed.

Die j - ten Abtastwerte der Phonemstücke Ph1 und Ph2 werden jeweils wie folgt ausgedrückt: worin T1 die Abtastzeit des Phonemstückes Ph1 bedeutet, die ausgedrückt wird durch T1 T1 = N (@@) (24) und worin T2 die Abtastzeit des Phonemstückes Ph2 darstellt, die ausgedrückt wird durch T2 T2 = N (@) Hieraus erkennt man, daß die Abtastzeiten T1 und T2 die folgende Beziehung haben: T2 = l1 . t1. (26) Setzt man die Gleichungen (24) und (25) in die Gleichungen (22) und (23) ein, so erhält man die beiden folgenden Gleichungen: Da die Gleichungen (27) und (28) gleich den Gleichungen (11) und (12) sind, ist das neue Phonemstück {Ph2/1j}, das durch den Mittelwert der j - ten Abtastwerte der Phonemstücke representiert wird, dasjenige Phonemstück, bei dem die Amplituden-Interpolation zwischen den Phonemstücken Ph1 und Ph2 ausgeführt worden ist.The j th sample values of the phoneme pieces Ph1 and Ph2 are expressed as follows: where T1 represents the sampling time of the phoneme piece Ph1, which is expressed by T1 T1 = N (@@) (24) and where T2 represents the sampling time of the phoneme piece Ph2, which is expressed by T2 T2 = N (@) the sampling times T1 and T2 have the following relationship: T2 = l1. t1. (26) Inserting equations (24) and (25) into equations (22) and (23), one obtains the following two equations: Since equations (27) and (28) are the same as equations (11) and (12), the new phoneme piece {Ph2 / 1j}, which is represented by the mean of the j-th samples of the phoneme pieces, is the phoneme piece at on which the amplitude interpolation has been carried out between the phoneme pieces Ph1 and Ph2.

Mit anderen Worten: Die Berechnung der j - ten Abtastwerte der Phonemstücke zur Erzielung des Mittelwertes ist nichts anderes als daß die Grund-Winkel- frequenzen der Phonemstücke Ph1 und Ph2 hypothetisch einander gleich gemacht würden.In other words: the computation of the jth sample values of the phoneme pieces to achieve the mean value is nothing other than that the basic angle frequencies the phoneme pieces Ph1 and Ph2 would hypothetically be made equal to each other.

Die Abtastzeit des neuen Phonemstückes wird dann durch die folgende Gleichung ausgedrückt: 2 + (ß1+1) T2/1 2 - 2 T1 (29) Gleichung (29) verdeutlicht die Frequenz-Interpolation zwischen den Phonemstücken Ph1 und Ph2.The sampling time of the new phoneme piece is then given by the following Expressed in the equation: 2 + (β1 + 1) T2 / 1 2 - 2 T1 (29) Equation (29) clarifies the frequency interpolation between the phoneme pieces Ph1 and Ph2.

Die Interpolation zwischen den Phonemstücken unterschiedlicher Tonhöhen-Perioden ist in Fig. 9 dargestellt.The interpolation between the phoneme pieces of different pitch periods is shown in FIG.

Diese Interpolation zwischen den Phonemstücken unterschiedlicher Tonhöhen-Perioden wird zu einer Amplituden-Interpolation der höheren Harmonischen der jeweiligen Phonemstücke gemacht, wie aus Gleichung (17) hervorgeht, wobei zur Standardisierung bzw. der gegenseitigen Angleichung der Grund-Winkelfrequenzen bei beiden Phonemstücken die Abtastung N mal erfolgt. Durch die Standardisierung geht jedoch Information der Grund-Winkelfrequenzen verloren, und aus diesem Grunde ermittelt man die Information der Grund-Winkelfrequenzen der interpolierten Phonemstücke durch Bestimmung des Mittelwertes der Grundfrequenzen der neuen Phonemstücke nach Gleichung (29).This interpolation between the phoneme pieces of different pitch periods becomes an amplitude interpolation of the higher harmonics of the respective phoneme pieces made, as can be seen from equation (17), where for standardization or the mutual adjustment of the fundamental angular frequencies in both phoneme pieces Sampling takes place N times. However, through the standardization, information of the Fundamental angular frequencies are lost, and that is why the information is obtained the fundamental angular frequencies of the interpolated phoneme pieces by determining the Average value of the fundamental frequencies of the new phoneme pieces according to equation (29).

Obwohl bei dem oben geschilderten Ausführungsbeispiel die Daten der interpolierten Phonemstücke, die zwischen beiden Phonemstücken eingeschoben werden,und die Abtastfrequenzen durch lineare Interpolation ermittelt worden sind, können im Rahmen der Erfindung auch nichtlineare Interpolationsrechnungen ausgeführt werden, um die Zwischen-Phonemstücke zu erhalten.Although in the embodiment described above, the data of the interpolated phoneme pieces that are inserted between the two phoneme pieces, and the sampling frequencies have been determined by linear interpolation can be im Within the scope of the invention, non-linear interpolation calculations are also carried out, to get the intermediate phoneme pieces.

Die Interpolation der Amplituden, Tonhöhen-Perioden und Formantenfrequenzen der benachbarten Phonemstücke Phn und Ph kann durchgeführt werden, indem die beiden Phonemstücke mit derselben Häufigkeit von N mal abgetastet werden, anschließend ein Interpolationswert aus den gleich-nummerierten Abtastwerten dieser beiden Phonemstücke bestimmt wird, und schließlich die Ausgabe mit einer Abtastfrequenz erfolgt, die durch Interpolation der Interpolationswerte unter Zugrundelegung der Abtastfrequenzen dieser beiden Phonemstücke bestimmt wird.The interpolation of the amplitudes, pitch periods and formant frequencies The neighboring phoneme pieces Phn and Ph can be done by removing the two Phoneme pieces are sampled with the same frequency of N times, subsequently an interpolation value from the equally numbered samples of these two phoneme pieces is determined, and finally the output takes place with a sampling frequency that by interpolating the interpolation values based on the sampling frequencies of these two phoneme pieces is determined.

Obwohl die Erfindung in Verbindung mit dem Phonemstück beschrieben wurde, das durch die Summe von Sinuswellen mit bestimmter Phase ausgedrückt werden kann, ist sie auch bei normalen Stimmenstücken in gleicher Weise anwendbar, da davon ausgegangen werden kann, daß bei der normalen Stimme eine Phasenkontinuität benachbarter Klangsignale vorhanden ist.Although the invention is described in connection with the phoneme piece that are expressed by the sum of sine waves with a certain phase can, it can also be used in the same way for normal parts because of it It can be assumed that in the normal voice there is a phase continuity between neighboring ones Sound signals are present.

Das Flußdiagramm zur Durchführung dieserStimmensynthese mit einem Mikroprozessor ist in Fig. 10 dargestellt.The flow chart for performing this voice synthesis with a The microprocessor is shown in FIG.

Mit der Erfindung ist es möglich, eine synthetisierte Stimme zu erhalten, die einer natürlichen Stimme besser angepaßt ist,wobei Störungen oder Fremdgeräusche durch die Interpolationsphoneme vermieden werden.With the invention it is possible to get a synthesized voice, which is better adapted to a natural voice, with interference or extraneous noises can be avoided by the interpolation phonemes.

LeerseiteBlank page

Claims (4)

ANSPRLCHE System zum Zusammensetzen einer Stimme durch Kompilation von Phonemstücken, bei welchem ein Stimmensignal dadurch erzeugt wird, daß Phonemstücke, die durch die Summe von Sinuswellen ausgedrückt werden können, welche mit vorbestimmten Phasen beginnen, nacheinander verbunden werden, dadurch gekennzeichnet, daß eine Abtasteinrichtung vorgesehen ist, die die Anzahl der Abtastungen der Phonemstückdaten an beiden Enden zur Durchführung einer Interpolation zwischen ihnen gleichmacht, und daß eine arithmetische Einrichtung aus den abgetasteten Werten der gleich-nummerierten Start-und End-Phonemstücke die durch Mittelwertbildung zu interpolierenden Phonemstückdaten bildet, wodurch eine Amplitudeninterpolation der Frequenzanteile der jeweils gespeicherten Phonemstücke durchgeführt wird. RESPONSIBLE System for composing a voice through compilation of phoneme pieces, in which a voice signal is generated by the fact that phoneme pieces, which can be expressed by the sum of sine waves which have predetermined Phases begin to be connected one after the other, characterized in that one Sampling device is provided which counts the number of samples of the phoneme piece data equalizes at both ends to perform an interpolation between them, and that an arithmetic device from the sampled values of the same-numbered Start and end phoneme pieces the phoneme piece data to be interpolated by averaging forms, whereby an amplitude interpolation of the frequency components of the respectively stored Phoneme pieces is performed. 2. System nach Anspruch 1, dadurch gekennzeichnet, daß eine Einrichtung vorgesehen ist, die die Periodendauer, während der der Abtastwert auszulesen ist, entsprechend dem Abtastzyklus verändert, der durch die Interpolation des Abtastzyklus des gespeicherten Phonemstückwertes oder des Wertes des Start- oder End-Phonemstückes entstanden ist, wobei die Tonhöhen-Periode und die Formantenfrequenz beide der Interpolation unterzogen werden.2. System according to claim 1, characterized in that a device it is provided that the period during which the sample is to be read out changed according to the sampling cycle, which is determined by the interpolation of the sampling cycle the stored phoneme piece value or the value of the start or end phoneme piece has arisen, the pitch period and the formant frequency both being interpolated be subjected. 3. System zum Zusammensetzen einer Stimme durch Kompilation von Phonemstücken, bei dem ein Stimmensignal durch Verbinden von Phonemstückdaten erzeugt wird, die sequentiell entsprechend einer Steuerinformation zum Zusammensetzen der Stimme aus einem die Phonemstückdaten enthaltenden Speicher ausgelesen werden, d a d u r c h g e k e n n z e i c h n e t , daß die Anzahl der Abtastungen der beiden Phonemstückdaten, zwischen denen interpoliert werden soll, gleich einer vorbestimmten Anzahl von Abtastungen gemacht wird, daß durch Interpolation Phonemstückdaten aus gleich-nummerierten voreilenden und nachfolgenden Phonemstücken gebildet werden, und daß die interpolierenden Phonemstückdaten mit der Abtastperiode ausgegeben werden, die durch Interpolation der Abtastzyklen der voreilenden und nacheilenden Phonemstücke entstanden sind.3. system for composing a voice by compiling phoneme pieces, in which a voice signal is generated by connecting phoneme piece data which sequentially according to control information for composing the voice a memory containing the phoneme piece data are read out, d a d u r c it is noted that the number of samples of the two phoneme piece data, between which to interpolate is equal to a predetermined number of samples it is made that by interpolation phoneme piece data from same-numbered leading and subsequent phoneme pieces are formed, and that the interpolating phoneme piece data are output with the sampling period obtained by interpolating the sampling cycles of the leading and trailing phoneme pieces have arisen. 4. System nach Anspruch 3, dadurch gekennzeichnet, daß die in dem Speicher gespeicherten Phonemstückdaten durch die Summe von Sinuswellen, welche mit bestimmten Phasen beginnen, ausgedrückt werden.4. System according to claim 3, characterized in that the in the Memory stored phoneme piece data by the sum of sine waves which begin with certain phases to be expressed.
DE19823220281 1981-05-29 1982-05-28 System for composing a voice through compilation of phoneme components Ceased DE3220281A1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8264581A JPS6017120B2 (en) 1981-05-29 1981-05-29 Phoneme piece-based speech synthesis method

Publications (1)

Publication Number Publication Date
DE3220281A1 true DE3220281A1 (en) 1982-12-23

Family

ID=13780159

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19823220281 Ceased DE3220281A1 (en) 1981-05-29 1982-05-28 System for composing a voice through compilation of phoneme components

Country Status (2)

Country Link
JP (1) JPS6017120B2 (en)
DE (1) DE3220281A1 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0114123A1 (en) * 1983-01-18 1984-07-25 Matsushita Electric Industrial Co., Ltd. Wave generating apparatus
EP0144731A2 (en) * 1983-11-01 1985-06-19 Nec Corporation Speech synthesizer
EP0181339A1 (en) * 1984-04-10 1986-05-21 First Byte Real-time text-to-speech conversion system
WO1998000835A1 (en) * 1996-07-03 1998-01-08 Telia Ab (Publ) A method for synthesising voiceless consonants

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59104699A (en) * 1982-12-08 1984-06-16 沖電気工業株式会社 Voice synthsizer
AU597573B2 (en) * 1985-03-18 1990-06-07 Massachusetts Institute Of Technology Acoustic waveform processing
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1472004A1 (en) * 1964-06-09 1969-10-09 Ibm Method and arrangement for processing stored speech signals
DE2650101A1 (en) * 1976-10-30 1978-05-11 Deutsche Bundespost Speech synthesiser using formant vocoder principle - has digital store generating sinusoidal waveform with positive and negative correction facility

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1472004A1 (en) * 1964-06-09 1969-10-09 Ibm Method and arrangement for processing stored speech signals
DE2650101A1 (en) * 1976-10-30 1978-05-11 Deutsche Bundespost Speech synthesiser using formant vocoder principle - has digital store generating sinusoidal waveform with positive and negative correction facility

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0114123A1 (en) * 1983-01-18 1984-07-25 Matsushita Electric Industrial Co., Ltd. Wave generating apparatus
EP0144731A2 (en) * 1983-11-01 1985-06-19 Nec Corporation Speech synthesizer
EP0144731A3 (en) * 1983-11-01 1985-07-03 Nec Corporation Speech synthesizer
EP0181339A1 (en) * 1984-04-10 1986-05-21 First Byte Real-time text-to-speech conversion system
EP0181339A4 (en) * 1984-04-10 1986-12-08 First Byte Real-time text-to-speech conversion system.
WO1998000835A1 (en) * 1996-07-03 1998-01-08 Telia Ab (Publ) A method for synthesising voiceless consonants
US6112178A (en) * 1996-07-03 2000-08-29 Telia Ab Method for synthesizing voiceless consonants

Also Published As

Publication number Publication date
JPS57197600A (en) 1982-12-03
JPS6017120B2 (en) 1985-05-01

Similar Documents

Publication Publication Date Title
DE3036680C2 (en) Speech synthesizer with stretchable and compressible speech time
DE2404431C3 (en) Electronic musical instrument
DE3003385C2 (en) Envelope circuit for an electronic musical instrument
EP1979899B1 (en) Method and arrangements for encoding audio signals
DE69720861T2 (en) Methods of sound synthesis
DE2431161A1 (en) ELECTRONIC MUSICAL INSTRUMENT
DE3012771C2 (en)
DE2809316A1 (en) DIGITAL FREQUENCY ANALYZER
DE2163053A1 (en) SWITCHING ARRANGEMENT OF THE WATER SOUND DETECTOR TECHNOLOGY FOR THE PROCESSING OF TEMPORARY GROUP SIGNALS
DE102019119776B4 (en) TIME-INTERCLOSED DIGITAL TO ANALOG CONVERTER CORRECTION
DE2622423B2 (en) Electrical arrangement for the transmission or storage of a speech or sound signal in coded form
DE2530380A1 (en) VOICE SYNTHETIZER SYSTEM
DE3220281A1 (en) System for composing a voice through compilation of phoneme components
DE3711342A1 (en) METHOD FOR RECOGNIZING CONTINUOUSLY SPOKEN WORDS
DE2513127C2 (en) Method for artificially generating a musical sound
DE3226619A1 (en) MODULATION EFFECT DEVICE
DE3037276C2 (en) Sound synthesizer
DE3246712C2 (en)
DE3101590C2 (en) Arrangement for generating a speech signal
DE602004000656T2 (en) Method and apparatus for generating speech from a text
DE1912674C3 (en) Digital filter
EP0803861A2 (en) Method for extracting characteristic features from a speech signal
DE3335026C2 (en)
DE2657430A1 (en) DEVICE FOR SYNTHETIZING HUMAN LANGUAGE
DE3732047C2 (en)

Legal Events

Date Code Title Description
8110 Request for examination paragraph 44
8131 Rejection