DE3220281A1 - System for composing a voice through compilation of phoneme components - Google Patents
System for composing a voice through compilation of phoneme componentsInfo
- Publication number
- DE3220281A1 DE3220281A1 DE19823220281 DE3220281A DE3220281A1 DE 3220281 A1 DE3220281 A1 DE 3220281A1 DE 19823220281 DE19823220281 DE 19823220281 DE 3220281 A DE3220281 A DE 3220281A DE 3220281 A1 DE3220281 A1 DE 3220281A1
- Authority
- DE
- Germany
- Prior art keywords
- phoneme
- pieces
- voice
- interpolation
- phoneme piece
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 238000012935 Averaging Methods 0.000 claims 1
- 239000002131 composite material Substances 0.000 abstract description 3
- 230000007704 transition Effects 0.000 abstract description 3
- 238000009499 grossing Methods 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 5
- 239000000203 mixture Substances 0.000 description 2
- 230000018199 S phase Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000005352 clarification Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Electrophonic Musical Instruments (AREA)
- Image Processing (AREA)
Abstract
Description
System zum Zusammensetzen einer Stimme durchSystem for composing a voice through
Kompilation von Phonemstücken Die Erfindung betrifft ein System zum Zusammensetzen einer Stimme durch Kompilation von Phonemstücken, welches mit einem Mikrocomputer und einem Digital/ Analog-Umsetzer arbeitet und eine glatte Interpolation der Amplitude der ausgegebenen Stimme und/oder der Tonhöhenperiode und der Formantenfrequenz durchführt.Compilation of Phoneme Pieces The invention relates to a system for Composing a voice by compiling phoneme pieces, which with a Microcomputer and a digital / analog converter works and a smooth interpolation the amplitude of the output voice and / or the pitch period and the formant frequency performs.
Bei den herkömmlichen Systemen zur Zusammensetzung von Stimmen durch Phonemstück-Kompilation sind als wesentliche Komponenten ein Mikrocomputer, ein ROM-Speicher und ein Digital/Analog-Umsetzer sowie eine Vokalstimmeneinheit vorgesehen, mit denen jeweils bestimmte Phonemstückdaten mehrere Male hintereinander wiederholt und verarbeitet werden. Die Phonemstückdaten enthalten in den ROM eingeschriebene Tonhöhen-Einheiten einer Stimme. Ein Wort entsteht dadurch, daß die vokalen Klangeinheiten in bestimmter Folge nacheinander erzeugt und miteinander verbunden werden. Dies ist in Fig. 1 dargestellt. Gemäß Fig. 1 besteht die Phonemstückgruppe 1 aus einem zweimal wiederholten Phonemstück Ph die Phonemstückgruppe 2 aus einem viermal wiederholten Phonemstück Ph2 und die Phonemstückgruppe 3 aus einem zweimal wiederholten Phonemstück Ph3.In the conventional systems for composing votes through Phoneme piece compilation are as essential components a microcomputer, a ROM memory and a digital / analog converter as well as a vocal part unit are provided, with each of which certain phoneme piece data is repeated several times in succession and processed. The phoneme piece data includes those written in the ROM Units of pitch of a voice. A word arises from the fact that the vocal sound units are generated one after the other in a certain sequence and connected to one another. this is shown in FIG. According to Fig. 1, the phoneme piece group 1 consists of one Phoneme piece Ph repeated twice the phoneme piece group 2 from one repeated four times Phoneme piece Ph2 and the phoneme piece group 3 from a repeated twice Phoneme piece Ph3.
Da in diesem Fall die Amplitude, die Tonhöhenperiode usw.In this case, since the amplitude, pitch period, etc.
der zusammengesetzten Stimme durch die aus einem ROM-Speicher ausgelesenen Phonemstückdaten bestimmt werden, verändern sich die Amplitude, die Tonhöhe und die Formantenfrequenz des zusammengesetzten Klanges an den Grenzen der oben erläuterten vokalen Klangeinheiten abrupt. Dies ist in Fig. 2 dargestellt. Die Details des in Fig. 2 mit einem Kreis umrandeten Bereichs sind in den Fig. 3 und 4 abgebildet. Gemäß Fig. 3 stellen F11 bis F31 jeweils Formantenfrequenzen der Phonemstückgruppe 1 dar und F12 bis F32 und F13 bis F33 bilden die jeweiligen Formantenfrequenzen der Phonemstückgruppen 2 und 3. Man erkennt, daß jede dieser Formantenfrequenzen an der Übergangsstelle zwischen den Phonemstückgruppen einen Sprung hat. Fig. 4 zeigt die höheren Harmonischen P-ter Ordnung in der Form Af11 bis Af31, Af12 bis Af32 und Af1 3 bis Af33. Infolge der diskontinuierlichen Verläufe der Amplitude, der Tonhöhe und der Formantenfrequenz wird bei dem konventionellen System zur Zusammensetzung von Phonemstücken periodisch Rauschen erzeugt und es entsteht keine natürliche Stimmenfolge, wie dies bei anderen bekannten Systemen, z.B. dem Stimmenzusammensetzungssystem PARCOR der Fall ist.the composite voice by reading from a ROM memory Phoneme piece data are determined, the amplitude, the pitch and change the formant frequency of the composite sound at the limits of those discussed above vocal sound units abruptly. This is shown in FIG. The details of the in Fig. 2 with a circle bordered area are shown in Figs. According to Fig. 3, F11 to F31 represent formant frequencies of the phoneme piece group, respectively 1 and F12 to F32 and F13 to F33 constitute the respective formant frequencies of phoneme piece groups 2 and 3. It can be seen that each of these formant frequencies has a jump at the transition point between the phoneme piece groups. Fig. 4 shows the higher P-th order harmonics in the form Af11 to Af31, Af12 to Af32 and Af1 3 to Af33. Due to the discontinuous course of the amplitude, the pitch and the formant frequency become the composition in the conventional system Periodically noise is generated by phoneme pieces and there is no natural sequence of voices, as is the case with other known systems such as the voice composition system PARCOR is the case.
Andererseits könnte man zur Vermeidung der geschilderten Nachteile die Amplitude eines auszugebenden Phonemstückes mittels arithmetischer und logischer Operationen gegenüber dem in dem ROM gespeicherten Phonemstück verändern, jedoch würde dies die Durchführung schwieriger arithmetischer Funktionen in einem Mikroprozessor erfordern. Ein solches System wäre für einen Stimmenerzeuger, der mit niedrigen Kosten hergestellt werden soll, nicht geeignet.On the other hand, one could avoid the disadvantages described the amplitude of a phoneme piece to be output by means of arithmetic and logical Operations versus that stored in the ROM Change phoneme piece, however, this would be performing difficult arithmetic functions all in one Require microprocessor. Such a system would be for a voice generator who to be manufactured at a low cost is not suitable.
Der Erfindung liegt die Aufgabe zugrunde, die oben geschilderten Nachteile und Schwierigkeiten zu beseitigen und ein System der eingangs genannten Art zu schaffen, das bei relativ geringer Beanspruchung eines Mikroprozessors die abrupten Änderungen an den Übergangsstellen der vokalen Klangeinheiten glättet.The invention is based on the disadvantages outlined above and to eliminate difficulties and to create a system of the type mentioned above, that with relatively little stress on a microprocessor, the abrupt changes smooths at the transition points of the vocal sound units.
Bei dem erfindungsgemäßen System können die Daten eines jeden Phonemstückes durch Interpolation leicht in der Weise verarbeitet werden, daß sich die Amplitude, die Tonhöhe und die Formantenfrequenz von einer vokalen Klangeinheit zur nächsten kontinuierlich verändern, wobei die Interpolation auf einfache Weise durchgeführt wird.In the system according to the invention, the data of each phoneme piece can easily be processed by interpolation in such a way that the amplitude, the pitch and formant frequency from one vocal sound unit to the next continuously change, the interpolation being carried out in a simple manner will.
Im folgenden wird unter Bezugnahme auf die Zeichnungen zunächst ein System nach dem Stand der Technik unci anschließend ein Ausführungsbeispiel der Erfindung näher erläutert: Es zeigen: Fig. 1 einen Teil der synthetisierten Wellenform, die sich bei der Aneinanderreihung von Phonemstücken nach dem Stand der Technik ergibt, Fig. 2 eine dreidimensionale Darstellung des Spektrums einer Stimme, Fig. 3 ein Diagramm zur Verdeutlichung der Änderungen der Formantenfrequenz, Fig. 4 ein Diagramm zur Verdeutlichung der Amplitudenänderungen bei derselben Frequenz bei dem bekannten System, Fig. 5 ein Diagramm zur Verdeutlichung der Amplituden-Interpolation bei derselben Tonhöhe bei einem System zur Zusammensetzung einer Stimme durch Aneinanderreihung von Phonemstücken nach der Erfindung, Fig. 6 eine Wellenform zur Verdeutlichung des Zustands der Zusammenreihung von Phonemstücken nach dem Prinzip der Interpolation mit derselben Tonhöhen-Periode, Fig. 7 ein Diagramm der Wellenform eines Phonemstückes nach dem Prinzip derselben Tonhöhen-Periode, Fig. 8 ein Diagramm der Wellenform eines neuen Phonemstückes, das aus Ph2/1i entstanden ist, Fig. 9 ein charakteristisches Diagramm der Interpolation von Phonemstücken mit unterschiedlichen Tonhöhen-Perioden und Fig. 10 ein Flußdiagramm einer Ausfuhrungsform der Erfindung.In the following, with reference to the drawings, a Prior art system and then an embodiment of FIG The invention is explained in more detail: FIG. 1 shows a part of the synthesized waveform, which arise in the stringing together of phoneme pieces according to the prior art results, 2 shows a three-dimensional representation of the spectrum of a Voice, Fig. 3 is a diagram to illustrate the changes in the formant frequency, 4 shows a diagram to illustrate the changes in amplitude at the same frequency in the known system, FIG. 5 is a diagram to illustrate the amplitude interpolation at the same pitch in a system for composing a voice by stringing of phoneme pieces according to the invention, Fig. 6 shows a waveform for clarification the state of the arrangement of phoneme pieces according to the principle of interpolation having the same pitch period, Fig. 7 is a diagram showing the waveform of a phoneme piece on the principle of the same pitch period, Fig. 8 is a waveform diagram of a new phoneme piece which arose from Ph2 / 1i, Fig. 9 a characteristic Diagram of the interpolation of phoneme pieces with different pitch periods and Fig. 10 is a flow chart of an embodiment of the invention.
Das nachstehend beschriebene Ausführungsbeispiel beschränkt sich aus Gründen der Kürze der Darstellung auf die Beschreibung eines Systems, bei dem ein Phonemstück durch die Summe von Sinuswellen ausgedrückt werden kann, die eindeutig bestimmte (definite) Phasen haben.The exemplary embodiment described below is limited For the sake of brevity, the description of a system in which a Phoneme piece can be expressed by the sum of sine waves that are unique have certain (definite) phases.
Zunächst wird das Helmholtz'sche Phasengesetz ("Das menschliche Ohr ist unempfindlich gegenüber Phasen lagen, soweit es sich um Musik handelt") auf eine Stimme angewandt. Die Phase eines Frequenzanteils eines jeden Phonemstückes wird variiert und die Phonemstücke werden durch Sinuswellen ersetzt, die mit 0° oder 180° beginnen.First of all, Helmholtz's phase law ("The human ear is insensitive to phases as far as music is concerned ") a voice applied. The phase of a frequency component of each phoneme piece is varied and the phoneme pieces are replaced by sine waves starting with 0 ° or start 180 °.
Dies wird durch die folgende Gleichung (1) verdeutlicht: worin Ph1 einem Phonemstück 1, w1 die Grund-Winkelfrequenz des Phonemstückes 1, i die höhere Harmonische der Ordnung i der Grund-Winkelfrequenz (Tonhöhen-Periode) und A1i die Amplitude der Harmonischen i-ter Ordnung representieren.This is illustrated by the following equation (1): where Ph1 represents a phoneme piece 1, w1 the fundamental angular frequency of the phoneme piece 1, i the higher harmonic of order i the fundamental angular frequency (pitch period) and A1i the amplitude of the harmonic of the i-th order.
Jedes Phonemstück kann, wenn es entsprechend Gleichung (1) substituiert wird, wie folgt ausgedrückt werden: worin der Index "n" das Phonemstück n bezeichnet.Each phoneme piece, when substituted according to equation (1), can be expressed as follows: where the subscript "n" denotes the phoneme piece n.
Die Differenz zwischen benachbarten Phonemstücken Phn und Phn-1 kann durch die folgende Gleichung (3) ausgedrückt werden: Zur Entwicklung der Gleichung werden die Amplitude und die Grund-Winkelfrequenz zwischen den beiden Phonemstücken jeweils durch die folgenden Gleichungen ausgedrückt: Ani = kn1i.An1i (4) #n = ln-1 . #n-1, (5) worin Kn-1i das Verhältnis der höheren Harmonischen i - ten Grades und ln-1 das Verhältnis der Grund-Winkelfrequenz darstellt, Sezt man Gleichungen (4) und (5) in Gleichung (3) ein, so ergibt sich die folgende Gleichung (6): I. Wenn in Gleichung (6) ln-1 = 1 ist (d.h., wenn die Grund-Winkelfrequenzen der beiden Phonemstücke einander gleich sind) ergibt sich folgendes: Gleichung (6) kann wie folgt ausgedrückt werden: Unter Benutzung von Gleichung (7) kann man ein neues Phonemstück Phn/n~1 erhalten, das durch die folgende Gleichung (8) ausgedrückt wird: Phn-Phn-1 (8) Phn/n-1=Phn-1 + 2 Wenn Gleichung (7) in Gleichung (8) eingesetzt wird, ergibt sich Gleichung (9) gibt den Mittelwert der Amplituden höherer Harmonischenanteile der jeweiligen Phonemstücke Phn und Phn 1 an. Die Amplitudenänderung des neuen Phonemstückes Phn/n 1 ist passend zu Fig. 4 in Fig. 5 dargestellt.The difference between adjacent phoneme pieces Phn and Phn-1 can be expressed by the following equation (3): To develop the equation, the amplitude and the fundamental angular frequency between the two phoneme pieces are each expressed by the following equations: Ani = kn1i.An1i (4) #n = In-1. # n-1, (5) where Kn-1i is the ratio of the higher harmonics of the i - th degree and In-1 is the ratio of the fundamental angular frequency, inserting equations (4) and (5) into equation (3), the following equation (6) results: I. If ln-1 = 1 in equation (6) (that is, if the fundamental angular frequencies of the two phoneme pieces are equal to each other) the following results: Equation (6) can be expressed as follows: Using equation (7), one can obtain a new phoneme piece Phn / n ~ 1, which is expressed by the following equation (8): Phn-Phn-1 (8) Phn / n-1 = Phn-1 + 2 if Equation (7) is substituted into equation (8), results Equation (9) gives the mean value of the amplitudes of higher harmonic components of the respective phoneme pieces Phn and Phn 1. The change in amplitude of the new phoneme piece Phn / n 1 is shown in FIG. 5 in accordance with FIG. 4.
Bei dem neuen Phonemstück Ph2/1 in Fig. 5 handelt es sich um ein Phonemstück, das zwischen den Phonemstücken Ph2 und Ph1 interpoliert ist und man erkennt leicht, daß das neue Phonemstück, das dieselbe Grund-Winkelfrequenz hat, aus einer Amplituden-Interpolation der höheren Harmonischen dieser Phonemstücke besteht. Die Änderung der Wellenform des Phonemstückes, die hierbei entsteht, ist in Fig. 6 dargestellt.The new phoneme piece Ph2 / 1 in Fig. 5 is a phoneme piece, which is interpolated between the phoneme pieces Ph2 and Ph1 and one can easily see that the new phoneme piece, which has the same fundamental angular frequency, comes from an amplitude interpolation of the higher harmonics of these phoneme pieces. The change in waveform of the phoneme piece that arises here is shown in FIG.
Fig. 7 zeigt die Wellenform, die man durch Abtasten der Phonemstücke Ph1 und Ph2 derselben Grund-Winkelfrequenz, wie in Fig. 6, für dieselbe Abtastdatenzeit, d.h. T1 (s) erhält.Fig. 7 shows the waveform obtained by scanning the phoneme pieces Ph1 and Ph2 of the same fundamental angular frequency as in Fig. 6 for the same sampling data time, i.e. get T1 (s).
Die Zeit t beim j - ten Abtastvorgang kann durch die folgende Gleichung ausgedrückt werden: t = jT1 (sec) (10) und daher können die abgetasteten Werte der jeweiligen Phonemstücke Ph1 und Ph durch die folgenden 2 Gleichungen ausgedrückt werden: j = 1, 2, 3, .The time t at the j-th sampling can be expressed by the following equation: t = jT1 (sec) (10) and therefore the sampled values of the respective phoneme pieces Ph1 and Ph can be expressed by the following 2 equations: j = 1, 2, 3,.
Die Abtastzeit T1 (s) kann durch die folgende Gleichung (13) ausgedrückt werden: T1 (13) T1 N , worin T1 diejenige Periodendauer representiert, die der Grund-Winkelfrequenz der Phonemstücke Ph1 und Phz entspricht, und worin N die Anzahl der Abtastvorgänge innerhalb einer Periode der Phonemstücke Ph und Ph2 darstellt.The sampling time T1 (s) can be expressed by the following equation (13) become: T1 (13) T1 N, where T1 represents the period which is the fundamental angular frequency of phoneme pieces Ph1 and Phz, and where N is the number of times of sampling represents Ph and Ph2 within a period of the phoneme pieces.
Die Gleichungen (11) und (12) können unter Benutzung von Gleichung (13) wie folgt umgeschrieben werden: Die Differenz zwischen den Phonemstücken Ph1j und Ph2j erhält man aus den Gleichungen (14) und (15) wie folgt: Der beim j - ten Abtastvorgang des neuen Phonemstückes abgetastete Wert Ph2/1j ergibt sich unter Benutzung von Gleichung 16 wie folgt: Das aus Gleichung (9) erhaltene neue Phonemstück wird abgetastet. Wenn die Abtastzeit Tn 1(s) beträgt, erhält man die folgende Gleichung (18): Tn-1 Tn-1 = N , (18) worin Tn-1 die Zeit der Grund-Winkelfrequenz des Phonemstückes Ph und N die Zahl der Abtastvorgänge in derjenigen Zeit darstellt, in der eine Periode des Phonemstückes Phn/n,l für T (s) abgetastet wird.Equations (11) and (12) can be rewritten using equation (13) as follows: The difference between the phoneme pieces Ph1j and Ph2j is obtained from equations (14) and (15) as follows: The value Ph2 / 1j sampled during the jth sampling process of the new phoneme piece is obtained using equation 16 as follows: The new phoneme piece obtained from equation (9) is scanned. When the sampling time Tn is 1 (s), the following equation (18) is obtained: Tn-1 Tn-1 = N, (18) where Tn-1 is the time of the fundamental angular frequency of the phoneme piece Ph and N is the number of times of sampling represents that time in which a period of the phoneme piece Phn / n, l is sampled for T (s).
Der j - te abgetaste Wert Ph j kann unter Ben/n-1 nutzung von Gleichung (18) wie folgt ausgedrückt werden: Demnach wird Gleichung (17) gleich Gleichung (19).The j th sampled value Ph j can be expressed as follows using equation (18): Hence, equation (17) becomes the same as equation (19).
Aus diesem Grunde ist leicht erkennbar, daß das neue Phonemstück {Ph2/1j j=1, 2 ... ..., N} das aus dem Mittelwert (Durchschnittswert) zwischen dem j - ten abgetasteten Wert Ph1j und Ph2j der Phonemstücke besteht,ein Phonemstück bildet, dessen Amplitude dem Mittelwert der Amplituden der Frequenzanteile der Phonemstücke Ph1 und Ph2 entspricht.For this reason it is easy to see that the new phoneme piece {Ph2 / 1j j = 1, 2 ... ..., N} that of the mean (average) between the jth sampled value Ph1j and Ph2j of the phoneme pieces, forms a phoneme piece, whose amplitude corresponds to the mean value of the amplitudes of the frequency components of the phoneme pieces Ph1 and Ph2 corresponds.
Dieses neue Phonemstück (Ph2/17 j = 1, 2 ... ..., , ist in Fig. 8 dargestellt. Mit anderen Worten: Wenn zwischen den zwei Phonemstücken mit derselben Grund-Winkelfrequenz eine Interpolation ausgeführt werden soll, werden die Phonemstücke für dieselbe Abtastzeit von T (s) abgetastet. Dies bedeutet, daß die Abtastung N-mal erfolgt, wobei (20) T ist.This new phoneme piece (Ph2 / 17 j = 1, 2 ... ...,, is in Fig. 8 shown. In other words, if between the two phoneme pieces with the same Basic angular frequency an interpolation is to be performed, the phoneme pieces sampled for the same sampling time of T (s). This means that the sampling is N times occurs, where (20) is T.
Durch aufeinanderfolgende Berechnung der j - ten Abtastwerte der abgetasteten beiden Phonemstücke zur Ermittlung eines Mittel- oder Durchschnittswertes erfolgt eine Amplituden-Interpolation der höheren Harmonischenanteile.By successively calculating the j-th sample values of the sampled two phoneme pieces to determine a mean or average value takes place an amplitude interpolation of the higher harmonic components.
II. Wenn Qn 1 f 1 ist (d.h. wenn die Grund-Winkelfrequenzen der beiden Phonemstücke voneinander unterschiedlich sind) gilt folgendes: Es sei angenommen, daß die Grund-Periodendauer des Phonems Ph1 den Wert T1 (s) hat, und daß die Grund-Periodendauer des Phonemstücks Ph2den Wert T2(s) hat.II. If Qn 1 f 1 (i.e. if the fundamental angular frequencies of the two Phoneme pieces are different from each other) the following applies: It it is assumed that the basic period of the phoneme Ph1 has the value T1 (s), and that the basic period of the phoneme piece Ph2 has the value T2 (s).
Dann gilt die folgende Beziehung: T2 T1 Q1 . (21) Diese Phonemstücke Ph1 und Ph2 werden gleich oft, nämlich N mal abgetastet. Mit anderen Worten: Die Abtastzeit ist nicht so fest, wie im Stand der Technik, sie ist jedoch für ein Phonemstück fest.Then the following relationship applies: T2 T1 Q1. (21) These phoneme pieces Ph1 and Ph2 are scanned the same number of times, namely N times. In other words: the Sampling time is not as fixed as in the prior art, but it is for one phoneme piece fixed.
Die j - ten Abtastwerte der Phonemstücke Ph1 und Ph2 werden jeweils wie folgt ausgedrückt: worin T1 die Abtastzeit des Phonemstückes Ph1 bedeutet, die ausgedrückt wird durch T1 T1 = N (@@) (24) und worin T2 die Abtastzeit des Phonemstückes Ph2 darstellt, die ausgedrückt wird durch T2 T2 = N (@) Hieraus erkennt man, daß die Abtastzeiten T1 und T2 die folgende Beziehung haben: T2 = l1 . t1. (26) Setzt man die Gleichungen (24) und (25) in die Gleichungen (22) und (23) ein, so erhält man die beiden folgenden Gleichungen: Da die Gleichungen (27) und (28) gleich den Gleichungen (11) und (12) sind, ist das neue Phonemstück {Ph2/1j}, das durch den Mittelwert der j - ten Abtastwerte der Phonemstücke representiert wird, dasjenige Phonemstück, bei dem die Amplituden-Interpolation zwischen den Phonemstücken Ph1 und Ph2 ausgeführt worden ist.The j th sample values of the phoneme pieces Ph1 and Ph2 are expressed as follows: where T1 represents the sampling time of the phoneme piece Ph1, which is expressed by T1 T1 = N (@@) (24) and where T2 represents the sampling time of the phoneme piece Ph2, which is expressed by T2 T2 = N (@) the sampling times T1 and T2 have the following relationship: T2 = l1. t1. (26) Inserting equations (24) and (25) into equations (22) and (23), one obtains the following two equations: Since equations (27) and (28) are the same as equations (11) and (12), the new phoneme piece {Ph2 / 1j}, which is represented by the mean of the j-th samples of the phoneme pieces, is the phoneme piece at on which the amplitude interpolation has been carried out between the phoneme pieces Ph1 and Ph2.
Mit anderen Worten: Die Berechnung der j - ten Abtastwerte der Phonemstücke zur Erzielung des Mittelwertes ist nichts anderes als daß die Grund-Winkel- frequenzen der Phonemstücke Ph1 und Ph2 hypothetisch einander gleich gemacht würden.In other words: the computation of the jth sample values of the phoneme pieces to achieve the mean value is nothing other than that the basic angle frequencies the phoneme pieces Ph1 and Ph2 would hypothetically be made equal to each other.
Die Abtastzeit des neuen Phonemstückes wird dann durch die folgende Gleichung ausgedrückt: 2 + (ß1+1) T2/1 2 - 2 T1 (29) Gleichung (29) verdeutlicht die Frequenz-Interpolation zwischen den Phonemstücken Ph1 und Ph2.The sampling time of the new phoneme piece is then given by the following Expressed in the equation: 2 + (β1 + 1) T2 / 1 2 - 2 T1 (29) Equation (29) clarifies the frequency interpolation between the phoneme pieces Ph1 and Ph2.
Die Interpolation zwischen den Phonemstücken unterschiedlicher Tonhöhen-Perioden ist in Fig. 9 dargestellt.The interpolation between the phoneme pieces of different pitch periods is shown in FIG.
Diese Interpolation zwischen den Phonemstücken unterschiedlicher Tonhöhen-Perioden wird zu einer Amplituden-Interpolation der höheren Harmonischen der jeweiligen Phonemstücke gemacht, wie aus Gleichung (17) hervorgeht, wobei zur Standardisierung bzw. der gegenseitigen Angleichung der Grund-Winkelfrequenzen bei beiden Phonemstücken die Abtastung N mal erfolgt. Durch die Standardisierung geht jedoch Information der Grund-Winkelfrequenzen verloren, und aus diesem Grunde ermittelt man die Information der Grund-Winkelfrequenzen der interpolierten Phonemstücke durch Bestimmung des Mittelwertes der Grundfrequenzen der neuen Phonemstücke nach Gleichung (29).This interpolation between the phoneme pieces of different pitch periods becomes an amplitude interpolation of the higher harmonics of the respective phoneme pieces made, as can be seen from equation (17), where for standardization or the mutual adjustment of the fundamental angular frequencies in both phoneme pieces Sampling takes place N times. However, through the standardization, information of the Fundamental angular frequencies are lost, and that is why the information is obtained the fundamental angular frequencies of the interpolated phoneme pieces by determining the Average value of the fundamental frequencies of the new phoneme pieces according to equation (29).
Obwohl bei dem oben geschilderten Ausführungsbeispiel die Daten der interpolierten Phonemstücke, die zwischen beiden Phonemstücken eingeschoben werden,und die Abtastfrequenzen durch lineare Interpolation ermittelt worden sind, können im Rahmen der Erfindung auch nichtlineare Interpolationsrechnungen ausgeführt werden, um die Zwischen-Phonemstücke zu erhalten.Although in the embodiment described above, the data of the interpolated phoneme pieces that are inserted between the two phoneme pieces, and the sampling frequencies have been determined by linear interpolation can be im Within the scope of the invention, non-linear interpolation calculations are also carried out, to get the intermediate phoneme pieces.
Die Interpolation der Amplituden, Tonhöhen-Perioden und Formantenfrequenzen der benachbarten Phonemstücke Phn und Ph kann durchgeführt werden, indem die beiden Phonemstücke mit derselben Häufigkeit von N mal abgetastet werden, anschließend ein Interpolationswert aus den gleich-nummerierten Abtastwerten dieser beiden Phonemstücke bestimmt wird, und schließlich die Ausgabe mit einer Abtastfrequenz erfolgt, die durch Interpolation der Interpolationswerte unter Zugrundelegung der Abtastfrequenzen dieser beiden Phonemstücke bestimmt wird.The interpolation of the amplitudes, pitch periods and formant frequencies The neighboring phoneme pieces Phn and Ph can be done by removing the two Phoneme pieces are sampled with the same frequency of N times, subsequently an interpolation value from the equally numbered samples of these two phoneme pieces is determined, and finally the output takes place with a sampling frequency that by interpolating the interpolation values based on the sampling frequencies of these two phoneme pieces is determined.
Obwohl die Erfindung in Verbindung mit dem Phonemstück beschrieben wurde, das durch die Summe von Sinuswellen mit bestimmter Phase ausgedrückt werden kann, ist sie auch bei normalen Stimmenstücken in gleicher Weise anwendbar, da davon ausgegangen werden kann, daß bei der normalen Stimme eine Phasenkontinuität benachbarter Klangsignale vorhanden ist.Although the invention is described in connection with the phoneme piece that are expressed by the sum of sine waves with a certain phase can, it can also be used in the same way for normal parts because of it It can be assumed that in the normal voice there is a phase continuity between neighboring ones Sound signals are present.
Das Flußdiagramm zur Durchführung dieserStimmensynthese mit einem Mikroprozessor ist in Fig. 10 dargestellt.The flow chart for performing this voice synthesis with a The microprocessor is shown in FIG.
Mit der Erfindung ist es möglich, eine synthetisierte Stimme zu erhalten, die einer natürlichen Stimme besser angepaßt ist,wobei Störungen oder Fremdgeräusche durch die Interpolationsphoneme vermieden werden.With the invention it is possible to get a synthesized voice, which is better adapted to a natural voice, with interference or extraneous noises can be avoided by the interpolation phonemes.
LeerseiteBlank page
Claims (4)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP8264581A JPS6017120B2 (en) | 1981-05-29 | 1981-05-29 | Phoneme piece-based speech synthesis method |
Publications (1)
Publication Number | Publication Date |
---|---|
DE3220281A1 true DE3220281A1 (en) | 1982-12-23 |
Family
ID=13780159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19823220281 Ceased DE3220281A1 (en) | 1981-05-29 | 1982-05-28 | System for composing a voice through compilation of phoneme components |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPS6017120B2 (en) |
DE (1) | DE3220281A1 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0114123A1 (en) * | 1983-01-18 | 1984-07-25 | Matsushita Electric Industrial Co., Ltd. | Wave generating apparatus |
EP0144731A2 (en) * | 1983-11-01 | 1985-06-19 | Nec Corporation | Speech synthesizer |
EP0181339A1 (en) * | 1984-04-10 | 1986-05-21 | First Byte | Real-time text-to-speech conversion system |
WO1998000835A1 (en) * | 1996-07-03 | 1998-01-08 | Telia Ab (Publ) | A method for synthesising voiceless consonants |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59104699A (en) * | 1982-12-08 | 1984-06-16 | 沖電気工業株式会社 | Voice synthsizer |
AU597573B2 (en) * | 1985-03-18 | 1990-06-07 | Massachusetts Institute Of Technology | Acoustic waveform processing |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1472004A1 (en) * | 1964-06-09 | 1969-10-09 | Ibm | Method and arrangement for processing stored speech signals |
DE2650101A1 (en) * | 1976-10-30 | 1978-05-11 | Deutsche Bundespost | Speech synthesiser using formant vocoder principle - has digital store generating sinusoidal waveform with positive and negative correction facility |
-
1981
- 1981-05-29 JP JP8264581A patent/JPS6017120B2/en not_active Expired
-
1982
- 1982-05-28 DE DE19823220281 patent/DE3220281A1/en not_active Ceased
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE1472004A1 (en) * | 1964-06-09 | 1969-10-09 | Ibm | Method and arrangement for processing stored speech signals |
DE2650101A1 (en) * | 1976-10-30 | 1978-05-11 | Deutsche Bundespost | Speech synthesiser using formant vocoder principle - has digital store generating sinusoidal waveform with positive and negative correction facility |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0114123A1 (en) * | 1983-01-18 | 1984-07-25 | Matsushita Electric Industrial Co., Ltd. | Wave generating apparatus |
EP0144731A2 (en) * | 1983-11-01 | 1985-06-19 | Nec Corporation | Speech synthesizer |
EP0144731A3 (en) * | 1983-11-01 | 1985-07-03 | Nec Corporation | Speech synthesizer |
EP0181339A1 (en) * | 1984-04-10 | 1986-05-21 | First Byte | Real-time text-to-speech conversion system |
EP0181339A4 (en) * | 1984-04-10 | 1986-12-08 | First Byte | Real-time text-to-speech conversion system. |
WO1998000835A1 (en) * | 1996-07-03 | 1998-01-08 | Telia Ab (Publ) | A method for synthesising voiceless consonants |
US6112178A (en) * | 1996-07-03 | 2000-08-29 | Telia Ab | Method for synthesizing voiceless consonants |
Also Published As
Publication number | Publication date |
---|---|
JPS57197600A (en) | 1982-12-03 |
JPS6017120B2 (en) | 1985-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3036680C2 (en) | Speech synthesizer with stretchable and compressible speech time | |
DE2404431C3 (en) | Electronic musical instrument | |
DE3003385C2 (en) | Envelope circuit for an electronic musical instrument | |
EP1979899B1 (en) | Method and arrangements for encoding audio signals | |
DE69720861T2 (en) | Methods of sound synthesis | |
DE2431161A1 (en) | ELECTRONIC MUSICAL INSTRUMENT | |
DE3012771C2 (en) | ||
DE2809316A1 (en) | DIGITAL FREQUENCY ANALYZER | |
DE2163053A1 (en) | SWITCHING ARRANGEMENT OF THE WATER SOUND DETECTOR TECHNOLOGY FOR THE PROCESSING OF TEMPORARY GROUP SIGNALS | |
DE102019119776B4 (en) | TIME-INTERCLOSED DIGITAL TO ANALOG CONVERTER CORRECTION | |
DE2622423B2 (en) | Electrical arrangement for the transmission or storage of a speech or sound signal in coded form | |
DE2530380A1 (en) | VOICE SYNTHETIZER SYSTEM | |
DE3220281A1 (en) | System for composing a voice through compilation of phoneme components | |
DE3711342A1 (en) | METHOD FOR RECOGNIZING CONTINUOUSLY SPOKEN WORDS | |
DE2513127C2 (en) | Method for artificially generating a musical sound | |
DE3226619A1 (en) | MODULATION EFFECT DEVICE | |
DE3037276C2 (en) | Sound synthesizer | |
DE3246712C2 (en) | ||
DE3101590C2 (en) | Arrangement for generating a speech signal | |
DE602004000656T2 (en) | Method and apparatus for generating speech from a text | |
DE1912674C3 (en) | Digital filter | |
EP0803861A2 (en) | Method for extracting characteristic features from a speech signal | |
DE3335026C2 (en) | ||
DE2657430A1 (en) | DEVICE FOR SYNTHETIZING HUMAN LANGUAGE | |
DE3732047C2 (en) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8110 | Request for examination paragraph 44 | ||
8131 | Rejection |