DE2524497A1 - Phasenvocoder-sprachsynthesesystem - Google Patents
Phasenvocoder-sprachsynthesesystemInfo
- Publication number
- DE2524497A1 DE2524497A1 DE19752524497 DE2524497A DE2524497A1 DE 2524497 A1 DE2524497 A1 DE 2524497A1 DE 19752524497 DE19752524497 DE 19752524497 DE 2524497 A DE2524497 A DE 2524497A DE 2524497 A1 DE2524497 A1 DE 2524497A1
- Authority
- DE
- Germany
- Prior art keywords
- signals
- parameters
- pitch
- signal
- phase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000015572 biosynthetic process Effects 0.000 title abstract description 11
- 238000003786 synthesis reaction Methods 0.000 title abstract description 11
- 238000001228 spectrum Methods 0.000 claims abstract description 19
- 238000000034 method Methods 0.000 claims abstract description 16
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 7
- 230000004044 response Effects 0.000 claims abstract description 4
- 238000009795 derivation Methods 0.000 claims 5
- 230000006870 function Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract 1
- 239000013598 vector Substances 0.000 description 32
- 230000005540 biological transmission Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- CNQCVBJFEGMYDW-UHFFFAOYSA-N lawrencium atom Chemical compound [Lr] CNQCVBJFEGMYDW-UHFFFAOYSA-N 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282994 Cervidae Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000009194 climbing Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Electrophonic Musical Instruments (AREA)
- Error Detection And Correction (AREA)
Description
BLUMBACH . WESER · BERGEN · KRAMER ZWIRNER... HIRSCH
PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN £ O A 4 4 9 /
Postadresse München: Patentconsult 8 München 60 Radeckestraße 43 Telefon (089) 883603/683604 Telex 05-212313
Postadresse Wiesbaden: Patentconsult 62 Wiesbaden Sonnenberger Straße 43 Telefon (06121) 562943/561998 Telex 04-186237
WESTERN ELECTRIC COMPANY, Flanagan, J.L.
INCORPORATED
195 Broadway, New York,
New York 10007, U.S.A.
195 Broadway, New York,
New York 10007, U.S.A.
Phasenvocoder-Sprachsynthesesystem
Die Erfindung betrifft ein Verfahren zum Synthetisieren einer natürlich klingenden Sprachnachricht aus gespeicherten,
ein VokabjLar von Wörtern darstellenden Signalen mit den Verfahrensschritten: Gewinnen und Verknüpfen gewählter
Teile der Signale, Abändern der verknüpften Signale und Umwandeln der abgeänderten Signale in hörbare
Sprache, sowie eine Vorrichtung zum Synthetisieren einer natürlich klingenden Sprachnachricht.
In der US-Patentschrift 3»360,610 wird die Verwendung von
Phasenvocoder-Verfahren auf dem Gebiet der Sprachübertragung und Bandbreitenverringerung offenbart. Es wird eine Übertragungsanordnung
beschrieben, bei der zu übertragende Sprachsignale zu einer Vielzahl von schmalbandigen Komponenten
509851/Π791
codiert werden, deren kombinierte Bandbreite kleiner als die der nichtcodierten Sprache ist. Kurz zusammengefaßt
wird eine Phasenvocoder-Codierung durchgeführt, in dem für jede von einer Gruppe von vorbestimmten Frequenzen u}.,
die den Frequenzbereich eines ankommenden Sprachsignals erfassen, ein Paar von Signalen errechnet wird, die den
Realteil bzw. den Imaginärteil der Kurzzeit-Fourier-Transformation
des ursprünglichen Sprachsignals darstellen. Aus jedem solchen Signalpaar wird ein Paar von Schmalbandsignalen erzeugt. Das eine Signal JS. I stellt die Größe der
Kurzzeit-Fourier-Transformation dar,una das andere Signal
φ. die zeitliche Ableitung des Phasenwinkels der Kurzzeit-Fourier-Transformation.
Bei der oben erläuterten Anordnung werden diese Schmal-bandsignale zu einem Empfänger übertragen,
in welchem ein Abbild des ursprünglichen Signals wiederhergestellt wird, indem eine Vielzahl von Kosinus-Signalen
erzeugt wird, die die gleichen vorbestimmten Frequenzen besitzen,'bei denen die Kurzzeit-Fourier-Transformation
ausgewertet worden ist.Jedes Kosinus-Signal wird dann bezüglich seiner Amplitude und seines Phasenwinkels durch
die Schmalband-Signalpaare moduliert, und die modulierten Signale werden zur Erzeugung des gewünschten Abbildes summiert
In einem Aufsatz "Digitalized Phase Vocoder", veröffentlicht
in Proceedings of the 1967 Conference on Speech Communication
and Processing, Seiten 292 bis 29b beschreibt J.P. Carlson
509851/0791
die Digitalisierung der Schmalbandsignale I S-I und φ.
vor der Übertragung und gibt an, daß bei einer Übertragungsgeschwindigkeit
von beispielsweise 9600 Mt/Sekunde die Verschlechterung auf Grund der Digitalisierung der
Parameter in dem wieder hergestellten Sprachsignal unmerkbar ist.
Auf einem getrennten Gebiet der Technik sind viele Versuche gemacht worden, natürlich klingende Sprache aus
gespeicherten Sprachsignalen unter Verwendung einer Formant-Codierung von Lauten (oder Wörtern) zu gespeicherten
Signalen zu synthetisieren. Eine solche Vorrichtung ist
in der deutschen Patentschrift 2 115 258 beschrieben. SoI-cne
Systeme befriedigen im allgemeinen. Wenner aber eine Beeinflussungsmöglichkeit für die Tonhöhe und Tondauer erforderlich
ist, so für den Fall, daß die durch den Zusammenhang gegebenen Bedingungen für die synthetisierte
Sprache vorherrschend sind, werden diese Systeme kompliziertund erfordern umfangreiche Berechnungen.
Die Erfindung hat sich daher als Aufgabe gestellt, ein System zur Synthetisierung natürlich klingender Sprache zu
schaffen. Weiterhin sollen Vorrichtungen zur Synthetisierung
von Sprache geschaffen werden, bei denen die Tonhöhe und -dauer der Sprache wirksam beeinflußt werden können. Schließlich
soll Sprache synthetisiert v/erden aus gespeicherten Signalen von Wörtern eines VokabJLars, die nach Phasenvocoder-
509851/0791
Verfahren codiert worden sind.
Die Lösung der Aufgabe ist in den Ansprüchen gekennzeichnet.
Nach der Erfindung werden Wörter eines Vokabulars zu einer
Vielzahl von Kurzzeit-Sprachamplitudensignalen und Kurzzeit-Phasenableitsignalen
codiert, die codierten Signale in digitales Format umgewandelt und die digital codierten Signale
in einem Speicher gespeichert. Natürlich klingende Sprache wird dadurch gebildet und synthetisiert, daß aus
dem Speicher den gewünschten Wörtern entsprechende Signale gewonnen, diese Signale verknüpft und die Dauer und Tonhöhe
der verknüpften Signale modifiziert wird. Eine Beeinflussung der Dauer wird durch Einfügen einer vorbestimmten Anzahl von
tabulierten Signalen zwischen aufeinanderfolgend aus dem Speicher gewonnene unterschiedliche Signale erreicht. Dadurch
erzielt man eine wirksame Verlangsamung der Sprache in Abhängigkeit von der Anzahl der eingefügten interpolierten
Signale. Eine Beeinflussung der Tonhöhe wird erzielt, indem die Phasenableitsignale mit einem gewählten Faktor multipliziert
werden. Die Sprachsynthese wird vervollständigt durch eine Umwandlung der modifizierten Signale aus dem digitalen
Format in analoges Format und durch Decodieren der Signale entsprechend bekannten Phasenvocoder-Verfahren.
509851/0791
252U97
In den Zeichnungen zeigen:
Fig. 1 das Blockschaltbild eines Sprachsynthesesystems
nach der Erfindung;
Fig. 2 das Kurzzeit-Amplitudenspektrum des i-ten
Fig. 2 das Kurzzeit-Amplitudenspektrum des i-ten
Spektrumsignals (S.I am Ausgang des Speichers
30 in Fig. 1;
Fig. 3 das gesamte Sprachspektrum zu einem bestimmten
Fig. 3 das gesamte Sprachspektrum zu einem bestimmten
Zeitpunkt und den Einfluß von Tonhöhenänderungen
auf die Spektralamplituden des Signals; Fig. 4 ein Blockschaltbild der Interpolartorschaltung
nach Fig. 1;
Fig. 5 ein Ausführungsbeispiel der Steuerschaltung 40
Fig. 5 ein Ausführungsbeispiel der Steuerschaltung 40
in Fig. 1.
Fig. 1 zeigt ein Blockschaltbild eines Sprachsynthesesystems, bei dem gesprochene Wörter zu Phasenvocoder-Steuersignalen
codiert und bei dem eine Sprachsynthese erreicht wird, in dem geeignete Beschreibungssignale aus dem Speicher gelesen, die
Bes-chreibungssignale verknüpft und modifiziert und die modifizierten
Signale zu synthetisierten Sprachsignalen decodiert und kombiniert werden.
Im einzelnen wird das Vokabular von Wörtern, das für eine betrachtete Sprachsynthese für erforderlich erachtet wird,
einem Phasenvocoder-Analysator 10 in Fig. 1 zur Codierung
509851/0791
zugeführt. Der Analysator 10 codiert die Wörter zu einer » i-i; so , (O7;... Is.I ,
Tl C- Λ c. I · J
φ.,... IsnJ , ftjT, die einen JS -Vektor und einen «-Vektor
darstellen, wobei jeder Wert ISJ ', φ. das Kurzzeit-Amplitudenspektrum
bzw. das Kurzzeit-Phasenableitspektrum des Sprachsignals bei einer Spektralfrequenz u). darstellen.
Die Analysierfrequenzen \jf. sind in Abhängigkeit von den
Auslegungsbedingungen mit gleichmäßigem oder ungleichmäßigem Abstand über das interessierende Frequenzband verteilt. Die
zur Übertragung der Signale IsJ und φ. erforderliche Bandbreite
ist klein im Vergleich zur Sprachbandbreite. Der Phasenvocoder-Analysator 10 läßt sich entsprechend der
Beschreibung in der oben erwähnten US-Patentschrift 3,360,610 verwirklichen.
Nach der Codierung durch den Analysator 10 werden die Analogvektoren
JsJ und φ abgetastet und im Analog-Digitalwandler 20 in digitales Format umgewandelt. Der Wandler 20 kann entsprechend
der Beschreibung in dem oben genannten Aufsatz vnn Carlson aufgebaut werden, der 16O Bits mit einer Abtastfrequenz
von 60 Hz erzeugt.und damit zu einer Gesamt-Bitfrequenz
von 9600 Bits/s führt. Die umgewandelten Signale werden im Speicher 30 gespeichert und stehen dann für die
Synthese zur Verfügung. Jedes vom Analysator 10 verarbeitete Wort wird mit einer Frequenz von 60 Hz abgetastet, und da
die Dauer jedes Wortes langer als 16 ms ist, wird jedes verarbeitete Wort durch eine Vielzahl von Js| -Vektoren
509851/0791
und zugeordnete φ-Vektoren dargestellt. Diese Vektoren
können in den Speicher 30 sequentiell in einen zugeordneten Speicherblock eingegeben werden. Innerhalb des
Speicherblocks wird jedes Paar von Vektoren/ Sj und φ in einer Speicherstelle gespeichert, und jede Speicherstelle
ist so unterteilt, daß sie die Komponenten j S. J und Q^ jedes Vektors enthält.
Zur Sprachsynthese wird eine Kette von Befehlen formuliert und über die Leitung 41 der Steuereinrichtung 40
in Fig. 1 zugeführt. Die Befehlskette gibt der Anlage die Folge von Wörtern an, die aus dem Speicher 30 gewählt
und zur Bildung eines Sprachsignals verknüpft werden sollen. Demgemäß erfolgt ein sequentieller Zugriff zu
gewählten Speicherblöcken und innerhalb jedes Speicherblocks geht der Zugriff zu allen Speicherstellen sequentiell
vor sich. Jede Speicherstelle liefert am Ausgang des Speichers 30 ein Vektorpaar Js| und φ. Entsprechend
der Erfindung decodiert die Steuereinrichtung 40 die Eingangsbefehlsfolge unter Erzeugung von Adressen
für den Speicher 30 und gibt diese Adressen und entsprechende Lesebefehle an den Speicher. Außerdem analysiert
die Steuereinrichtung 40 auf der Grundlage der angegebenen Folge von Wörtern die Struktur der Wortkette und ordnet
jeder zugegriffenen Speicherstelle Dauer- und Tonhöhenwerte
K^ (intern in der Steuereinrichtung 40) bzw. K zu, um eine
509851/0791
natürlich klingende Sprache zu erzeugen, deren Tonhöhe und - dauer abhängig von der Struktur der Wortkette ist. Eine
genaue Beschreibung der Steuereinrichtung 40 wird im folgenden gegeben.
Zeitdauer-Steuerung
Eine Zeitdauer-Steuerung läßt sich durch einen wiederholten Zugriff zu jeder gewählten Speicherstelle mit einer
festen hohen Taktfrequenz und durch eine Steuerung der
Anzahl solcher wiederholter Zugriffsvorgänge erreichen. Auf diese Weise kann die Sprachdauer wirksam erhöht werden,
indem die Anzahl der Zugriffsvorgänge für ,jede Speicherstelle
vergrößert wird. Wenn beispielsweise die Eingangssprache, wie obenerwähnt, mit einer Frequenz von 60 Hz abgetastet
wird, kann der Zugriff zum Speicher zweckmäßig mit einer Frequenz von 6 KHz (was der Nyquist-Frequenz des
synthetisierten Signals entsprechen kann) erfolgen, und die Regelzahl von Zugriffsvorgängen über Jede Speicheradresse
kann auf 100 festgelegt werden. Diese Arbeitsweise führt zu einer getreuen Reproduktion der Sprachdauer des an den
Eingang an der Anlage angelegten Signals. Es ergibt sich selbstverständlich, daß ein wiederholter Zugriff zu jeder
Speicherstelle mehr als lOOmal eine Verlangsamung der synthetisierten Sprache oder eine Dehnung des Zeitmaßstabes
bewirkt. Weniger als 100 Zugriffsvorgänge führen zu einer
509851/0791
Beschleunigung der synthetisierten Sprache oder einem Zusammendrücken des Zeitmaßstabes. Die genaue Anzahl
von Zugriffsvorgängen zu jeder Speicheradresse (angegeben
durch das Signal auf der Leitung 42) wird durch die Steuereinrichtung 40 mit Hilfe wiederholter Lesebefehle
auf der Leitung 43 angegeben. Das obenerläuterte Verfahren zur Beeinflussung der Sprachdauer ist in Fig. 2 angegeben,
in der die Amplitude einer bestimmten Komponente IS. bezüglich ihrer zeitabhängigen Änderung gezeigt ist. Die
Angabe JS !stellt den Vektor 131 am Ausgang des Speichers
30 dar. In Fig. 2 gibt das Element 201 den Wert von S±
zu einem bestimmten Zeitpunkt an, wie er am Ausgang des Speichers 30 beim Zugriff zu einer bestimmten Speicherstelle
ν auftritt. Das Element 201 entspricht dem ersten Zugriff zu der v-ten Speicherstelle. Das Element 202 gibt ebenfalls
den Wert von IS.
an der Speicherstelle ν wieder, wobei es
sich hier aber um den dritten Zugriff zur Speicherstelle ν handelt. Das Element 206 entspricht dem Wert von J S.J an
der nächsten Speicherstelle v+1, und zwar beim ersten Zugriff
zu dieser Speicherstelle. Wenn beispielsweise die Speicherstelle V+1 die letzte Speicherstelle eines Speicherblocks ist,
dann gibt das Element 203 den Wert von S. beim ersten Zugriff zu einer ersten Speicherstelle u eines neuen Speicherblocks
(Anfang eines neuen Wortes) an. Die Speicherstellen ν und u können natürlich wesentlich verschieden sein. Das
Element 205 entspricht ebenfalls dem Wert von
S,
an der
509851/0791
Speicherstelle u bei einem nachfolgenden Zugriff und das Element 204 entspricht dem letzten Zugriff zur Speicherstelle
u. Die Anzahl der Zugriffsvorgänge bei einer Speicherstelle wird bestimmt durch das Zeitdauer-Steuersignal K,
(innerhalb der Steuereinrichtung 40-vergleiche Fig. 5), das über das Signal K_ einen Spektralamplituden-Interpolator
in Fig. 1 steuert. In Fig. 2 ist nur die i-te Komponente des Vektors I Sl am Ausgang des Speichers 30 dargestellt.
Andere Komponenten dieses Vektors und die Komponenten des Vektors φ haben natürlich unterschiedliche Werte, aber die
Grenzstellen auf Grund von Änderungen der Speicherstelle innerhalb eines Speicherblocks (beispielsweise das Zeitelement
206) oder auf Grund von Änderungen der Speicherstelle von einem Speicherblock zu einem anderen (beispielsweise
Zeitpunkt des Elements 205) treten zum gleichen Zeitpunkt auf.
Das läßt sich leicht erkennen, wenn in einem dreidimensionalen Raum, der auf übliche Weise durch x-,y- und z-Koordinaten
definiert ist, der Vektor S mit allen seinen Komponenten
betrachtet wird. Jede zeitliche Änderung einer Komponente läßtsich in einer durch die Koordinaten χ und y definierten
Ebene zeichnen, wobei die x-Achse die Zeit angibt (wie in Fig. 2 gezeigt) und für jeden gewählten Wert der x-Achse
kann die durch die Koordinaten y und ζ definierte Ebene
die veBchiedenen Komponenten des Vektors J Sl sowie die
509851 /0791
252A497
allgemeine Form des Spektrums (entsprechend der noch zu erläuternden Darstellung in Fig. 3) in dem jeweiligen
Augenblick angeben. Bei einer solchen dreidimensionalen Darstellung sind die plötzlichen Änderungen des Vektors
JS (die zu einem bestimmten Zeitpunkt auftreten) alle in einer einzigen y-z-Ebene enthalten.
Tonhöhen-Steuerung
In einem Aufsatz "Phase Vocoder" von J. L. Flanagan et al
in "Bell System Technical Journal", Band 45, Nr. 9, Seite 1493, November 1966 ist gezeigt, daß der φ-Vektor in enger
Beziehung zur Tonhöhe eines analysierten Sprachsignals steht, wenn die Analysier-Bandbreite des Phasenvocoders schmal im
Vergleich zur gesamten Sprachbandbreite ist. Im Hinblick darauf und entsprechend der Erfindung wird eine Änderung der
Tonhöhe durch Bildung und Modifizieren eines Vektorsignals (ι*Η·φ) erreicht, daß die Elemente (iaIj +φ ^), (ιΑ>
+ Ü'·" (υλ* +^j) ··· (^m + ^n) .enthält. Die Modifizierung kann aus
einer Multiplikation des Vektors (ul+φ) mit einem Tonhöhenvariationsparameter
K bestehen. Wenn also K größer als 1 ist, so wird die Tonhöhe der synthetisierten Sprache erhöht,
und wenn K kleiner als 1 ist, so wird die Tonhöhe der synthetisierten
Sprache erniedrigt.
509851 /0791
Die Tonhöhenänderung wird in der Einrichtung 60 in Fig. 1 vorgenommen. Die Einrichtung 60 weist eine Addierschaltung
61-i für jeden Wert φ . auf, um ein entsprechendes u>. -Signal
zu jedem φ.-Signal zu addieren, und eine Multiplizier-
1 A
schaltung 62-i für jeden Wert φ., um das Ausgangssignal
jedes Addierers mit dem Tonhöhen-Variationssteuersignal K zu multiplizieren. Das Signal K liegt an der Leitung
44 und wird den Multiplizierern 62 über einen Schalter 64 zugeführt. Die digitalen Addierer 61 und die digitalen
Multiplizierer 62 sind einfache Digitalschaltungen bekannter Art.
Bei einem Alternativ-Verfahren zur Tonhöhen-Steuerung nach
der Erfindung kann der von der Steuereinrichtung 40 in Fig. 1 gelieferte K -Faktor die tatsächliche, zu synthetisierende
Tonhöhe statt der Tonhöhenänderung angeben. In diesem Fall muß die Tonhöhe des aus dem Speicher 30 abgeleiteten Synthetisierten
Sprachsignals festgestellt und ein interener Tonhöhen-Multiplikationsfaktor errechnet werden. Demgemäß
weist die Einrichtung 60 zusätzlich einen auf den Vektor (v*) + φ) ansprechenden Tonhöhendetektor 63 auf, der die tatsächliche
Tonhöhe errechnet, die den aus dem Speicher 30 abgeleiteten Signalen zugeordnet werden kann. Tonhöhendetektoren
sind bekannt. Ein Ausführungsbeispiel ist in der US-Patentschrift 2 627 541 beschrieben. Die Teilerschaltung 67
in der Einrichtung 60 berechnet den internen Multiplikations-
509851 /0791
faktor, in dem die gewünschte Tonhöhe K durch das berechnete
Tonhöhensignal dividiert wird. Der berechnete Multiplikationsfaktor wird über einen an die Leitung 66
angeschalteten Schalter 64 an die Multiplizierer 62 gegeben. Der Teiler 67 ist ein einfacher Digital-Teiler,
der beispielsweise einen auf das Ausgangssignal des Tonhöhendetektors 63 ansprechenden Festwertspeicher (ROM)
aufweist, der den Kehrwert des Tonhöhensignals liefert, sowie einen Multiplizierer ähnlich dem Multiplizierer 62,
um das Ausgangssignal des Festwertspeichers mit dem gewünschten Tonhöhensignal K zu multiplizieren und damit
den gewünschten Multiplikationsfaktor zu erzeugen.
Das Ausgangssignal der Einrichtung 60 ist ein Signalvektor
(vd + ^ )*>
der ein bezüglich der Zeitdauer und Tonhöhe modifiziertes Abbild eines (ui + φ)-Signalvektors ist. (Eine
Zeitdauer-Modifizierung liegt vor, weil beide Vektoren JSJ und φ am Ausgang des Speichers 30 hinsichtlich der Dauer
modifiziert sind). Dieser Vektor wird zusammen mit einem interpolierten und bezüglich der Zeitdauer modifizierten
Vektor JSj*, der nachfolgend beschrieben wird, an einen Digital-Analogwandler 70 gegeben, der jedes der Digital-Signale
in den beiden Signalvektoren in analoge Form umwandelt. DieAnalogsignale werden dann an einen Phasenvocoder-Synthetisierer
80 angelegt, um ein Signal zu erzeugen, das die gewünschte synthetisierte Sprache darstellt. Der Phasenvocoder
509851/0791
-Synthetisierer 80 kann im wesentlichen auf die gleiche Weise wie in der oben angegebenen US-Patentschrift
3 360 610 beschrieben, aufgebaut werden.
Interpolation der Form des Spektrums
Fig. 3 zeigt die Amplituden der Komponenten des Vektors ISJ zu einem bestimmten Zeitpunkt. Das Element 100 entspricht
dem Signal ISJ , das Element 101 dem Signal
SpI * das Element 103 dem Signal j S^J , das Element
104 dem Signal I Si+
I *
weise das Signal IS.,
usw. Das Element 106 kann beispielsangeben. Die Frequenzen, mit denen
diese Signale auftreten, sind
Λ A js A
^) C φ) ^ ^^ ^ Φ^ und
+φΝ) (1).
Betrachtet in dem oben beschriebenen dreidimensionalen Raum wäre die Darstellung des Vektors|s| gemäß Fig. 3 der zweidimensionale
Querschnitt des dreidimensionalen Raums parallel zu der durch die Achsen y und ζ definierten Ebene.
Wenn der Vektor (<*) + φ ) in der Einrichtung 60 zur Bildung des
Signalvektors (o* + φ)* abgeändert wird, so wird die Frequenz
jedes Gliedes des Signalvektors |sj gleichmäßig verschoben,
wie in Fig. 3 beispielsweise durch die verschobenen Elemente 107 und 108 dargestellt. Fig. 3 zeigt, daß, wenn das Element
509851/0791
108 so beeinflußt wird, daß es (wie dargestellt) der Hüllkurve 109 in Fig. 3 entspricht, die Amplitude des Elements
103ι aus dem das Element 108 abgeleitet ist, verändert
werden muß. Demgemäß muß die Amplitude des Elements 103 mit einer Konstanten multipliziert werden, die aus dem
Verhältnis der Amplituden der Elemente 104 und 103 abgeleitet wird. Es läßt sich zeigen, daß diese Konstante K
wie folgt berechnet werden kann:
I Si+11
J1 +φ±+1) - (wo,
Außerdem besteht auf Grund einer Prüfung der Fig. 2 die Möglichkeit, daß die stufenförmige seitliche Hüllkurve
des synthetisierten Spektrums geklettet werden kann. Intuitiv erkennt man, daß eine solche Klettung der Hüllkurve
des Spektrums zu einer angenehmer^natürlicher klingenden
Sprache führt. Diese Klettung der Hüllkurve läßt sich durch
tA I
"Anpassen" einer Polynom-Kurve für jede Komponente S.
I* ί
über die Anfangswerte JS. durchführen, wenn ein Zugriff zu
einer neuen Speicheradresse erfolgt, beispielsweise eine Kurvenanpassung über die Elemente 201, 206 und 203 und durch
Änderung der wiederholten Signale
S.J derart, daß sie in
diese Kurve passen. Hierbei handelt es sich jedoch um eine komplizierte mathematische Aufgabe, die die Unterstützung
eines Sonderzweck- oder Allzweckrechners erfordert. Aus
509851/0791
Gründen einer klareren Darstellung wird das einfachere gradlinige Interpolationsverfahren beschrieben. Diese
Interpolationskurvevird durch die Kurve 220 in Fig. 2
IM
wiedergegeben. Demgemäß kann der Vektor JSJ , dessen Frequenzkomponenten in einer Ebene und dessen Zeitänderungen
in einer zweiten Ebene gesehen werden können, so interpoliert werden, daß er gleichzeitig auf Änderungen
sowohl der Zeit als auch der Frequenz (Tonhöhe) anspricht.
1 Demgemäß wird, wenn das Element 203 mit S. bezeichnet
wird und das Signal J S.I zum Zeitpunkt m^ definiert, das
mp m->f
Element 204mit S1 und das Element 205 mit S1 bezeichnet.
Es läßt sich zeigen, daß die interpolierte Amplitude des Elements 205, das an die Kurve 220 angepaßt ist, wie folgt
berechnet werden kann
m2 m1 m
Si " Si
Nach Berücksichtigung des Faktors K gemäß Gleichung (1)
läßt sich die endgültige Amplitude des Elements 205 wie folgt ermitteln
[nu m. m - m^ mi I
509851/0791
Durch Auswerten der Gleichung (3) kann also jedes Element JS.J am Ausgang des Speichers 30 und zu einem bestimmten
Zeitpunkt so abgeändert werden, daß es Änderungen der Tonhöhe und der Zeitdauer berücksichtigt, um ein Spektrum zu
erzeugen, das zu einer natürlich klingenden Sprache führt.
Man beachte, daß entsprechend dem erfindungsgemäßen Verfahren
zur Steuerung der Zeitdauer die Einrichtung 40 in Fig. 1 eine Anzahl von Steuersignalen erzeugt, von denen
mx"m1
eines dem Signal -—-— entspricht. Dieses Signal ist mit
eines dem Signal -—-— entspricht. Dieses Signal ist mit
K bezeichnet.
Um die oben beschriebene Klettung der Hüllkurve des synthetisierten
Spektrums hinsichtlich Zeit und Frequenz zu erzielen, weist die Schaltungsanordnung gemäß Fig. 1 einen
Spektrum-Amplitudeninterpolator 90 auf, der zwischen dem
Speicher 30 und dem Digital-Analogwandler 70 eingefügt ist. Der Interpolator 90 kann einfach aus einer Kurzschlußver-
IA I
bindung zwischen jedem Eingang ISJund dem entsprechenden
interpolierten Ausgang
*. Dies entspricht einer ein
fachen konstanten Interpolation in der Zeitebene, die zu einer Hüllkurve entsprechend der Kurve 210 in Fig. 2 führt,
wobei keinerlei Interpolation in der Frequenzebene stattfindet. Andererseits kann der Interpolator 90 eine Vielzahl
von Interpolatorschaltungen 91 umfassen, die in Form hochkomplizierter Sonderzweck- oder Allzweckrechner verwirklicht
509851/0791
sind und eine komplizierte Kurvenanpassung ermöglichen. Fig. 4 zeigt ein Ausführungsbeispiel einer Interpolatorschaltung
91 für das Verfahren der gradlinigen Interpolation gemäß Gleichung (3).
Die Interpolator schaltung 91 in Fig. 4 ist die i-te Interpolatorschaltung
in der Einrichtung 90. Sie spricht auf zwei Spektrum-Signale beim ersten Speicherzugriff an der
augenblicklichen Speicheradresse,nämlich die Signale
m.
und S
an sowie auf das Spektrum-Signal
der nächsten Speicheradresse und die unveränderten
.A .A
und veränderten i-ten Frequenzen (g^ +φ1) "bzw.
sowie die unveränderte (i+1)-te Frequenz Wenn also ein Zugriff zu einer neuen Adresse des Speichers
m.
30 erfolgt und die Signale
und S
gewonnen
werden, adressiert die Steuereinrichtung 40 außerdem die nächste Speicherstelle und liefert einen Gatterimpuls (auf
m2 der Leitung 21), um das nächste Signal S. in das Register
910 in Fig. 4 zu leiten. Demgemäß spricht die Subtrahierschal-
tung 911 auf das Signal das Signal
aus dem Register 910 und auf
auf der Leitung 23 an. Das dazwischen gelegene Signal, das durch die Gleichung (2) definiert ist,
wird durch den Multiplizierer 912 berechnet, der auf die Subtrahierschaltung 911 und den oben erwähnten Faktor K_ auf
der Leitung 22 anspricht, sowie durch den Summierer 913, der auf das Ausgangssignal des MuIt ipli zier er s 912 und auf das
Signal IS,
auf der Leitung 23 anspricht. Der Multiplika-
509851 /0791
tionsfaktor Κχ wird durch die Bauteile 914, 915, 916, 917,
918, 919 und 920 berechnet. Der Teiler 914 spricht auf die
Signale
und
an und erzeugt das Signal
i+1 gemäß Gleichung (1). Die Subtrahierschaltungen 915,
916, 917 erzeugen die Signale
Der Multiplizierer 918, der auf die Schaltungen 914 und 915 anspricht, erzeugt das Produktsignal
+ Qi) \ · Der Summierer 919 wird von den Schaltungen
916, 918 beaufschlagt und der Teiler 920 teilt das Ausgangssignal des Summierers 919 durch das Ausgangssignal der Subtrahierschaltung
919 und erzeugt ein Signal, das die Konstante K entsprechend Gleichung (1) darstellt. Der Multiplizierer
921, der von dem Summierer 913 und dem Teiler 920 beaufschlagt wird, erzeugt das interpolierte Signal JS. J *.
Steuereinrichtung 40
Fig. 5 zeigt das Blockschaltbild der Steuereinrichtung 40 gemäß Fig. 1. Entsprechend der Erfindung spricht die Steuer-
509851 /0791
einrichtung 40 auf eine Kette von Befehlswörtern auf der
Leitung 41 an, die die zu synthetisierende Nachricht angibt. Die ankommende Befehlskette wird im Speicher 401 aufgenommen
und danach an einen Festwertspeicher (ROM) 402 gegeben, in welchem die Kette von Befehlen in die richtige
Adressenfolge für den Speicher 30 in Fig. 1 decodiert wird. Die Decodierung im Festwertspeicher erfolgt entsprechend
der gespeicherten Kenntnis der Speicherstellen für bestimmte Wörter im Speicher 30. Die gewünschte Wortfolge, die durch
die Befehlskette am Eingang bestimmt wird, kann analysiert werden, um die erwünschte Tonhöhe und - dauer zu bestimmen,
und zwar auf der Grundlage von Regeln bezüglich der Wortstellung, der Syntax und anderer, von der Nachricht abhängigen
Regeln. Nur zur Erläuterung enthält die Schaltungsanordnung gemäß Fig. 5 Einrichtungen zur Analyse und Formulierung
der gewünschten Tonhöhe und Wortdauer für die synthetisierte Sprache auf der Grundlage der Syntay dieser
Sprache. Die Analysiereinrichtung, nämlich die Steuerschaltung
403 für die Tonhöhe und die-dauer spricht gemäß Fig. 5 auf den Festwertspeicher 402 und ein Fortschaltesignal
auf der Leitung 414 an. Eine Einrichtung zur Analyse der Sprache auf der Grundlage der Syntax und zur Zuordnung
von Tonhöhe- und Zeitdauerwerten ist in der US-Patentschrift 3 704 345 offenbart. In der genannten Kitentschrift
ist ein Tonhöhen- und Intensitätsgenerator, ein Vokaldauer-Generator und ein Konsonantend-auer-Generator gezeigt, die
alle im Prinzip von einem Syntax-Analysator abhängen.
5098 5 1/0791
Die Generatoren erzeugen Signale, welche die gewünschte Tonhöhe, Intensität und Dauer beschreiben, die den in jeder
zu lesenden Speicheradresse angegebenen Lauten zugeordnet sind. Für die vorliegende Erfindung kannan Stelle eines
Laut-Wörterbuches nach der vorgenannten US-Patentschrift 3 704 345 ein Wort-Wörterbuch benutzt werden, und die
Vokal- oder Konsonanten-Generatoren nach der vorgenannten Patentschrift können zu einem einheitlichen Tonhöhen- und
Dauer-Generator kombiniert werden. Demgemäß ist in Fig. 5 eine Steuerschaltung 403 fürdie Tonhöhe und - dauer angegeben,
der Ausgangssignal ein Speicheradressenfeld, ein Tonhöhensteuerfeld K und ein Zeitdauer-Steuerfeld K. enthält. Das
Ausgangssignal der Steuerschaltung 403 wird im Register
gespeichert. Dessen Ausgangssignal gelangt in ein Register
407. Wenn demgemäß das Register 407 eine bestimmte Speicheradresse enthält, sagt man, daß das Register 406 die nächste
Speicheradresse enthält. Beide Register sind an eine Wählerschaltung 408 angeschlossen, die die Ausgangssignale einer
der beiden Register wählt und an den Wählerausgang weitergibt.
Die Anzahl der Befehle zum Lesen jeder Speichersteile wird
durch Eingabe des Wertes K^ am Ausgang des Wählers 408 auf
der Leitung 409 in einen Rückwärtszähler 405 gesteuert. Der
Grundtakt f für den Speicherzugriff, der in der Schaltung 412 erzeugt wird, liefert Impulse, die den Zähler 405 rückwärts
509851 /0791
laufen lassen, während der Speicher über das ODER-Gatter
413 und die Leitung 43 gelesen wird. Wenn der Zähler 405 Null erreicht, erzeugt er einen Fortschalteimpuls auf der
Leitung 414. Dieser Impuls schaltet die Steuerschaltung auf den nächsten Speicherzustand weiter, bewirkt, daß das
Register 406 den nächsten Speicherzustand speichert und läßt das Register 407 den neuen Zustand aufnehmen. Gleichzeitig
liefert der Wähler 408 unter Steuerung des Fortschalteimpulses auf den Leitungen 44 und 42 den Inhalt des Registers 406 und
der Impulsgenerator 410 liefert unter Ansprechen auf den Fortschalteimpuls einen weiteren Lesebefehl für den Speicher
30 über das ODER-Gatter 413 der Ausgangs impuls des Generators
410 wird außerdem benutzt, um über die Gatterleitung 41 das Ausgangssignal des Speichers 30 in das Register 910 der Einrichtung
91 zu führen, wodurch im Register 90 die oben be-
m2
schriebenen Signale S. gespeichert werden. Wenn das Fortschaltesignal auf der Leitung 414 verschwindet, schaltet der Wähler 408 das Ausgangssignalctes Registers 407 zum Wählerausgang durch und beim nächsten Impuls vom Taktgeber 412 wird ein neuer Wert K^ in den Zähler 405 gegeben.
schriebenen Signale S. gespeichert werden. Wenn das Fortschaltesignal auf der Leitung 414 verschwindet, schaltet der Wähler 408 das Ausgangssignalctes Registers 407 zum Wählerausgang durch und beim nächsten Impuls vom Taktgeber 412 wird ein neuer Wert K^ in den Zähler 405 gegeben.
Der Stand des Zählers 405 wird zu jedem Zeitpunkt durch das Signal auf der Leitung 415 angegeben. Dieses Signal stellt
den Wert m -m.. dar. Die Konstante K., die als Eingangssignal
für den Zähler 405 auftritt (Leitung 409), stellt den Wert iüp-nbi dar. Demgemäß wird die Konstante K durch den Teiler
411 berechnet, die das Signal auf der Leitung 415 durch das
509851/0791
Signal auf der Leitung 409 teilt.
Eine sorgfältige Prüfung der erfindungsgemäßen Grundgedanken zeigt, daß unter gewissen Umständen eine praktische
Verwirklichung der Erfindung unter Verwendung eines Rechnerprogramms
möglich ist und in gewissen Punkten vorteilhaft sein kann. Wenn beispielsweise ein Benutzer des Sprachsynthesesystems
nach der Erfindung es für zweckmäßig hält, ein Verfahren mit einer sehr komplizierten Spektrum-Interpolation
zu verwenden, kann es einfacher sein, für den Interpolator in Fig. 1 eine Ausführung mit einem Rechner statt einer
speziell ausgebildeten Schaltungsanordnung zu verwenden. Wenn jedoch ein Rechner in der Anlage benutzt wird, können zusätzliche
Merkmale vom Rechner verwirklicht werden, wodurch der Umfang der erforderlichen Schaltungsanordnungen kleiner
wird. Beispielsweise sind die arithmetischen Operationen, die in der Einrichtung zur Tonhöhenanzeige und zur Tonhöhenänderung
benutzt werden, sehr einfach, und Rechnerprogramme, die zur Verwirklichung der Tonhöhensteuerung benutzt werden,
sind einfach und dem Fachmann bekannt. Auf entsprechende Weise kann der Speicher 30 in den Rechner übernommen werden. Gleiches
gilt fürden Phasenvocoder-Analysator und den größten Teil des Phasenvocoder-Synthetisierers. Tatsächlich wird entsprechend
dem eingangs erwähnten Aufsatz von Carlson ein Rechner zur Verwirklichung des Phasenvocoder-Analysierers und -synthetisierers
benutzt. Es wird dazu auch auf die Rechner- Simulation eines Phasenvocoders Bezug genommen,die in dem oben beschriebenen
509851/0791
252AA97
Aufsatz "Phase Vocoder" auf Seite 1496 beschrieben ist.
B0985 1/0791
Claims (10)
1.) Verfahren zum Synthetisieren einer natürlich klingenden
Sprachnachricht aus gespeicherten, ein Vokabular von Wörtern darstellenden Signalen mit den Verfahrensschritten:
Gewinn und Verknüpfen gewählter Teile der Signale, Abändern der verknüpften Signale und
Umwandeln der abgeänderten Signale in hörbare Sprache, gekennzeichnet durch die Verfahrensschritte
Speichern von Signalen, welche die Kurzzeit-Fourier-Transformationsparameter
und Phasenableitparameter sind, die sich aus einer Phasenvocoder-Codierung des Vokabulars von
Wörtern ergeben,
Gewinnen aus den gespeicherten Signalen zeitdauerveränderte Signale, welche die Sprachnachricht darstellen,
Verändern der Phasenableitparameter der verknüpften Signale
509851/0791
zur Beeinflussung der Tonhöhe der hörbaren Sprache.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet, daß die Signale zur Beeinflussung der Dauer der Sprache mehrfach gewonnen werden.
dadurch gekennzeichnet, daß die Signale zur Beeinflussung der Dauer der Sprache mehrfach gewonnen werden.
3. Verfahren nach Anspruch 1 oder 2,
ge ke nnzeichnet durch InterpAieren der Kurzzeit-Fourier-Transformationsparameter
entsprechend vorgegebenen Regeln unter Ansprechen auf zugeführte Zeitdauer-Steuersignale und die veränderten Phasenableitparameter,
um eine glatte Spektrum-Hüllkurve zu erreichen.
4. Vorrichtung zum Synthetisieren einer natürlich klingenden Sprachnachricht mit einem Speicher, der ein Vokabular von
Wörtern darstellende Signale speichert, einer Einrichtung zum Gewinnen und Verknüpfen gewählter Teile der Signale,
einer Einrichtung zum Abändern der verknüpften Signale und einer Einrichtung zum Umwandeln der abgeänderten Signale in
hörbare Sprache,
dadurch gekennzeichnet,
eine Einrichtung vorgesehen ist, um Signale für die Kurzzeit-Fourier-Transformationsparameter
und Phasenableitparameter zu speichern, die sich aus einer Phasenvocoder-Codierung
509851/0791
des Vokabulars von Wörtern ergeben, daß die Einrichtung zum Gewinnen und Verknüpfen gewählter
Teile der Signale eine Einrichtung aufweist, um die Dauer der hörbaren Sprache zu ändern, und
daß die Einrichtung zum Abändern der verknüpften Signale eineEinrichtung zum Ändern der Phasenabieitparameter enthält,
um die Tonhöhe der hörbaren Sprache zu beeinflussen.
5. Vorrichtung nach Anspruch 4,
dadurch gekennzeichnet, daß die Einrichtung zum Gewinnen gewählter Teile der Signale eine Einrichtung enthält, um ein gewähltes Signal mehrere Male zu gewinnen.
dadurch gekennzeichnet, daß die Einrichtung zum Gewinnen gewählter Teile der Signale eine Einrichtung enthält, um ein gewähltes Signal mehrere Male zu gewinnen.
6. Vorrichtung nach Anspruch 4 oder 5,
gekennzeichnetdurch eine Einrichtung zum Interpolieren der Spektrum-Parameter der gewonnenen Signale.
gekennzeichnetdurch eine Einrichtung zum Interpolieren der Spektrum-Parameter der gewonnenen Signale.
7. Vorrichtung nach Anspruch 6,
dadurch gekennzeichnet, daß die Interpoliereinrichtung eine Einrichtung zum Interpolieren der Kurzzeit-Fourier-Transformationsparameter entsprechend vorbestimmten Regeln in Abhängigkeit von einem angelegten Zeitdauer-Steuersignal und den abgeänderten Phasenableitparametern enthält, um eine geglättete Spektrum-Hüllkurve
dadurch gekennzeichnet, daß die Interpoliereinrichtung eine Einrichtung zum Interpolieren der Kurzzeit-Fourier-Transformationsparameter entsprechend vorbestimmten Regeln in Abhängigkeit von einem angelegten Zeitdauer-Steuersignal und den abgeänderten Phasenableitparametern enthält, um eine geglättete Spektrum-Hüllkurve
509851/0791
252U97
zu erzielen.
8. Vorrichtung nach einem der Ansprüche 4 bis 7, dadurch gekennzeichnet,
daß die Einrichtung zum Verändern der Phasenableitparameter eine Einrichtung zum Addieren eines geeigneten zugeordneten
Frequenzsignals zu jedem Phasenableitsignal enthält und daß eine Einrichtung vorgesehen ist, um jedes der addierten
Signale mit einem zugeführten Tonhöhen-Steuersignal zu multiplizieren.
9. Vorrichtung nach Anspruch 8,
dadurch gekennzeichnet, daß eine Einrichtung vorgesehen ist, die unter Ansprechen auf ein zugeführtes Tonhöhen-Steuersignal und auf die Einrichtung zum Multiplizieren jedes der addierten Signale einen Multiplikationsfaktor zur Tonhöhenveränderung zu errechnen und daß eine Einrichtung vorhanden ist, um jedes der addierten Signale mit dem Multiplikationsfaktor zu multiplizieren.
dadurch gekennzeichnet, daß eine Einrichtung vorgesehen ist, die unter Ansprechen auf ein zugeführtes Tonhöhen-Steuersignal und auf die Einrichtung zum Multiplizieren jedes der addierten Signale einen Multiplikationsfaktor zur Tonhöhenveränderung zu errechnen und daß eine Einrichtung vorhanden ist, um jedes der addierten Signale mit dem Multiplikationsfaktor zu multiplizieren.
10. Vorrichtung nach Anspruch 7,
dadurch gekennzeichnet, daß die Einrichtung zum interpolieren der Kurzzeit-Fourier-Transformationsparameter
eine Einrichtung zur Abänderung jeder Komponente der Kurzzeit-FourJer-Transformationsparameter
aufweist, um den Tonhöhen- und Zeitdauer-Änderungen in benachbarten Komponenten der Kurzzeit-Fourier-Transformationsparameter
Rechnung zu tragen.
509851/0791
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/476,577 US3982070A (en) | 1974-06-05 | 1974-06-05 | Phase vocoder speech synthesis system |
Publications (3)
Publication Number | Publication Date |
---|---|
DE2524497A1 true DE2524497A1 (de) | 1975-12-18 |
DE2524497B2 DE2524497B2 (de) | 1978-12-14 |
DE2524497C3 DE2524497C3 (de) | 1979-08-09 |
Family
ID=23892415
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2524497A Expired DE2524497C3 (de) | 1974-06-05 | 1975-06-03 | Verfahren und Schaltungsanordnung zur Sprachsynthese |
Country Status (4)
Country | Link |
---|---|
US (1) | US3982070A (de) |
JP (1) | JPS516407A (de) |
CA (1) | CA1046642A (de) |
DE (1) | DE2524497C3 (de) |
Families Citing this family (51)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3995116A (en) * | 1974-11-18 | 1976-11-30 | Bell Telephone Laboratories, Incorporated | Emphasis controlled speech synthesizer |
US4076958A (en) * | 1976-09-13 | 1978-02-28 | E-Systems, Inc. | Signal synthesizer spectrum contour scaler |
US4210781A (en) * | 1977-12-16 | 1980-07-01 | Sanyo Electric Co., Ltd. | Sound synthesizing apparatus |
US4189779A (en) * | 1978-04-28 | 1980-02-19 | Texas Instruments Incorporated | Parameter interpolator for speech synthesis circuit |
JPS5570783A (en) * | 1978-11-22 | 1980-05-28 | Sharp Corp | Sound information clock |
JPS55111995A (en) * | 1979-02-20 | 1980-08-29 | Sharp Kk | Method and device for voice synthesis |
US4281994A (en) * | 1979-12-26 | 1981-08-04 | The Singer Company | Aircraft simulator digital audio system |
US4441201A (en) * | 1980-02-04 | 1984-04-03 | Texas Instruments Incorporated | Speech synthesis system utilizing variable frame rate |
JPS56119909A (en) * | 1980-02-22 | 1981-09-19 | Victor Co Of Japan Ltd | Reproducing device for speed variable digital signal |
JPS5863327A (ja) * | 1981-10-12 | 1983-04-15 | 三菱農機株式会社 | コンバインにおける脱穀部扱胴の変速表示装置 |
US4415767A (en) * | 1981-10-19 | 1983-11-15 | Votan | Method and apparatus for speech recognition and reproduction |
US4624012A (en) | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
CA1242279A (en) * | 1984-07-10 | 1988-09-20 | Tetsu Taguchi | Speech signal processor |
US4937873A (en) * | 1985-03-18 | 1990-06-26 | Massachusetts Institute Of Technology | Computationally efficient sine wave synthesis for acoustic waveform processing |
US4885790A (en) * | 1985-03-18 | 1989-12-05 | Massachusetts Institute Of Technology | Processing of acoustic waveforms |
USRE34247E (en) * | 1985-12-26 | 1993-05-11 | At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
US4827517A (en) * | 1985-12-26 | 1989-05-02 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech processor using arbitrary excitation coding |
JPH0754440B2 (ja) * | 1986-06-09 | 1995-06-07 | 日本電気株式会社 | 音声分析合成装置 |
US5009143A (en) * | 1987-04-22 | 1991-04-23 | Knopp John V | Eigenvector synthesizer |
US5179626A (en) * | 1988-04-08 | 1993-01-12 | At&T Bell Laboratories | Harmonic speech coding arrangement where a set of parameters for a continuous magnitude spectrum is determined by a speech analyzer and the parameters are used by a synthesizer to determine a spectrum which is used to determine senusoids for synthesis |
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
US5388181A (en) * | 1990-05-29 | 1995-02-07 | Anderson; David J. | Digital audio compression system |
US5425130A (en) * | 1990-07-11 | 1995-06-13 | Lockheed Sanders, Inc. | Apparatus for transforming voice using neural networks |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5664051A (en) * | 1990-09-24 | 1997-09-02 | Digital Voice Systems, Inc. | Method and apparatus for phase synthesis for speech processing |
US5247579A (en) * | 1990-12-05 | 1993-09-21 | Digital Voice Systems, Inc. | Methods for speech transmission |
US5630011A (en) * | 1990-12-05 | 1997-05-13 | Digital Voice Systems, Inc. | Quantization of harmonic amplitudes representing speech |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
US5517511A (en) * | 1992-11-30 | 1996-05-14 | Digital Voice Systems, Inc. | Digital transmission of acoustic signals over a noisy communication channel |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US6246774B1 (en) | 1994-11-02 | 2001-06-12 | Advanced Micro Devices, Inc. | Wavetable audio synthesizer with multiple volume components and two modes of stereo positioning |
AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
EP0804787B1 (de) * | 1995-11-22 | 2001-05-23 | Koninklijke Philips Electronics N.V. | Verfahren und vorrichtung zur resynthetisierung eines sprachsignals |
US5839099A (en) * | 1996-06-11 | 1998-11-17 | Guvolt, Inc. | Signal conditioning apparatus |
US5928311A (en) * | 1996-09-13 | 1999-07-27 | Intel Corporation | Method and apparatus for constructing a digital filter |
US5870704A (en) * | 1996-11-07 | 1999-02-09 | Creative Technology Ltd. | Frequency-domain spectral envelope estimation for monophonic and polyphonic signals |
US5915237A (en) * | 1996-12-13 | 1999-06-22 | Intel Corporation | Representing speech using MIDI |
US6161089A (en) * | 1997-03-14 | 2000-12-12 | Digital Voice Systems, Inc. | Multi-subframe quantization of spectral parameters |
US6131084A (en) * | 1997-03-14 | 2000-10-10 | Digital Voice Systems, Inc. | Dual subframe quantization of spectral magnitudes |
US6199037B1 (en) | 1997-12-04 | 2001-03-06 | Digital Voice Systems, Inc. | Joint quantization of speech subframe voicing metrics and fundamental frequencies |
US6182042B1 (en) | 1998-07-07 | 2001-01-30 | Creative Technology Ltd. | Sound modification employing spectral warping techniques |
US6324501B1 (en) * | 1999-08-18 | 2001-11-27 | At&T Corp. | Signal dependent speech modifications |
US6526325B1 (en) * | 1999-10-15 | 2003-02-25 | Creative Technology Ltd. | Pitch-Preserved digital audio playback synchronized to asynchronous clock |
US6377916B1 (en) | 1999-11-29 | 2002-04-23 | Digital Voice Systems, Inc. | Multiband harmonic transform coder |
EP1160764A1 (de) | 2000-06-02 | 2001-12-05 | Sony France S.A. | Morphologische Kategorien für Sprachsynthese |
WO2012111767A1 (ja) * | 2011-02-18 | 2012-08-23 | 株式会社エヌ・ティ・ティ・ドコモ | 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、及び音声符号化プログラム |
US9865247B2 (en) | 2014-07-03 | 2018-01-09 | Google Inc. | Devices and methods for use of phase information in speech synthesis systems |
EP2988300A1 (de) * | 2014-08-18 | 2016-02-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Schalten von Abtastraten bei Audioverarbeitungsvorrichtungen |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3360610A (en) * | 1964-05-07 | 1967-12-26 | Bell Telephone Labor Inc | Bandwidth compression utilizing magnitude and phase coded signals representative of the input signal |
US3369077A (en) * | 1964-06-09 | 1968-02-13 | Ibm | Pitch modification of audio waveforms |
AT258366B (de) * | 1964-10-16 | 1967-11-27 | Ibm Oesterreich Internationale | Anordnung zur Umformung der Kanalwerte eines impulserregten Kanalvocoders |
US3828132A (en) * | 1970-10-30 | 1974-08-06 | Bell Telephone Labor Inc | Speech synthesis by concatenation of formant encoded words |
-
1974
- 1974-06-05 US US05/476,577 patent/US3982070A/en not_active Expired - Lifetime
-
1975
- 1975-06-03 DE DE2524497A patent/DE2524497C3/de not_active Expired
- 1975-06-04 CA CA228,526A patent/CA1046642A/en not_active Expired
- 1975-06-05 JP JP50067135A patent/JPS516407A/ja active Granted
Also Published As
Publication number | Publication date |
---|---|
JPS516407A (en) | 1976-01-20 |
DE2524497B2 (de) | 1978-12-14 |
CA1046642A (en) | 1979-01-16 |
US3982070A (en) | 1976-09-21 |
DE2524497C3 (de) | 1979-08-09 |
USB476577I5 (de) | 1976-01-20 |
JPS5533079B2 (de) | 1980-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE69634645T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE2934489C2 (de) | ||
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE2659096C2 (de) | ||
DE60303214T2 (de) | Verfahren zur reduzierung von aliasing-störungen, die durch die anpassung der spektralen hüllkurve in realwertfilterbanken verursacht werden | |
DE69910239T2 (de) | Verfahren und vorrichtung zur adaptiven bandbreitenabhängigen grundfrequenzsuche für die kodierung breitbandiger signale | |
DE19604273C2 (de) | Verfahren und Vorrichtung zum Durchführen einer Suche in einem Kodebuch im Hinblick auf das Kodieren eines Klangsignales, Zellkommunikationssystem, Zellnetzwerkelement und mobile Zell-Sender-/Empfänger-Einheit | |
DE60226308T2 (de) | Quantisierung der Anregung in einem Geräuschrückkopplungskodierungssytem mit allgemeiner Rauschformung | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
DE2500839B2 (de) | Elektronisches Musikinstrument mit Sinustabellenspeicher | |
DE3012771C2 (de) | ||
DE2636032C3 (de) | Elektrische Schaltungsanordnung zum Extrahieren der Grundschwingungsperiode aus einem Sprachsignal | |
DE2404431B2 (de) | Elektronisches Musikinstrument | |
EP1525576B1 (de) | Vorrichtung und verfahren zum erzeugen einer komplexen spektraldarstellung eines zeitdiskreten signals | |
DE1965480C3 (de) | Gerat zur Umwandlung eines in graphischen Zeichen gedruckten Textes in gesprochene Worte | |
DE2622423B2 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DE69830816T2 (de) | Mehrstufige Audiodekodierung | |
DE3226538C2 (de) | LSP-Stimmsynthetisierer | |
DE60214121T2 (de) | Quantisierung der Anregung bei einem "noise-feedback" Kodierungsverfahren | |
DE2513127C2 (de) | Verfahren zum künstlichen Erzeugen eines musikalischen Klangs | |
DE3037276C2 (de) | Tonsynthesizer | |
DE3115884C2 (de) | ||
DE2435654C2 (de) | Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C3 | Grant after two publication steps (3rd publication) | ||
8339 | Ceased/non-payment of the annual fee |