DE3019823C2 - - Google Patents
Info
- Publication number
- DE3019823C2 DE3019823C2 DE3019823A DE3019823A DE3019823C2 DE 3019823 C2 DE3019823 C2 DE 3019823C2 DE 3019823 A DE3019823 A DE 3019823A DE 3019823 A DE3019823 A DE 3019823A DE 3019823 C2 DE3019823 C2 DE 3019823C2
- Authority
- DE
- Germany
- Prior art keywords
- speech
- data
- formant
- digital filter
- frequencies
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired
Links
- 230000015572 biosynthetic process Effects 0.000 claims description 32
- 238000003786 synthesis reaction Methods 0.000 claims description 31
- 230000009466 transformation Effects 0.000 claims description 8
- 238000000034 method Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 2
- 239000004065 semiconductor Substances 0.000 claims description 2
- 230000006870 function Effects 0.000 claims 7
- 230000009471 action Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 101000799321 Lytechinus pictus Actin, cytoskeletal 4 Proteins 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- BYHQTRFJOGIQAO-GOSISDBHSA-N 3-(4-bromophenyl)-8-[(2R)-2-hydroxypropyl]-1-[(3-methoxyphenyl)methyl]-1,3,8-triazaspiro[4.5]decan-2-one Chemical compound C[C@H](CN1CCC2(CC1)CN(C(=O)N2CC3=CC(=CC=C3)OC)C4=CC=C(C=C4)Br)O BYHQTRFJOGIQAO-GOSISDBHSA-N 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Electrophonic Musical Instruments (AREA)
Description
Die Erfindung bezieht sich auf einen Datenumsetzer gemäß dem
Oberbegriff des Patentanspruchs 1 sowie eine Sprachsyntheseschaltung
gemäß dem Oberbegriff des Patentanspruchs 12 mit einem solchen Datenumsetzer.
Es ist bei Sprachsyntheseschaltungen üblich, die menschlichen
Sprachbildungsorgane durch Synthese mittels eines Digitalfilters
nachzubilden, wobei zur Steuerung der Kennlinien
des Digitalfilters Sprachinformationskoeffizienten benutzt
werden. Beispiele dafür finden sich in den US-Patentschriften
39 75 587 und 40 58 676. Die Verwendung solcher Koeffizienten
als Filtersteuersignale erlaubt eine ziemlich genaue
Sprachsynthese, wobei die erforderlichen Bitraten typischerweise
bei 2400 bis 5000 Bits pro Sekunde liegen. Eine von
der Firma Texas Instruments Incorporated, Dallas, Texas,
hergestellte integrierte Schaltung zeigte kürzlich, daß Sprache
durch Synthese unter Verwendung von Sprachinformationskoeffizientendaten
gebildet werden kann, deren Rate 1200
Bits pro Sekunden beträgt. Diese integrierte Schaltung ist in
der DE-OS 29 17 161 beschrieben. Sprachinformationskoeffizientendaten
können mit Hilfe einer umfangreichen mathematischen
Analyse gewisser Formantfrequenzen und Formantbandbreiten
der menschlichen Sprache abgeleitet werden. Die erforderliche
Analyse ist jedoch zeitraubend, und sie ist für
die Echtzeitberechnung ohne Anwendung eines hochqualifizierten
Computersystems ungeeignet. Obgleich Formantfrequenzdaten
eigentlich einen größeren Sprachinformationsinhalt als
Sprachinformationskoeffizientendaten aufweisen, war die
Unfähigkeit, Formantfrequenzdaten auf Echtzeitbasis in Koeffizientendaten
umzusetzen, ein Hindernis auf dem Weg zu mit
niedriger Bitrate arbeitenden Sprachsynthesesystemen, in
denen Formantfrequenzdaten benutzt werden.
Der Erfindung liegt die Aufgabe zugrunde, einen Datenumsetzer
der eingangs angegebenen Art zu schaffen, der eine mit
niedriger Bitrate arbeitende Sprachsyntheseschaltung ermöglicht,
in der bei der Sprachsynthese von Formantfrequenzdaten
Gebrauch gemacht wird.
Erfindungsgemäß wird diese Aufgabe bezüglich des Datenumsetzers mit den im kennzeichnenden Teil
des Patentanspruchs 1 und bezüglich der Sprachsyntheseschaltung mit den im kennzeichnenden Teil des Patentanspruchs 12 angegebenen Merkmalen gelöst. Die Anwendung
der Taylor-Reihenentwicklung bei der Umsetzung der
Formantfrequenzdaten ergibt Sprachinformationskoeffizienten,
die die synthetische Bildung von Sprache mit hoher Qualität
ermöglichen.
Vorteilhafte Weiterbildungen der Erfindung sind in den Unteransprüchen
gekennzeichnet.
Die Erfindung wird nun anhand der Zeichnung beispielshalber
erläutert. Es zeigt
Fig. 1a und 1b ein Blockschaltbild der Hauptbaugruppen des
Datenumsetzers und
Fig. 2 eine Musterbitfolge, die bei dem Datenumsetzer
angewendet wird.
In der DE-OS 29 17 161 ist eine Sprachsynthesevorrichtung
beschrieben, in der von einem neuartigen Digitalfilter Gebrauch
gemacht wird. Eine Ausführungsform dieses Digitalfilters
kann ein zehnstufiges, mit zwei Multiplizierern ausgestattetes
Gitterfilter in einer Stufe verwirklichen. In dieser Ausführungsform
wird die Sprachsynthese mit Hilfe von zehn Reflexionskoeffizienten
erzielt, die wahlweise die Kennlinien des
Filters so steuern, daß die akustischen Eigenschaften der
menschlichen Stimmbildungsorgane nachgebildet werden. Diese
Reflexionskoeffizienten werden aus einer umfangreichen Analyse
der menschlichen Sprache abgeleitet, wobei zur synthetischen
Erzeugung der menschlichen Sprache in dieser Anordnung
typischerweise eine mittlere Bitrate von 1200 Bits pro Sekunde
erforderlich ist. Formantfrequenzdaten, die von sich aus mehr
Sprachinformation enthalten, können unter Anwendung des hier
zu beschreibenden Datenumsetzers in die zuvor genannten Reflexionskoeffizienten
umgesetzt werden, und bei einer Datenrate
von beispielsweise nur 300 Bits pro Sekunde kann eine
synthetische Sprache mit hoher Qualität erzeugt werden.
Wie zuvor erläutert wurde, ist das bisher angewendete Verfahren
zum Umsetzen von Formantmittenfrequenz und Formantbandbreiten
in Reflexionskoeffizienten ein komplizierter und zeitraubender
Prozeß, der normalerweise für eine Echtzeitsynthese unter
Verwendung einer monolithischen Halbleitervorrichtung oder
auch bei Verwendung eines Computers mittlerer Größe nicht
geeignet ist. Der Algorithmus zum Umsetzen der Koeffizienten
der Voraussagegleichung in Reflexionskoeffizienten erfordert
beispielsweise 140 Ganzzahladditionen, 65 reelle Additionen,
65 reelle Multiplikationen und 55 reelle Divisionen bei einem
System zehnter Ordnung. Wenn eine Echtzeitsynthese durchgeführt
werden soll, muß daher eine wesentlich einfachere Transformation
verfügbar sein.
Bei der Anwendung eines Systems mit vier Formanten
hat sich gezeigt, daß eine qualitativ hochwertige
synthetische Sprache erzeugt werden kann, wenn den Formantbandbreiten
und der Mittenfrequenz des vierten Formanten
feste Werte zugeordnet werden.
In dieser Ausführungsform werden die Nennbandbreiten folgendermaßen
gewählt: B 1=75 Hz, B 2=50 Hz, B 3=100 Hz und B 4=100 Hz.
Wenn ein wesentlich kleinerer Wert als einer der oben
angegebenen Werte benutzt wird (mehr als 30% kleiner), ist
die synthetisch gebildete Sprache verschwommen. Vermutlich
ist dies darauf zurückzuführen, daß die Impulsantwort unnatürlich
lang für die menschliche Sprache ist. Wenn ein wesentlich
größerer Wert als einer der oben angegebenen Werte angewendet
wird, klingt die synthetisch gebildete Sprache dumpf,
da der Formant nicht scharf definiert ist. Diese Werte sind
in brauchbarer Übereinstimmung mit den mittleren Werten
B 1=80 Hz, B 2=80 Hz und B 3=100 Hz, die in dem Aufsatz
von Gunnar Fant in "On Predictability of Formant levels and
Spectrum Envelopes from Formant Frequencies" für Roman Jakobson,
Morton & Co., 1956, angegeben sind. Aufgrund von Untersuchungen
an Spektrogrammen einer Anzahl von Testsätzen und Testwörtern
wurde der vierten Formantmittenfrequenz der Wert 3300 Hz
zugeordnet. Die 7738-Intensität des vierten Formanten ist
in der synthetisch gebildeten Sprache sehr schwach, da die
ersten drei Formanten das Absenken der Filterfrequenzantwort
auf 36 dB pro Oktave für Frequenzen bewirken, die größer
als der dritte Formant sind. Wenn also der der Formantmittenfrequenz
F 4 zugewiesene Wert zu groß ist, wird der vierte
Formant vollständig eliminiert, und wenn der der Formantmittenfrequenz
F 4 zugewiesene Wert innerhalb des Bereichs
der möglichen Werte für die Frequenz F 3 liegt, kann eine unnatürliche
Resonanz auftreten. Bei Anwendung der erwähnten
festen Werte hängt jeder Reflexionskoeffizient Ki von den
ersten drei Formantmittenfrequenzen F 1, F 2 und F 3 ab. Bei
Anwendung einer Taylor-Reihenentwicklung ist es möglich, die
Gleichung (1) angenähert gleich der Gleichung (2) auszudrücken,
wobei Ki für F 1 = F 10, F 2 = F 20 und F 3 = F 30 bekannt ist.
Wenn Ki für eine geeignete Anzahl von Werten der Frequenzen F 1,
F 2 und F 3 bekannt ist, kann zur Annäherung von Ki für unbekannte
Frequenzwerte F 1, F 2 und F 3 eine lineare Interpolation
angewendet werden. Zur Verhinderung instabiler Filterkoeffizienten
werden die unter Anwendung dieses Verfahrens gefundenen
Absolutwerte von Ki auf Werte begrenzt, die kleiner als 1
sind.
Außerdem können die partiellen Ableitungen ∂f/∂ zur Minimalisierung
der während der Synthese tatsächlich durchgeführten
Berechnungen vorausberechnet und in einer Tabelle abgespeichert
werden.
In den Fig. 1a und 1b sind in einem Blockschaltbild die
Hauptbestandteile einer Ausführungsform des Datenumsetzers
dargestellt. In der dargestellten Ausführungsform wird eine
Folge codierter Daten mit 300 Bits pro Sekunde aus einem
Festspeicher 12 einem Eingangsregister 100, einer Nachschlagetabelle
101 und einem LPC4-Register 102 zugeführt. Jeder
Datenfolge gehen gewisse Abstandsparameter oder N-Zahlen
voraus. Diese Abstandsparameter sind codierte Digitalzahlen,
die anzeigen, wie viele Rahmen in der Folge enthalten sind
und mit welcher Rahmenrate jeder spezielle Parameter während
der Folge aktualisiert wird. In der beschriebenen Ausführungsform
ist es vorzugsweise wirksamer, nur diejenigen Parameter
zu übertragen, die sich während eines gegebenen Sprachbereichs
der Folge wesentlich geändert haben. Experimente haben gezeigt,
daß qualitativ hochwertige Sprache synthetisch erzeugt werden
kann, wenn die Abstandsparameter typischerweise acht Datenrahmen
entsprechen und üblicherweise im Bereich von fünf bis
zehn Rahmen liegen. Ein zusätzlicher codierter Faktor kennzeichnet
die Folge als stimmhafte oder stimmlose Sprache.
Eine Musterbitfolge ist in Fig. 2 dargestellt.
Während einer stimmlosen Sprache macht die Sprachsynthesevorrichtung
gemäß der DE-OS 29 17 161 von Reflexionskoeffizienten
K 1 bis K 4 Gebrauch. Da stimmlose Sprache nicht aus Formantfrequenzdaten,
sondern nur aus einem breiten Sprektrum mit weißem
Rauschen besteht, genügen diese vier Reflexionskoeffizienten
zur Synthese stimmloser Sprache. Wenn der hier zu beschreibende
Datenumsetzer einen stimmlosen Sprachrahmen feststellt, empfängt
das LPC4-Register 102 die Reflexionskoeffizienten K 1 bis K 4,
und er gibt diese Reflexionskoeffizienten direkt ohne Umsetzung
in einen FIFO-Puffer 116 ein. Diese Koeffizienten werden
dann in eine für die Sprachsynthesevorrichtung gemäß der DE-OS 29 17 161
brauchbare Form mittels des Codierers 117 codiert und zusammen
mit Tonhöhen- und Energieparametern in die Sprachsynthesevorrichtung
eingegeben.
Während stimmhafter Sprachrahmen decodiert die Nachschlagetabelle
101 die Abstandsparameter N, und sie gibt die Abstandsparameter
in eine Vergleichszelle 104 ein. Die Vergleichszelle
104 wird von einem Rahmenzähler 105 getaktet, und bei der Erzeugung
jedes Rahmens prüft sie, ob der bestimmte Rahmen ein
Rahmen ist, in dem ein Parameter aktualisiert wird; außerdem
stellt sie fest, welcher Parameter aktualisiert wird. Die
Aktualisierungsleitung steuert den Zähler 105, der dem Eingangsregister
100 erlaubt, den codierten Wert eines gegebenen,
sich ändernden Parameters einzugeben. Die Nachschlagetabelle
103 decodiert die Ausgangssignale des Eingangsregisters 100,
und sie liefert Istwerte für Tonhöhen-, Energie- und
Formantdaten an ein Interpolationsregister 106. Diese Anfangswerte
für die Tonhöhe, die Energie und die Formantfrequenz
werden als Zielwerte gespeichert, und der gesamte Vorgang
wird dann wiederholt. Wenn einmal zwei aufeinanderfolgende
Werte jedes Parameters im Interpolationsregister 106 vorhanden
sind, führt der Interpolator 107 eine übliche Interpolationsberechnung
zur Erzeugung eines konstanten Stroms aus Sprachparametern
mit der gewünschten Folgefrequenz durch. Der Interpolator
107 empfängt als Eingangssignale auch die Abstandsparameter
N aus der Vergleichszelle 104. Dies ist deshalb der
Fall, weil in der beschriebenen Ausführungsform vorzugsweise
gewisse Parameter häufiger als andere Parameter aktualisiert
werden. Die Abstandsparameter sind daher notwendige Eingangsgrößen,
damit bestimmt werden kann, wieviele Interpolationsvorgänge
zwischen jeweils zwei aufeinanderfolgenden Werten
eines gegebenen Parameters notwendig sind, um einen konstanten,
regelmäßigen Strom aller Sprachparameter zu erzeugen. Tonhöhen-
und Energiefaktoren werden vom Interpolator 107 abgegeben und
in den FIFO-Puffer 116 eingegeben, damit die Verarbeitung der
interpolierten Formantfrequenzdaten in Reflexionskoeffizienten
abgewartet wird.
Ein Festspeicher 108 speichert eine Auswahl von Werten für
gewisse vorbestimmte Formantmittenfrequenzen. Ein Komparator
109 übernimmt die erste Formantmittenfrequenz und führt eine
vollständige Iteration durch den Festspeicher 108 durch, damit
die beste Übereinstimmung mit den verfügbaren gespeicherten
Werten für diesen Formanten gefunden wird. Der gewählte
Wert wird zu einer Register- und Codiereinheit 111 ausgegeben,
und der Fehlerwert, also die Differenz zwischen den tatsächlichen
Werten des ersten Formanten und dem gespeicherten besten
Übereinstimmungswert, wird zu einem Multiplizierer 114 ausgegeben.
Dieser Vorgang wird für den zweiten und den dritten
Formanten wiederholt. Experimente haben gezeigt, daß nur drei
mögliche Werte für die ersten zwei Formantmittenfrequenzen und
zwei Werte für die dritte Formantmittenfrequenz bei Abspeicherung
im Festspeicher 108 unter Anwendung der hier zu beschreibenden
Anordnung synthetische Sprache mit annehmbarer Qualität
erzeugen können. Die Register- und Codiereinheit 111 liefert
nach Eingeben aller drei Formantmittenfrequenzen eine codierte
Darstellung der bestimmten Kombination an die Decodier-
und Festspeichereinheit 113, wobei diese Kombination als partielle
Adresse für den Speicherplatz der vorberechneten Werte
von fi, ∂fi/∂F 1, ∂fi/∂F 2 und ∂fi/∂F 3 im Festspeicher 113 wirkt.
Diese Werte sind der umgesetzte Reflexionskoeffizient für
jeden der am besten übereinstimmenden Formanten und seine
partiellen Ableitungen. Ein K-Zähler 112 liefert den Rest der
Adresse für den Festspeicher 113 durch Iteration durch die
gewünschten Reflexionskoeffizientenzahlen K 1 bis K 8. Die
in der DE-OS 29 17 161 beschriebene Ausführungsform der
Sprachsynthesevorrichtung macht von zehn Reflexionskoeffizienten
K 1 bis K 10 Gebrauch; es hat sich jedoch gezeigt,
daß feste Werte für die Koeffizienten K 9 und K 10 die Qualität
der mittels der Sprachsynthesevorrichtung nach der
DE-OS 29 17 161 erzeugten Sprache nicht beeinträchtigt,
wenn sie im Zusammenhang mit der hier zu beschreibenden
Anordnung verwendet wird. Für jede der achtzehn möglichen
Kombinationen aus Formantmittenfrequenzen (3 × 3 × 2) werden
also acht Reflexionskoeffizienten benutzt; da für jeden
Reflexionskoeffizienten (fi, ∂fi/∂F 1, ∂fi/∂F 2, ∂fi/∂F 3)
vier Werte gespeichert sind, muß der Festspeicher 113 nur
576 Bytes (18 × 8 × 4) speichern können. Da jeder Reflexionskoeffizient
oder "K-Wert" für die laufende Kombination aus
Formantfrequenzen im Festspeicher 113 adressiert wird, werden
die Werte für f 1, ∂fi/∂F 1, ∂fi/∂F 2 und ∂fi/∂F 3 zum Multiplizierer
114 ausgegeben. Der Multiplizierer 114 multipliziert
jede der partiellen Ableitungen mit dem entsprechenden
Fehlersignal aus dem Komparator 109, und ein serieller Addierer
115 summiert das Produkt dieser Multiplikationen. Das
Ausgangssignal des seriellen Addierers 115 ist daher die
Lösung der Gleichung (2). Die Wirkung des Multiplizierers 114
und des seriellen Addierers 115 setzt somit die bekannten Reflexionskoeffizienten
und die Fehlersignale in entsprechende
Reflexionskoeffizienten um, die den eingegebenen Formantfrequenzen
entsprechen. Jeder Wert von Ki für i = 1 bis i = 8
wird berechnet und in den FIFO-Puffer 116 eingegeben. Wenn
ein ganzer Datenrahmen in den FIFO-Puffer 116 eingegeben ist,
wird er vom Codierer 117 in das von der Synthesevorrichtung
gemäß der DE-OS 29 17 161 benötigte Format codiert.
Der Datenumsetzer wurde hier zwar im Zusammenhang mit der
Sprachsynthesevorrichtung gemäß der DE-OS 29 17 161 beschrieben,
doch ist für den Fachmann erkennbar, daß eine Echtzeit-Umsetzungsschaltung
zum Umsetzen von Formantmittenfrequenzdaten
in Sprachsynthese-Steuerinformationen in jeder beliebigen
Sprachsynthesevorrichtung angewendet werden kann, die unter
Verwendung solcher Filtersteuerkoeffizienten arbeitet. Eine
einfache Modifikation der Schaltung des Codierers 117 macht den
Datenumsetzer für Systeme brauchbar, die mit Autokorrelationskoeffizienten
oder mit partiellen Autokorrelationskoeffizienten
zusätzlich zu dem hier beschriebenen System mit quantisierten
Reflexionskoeffizienten arbeiten.
Claims (13)
1. Datenumsetzer für eine Sprachsyntheseanordnung, die
ein von Sprachinformationskoeffizienten gesteuertes Digitalfilter
enthält, mit einer Eingangsvorrichtung, die
durch Analyse der menschlichen Sprache erhaltene Formantfrequenzdaten
empfängt, einer an die Eingangsvorrichtung
angeschlossenen digitalen Umsetzerschaltung zum Verarbeiten
der Formantfrequenzdaten in eine für die Verwendung in der
Sprachsyntheseanordnung geeignete Form, und einer an die
digitale Umsetzerschaltung angeschlossene Ausgangsvorrichtung,
die die verarbeitete Form der Formantfrequenzdaten an
das Digitalfilter abgibt, dadurch gekennzeichnet, daß die
digitale Umsetzerschaltung (Fig. 1b; 108 bis 115) die
Formantfrequenzdaten durch Anwendung einer Taylor-Reihenentwicklung
in Sprachinformationskoeffizienten
in Echtzeit umsetzt und diese an das Digitalfilter
abgibt.
2. Datenumsetzer nach Anspruch 1, wobei durch Analyse
der menschlichen Sprache erhaltene Formantfrequenzgruppen
in Sprachinformationskoeffizienten als
digitale Filtersteuerdaten umzusetzen sind,
dadurch gekennzeichnet, daß die Eingangsvorrichtung
mehrere Eingangsgruppen aus Formantfrequenzen empfängt,
daß die digitale Umsetzerschaltung eine Speichervorrichtung
(108) zum Speichern vorbestimmter Modellgruppen
aus Formantfrequenz enthält, daß an die Eingangsvorrichtung
und an die Speichervorrichtung (108) eine
Vergleichsvorrichtung (109) angeschlossen ist, die eine
ausgewählte Modellgruppe aus Formantfrequenzen bestimmt,
die an eine der von der Eingangsvorrichtung
empfangenen Eingangsgruppen aus Formantfrequenzen am
besten angenähert ist, daß an die Vergleichsvorrichtung
(109) eine Transformationsvorrichtung (111, 112, 113)
angeschlossen ist, die die ausgewählte Modellgruppe aus
Formantfrequenzen in die Modellgruppe aus Digitalfilter-Steuerdaten
transformiert, und daß an die Transformationsvorrichtung
(111, 112, 113) eine Korrekturvorrichtung
(114, 115) angeschlossen ist, die die Modellgruppe
aus Digitalfilter-Steuerdaten zur Erzeugung einer
Gruppe korrigierter Digitalfilter-Steuerdaten korrigiert,
die der Eingangsgruppe aus Formantfrequenzen zugeordnet
ist.
3. Datenumsetzer nach Anspruch 2, dadurch gekennzeichnet,
daß die digitale Umsetzerschaltung (Fig. 1b; 108
bis 115) einen Fehlersignalgenerator enthält, der an
die Eingangsvorrichtung und an die Vergleichsvorrichtung
(109) angeschlossen ist und ein Fehlersignal erzeugt,
das die Differenz zwischen der ausgewählten Gruppe
der Modellgruppen aus Formantfrequenzen und der Eingangsgruppe
aus Formantfrequenzen angibt, wobei die
Korrekturvorrichtung (114, 115), die an die Transformationsvorrichtung
(111, 112, 113) angeschlossen
ist, auch mit dem Fehlersignalgenerator verbunden ist,
damit die Modellgruppe aus Digitalfilter-Steuerdaten
in Abhängigkeit von dem Fehlersignal bei der Bildung
der Gruppe korrigierter Digitalfilter-Steuerdaten
korrigiert wird.
4. Datenumsetzer nach Anspruch 2 oder 3, dadurch gekennzeichnet,
daß die digitale Umsetzerschaltung
(Fig. 1b; 108 bis 115) eine Interpolationsvorrichtung
(Fig. 1a; 106, 107) enthält, die mit der Eingangsvorrichtung
verbunden ist und aufeinanderfolgende Gruppen
aus Formantfrequenzen empfängt, damit ein interpoliertes
Ausgangssignal aus Formantfrequenz-Sprachparametern
als interpolierte Gruppen von Formantfrequenzdaten
erhalten werden, daß die Vergleichsvorrichtung
(109) mit der Interpolationsvorrichtung (Fig. 1a; 106,
107) so verbunden ist, daß die ausgewählte Gruppe der
Modellgruppen aus Formantfrequenzen aus der Speichervorrichtung
(108) als diejenige Gruppe bestimmt wird,
die an eine der interpolierten Gruppen aus Formantfrequenzdaten,
die von der Vergleichsvorrichtung untersucht
wird, am besten angenähert ist, und daß mit der
Vergleichsvorrichtung (109) eine weitere Speichervorrichtung
(Fig. 1b; 111) verbunden ist, die mehrere
interpolierte Gruppen aus Formantfrequenzdaten nacheinander
speichert, damit eine bestimmte Kombination mehrerer
Formantfrequenzen erzeugt wird.
5. Datenumsetzer nach Anspruch 4, dadurch gekennzeichnet,
daß die digitale Umsetzerschaltung (Fig. 1b; 108
bis 115) einen Zähler (112) enthält, daß die Transformationsvorrichtung
(118, 112, 113) mit der weiteren
Speichervorrichtung (111) und dem Zähler (112) verbunden
ist und jeweils Teiladressen empfängt, die insgesamt
ausgewählte vorher bestimmte Werte von Transformationsfunktionen
adressieren, die darin gespeichert sind,
und daß mit der Transformationsspeichervorrichtung (113)
ein Rechenwerk (114, 115) verbunden ist, das die ausgewählten
vorherbestimmten Werte von Transformationsfunktionen
als Ausgangssignale als das Ausgangssignal
verarbeiten, das in Digitalfilter-Steuerdaten entsprechend
der Eingangsgruppe aus Formantfrequenzen umgesetzt
wird.
6. Datenumsetzer nach einem der Ansprüche 3 bis 5,
dadurch gekennzeichnet, daß die Korrekturvorrichtung
eine Multipliziereinheit (114) und eine serielle Addiereinheit
(115) enthält, die die Modellgruppe aus Digitalfilter-Steuerdaten
in Abhängigkeit von dem Fehlersignal
korrigieren.
7. Datenumsetzer nach einem der Ansprüche 2 bis 6,
dadurch gekennzeichnet, daß die Transformationsvorrichtung
ein Festspeicher (113) ist, der in ausgewählter
Weise von einer Zahl adressiert wird, die die ausgewählte
Modellgruppe aus Formantfrequenzen repräsentiert.
8. Datenumsetzer nach einem der Ansprüche 2 bis 7,
dadurch gekennzeichnet, daß die Modellgruppen aus Formantfrequenzen
aus wenigstens zwei verschiedenen Mittelfrequenzen
für jeden der ersten drei Formanten der
menschlichen Sprache bestehen.
9. Datenumsetzer nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß die Gruppe korrigierter
Sprachinformationskoeffizienten aus quantisierten
Reflexionskoeffizienten besteht.
10. Datenumsetzer nach Anspruch 1, dadurch gekennzeichnet,
daß die Formantfrequenzdaten die Mittenfrequenzen
der ersten drei Formanten der menschlichen Sprache sind.
11. Datenumsetzer nach einem der vorhergehenden Ansprüche,
dadurch gekennzeichnet, daß er als monolithische
Halbleiterschaltung integrierbar ist.
12. Sprachsyntheseschaltung mit einem Datenumsetzer
nach einem der Ansprüche 1 bis 11, einer Speichervorrichtung
zum Speichern ausgewählter, durch Analyse
der menschlichen Sprache erhaltener Formantfrequenzdaten,
einer Sprachsynthesevorrichtung, die ein Digitalfilter
zur Erzeugung eines die menschliche Sprache
repräsentierenden Analogsignals am Filterausgang in
Abhängigkeit von der Eingabe digitaler Sprachdaten in
das Filter enthält, und einer Tonerzeugungsvorrichtung
mit einem Wandler zum Umsetzen des die menschliche
Sprache repräsentierenden Analogsignals in ein hörbares
Signal, dadurch gekennzeichnet, daß der Datenumsetzer
(108 bis 115) mit der Speichervorrichtung (102,
106) verbunden ist, damit die Formantfrequenzdaten
in Sprachinformationskoeffizienten in Echtzeit umgesetzt
werden, und daß die Sprachsynthesevorrichtung
(118) ein die menschliche Sprache repräsentierendes
Analogsignal am Ausgang des Digitalfilters in Abhängigkeit
von den Sprachinformationskoeffizienten erzeugt.
13. Sprachsyntheseschaltung nach Anspruch 12, dadurch
gekennzeichnet, daß in der Speichervorrichtung
(102, 106) durch Analyse der menschliche Sprache
erhaltene Daten für stimmhafte und stimmlose Sprache
gespeichert sind, die ausgewählte Formantfrequenzdaten
und Sprachinformationskoeffizienten repräsentieren,
und daß die Sprachsynthesevorrichtung (118) ein die
menschliche Sprache repräsentierendes Analogsignal am
Ausgang des Digitalfilters in Abhängigkeit von den dem
Digitalfilter über die Speichervorrichtung (102) zugeführten,
Daten für stimmlose Sprache repräsentierenden
Sprachinformationskoeffizienten erzeugt, wobei die
Sprachinformationskoeffizienten dem Digitalfilter über
den Datenumsetzer (108 bis 115) zugeführt werden, wie
sie von Formantfrequenzdaten, die Daten für stimmhafte
Sprache repräsentieren, abgeleitet werden.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US06/042,737 US4304965A (en) | 1979-05-29 | 1979-05-29 | Data converter for a speech synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3019823A1 DE3019823A1 (de) | 1980-12-11 |
DE3019823C2 true DE3019823C2 (de) | 1989-06-15 |
Family
ID=21923489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19803019823 Granted DE3019823A1 (de) | 1979-05-29 | 1980-05-23 | Datenumsetzer und damit ausgestattete sprachsyntheseanordnung |
Country Status (5)
Country | Link |
---|---|
US (1) | US4304965A (de) |
JP (1) | JPS55161300A (de) |
DE (1) | DE3019823A1 (de) |
FR (1) | FR2458121B1 (de) |
GB (1) | GB2050125B (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4033350B4 (de) * | 1989-10-20 | 2004-04-08 | Canon K.K. | Verfahren und Vorrichtung für die Sprachverarbeitung |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4661915A (en) * | 1981-08-03 | 1987-04-28 | Texas Instruments Incorporated | Allophone vocoder |
EP0107659A4 (de) * | 1982-04-29 | 1985-02-18 | Massachusetts Inst Technology | Sprachcodierer und synthetisator. |
US4624012A (en) | 1982-05-06 | 1986-11-18 | Texas Instruments Incorporated | Method and apparatus for converting voice characteristics of synthesized speech |
JPS58196598A (ja) * | 1982-05-13 | 1983-11-16 | 日本電気株式会社 | 法則型音声合成装置 |
US4675840A (en) * | 1983-02-24 | 1987-06-23 | Jostens Learning Systems, Inc. | Speech processor system with auxiliary memory access |
US4639877A (en) * | 1983-02-24 | 1987-01-27 | Jostens Learning Systems, Inc. | Phrase-programmable digital speech system |
US4703505A (en) * | 1983-08-24 | 1987-10-27 | Harris Corporation | Speech data encoding scheme |
US4797930A (en) * | 1983-11-03 | 1989-01-10 | Texas Instruments Incorporated | constructed syllable pitch patterns from phonological linguistic unit string data |
DE3586671T2 (de) * | 1984-07-04 | 1993-03-25 | Toshiba Kawasaki Kk | Verfahren und einrichtung zur analyse und synthese von menschlicher sprache. |
JP3219093B2 (ja) * | 1986-01-03 | 2001-10-15 | モトロ−ラ・インコ−ポレ−テッド | 外部のボイシングまたはピッチ情報を使用することなく音声を合成する方法および装置 |
US4771465A (en) * | 1986-09-11 | 1988-09-13 | American Telephone And Telegraph Company, At&T Bell Laboratories | Digital speech sinusoidal vocoder with transmission of only subset of harmonics |
US4905177A (en) * | 1988-01-19 | 1990-02-27 | Qualcomm, Inc. | High resolution phase to sine amplitude conversion |
US6032028A (en) * | 1996-04-12 | 2000-02-29 | Continentral Electronics Corporation | Radio transmitter apparatus and method |
JP3444131B2 (ja) * | 1997-02-27 | 2003-09-08 | ヤマハ株式会社 | 音声符号化及び復号装置 |
US11471088B1 (en) * | 2015-05-19 | 2022-10-18 | The Board Of Trustees Of The Leland Stanford Junior University | Handheld or wearable device for recording or sonifying brain signals |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3828132A (en) * | 1970-10-30 | 1974-08-06 | Bell Telephone Labor Inc | Speech synthesis by concatenation of formant encoded words |
US3808370A (en) * | 1972-08-09 | 1974-04-30 | Rockland Systems Corp | System using adaptive filter for determining characteristics of an input |
FR2238412A5 (de) * | 1973-07-20 | 1975-02-14 | Trt Telecom Radio Electr | |
JPS5515720B2 (de) * | 1973-07-31 | 1980-04-25 | ||
DE2435654C2 (de) * | 1974-07-24 | 1983-11-17 | Gretag AG, 8105 Regensdorf, Zürich | Verfahren und Vorrichtung zur Analyse und Synthese von menschlicher Sprache |
US3975587A (en) * | 1974-09-13 | 1976-08-17 | International Telephone And Telegraph Corporation | Digital vocoder |
US4058676A (en) * | 1975-07-07 | 1977-11-15 | International Communication Sciences | Speech analysis and synthesis system |
JPS5228211A (en) * | 1975-08-28 | 1977-03-03 | Nippon Telegr & Teleph Corp <Ntt> | Tone analysis and composite system |
GB2020077B (en) * | 1978-04-28 | 1983-01-12 | Texas Instruments Inc | Learning aid or game having miniature electronic speech synthesizer chip |
-
1979
- 1979-05-29 US US06/042,737 patent/US4304965A/en not_active Expired - Lifetime
-
1980
- 1980-05-01 GB GB8014537A patent/GB2050125B/en not_active Expired
- 1980-05-23 DE DE19803019823 patent/DE3019823A1/de active Granted
- 1980-05-28 JP JP7023780A patent/JPS55161300A/ja active Granted
- 1980-05-29 FR FR8011919A patent/FR2458121B1/fr not_active Expired
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4033350B4 (de) * | 1989-10-20 | 2004-04-08 | Canon K.K. | Verfahren und Vorrichtung für die Sprachverarbeitung |
Also Published As
Publication number | Publication date |
---|---|
JPH0160840B2 (de) | 1989-12-26 |
GB2050125A (en) | 1980-12-31 |
DE3019823A1 (de) | 1980-12-11 |
US4304965A (en) | 1981-12-08 |
FR2458121B1 (fr) | 1985-12-13 |
GB2050125B (en) | 1984-03-07 |
FR2458121A1 (fr) | 1980-12-26 |
JPS55161300A (en) | 1980-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3019823C2 (de) | ||
DE3244476C2 (de) | ||
DE69420547T2 (de) | Wellenform-mischungsverfahren für system zur text-zu-sprache umsetzung | |
DE19647298C2 (de) | Kodiersystem | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE3853916T2 (de) | Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle. | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE69032168T2 (de) | Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden | |
DE69530442T2 (de) | Vorrichtung zur Sprachkodierung | |
DE69013738T2 (de) | Einrichtung zur Sprachcodierung. | |
DE69227401T2 (de) | Verfahren zum Kodieren und Dekodieren von Sprachsignalen | |
DE69230308T2 (de) | Transformationsverarbeitungsgerät und -verfahren und Medium zum Speichern komprimierter Digitaldaten | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE69431445T2 (de) | Verfahren und Vorrichtung zur Sprachkodierung | |
DE69329569T2 (de) | Digitale Kodierung von Sprachsignalen | |
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
DE69121411T2 (de) | Methode und gerät zur codierung von analogen signalen | |
DE69413002T2 (de) | Text-zu-sprache-Uebersetzungssystem unter Verwendung von Sprachcodierung und Decodierung auf der Basis von Vectorquantisierung | |
DE69033510T2 (de) | Numerischer sprachkodierer mit verbesserter langzeitvorhersage durch subabtastauflösung | |
DE69613611T2 (de) | System zur Speicherung von und zum Zugriff auf Sprachinformation | |
DE69017842T2 (de) | Verfahren und Einrichtung zur Codierung von Prädiktionsfiltern in Vocodern mit sehr niedriger Datenrate. | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
DE60028500T2 (de) | Sprachdekodierung | |
DE2622423B2 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
DE69702261T2 (de) | Sprachkodierung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8128 | New person/name/address of the agent |
Representative=s name: PRINZ, E., DIPL.-ING. LEISER, G., DIPL.-ING., PAT. |
|
8110 | Request for examination paragraph 44 | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition |