DE2551632A1 - Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache - Google Patents
Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden spracheInfo
- Publication number
- DE2551632A1 DE2551632A1 DE19752551632 DE2551632A DE2551632A1 DE 2551632 A1 DE2551632 A1 DE 2551632A1 DE 19752551632 DE19752551632 DE 19752551632 DE 2551632 A DE2551632 A DE 2551632A DE 2551632 A1 DE2551632 A1 DE 2551632A1
- Authority
- DE
- Germany
- Prior art keywords
- signals
- speech
- short
- intensity
- memory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000003407 synthetizing effect Effects 0.000 title 1
- 238000001228 spectrum Methods 0.000 claims abstract description 22
- 230000002194 synthesizing effect Effects 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 4
- 230000015654 memory Effects 0.000 claims description 77
- 238000000605 extraction Methods 0.000 claims 2
- 241000282994 Cervidae Species 0.000 claims 1
- 230000003213 activating effect Effects 0.000 claims 1
- 230000015572 biosynthetic process Effects 0.000 abstract description 10
- 238000003786 synthesis reaction Methods 0.000 abstract description 9
- 239000013598 vector Substances 0.000 description 18
- 230000003595 spectral effect Effects 0.000 description 7
- 238000009499 grossing Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000001944 accentuation Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 230000000737 periodic effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004904 shortening Methods 0.000 description 1
- 210000003462 vein Anatomy 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
Description
BLUMBACH · WESER . BERGEN . KRAMER ZWIRNER · HIRSCH
PATENTANWÄLTE IN MÜNCHEN UND WIESBADEN
Postadresse München: Patentconsult 8 München όΟ Radeckestraße 43 Telefon (089) 883603/883604 Telex Ü5-212313
Postadresse Wiesbaden: Patentconsult 62 Wiesbaden Sonnenberger Straße 43 Telefon (06121)562943/561998 Telex 04-186237
Western Electric Company, Incorporated Flanagan 32 New York, N.Y. / USA
Verfahren und Vorrichtung zum Synthetisieren einer natürlich klingenden Sprache
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Erzeugung und Synthetisierung einer natürlich klir^nden
Sprache.
Zum Synthetisieren von Sprachsignalen aus gespeicherter Information
ist es generell vorteilhaft, die gespeicherten Sprachelemente in einen bequemen und wirkungsvollen Kode zu
kodieren. Die meisten Sprachsynthetisiervorrichtungen verwenden kodierte Sprachsignale, die auf der Formantinformation beruht,
die in den Phonemen der Sprachsignale enthalten ist. In einem gewissen Sinn ist das die natürliche Methode zur Sprach-
609822^072?
München*: K.arr.er ■ Dr.Weser · Hirsch — Wiesbaden: Blumoach · Dr. Bergen · Zwirner
7551632
!codierung, da sie den Prozeß wiederspiegelt, durch welchen die
Sprache in der menschlichen Kehle durch Lautbildung erzeugt wird. Eine solche Sprachsynthetisieranordnung ist in der US-PS
3 828 132 beschrieben.
Es gibt jedoch andere Schemata zur Kodierung analoger Signale. Ein solches Schema umfaßt beispielsweise die Verwendung von
Vocodermethoden zur Kodierung von Analogsignalen und insbesondere von'Spradi Signalen. Dieses Schema ist in der US-PS
3 360 610 erläutert, welche eine Nachrichtenanlage beschreibt, bei welcher zu übertragende Sprachsignale in mehrere schmalbandige
Komponenten kodiert werden, die eine Gesamtbandbreite belegen, die schmaler als diejenige der nicht kodierten Sprache
ist. Kurz zusammengefaßt: eine Phasenvocoderkodierung wird
dadurch ausgeführt, daß bei jeder Frequenz iJ. einer Gruppe
von vorbestimmten Frequenzen, die den Frequenzbereich eines eingehenden Sprachsignals überspannen, ein Signalpaar berechnet
wird, das den Realteil bzw. Imaginärteil der Kurzzeit-F.ouriertransformierten
des ursprünglichen Sprachsignals darstellen. Von jedem solchen Signalpaar wird ein Paar schmalbandiger
Signale erzeugt; das eine Signal JS1I stellt den Betrag
der Kurzzeit-Fouriertransformierten dar und das andere Signal
«
φ^ repräsentiert die zeitliche Ableitung des Phasenwinkels der
φ^ repräsentiert die zeitliche Ableitung des Phasenwinkels der
Kurzzeit-Fouriertransformierten. Bei der zuvor genannten Nach-
609 82 2/07 22
richtenanlage werden diese schmalbandigen Signale zu einem
Empfänger übertragen, wo eine Kopie des ursprünglichen Signals dadurch wiederhergestellt wird, daß mehrere Cosinussignale
erzeugt werden mit denselben vorbestimmten Frequenzen, bei welchen die Kurzzeit-Fouriertransformierten bewertet worden
sind. Jedes Cosinussignal wird dann in seiner Amplitude und in seinem Phasenwinkel durch das Paar schmalbandiger Signale
moduliert, und die modulierten Signale v/erden summiert, um das gewünschte Kopiesignal zu erzeugen.
Die Phasenvokodertechnik ist erweitert worden von J. P. Carlson, der in seinem Aufsatz "Digitalized Phase Vocoder", der
in Proceedings of the 1967 Conference on Speech Communication and Processing, Seiten 292 - 296, veröffentlicht ist, das Digitalisieren
der schmalbandigen Signale I S^ und φ i vor der
Übertragung beschreibt und angibt, daß bei einer Übertragungsgeschwindigkeit von beispielsweise 9600 Bit/Sek. die durch die
Digitalisierung der Parameter verursachte Verschlechterung im rekonstruierten Sprachsignal unwahrnehmbar ist.
In einem anderen Artikel von J. L. Flanagan mit dem Titel "Phase Vocoder", erschienen in Bell System Technical Journal,
Vol. 45, Nr. 9, November 1966, Seite 1493, ist gezeigt, daß, wenn die Analysierungsbandbreite des Phasenvokoders schmal im
609822/0722
9 551632
Vergleich zur gesamten Sprachbandbreite ist, das Phasenableitungssignal
repräsentativ für die Tonhöhe des Sprachsignals und der Betrag des Kurzzeitspektrumsignals repräsentativ für
die Tonstärke des Sprachsignals bei bestimmten Frequenzbändern ist. Unter Verwendung dieser Eigenschaften ist in der bereits
vorgenommenen deutschen Patentanmeldung P 25 24 497.7 eine Vorrichtung beschrieben, die Sprache synthetisiert aus gespeicherten
Signalen von zu einem Wortschatz gehörenden Wörtern, die mit Hilfe eines Phasenvokoders kodiert sind, dessen Analysierbänder
schmal im Vergleich zu der Bandbreite des kodierten Signals sind. Entsprechend der bereits vorgenommenen deutschen
Patentanmeldung wird eine natürlich klingende Sprache dadurch erzeugt und synthetisiert, daß den gewünschten Wörtern entsprechende
gespeicherte Signale aus einem Speicher entnommen werden, daß die entnommenen Signale verknüpft werden und daß
die Dauer und die Tonhöhe der verknüpften Signale unabhängig modifiziert werden. Eine Steuerung der Dauer wird dadurch erreicht,
daß zwischen aufeinanderfolgende entnommene unterschiedliche Signale eine vorbestimmte Anzahl interpolierter Signale
eingefügt wird. Dies bewirkt eine effektive Verlangsamung der Sprache ohne Frequenzstörung. Eine Steuerung der Tonhöhe wird
dadurch erzielt, daß die Phasenableitungssignale mit einem gewählten Faktor multipliziert werden. Die Sprachsynthese wird
dadurch vervollständigt, daß die modifizierten Signale vom di-
609822/0722
? 5 R 1 R 3 2 - 5 -
gitalen zum analogen Format umgewandelt werden und daß die dekodierten Signale gemäß bekannten Phasenvokodermethoden
dekodiert werden.
Soweit der Anmelderin bekannt ist, gibt es keine bekannte Vorrichtung, welche die Betonung der synthetisierten Sprache
direkt steuert. Demgemäß ist es Aufgabe der Erfindung, eine Vorrichtung zum Synthetisieren einer natürlich klingenden
Sprache verfügbar zu machen, bei welcher die charakteristische Betonung der Sprache effektiv gesteuert wird.
Weiterhin soll Sprache synthetisiert werden aus gespeicherten Signalen von zu einem Wortschatz gehörenden Wörtern, die entsprechend
Phasenvokodermethoden kodiert sind.
Die erfindungsgemäße Aufgabe wird gelöst durch Verwendung eines gespeicherten Wortschatzes, der mit einem Phasenvokoder
in eine Vielzahl von Kurzzeit-Betragssignalen und Kurzzeit-Phasenableitungssignalen
kodiert ist, um die synthetisierten Sprachsignale zu bilden. Im Gegensatz zu dem phasenvokoderkodierten
Wortschatz, wie er bei der zuvor erwähnten Patentanmeldung verwendet wird, weist der zum Kodieren der zum Wortschatz
gehörenden Wörter verwendete Phasenvokoder breite Analysebänder auf, die mehrere Stimmharmonische der analysierten
Sprache enthalten. Bei solchen Analysebändern enthalten die
C f) 9 8 2 2 / 0 7 2 2
Kurzzeit-Betragssignale sowohl Spektrumumhüllungsinformation als auch Stimmentonhöheninformation in einer Weise, die sich einzigartig
zur Steuerung der Betonung in der synthetisierten Sprache eignet.
Eine natürlich klingende Sprache wird erfindungsgemäß dadurch
gebildet und synthetisiert, daß aus einem Speicher den gewünschten Wörtern entsprechende gespeicherte Signale entnommen
werden, daß die entnommenen Signale verknüpft werden und daß die Kurzzeit-Betragssignale der verknüpften Signale geeignet
modifiziert werden, um Sprachbetonungssignale zu erzielen. Genauer gesagt wird die Sprachbetonung bei der synthetisierten
Sprache dadurch gesteuert, daß die Dauer der entnommenen Signale modifiziert und der allgemeine Pegel der Kurzzeit-Betragssignale
gesteuert wird.
Im natürlichen Sprachklang ist die subjektive Betonung mit der Tonhöhe, der Dauer und der Intensität verbunden. Diese Beziehung
ist generell kompliziert und hängt von den Zwängen ab, die sich aus dem Zusammenhang ergeben. Generell kann man jedoch
sagen, daß eine Intensitätserhöhung, eine Verminderung der Dauer und eine Erhöhung der Tonhöhe die Sprechweise betont.
Erfindungsgemäß werden die Tonhöhe und die Dauer deshalb dadurch gesteuert, daß zwischen aufeinander entnommene Signale
eine vorbestimmte Anzahl interpolierter Signale gefügt wird.
60982 2/072 2
9RR1R32 - 7 -
Dies bewirkt eine wirksame Verlangsamung der synthetisierten Sprache und eine Absenkung der Zeitdauer des hellen Tones.
Durch eine Amplitudensteuerung der Kurzzeit-Amplitudenspektrumsignale
wird eine Intensitätssteuerung der synthetisierten Sprache erreicht. Die Sprachsynthese wird dadurch vervollständigt,
daß die modifizierten Signale von der Digitalform in die Analogform umgewandelt werden und daß die Signale entsprechend
bekannten Phasenvokodermethoden dekodiert werden.
In der Zeichnung zeigen:
Fig. 1 ein schematisches Blockdiagramm einer erfindungsgemässen
Sprachsynthetisierungsvorrichtung;
Fig. 2 das Kurzzeit-Amplitudenspektrum des i-ten Spektrumsignals IsJ am Ausgang des Speichers 30 in Fig. 1;
Fig. 3 ein Blockdiagramm der Interpolatorschaltung der Fig. 1;
Fig. 4 eine Ausführungsform der Steuerschaltung 40 der Fig.1;
und
Fig. 5 eine Ausführungsform der Betonungssteuerungsschaltung
403 der Fig. 4.
Fig. 1 zeigt ein schematisches Blockdiagramm einer Sprachsyn-
6 0 3822/0722
5 516
•^lesevorrichtung, bei welcher gesprochene Wörter in Phasenvokoder-Beschreibungssignale
kodiert werden und bei welcher eine Sprachsynthese dadurch erreicht wird, daß richtige Beschreibungssignale
vom Speicher entnommen, die Beschreibungssignale verknüpft und modifiziert und die modifizierten Signale
zu synthetisierten Sprachsignalen dekodiert und zusammengefaßt werden.
Genauer gesagt werden die Wörter desjenigen Wortschatzes, der für die betrachtete Sprachsynthese erforderlich scheint, einem
Phasenvokoderanalysator 10 der Fig. 1 zur Kodierung zugeführt. Der Analysator 10 kodiert die Wörter in Signalpaare I S^I, φ ^ ;
I S2 I, ^2; · · · IS1I , ^1, ... IsnI, ^n , die einen Isl-Vektor und
einen ^-Vektor bilden, wobei jedes S^ und φ^ das Kurzzeit-Amplitudenspektrum
bzw. das Kurzzeit-Phasenableitungsspektrum des zu bestimmenden Sprachsignals bei einer Spektralfrequenz
6J1 darstellt. Die Analysierungsfrequenzen O^ können einen gleichmäßigen
oder ungleichmäßigen Abstand im interessierenden Frequenzband aufweisen, wie es durch Auslegungskriterien vorgeschrieben
ist. Die Analysierung s'oänder des erfindungsgemäßen
Phasenvokoders müssen ausreichend breit sein, so daß mehrere Stimmenharmonische in jedes Band fallen. Beispielsweise kann
eine geeignete Gruppe von Analysierungsbandbreiten auf Bandbreiten
eingestellt werden, die die Breite einer Oktave auf-
6 0 9 8 2 2/0722
weisen, d. h., 300 - 600 Hz, 600 - 1200 Hz, 1200 - 2400 Hz, usw. Die Analysierungsbänder können auch gleiche Bandbreiten
aufweisen. Der Phasenvokoderanalysator 10 kann gemäß zuvor
erwähnter US-PS 3 360 610 aufgebaut sein.
Im Anschluß an die Kodierung durch den Analysator 10 werden die [S [ - und fi-Analogvektoren abgetastet und in einem A/D-Wandler
20 in Digitalform gebracht. Der Wandler 20 kann so aufgebaut sein, wie es in dem zuvor erwähnten Aufsatz von
Carlson beschrieben ist. Die umgewandelten Signale werden in einem Speicher 30 der Fig. 1 gespeichert und sind danach für
den Synthesevorgang verfügbar. Da jedes vom Analysator 10 verarbeitete Wort mit relativ hoher Folgefrequenz abgetastet wird,
beispielsweise mit 10 KHz, wird jedes verarbeitete Wort durch eine Vielzahl von isI-Vektoren und zugehörigen ^-Vektoren dargestellt.
Diese Vektoren werden in den Speicher 30 in sequentieller Weise in ihnen gewidmete Blocks des Speichers eingegeben.
In jedem Speicherblock wird jedes Paar ]S|- und ^-Vektoren in einem Speicherplatz gespeichert, und jeder Speicherplatz ist
« unterteilt und enthält die Komponenten Is1I und φ i eines jeden
Vektors.
Eine Sprachsynthese wird in Gang gesetzt, wenn ein Benutzer einer Vorrichtung 40 in Fig. 1 über eine Ader 41 eine Kette von
C Π 9 8 2 2 / 0 7 2 2
Befehlen zuführt. Die Befehlskette schreibt dem System die Reihenfolge der Wörter vor, die aus dem Speicher 30 auszuwählen
und zur Bildung eines Sprachsignals zu verknüpfen sind. Auf die Befehle hin besteht nacheinander zu ausgewählten
Blocks des Speichers Zugriff, und innerhalb eines jeden Speicherblocks besteht nacheinander zu allen Speicherplätzen Zugriff.
Jeder Speicherplatz gibt ein Paar Is I- und ^-Vektoren
auf das Ausgangstor des Speichers 30. Die Steuervorrichtung spricht auf die Eingangsbefehlskette an und führt dem Speicher
30 geeignete Adressen- und LESE-Befehle zu. Außerdem analysiert die Vorrichtung 40 den Wortkettenaufbau, weißt einen
Helltondauerwert K-, und einen Intensitätswert K. zu und berechnet
eine Interpolationskonstante K„ für jeden Speicherplatz,
zu welchem Zugriff besteht, um eine natürlich klingende Sprache zu erzeugen, mit einem Betonungsmuster, das vom
Wortkettenaufbau abhängt. Eine ausführliche Beschreibung der Steuervorrichtung 40 wird nachstehend gegeben.
Da die I SI-Vektorsignale Stimmenhelligkeitsinformation tragen,
führt eine Verlängerung des Periodenabschnitts der | SA -Signale zu einer Verlangsamung und Absenkung der Tonhöhe der synthetisierten
Sprache. Man kann zeigen, daß die Verlängerung der • ... ■
^-Signale sich nicht auf die Frequenz überträgt und keinen
^-Signale sich nicht auf die Frequenz überträgt und keinen
6098 22/07 2 2.
"Donald Duck"-Effekt bewirkt, wie er so einprägsam bei Tonbandgerät-Geschwindingkeitsänderungen
zu beobachten ist.
Erfindungsgemäß wird die Sprachhelligkeit und Sprachdauer durch Steuern (Verlängern oder Verkürzen) der periodischen Abschnitte
der |Si- und ^-Vektoren gesteuert. Diese Steuerung wird erreicht
durch widerholten Zugriff zu jedem gewählten Speicherplatz mit einer festgelegten hohen Taktfolgefrequenz f und
durch Steuern der Anzahl solcher wiederholter Zugriffe. Auf diese Weise wird die Sprachhelligkeit und Sprachdauer effektiv
erhöht durch eine erhöhte Anzahl von Zugriffen zu jedem Speicherplatz
oder verringert durch eine geringere Anzahl von Zugriffen zu jedem Speicherplatz. Wenn die Nennzugriffszahl für
jede Speicheradresse auf irgendeine feste Anzahl eingestellt ist, beispielsweise 100, bewirkt ein mehr als 100 mal wiederholter
Zugriff zu jedem Speicherplatz eine Verlangsamung der synthetisierten Sprache und eine Absenkung der Tonhöhe, und
ein weniger als 100 mal wiederholter Zugriff zu jedem Speicherplatz bringt eine Beschleunigung der synthetisierten Sprache
und eine Erhöhung der Tonhöhe mit sich. Die genaue Anzahl von Malen, zu welchen Zugriff zu jedem Speicherplatz besteht, wird
durch die Steuerschaltung 40 vorgeschrieben, und zwar über wiederholte LESE-Befehle auf der Ader 43 für jede Speicheradresse
auf der Ader 42.
609822/0722
Die obige Lösung für eine Sprach-Helligkeits/Dauer-Steuerung
ist in Fig. 2 gezeigt, welche die Amplitude einer bestimmten \sA- Komponente darstellt, die sich mit der Zeit ändert. Die
Bezeichnung lsi kennzeichnet den Vektor /Slam Ausgang des
Speichers 30. In Fig. 2 repräsentiert Element 201 den Wert
Is^l zu einer bestimmten Zeit, wie er am Ausgang des Speichers
30 auf den Zugriff zu einem bestimmten Speicherplatz ν hin erscheint. Das Element 201 ist dem ersten Zugriff zum v-ten
Speicherplatz zugeordnet. Das Element 202 repräsentiert eben-
falls den Wert von I SJ im Speicherplatz v, stammt jedoch vom
dritten Zugriff zum Speicherplatz v. Element 206 repräsentiert den Wert von I S^l im Speicherplatz v+1 und stellt den ersten
Zugriff zum Speicherplatz v+1 dar. Wenn beispielsweise der Speicherplatz ν der letzte Platz eines Speicherblocks ist
(das Ende eines Wortes), dann repräsentiert das Element 203 nicht das Signal des Speichers vh, sondern den Wert von |SA
bei einem ersten Zugriff zu einem neuen Speicherblock (der mit einem neuen Wort beginnt) bei einem Speicherplatz u. Element
205 repräsentiert ebenfalls den Wert von is^l im Speicherplatz
u, jedoch zu einer nachfolgenden Zugriffszeit, und Element stellt den letzten Zugriff zum Speicherplatz u dar. Die Anzahl
der Zugriffe zum Speicher wird durch die Tonhöhen-Dauer-Steuerkonstante ICj vorgeschrieben, von welcher eine Interpolations
konstante K_ in der Steuerschaltung 40 entwickelt wird, um einen
6D9822/0722
7551632
- 13 Spektralinterpolator 90 (Fig. 1) zu betätigen.
In Fig. 2 ist lediglich die i-te Komponente des ISl- Vektors
am Ausgang des Speichers 30 dargestellt. Andere Komponenten des lsi- Vektors und die Komponenten des ^-Vektors haben natürlich
unterschiedliche Werte. Die generelle Treppenform bleibt jedoch unverändert und die Bruchpunkte, die auf den
Wechseln der Speicherplätze innerhalb eines Speicherblocks (beispielsweise Zeitelement 206) oder auf Wechseln der Speicherplätze
von einem Speicherblock zu einem anderen (beispielsweise Zeitelement 205) beruhen, treten zu denselben Zeitpunkten
auf.
Da die Sprachintensität durch den generellen Pegel der |S!-Vektoren
bestimmt wird, wird die Intensität der synthetisierten Sprache in der Vorrichtung nach Fig. 1 dadurch gesteuert, daß
ι *i
die fSl-Signale am Ausgang des Speichers 30 mit einem Intensitätsfaktor
K. (nominell 1,0) multipliziert werden, der von der Steuerschaltung 40 abgeleitet ist. Der Intensitätssteuerungsfaktor
akzentuiert im allgemeinen ein Wort oder eine Gruppe von Wörtern. Demgemäß ist der Faktor K^ für einen gesamten
Adressenblock des Speichers 30 oder für eine Gruppe von Speicher-
609822/0722
7 5 516 3 2
blöcken konstant. Die Multiplikation mit K^ hat deshalb keine
Auswirkung auf die generelle Stufenform des in Fig. 2 dargestellten Spektrums, was einschließt, daß keine Änderung hinsichtlich
der Stellen der Stufenunstetigkeiten auftreten.
Die K^-Multiplikation wird innerhalb einer Intensitätssteuervorrichtung
60 durchgeführt, die mit dem Speicher 30 verbunden ist und auf die Kurzzeit-Spektralamplitudensignale |Sl anspricht.
Die Intensitätssteuerungsvorrichtung 60 umfaßt mehrere Multiplizierschaltungen 60-1, 60-2, ... 60-N, die je die Sig-
ΛΑ Α
nale (S1J , (SpI , ···, bzw. I Sn I mit dem konstanten Paktor K.
multiplizieren, was zu intensitätsmodifizierten Signalen
Is1I1, Is2I', ... IsnI1 führt. Bei jeder der Multipliziereinrichtungen
60-1, 60-2, ... 60-N handelt es sich um eine einfache digitale Multipliziereinrichtung, wie sie auf dem Gebiet
der elektronischen Schaltungen wohl bekannt ist.
Wie vorstehend erläutert, hat die intensitätsmodifizierte
ι * I
Spektrumumhüllende ISI1 eine Treppenform. Wenn auch eine solche Spektrumumhüllende für den Synthetisierungsvorgang verwendet werden kann, leuchtet es einem intuitiv ein, daß eine Glättung des Spektrums eher eine natürlich entwickelte Spektrumumhüllende repräsentieren würde und deshalb zu einer gefälligeren und na-
Spektrumumhüllende ISI1 eine Treppenform. Wenn auch eine solche Spektrumumhüllende für den Synthetisierungsvorgang verwendet werden kann, leuchtet es einem intuitiv ein, daß eine Glättung des Spektrums eher eine natürlich entwickelte Spektrumumhüllende repräsentieren würde und deshalb zu einer gefälligeren und na-
609822/07 2 2
? 5 51 R 3 2
türlicher klingenden synthetisierten Sprache führen würde.
Eine Möglichkeit zur Glättung der Umhüllenden kann das "Ausrichten"
einer Polynomkurve über den Anfangs-IS.I'-Werten
sein, bei welchen Zugriff zu einer neuen Speicheradresse besteht. Wenn man annimmt, daß das in Fig. 2 gezeigte Spektrum
das intensitätsgesteuerte Spektrum IS1I \ darstellt, dann kann
diegewünschte Glättung der Umhüllenden in einer Ausrichtung einer Kurve über den Elementen 201, 206 und 203 bestehen. Die
wiederholten IS^I1-Werte, d. h. die Elemente zwischen den Elementen
201, 206 und 203, können zur Anpassung an diese Kurve geändert werden. Dies ist jedoch eine komplizierte mathematische
Aufgabe, welche die Hilfe speziell zugeschnittener Berechnungsschal
tungsanordnungen oder einen Allgemeinzweckcomputer erfordert. Zum Zweck der Klarheit ist hier deshalb eine einfachere,
geradlinige Interpolationsmethode beschrieben. Die Spektrumumhüllende, die aus der geradlinigen Interpolation resultiert,
ist durch die Kurve 220 in Fig. 2 dargestellt.
Wenn bei der gewählten geradlinigen Interpolationsmethode Element 203 als S^1 bezeichnet wird, was das Signal I S^ ·
zur Zeit m* bedeutet, und Element 204 mit S.m2 und Element
mit S1^ bezeichnet wird, kann man zeigen, daß das interpolierte
Element des Elementes 205, das mit der Kurve 220 "ausgerichtet" ist, berechnet werden kann durch den Ausdruck
609822/0722
7 551632
- 16 (S.m1 - S1^) K0 + S.m1 (1)
K0 = (mx - m1)/(m2 -In1) (2)
Betrachtet man obige Gleichungen, kann man sehen, daß der Glättungsvorgang im Gegensatz zur Intensitätssteuerung abhängig
ist von den Werten der Spektrumumhüllungssignale und der Anzahl der Male, zu welchen Zugriff zu jeder Speicheradresse
besteht.
Um das zuvor beschriebene "Glätten" der Umhüllenden des synthetisierten
Spektrums vorzusehen, schließt Fig. 1 einen Spektralamplitudeninterpolator 90 ein, der zwischen der Intensitätssteuerung
60 und dem D/A-Wandler 70 angeordnet ist. Im einen
Extrem kann der Interpolator 90 einfach eine Kurzschlußverbindung zwischen jedem IS^l'-Eingang und dessen entsprechendem
interpolierten I S^|^-Ausgang sein. Dies entspricht in Wirklichkeit
überhaupt keiner Interpolation. Im anderen Extrem kann der Interpolator 90 eine Vielzahl von Interpolatorvorrichtungen
91 aufweisen, die durch hochkomplizierte Spezialzweckcomputer oder Allgemeinzweckcomputer gebildet sind und die
Möglichkeit zur Anpassung an eine anspruchsvolle Kurve geben. Fig. 3 zeigt eine Ausführungsform eines Interpolators 91 für
609822/0722
5 Ί
die geradlinige Interpolationsmethode, wie sie durch Gleichling (1) definiert ist.
Der in Fig. 3 gezeigte Interpolator 91-i ist der i-te Interpolator
in Vorrichtung 90. Er spricht auf den anfänglichen Speicherzugriff des gegenwärtigen Speicheradressensignals S^ und
auf das Spektralsignal des nächsten "Speicheradressensignals Sjm2 an. Wenn Zugriff zu einer neuen Adresse des Speichers 30
genommen worden und das S .1^-Signal erhalten worden ist,
adressiert die Steuervorrichtung 40 auch den nächsten Speicherplatz und erzeugt einen Auftastimpuls (auf Ader 21), um
das nächste Signal S^2 in ein Register 910 zu schleusen. Der
positive Eingang einer Subtrahiervorrichtung 911 ist mit dem Register 910 verbunden und spricht auf das S^m2-Signal an. Der
negative Eingang der Subtrahiervorrichtung 911 ist mit einer Ader 23 verbunden und spricht auf das S^^-Signal an. Das
durch Gleichung (1) definierte Signal wird durch eine Multipliziervorrichtung 912 errechnet, die auf das Ausgangssignal
von der Subtrahiervorrichtung 911 und den zuvor erwähnten K-Faktor
auf Ader 22 anspricht, und durch eine Summiervorrichtung 913, die auf das Ausgangssignal von der Multipliziereinrichtung
912 und auf das S-m>!-Signal auf Ader 23 anspricht.
6 0 98 2 2/0722
■ . ? B 5 1 R 3 2
Die Sprache wird dadurch erzeugt, daß die modifizierten digitalen
Signale in Analogform umgewandelt werden und daß aus dieser Spräche zusammengesetzt wird. Demgemäß ist ein D/AWandler 70 vorgesehen, dem der tonhöhen-dauer-modifizierte
und intensitätsmodifizierte interpolierte JSI*-Vektor am Ausgang
des Interpolators 90 und der tonhöhen-dauer-modifizierte p-Vektor am Ausgang des Speichers 30 zugeführt wird. Der Wandler
70 wandelt die zugeführten digitalen Signale in Analogform um und gibt die Analogsignale auf einen Phesenvokodersynthetisierer
80, um ein Signal zu erzeugen, das die gewünschte synthetisierte Sprache darstellt. Der Wandler 70 kann 2N Standard-D/A-Wandler
umfassen; N Wandler für die I SI ^--Komponenten
und N Wandler für die ^-Komponenten. Der Phasenvokoder 80 kann
im wesentlichen in derselben Weise aufgebaut sein, wie sie in der zuvor erwähnten US-PS 3 360 610 beschrieben ist.
Fig. 4 zeigt ein schematisches Diagramm der Steuervorrichtung
40 in Fig. 1. Erfindungsgemäß spricht die Vorrichtung 40 auf ein Wortkettenbefehlssignal auf Ader 41 an, das die zu synthetisierende
Nachricht vorschreibt. Beispielsweise kann die ge-
60982 2/0722
? R 51 6 3 2
wünschte Nachricht "The number you have dialed has been changed" sein, d. h. "die Nummer, welche Sie gewählt haben,
hat sich geändert". Die Eingangssignalfolge (auf Ader 41) für diese Nachricht kann sein "1", "7", "13", "3", "51", "17",
"62", "21", "99", wobei "99" den Abschnitt am Ende des Satzes repräsentiert. Die Eingangsfolge entspricht den Anfangsadressen
der Speicherplatzblöcke des Speichers 30, in denen die gewünschten Wörter gespeichert sind.
Die gewünschte Wortfolge, wie sie durch die Kette von Befehlssignalen vorgeschrieben wird, wird in einem Speicher 401 gespeichert
und danach in einem Betonungssteuerungsblock 403 analysiert, um die gewünschte Tonhöhen-Dauer- und Intensitäts-Faktoren
für jedes Wort in dem synthetisierten Satz zu bestimmen. Die Tonhöhen-Dauer- und Intensitäts-Faktoren können durch
Positionsregeln berechnet werden, die von der Wortposition abhängen, durch Syntaxregeln oder durch andere satz- oder wortabhängige
Regeln.
Positionsregeln sind im allgemeinen einfach, da sie unabhängig von der Nachricht sind. Eine gültige Positionsregel kann beispielsweise
sein, daß das zweite Wort in einem Satz dadurch zu betonen ist, daß es um den Faktor 1,2 verlängert und in seiner
609822/0722
? R 5 Ί 6 3 2
■.;■■- 20 -
Intensität um den Faktor 1,3 erhöht wird, daß das letzte
Wort in einem Satz dadurch hinsichtlich seiner Betonung vermindert wird, daß es auf das 0,98-fache seiner ursprünglichen
Dauer verkürzt und seine Intensität um den Faktor 0,7 verringert wird, und daß alle anderen Wörter gegenüber ihrer gespeicherten
Form unverändert bleiben.
Fig. 5 zeigt einen Betonungssteuerungsblock 403, der auf das Ausgangssignal des Speichers 401 anspricht und die oben als
Beispiel angegebene Positionsregel auszuführen vermag. Ein Wortdetektor 421 erkennt ein Satzendewort (Adresse "99") und
stellt einen Zähler 422 zurück. Der Zähler 422 spricht auf
Vorrückimpulse auf einer Ader 414 an und wird jedesmal vorgerückt,
wenn ein Impuls auf der Ader 414 erscheint, zu welcher
Zeit eine neue Speicheradresse auf Ader 430 am Eingang des Blocks 403 erscheint. Ein Wortdetektor 433 ist mit dem Zähler
422 verbunden, um den Stand 3 des Zählers 422 zu erkennen und festzustellen. Der Zähler 422 erreicht den Stand 3, wenn die
dem dritten Wort in dem Satz entsprechende Speicheradresse auf der Ader 430 erscheint und die Speicheradresse des zweiten
Wortes in dem Satz am Ausgang einer Wortverzogerungsschaltung
420 erscheint, die mit der Ader 430 verbunden ist und eine Verzögerung um ein Wort erzeugt. Wenn ein Signal auf einer
Ader 431 erscheint, ist deshalb die Speicheradresse am Ausgang
609822/0722 ■ ·
? R R 1 fi 3 2
der Wortverzögerungsschaltung 20 die Speicheradresse eines zweiten Wortes eines Satzes, und wenn ein Signal auf der
Ader 432 erscheint, handelt es sich bei der Speicheradresse am Ausgang der Wortverzögerungsschaltung 420 um die Speicheradresse
des letzten Wortes eines Satzes.
Die Signale auf den Adern 431 und 432 in Fig. 5 werden auf ein Intensitätssteuerungselement 425 und ein Tonhöhen-Dauer-Steuerelement
424 gegeben. Wenn auf den Adern 431 und 432 keine Signale vorhanden sind, treten an den Elementen 425 und 424 Ausgangssignale
1,0 auf. Wenn lediglich auf Ader 431 ein Signal erscheint, treten an den Ausgängen 425 und 424 Ausgangssignale
1,3 bzw. 1,2 auf; und wenn lediglich auf Ader 432 ein Signal erscheint, treten an den Elementen 425 und 424 Ausgangssignale
0,7 bzw. 0,98 auf. Die Elemente 425 und 424 können durch eine einfache Verknüpfungslogik oder mit einem kleinen (4 Wort-)
Festwertspeicher in der Fachleuten bekannten Art aufgebaut werden. Das Ausgangssignal der Wortverzögerungsschaltung
420 (bei welchem es sich um ein Adressenfeld handelt) wird mit dem Ausgangssignal des Intensitätssteuerungselementes 425
(welches ein Intensitätsfaktor K. ist) und ferner mit dem Ausgangssignal
des Tonhöhen-Dauer-Steuerungselementes 424 (welches ein Tonhöhen-Dauer-Faktor K^ ist) verknüpft, um das Ausgangssignal
der Betonungssteuerungsschaltung 403 zu bilden, und
609822/0722
? R 5 1 R 3 2
dadurch werden Steuersignale entsprechend den als Beispiel gegebenen
Positionsregeln entwickelt.
Die zuvor beschriebene Positionsregel ist für manche Anwendungen ausreichend. Für andere Anwendungen mag eine anspruchsvollere
Methode erwünscht sein. Solche anspruchsvolleren Methoden können eine Wort- und Satzelement-Betonungssteuerung umfassen,
wie sie beispielsweise von J. H. Gaitenby u. a. beschrieben worden ist in "Word and Phrase Stress by Rules for a Reading
Machine", veröffentlicht in Status Re^port on Speech Research by Haskins Laboratories, Inc., Juni 1972 (SR-29/3O).
Eine Ausführung der Betonungssteuerungsschaltung 403, die auf
der Syntax der synthetisierten Sprache beruht, ist in der US-PS 3 704 345 beschrieben. Fig. 1 dieser Patentschrift zeigt
einen Tonhöhen- und Intensitätsgenerator 20, einen Vokaldauergenerator 21 und einen Konsonantendauergenerator 22; alle
sprechen grundsätzlich auf einen Syntaxanalysator 13 an. Diese Generatoren erzeugen Signale, die die gewünschte Tonhöhe, Intensität
und Dauer beschreiben, die den Phonemen zugeordnet sind, die in jeder Speicheradresse mit Zugriff festgelegt sind. Für
die erfindungsgemäßen Zwecke kann anstelle der bekannten Phonemliste 14 eine Wortliste verwendet werden und die Vokal- und
Konsonantengeneratoren können zu einem vereinigten Wortdauergenerator
zusammengefaßt werden.
609822/0722
? Fi Fi 1 fi 3 2 - 23 -
Das verknüpfte Ausgangssignal der Betonungssteuerungsschaltung 403 wird in einem Register 406 gespeichert und das Ausgangssignal
des Registers 406 wird auf ein Register 407 gegeben. Wenn das Register 407 eine gegenwärtige Speicheradresse enthält,
kann man somit sagen, daß das Register 406 die nächste Speicheradresse enthält. Beide Register 406 und 407 sind mit
einer Auswahlschaltung 408 verbunden, die die Ausgangssignale von einem der beiden Register auswählt und zu ihrem Ausgang
überträgt.
Die Anzahl der Befehle für den Zugriff zu jedem Speicherplatz wird dadurch gesteuert, daß der Tonhöhen-Dauer-Faktorwert im
K ,-Feld am Ausgang der Auswahlschaltung 408, und damit auf
Ader 409, in einen Abwärtszähler 405 gegeben wird. Der in der Schaltung 412 erzeugte Takt f_ für den grundsätzlichen Speicherzugriff
erzeugt Impulse, die den Zähler 405 "herabzählen11, während der Speicher unter Zugriff steht und durch ein ODER-Gatter
413 über eine Ader 43 ausgelesen wird. Wenn der Zähler 405 den Zählstand Null erreicht, gibt er auf Ader 414 einen
Vorrücksignalimpuls ab. Dieses Signal rückt die Schaltung 403 zum nächsten Speicherplatz und bewirkt, daß das Register 406
den nächsten Speicherzustand speichert und das Register 407 den neuen gegenwärtigen Zustand speichert. Gleichzeitig gibt
die Auswahlschaltung 408 unter dem Befehl des Vorrücksignals
609822/0 7 22
R 51 R 3 2
den Inhalt des Registers 406 auf die Adern 44 und 42, und
der auf das Vorrücksignal ansprechende Impulsgenerator 410 erzeugt einen zusätzlichen LESE-Befehl, der über das ODER-Gatter
413 zum Speicher 30 gelangt. Der Ausgangsimpuls des Generators
410 wird auch dazu verwendet, über die Auftastader 21
das Ausgangssignal des Speichers 30 in die Register 910 in der Schaltung 91 zu schleusen und somit in den Registern 910 die
zuvor beschriebenen Signale S^Z zu speichern. Wenn das Vorrücksignal
auf Ader 414 verschwindet, schaltet die Auswahlschal tung 408 das Ausgangssignal des Registers 407 auf ihren Ausgang,
und auf den nächsten Impuls vom Taktgeber 412 hin wird ein neues K^ in den Zähler 405 eingegeben.
Der Stand des Zählers 405 wird in jedem Moment durch das Signal auf Ader 415 angegeben. Dieses Signal repräsentiert die Menge
mx ~* m1 * D^"e K°ns"tairt:e ^Y)cL» ^e als Eingangssignal am Zähler
405 (Ader 409) erscheint, repräsentiert die Menge m2 - m^. Deshalb
wird die Konstante K . wie sie durch Gleichung (2) deflniert ist, durch eine Dividierschaltung 411 berechnet, und zwar
dadurch, daß das Signal auf Ader 415 durch das Signal auf Ader 409 dividiert wird.
Unter bestimmten Umständen ist die Ausführung der Erfindung in Form eines Computerprogramms möglich und kann sich in bestimmter
6 0982 2 /0722
9551632 - 25 -
Hinsicht als vorteilhaft erweisen. Wenn beispielsweise ein künftiger Benutzer der erfindungsgemäßen Sprachsynthetisier vorrichtung
wünscht, eine komplizierte Syntax zu verwenden, die von Syntheseregeln und einer komplizierten Spektralinterpolationsmethode
abhängt, mag es sich als leichter ausführbar erweisen, für die Betonungssteuerungsschaltung 403 und den
Interpolator 90 der Fig. 1 eine Computerausführungsform zu verwenden. Wenn einmal ein Computer für die Vorrichtung verwendet
wird, können zusätzliche Merkmale mit dem Computer verwirklicht werden, wodurch die Menge der erforderlichen speziellen Geräte
oder Geräteteile verringert wird. Beispielsweise kann der Intensitätssteuerungsvorgang des Blocks 70 und der Speicher
30 mit dem Computer verkörpert werden, was auch für den Phasenvokoderanalysator und den gröi3ten Teil des Phasenvokodersynthetisierers
gelten kann. Tatsächlich wurde von Carlson im Fall seines zuvor erwähnten Artikels für den Phasenvokoderanalysator
und -synthetisierer ein Computer verwendet.
609822/072 2
Claims (6)
- BLUMBACH · WESER · BERGEN · KRAME^ ^ 5 1 R 3 ZWIRNER - HIRSCHPATENTANWÄLTE IN MÜNCHEN UND WIESBADENPostadresse München: Patentconsult 8 München 60 Radeckestraße 43 Telefon (089)883603/883604 Telex 05-212313 Postadresse Wiesbaden: Patentconsult 62 Wiesbaden Sonnenberger Straße 43 Telefon (06121)562943/561998 Telex 04-186237Western Electric Company, Incorporated Flanagan 32PatentansprücheVerfahren zum Synthetisieren einer natürlich klingenden Sprachnachricht, bei welchem Kurzzeitspektrumumhüllende-Signale und Phasenableitungs-Phasenvokodersignale gespeichert werden, die für ein Vokabular von Wörtern repräsentativ sind, dadurch gekennzeichnet , daß aus den gespeicherten Signalen selektiv vorgewählte Signale entnommen werden, um eine in Tonhöhe und Dauer modifizierte vorbestimmte Folge der für die Sprachnachricht repräsentativen Signale zu bilden, daß die entnommenen Kurzzeitspektrumumhüllenden-Signale geändert werden, um die Intensität der Sprachnachricht zu beeinflussen, und daß die entnommenen Phasenableitungssignale und die in ihrer Intensität modifizerten Kurzzeitspektrumumhüllenden-Signale kombiniert werden, um ein zum Aktivieren des Sprachsynthetisierers geeignetes Signal zu erzeugen.609822/0 7 22München: Kramer · Dr.Weser · Hirsch — Wiesbaden: Blumbach · Dr. Bergen ■ Zwirner7551B32- 2f-
- 2. Vorrichtung zum Synthetisieren einer natürlich klingenden Sprachnachricht, mit einem Speicher, der ausgewählte Speicherplätze aufweist, die für ein Vokabular von Wörtern repräsentative Signale enthalten, mit einer Entnahme- und Verknüpfungseinrichtung zum Entnehmen und Verknüpfen ausgewählter Teile der Signale, mit einer Modifiziereinrichtung zum Modifizieren der verknüpften Signale, und mit einer Wandlereinrichtung zum Umwandeln der modifizierten Signale in hörbare Sprache, dadurch gekennzeichnet, daß es sich bei den gespeicherten Signalen um Kurzzeit-Fouriertransformiertenparameter und Phasenableitungsparameter handelt, die herrühren aus der Kodierung des Wortvokabulars mit einem Phasenvokoder, dessen Analysebänder so breit sind, daß mehrere Harmonische der kodierten Signale innerhalb eines jeden Analysebandes enthalten sein können;daß die Entnahme- und Verknüpfungseinrichtung eine Einrichtung zur Änderung der Tonhöhe und Dauer der hörbaren Sprache aufweist; unddaß die Modifiziereinrichtung eine die Kurzzeit-Fouriertransformiertenparameter verändernde Einrichtung zur Erzeugung der Intensität der hörbaren Sprache aufweist.609822/0722■ ? 5 5 1 fi 3 2 - ^ -
- 3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet , daß die Entnahmeeinrichtung die gespeicherten Signale einer jeden ausgewählten Speicherstelle zur gleichzeitigen Beeinflussung von Tonhöhe und Dauer der synthetischen Sprache wiederholt zu entnehmen vermag.
- 4. Vorrichtung nach Anspruch 2 oder 3» dadurch gekennzeichnet , daß die Wandlereinrichtung eine Multipliziereinrichtung aufweist, mit der mehrere Kurzzeitparametersignale der entnommenen Signale mit einem Intensitätssteuerungsfaktor multiplizierbar sind.
- 5. Vorrichtung nach Anspruch 4, gekennzeichnet durch eine Interpolationseinrichtung zum Multiplizieren eines jeden mit einem Intensitätssteuerungsfaktor multiplizierten Signals mit einem Faktor, der von der Stärke der mit dem benachbarten Intensitätssteuerungsfaktor multiplizierten Signale abhängt, um eine Glättung der Kurzzeitspektrumumhüllenden zu bewirken.Hi/ku
- 6 0 9 8 2 2/0722
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US05/524,789 US3995116A (en) | 1974-11-18 | 1974-11-18 | Emphasis controlled speech synthesizer |
Publications (2)
Publication Number | Publication Date |
---|---|
DE2551632A1 true DE2551632A1 (de) | 1976-05-26 |
DE2551632C2 DE2551632C2 (de) | 1983-09-15 |
Family
ID=24090667
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE2551632A Expired DE2551632C2 (de) | 1974-11-18 | 1975-11-18 | Verfahren zum Zusammensetzen von Sprachnachrichten |
Country Status (4)
Country | Link |
---|---|
US (1) | US3995116A (de) |
JP (1) | JPS5534960B2 (de) |
CA (1) | CA1065490A (de) |
DE (1) | DE2551632C2 (de) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2808577A1 (de) * | 1977-02-28 | 1978-10-19 | Sharp Kk | Elektronischer rechner mit synthetischer sprachanzeige |
DE3010150A1 (de) * | 1979-03-16 | 1980-09-18 | Sharp Kk | Elektronische registrierkasse |
DE3041970A1 (de) * | 1979-11-07 | 1981-05-27 | Canon K.K., Tokyo | Elektronisches geraet mit datenausgabe in syntheisierter sprache |
DE3024062A1 (de) * | 1980-06-26 | 1982-01-07 | Siemens AG, 1000 Berlin und 8000 München | Halbleiterbauelement zur synthetischen spracherzeugung |
DE3232835A1 (de) * | 1981-09-04 | 1983-03-24 | Sharp K.K., Osaka | Verfahren und schaltungsgruppenanordnung zur sprachsynthese |
DE10204325B4 (de) * | 2001-02-01 | 2005-10-20 | Vbv Vitamin B Venture Gmbh | Verfahren und Vorrichtung zur automatischen Spracherkennung |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5081681B1 (en) * | 1989-11-30 | 1995-08-15 | Digital Voice Systems Inc | Method and apparatus for phase synthesis for speech processing |
US5140639A (en) * | 1990-08-13 | 1992-08-18 | First Byte | Speech generation using variable frequency oscillators |
US5226108A (en) * | 1990-09-20 | 1993-07-06 | Digital Voice Systems, Inc. | Processing a speech signal with estimated pitch |
US5216747A (en) * | 1990-09-20 | 1993-06-01 | Digital Voice Systems, Inc. | Voiced/unvoiced estimation of an acoustic signal |
US5664051A (en) * | 1990-09-24 | 1997-09-02 | Digital Voice Systems, Inc. | Method and apparatus for phase synthesis for speech processing |
US5630011A (en) * | 1990-12-05 | 1997-05-13 | Digital Voice Systems, Inc. | Quantization of harmonic amplitudes representing speech |
US5226084A (en) * | 1990-12-05 | 1993-07-06 | Digital Voice Systems, Inc. | Methods for speech quantization and error correction |
NL9100285A (nl) * | 1991-02-19 | 1992-09-16 | Koninkl Philips Electronics Nv | Transmissiesysteem, en ontvanger te gebruiken in het transmissiesysteem. |
FR2715755B1 (fr) * | 1994-01-28 | 1996-04-12 | France Telecom | Procédé et dispositif de reconnaissance de la parole. |
US5715365A (en) * | 1994-04-04 | 1998-02-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
AU696092B2 (en) * | 1995-01-12 | 1998-09-03 | Digital Voice Systems, Inc. | Estimation of excitation parameters |
US5754974A (en) * | 1995-02-22 | 1998-05-19 | Digital Voice Systems, Inc | Spectral magnitude representation for multi-band excitation speech coders |
US5701390A (en) * | 1995-02-22 | 1997-12-23 | Digital Voice Systems, Inc. | Synthesis of MBE-based coded speech using regenerated phase information |
WO1997019444A1 (en) * | 1995-11-22 | 1997-05-29 | Philips Electronics N.V. | Method and device for resynthesizing a speech signal |
US5966687A (en) * | 1996-12-30 | 1999-10-12 | C-Cube Microsystems, Inc. | Vocal pitch corrector |
US6526325B1 (en) * | 1999-10-15 | 2003-02-25 | Creative Technology Ltd. | Pitch-Preserved digital audio playback synchronized to asynchronous clock |
US6868377B1 (en) * | 1999-11-23 | 2005-03-15 | Creative Technology Ltd. | Multiband phase-vocoder for the modification of audio or speech signals |
EP1160764A1 (de) | 2000-06-02 | 2001-12-05 | Sony France S.A. | Morphologische Kategorien für Sprachsynthese |
AU2021232744B2 (en) * | 2021-04-26 | 2022-12-08 | Nantong University | Lexicon learning-based heliumspeech unscrambling method in saturation diving |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3360610A (en) * | 1964-05-07 | 1967-12-26 | Bell Telephone Labor Inc | Bandwidth compression utilizing magnitude and phase coded signals representative of the input signal |
DE2115258B2 (de) * | 1970-10-30 | 1973-06-07 | Western Electric Co Ine , New York, NY (V St A) | Verfahren und anordnung zur sprachsynthese aus darstellungen von individuell gesprochenen woertern |
DE2524497C3 (de) * | 1974-06-05 | 1979-08-09 | Western Electric Co., Inc., New York, N.Y. (V.St.A.) | Verfahren und Schaltungsanordnung zur Sprachsynthese |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3349180A (en) * | 1964-05-07 | 1967-10-24 | Bell Telephone Labor Inc | Extrapolation of vocoder control signals |
US3704345A (en) * | 1971-03-19 | 1972-11-28 | Bell Telephone Labor Inc | Conversion of printed text into synthetic speech |
-
1974
- 1974-11-18 US US05/524,789 patent/US3995116A/en not_active Expired - Lifetime
-
1975
- 1975-11-05 CA CA239,051A patent/CA1065490A/en not_active Expired
- 1975-11-18 DE DE2551632A patent/DE2551632C2/de not_active Expired
- 1975-11-18 JP JP13786875A patent/JPS5534960B2/ja not_active Expired
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3360610A (en) * | 1964-05-07 | 1967-12-26 | Bell Telephone Labor Inc | Bandwidth compression utilizing magnitude and phase coded signals representative of the input signal |
DE2115258B2 (de) * | 1970-10-30 | 1973-06-07 | Western Electric Co Ine , New York, NY (V St A) | Verfahren und anordnung zur sprachsynthese aus darstellungen von individuell gesprochenen woertern |
DE2524497C3 (de) * | 1974-06-05 | 1979-08-09 | Western Electric Co., Inc., New York, N.Y. (V.St.A.) | Verfahren und Schaltungsanordnung zur Sprachsynthese |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE2808577A1 (de) * | 1977-02-28 | 1978-10-19 | Sharp Kk | Elektronischer rechner mit synthetischer sprachanzeige |
DE3010150A1 (de) * | 1979-03-16 | 1980-09-18 | Sharp Kk | Elektronische registrierkasse |
DE3041970A1 (de) * | 1979-11-07 | 1981-05-27 | Canon K.K., Tokyo | Elektronisches geraet mit datenausgabe in syntheisierter sprache |
DE3024062A1 (de) * | 1980-06-26 | 1982-01-07 | Siemens AG, 1000 Berlin und 8000 München | Halbleiterbauelement zur synthetischen spracherzeugung |
DE3232835A1 (de) * | 1981-09-04 | 1983-03-24 | Sharp K.K., Osaka | Verfahren und schaltungsgruppenanordnung zur sprachsynthese |
DE10204325B4 (de) * | 2001-02-01 | 2005-10-20 | Vbv Vitamin B Venture Gmbh | Verfahren und Vorrichtung zur automatischen Spracherkennung |
Also Published As
Publication number | Publication date |
---|---|
US3995116A (en) | 1976-11-30 |
JPS5173305A (de) | 1976-06-25 |
DE2551632C2 (de) | 1983-09-15 |
JPS5534960B2 (de) | 1980-09-10 |
CA1065490A (en) | 1979-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE2551632A1 (de) | Verfahren und vorrichtung zum synthetisieren einer natuerlich klingenden sprache | |
DE2524497C3 (de) | Verfahren und Schaltungsanordnung zur Sprachsynthese | |
DE68919637T2 (de) | Verfahren und Einrichtung zur Sprachsynthese durch Überdeckung und Summierung von Wellenformen. | |
DE69527410T2 (de) | CELP-Koder und -Dekoder und Verfahren dazu | |
DE3853916T2 (de) | Digitaler-sprachkodierer mit verbesserter vertoranregungsquelle. | |
DE69009545T2 (de) | Verfahren zur Sprachanalyse und -synthese. | |
DE2613258C2 (de) | Schaltungsanordnung zum Erkennen von einem oder mehreren Schlüsselworten in kontinuierlicher Sprache | |
DE2659096C2 (de) | ||
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE60024501T2 (de) | Verbesserung der perzeptuellen Qualität von SBR (Spektralbandreplikation) UND HFR (Hochfrequenzen-Rekonstruktion) Kodierverfahren mittels adaptivem Addieren von Grundrauschen und Begrenzung der Rauschsubstitution | |
DE2934489C2 (de) | ||
DE2229149A1 (de) | Verfahren zur Übertragung von Sprache | |
DE69633944T2 (de) | Verfahren und gerät zum kodieren von digitalen daten | |
DE2753277A1 (de) | Spracherkennungseinrichtung | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE69521405T2 (de) | System zum Abspielen mit veränderbarer Geschwindigkeit | |
DE2818204A1 (de) | Signalverarbeitungsanlage, insbesondere zur beseitigung von raumnachhall | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE60027177T2 (de) | Gerät und verfahren für ein telekommunikationssystem | |
DE2500839B2 (de) | Elektronisches Musikinstrument mit Sinustabellenspeicher | |
DE2622423B2 (de) | Elektrische Anordnung zur Übertragung oder Speicherung eines Sprachoder Tonsignals in kodierter Form | |
EP1023777B1 (de) | Verfahren und vorrichtung zur erzeugung eines bitratenskalierbaren audio-datenstroms | |
DE3149134C2 (de) | Verfahren und Vorrichtung zur Bstimmung von Endpunkten eines Sprachausdrucks | |
DE3019823C2 (de) | ||
DE3884839T2 (de) | Codierung von akustischen Wellenformen. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8128 | New person/name/address of the agent |
Representative=s name: BLUMBACH, P., DIPL.-ING., 6200 WIESBADEN WESER, W. |
|
8126 | Change of the secondary classification |
Ipc: G10L 1/00 |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition |