DE4237563A1 - - Google Patents
Info
- Publication number
- DE4237563A1 DE4237563A1 DE4237563A DE4237563A DE4237563A1 DE 4237563 A1 DE4237563 A1 DE 4237563A1 DE 4237563 A DE4237563 A DE 4237563A DE 4237563 A DE4237563 A DE 4237563A DE 4237563 A1 DE4237563 A1 DE 4237563A1
- Authority
- DE
- Germany
- Prior art keywords
- pitch
- speech
- spectral envelope
- period
- signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000011295 pitch Substances 0.000 claims description 274
- 238000000034 method Methods 0.000 claims description 241
- 230000003595 spectral effect Effects 0.000 claims description 181
- 230000015572 biosynthetic process Effects 0.000 claims description 98
- 238000003786 synthesis reaction Methods 0.000 claims description 95
- 230000006870 function Effects 0.000 claims description 53
- 230000010355 oscillation Effects 0.000 claims description 53
- 238000004458 analytical method Methods 0.000 claims description 43
- 238000003860 storage Methods 0.000 claims description 42
- 230000005284 excitation Effects 0.000 claims description 40
- 230000000737 periodic effect Effects 0.000 claims description 39
- 230000004044 response Effects 0.000 claims description 34
- 238000001228 spectrum Methods 0.000 claims description 20
- 239000002243 precursor Substances 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 11
- 230000002194 synthesizing effect Effects 0.000 claims description 8
- 230000008569 process Effects 0.000 description 29
- 230000008859 change Effects 0.000 description 19
- 238000013518 transcription Methods 0.000 description 14
- 230000035897 transcription Effects 0.000 description 14
- 238000000354 decomposition reaction Methods 0.000 description 11
- 230000003044 adaptive effect Effects 0.000 description 9
- 238000001914 filtration Methods 0.000 description 8
- 238000012882 sequential analysis Methods 0.000 description 8
- 239000000872 buffer Substances 0.000 description 6
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 238000001308 synthesis method Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 206010071299 Slow speech Diseases 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 241000282898 Sus scrofa Species 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 239000011318 synthetic pitch Substances 0.000 description 2
- 240000000233 Melia azedarach Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000003608 fece Anatomy 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Electrophonic Musical Instruments (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
Die Erfindung betrifft ein Sprachsynthesesystem und ein
Verfahren zum Synthetisieren von Sprache, insbesondere ein
Verfahren zur Sprachsegmentcodierung und zur Tonhöhensteuerung,
welches die Qualität der synthetisierten
Sprache signifikant verbessert.
Das Prinzip der vorliegenden Erfindung kann direkt nicht
nur auf die Sprachsynthese, sondern auch auf die Synthese
anderer Klänge, wie z. B. den Klang musikalischer
Instrumente oder Gesang, angewandt werden, wobei diese
Klänge jeweils Eigenschaften aufweisen, die denjenigen der
Sprache ähnlich sind. Das erfindungsgemäße Verfahren kann
auch für eine sehr langsame Sprachcodierung oder für eine
Sprachgeschwindigkeitsumwandlung verwendet werden. Die
Erfindung wird nachstehend unter Konzentration auf die
Sprachsynthese beschrieben.
Es sind Sprachsyntheseverfahren bekannt, um ein
Text-in-Sprache-Synthesesystem zu realisieren, welches
zahllose Vokabeln synthetisieren kann, indem es einen
Text, d. h. Zeichenketten, in Sprache umwandelt. Ein
Verfahren, welches leicht zu realisieren ist und welches
am meisten verwendet wird, ist das Sprachsegmentsynthese
verfahren, welches auch als Synthese-durch-Verkettung-Ver
fahren bezeichnet wird, bei dem die menschliche Sprache
abgetastet und in phonetische Einheiten analysiert wird,
wie z. B. Halbsilben oder Diphone, um kurze Sprachsegmente
zu erhalten, die dann codiert und in einem Speicher
gespeichert werden. Wenn Text eingegeben wird, wird er in
phonetische Transkriptionen umgewandelt. Sprachsegmente,
welche den phonetischen Transkriptionen entsprechen,
werden dann sequentiell aus dem Speicher abgerufen und
decodiert, um die Sprache zu synthetisieren, die dem
eingegebenen Text entspricht.
Bei diesem Typ eines mit Segmenten arbeitenden Sprach
syntheseverfahrens besteht eines der wichtigsten Elemente
zur Beherrschung der Qualität der synthetisierten Sprache
in dem Codierverfahren für die Sprachsegmente. Bei
vorbekannten, mit Segmenten arbeitenden Sprachsynthese
verfahren für ein Sprachsynthesesystem wird als Sprach
codierverfahren für die Speicherung von Sprachsegmenten
hauptsächlich ein Vocoderverfahren von niedriger
Sprachqualität verwendet. Dies ist jedoch einer der
wichtigsten Gründe, welcher die Qualität synthetisierter
Sprache verschlechtert. Es folgt eine kurze Beschreibung
der vorbekannten Sprachsegmentcodierverfahren.
Die Sprachcodierverfahren können größtenteils in ein
Schwingungscodierverfahren von guter Sprachqualität und
ein Vocoderverfahren von niedriger Sprachqualität
unterteilt werden. Da das Schwingungscodierverfahren bzw.
das Wellenform- bzw. Signalform-Codierverfahren ein
Verfahren ist, mit dem angestrebt wird, die Sprach
schwingung, so wie sie ist, zu übertragen, ist es
schwierig, die Tonhöhenfrequenz und die Dauer zu ändern,
so daß es unmöglich ist, die Intonation und die Sprech
geschwindigkeit einzustellen, wenn die Sprachsynthese
durchgeführt wird. Außerdem ist es unmöglich, die Sprach
segmente glatt miteinander zu verbinden, so daß das
Schwingungs- bzw. Signalform-Codierverfahren grundsätzlich
nicht für die Codierung von Sprachsegmenten geeignet ist.
Wenn andererseits das Vocoderverfahren verwendet wird,
welches auch als Analyse/Synthese-Verfahren bezeichnet
wird, dann können das Tonhöhenmuster und die Dauer des
Sprachsegments nach Belieben geändert werden. Da die
Sprachsegmente außerdem durch Interpolation der spektralen
Enveloppenabschätzungsparameter glatt verbunden werden
können, ist das Vocoderverfahren für Codiereinrichtungen
für eine Text-in-Sprache-Synthese, für Vocoderverfahren,
wie z. B. das lineare, vorhersagende Codieren (LPC - linear
predictive coding) oder für das Formant-Vocoderverfahren
geeignet und wird in den meisten derzeit eingesetzten
Sprachsynthesesystemen verwendet. Da jedoch die Qualität
der decodierten Sprache gering ist, wenn die Sprache unter
Verwendung des Vocoderverfahrens codiert wird, kann die
synthetisierte Sprache, die durch Decodieren der gespei
cherten Sprachsegmente und durch deren Verkettung erhalten
wird, keine bessere Sprachqualität haben als diejenige,
die durch das Vocoderverfahren angeboten wird.
Bisher unternommene Versuche, die durch das Vocoderver
fahren angebotene Sprachqualität zu verbessern, ersetzen
den verwendeten Impulszug durch ein Anregungssignal,
welches eine weniger künstliche Schwingungsform hat. Ein
solcher Versuch bestand darin, eine Schwingung bzw.
Signalform zu verwenden, welche niedrigere Spitzenwerte
hat als ein Impuls, beispielsweise eine Dreieckschwingung
oder eine halbkreisförmige Schwingung oder eine einem
glossalen Impuls ähnliche Schwingung. Ein anderer Versuch
bestand darin, einen abgetasteten Tonhöhenimpuls mit einer
Dauer von ein oder mehreren Restsignal-Tonhöhenperioden
auszuwählen, welcher durch inverse Filterung erhalten
wurde, und diesen anstelle des Impulses zu verwenden, und
zwar einen einzigen Abtastimpuls für die gesamte Zeit
periode oder für eine Periode beträchtlicher Dauer. Diese
Versuche, den Impuls durch einen Anregungsimpuls anderer
Signalform zu ersetzen, haben jedoch die Sprachqualität
nicht oder nur geringfügig verbessert, und es wurde
niemals synthetisierte Sprache erhalten, welche eine die
natürliche Sprache annähernde Qualität besaß.
Der Erfindung liegt die Aufgabe zugrunde, synthetische
Sprache mit hoher Qualität zu erzeugen, welche natürlich
und verständlich klingt, und zwar in demselben Maße, wie
die menschliche Sprache, unter Verwendung eines neuartigen
Sprachsegmentcodierverfahrens, welches eine gute Sprach
qualität und Tonhöhensteuerung ermöglicht. Das Verfahren
gemäß der Erfindung kombiniert die Vorteile des Schwin
gungscodierverfahrens, welches eine gute Sprachqualität
liefert, jedoch ohne die Möglichkeit einer Tonhöhensteue
rung, und des Vocoderverfahrens, welches die Möglichkeit
einer Tonhöhensteuerung bietet, jedoch eine niedrige
Sprachqualität hat.
Die vorliegende Erfindung verwendet ein Verfahren zur
periodischen Schwingungszerlegung, bei dem es sich um ein
Codierverfahren handelt, mit dessen Hilfe ein Signal in
einem stimmhaften Klangsektor der Originalsprache in
Einzelschwingungen bzw. Einzelwellen oder -signale zerlegt
wird, die äquivalent zu eine Periode umfassenden Sprach
schwingungen sind, die durch glossale Impulse erzeugt
werden, wobei das zerlegte Signal codiert und gespeichert
wird. Weiterhin wird erfindungsgemäß ein auf der Zeit
verformung bzw. -verschiebung basierendes Einzelschwin
gungs-Repositionierungsverfahren angewandt, bei dem es
sich um ein Schwingungssyntheseverfahren handelt, welches
in der Lage ist, die Dauer und die Tonhöhenfrequenz des
Sprachsegments beliebig einzustellen und dabei die
Qualität der Originalsprache aufrechtzuerhalten, und zwar
durch Auswählen derjenigen Schwingungen unter den gespei
cherten Einzelschwingungen, welche den Positionen am
nächsten sind, an denen die Einzelschwingungen posi
tioniert werden sollen, und durch anschließendes
Decodieren der ausgewählten Einzelschwingungen und durch
Überlagern derselben. Im Rahmen der vorliegenden
Beschreibung werden musikalische Klänge wie stimmhafte
Klanganteile behandelt.
Die vorstehend angegebene Aufgabenstellung ist so zu
interpretieren, daß lediglich einige wenige der wichti
geren Merkmale und Anwendungsmöglichkeiten der Erfindung
erwähnt werden. Zahlreiche weitere, vorteilhafte Ergeb
nisse können erzielt werden, indem man die offenbarte
Erfindung in anderer Weise anwendet oder sie im Rahmen der
Offenbarung modifiziert. Folglich ergeben sich weitere
Aufgaben und ein vollständigeres Verständnis der Erfindung
durch Bezugnahme auf die Zusammenfassung und die Detail
beschreibung, welche ein bevorzugtes Ausführungsbeispiel
beschreiben und zusätzlich aus dem Umfang der Erfindung,
wie er durch die Ansprüche definiert ist, jeweils in
Verbindung mit den beigefügten Zeichnungen.
Die Verfahren zur Sprachsegmentcodierung und zur
Tonhöhensteuerung für Sprachsynthesesysteme gemäß
vorliegender Erfindung sind durch die Ansprüche definiert,
wobei spezielle Ausführungsbeispiele in den beigefügten
Zeichnungen gezeigt sind. Zusammenfassend kann man
bezüglich der Erfindung sagen, daß sich die Erfindung mit
einem Verfahren befaßt, welches geeignet ist, Sprache zu
synthetisieren, welche die Qualität natürlicher Sprache
annähert, und zwar durch Einstellung ihrer Dauer und
Tonhöhenfrequenz, durch Schwingungscodierung von
Einzelschwingungen jeder Periode, durch Speichern der
codierten Daten in einem Speicher und - zum Zeitpunkt der
Synthese - durch Decodieren dieser Daten und durch
Positionieren der entsprechenden Signale an geeigneten
Zeitpunkten, derart, daß sie das gewünschte Tonhöhenmuster
haben, wobei anschließend eine Überlagerung der Signal
elemente erfolgt, um natürliche Sprache, Gesang, Musik und
dergleichen zu erzeugen.
Die vorliegende Erfindung umfaßt ein Sprachsegment
codierverfahren zur Verwendung in einem Sprachsynthese
system, wobei dieses Verfahren die Bildung von Einzel
schwingungen umfaßt, indem Parameter erhalten werden,
welche eine spektrale Enveloppe in jedem Analysezeit
intervall darstellen. Dies geschieht durch Analysieren
eines periodischen oder quasi-periodischen digitalen
Signals, wie z. B. stimmhafter Sprache, unter Anwendung der
Spektrum-Abschätzungstechnik. Ein Originalsignal wird
zunächst entfaltet in eine Impulsantwort, die durch die
spektralen Enveloppenparameter dargestellt wird, und in
ein periodisches oder quasi-periodisches Tonhöhen-Impuls
folgesignal, welches eine nahezu flache, spektrale
Enveloppe aufweist. Ein Anregungssignal, welches erhalten
wird, indem Null-Abtastwerte angehängt werden, nachdem ein
Tonhöhenimpulssignal einer Periode erhalten wurde, indem
das Tonhöhen-Impulsfolgesignal Periode für Periode segmen
tiert wurde, derart, daß in jeder Periode ein Tonhöhen
impuls enthalten ist, sowie eine Impulsantwort, die einem
Satz von spektralen Enveloppenparametern in demselben
Zeitintervall entspricht, in dem das Anregungssignal
liegt, werden gefaltet, um eine Einzelschwingung für diese
Periode zu bilden.
Die Einzelschwingungen können, anstatt vorab durch Schwin
gungscodierung gebildet und in dem Speicher gespeichert zu
werden, gebildet werden, indem man eine Information, die
durch Schwingungscodierung eines Tonhöhenimpulssignals
jedes Periodenintervalls, welches durch Segmentierung
gehalten wird, an die Information anpaßt, welche durch
Codieren eines Satzes von spektralen Enveloppenab
schätzungsparametern für dasselbe Zeitintervall wie die
obige Information erhalten wird oder mit einer Impulsant
wort, die den Parametern entspricht, woraufhin die Einzel
schwingungsinformation in einem Speicher gespeichert wird.
Es gibt zwei Verfahren zum Erzeugen synthetischer Sprache
unter Verwendung der in dem Speicher gespeicherten Einzel
schwingungsinformation. Das erste Verfahren besteht darin,
jede Einzelschwingung dadurch zu bilden, daß ein Anre
gungssignal, welches erhalten wird, indem man Null-Abtast
werte nach einem Tonhöhenimpulssignal einer Periode
anhängt, welches durch Decodieren der Information erhalten
wurde, mit einer Impulsantwort faltet, die den decodier
ten, spektralen Enveloppenparametern für dasselbe Zeit
intervall wie das Anregungssignal entspricht, und dann die
Einzelschwingungen den geeigneten Zeitpunkten derart
zuordnet, daß sie das erwünschte Tonhöhenmuster und Dauer
muster haben, woraufhin die Einzelschwingungen an den
Zeitpunkten angeordnet und anschließend überlagert werden.
Das zweite Verfahren besteht darin, ein synthetisches
Anregungssignal zu bilden, indem den Tonhöhenimpuls
signalen, welche durch Decodieren der Einzelschwingungs
information erhalten wurden, geeignete Zeitpunkte derart
zugeordnet werden, daß sie das gewünschte Tonhöhenmuster
und Dauermuster haben, und sie an den Zeitpunkten anord
net, und einen Satz von synthetischen spektralen, spek
tralen Enveloppenparametern zu bilden, entweder durch
temporäres Komprimieren oder Expandieren des Satzes von
Zeitfunktionen der Parameter auf einer Untersegment-für-
Untersegment-Basis in Abhängigkeit davon, ob die Dauer
eines Untersegments in einem zu synthetisierenden
Sprachsegment kürzer oder länger ist als diejenige eines
entsprechenden Untersegments in dem Original-Sprach
segment, oder durch Anordnen des Satzes von Zeitfunktionen
der Parameter einer Periode synchron mit dem darauf
abgestimmten Tonhöhenimpulssignal einer Periode, die so
angeordnet ist, daß sie das synthetische Anregungssignal
bildet, und das synthetische Anregungssignal und eine
Impulsantwort zu falten, welche dem synthetischen,
spektralen Enveloppenparametersatz entspricht, und zwar
durch Verwendung eines zeitvariablen Filters oder durch
Verwendung einer schnellen Faltungstechnik auf der Basis
der Verwendung einer schnellen Fourier-Transformation. Bei
dem letztgenannten Verfahren ergibt sich ein Leerinter
vall, wenn eine Tonhöhenperiode länger ist als die
Original-Tonhöhenperiode, und es ergibt sich ein Über
lappungsintervall, wenn die gewünschte Tonhöhenperiode
kürzer ist als die Original-Tonhöhenperiode.
In dem Überlappungsintervall wird das synthetische
Anregungssignal erhalten, indem man die einander
überlappenden Tonhöhenimpulssignale zueinander addiert
oder indem man eines von ihnen auswählt, und der spektrale
Enveloppenparameter wird erhalten, indem man entweder
einen der sich überlappenden spektralen Enveloppen
parameter auswählt oder indem man einen Mittelwert der
beiden sich überlappenden Parameter verwendet.
In dem Leerintervall wird das synthetische Anregungssignal
erhalten, indem man dieses Intervall mit Null-Abtastwerten
füllt, und der synthetische, spektrale Enveloppenparameter
wird erhalten, indem man die Werte der spektralen Enve
loppenparameter an den Anfangs- und Endpunkten der
vorausgehenden und der folgenden Periode vor und hinter
der Mitte des Leerintervalls wiederholt, oder indem man
einen der beiden Werte wiederholt oder einen Mittelwert
der beiden Werte, oder indem man das Leerintervall mit
Werten füllt und die beiden Werte glatt miteinander
verbindet.
Die vorliegende Erfindung umfaßt ferner ein Tonhöhen
steuerverfahren für ein Sprachsynthesesystem, welches
geeignet ist, die Dauer und Tonhöhe eines Sprachsegments
durch ein Einzelschwingungs-Repositionierungsverfahren auf
der Basis der Zeitverformung zu steuern, welches es
ermöglicht, Sprache nahezu mit derselben Qualität wie
natürliche Sprache zu synthetisieren, und zwar durch
Codieren wichtiger Grenzzeitpunkte, wie z. B. den
Startpunkt, den Endpunkt und einzelner Punkte im Bereich
eines stetigen Zustands des Sprachsegments und durch
Codieren von Tonhöhenimpulspositionen jeder Einzel
schwingung oder jedes Tonhöhenimpulssignals und durch
Speichern der codierten Signale in einem Speicher,
gleichzeitig mit der Speicherung jedes Sprachsegments,
wobei zum Zeitpunkt der Synthese eine Zeitverformungs
funktion erhalten wird durch Vergleichen der gewünschten
Grenzzeitpunkte und der diesen entsprechenden, gespeicher
ten Original-Grenzzeitpunkte, durch Herausfinden der
Original-Zeitpunkte, die jeder gewünschten Tonhöhenimpuls
position entsprechen, unter Verwendung der Zeitverfor
mungsfunktion, durch Auswählen der Einzelschwingungen,
welche Tonhöhenimpulspositionen haben, die den
Original-Zeitpunkten am nächsten benachbart sind, und durch Posi
tionieren dieser Einzelschwingungen an den gewünschten
Tonhöhenimpulspositionen und schließlich durch Überlagern
der Einzelschwingungen.
Das Tonhöhensteuerverfahren kann ferner umfassen: das
Erzeugen synthetischer Sprache durch Auswählen von
Tonhöhenimpulssignalen einer Periode und von spektralen
Enveloppenparametern, die den Tonhöhenimpulssignalen
entsprechen, und zwar anstelle der Einzelschwingungen, und
durch Positionieren derselben und durch Falten der posi
tionierten Tonhöhenimpulssignale und der Impulsantwort,
welche den spektralen Enveloppenparametern entspricht, um
Einzelschwingungen zu erzeugen und die erzeugten Einzel
schwingungen zu überlagern, oder durch Falten eines
synthetischen Anregungssignals, welches durch Überlagern
der positionierten Tonhöhenimpulssignale und der zeit
variablen Impulsantwort erhalten wurde, welche synthe
tischen, spektralen Enveloppenparametern entspricht, die
durch Verketten der positionierten, spektralen Enveloppen
parameter erhalten wurden.
Es wird eine Einrichtung zum Synthetisieren stimmhafter
Sprache zur Verwendung in einem Sprachsynthesesystem
beschrieben, welches durch folgende Merkmale gekenn
zeichnet ist:
Es ist ein Decodier-Unterblock 9 vorgesehen, welcher durch Decodieren von Einzelschwingungscodes aus dem Sprachseg mentspeicherblock 5 eine Einzelschwingungsinformation erzeugt;
es ist ein Dauersteuerungs-Unterblock 10 vorgesehen, welcher aus eingegebenen Dauerdaten von einem Vorläufer erzeugungs-Untersystem 2 und aus Grenzzeitpunkten, die in einer Kopfinformation aus dem Sprachsegmentspeicherblock 5 enthalten sind, eine Zeitverformungsinformation erzeugt;
es ist ein Tonhöhensteuerungs-Unterblock 11 vorgesehen, welcher eine Tonhöhenimpulspositionsinformation derart erzeugt, daß sie ein Intonationsmuster hat, wie es von Intonationsmusterdaten in der als Eingangssignal verwen deten Kopfinformation von dem Sprachsegmentspeicherblock (5), von Intonationsmusterdaten von dem Vorläuferer zeugungs-Untersystem und von der Zeitverformungs information aus dem Dauersteuerungs-Unterblock (10) angegeben wird;
es ist ein Energiesteuerungs-Unterblock 12 vorgesehen, welcher Verstärkungsinformationen in der Weise erzeugt, daß die synthetisierte Sprache ein Betonungsmuster auf weist, wie es angezeigt wird durch die Betonungsmuster daten vom Eingang der Betonungsmusterdaten, von dem Vor läufererzeugungs-Untersystem 2, von der Zeitverformungs information von dem Dauersteuerungs-Unterblock 10 und von der Tonhöhenimpulspositionsinformation von dem Tonhöhen steuerungs-Unterblock 11; und
es ist ein Schwingungsanordnungs-Unterblock 13 vorgesehen, welcher ein stimmhaftes Sprachsignal erzeugt aus Eingangsinformationen über die Einzelschwingungsinformationen von dem Decodier-Unterblock 9, über die Zeitverformungs informationen von dem Dauersteuerungs-Unterblock 10, über die Tonhöhenimpulsinformationen von dem Tonhöhensteue rungs-Unterblock 11 und über die Verstärkungsinformationen von dem Energiesteuerungs-Unterblock 12.
Es ist ein Decodier-Unterblock 9 vorgesehen, welcher durch Decodieren von Einzelschwingungscodes aus dem Sprachseg mentspeicherblock 5 eine Einzelschwingungsinformation erzeugt;
es ist ein Dauersteuerungs-Unterblock 10 vorgesehen, welcher aus eingegebenen Dauerdaten von einem Vorläufer erzeugungs-Untersystem 2 und aus Grenzzeitpunkten, die in einer Kopfinformation aus dem Sprachsegmentspeicherblock 5 enthalten sind, eine Zeitverformungsinformation erzeugt;
es ist ein Tonhöhensteuerungs-Unterblock 11 vorgesehen, welcher eine Tonhöhenimpulspositionsinformation derart erzeugt, daß sie ein Intonationsmuster hat, wie es von Intonationsmusterdaten in der als Eingangssignal verwen deten Kopfinformation von dem Sprachsegmentspeicherblock (5), von Intonationsmusterdaten von dem Vorläuferer zeugungs-Untersystem und von der Zeitverformungs information aus dem Dauersteuerungs-Unterblock (10) angegeben wird;
es ist ein Energiesteuerungs-Unterblock 12 vorgesehen, welcher Verstärkungsinformationen in der Weise erzeugt, daß die synthetisierte Sprache ein Betonungsmuster auf weist, wie es angezeigt wird durch die Betonungsmuster daten vom Eingang der Betonungsmusterdaten, von dem Vor läufererzeugungs-Untersystem 2, von der Zeitverformungs information von dem Dauersteuerungs-Unterblock 10 und von der Tonhöhenimpulspositionsinformation von dem Tonhöhen steuerungs-Unterblock 11; und
es ist ein Schwingungsanordnungs-Unterblock 13 vorgesehen, welcher ein stimmhaftes Sprachsignal erzeugt aus Eingangsinformationen über die Einzelschwingungsinformationen von dem Decodier-Unterblock 9, über die Zeitverformungs informationen von dem Dauersteuerungs-Unterblock 10, über die Tonhöhenimpulsinformationen von dem Tonhöhensteue rungs-Unterblock 11 und über die Verstärkungsinformationen von dem Energiesteuerungs-Unterblock 12.
Gemäß der vorliegenden Erfindung wird also in das phone
tische Vorverarbeitungsuntersystem 1 ein Text eingegeben
und dort in phonetische Transkriptionssymbole und syntak
tische Analysedaten umgewandelt. Die syntaktischen
Analysedaten werden an ein Vorläufererzeugungsuntersystem
2 ausgegeben. Das Vorläufererzeugungsuntersystem 2 gibt
die Vorläuferinformation an das Sprachsegmentverkettungs
untersystem 3. Die phonetischen Transkriptionssymbole vom
Ausgang des Vorverarbeitungsuntersystems werden ebenfalls
in das Sprachsegmentverkettungsuntersystem 3 eingegeben.
Die phonetischen Transkriptionssymbole werden dann in den
Sprachsegmentselektionsblock 4 eingegeben und die
entsprechenden Vorläuferdaten werden in den Syntheseblock
6 für stimmhaften Klang und in den Syntheseblock 7 für
stimmlosen Klang eingegeben. In dem Sprachsegment
selektionsblock 4 wird jedes eingegebene, phonetische
Transkriptionssymbol an eine entsprechende Sprach
segmentsyntheseeinheit angepaßt, und es wird eine
Speicheradresse der angepaßten Synthese-Einheit, die dem
jeweils eingegebenen phonetischen Transkriptionssymbol
entspricht, aus einer Sprachsegmenttabelle in dem Sprach
segmentspeicherblock 5 herausgefunden. Die Adresse der
angepaßten Synthese-Einheit wird dann an den Sprach
segmentspeicherblock 5 ausgegeben, wo das betreffende
Sprachsegment in Form einer kodierten Einzelschwingung für
jede der Adressen der angepaßten Synthese-Einheiten
ausgewählt wird. Das ausgewählte Sprachsegment in Form
einer codierten Einzelschwingung wird an den Syntheseblock
6 für stimmhaften Klang ausgegeben und an den Synthese
block 7 für stimmlosen Klang. Der Syntheseblock 6 für
stimmhaften Klang, welcher das Verfahren der Einzel
schwingungs-Repositionierung auf Zeitverformungsbasis
anwendet, synthetisiert den Sprachklang und der Synthese
block 7 für stimmlose Sprache gibt digitale, synthetische
Sprachsignale an den Digital/Analog-Wandler für die
Umsetzung der eingegebenen Digitalsignale in analoge
Signale aus, die synthetisierte Sprachklänge sind.
Bei der Anwendung der vorliegenden Erfindung werden
Sprache und/oder Musik zuerst auf ein Magnetband aufge
zeichnet. Das dabei erhaltene Klangsignal wird dann aus
einem analogen Signal in ein digitales Signal umgewandelt,
und zwar durch Tiefpaßfilterung der analogen Signale und
Zuführung der gefilterten Signale zu einem Analog/Digi
tal-Wandler. Die erhaltenen, digitalisierten Sprachsignale
werden dann in eine Anzahl von Sprachsegmenten segmentiert
bzw. unterteilt, welche Klänge haben, die Synthese-Ein
heiten entsprechen, wie z. B. Phonemen, Diphonen, Halb
silben und dergleichen, und zwar unter Verwendung bekann
ter Spracheditierwerkzeuge. Jedes auf diese Weise
erhaltene Sprachsegment wird dann unter Verwendung
bekannter Einrichtungen zum Erkennen stimmhafter und
stimmloser Sprache und entsprechender Spracheditier
werkzeuge den stimmhaften oder den stimmlosen Sprachseg
menten zugeordnet. Die stimmlosen Sprachsegmente werden
nach dem bekannten Vocoderverfahren codiert, welche weißes
Rauschen als stimmlose Sprachquelle benutzen. Die Vocoder
verfahren umfassen LPC-Vocoderverfahren, homomorphe Voco
derverfahren, Formant-Vocoderverfahren und dergleichen.
Die stimmhaften Sprachsegmente werden verwendet, um kleine
Wellen, Schwingungen bzw. Einzelschwingungen sj(n) zu
erzeugen, und zwar nach dem Verfahren, welches weiter
hinten anhand von Fig. 4 beschrieben wird. Die Einzel
schwingungen sj(n) werden unter Verwendung eines geeig
neten Schwingungscodierverfahrens codiert. Zu den bekann
ten Schwingungscodierverfahren gehören die
Pulse-Code-Modulation (PCM), die adaptive, differentielle
Pulse-Code-Modulation (ADPCM), das adaptive, vorhersagende
Codieren (APC) und dergleichen. Die so erhaltenen
codierten, stimmhaften Sprachsegmente werden in dem
Sprachsegmentspeicherblock 5 gespeichert, wie dies in Fig.
6A und 6B gezeigt ist. Die codierten, stimmlosen Sprach
segmente werden ebenfalls in dem Sprachsegmentspeicher
block 5 gespeichert.
Die relevanteren und wichtigen Merkmale der vorliegenden
Erfindung wurden vorstehend skizziert, damit die Detail
beschreibung der Erfindung, welche sich anschließt, besser
zu verstehen ist, und damit der erfindungsgemäße Beitrag
zum Stand der Technik voll gewürdigt werden kann. Zusätz
liche Merkmale der Erfindung, die nachstehend beschrieben
werden, bilden den Gegenstand der Ansprüche der Erfindung.
Der Fachmann wird anerkennen, daß die Konzeption und die
spezifische Realisierung, die in der vorliegenden Anmel
dung offenbart ist, ohne weiteres als Basis für die
Modifikation oder Gestaltung anderer Strukturen zum
Ausführen desselben Zweckes der Erfindung
verwendet werden kann. Ferner sieht der Fachmann, daß eine
äquivalente Realisierung nicht vom Grundgedanken und
Schutzumfang der Erfindung gemäß den Ansprüchen abweicht.
Zum vollständigeren Verständnis der Natur und der Ziele
der Erfindung wird auf die Zeichnungen in
Verbindung mit der nachfolgenden Detailbeschreibung
verwiesen. Es zeigen:
Fig. 1 das Text-in-Sprache-Synthesesystem des
Sprachsegmentsyntheseverfahrens;
Fig. 2 das Sprachsegmentverkettungsuntersystem;
Fig. 3A-3T Schwingungen (Wellenformen, Signalformen)
zur Erläuterung der Prinzips des Verfah
rens der periodischen Schwingungszerlegung
und des Verfahrens der Einzelschwingungs-
Repositionierung gemäß der Erfindung;
Fig. 4 ein Blockdiagramm zur Erläuterung des
Verfahrens der periodischen Schwingungs
zerlegung;
Fig. 5A-5E Blockdiagramm zur Erläuterung des
Verfahrens der blinden Entfaltung;
Fig. 6A u. 6B Codeformate für stimmhafte Sprachsegment
informationen, die in dem Sprachsegment
speicherblock gespeichert sind;
Fig. 7 den Syntheseblock für stimmhafte Sprache
gemäß der Erfindung; und
Fig. 8A u. 8B grafische Darstellungen zur Erläuterung
der Dauer- und Tonhöhensteuerung gemäß der
Erfindung.
Entsprechende Teile bzw. Elemente sind in den einzelnen
Zeichnungsfiguren durchgehend mit denselben Bezugszeichen
bezeichnet.
Die Struktur eines Text-in-Sprache-Synthesesystems gemäß
dem bekannten Sprachsegmentsyntheseverfahren besteht aus
drei Untersystemen:
A. Einem phonetischen Vorverarbeitungsuntersystem 1;
B. einem Vorläufererzeugungsuntersystem 2; und
C. einem Sprachsegmentverkettungsuntersystem 3 wie dies in Fig. 1 gezeigt ist.
A. Einem phonetischen Vorverarbeitungsuntersystem 1;
B. einem Vorläufererzeugungsuntersystem 2; und
C. einem Sprachsegmentverkettungsuntersystem 3 wie dies in Fig. 1 gezeigt ist.
Wenn ein Text über eine Tastatur, einen Computer oder
irgendein anderes System in das Text-in-Sprache-Synthese
system eingegeben wird, dann analysiert das phonetische
Vorverarbeitungsuntersystem 1 die Syntax des Textes und
verwandelt den Text dadurch, daß es darauf phonetische
Recodierregeln anwendet, in eine Kette von phonetischen
Transkriptionssymbolen. Das Vorläufererzeugungsuntersystem
2 erzeugt Intonationsmusterdaten und Betonungsmusterdaten
unter Verwendung der syntaktischen Analysedaten derart,
daß bezüglich der Kette von phonetischen Transkriptions
symbolen eine angemessene Intonation und Betonung ausgeübt
werden kann, und gibt dann die Daten an das Sprachsegment
verkettungsuntersystem 3 aus. Das Vorläufererzeugungs
untersystem 2 liefert auch die Daten hinsichtlich der
Dauer jedes Phonems an das Sprachsegmentverkettungsunter
system 3.
Die drei oben angegebenen Vorläuferdaten, d. h. die Intona
tionsmusterdaten, die Betonungsmusterdaten und die Daten
bezüglich der Dauer jedes Phonems werden im allgemeinen
zusammen mit der Kette von phonetischen Transkriptions
symbolen, die von dem phonetischen Vorverarbeitungs
untersystem erzeugt werden, an das Sprachsegmentver
kettungsuntersystem 3 gesandt, obwohl die genannten Daten
unabhängig von der Kette der phonetischen Transkriptions
symbole an das Sprachsegmentverkettungsuntersystem 3
übertragen werden können.
Das Sprachsegmentverkettungsuntersystem 3 erzeugt konti
nuierliche Sprache, indem es der Reihe nach geeignete
Sprachsegmente heraussucht, die gemäß der Kette der
phonetischen Transkriptionssymbole (nicht gezeigt) in
codierter Form in seinem Speicher gespeichert sind und
indem es diese Informationen decodiert. Zu diesem Zeit
punkt kann das Sprachsegmentverkettungsuntersystem 3
synthetische Sprache erzeugen, welche die Intonation, die
Betonung und die Sprechgeschwindigkeit hat, die gemäß dem
Vorläufererzeugungsuntersystem gewünscht wird, und zwar
durch Steuern der Energie(Intensität), der Dauer und der
Tonhöhenperiode jedes Sprachsegments gemäß der Vorläufer
information.
Die vorliegende Erfindung verbessert die Sprachqualität im
Vergleich zu synthetischer Sprache gemäß dem Stande der
Technik erheblich, indem sie das Codierverfahren zum
Speichern der Sprachsegmente in dem Sprachsegmentver
kettungsuntersystem 3 verbessert. Eine Beschreibung
bezüglich der Arbeitsweise des Sprachsegmentverkettungs
untersystems 3 erfolgt nachstehend unter Bezugnahme auf
Fig. 2.
Wenn die Kette von phonetischen Transkriptionssymbolen,
die von dem phonetischen Vorverarbeitungsuntersystem 1
erzeugt wird, in den Sprachsegmentselektionsblock 4
eingegeben wird, dann wählt dieser nacheinander die
Synthese-Einheiten, wie z. B. Diphone und Halbsilben, indem
er die Kette von eintreffenden, phonetischen Transkrip
tionssymbolen kontinuierlich überwacht und die Adressen
der Sprachsegmente herausfindet, die den ausgewählten
Synthese-Einheiten entsprechen, und zwar aus seinem
Speicher, wie dies in Tabelle 1 angedeutet ist. Tabelle 1
zeigt ein Beispiel der Sprachsegment-Tabelle, die in dem
Sprachsegmentselektionsblock 4 gespeichert ist, welcher
die Sprachsegmente auf der Basis von Diphonen auswählt.
Dies führt zur Bildung einer Adresse des ausgewählten
Sprachsegments, welche an einen Sprachsegmentspeicherblock
5 ausgegeben wird.
Die Sprachsegmente, welche den Adressen der Sprachsegmente
entsprechen, werden nach dem Verfahren gemäß der Erfin
dung, welches weiter unten noch zu beschreiben ist,
codiert und an den (einzelnen) Adressen des Speichers des
Sprachsegmentspeicherblockes 5 gespeichert.
Wenn die Adresse des ausgewählten Sprachsegmentes aus dem
Sprachsegmentsselektionsblock 4 in den Sprachsegment
speicherblock 5 eingegeben wird, dann holt der Sprachseg
mentspeicherblock 5 die entsprechenden Sprachsegmentdaten
aus dem Speicher in dem Sprachsegmentspeicherblock 5 und
sendet sie an einen Syntheseblock 6 für stimmhafte Sprach
segmente, wenn es sich um einen stimmhaften Klang bzw. um
einen stimmhaften Friktionslaut handelt, oder an einen
Syntheseblock 7 für stimmlose Sprachsegmente, wenn es sich
um einen stimmlosen Laut handelt. Dies bedeutet, daß der
Syntheseblock 6 synthetisch ein digitales Sprachsignal
erzeugt, welches stimmhaften Sprachsegmenten entspricht,
während der Syntheseblock 7 synthetisch ein digitales
Sprachsignal erzeugt, welches einem stimmlosen Sprach
segment entspricht. Jedes synthetisch erzeugte, digitale
Sprachsignal des Syntheseblockes 6 und des Syntheseblockes
7 wird dann in ein analoges Signal umgewandelt. Somit
werden die auf die beschriebene Weise erhaltenen, synthe
tisch erzeugten, digitalen Sprachsignale, die von dem
Syntheseblock oder von dem Syntheseblock 7 ausgegeben
werden, anschließend zu einem Digital/Analog-(D/A-)Um
setzerblock 8 übertragen, der besteht aus einem
Digital/Analog-Umsetzer, einem analogen Tiefpaßfilter und
einem Analog-Verstärker, und von diesem in ein analoges
Signal umgewandelt, um den synthetischen Sprachklang bzw.
die synthetische Sprache zu liefern.
Wenn der Syntheseblock 6 für stimmhafte Sprachsegmente und
der Syntheseblock 7 für stimmlose Sprachsegmente die
Sprachsegmente miteinander verketten, liefern sie ein
Vorläufersignal für synthetische Sprache, wie es von dem
Vorläufererzeugungsuntersystem 2 angestrebt wird, indem
sie die Dauer, die Intensität und die Tonhöhenfrequenz des
Sprachsegments auf der Basis der Vorläuferinformation
zutreffend einstellen, d. h. auf der Basis der Intonations
musterdaten, der Betonungsdaten und der Dauer- bzw. Zeit
daten.
Die Vorbereitung eines Sprachsegments für die Speicherung
in dem Sprachsegmentspeicherblock 5 geschieht wie folgt.
Zunächst wird eine Synthese-Einheit ausgewählt. Zu diesen
Synthese-Einheiten gehören Phoneme, Allophone, Diphone,
Silben, Halbsilben, CVC-, VCV-, CV- und VC-Einheiten,
wobei "C" für ein Konsonantenphonem und "V" für ein
Vokalphonem stehen, bzw. Kombinationen dieser
Synthese-Einheiten. Die Synthese-Einheiten, welche bei dem derzei
tigen Sprachsyntheseverfahren am häufigsten verwendet
werden, sind die Diphone und die Halbsilben.
Das Sprachsegment, welches den einzelnen Elementen einer
Aggregation von Synthese-Einheiten entspricht, wird als
Segment aus Sprachproben herausgelöst, welche tatsächlich
von einem Menschen gesprochen werden. Folglich ist die
Anzahl der Elemente der Aggregation von Synthese-Einheiten
gleich der Zahl der Sprachsegmente. Wenn beispielsweise
Halbsilben als Synthese-Einheiten für die englische
Sprache verwendet werden, dann beträgt die Anzahl der
Halbsilben etwa 1000 und folglich beträgt die Anzahl der
Sprachsegmente ebenfalls etwa 1000. Im allgemeinen
bestehen solche Sprachsegmente aus einem stimmlosen
Schallintervall und einem stimmhaften Schallintervall.
Gemäß der Erfindung werden das stimmlose Sprachsegment und
das stimmhafte Sprachsegment durch Segmentieren eines
Sprachsegmentes gemäß dem Stand der Technik in ein
stimmloses Schallintervall und ein stimmhaftes Schall
intervall erhalten und als Basis-Syntheseeinheiten verwen
det. Der stimmlose Sprachsyntheseteil wird gemäß dem Stand
der Technik in der weiter unten beschriebenen Weise erhal
ten. Der stimmhafte Sprachsyntheseteil wird gemäß der
Erfindung erhalten.
Im einzelnen werden die stimmlosen Sprachsegmente an dem
in Fig. 2 gezeigten Syntheseblock 7 für stimmlose Sprach
segmente decodiert. Im Falle der Decodierung von stimm
losem Schall wurde gemäß dem Stande der Technik festge
stellt, daß die Verwendung eines künstlichen, ein weißes
Rauschen darstellenden Rauschsignals als Erregungssignal
für ein Synthesefilter die Qualität der decodierten
Sprache nicht erschwert oder verschlechtert. Aus diesem
Grunde können für die Codierung und Decodierung der
stimmlosen Sprachsegmente die bekannten Vocoderverfahren
unverändert angewandt werden, bei denen ein weißes
Rauschen als Erregersignal verwendet wird. Bei den
vorbekannten Syntheseverfahren für stimmlosen Schall kann
ein weißes Rauschen, beispielsweise nach einem Algo
rithmus, erzeugt werden, bei dem mit Zufallszahlen
gearbeitet wird, und sofort verwendet werden; es besteht
aber auch die Möglichkeit, ein vorab erzeugtes Rausch
signal in einem Speicher zu speichern und beim Syntheti
sieren aus dem Speicher abzurufen. Das weiße Rauschen kann
ferner ein Restsignal sein, welches erhalten wird, wenn
man ein stimmloses Schallintervall tatsächlich
gesprochener Sprache unter Verwendung eines inversen
Spektralenveloppenfilters filtert. Dieses Restsignal kann
dann in einem Speicher gespeichert und aus diesem für die
Durchführung der Synthese abgerufen werden. Wenn es nicht
erforderlich ist, die Dauer des stimmlosen Sprachsegmentes
zu ändern, kann ein extrem einfaches Codierverfahren
angewandt werden, bei dem das stimmlose Schallsegment nach
einem Wellenformcodierverfahren codiert wird, beispiels
weise nach dem Verfahren der Pulse-Code-Modulation oder
dem Verfahren der adaptiven, differentiellen Pulse-Code-Modulation.
Das codierte Signal wird dann gespeichert und
zur Verwendung beim Synthetisieren aus dem Speicher abge
rufen und decodiert.
Die vorliegende Erfindung befaßt sich mit einem Codier- und
Synthetisierverfahren für stimmhafte Sprachsegmente,
welche die Qualität der synthetisch erzeugten Sprache
beherrschen. Eine Beschreibung bezüglich eines solchen
Verfahrens unter Betonung des Sprachsegmentspeicherblockes
5 und des Syntheseblockes 6 für stimmhafte Sprachsegmente
ist in Fig. 2 dargestellt.
Die stimmhaften Sprachsegmente unter den im Speicher des
Sprachsegmentspeicherblockes 5 gespeicherten Sprachseg
menten werden nach dem erfindungsgemäßen Verfahren der
Zerlegung in periodische Signalanteile vorab in Einzel
wellen der periodischen Tonhöhenkomponente zerlegt. Der
Syntheseblock 6 für stimmhafte Sprachsegmente erzeugt
synthetisch Sprachsignale mit der gewünschten Tonhöhe und
dem gewünschten Zeitverlaufsmuster, indem er die Einzel
wellen in entsprechender Weise auswählt und sie entspre
chend dem Verfahren der "time warping-based wavelet
relocation" ordnet. Das Prinzip dieses Verfahrens der
Einzelsignal-Repositionierung auf der Basis der Zeit
verformung bzw. -verzerrung wird nachstehend unter
Bezugnahme auf die Zeichnungen erläutert.
Stimmhafte Sprache s(n) ist ein periodisches Signal,
welches erhalten wird, wenn eine periodische glossale
Schwingung, die an den Stimmbändern erzeugt wird, durch
das akustische Vokaltraktfilter V(f) hindurchläuft,
welches aus der Mundhöhle, der Kehlkopfhöhle und der
Nasenhöhle besteht. Im vorliegenden Fall sei angenommen,
daß das Vokaltraktfilter V(f) eine Frequenzcharakteristik
aufgrund eines Lippen-Abstrahlungseffekts aufweist. Ein
Spektrum S(f) von stimmhafter Sprache ist charakterisiert
durch:
- 1. eine Feinstruktur, die sich bezüglich der Frequenz f sehr schnell ändert; und
- 2. eine spektrale Enveloppe, die sich demgegenüber langsam ändert, wobei die erste Komponente durch die Periodizität des stimmhaften Sprachsignals verursacht wird und die an zweiter Stelle genannte Komponente das Spektrum einer glossalen Impuls- und Frequenz charakteristik des Vokaltraktfilters widerspiegelt.
Das Spektrum S(f) der stimmhaften Sprache nimmt dieselbe
Form an, die sich ergibt, wenn die Feinstruktur eines
Impulszuges aufgrund der harmonischen Komponenten, welche
bei ganzzahligen Vielfachen der Tonhöhenfrequenz Fo
vorhanden sind, mit einer spektralen Enveloppenfunktion
H(f) multipliziert wird. Daher kann stimmhafte Sprache
s(n) als ein Ausgangssignal betrachtet werden, welches
erhalten wird, wenn ein Impulsfolgesignal e(n) mit
periodischer Impulsfolgefrequenz, welches eine flache,
spektrale Enveloppe aufweist und dieselbe Periode wie die
stimmhafte Sprache S(n), als Eingangssignal einem zeit
variablen Filter zugeführt wird, welches denselben
Frequenzgang hat wie die spektrale Enveloppenfunktion H(f)
der stimmhaften Sprache S(n). Betrachtet man dies im
Zeitbereich, dann ist die stimmhafte Sprache s(n) eine
Faltung einer Impulsantwort h(n) des Filters H(f) und des
periodischen Tonhöhen-Impulsfolgesignals e(n). Da H(f) der
spektralen Enveloppenfunktion der stimmhaften Sprache s(n)
entspricht, wird das zeitvariable Filter mit H(f) als
seiner Frequenzcharakteristik als spektrales Enveloppen
filter bzw. als Synthesefilter bezeichnet.
In Fig. 3A ist ein Signal für vier Perioden einer
glossalen Wellenform bzw. Schwingung gezeigt. Im
allgemeinen sind die Wellen- bzw. Schwingungsformen der
glossalen Impulse, aus denen sich die glossale Schwin
gungsform zusammensetzt, einander ähnlich, jedoch nicht
völlig identisch. Außerdem sind die Zeitintervalle
zwischen benachbarten, glossalen Impulsen ähnlich, jedoch
nicht vollständig gleich. Wie oben beschrieben, wird die
Signalform s(n) der stimmhaften Sprache gemäß Fig. 3C
erzeugt, wenn die glossale Signalform g(n), die in Fig. 3A
gezeigt ist, durch das Vokaltraktfilter V(f) gefiltert
wird. Die glossale Signalform g(n) besteht aus den
glossalen Impulsen g1(n), g2(n), g3(n) und g4(n), die sich
voneinander hinsichtlich der Zeit unterscheiden und aus
denen durch Filterung mit Hilfe des Vokaltraktfilters V(f)
die Signale bzw. Schwingungen s1(n), s2(n), s3(n) und
s4(n) erzeugt werden, die in Fig. 3B gezeigt sind. Die
Schwingung bzw. Signalform s(n) der stimmhaften Sprache,
die in Fig. 3C gezeigt ist, wird durch Überlagerung dieser
Einzelschwingungen erhalten.
Ein Grundkonzept der vorliegenden Erfindung besteht darin,
daß man dann, wenn man die Einzelschwingungen erhalten
kann, aus denen ein stimmhaftes Sprachsignal zusammen
gesetzt ist, und zwar indem man dieses stimmhafte
Sprachsignal zerlegt, synthetische Sprache erhalten kann,
welche dadurch beliebige Akzente und Intonationsmuster
erhalten kann, daß die Intensität bzw. die Amplitude der
Einzelschwingungen und die Zeitintervalle zwischen
denselben geändert werden.
Da die Schwingung bzw. Wellenform s(n) gemäß Fig. 3C für
die stimmhafte Sprache durch Überlagerung der sich zeit
lich überlappenden Einzelschwingungen erhalten wurde, ist
es schwierig, die Einzelschwingungen aus der Sprachschwin
gung s(n) zurückzugewinnen.
Damit sich die Schwingungen der einzelnen Perioden im
Zeitbereich nicht überlappen, müssen sie in Form eines
Signals mit einer Spitze (Peak-Signal) vorliegen, bei dem
die Energie um einen Zeitpunkt konzentriert ist, wie dies
in Fig. 3F gezeigt ist.
Ein Peak-Signal ist ein Signal, welches im Frequenzbereich
eine nahezu flache, spektrale Enveloppe aufweist. Wenn ein
stimmhaftes Signal s(n) vorgegeben ist, dann kann als
Ausgangssignal ein Signal e(n) in Form einer periodischen
Tonhöhenimpulsfolge erhalten werden, welche, wie Fig. 3F
zeigt, eine flache, spektrale Enveloppe besitzt, indem die
Enveloppe des Spektrums S(f) des Signals s(n) abgeschätzt
wird und als Eingangssignal in ein inverses, spektrales
Enveloppenfilter 1/H(f) eingegeben wird, welches als
Frequenzcharakteristik eine zu der Enveloppenfunktion H(f)
inverse Charakteristik besitzt. Fig. 4, 5A und 5B beziehen
sich auf diesen Schritt.
Da die Tonhöhen-Impulssignale jeder Periode, die das
periodische Tonhöhen-Impulsfolgesignal e(n) zusammensetzen
einander, wie in Fig. 3F gezeigt, im Zeitbereich nicht
überlappen, können sie getrennt werden. Das Prinzip des
Verfahrens der periodischen Signalzerlegung besteht also
in folgendem: Da die getrennten Tonhöhen-Impulssignale für
eine Periode e1(n), e2(n), . . . ein im wesentlichen flaches
Spektrum haben, können die Signale s1(n), s2(n), usw., die
in Fig. 3B gezeigt sind, erhalten werden, wenn diese
Signale als Eingangssignale auf das spektrale Enveloppen
filter H(f) zurückgeführt werden, so daß die genannten
Signale dann das ursprüngliche Spektrum besitzen.
Fig. 4 zeigt ein Blockdiagramm des periodischen Signalzer
legungsverfahrens gemäß vorliegender Erfindung, bei dem
das stimmhafte Sprachsegment derart analysiert wird, daß
es in Einzelschwingungen aufgelöst wird. Das stimmhafte
Sprachsignal s(n), welches ein digitales Signal ist, wird
erhalten, indem man die Bandbreite des analogen, stimm
haften Sprachsignals oder eines mit Hilfe eines Musik
instrumentes erzeugten Schallsignals mit Hilfe eines
Tiefpaßfilters begrenzt und die resultierenden Signale
durch eine Analog/Digital-Umsetzung umwandelt und sie nach
dem Verfahren der Pulse-Code-Modulation auf einer Magnet
platte (einem magnetischen Aufzeichnungsmedium) speichert,
wobei gleichzeitig mehrere Bits zu einer Gruppe zusammen
gefaßt werden und wobei die gespeicherte Information dann
nach Bedarf zur Verarbeitung abgerufen werden kann.
Der erste Schritt der Erzeugung der Einzelschwingungen
bzw. -signale besteht bei dem periodischen Signalzer
legungsverfahren in einer blinden Entfaltung (blind
deconvolution), in deren Verlauf das stimmhafte Sprach
signal s(n) (das periodische Signal s(n)) in eine Impuls
antwort h(n) entfaltet wird, welche eine Zeitbereichsfunk
tion der Spektralenveloppenfunktion H(f) des Signals s(n)
ist, und in ein periodisches Tonhöhen-Impulsfolgesignal
e(n), welches eine flache, spektrale Enveloppe aufweist
sowie dieselbe Periode wie das Signal s(n) (Vgl. Fig. 5A
und 5B und die zugehörige Beschreibung).
Wie beschrieben, ist für die blinde Entfaltung die Technik
der Abschätzung des Spektrums, mit deren Hilfe die spek
trale Enveloppenfunktion H(f) ausgehend von dem Signal
s(n) abgeschätzt wird, wesentlich. Die vorbekannten
Verfahren bzw. Techniken zur Abschätzung des Spektrums
können in drei Verfahren klassifiziert werden:
- 1. ein Block-Analyseverfahren;
- 2. ein tonhöhensynchrones Analyseverfahren; und
- 3. ein Verfahren der sequentiellen Analyse, welches von der Länge eines Analyseintervalls abhängig ist.
Das Block-Analyseverfahren ist ein Verfahren, bei dem das
Sprachsignal in Blöcke konstanter Dauer in der Größen
ordnung von 10 bis 20 ms (Millisekunden) geteilt wird.
Anschließend wird die Analyse bezüglich der konstanten
Zahl von Sprachproben, die in jedem Block vorhanden sind,
durchgeführt, wobei ein Satz (üblicherweise 10 bis 16
Parameter) der Spektralenveloppenparameter für jeden Block
erhalten wird, wobei für dieses Verfahren ein homomorphes
Analyseverfahren und ein Block-Analyseverfahren mit
linearer Vorhersage typisch sind.
Bei dem tonhöhensynchronen Analyseverfahren wird ein Satz
von spektralen Enveloppenparametern für jede Periode
erhalten, indem die Analyse für jede Periode des Sprach
signals durchgeführt wird, welche durch Teilen des Sprach
signals mit der Tonhöhenperiode als Einheit erhalten wurde
(wie dies in Fig. 3C gezeigt ist), wobei für dieses Ver
fahren das Analyse-durch-Synthese-Verfahren und das
tonhöhensynchrone Analyseverfahren für eine lineare
Vorhersage typisch sind.
Bei dem sequentiellen Analyseverfahren wird für jede
Sprachprobe ein Satz von spektralen Enveloppenparametern
erhalten (wie dies in Fig. 3D gezeigt ist), und zwar durch
Abschätzen des Spektrums für jede Sprachprobe, wobei für
dieses Verfahren das Verfahren der kleinsten Quadrate bzw.
das rekursive Verfahren der kleinsten Quadrate typisch
ist, und wobei diese beiden Verfahren als eine Art von
adaptiven Filterverfahren anzusehen sind.
Fig. 3D zeigt die zeitliche Änderung der ersten
4 Reflexionscoeffizienten unter den 14 Reflexions
coeffizienten k1, k2, . . ., k14, welche einen Satz von
spektralen Enveloppenparametern bilden, der durch das
sequentielle Analyseverfahren erhalten wird (vgl.
Fig. 5A). Wie aus der Zeichnung deutlich wird, ändern sich
die Werte der spektralen Enveloppenparameter kontinuier
lich aufgrund der kontinuierlichen Bewegung der
Artikulierungsorgane, was bedeutet, daß sich die
Impulsantwort h(n) des spektralen Enveloppenfilters
kontinuierlich ändert. Im vorliegenden Fall wird der
Einfachheit halber unter der Voraussetzung, daß sich h(n)
in einem Intervall von der Länge einer Periode nicht
ändert, h(n) für die erste, die zweite und die dritte
Periode als h(n)1, h(n)2 bzw. h(n)3 bezeichnet, wie dies
in Fig. 3E gezeigt ist.
Ein Satz von Enveloppenparametern, der durch verschiedene
Spektrum-Abschätzungstechniken erhalten wurde, wie z. B.
ein Cepstrum CL(i), bei dem es sich um einen Parametersatz
handelt, der durch das homomorphe Analyseverfahren
erhalten wurde, oder ein Vorhersagecoeffizientensatz {ai}
oder ein Reflexionscoeffizientensatz {ki} oder ein Satz
von Linienspektrumpaaren usw., welcher erhalten wird,
indem man das rekursive Verfahren der kleinsten Quadrate
anwendet oder das lineare Vorhersageverfahren, wird ebenso
behandelt wie die Funktionen H(f) oder h(n), da er die
Frequenzcharakteristik H(f) oder die Impulsantwort h(n)
des spektralen Enveloppenfilters liefern kann. Aus diesem
Grunde wird nachstehend die Impulsantwort auch als
spektraler Enveloppenparametersatz bezeichnet.
Fig. 5A und 5B zeigen die Verfahren der blinden Entfaltung.
Im einzelnen zeigt 5A ein Verfahren der blinden Entfal
tung, welches unter Verwendung des Analyseverfahrens der
linearen Vorhersage oder unter Verwendung des rekursiven
Verfahrens der kleinsten Quadrate durchgeführt wird, wobei
es sich in beiden Fällen um vorbekannte Verfahren handelt.
Bei einem gegebenen, stimmhaften Sprachsignal s(n), wie es
in Fig. 3C gezeigt ist, werden die Vorhersagecoeffizienten
{a1, a2, . . ., aN} oder die Reflexionscoeffizienten {k1,
k2, . . .. kN}, bei denen es sich um spektrale Enveloppen
parameter handelt, die die Frequenzcharakteristik H(f)
oder die Impulsantwort h(n) des spektralen Enveloppen
filters darstellen, unter Verwendung des Analyseverfahrens
der linearen Vorhersage oder des rekursiven Verfahrens der
kleinsten Quadrate erhalten. Normalerweise sind 10 bis 16
Vorhersagecoeffizienten für die Ordnung H der Vorhersage
ausreichend. Unter Verwendung der Vorhersagecoeffizienten
a1, a2, . . ., aN und der Reflexionscoeffizienten {k1, k2,
..., kN} als spektralen Enveloppenparametern kann ein
inverses, spektrales Enveloppenfilter, welches nachstehend
einfach als ein inverses Filter bezeichnet wird und
welches die Frequenzcharakteristik 1/H(f) aufweist, die
invers zur Frequenzcharakteristik H(f) des spektralen
Enveloppenfilters ist, von einem Fachmann leicht
hergestellt werden. Wenn das stimmhafte Sprachsignal, das
Eingangssignal für das inverse, spektrale Enveloppenfilter
bildet, welches bei dem Analyseverfahren der linearen
Vorhersage auch als Filter für die lineare Fehlervor
hersage bezeichnet wird und bei dem rekursiven Verfahren
der kleinsten Quadrate ebenfalls, dann kann das perio
dische Tonhöhen-Impulsfolgesignal des in Fig. 3F gezeigten
Typs, welches eine flache, spektrale Enveloppe hat und als
Fehlervorhersagesignal oder als Restsignal bezeichnet
wird, als Ausgangssignal des Filters erhalten werden.
Fig. 5B und 5C zeigen das Verfahren der blinden Entfaltung
unter Anwendung des homomorphen Analyseverfahrens, bei dem
es sich um ein Block-Analyseverfahren handelt, wobei
Fig. 5B das durch Frequenzteilung durchgeführte Verfahren
darstellt (dieses Verfahren wurde vorstehend noch nicht
angesprochen) und wobei Fig. 5C das Verfahren darstellt,
bei welchem mit einer inversen Filterung gearbeitet wird.
Nachstehend soll näher auf Fig. 5B eingegangen werden.
Sprachsignale zur Analyse eines Blockes werden erhalten,
indem das stimmhafte Sprachsignal s(n) mit einer
abgeschrägten Fensterfunktion multipliziert wird, wie z. B.
einem Hamming-Fenster, welches eine Dauer von etwa 10 bis
20 ms hat. Eine cepstrale Sequenz c(i) wird dann dadurch
erhalten, daß man die Sprachproben unter Anwendung einer
Serie von homomorphen Verarbeitungsprozeduren bearbeitet,
die aus einer diskreten Fourier-Transformation, einem
komplexen Logarithmus und einer inversen, diskreten
Fourier-Transformation bestehen, wie dies in Fig. 5D
gezeigt ist. Das Cepstrum ist dabei eine Funktion der
Frequenz, welche eine der Zeit ähnliche Einheit ist.
Ein niederfrequentes Cepstrum CL(i), welches rund um einen
Ursprung angeordnet ist und die spektrale Enveloppe der
stimmhaften Sprache s(n) darstellt und ein hochfrequentes
Cepstrum CH(i), welches ein periodisches Tonhöhen-Impuls
folgesignal e(n) darstellt, können im Frequenzbereich
voneinander getrennt werden. Dies bedeutet, daß das
Cepstrum c(i) mit einer niederfrequenten Fensterfunktion
und einer hochfrequenten Fensterfunktion multipliziert
wird, wobei CL(i) bzw. CH(i) erhalten werden. Durch ein
inverses, homomorphes Verarbeitungsverfahren ergibt sich
aus diesen Funktionen, wie in Fig. 5E gezeigt ist, die
Impulsantwort h(n) und das Tonhöhen-Impulsfolgesignal
e(n). Da im vorliegenden Fall das inverse, homomorphe
Verarbeitungsverfahren für CH(i) nicht direkt zu dem
Tonhöhen-Impulsfolgesignal e(n) führt, sondern zu dem
Tonhöhen-Impulsfolgesignal eines Blockes multipliziert mit
einer Zeitfensterfunktion w(n), kann e(n) erhalten werden,
indem man das Tonhöhen-Impulsfolgesignal erneut mit einer
inversen Zeitfensterfunktion 1/w(n) multipliziert, die
invers zu der Funktion w(n) ist.
Das Verfahren gemäß Fig. 5C ist praktisch gleich dem
Verfahren gemäß Fig. 5B, mit dem einzigen Unterschied, daß
zur Gewinnung des periodischen Impulsfolgesignals e(n)
anstelle von CH(i) das Cepstrum CL(i) verwendet wird. Dies
bedeutet, daß bei diesem Verfahren unter Nutzung der
Eigenschaft, daß eine Impulsantwort h-1(n), welche der
Funktion 1/H(f) entspricht, die wiederum invers zu der
Frequenzcharakteristik H(f) ist, erhalten werden kann,
indem man die Funktion -CL(i), die ihrerseits erhalten
wird, indem man das negative CL(i) nimmt, nach dem
Verfahren der inversen, homomorphen Verarbeitung
verarbeitet, wobei das periodische Tonhöhen-Impulsfolge
signal e(n) als Ausgangssignal erhalten werden kann, indem
man ein Filter (FIR) mit einer Impulsantwort endlicher
Dauer entwickelt, welches die Funktion h-1(n) als
Impulsantwort besitzt, und indem man diesem Filter ein
Original-Sprachsignal s(n) zuführt, welches nicht mit
einer Fensterfunktion multipliziert ist. Dieses Verfahren
ist ein inverses Filterverfahren, welches im wesentlichen
gleich demjenigen gemäß Fig. 5A ist, mit dem einzigen
Unterschied, daß während bei der homomorphen Analyse gemäß
Fig. 5G ein inverses, spektrales Enveloppenfilter 1/H(f)
entwickelt wird, indem man eine Impulsantwort h-1(n) des
inversen, spektralen Enveloppenfilters erhält, gemäß
Fig. 5A das inverse, spektrale Enveloppenfilter 1/H(f)
direkt auf der Basis der Vorhersagecoeffizienten ai oder
der Reflexionscoeffizienten k1 entwickelt wird, die nach
dem Analyseverfahren der linearen Vorhersage erhalten
werden.
Bei der blinden Entfaltung auf der Basis der homomorphen
Analyse können die Impulsantwort h(n) oder das nieder
frequente Cepstrum CL(i), die in Fig. 5B und 5C in
punktierten Linien gezeigt sind, als Spektral-Enveloppen
parametersatz verwendet werden. Wenn man die Impulsantwort
{h(0), h(1), . . ., h(Ni)} verwendet, besteht ein spek
traler Enveloppenparametersatz normalerweise aus einer
guten Zahl von Parametern in einer Größenordnung, bei der
N 90 bis 120 beträgt, während die Anzahl der Parameter auf
50 bis 60 verringert werden kann, wobei N 25 bis 30
beträgt, wenn man das Cepstrum {CL(-N)m, CL(-N+1), . . ., 0,
..., CL(N)} verwendet.
Wie oben beschrieben, wird das stimmhafte Sprachsignal
s(n) in die Impulsantwort h(n) des spektralen Enveloppen
filters und das periodische Impulshöhen-Impulsfolgesignal
e(n) gemäß dem in Fig. 5 dargestellten Verfahren entfaltet.
Wenn erst einmal das Tonhöhen-Impulsfolgesignal und die
spektralen Enveloppenparameter nach dem Verfahren der
blinden Entfaltung erhalten wurden, dann werden die
Tonhöhen-Impulspositionen P1, P2, usw. aus dem perio
dischen Tonhöhen-Impulsfolgesignal e(n) oder dem Sprach
signal s(n) erhalten, indem man im Zeitbereich einen
Tonhöhen-Impuls-Positionsdetektions-Algorithmus, wie z. B.
den Epochen-Detektionsalgorithmus, verwendet. Als nächstes
werden die Tonhöhen-Impulssignale e1(n), e2(n) und e3(n),
die in Fig. 3H, 3K bzw. 3N gezeigt sind, erhalten, indem
man das Tonhöhen-Impulsfolgesignal e(n) periodisch derart
segmentiert, daß ein Tonhöhenimpuls in einem Perioden
intervall eingeschlossen wird, wie dies in Fig. 3F gezeigt
ist. Bezüglich der Positionen der Segmentierung kann man
sich für die Mittelpunkte zwischen den Tonhöhenimpulsen
entscheiden oder für Punkte, die um ein konstantes
Zeitintervall vor jedem Tonhöhenimpuls liegen. Da jedoch
die Position jedes Tonhöhenimpulses zeitlich mit dem
Endbereich jedes glossalen Impulses zusammenfällt, wie
vollständig deutlich wird, wenn man Fig. 3A und 3F
vergleicht, ist es zu bevorzugen, als Position für die
Segmentierung einen Punkt auszuwählen, der um ein
konstantes Zeitintervall hinter jedem Tonhöhenimpuls
liegt, wie dies durch die punktierte Linie in Fig. 3F
gezeigt ist. Da jedoch der Tonhöhenimpuls den größten
Effekt für die Hörbarkeit darstellt, ergeben sich zwischen
den angesprochenen Fällen keine signifikanten Unterschiede
in der synthetisch erzeugten Sprache.
Wenn die nach diesem Verfahren erhaltenen Tonhöhen-Impuls
signale e1(n), e2(n), e3(n), usw. jeweils wieder mit
h1(n), h2(n), h3(n) . . . gemäß Fig. 3E gefaltet werden, bei
denen es sich um die Impulsantworten während des Perioden
intervalls der Tonhöhen-Impulssignale e1(n), e2(n), e3(n),
usw. handelt, dann werden die erwünschten Einzelschwin
gungen erhalten, wie sie in Fig. 3I, 3L, 3(0) gezeigt
sind. Eine derartige Faltung kann in bequemer Weise
durchgeführt werden, indem man jedes Tonhöhen-Impuls
folgesignal dem spektralen Enveloppenfilter H(f) zuführt,
welches die spektralen Enveloppenparameter als Filter
coeffizienten verwendet, wie dies in Fig. 4 gezeigt ist.
Beispielsweise kann in den Fällen, in denen die linearen
Vorhersagecoeffizienten oder die Reflexionscoeffizienten
oder Linienspektrumpaare als spektrale Enveloppenparameter
verwendet werden, wie bei dem Analyseverfahren der
linearen Vorhersage ein IIR-Filter (infinite-duration
impulse respone = Impulsantwort unendlicher Dauer)
eingesetzt werden, welches mit den linearen Vorhersage
coeffizienten oder den Reflexionscoeffizienten oder den
Linienspektrumpaaren als Filtercoeffizienten aufgebaut
ist. In Fällen, in denen die Impulsantwort für die
spektralen Enveloppenparameter verwendet wird, wie bei dem
homomorphen Analyseverfahren, wird ein FIR-Filter ver
wendet, welches die Impulsantwort als Abgriffscoeffi
zienten hat. Da das Synthesefilter nicht direkt aufgebaut
werden kann, wenn der spektrale Enveloppenparameter ein
logarithmisches Bereichsverhältnis oder das Cepstrum ist,
sollten die spektralen Enveloppenparameter in die
Reflexionscoeffizienten oder die Impulsantwort zurück
transformiert werden, um als Coeffizienten für das
IIR- oder FIR-Filter verwendet zu werden. Wenn das Tonhöhen-
Impulssignal für eine Periode dem in der vorstehend
beschriebenen Weise aufgebauten, spektralen Enveloppen
filter als Eingangssignal zugeführt wird und wenn die
Filtercoeffizienten zeitlich in Übereinstimmung mit den
spektralen Enveloppenparametern variiert werden, die
demselben Zeitpunkt entsprechen wie die einzelnen Proben
des Tonhöhen-Impulssignals, dann wird als Ausgangssignal
die Einzelschwingung für diese Periode erhalten. Aus
diesem Grunde werden die "Zeitfunktionsschwingungen bzw.
-wellen" der spektralen Enveloppenparameter an demselben
Punkt ausgeschnitten, wie wenn e(n) ausgeschnitten würde,
um das Tonhöhen-Impulssignal für jede einzelne Periode zu
erhalten. Beispielsweise werden im Falle der sequentiellen
Analyse die spektralen Enveloppenparameter k1(n)1, k2(n)1,
usw. für die erste Periode, wie dies in Fig. 3G gezeigt
ist, dadurch erhalten, daß die spektralen Enveloppen
parameter ausgeschnitten werden, die derselben Zeitperiode
entsprechen wie das Tonhöhen-Impulssignal e1(n) für die
erste Periode, welches in Fig. 3H gezeigt ist, und zwar
aus den Zeitfunktionen k1(n), k2(n), usw. der spektralen
Enveloppenparameter, wie dies in Fig. 3D gezeigt ist. Die
spektralen Enveloppenparameter für die zweite und dritte
Periode, die in Fig. 3J und 3M in ausgezogenen Linien
gezeigt sind, können in ähnlicher Weise erhalten werden
wie oben ausgeführt. In Fig. 4 sind die Reflexions
coeffizienten k1, k2, . . ., kN und die Impulsantwort h(0),
h(1), . . ., h(N-1) als typischer Spektralenveloppenpara
metersatz gezeigt, wobei sie mit k1(n), k2(n), . . ., kn(n)
und h(0, n), h(1, n), . . ., h(N-1, n) bezeichnet wurden, um zu
betonen, daß es sich bei ihnen um Funktionen der Zeit
handelt. In gleicher Weise wird das Cepstrum CL(i) in den
Fällen, in denen es als spektraler Enveloppenparametersatz
verwendet wird, als CL(i, n) bezeichnet.
Da bei dem tonhöhensynchronen Analyseverfahren oder dem
Block-Analyseverfahren anders als bei dem sequentiellen
Analyseverfahren nicht die Zeitfunktionen der spektralen
Enveloppenparameter erhalten werden, sondern die
spektralen Enveloppenparameterwerte, welche über das
Analyseintervall konstant sind, sollte es erforderlich
sein, die Zeitfunktionen der spektralen Enveloppenpara
meter aus den spektralen Enveloppenparameterwerten zu
gewinnen und dann die Zeitfunktionen Periode für Periode
zu segmentieren, um die spektralen Enveloppenparameter für
eine Periode zu erhalten. In der Praxis ist es jedoch
bequem, wie folgt vorzugehen, anstatt die Zeitfunktionen
zusammenzustellen. Da im Falle des tonhöhensynchronen
Analyseverfahrens ein Satz von spektralen Enveloppen
parametern, welche konstante Werte haben, jedem Tonhöhen
periodenintervall entspricht, wie dies als gestrichelte
Linie in Fig. 8B gezeigt ist, ändern sich die spektralen
Enveloppenparameter selbst dann nicht, wenn ihre
Zeitfunktionen Periode für Periode segmentiert werden.
Daher sind die spektralen Enveloppenparameter für eine
Periode, die in einem Pufferspeicher zu speichern sind,
keine Zeitfunktionen, sondern zeitunabhängige Konstante.
Da im Falle des Block-Analyseverfahrens pro Block ein Satz
von konstanten, spektralen Enveloppenparametern erhalten
wird, sind die Werte eines spektralen Enveloppenparameters
für eine Periode, die zu einem Block gehört, beispiels
weise k1(n)1, k1(n)2, . . ., k1(n)M, nicht nur konstant
unabhängig von der Zeit, sondern auch identisch. (Im
vorliegenden Fall bedeutet k1(n)j die Zeitfunktion von k1
für das j-th-periodische Intervall, während M die Anzahl
von Tonhöhenperiodenintervallen angibt, die zu einem Block
gehören.)
Es ist zu beachten, daß im Falle des Block-Analysever
fahrens dann, wenn das Tonhöhen-Impulssignal über der
Grenze zwischen zwei benachbarten Blöcken liegt, die
spektralen Enveloppenparameterwerte des vorausgehenden
Blockes bzw. des folgenden Blockes für die Auswertung
benutzt und nachfolgende Signalteile bezüglich der
Blockgrenze geteilt werden sollen.
Wie in Fig. 3I erkennbar ist, ist die Dauer einer
Einzelschwingung nicht notwendigerweise gleich einer
Periode. Aus diesem Grunde werden die Verfahren der
Nullanhängung und der Parameterverlängerung, die in Fig. 4
gezeigt sind, benötigt, ehe das Tonhöhen-Impulssignal und
die spektralen Enveloppenparameter für eine Periodendauer,
die durch die periodische Segmentierung erhalten wurden,
an das spektrale Enveloppenfilter angelegt werden, damit
die Dauer des Tonhöhen-Impulssignals und die spektralen
Enveloppenparameter mindestens so lang sind wie die
effektive Dauer der Einzelschwingung. Das Verfahren der
Nullanhängung dient dazu, die Gesamtdauer des
Tonhöhen-Impulssignals so lang zu machen, wie die erforderliche
Länge ist, indem hinter dem Tonhöhen-Impulssignal einer
Periode die Proben angehängt werden, die den Wert Null
haben. Das Verfahren der Parameterverlängerung besteht
darin, die Gesamtdauer der spektralen Enveloppenparameter
so lang zu machen, wie es erforderlich ist, indem die
spektralen Enveloppenparameter für die folgenden Perioden
nach den spektralen Enveloppenparametern von der Länge
einer Periode angehängt werden. Die Qualität der
synthetisch erzeugten Sprache wird jedoch selbst dann
nicht signifikant verschlechtert, wenn ein einfaches
Verfahren angewandt wird, nach dem wiederholt der Endwert
der spektralen Enveloppenparameter einer Periode oder der
erste Wert der spektralen Enveloppenparameter der nächsten
Periode angehängt wird.
Die Tatsache, daß die effektive Dauer der Einzelschwingung
bzw. -welle, die von dem spektralen Enveloppenfilter
erzeugt werden soll, von den Werten der spektralen
Enveloppenparameter abhängt, macht es schwierig, diese
Dauer vorab abzuschätzen. Da es jedoch im praktischen
Einsatz in den meisten Fällen nicht zu signifikanten
Fehlern führt, wenn man berücksichtigt, daß die effektive
Dauer der Einzelschwingung, ausgehend von der
Tonhöhen-Impulsposition, bei einem männlichen Sprecher zwei
Perioden beträgt und bei einer Frau oder einem Kind drei
Perioden, ist es bequem zu entscheiden, daß die Dauer des
"verlängerten Tonhöhen-Impulssignals", die durch Nullan
hängen erreicht werden soll, und die Dauer der "verlänger
ten spektralen Enveloppenparameter", die durch Verlängern
der Parameter erzeugt werden soll, für männliche Sprecher
drei Perioden beträgt und für weibliche Sprecher vier
Perioden, und zwar für den Fall, daß die periodische
Segmentierung unmittelbar hinter den Tonhöhenimpulsen
erfolgt. In Fig. 3G sind die spektralen Enveloppen
parameter für die erste Periode des drei Perioden
umfassenden Intervalls "ad", die erhalten werden, indem
man die spektralen Enveloppenparameter für das zwei
Perioden umfassende Intervall "bd" anhängt, durch eine
punktierte Linie, angrenzend an den spektralen Enveloppen
parameter der ersten Periode des Intervalls "ab", als
Beispiel angedeutet, welches durch die periodische
Segmentierung erhalten wird. In Fig. 3H ist als Beispiel
ein verlängertes Tonhöhen-Impulssignal für die erste
Periode des drei Perioden umfassenden Intervalls "ad"
dargestellt, welches erhalten wird, indem man die den Wert
Null aufweisenden Proben an das zwei Perioden umfassende
Intervall "bd" anhängt, welches als nächstes auf das
Tonhöhen-Impulssignal des Intervalls "ab" der ersten
Periode folgt, das durch die periodische Segmentierung
erhalten wird.
Da in dem vorstehend beschriebenen Fall die Dauer nach der
Nullanhängung und der Parameterverlängerung auf drei bzw.
vier Perioden erhöht ist, während die Dauer des
Tonhöhen-Impulssignals und der spektralen Enveloppenparameter vor
der Nullanhängung und der Parameterverlängerung eine
Periode beträgt, sind zwischen der periodischen Segmen
tierung und der Parameterverlängerung Puffer vorgesehen,
wie dies in Fig. 4 gezeigt ist, und das Tonhöhen-Impuls
signal sowie die spektralen Enveloppenparameter, die durch
die periodische Segmentierung erhalten werden, werden dann
in den Puffern gespeichert und im Bedarfsfall wieder
abgerufen, so daß eine temporäre Pufferung erreicht wird.
Wenn das verlängerte Tonhöhen-Impulssignal und die
verlängerten spektralen Enveloppenparameter gemäß Fig. 4
durch die Nullanhängung und die Parameterverlängerung
erreicht werden, können das "Einzelschwingungssignal"
s1(n) für die erste Periode der Dauer des drei Perioden
umfassenden Intervalls, wie z. B. des Intervalls "ad",
welches in Fig. 3I gezeigt ist, letztlich erhalten werden,
indem man das verlängerte Tonhöhen-Impulssignal der ersten
Periode, wie z. B. das Intervall "ad" in Fig. 3H, in das
spektrale Enveloppenfilter H(f) eingibt und die Coeffi
zienten synchron in der gleichen Weise variiert, wie den
verlängerten spektralen Enveloppenparameter der ersten
Periode, wie z. B. des Intervalls "ad" in Fig. 3G. Die
Einzelschwingungssignale s2(n) und s3(n) für die zweite
bzw. dritte Periode können in derselben Weise erhalten
werden.
Wie vorstehend beschrieben, wird das stimmhafte Sprach
signal s(n) letztlich nach dem Verfahren gemäß Fig. 4 in
Einzelschwingungen zerlegt, aus denen das Signal s(n)
zusammengesetzt ist. Offensichtlich führt das neue
Arrangieren der Einzelwellen gemäß Fig. 3I, 3L und 3(0),
welche durch die Zerlegung erhalten wurden, an den
ursprünglichen Punkten zu dem Signal gemäß Fig. 3B, und
wenn die Einzelwellen übereinandergelegt sind, wird das
ursprüngliche Sprachsignal s(n), welches in Fig. 3C
gezeigt ist, wieder erhalten. Wenn die Einzelschwingungen
gemäß Fig. 3I, 3L und 3(0) wieder neu arrangiert werden,
indem die Zwischenräume verändert werden und dann über
lagert werden, wie dies in Fig. 3P gezeigt ist, dann wird
die Sprachschwingung gemäß Fig. 3Q erhalten, welche ein
anderes Tonhöhenmuster hat. Durch geeignetes Variieren des
Zeitintervalls zwischen den Einzelschwingungen, welche
durch die Zerlegung erhalten werden, ist es also möglich,
eine synthetische Sprache zu erzeugen, die ein beliebiges,
gewünschtes Tonhöhenmuster, d. h. eine beliebige Intonation
hat. In ähnlicher Weise ermöglicht das richtige Variieren
der Energie der Einzelschwingungen die Erzeugung von
synthetischer Sprache mit einem beliebigen, erwünschten
Betonungs- bzw. Lautstärkemuster.
In dem in Fig. 2 gezeigten Sprachsegmentspeicherblock wird
jedes stimmhafte Sprachsegment, welches nach dem Verfahren
gemäß Fig. 4 in so viele Einzelschwingungen unterteilt
wird wie Tonhöhenimpulse vorhanden sind, in dem in Fig. 6A
gezeigten Format gespeichert, welches als Sprachsegment
information bezeichnet wird. In einem Kopffeld, bei dem es
sich um den vorderen Teil der Sprachsegmentinformation
handelt, werden Grenzzeitpunkte B1, B2, . . ., BL, welche
wichtige Zeitpunkte in dem Sprachsegment sind, sowie
Tonhöhen-Impulspositionen P1, P2, . . ., PM jedes Ton
höhen-Impulssignals, welches bei der Synthese jeder
Einzelschwingung verwendet wird, gespeichert, wobei die
Anzahl der Proben (Abtastwerte), die jedem Zeitpunkt
entsprechen, aufgezeichnet wird, wobei die Position der
ersten Probe des ersten Tonhöhen-Impulssignals e1(n) als 0
genommen wird. Der Grenzzeitpunkt ist die Zeitposition der
Grenzpunkte zwischen Untersegmenten, die man erhält, wenn
das Sprachsegment in mehrere Untersegmente unterteilt bzw.
segmentiert wird. Beispielsweise kann ein Vokal, vor und
hinter welchem ein Konsonant vorhanden ist, für langsame
Sprache als aus drei Subsegmenten bestehend angesehen
werden, da der Vokal in ein Intervall in seinem mittleren
Teil mit einem stetigen Zustand und zwei Übergangsinter
valle unterteilt werden kann, die vor bzw. hinter dem
Intervall mit stetigem Zustand liegen. In diesem Fall
werden die drei Endpunkte der Subsegmente als Grenz
zeitpunkte in dem Kopffeld des Sprachsegmentes gespei
chert. Wenn die Abtastung jedoch bei schnellerer Sprech
geschwindigkeit erfolgt, werden in der Kopfinformation
zwei Grenzzeitpunkte gespeichert, da das Übergangs
intervall zu einem Punkt wird, so daß das Sprachsegment
des Vokals als aus zwei Subsegmenten bestehend betrachtet
werden kann.
In dem Einzelschwingungs-Codefeld, welches der spätere
Teil der Sprachsegmentinformation ist, werden Einzel
schwingungscode gespeichert, welche durch Schwingungs
codierung der Einzelschwingungen erhalten werden, die
jeder einzelnen Periode entsprechen. Die Einzelschwin
gungen können durch das einfache Schwingungscodier
verfahren codiert werden, wie z. B. durch PCM; da die
Einzelschwingungen jedoch eine erhebliche Kurzzeit- und
Langzeitkorrelation haben, kann die erforderliche
Speicherplatzmenge für die Speicherung erheblich
verringert werden, wenn die Einzelschwingungen in
effektiver Weise nach dem Verfahren der Schwingungs
codierung unter Verwendung des ADPCM-Verfahrens codiert
werden, bei dem mit einer Tonhöhenvoraussageschleife
gearbeitet wird oder mit einer adaptiven, voraussagenden
Codierung oder einem digitalen, adaptiven Deltamodula
tionsverfahren. Das Verfahren, nach welchem die nach
Zerlegung erhaltenen Einzelschwingungen codiert und in
Form der resultierenden Codes gespeichert werden, derart,
daß die Codes zum Zeitpunkt der Synthese decodiert, neu
geordnet und überlagert werden, um synthetische Sprache zu
erzeugen, wird als "Schwingungscodespeicherverfahren"
bezeichnet.
Das Tonhöhen-Impulssignal und die entsprechenden spek
tralen Enveloppenparameter können als identisch mit der
Einzelschwingung betrachtet werden, da es sich bei ihnen
um Materialien handelt, mit denen die Einzelschwingung
erzeugt werden kann. Daher ist auch ein Verfahren möglich,
bei dem die "Quellcodes" (source codes)" gespeichert
werden, welche durch Codieren der Tonhöhen-Impulssignale
und der spektralen Enveloppenparameter erhalten werden,
und bei dem die Einzelschwingungen mit den
Tonhöhen-Impulssignalen und den spektralen Enveloppenparametern
hergestellt werden, welche durch Decodieren der Quellcode
erhalten werden, wobei die Einzelschwingungen dann neu
arrangiert und überlagert werden, um die synthetisch
erzeugte Sprache zu erzeugen. Dieses Verfahren wird als
"Quellcode-Speicherverfahren" bezeichnet. Dieses Verfahren
entspricht demjenigen, bei dem das Tonhöhen-Impulssignal
und die spektralen Enveloppenparameter, die in den Puffern
gespeichert sind, anstelle der Einzelschwingungen, die in
Fig. 4 als Ausgangssignal erhalten werden, in demselben
Periodenintervall miteinander verknüpft und dann in dem
Sprachsegmentspeicherblock gespeichert werden. Bei dem
Quellcode-Speicherverfahren werden daher die Prozeduren
hinter dem Puffer in Fig. 4, nämlich die Parameterver
langerung, die Nullanhängung und die Filterung durch das
Synthesefilter H(f) in dem Einzelschwingungsanordnung
unterblock in Fig. 7 durchgeführt.
Bei dem Quellcode-Speicherverfahren hat die Sprachsegment
information das in Fig. 6B gezeigte Format, welches
daßelbe ist wie in Fig. 6A, ausgenommen den Inhalt des
Einzelschwingungs-Codefeldes. D.h. daß die
Tonhöhen-Impulssignale und die spektralen Enveloppenparameter, die
für die Synthese der Einzelschwingungen erforderlich sind,
anstelle der Einzelschwingungen codiert und an den
Positionen gespeichert werden, an denen die Einzel
schwingung für jede Periode in Fig. 6A zu speichern ist.
Die spektralen Enveloppenparameter werden gemäß dem
bekannten Quantisierungsverfahren für spektrale
Enveloppenparameter codiert und im
Einzelschwingungs-Codefeld gespeichert. Wenn die spektralen Enveloppen
parameter zu diesem Zeitpunkt vor der Quantisierung
transformiert werden, kann die Codierung effektiv
durchgeführt werden. Beispielsweise ist es vorteilhaft,
die Vorhersagecoeffizienten in die Parameter des
Linienspektrumpaares und die Reflexionscoeffizienten in
die logarithmischen Bereichsverhältnisse zu transformieren
und sie zu quantisieren. Da außerdem die Impulsantwort
zwischen benachbarten Proben und benachbarten Impulsant
worten eine enge Korrelation hat, kann die erforderliche
Menge der zu speichernden Daten beträchtlich verringert
werden, wenn ihre Einzelschwingungscodierung nach einem
differentiellen Codierverfahren erfolgt. Im Falle der
Cepstrumparameter ist ein Codierverfahren bekannt, bei
welchem der Cepstrumparameter so transformiert wird, daß
die Menge der Daten beträchtlich reduziert werden kann.
Einerseits wird das Tonhöhen-Impulssignal nach einem
geeigneten Einzelschwingungscodierverfahren codiert und
der resultierende Code wird in dem Einzelschwingungs
codefeld gespeichert. Die Tonhöhen-Impulssignale haben
eine geringe Kurzzeitkorrelation, aber eine signifikante
Langzeitkorrelation miteinander. Wenn daher ein Schwin
gungscodierverfahren, wie z. B. das tonhöhenvorhersagende,
adaptive PCM-Codierverfahren angewandt wird, welches eine
die Tonhöhe voraussagende Schleife umfaßt, dann kann eine
hohe Qualität der synthetisch erzeugten Sprache selbst
dann erreicht werden, wenn die Menge des für die
Speicherung erforderlichen Speicherplatzes auf drei Bit
pro Probe bzw. Abtastwert reduziert wird. Der Vorher
sagecoeffizient einer Tonhöhenvorhersage-Einheit kann ein
Wert sein, der für jede Tonhöhenperiode nach einem
Autokorrelationsverfahren gewonnen wird, oder auch ein
konstanter Wert. In der ersten Stufe der Codierung kann
der Tonhöhenvorhersage-Effekt durch eine Normierung erhöht
werden, indem man das zu codierende Tonhöhen-Impulssignal
durch die Quadratwurzel der mittleren Energie pro Abtast
wert "G" teilt. Das Decodieren erfolgt in dem Synthese
block für stimmhafte Sprache und das Tonhöhen-Impulssignal
wird mit seiner ursprünglichen Größe wiederhergestellt,
indem es in der Endstufe der Decodierung erneut mit dem
Faktor "G" multipliziert wird.
In Fig. 6B ist die Sprachsegmentinformation für den Fall
gezeigt, daß ein lineares, vorhersagendes Analyseverfahren
angewandt wird, welches als spektrale Enveloppenparameter
14 Reflexionscoeffizienten verwendet. Wenn das Analyse
intervall für die lineare, vorhersagende Analyse die
Tonhöhenperiode ist, entsprechen 14 Reflexionscoeffi
zienten jedem Tonhöhen-Impulssignal und werden gespei
chert. Wenn das Analyseintervall ein Block mit einer
gewissen Länge ist, dann haben die Reflexionscoeffizienten
für mehrere Tonhöhen-Impulse in einem Block dieselben
Werte, so daß der erforderliche Speicherplatz für die
Speicherung der Einzelschwingungen reduziert wird. In
diesem Fall muß, wie oben diskutiert, da die Reflexions
coeffizienten des vorausgehenden Blockes oder des späteren
Blockes zum Zeitpunkt der Synthese für Tonhöhen-Impuls
signale, die über der Grenze zwischen zwei Blöcken liegen,
in Abhängigkeit davon, ob die Abtastwerte des Signals vor
oder hinter dem Grenzpunkt liegen, die Position des
Grenzpunkts zwischen den Blöcken zusätzlich in dem
Kopffeld gespeichert werden. Wenn ein sequentielles
Analyseverfahren, wie z. B. das rekursive Verfahren der
kleinsten Quadrate, angewandt wird, dann werden die
Reflexionscoeffizienten k1, k2, . . ., k14 zu kontinuier
lichen Funktionen des Zeitindex "n", wie dies in Fig. 3D
gezeigt ist, und es ist eine Menge Speicherplatz erforder
lich, um die Zeitfunktion k1(n), k2(n), . . ., k14(n) zu
speichern. Nimmt man den Fall gemäß Fig. 3 als Beispiel,
dann sind die Schwingungen für das Intervall "ab" in
Fig. 3G und Fig. 3H als die erste Periode und für das
Intervall "bc" in Fig. 3J und Fig. 3K als die zweite
Periode und für das Intervall "cd" in Fig. 3M und Fig. 3N
als dritte Periode des Einzelschwingungs-Codefeldes in dem
Einzelschwingungs-Codefeld gespeichert.
Das Schwingungscode-Speicherverfahren und das
Quellcode-Speicherverfahren sind im wesentlichen gleiche Verfahren,
und tatsächlich werden der Schwingungscode, der erhalten
wird, wenn die Einzelschwingungen nach dem effektiven
Einzelschwingungs-Codierverfahren, wie z. B. dem
APC-Verfahren (APC = adaptive predictive coding = anpassende,
vorhersagende Codierung), bei dem Schwingungscode-
Speicherverfahren in ihren Inhalten nahezu gleich dem
Quellcode, der bei dem Quellcode-Speicherverfahren
erhalten wird. Der Schwingungsformcode bei dem Schwin
gungsformcode-Speicherverfahren und der Quellcode bei dem
Quellcode-Speicherverfahren werden insgesamt als Einzel
schwingungscode bezeichnet.
Fig. 7 zeigt die innere Konfiguration des Syntheseblockes
für stimmhafte Sprache gemäß vorliegender Erfindung. Die
Einzelschwingungscode, die in dem Einzelschwingungs
codefeld der Sprachsegmentinformation gespeichert sind,
welche von dem Sprachsegmentspeicherblock erhalten wird,
werden durch einen Decodier-Unterblock 9 im Zuge eines
Verfahrens decodiert, welches invers zu dem Verfahren ist,
nachdem diese Informationen codiert wurden. Einerseits
werden die Einzelschwingungssignale, die erhalten werden,
wenn die Schwingungscode bei dem Schwingungscode-Speicher
verfahren decodiert werden, oder die Tonhöhen-Impuls
signale, welche erhalten werden, wenn die Source-Code bei
dem Source-Code-Speicherverfahren decodiert werden und die
an die spektralen Enveloppenparameter angepaßten
Tonhöhen-Impulssignale als Einzelschwingungsinformation
bezeichnet und dem Schwingungsanordnungs-Unterblock
zugeführt. Andererseits wird die Kopfinformation, die in
dem Kopffeld der Sprachsegmentinformation gespeichert ist,
als Eingangssignal für einen Dauersteuerungsunterblock 10
und einen Tonhöhensteuerungsunterblock 11 verwendet.
Der Dauersteuerungs-Unterblock gemäß Fig. 7 empfängt als
Eingangssignal die Dauerdaten (die Daten über die zeit
liche Dauer bzw. Länge) der vorausgehenden Information und
die Grenzzeitpunkte, die von der Sprachsegmentkopf
information umfaßt werden, und erzeugt die Zeit-Form
änderungsinformation durch Verwendung der Dauerdaten und
der Grenzzeitpunkte und liefert die erzeugte Zeit-Form
änderungsinformation an den Schwingungsanordnungs-
Unterblock 13, den Tonhöhensteuerungs-Unterblock und den
Energiesteuerungsunterblock. Wenn die Gesamtdauer des
Sprachsegments kürzer oder länger wird, dann wird die
Dauer der Subsegmente, die das Sprachsegment bilden,
entsprechend kürzer oder länger, wobei das Verhältnis der
Kompression oder Expansion von der Eigenschaft jedes
Subsegments abhängt. Beispielsweise besitzt die Dauer des
Intervalls stetigen Zustands, welches im Falle eines
Vokals, der zwischen zwei Konsonanten steht, in der Mitte
liegt, eine beträchtlich größere Variationsrate als die
Dauer der Übergangsintervalle auf beiden Seiten des
Vokals. Der Dauersteuerungs-Unterblock vergleicht die
Dauer BL des Original-Sprachsegments, welches gespeichert
wurde, und die Dauer des synthetisch zu erzeugenden
Sprachsegments, die durch die Dauerdaten angezeigt wird,
und erreicht die Dauer jedes zu synthetisierenden Subseg
ments entsprechend der Dauer jedes Original-Subsegments
unter Verwendung der Variationsrate derselben oder der
Dauerregel, wodurch die Grenzzeitpunkte der syntheti
sierten Sprache erhalten werden. Die Original-Grenz
zeitpunkte B1, B2 usw. und die Grenzzeitpunkte B′1, B′2
usw. der synthetischen Sprache, die an die Original-Grenz
zeitpunkte angepaßt sind, werden insgesamt als Zeit-Form
änderungsinformation bezeichnet, woraufhin, beispielsweise
im Falle von Fig. 8, die Zeit-Formänderungsinformation wie
folgt dargestellt werden kann: {(B1, B′1), (B1, B′2), (B2,
B′3), (B3, B′3), (B4, B′4)}.
Die Funktion des Tonhöhensteuerungs-Unterblockes in Fig. 7
besteht darin, die Tonhöhen-Impulspositionsinformation zu
erzeugen, derart, daß die synthetisierte Sprache das
Intonationsmuster aufweist, welches durch die Intonations
musterdaten angegeben wird, und liefert die Information an
den Schwingungsanordnungs-Unterblock und den Energiesteue
rungsunterblock. Der Tonhöhensteuerungs-Unterblock
empfängt als Eingangssignal die Informationsmusterdaten,
bei denen es sich um die Ziel-Tonhöhenfrequenzwerte für
jedes Phonem handelt, und erzeugt eine Tonhöhenkontur,
welche die kontinuierliche Variation der Tonhöhenfrequenz
über der Zeit darstellt, indem er die Ziel-Tonhöhen
frequenzwerte glatt miteinander verbindet. Der Tonhöhen
steuerungs-Unterblock kann aufgrund eines Obstruenten
(Verschlußlaut oder Reiblaut) der Tonhöhenkontur ein
Mikrointonationsphenomen reflektieren. In diesem Fall wird
die Tonhöhenkontur jedoch zu einer diskontinuierlichen
Funktion, in der sich der Tonhöhenfrequenzwert an dem
Grenzpunkt zwischen dem Verschlußlautphonem und dem
angrenzenden, anderen Phonem bezüglich der Zeit abrupt
ändert. Die Tonhöhenfrequenz wird erhalten, indem man die
Tonhöhenkontur in einer ersten Tonhöhenimpulsposition des
Sprachsegmentes abtastet, und die Tonhöhenperiode wird
erhalten, indem man das Inverse der Tonhöhenfrequenz
nimmt. Anschließend wird der Punkt, bis zu dem sich die
Tonhöhenperiode erstreckt, als zweite Tonhöhenimpuls
position bestimmt. Die nächste Tonhöhenperiode wird dann
aus der Tonhöhenfrequenz an diesem Punkt erhalten und die
nächste Tonhöhenimpulsposition wird wieder daraus
erhalten, und die Wiederholung dieser Vorgänge könnte alle
Tonhöhenimpulspositionen der synthetisierten Sprache
ergeben. Die erste Tonhöhenimpulsposition des Sprachseg
ments kann auf den Punkt des ersten Abtastwertes gelegt
werden oder auf dessen benachbarte Abtastwerte im Falle
des ersten Sprachsegments einer Serie von Segmenten
kontinuierlicher, stimmhafter Sprache der synthetisierten
Sprache, und für die ersten Tonhöhenimpulsposition des
nächsten Sprachsegments wird der Punkt festgelegt, der der
Position des vorletzten Tonhöhenimpulses des voraus
gehenden Sprachsegments entspricht, usw. Der Tonhöhen
steuerungs-Unterblock sendet die Tonhöhenimpulspositionen
P′1, P′2 usw. der erhaltenen synthetischen Sprache als
solcher und die Original-Tonhöhen-Impulspositionen P1, P2
usw., die in der Sprachsegmentkopfinformation enthalten
sind, zusammen in verknüpfter Form an den Schwingungs
anordnungs-Unterblock und den Energiesteuerungs-
Unterblock, wo diese Informationen als sogenannte
Tonhöhenimpulspositionsinformationen empfangen werden. Im
Fall von Fig. 8 kann die Tonhöhenimpulspositionsinfor
mation beispielsweise wie folgt dargestellt werden: {(P1,
P2, . . . P9), (P′1, P′′′, . . ., P′8)}.
Der Energiesteuerungs-Unterblock gemäß Fig. 7 erzeugt eine
Verstärkungsinformation, aufgrund welcher die syntheti
sierte Sprache das Betonungsmuster erhält, welches durch
die Betonungsmusterdaten angezeigt wird, und sendet diese
Verstärkungsinformationen zu dem Schwingungsanordnungs-
Unterblock. Der Energiesteuerungs-Unterblock empfängt als
Eingangssignal die Betonungsmusterdaten, bei denen es sich
um Zielamplitudenwerte für jedes Phonem handelt, und
erzeugt eine Energiekontur, welche die kontinuierliche
Veränderung der Amplitude über der Zeit darstellt, indem
er die Zielamplitudenwerte glatt miteinander verbindet. Es
wird angenommen, daß die Sprachsegmente vorab zum Zeit
punkt der Speicherung normiert werden, so daß sie eine
relative Energie gemäß der Klasse des Sprachsegments
haben, um die relative Differenz der Energie für jedes
Phonem widerzuspiegeln. Beispielsweise hat im Falle von
Vokalen ein niedriger (dunkler) Vokal eine größere Energie
pro Zeiteinheit als ein hoher Vokal und ein nasaler Laut
hat pro Zeiteinheit etwa die halbe Energie, verglichen mit
dem Vokal. Weiterhin ist die Energie während des Ver
schlußintervalls eines Explosionslaut sehr schwach. Wenn
die Sprachsegmente gespeichert werden, sollen sie daher
codiert werden, nachdem sie vorab so eingestellt wurden,
daß sie eine solche relative Energie haben. In diesem Fall
wird die in dem Energiesteuerungs-Unterblock erzeugte
Energiekontur eine Verstärkung, die mit der Schwingung zu
multiplizieren ist, die synthetisiert werden soll. Der
Energiesteuerungs-Unterblock erhält die Verstärkungswerte
G1, G2 usw. bei jeder Tonhöhenimpulsposition P1, P′2 usw.
der synthetischen Sprache durch Verwendung der Energie
kontur und der Tonhöhenimpulspositionsinformation und
liefert sie an den Schwingungsanordnungs-Unterblock, wobei
die betreffenden Informationen als Verstärkungsinforma
tionen bezeichnet werden. Im Fall von Fig. 8 kann die
Verstärkungsinformation beispielsweise wie folgt
dargestellt werden: {(P′1, G1), (P′2, G2), . . ., (P′8, G8)}.
Der Schwingungsanordnungs-Unterblock gemäß Fig. 7 empfängt
als Eingangssignal die oben beschriebene Einzelschwin
gungsinformation, die Zeitverformungsinformation, die
Tonhöhenimpulspositionsinformation und die Verstärkungs
information und erzeugt letztlich das stimmhafte bzw.
klingende Sprachsignal. Der Schwingungsanordnungs-
Unterblock erzeugt die Sprache, welche das Intonations
muster, das Betonungsmuster und die Dauer hat, die durch
die Vorläuferinformation angezeigt werden, indem er die
Einzelschwingungsinformationen verarbeitet, die er von dem
Decodier-Unterblock empfangen hat. Zu diesem Zeitpunkt
werden einzelne Einzelschwingungen wiederholt und andere
weggelassen. Die Dauerdaten, die Intonationsmusterdaten
und die Betonungsmusterdaten, welche von der Vorläufer
information umfaßt werden, sind voneinander unabhängige,
hinweisgebende Informationen, während sie bei ihrer
Verarbeitung miteinander verknüpft werden müssen, da es
eine Verknüpfung zwischen diesen drei Informationen gibt,
wenn die Schwingung synthetisch mit der Schwingungs
information zusammengesetzt wird. Eines der wichtigsten
Probleme der Schwingungsanordnung besteht darin, welche
Einzelschwingung als diejenige Einzelschwingung auszu
wählen ist, die in jeder einzelnen Tonhöhenimpulsposition
der synthetisierten Sprache anzuordnen ist. Wenn nicht die
richtigen Einzelschwingungen ausgewählt und angeordnet
werden, kann keine gute Qualität der synthetisierten
Sprache erhalten werden. Weiter unten erfolgt eine
Beschreibung der Arbeitsweise des Schwingungsanordnungs-
Unterblockes, der das Verfahren der Einzelschwingungs
positionierung auf der Basis der Zeitverformung du 29050 00070 552 001000280000000200012000285912893900040 0002004237563 00004 28931rch
führt, bei dem es sich gemäß der Erfindung um ein
Einzelschwingungsanordnungsverfahren handelt, welches in
der Lage ist, bei der Synthetisierung der synthetischen
Sprache eine hohe Qualität zu erreichen, und zwar unter
Verwendung der Sprachsegmentinformation, welche von dem
Sprachsegmentspeicherblock erhalten wird.
Der Prozeß der Synthese der stimmhaften Sprachschwingung
mit Hilfe des Schwingungsanordnungs-Unterblockes besteht
aus zwei Stufen, nämlich aus der Stufe der Positionierung
der Einzelschwingungen unter Verwendung der Zeitverfor
mungsfunktion und aus der Überlagerungsstufe zum Über
lagern der neu positionierten Einzelschwingungen.
Im Falle des Schwingungscode-Speicherverfahrens werden
also unter den in Form der Einzelschwingungsinformation
empfangenen Einzelschwingungssignalen die am besten
geeigneten für die Tonhöhenimpulspositionen der synthe
tischen Sprache ausgewählt und an ihren Tonhöhenimpuls
positionen positioniert, wobei jeweils ihre Verstärkung
eingestellt wird und wobei die synthetisierte Sprache
anschließend durch Überlagerung der Einzelschwingungen
erzeugt wird.
Bei dem Quellcode-Speicherverfahren werden das
Tonhöhen-Impulssignal und die spektralen Enveloppenparameter für
jede Periode, die dem Tonhöhen-Impulssignal entspricht,
als Einzelschwingungsinformation empfangen. In diesem
Falle sind zwei synthetische Sprachanordnungsverfahren
möglich. Das erste Verfahren besteht darin, jede Einzel
schwingung dadurch zu erhalten, daß man dem Synthesefilter
die spektralen Enveloppenparameter und das
Tonhöhen-Impulssignal für zwei bis vier Periodenintervallängen
zuführt, die erhalten werden, indem man die Prozesse
durchführt, die der rechten Seite des Puffers in Fig. 4
entsprechen, nämlich das oben beschriebene Parameter
verlängern und das Nullanhängen bezüglich der
Einzel-Schwingungsinformation, wobei die synthetische Sprache
dann mit den Einzelschwingungen nach einem Verfahren
angeordnet bzw. zusammengesetzt wird, welches identisch
mit dem Verfahren der Schwingungscodespeicherung ist.
Dieses Verfahren ist im wesentlichen dasselbe wie das
Anordnen der synthetischen Sprache nach dem Schwingungs
code-Speicherverfahren, weshalb hier auf eine separate
Beschreibung verzichtet wird. Das zweite Verfahren besteht
darin, ein synthetisches Tonhöhen-Impulsfolgesignal zu
erhalten oder ein synthetisches Anregungs- bzw. Erregungs
signal, welches eine flache, spektrale Enveloppe hat,
welches jedoch ein Tonhöhenmuster hat, welches von dem
jenigen des ursprünglichen periodischen Tonhöhen-Impuls
folgesignals verschieden ist, wobei unter den
Tonhöhen-Impulssignalen diejenigen ausgewählt werden, die für die
Tonhöhenimpulspositionen der synthetischen Sprache am
besten geeignet sind, und wobei die Verstärkung für diese
Signale eingestellt wird. Anschließend werden die Signale
überlagert und zum Erhalten der synthetischen, spektralen
Enveloppenparameter ausgewertet, indem man die spektralen
Enveloppenparameter mit jedem Tonhöhenimpulssignal
verknüpft, welches das synthetische Tonhöhen-Impuls
folgesignal bildet oder mit dem synthetischen Anregungs
signal. Zum Erzeugen der synthetisierten Sprache werden
schließlich das synthetische Anregungssignal und die
synthetischen, spektralen Enveloppenparameter dem
Synthesefilter zugeführt. Diese beiden Verfahren sind im
wesentlichen identisch, mit der Ausnahme, daß die Sequenz
zwischen dem Synthesefilter und dem Überlagerungsschritt
in der Anordnung der synthetischen Sprache umgedreht ist.
Das vorstehend beschriebene, synthetische Sprachanord
nungsverfahren wird nachstehend unter Bezugnahme auf
Fig. 8 erläutert. Das Verfahren der Repositionierung der
Einzelschwingungen kann grundsätzlich in gleicher Weise
sowohl auf das Schwingungscode-Speicherverfahren als auch
auf das Quellcode-Speicherverfahren angewandt werden. Die
beiden Schwingungsanordnungsverfahren für die Erzeugung
synthetischer Sprache nach den beiden genannten Methoden
werden folglich unter Bezugnahme auf Fig. 8 gleichzeitig
beschrieben.
In Fig. 8A ist die Korrelation zwischen dem
Original-Sprachsegment und dem zu synthetisierenden Sprachsegment
dargestellt. Die Original-Grenzzeitpunkte B1, B2 usw., die
durch gestrichelte Linien angedeutet sind, die Grenzzeit
punkte B′1, B′2 usw. des synthetisierten Klanges und die
Korrelation zwischen diesen Größen, die durch gestrichelte
Linien angedeutet ist, werden von der Zeitverformungs
information umfaßt, die von dem Dauersteuerungs-Unterblock
empfangen wird. Zusätzlich sind die Original-Tonhöhen-
Impulspositionen P1, P2 usw. durch ausgezogene Linien
angezeigt und die Tonhöhenimpulspositionen P′1, P′2 der
synthetisierten Sprache sind in der Tonhöhenimpuls
positionsinformation enthalten, die von dem Tonhöhen
steuerungs-Unterblock empfangen wird. Der Einfachheit
halber ist in Fig. 8 angenommen, daß die Tonhöhenperiode
der Originalsprache und die Tonhöhenperiode des synthe
tisierten Klanges jeweils konstant sind und daß letztere
das 1,5fache der ersteren beträgt.
Der Schwingungsanordnungs-Unterblock bildet zunächst die
Zeitverformungsfunktion, wie dies in Fig. 8B gezeigt ist,
indem er die Original-Grenzzeitpunkte, die Grenzzeitpunkte
des synthetisierten Klanges und die Korrelation zwischen
diesen verwendet. Auf der Abszisse der Zeitverformungs
funktion ist die Zeit "t" des Original-Sprachsegments
dargestellt, während längs der Ordinate die Zeit "t′" des
zu synthetisierenden Sprachsegments aufgetragen ist. Da in
Fig. 8A beispielsweise das erste Untersegment und das
letzte Untersegment des Original-Sprachsegments zeitlich
auf 2/3 komprimiert bzw. auf das 2fache expandiert werden
sollten, erscheint die Korrelation zwischen diesen Größen
in Form von Linien mit der Steigung 2/3 bzw. 2 in der
Zeitverformungsfunktion gemäß Fig. 8B. Das zweite Unter
segment ändert sich in seiner Dauer nicht, so daß es in
der Zeitverformungsfunktion als Linie mit der Steigung 1
erscheint. Das zweite Untersegment des Sprachsegmentes,
welches synthetisiert werden soll, ergibt sich durch die
Wiederholung des Grenzzeitpunktes B1 des Original-Sprach
segments. Im Gegensatz dazu ist das dritte Untersegment
des Original-Sprachsegmentes in dem zu synthetisierenden
Sprachsegment auf einen Grenzzeitpunkt B′3 verändert. Die
Korrelationen erscheinen in diesen Fällen als vertikale
Linie bzw. als horizontale Linie. Die Zeitverformungs
funktion wird somit erhalten, indem man den Grenzzeitpunkt
des Original-Sprachsegmentes und den Grenzzeitpunkt des zu
synthetisierenden Sprachsegmentes vorgibt, der dem
Grenzzeitpunkt des Original-Sprachsegmentes entspricht,
und zwar in Form von zwei Punkten, und indem man diese
Punkte über eine Linie miteinander verbindet. In einigen
Fällen kann es möglich sein, daß die Korrelation zwischen
den Untersegmenten näher an die Wirklichkeit angenähert
wird, indem die Punkte über eine sanfte Kurve verbunden
werden.
Bei dem Schwingungscode-Speicherverfahren findet der
Schwingungsanordnungs-Unterblock den Original-Zeitpunkt,
der der Tonhöhenimpulsposition des synthetisierten Klanges
entspricht, heraus, indem er die Zeitverformungsfunktion
verwendet, und findet außerdem die Einzelschwingung
heraus, welche die Tonhöhen-Impulsposition hat, die am
nächsten an dem Original-Zeitpunkt liegt, und ordnet die
Einzelschwingung dann an der Tonhöhen-Impulsposition des
synthetischen Klanges an.
In der nächsten Stufe multipliziert der Schwingungs
anordnungs-Unterblock jedes positionierte Einzelschwin
gungssignal mit der Verstärkung, die der Tonhöhenimpuls
position des Einzelschwingungssignals entspricht, welches
für die Verstärkungsinformation herausgefunden wurde.
Schließlich erhält der Unterblock den gewünschten
synthetischen Klang durch Überlagerung der hinsichtlich
der Verstärkung eingestellten Einzelschwingungssignale
durch einfache Addition derselben. In Fig. 3Q ist der
synthetische Klang gezeigt, der durch einen derartigen
Überlagerungsprozeß für den Fall erzeugt wurde, daß die
Einzelschwingungen gemäß Fig. 3I, Fig. 3L und Fig. 3(0) in
der Weise neu positioniert werden, wie dies in Fig. 3P
gezeigt ist.
In ähnlicher Weise findet der Schwingungsanordnungs-Unter
block bei dem Quellcode-Speicherverfahren den Original-
Zeitpunkt heraus, der der Tonhöhenimpulsposition der
synthetischen Klanges entspricht, indem er die Zeitver
formungsfunktion verwendet und dasjenige Tonhöhenimpuls
signal heraus findet, welches diejenige Tonhöhenimpuls
position besitzt, die am nächsten an dem Original-Zeit
punkt liegt, und indem er dann das Tonhöhenimpulssignal an
dieser Tonhöhenimpulsposition des synthetischen Klanges
anordnet.
Die Zahl der Tonhöhenimpulssignale bzw. der Einzelschwin
gungen, die auf diese Weise an jeder Tonhöhenimpuls
position des zu synthetisierenden Sprachsegmentes angeord
net werden, ist in Fig. 8A und 8B gezeigt. Wie man an
diesen Zeichnungsfiguren sieht, werden einige der
Einzelschwingungen, die das Original-Sprachsegment bilden,
aufgrund der Kompression der Untersegmente weggelassen,
während einige wegen der Expansion der Untersegmente
wiederholt verwendet werden. In Fig. 8 wurde angenommen,
daß das Tonhöhenimpulssignal für jede Periode durch
Segmentieren unmittelbar hinter jedem Tonhöhenimpuls
erhalten wurde.
Die Überlagerung der Einzelschwingungen bei dem
Schwingungscode-Speicherverfahren ist äquivalent zur
Überlagerung der Tonhöhen-Impulssignale bei dem
Quellcode-Speicherverfahren. Daher multipliziert der
Schwingungsanordnungs- bzw. Positionierungs-Unterblock im
Falle des Quellcode-Speicherverfahrens jedes neu positio
nierte Tonhöhen-Impulssignal mit der Verstärkung, welche
der Tonhöhenimpulsposition des neu angeordneten Tonhöhen
impulssignals entspricht und die aus der Verstärkungs
information ermittelt wurde, wobei schließlich das
gewünschte, synthetische Anregungssignal erhalten wird,
indem die hinsichtlich der Verstärkung eingestellten
Tonhöhenimpulssignale überlagert werden. Da jedoch die
meiste Energie an dem Tonhöhenimpuls konzentriert ist,
kann es in diesem Falle möglich sein, das synthetische
Anregungssignal zu erzeugen, indem zunächst ein synthe
tisches Anregungssignal ohne Verstärkungseinstellung
erhalten wird, indem man die positionierten Tonhöhen
impulssignale überlagert und indem man dann das synthe
tische Anregungssignal ohne Verstärkungseinstellung mit
der Energiekontur multipliziert, die an dem Energiesteue
rungs-Unterblock erzeugt wurde, anstatt Tonhöhenimpuls
signale mit konstanter Verstärkungseinstellung zu über
lagern. Fig. 3R zeigt das synthetische Anregungssignal,
welches erhalten wird, wenn die Tonhöhenimpulssignale
gemäß Fig. 3H, 3K und 3N nach einem solchen Verfahren neu
positioniert werden, so daß das Tonhöhenmuster dasselbe
wird wie für den Fall gemäß Fig. 3P.
Bei dem Quellcode-Speicherverfahren muß der Schwingungs
anordnungs-Unterblock die synthetischen, spektralen
Enveloppenparameter erzeugen, wobei zwei Wege möglich
sind, nämlich das temporäre Kompressions- und
Expansions-Verfahren, welches in Fig. 8A gezeigt ist, und das syn
chrone Korrespondenz(Entsprechungs-)Verfahren, welches in
Fig. 8B gezeigt ist. Wenn die spektralen Enveloppenpara
meter über der Zeit kontinuierliche Funktionen sind und
die Enveloppe des Sprachspektrums vollständig darstellen,
dann können die synthetischen, spektralen Enveloppenpara
meter erhalten werden, indem man die ursprünglichen,
spektralen Enveloppenparameter einfach temporär
komprimiert oder expandiert, und zwar Untersegment für
Untersegment. In Fig. 8A ist der spektrale Enveloppen
parameter, der durch das sequentielle Analyseverfahren
erhalten wird, als punktierte Kurve dargestellt, während
der spektrale Enveloppenparameter, der durch Annäherung
der Kurve durch Verbinden verschiedener Punkte, wie z. B.
der Punkte A, B, C usw., mit Liniensegmenten codiert
wurde, als ausgezogene Linie dargestellt ist. Da aufgrund
der temporären Kompression und Expansion lediglich die
temporäre Position jedes Punktes variiert wird, wobei sich
die Punkte A′, B′, C′ usw. ergeben, ist ein solches
Liniensegment-Codierverfahren, besonders für den Fall der
temporären Kompression und Expansion geeignet. Im Falle
der Anwendung des Block-Analyseverfahrens oder des
tonhöhensynchronen Analyseverfahrens kann jedoch das
temporäre Kompressions- und Expansions-Verfahren nicht die
gewünschte synthetische Klangqualität ergeben, da die
spektrale Anpassung nicht exakt ist und die temporäre
Veränderung der spektralen Enveloppenparameter diskon
tinuierlich ist. Es wird daher bevorzugt, das synchrone
Korrespondenzverfahren anzuwenden, bei dem die synthe
tischen, spektralen Enveloppenparameter dadurch positio
niert werden, daß die spektralen Enveloppenparameter für
jedes Tonhöhenperiodenintervall mit jedem entsprechenden
Tonhöhenimpulssignal korreliert werden, wie dies in
Fig. 8B gezeigt ist. Dies bedeutet, daß die synthetischen,
spektralen Enveloppenparameter gewonnen werden können,
indem man die spektralen Enveloppenparameter für ein
Periodenintervall in demselben Periodenintervall für jedes
positionierte Tonhöhenimpulssignal anordnet, weil die
Einzelwelle bei dem Schwingungscode-Speicherverfahren
äquivalent zu dem Tonhöhenimpulssignal und den korres
pondierenden, spektralen Enveloppenparametern für dasselbe
Tonhöhenperiodenintervall ist. In Fig. 8B sind k1, bei dem
es sich um einen der spektralen Enveloppenparameter
handelt, und k′1, bei dem es sich um den k1 entspre
chenden, synthetischen, spektralen Enveloppenparameter
handelt, in Form einer ausgezogenen Linie bzw. einer
punktierten Linien dargestellt, wobei k′1 durch die
genannten Verfahren für das Block-Analyseverfahren und das
tonhöhensynchrone Analyseverfahren gewonnen wurde.
Natürlich kann der synthetische, spektrale Enveloppen
parameter auch nach dem Verfahren gemäß Fig. 8A angeordnet
werden, wenn er aus dem spektralen Enveloppenparameter
durch das sequentielle Analyseverfahren erhalten wurde.
Wenn beispielsweise das Tonhöhenimpulssignal für jede
Periode so angeordnet wurde, wie dies in Fig. 3R gezeigt
ist, dann werden die spektralen Enveloppenparameter für
jede Periode in Übereinstimmung mit den Tonhöhenimpuls
signalen so angeordnet, wie dies in Fig. 3S gezeigt ist.
Zum Zeitpunkt der Anordnung des synthetischen Anregungs
signals und der synthetischen, spektralen Enveloppenpara
meter nach dem Quellcode-Speicherverfahren ergibt sich,
wenn die Tonhöhenperiode des synthetisierten Klanges
länger ist als die ursprüngliche Tonhöhenperiode, ein
Leerintervall zwischen zwei benachbarten Tonhöhenperioden
intervallen, wie dies in Fig. 8 in schrägen Linien gezeigt
ist. Wenn die Tonhöhenperiode des synthetisierten Klanges
kürzer ist als die Original-Tonhöhenperiode, ergeben sich
Überlappungsintervalle, in welchen sich zwei benachbarte
Tonhöhenperiodenintervalle überlappen. Das Überlappungs
intervall "fb" und das Leerintervall "gh" sind beispiels
weise in Fig. 3R und Fig. 3S eingezeichnet. Wie oben
beschrieben, sollen die neu positionierten Tonhöhen
impulssignale zum Zeitpunkt der Überlappung überlagert
werden. Es ist jedoch vernünftig, wenn die in Über
einstimmung mit den Tonhöhenimpulssignalen neu positio
nierten, spektralen Enveloppenparameter zum Zeitpunkt der
Überlappung gemittelt werden, anstatt überlagert zu
werden. Daher wird bezüglich der synthetischen, spektralen
Enveloppenparameter unter Berücksichtigung der Leer
intervalle und der Überlappungsintervalle folgendes
Anordnungsverfahren für das synthetische Anregungssignal
angewandt:
Die Abtastwerte mit dem Wert 0 werden zum Zeitpunkt der
Anordnung des synthetischen Anregungssignals in das
Leerintervall eingesetzt. Im Falle eines stimmhaften
Friktionslautes kann ein natürlicherer Klang synthetisiert
werden, wenn in das Leerintervall anstelle des Abtast
wertes mit dem Wert 0 ein mit Hilfe eines Hochpaßfilters
gefiltertes Rauschsignal eingesetzt wird. Die neu
positionierten Tonhöhenimpulssignale müssen in dem
Überlappungsintervall addiert werden. Da ein solches
Additionsverfahren lästig ist, ist es angenehm, ein
Rumpfbildungsverfahren anzuwenden, gemäß welchem unter den
beiden sich überlappenden Tonhöhenimpulssignalen im
Überlappungsintervall nur ein Signal ausgewählt wird. Die
Qualität des synthetisierten Klanges wird bei Anwendung
des Rumpfbildungsverfahrens nicht signifikant ver
schlechtert. In Fig. 3R wurde das Leerintervall "gh" mit
Null-Proben gefüllt und in dem Überlappungsintervall "fb"
wurde das Tonhöhenimpulssignal des früheren Intervalls
ausgewählt. Im Falle des Auftretens einer Überlappung wird
also das frühere der beiden einander überlappenden Inter
valle jedes der Tonhöhenimpulssignale abgetrennt, und
dieses Verfahren ist physikalisch bedeutungsvoller im
Vergleich zu dem Verfahren, bei dem die Tonhöhenimpuls
signale erzeugt werden, indem man die Segmentierung
unmittelbar vor dem Tonhöhenimpuls durchführt, und bei dem
zum Zeitpunkt der Synthese des letzteren unter den Ton
höhenimpulssignalen im Überlappungsintervall abgetrennt
wird, wenn diese Signale sich überlappen, wie vorstehend
beschrieben. In der Praxis führt jedoch keines der beiden
Verfahren zu einer signifikanten Differenz in der
Klangqualität des synthetisierten Klanges.
Zum Zeitpunkt der Anordnung der synthetischen, spektralen
Enveloppenparameter ist es ideal, daß das Leerintervall
mit den Werten gefüllt ist, welche sich linear von einem
Wert des spektralen Enveloppenparameters an dem Endpunkt
des vorausgehenden Periodenintervalls bis auf einen Wert
des spektralen Enveloppenparameters am Anfangspunkt der
folgenden Periode ändern, und wenn sich in dem Über
lappungsintervall die spektralen Enveloppenparameter
allmählich von dem spektralen Enveloppenparameter der
vorangehenden Periode auf denjenigen der folgenden Periode
ändern, und zwar durch Verwendung des Interpolations
verfahrens, bei dem der Mittelwert der beiden sich
überlappenden, spektralen Enveloppenparameter mit
Gewichtungswerten erhalten wird, welche sich über der Zeit
linear ändern. Da diese Verfahren jedoch mühsam sind, kann
das folgende Verfahren verwendet werden, welches bequemer
ist und die Klangqualität nicht signifikant ver
schlechtert. Nach diesem Verfahren kann für den spektralen
Enveloppenparameter in dem Leerintervall der Wert des
spektralen Enveloppenparameters am Endpunkt des
vorausgehenden Periodenintervalls wiederholt verwendet
werden, wie in Fig. 8B, oder es kann der Wert des
spektralen Enveloppenparameters am Anfangspunkt des
folgenden Periodenintervalls verwendet werden. Außerdem
kann der arithmetische Mittelwert der beiden spektralen
Enveloppenparameter verwendet werden, oder es können die
Werte der spektralen Enveloppenparameter am Endpunkt und
am Anfangspunkt des vorausgehenden und des folgenden
Periodenintervalls vor und hinter der Mitte des Leer
intervalls verwendet werden, wobei die Mitte die Grenze
darstellt. Für den spektralen Enveloppenparameter im
Überlappungsintervall kann einfach der eine oder andere
Teil ausgewählt werden, welcher dem ausgewählten
Tonhöhenimpuls entspricht. In Fig. 3S wurden beispiels
weise, da das Tonhöhenimpulssignal für das vorausgehende
Periodenintervall als das synthetische Anregungssignal in
dem Überlappungsintervall "fb" ausgewählt wurde, die
Parameterwerte für das vorausgehende Periodenintervall
gleichermaßen als synthetische, spektrale Enveloppen
parameter ausgewählt. In dem Leerintervall "gh" in Fig. 8B
und 3S wurden die Parameterwerte der spektralen Envelop
penparameter am Ende des vorangehenden Periodenintervalls
wiederholt verwendet. Im Falle von Fig. 3S, wo der spek
trale Enveloppenparameter bezüglich der Zeit eine konti
nuierliche Funktion ist, führt das Verfahren, bei dem der
letzte Wert des vorangehenden Periodenintervalls oder der
erste Wert des folgenden Periodenintervalls während des
Leerintervalls wiederholt verwendet werden, und das
Verfahren, bei dem die beiden Werte während des Leer
intervalls linear variiert werden, zu demselben Ergebnis.
Wenn erst einmal alle Elemente, nämlich das synthetische
Anregungssignal und die synthetischen, spektralen Envelop
penparameter für ein Segment angeordnet sind, glättet der
Schwingungsanordnungs-Unterblock normalerweise beide Enden
der angeordneten synthetischen, spektralen Enveloppenpara
meter unter Anwendung des Interpolationsverfahrens derart,
daß die Änderung des spektralen Enveloppenparameters
zwischen benachbarten Sprachsegmenten glatt verläuft. Wenn
das synthetische Anregungssignal und die synthetischen,
spektralen Enveloppenparameter, die in der vorstehend
beschriebenen Weise angeordnet wurden, als Anregungssignal
bzw. als Filtercoeffizienten in das Synthesefilter des
Schwingungsanordnungs-Unterblockes eingegeben werden, dann
wird von dem Synthesefilter schließlich der gewünschte
synthetische Klang abgegeben. Das synthetische Anregungs
signal, welches erhalten wird, wenn die Tonhöhenimpuls
signale gemäß Fig. 3H, 3K und 3N derart neu angeordnet
werden, daß das Tonhöhenmuster dasselbe ist wie in
Fig. 3P, ist in Fig. 3R gezeigt, und die synthetischen,
spektralen Enveloppenparameter, die aus den entsprechenden
spektralen Enveloppenparametern für eine Periode gemäß
Fig. 3G, 3J und 3M zu den Tonhöhenimpulssignalen in dem
synthetischen Anregungssignal gemäß Fig. 3R erhalten
werden, sind in Fig. 3S gezeigt. Wenn man ein zeit
variables Synthesefilter herstellt, welches als Filter
coeffizienten die Reflexionscoeffizienten besitzt, die
sich gemäß Fig. 3S ändern, und wenn man an dieses Filter
als Eingangssignal das synthetische Anregungssignal gemäß
Fig. 3R anlegt, dann erhält man den synthetisierten Klang
gemäß Fig. 3T, welcher nahezu gleich dem synthetisierten
Klang gemäß Fig. 3P ist.
Wenn man nun das Schwingungscode-Speicherverfahren und das
Quellcode-Speicherverfahren vergleicht, dann können die
beiden Verfahren als im Prinzip identisch angesehen
werden. Wenn man jedoch die Sprachsegmente in schlechter
Verbindung miteinander verkettet, ergibt sich ein Unter
schied, derart, daß es möglich, den glatt verbundenen
Klang durch Glätten der spektralen Enveloppenparameter zu
synthetisieren, indem man im Falle des Quellcode-Speicher
verfahrens das Interpolationsverfahren verwendet, was
jedoch im Falle des Schwingungscode-Speicherverfahrens
unmöglich ist. Weiterhin benötigt das Quellcode-Speicher
verfahren einen kleineren Speicher als das Schwingungs
code-Speicherverfahren, da die Schwingung von nur einer
Periodenlänge pro Einzelwelle in dem Quellcode-Speicher
verfahren gespeichert werden muß, und dieses den Vorteil
hat, daß es einfach ist, die Funktion des Syntheseblockes
für den stimmhaften Klang und die Funktion des Synthese
blockes für den oben beschriebenen stimmlosen Klang zu
integrieren. Im Falle der Verwendung des homomorphen
Analyseverfahrens kann das Cepstrum oder die Impulsantwort
als Satz spektraler Enveloppenparameter bei dem Schwin
gungscode-Speicherverfahren verwendet werden, während es
bei dem Quellcode-Speicherverfahren praktisch unmöglich
ist, das Cepstrum zu verwenden, welches die Berechnung auf
Blockbasis erforderlich macht, da die Dauer des Synthese
blockes, welcher die Werte der konstanten, synthetischen,
spektralen Enveloppenparameter enthält, Block für Block
variiert, wie dies an dem synthetischen, spektralen
Enveloppenparameter gesehen werden kann, der in Fig. 8B
durch eine ausgezogene Linie dargestellt ist. Das
Quellcode-Speicherverfahren gemäß der vorliegenden
Erfindung verwendet den Tonhöhenimpuls einer Periode als
Anregungsimpuls. Dieses Verfahren ist jedoch von dem
vorbekannten, regulären Tonhöhenimpuls-Anregungsverfahren
verschieden, welches darauf abzielt, den Impuls durch
einen Tonhöhenabtastimpuls zu ersetzen, und zwar insofern
als gemäß der Erfindung der Tonhöhenimpuls jeder Periode
und die spektralen Enveloppenparameter jeder Periode, die
dem Tonhöhenimpuls entsprechen, vereinigt werden, um die
Einzelschwingung für jede Periode zu erzeugen.
Wie aus der vorstehenden Beschreibung deutlich wird, ist
das erfindungsgemäße Verfahren für das Codieren und
Decodieren des Sprachsegments des Text-in-Sprache-
Synthesesystems des Sprachsegment-Syntheseverfahrens
geeignet. Da das erfindungsgemäße Verfahren ferner ein
Verfahren ist, bei dem die Gesamtdauer und die Teildauer
und die Tonhöhenmuster beliebiger, phonetischer Einheiten,
wie Phoneme, Halbsilben, Diphone und Untersegmente etc.,
welche die Sprache bilden, frei und unabhängig geändert
werden können, kann es in einem Sprachgeschwindigkeits
änderungssystem oder in einem Zeitskalamodifikationssystem
verwendet werden, welches die Sprechgeschwindigkeit in
einem konstanten Verhältnis derart ändert, daß sie
schneller oder langsamer als die Originalgeschwindigkeit
ist, und zwar ohne das Intonationsmuster der Sprache zu
ändern. Außerdem kann das Verfahren auch in einem
Singstimmensynthesesystem verwendet werden oder in einem
sehr langsamen Sprachcodiersystem, wie z. B. einem
phonetischen Vocoder oder einem Segmentvocoder, welcher
die Sprache überträgt, indem er die Dauer und die Tonhöhe
von Schablonen-Sprachsegmenten ändert, die vorab
gespeichert werden.
Ein anderer Anwendungsbereich der vorliegenden Erfindung
besteht in einem musikalischen Klangsynthesesystem, wie
z. B. einem elektronischen Musikinstrument nach dem
Abtastverfahren. Da nahezu der gesamte Klang im Bereich
elektronischer Musikinstrumente digital schwingungs
codiert, gespeichert und reproduziert wird, wenn er über
die Tasten usw. aufgerufen wird, ergibt sich bei den
bekannten Abtastverfahren für elektronische Musik
instrumente der Nachteil, daß für die Speicherung des
musikalischen Klanges eine große Menge an Speicherplatz
erforderlich ist. Wenn jedoch die periodische
Schwingungszerlegung und das Einzelschwingungs-
Repositionierungsverfahren gemäß vorliegender Erfindung
angewandt werden, dann kann die erforderliche Speicher
platzmenge beträchtlich reduziert werden, da die Klänge
verschiedener Tonhöhen durch Abtasten der Töne lediglich
einiger, weniger Arten von Tonhöhen synthetisiert werden
können. Der musikalische Klang besteht typischerweise aus
drei Teilen, d. h. einem Anstieg, einem im wesentlichen
kontinuierlichen Hauptteil und einem Abfall. Da sich die
Spektrum-Enveloppe nicht nur zwischen den drei Teilen
allmählich ändert, sondern auch während des Hauptteils,
ändert sich auch das Timbre entsprechend. Wenn musika
lische Klangsegmente daher nach dem oben beschriebenen
Verfahren der periodischen Schwingungszerlegung codiert
und gespeichert werden, indem die geeigneten Punkte, an
denen sich das Spektrum erheblich ändert, als Grenzzeit
punkte gespeichert werden, und wenn der Klang dann nach
dem oben beschriebenen Verfahren der Zeitverformung auf
der Basis des Einzelschwindungsrepositionierungsverfahrens
synthetisiert wird, wenn eine entsprechende Anforderung
von der Tastatur usw. eintrifft, dann kann ein musika
lischer Klang mit beliebiger, erwünschter Tonhöhe
synthetisiert werden. In den Fällen, in denen ein
musikalisches Klangsignal jedoch nach dem linearen,
vorhersagenden Analyseverfahren entfaltet wird, wird wegen
der Tendenz, daß die exakte, spektrale Enveloppe nicht
erhalten wird und daß der Tonhöhenimpuls nicht scharf ist,
empfohlen, die Anzahl der für die Analyse verwendeten,
spektralen Enveloppenparameter und die Differenz des
Signals vor der Analyse zu reduzieren.
Obwohl die Erfindung vorstehend in ihrer bevorzugten
Ausführungsform mit einer gewissen Ausführlichkeit
beschrieben wurde, versteht es sich für den Fachmann, daß
es sich bei der beschriebenen Ausgestaltung lediglich um
ein bevorzugtes Ausführungsbeispiel handelt, und daß
zahlreiche Möglichkeiten für Änderungen und/oder
Ergänzungen bestehen, ohne daß dabei der Grundgedanke der
Erfindung verlassen werden müßte.
Claims (7)
1. Sprachsegmentcodierverfahren zur Verwendung in einem
Sprachsynthesesystem, gekennzeichnet durch folgende
Merkmale:
Es werden Einzelschwingungen gebildet, indem Parameter gewalten werden, welche in einem Analysezeitintervall eine spektrale Enveloppe darstellen, und zwar durch Analysieren eines periodischen oder quasi-periodischen digitalen Signals unter Verwendung einer Spektrum-Abschätzungstechnik, durch Entfalten des Original-Signals in eine Impulsantwort, die durch die spektralen Enveloppenparameter dargestellt wird, und in ein periodisches oder quasi-periodisches Tonhöhen-Impulsfolgesignal, welches eine nahezu flache, spektrale Enveloppe hat, und durch Falten eines Erregungssignals, welches erhalten wird, indem man hinter einem Tonhöhenimpulssignal für eine Periode, die durch Segmentieren des Tonhöhen-Impulsfolgesignals erhalten wird, für jede Periode Abtastwerte mit dem Wert 0 anhängt, so daß in jeder Periode ein Tonhöhen impuls enthalten ist, sowie einer Impulsantwort, die den spektralen Enveloppenparametern in demselben Zeit intervall wie das Anregungssignal entspricht; und für die Einzelschwingungen jeder Periode wird eine Schwingungscodierung durchgeführt, die codierten Werte werden in einem Speicher gespeichert und die Einzel schwingungen werden zum Zeitpunkt der Sprachsynthese decodiert, wobei die Dauer und die Tonhöhenfrequenz eingestellt werden, indem den Einzelschwingungen geeignete Zeitpunkte derart zugeordnet werden, daß sie das gewünschte Tonhöhenmuster haben, und wobei die Einzelschwingungen an den genannten Zeitpunkten positioniert und zum Synthetisieren von Sprache überlagert werden.
Es werden Einzelschwingungen gebildet, indem Parameter gewalten werden, welche in einem Analysezeitintervall eine spektrale Enveloppe darstellen, und zwar durch Analysieren eines periodischen oder quasi-periodischen digitalen Signals unter Verwendung einer Spektrum-Abschätzungstechnik, durch Entfalten des Original-Signals in eine Impulsantwort, die durch die spektralen Enveloppenparameter dargestellt wird, und in ein periodisches oder quasi-periodisches Tonhöhen-Impulsfolgesignal, welches eine nahezu flache, spektrale Enveloppe hat, und durch Falten eines Erregungssignals, welches erhalten wird, indem man hinter einem Tonhöhenimpulssignal für eine Periode, die durch Segmentieren des Tonhöhen-Impulsfolgesignals erhalten wird, für jede Periode Abtastwerte mit dem Wert 0 anhängt, so daß in jeder Periode ein Tonhöhen impuls enthalten ist, sowie einer Impulsantwort, die den spektralen Enveloppenparametern in demselben Zeit intervall wie das Anregungssignal entspricht; und für die Einzelschwingungen jeder Periode wird eine Schwingungscodierung durchgeführt, die codierten Werte werden in einem Speicher gespeichert und die Einzel schwingungen werden zum Zeitpunkt der Sprachsynthese decodiert, wobei die Dauer und die Tonhöhenfrequenz eingestellt werden, indem den Einzelschwingungen geeignete Zeitpunkte derart zugeordnet werden, daß sie das gewünschte Tonhöhenmuster haben, und wobei die Einzelschwingungen an den genannten Zeitpunkten positioniert und zum Synthetisieren von Sprache überlagert werden.
2. Sprachsegmentcodierverfahren nach Anspruch 1, dadurch
gekennzeichnet, daß die Einzelschwingungen erzeugt
werden, indem man die Information, welche durch die
Schwingungscodierung eines Tonhöhenimpulssignals für
jede der durch Segmentierung erhaltenen Perioden an
die Information anpaßt, die man durch Codieren eines
Satzes von spektralen Enveloppenabschätzungsparametern
einer Periode desselben Zeitintervalls erhält, und die
Information in den Speichereinrichtungen speichert und
daß zum Zeitpunkt der Synthese Einzelschwingungen
erzeugt werden, indem man ein Anregungssignal, welches
durch das Anhängen von Null-Abtastwerten nach einem
Tonhöhenimpulssignal einer Periode erhalten wird,
welches durch Decodieren der genannten Information und
einer Impulsantwort erhalten wird, mit den decodier
ten, spektralen Enveloppenparametern im gleichen
Zeitintervall wie das Anregungssignal faltet.
3. Sprachsegmentcodierverfahren nach Anspruch 2, dadurch
gekennzeichnet, daß der synthetische Sprachklang zum
Zeitpunkt der Synthese erzeugt wird, indem ein synthe
tisches Anregungssignal, welches gebildet wird, indem
man Tonhöhenimpulssignale, die durch Decodieren der
Information erhalten wurden, geeigneten Zeitpunkten
derart zuordnet, daß sie das gewünschte Tonhöhenmuster
haben, und sie an den Zeitpunkten anordnet, wobei ein
Leerintervall, welches auftritt, wenn eine gewünschte
Tonhöhenperiode länger ist als eine Original-Tonhöhen
periode, mit Null-Abtastwerten gefüllt wird, und wobei
in einem Überlappungsintervall, welches auftritt, wenn
die gewünschte Tonhöhenperiode kürzer ist als die
Original-Tonhöhenperiode, die einander überlappenden
Tonhöhenimpulssignale zueinander addiert oder eines
dieser Signale auswählt, mit einer zeitvariablen
Impulsantwort faltet, die einem Satz von synthe
tischen, spektralen Enveloppenparametern entspricht,
und welche gebildet wird, indem man entweder den Satz
von Zeitfunktionen dieser Parameter auf einer
Schritt-für-Schritt-Basis komprimiert oder expandiert,
und zwar in Abhängigkeit davon, ob die Dauer eines
nachfolgenden Untersegments in einem zu synthetisie
renden Sprachsegment kürzer oder länger ist als ein
entsprechendes Untersegment in dem Original-Sprach
segment, oder indem man den Satz von Zeitfunktionen
dieser Parameter für eine Periode synchron mit dem
darauf abgestimmten Tonhöhenimpulssignal einer Periode
positioniert, welches so angeordnet wird, daß das
synthetische Anregungssignal gebildet wird, wobei im
zuletzt betrachteten Fall ein synthetischer, spektra
ler Enveloppenparameter in dem Leerintervall erhalten
wird, indem man den Wert des spektralen Enveloppen
parameters am Endpunkt der vorangehenden Periode
wiederholt oder den Wert des spektralen Enveloppen
parameters am ersten Punkt der folgenden Periode, oder
indem man einen Mittelwert dieser beiden Werte verwen
det, oder indem man das Leerintervall mit Werten
füllt, die diese beiden Werte glatt miteinander
verbinden, oder indem man die Werte des spektralen
Enveloppenparameters an dem Ende der vorausgehenden
Periode und die ersten Punkte der folgenden Perioden
vor und hinter dem Mittelpunkt des Leerintervalls
wiederholt, wobei der synthetische, spektrale
Enveloppenparameter in dem Überlappungsintervall
erhalten wird, indem man einen der einander über
lappenden spektralen Enveloppenparameter auswählt oder
indem man einen Mittelwert der beiden sich überlappen
den Parameter verwendet.
4. Tonhöhensteuerverfahren für ein Sprachsynthesesystem,
gekennzeichnet durch folgende Merkmale:
Die Dauer und Tonhöhe eines Sprachsegments werden gleichzeitig nach einem Verfahren der Einzel wellenrepositionierung auf der Basis der Zeitverfor mung durch Codieren der Grenzzeitpunkte, einschließ lich des Anfangspunktes, des Endpunktes und eines einem stetigen Zustand zugeordneten Punktes in dem Sprachsignal und durch Codieren der Tonhöhenimpuls positionen jeder Einzelschwingung oder eines Tonhöhenimpulssignals einer Periode und durch Speichern der codierten Werte gleichzeitig mit der Speicherung jedes Sprachsegmentes gesteuert; und
zum Zeitpunkt der Synthese wird eine Zeitverformungs funktion erhalten, indem man die gewünschten Grenz zeitpunkte und die gespeicherten Original-Grenz zeitpunkte vergleicht, die den gewünschten Grenzzeit punkten entsprechen, indem die Original-Zeitpunkte herausgefunden werden, die jeder gewünschten Ton höhenimpulsposition entsprechen, und zwar unter Verwendung der Zeitverformungsfunktion, indem man die Einzelwellen auswählt, welche Tonhöhenimpulspositionen haben, die den Original-Zeitpunkten am nächsten benachbart sind, und indem man sie an den gewünschten Tonhöhenimpulspositionen anordnet und die Einzel schwingungen überlagert.
Die Dauer und Tonhöhe eines Sprachsegments werden gleichzeitig nach einem Verfahren der Einzel wellenrepositionierung auf der Basis der Zeitverfor mung durch Codieren der Grenzzeitpunkte, einschließ lich des Anfangspunktes, des Endpunktes und eines einem stetigen Zustand zugeordneten Punktes in dem Sprachsignal und durch Codieren der Tonhöhenimpuls positionen jeder Einzelschwingung oder eines Tonhöhenimpulssignals einer Periode und durch Speichern der codierten Werte gleichzeitig mit der Speicherung jedes Sprachsegmentes gesteuert; und
zum Zeitpunkt der Synthese wird eine Zeitverformungs funktion erhalten, indem man die gewünschten Grenz zeitpunkte und die gespeicherten Original-Grenz zeitpunkte vergleicht, die den gewünschten Grenzzeit punkten entsprechen, indem die Original-Zeitpunkte herausgefunden werden, die jeder gewünschten Ton höhenimpulsposition entsprechen, und zwar unter Verwendung der Zeitverformungsfunktion, indem man die Einzelwellen auswählt, welche Tonhöhenimpulspositionen haben, die den Original-Zeitpunkten am nächsten benachbart sind, und indem man sie an den gewünschten Tonhöhenimpulspositionen anordnet und die Einzel schwingungen überlagert.
5. Tonhöhensteuerverfahren für ein Sprachsynthesesystem
nach Anspruch 4, dadurch gekennzeichnet, daß außerdem
synthetische Sprache erzeugt wird, indem Tonhöhenim
pulssignale einer Periode und spektrale Enveloppen
parameter ausgewählt werden, die den Tonhöhenimpuls
signalen entsprechen und diese positioniert werden,
und indem man das positionierte Tonhöhenimpulssignal
und die Impulsantwort faltet, die den spektralen
Enveloppenparametern entspricht, um Einzelschwingungen
zu erzeugen, die dann überlagert werden.
6. Tonhöhensteuerverfahren für ein Sprachsynthesesystem
nach Anspruch 4, dadurch gekennzeichnet, daß
synthetische Sprache erzeugt wird, indem man
Tonhöhenimpulssignale einer Periode und spektrale
Enveloppenparameter, welche diesen Tonhöhensignalen
entsprechen, auswählt und sie positioniert und indem
man ein synthetisches Anregungssignal, welches durch
Überlagerung der positionierten Tonhöhenimpulssignale
nach dem Verfahren gemäß Anspruch 3 erhalten wird und
eine zeitvariable Impulsantwort faltet, die synthe
tischen, spektralen Enveloppenparametern entspricht,
die erzeugt werden, indem man die positionierten,
spektralen Enveloppenparameter nach dem Verfahren
gemäß Anspruch 3 miteinander verkettet.
7. Einrichtung zum Synthetisieren stimmhafter Sprache zur
Verwendung in einem Sprachsynthesesystem, gekennzeich
net durch folgende Merkmale:
Es ist ein Decodier-Unterblock (9) vorgesehen, welcher durch Decodieren von Einzelschwingungscodes aus dem Sprachsegmentspeicherblock (5) eine Einzelschwingungs information erzeugt;
es ist ein Dauersteuerungs-Unterblock (10) vorgesehen, welcher aus eingegebenen Dauerdaten von einem Vorläu fererzeugungs-Untersystem (2) und aus Grenzzeitpunk ten, die in einer Kopfinformation aus dem Sprachseg mentspeicherblock (5) enthalten sind, eine Zeitverfor mungsinformation erzeugt;
es ist ein Tonhöhensteuerungs-Unterblock (11) vorgesehen, welcher eine Tonhöhenimpulspositions information derart erzeugt, daß sie ein Intonations muster hat, wie es von Intonationsmusterdaten in der als Eingangssignal verwendeten Kopfinformation von dem Sprachsegmentspeicherblock (5), von Intonationsmuster daten von dem Vorläufererzeugungs-Untersystem und von der Zeitverformungsinformation aus dem Dauersteue rungs-Unterblock (10) angegeben wird;
es ist ein Energiesteuerungs-Unterblock (12) vorge sehen, welcher Verstärkungsinformationen in der Weise erzeugt, daß die synthetisierte Sprache ein Betonungs muster aufweist, wie es angezeigt wird durch die Betonungsmusterdaten vom Eingang der Betonungsmuster daten, von dem Vorläufererzeugungs-Untersystem (2), von der Zeitverformungsinformation von dem Dauersteue rungs-Unterblock (10) und von der Tonhöhenimpuls positionsinformation von dem Tonhöhensteuerungs- Unterblock (11); und
es ist ein Schwingungsanordnungs-Unterblock (13) vorgesehen, welcher ein stimmhaftes Sprachsignal erzeugt aus Eingangsinformationen über die Einzel schwingungsinformationen von dem Decodier-Unterblock (9), über die Zeitverformungsinformationen von dem Dauersteuerungs-Unterblock (10), über die Tonhöhen impulsinformationen von dem Tonhöhensteuerungs- Unterblock (11) und über die Verstärkungsinformationen von dem Energiesteuerungs-Unterblock (12).
Es ist ein Decodier-Unterblock (9) vorgesehen, welcher durch Decodieren von Einzelschwingungscodes aus dem Sprachsegmentspeicherblock (5) eine Einzelschwingungs information erzeugt;
es ist ein Dauersteuerungs-Unterblock (10) vorgesehen, welcher aus eingegebenen Dauerdaten von einem Vorläu fererzeugungs-Untersystem (2) und aus Grenzzeitpunk ten, die in einer Kopfinformation aus dem Sprachseg mentspeicherblock (5) enthalten sind, eine Zeitverfor mungsinformation erzeugt;
es ist ein Tonhöhensteuerungs-Unterblock (11) vorgesehen, welcher eine Tonhöhenimpulspositions information derart erzeugt, daß sie ein Intonations muster hat, wie es von Intonationsmusterdaten in der als Eingangssignal verwendeten Kopfinformation von dem Sprachsegmentspeicherblock (5), von Intonationsmuster daten von dem Vorläufererzeugungs-Untersystem und von der Zeitverformungsinformation aus dem Dauersteue rungs-Unterblock (10) angegeben wird;
es ist ein Energiesteuerungs-Unterblock (12) vorge sehen, welcher Verstärkungsinformationen in der Weise erzeugt, daß die synthetisierte Sprache ein Betonungs muster aufweist, wie es angezeigt wird durch die Betonungsmusterdaten vom Eingang der Betonungsmuster daten, von dem Vorläufererzeugungs-Untersystem (2), von der Zeitverformungsinformation von dem Dauersteue rungs-Unterblock (10) und von der Tonhöhenimpuls positionsinformation von dem Tonhöhensteuerungs- Unterblock (11); und
es ist ein Schwingungsanordnungs-Unterblock (13) vorgesehen, welcher ein stimmhaftes Sprachsignal erzeugt aus Eingangsinformationen über die Einzel schwingungsinformationen von dem Decodier-Unterblock (9), über die Zeitverformungsinformationen von dem Dauersteuerungs-Unterblock (10), über die Tonhöhen impulsinformationen von dem Tonhöhensteuerungs- Unterblock (11) und über die Verstärkungsinformationen von dem Energiesteuerungs-Unterblock (12).
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019910019617A KR940002854B1 (ko) | 1991-11-06 | 1991-11-06 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4237563A1 true DE4237563A1 (de) | 1993-05-19 |
DE4237563C2 DE4237563C2 (de) | 1996-03-28 |
Family
ID=19322321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4237563A Expired - Fee Related DE4237563C2 (de) | 1991-11-06 | 1992-11-06 | Verfahren zum Synthetisieren von Sprache |
Country Status (17)
Country | Link |
---|---|
US (1) | US5617507A (de) |
JP (1) | JP2787179B2 (de) |
KR (1) | KR940002854B1 (de) |
AT (1) | AT400646B (de) |
BE (1) | BE1005622A3 (de) |
CA (1) | CA2081693A1 (de) |
DE (1) | DE4237563C2 (de) |
DK (1) | DK134192A (de) |
ES (1) | ES2037623B1 (de) |
FR (1) | FR2683367B1 (de) |
GB (1) | GB2261350B (de) |
GR (1) | GR1002157B (de) |
IT (1) | IT1258235B (de) |
LU (1) | LU88189A1 (de) |
NL (1) | NL9201941A (de) |
PT (1) | PT101037A (de) |
SE (1) | SE9203230L (de) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19538852A1 (de) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
US5781881A (en) * | 1995-10-19 | 1998-07-14 | Deutsche Telekom Ag | Variable-subframe-length speech-coding classes derived from wavelet-transform parameters |
US7167824B2 (en) | 2002-02-14 | 2007-01-23 | Sail Labs Technology Ag | Method for generating natural language in computer-based dialog systems |
Families Citing this family (218)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4227826C2 (de) * | 1991-08-23 | 1999-07-22 | Hitachi Ltd | Digitales Verarbeitungsgerät für akustische Signale |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5704000A (en) * | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
US5864812A (en) * | 1994-12-06 | 1999-01-26 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments |
US5592585A (en) * | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
CN1145926C (zh) * | 1995-04-12 | 2004-04-14 | 英国电讯有限公司 | 用于语音合成的方法和设备 |
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
US6240384B1 (en) | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
US5822370A (en) * | 1996-04-16 | 1998-10-13 | Aura Systems, Inc. | Compression/decompression for preservation of high fidelity speech quality at low bandwidth |
EP0811906B1 (de) * | 1996-06-07 | 2003-08-27 | Hewlett-Packard Company, A Delaware Corporation | Sprachsegmentierung |
JP3242331B2 (ja) * | 1996-09-20 | 2001-12-25 | 松下電器産業株式会社 | Vcv波形接続音声のピッチ変換方法及び音声合成装置 |
JPH10149199A (ja) * | 1996-11-19 | 1998-06-02 | Sony Corp | 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体 |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
EP1710787B1 (de) * | 1997-02-10 | 2011-09-21 | Koninklijke Philips Electronics N.V. | Kommunikationsnetzwerk zur Uebertragung von Sprachsignalen |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
KR100269255B1 (ko) * | 1997-11-28 | 2000-10-16 | 정선종 | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 |
WO1998048408A1 (en) * | 1997-04-18 | 1998-10-29 | Koninklijke Philips Electronics N.V. | Method and system for coding human speech for subsequent reproduction thereof |
US5973252A (en) * | 1997-10-27 | 1999-10-26 | Auburn Audio Technologies, Inc. | Pitch detection and intonation correction apparatus and method |
US6064960A (en) | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6012025A (en) * | 1998-01-28 | 2000-01-04 | Nokia Mobile Phones Limited | Audio coding method and apparatus using backward adaptive prediction |
US6073094A (en) * | 1998-06-02 | 2000-06-06 | Motorola | Voice compression by phoneme recognition and communication of phoneme indexes and voice features |
US6199042B1 (en) * | 1998-06-19 | 2001-03-06 | L&H Applications Usa, Inc. | Reading system |
AU1608100A (en) * | 1998-11-09 | 2000-05-29 | Datascope Investment Corp. | Improved method for compression of a pulse train |
US6253182B1 (en) * | 1998-11-24 | 2001-06-26 | Microsoft Corporation | Method and apparatus for speech synthesis with efficient spectral smoothing |
AUPP829899A0 (en) * | 1999-01-27 | 1999-02-18 | Motorola Australia Pty Ltd | Method and apparatus for time-warping a digitised waveform to have an approximately fixed period |
US6202049B1 (en) * | 1999-03-09 | 2001-03-13 | Matsushita Electric Industrial Co., Ltd. | Identification of unit overlap regions for concatenative speech synthesis system |
JP3730435B2 (ja) * | 1999-03-26 | 2006-01-05 | 株式会社東芝 | 波形信号解析装置 |
SE9903223L (sv) * | 1999-09-09 | 2001-05-08 | Ericsson Telefon Ab L M | Förfarande och anordning i telekommunikationssystem |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7346488B2 (en) * | 2000-07-10 | 2008-03-18 | Fujitsu Limited | Automatic translator and computer-readable storage medium having automatic translation program recorded thereon |
ATE357042T1 (de) * | 2000-09-15 | 2007-04-15 | Lernout & Hauspie Speechprod | Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen |
US6952669B2 (en) * | 2001-01-12 | 2005-10-04 | Telecompression Technologies, Inc. | Variable rate speech data compression |
US7177810B2 (en) * | 2001-04-10 | 2007-02-13 | Sri International | Method and apparatus for performing prosody-based endpointing of a speech signal |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
GB0209770D0 (en) * | 2002-04-29 | 2002-06-05 | Mindweavers Ltd | Synthetic speech sound |
JP3973530B2 (ja) * | 2002-10-10 | 2007-09-12 | 裕 力丸 | 補聴器、訓練装置、ゲーム装置、および音出力装置 |
US20040073428A1 (en) * | 2002-10-10 | 2004-04-15 | Igor Zlokarnik | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database |
KR100486734B1 (ko) * | 2003-02-25 | 2005-05-03 | 삼성전자주식회사 | 음성 합성 방법 및 장치 |
JP4256189B2 (ja) * | 2003-03-28 | 2009-04-22 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
US9165478B2 (en) | 2003-04-18 | 2015-10-20 | International Business Machines Corporation | System and method to enable blind people to have access to information printed on a physical document |
US7487092B2 (en) * | 2003-10-17 | 2009-02-03 | International Business Machines Corporation | Interactive debugging and tuning method for CTTS voice building |
US20060105307A1 (en) * | 2004-01-13 | 2006-05-18 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20070111173A1 (en) * | 2004-01-13 | 2007-05-17 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20060051727A1 (en) * | 2004-01-13 | 2006-03-09 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20060177805A1 (en) * | 2004-01-13 | 2006-08-10 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20050175972A1 (en) * | 2004-01-13 | 2005-08-11 | Neuroscience Solutions Corporation | Method for enhancing memory and cognition in aging adults |
US20070065789A1 (en) * | 2004-01-13 | 2007-03-22 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US8210851B2 (en) * | 2004-01-13 | 2012-07-03 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20060073452A1 (en) * | 2004-01-13 | 2006-04-06 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20060074678A1 (en) * | 2004-09-29 | 2006-04-06 | Matsushita Electric Industrial Co., Ltd. | Prosody generation for text-to-speech synthesis based on micro-prosodic data |
JP5036317B2 (ja) * | 2004-10-28 | 2012-09-26 | パナソニック株式会社 | スケーラブル符号化装置、スケーラブル復号化装置、およびこれらの方法 |
US20060259303A1 (en) * | 2005-05-12 | 2006-11-16 | Raimo Bakis | Systems and methods for pitch smoothing for text-to-speech synthesis |
US20070011009A1 (en) * | 2005-07-08 | 2007-01-11 | Nokia Corporation | Supporting a concatenative text-to-speech synthesis |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
TWI277947B (en) * | 2005-09-14 | 2007-04-01 | Delta Electronics Inc | Interactive speech correcting method |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070134635A1 (en) * | 2005-12-13 | 2007-06-14 | Posit Science Corporation | Cognitive training using formant frequency sweeps |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
WO2008142836A1 (ja) * | 2007-05-14 | 2008-11-27 | Panasonic Corporation | 声質変換装置および声質変換方法 |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US20120309363A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Triggering notifications associated with tasks items that represent tasks to perform |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8457965B2 (en) * | 2009-10-06 | 2013-06-04 | Rothenberg Enterprises | Method for the correction of measured values of vowel nasalance |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8965768B2 (en) | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
KR102060208B1 (ko) * | 2011-07-29 | 2019-12-27 | 디티에스 엘엘씨 | 적응적 음성 명료도 처리기 |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8744854B1 (en) | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US8886539B2 (en) * | 2012-12-03 | 2014-11-11 | Chengjun Julian Chen | Prosody generation using syllable-centered polynomial representation of pitch contours |
DE112014000709B4 (de) | 2013-02-07 | 2021-12-30 | Apple Inc. | Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten |
US9302179B1 (en) | 2013-03-07 | 2016-04-05 | Posit Science Corporation | Neuroplasticity games for addiction |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9922642B2 (en) | 2013-03-15 | 2018-03-20 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
US10078487B2 (en) | 2013-03-15 | 2018-09-18 | Apple Inc. | Context-sensitive handling of interruptions |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3008641A1 (de) | 2013-06-09 | 2016-04-20 | Apple Inc. | Vorrichtung, verfahren und grafische benutzeroberfläche für gesprächspersistenz über zwei oder mehrere instanzen eines digitaler assistenten |
WO2014200731A1 (en) | 2013-06-13 | 2014-12-18 | Apple Inc. | System and method for emergency calls initiated by voice command |
KR101749009B1 (ko) | 2013-08-06 | 2017-06-19 | 애플 인크. | 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
CN106663437B (zh) | 2014-05-01 | 2021-02-02 | 日本电信电话株式会社 | 编码装置、解码装置、编码方法、解码方法、记录介质 |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
AU2015266863B2 (en) | 2014-05-30 | 2018-03-15 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
WO2017046887A1 (ja) | 2015-09-16 | 2017-03-23 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10083682B2 (en) * | 2015-10-06 | 2018-09-25 | Yamaha Corporation | Content data generating device, content data generating method, sound signal generating device and sound signal generating method |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
JP6962268B2 (ja) * | 2018-05-10 | 2021-11-05 | 日本電信電話株式会社 | ピッチ強調装置、その方法、およびプログラム |
CN111370002B (zh) * | 2020-02-14 | 2022-08-19 | 平安科技(深圳)有限公司 | 语音训练样本的获取方法、装置、计算机设备和存储介质 |
US11848005B2 (en) * | 2022-04-28 | 2023-12-19 | Meaning.Team, Inc | Voice attribute conversion using speech to speech |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
JPS51104202A (en) * | 1975-03-12 | 1976-09-14 | Hitachi Ltd | Onseigoseinotameno sohensakuseisochi |
JPS5660499A (en) * | 1979-10-22 | 1981-05-25 | Casio Computer Co Ltd | Audible sounddsource circuit for voice synthesizer |
JPS5710200A (en) * | 1980-06-20 | 1982-01-19 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JPS5717997A (en) * | 1980-07-07 | 1982-01-29 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JPS57144600A (en) * | 1981-03-03 | 1982-09-07 | Nippon Electric Co | Voice synthesizer |
JPS5843498A (ja) * | 1981-09-09 | 1983-03-14 | 沖電気工業株式会社 | 音声合成装置 |
JPS58196597A (ja) * | 1982-05-13 | 1983-11-16 | 日本電気株式会社 | 音声合成装置 |
JPS6050600A (ja) * | 1983-08-31 | 1985-03-20 | 株式会社東芝 | 規則合成方式 |
FR2553555B1 (fr) * | 1983-10-14 | 1986-04-11 | Texas Instruments France | Procede de codage de la parole et dispositif pour sa mise en oeuvre |
WO1986003873A1 (en) * | 1984-12-20 | 1986-07-03 | Gte Laboratories Incorporated | Method and apparatus for encoding speech |
JPH0632020B2 (ja) * | 1986-03-25 | 1994-04-27 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声合成方法および装置 |
FR2636163B1 (fr) * | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
EP0481107B1 (de) * | 1990-10-16 | 1995-09-06 | International Business Machines Corporation | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell |
-
1991
- 1991-11-06 KR KR1019910019617A patent/KR940002854B1/ko not_active IP Right Cessation
-
1992
- 1992-10-28 GB GB9222756A patent/GB2261350B/en not_active Expired - Fee Related
- 1992-10-29 CA CA002081693A patent/CA2081693A1/en not_active Abandoned
- 1992-11-02 SE SE9203230A patent/SE9203230L/ not_active Application Discontinuation
- 1992-11-04 DK DK134192A patent/DK134192A/da not_active Application Discontinuation
- 1992-11-04 BE BE9200956A patent/BE1005622A3/fr not_active IP Right Cessation
- 1992-11-05 IT ITMI922538A patent/IT1258235B/it active IP Right Grant
- 1992-11-05 ES ES09202232A patent/ES2037623B1/es not_active Expired - Lifetime
- 1992-11-05 GR GR920100488A patent/GR1002157B/el unknown
- 1992-11-05 PT PT101037A patent/PT101037A/pt not_active Application Discontinuation
- 1992-11-05 NL NL9201941A patent/NL9201941A/nl not_active Application Discontinuation
- 1992-11-06 DE DE4237563A patent/DE4237563C2/de not_active Expired - Fee Related
- 1992-11-06 JP JP4297000A patent/JP2787179B2/ja not_active Expired - Fee Related
- 1992-11-06 FR FR9213415A patent/FR2683367B1/fr not_active Expired - Fee Related
- 1992-11-06 AT AT0219292A patent/AT400646B/de not_active IP Right Cessation
- 1992-11-06 LU LU88189A patent/LU88189A1/fr unknown
-
1994
- 1994-07-14 US US08/275,940 patent/US5617507A/en not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
RABINER, L.R., SCHAFER, R.W.: Digital Processing of Speech Signals, Prentice Hall, Englewood Cliffs, New Jersey 1978, S. 355-390 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19538852A1 (de) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
US5781881A (en) * | 1995-10-19 | 1998-07-14 | Deutsche Telekom Ag | Variable-subframe-length speech-coding classes derived from wavelet-transform parameters |
US7167824B2 (en) | 2002-02-14 | 2007-01-23 | Sail Labs Technology Ag | Method for generating natural language in computer-based dialog systems |
Also Published As
Publication number | Publication date |
---|---|
DE4237563C2 (de) | 1996-03-28 |
IT1258235B (it) | 1996-02-22 |
AT400646B (de) | 1996-02-26 |
GB2261350A (en) | 1993-05-12 |
PT101037A (pt) | 1994-07-29 |
ATA219292A (de) | 1995-06-15 |
CA2081693A1 (en) | 1993-05-07 |
LU88189A1 (fr) | 1993-04-15 |
FR2683367A1 (fr) | 1993-05-07 |
US5617507A (en) | 1997-04-01 |
DK134192D0 (da) | 1992-11-04 |
ES2037623R (de) | 1996-08-16 |
ES2037623B1 (es) | 1997-03-01 |
SE9203230D0 (sv) | 1992-11-02 |
GR920100488A (el) | 1993-07-30 |
BE1005622A3 (fr) | 1993-11-23 |
JPH06110498A (ja) | 1994-04-22 |
ITMI922538A0 (it) | 1992-11-05 |
DK134192A (da) | 1993-08-18 |
GB9222756D0 (en) | 1992-12-09 |
GR1002157B (en) | 1996-02-22 |
JP2787179B2 (ja) | 1998-08-13 |
SE9203230L (sv) | 1993-05-07 |
FR2683367B1 (fr) | 1997-04-25 |
ITMI922538A1 (it) | 1994-05-05 |
GB2261350B (en) | 1995-08-09 |
KR940002854B1 (ko) | 1994-04-04 |
ES2037623A2 (es) | 1993-06-16 |
NL9201941A (nl) | 1993-06-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
DE602004007786T2 (de) | Verfahren und vorrichtung zur quantisierung des verstärkungsfaktors in einem breitbandsprachkodierer mit variabler bitrate | |
DE68912692T2 (de) | Zur Sprachqualitätsmodifizierung geeignetes Übertragungssystem durch Klassifizierung der Sprachsignale. | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE69816810T2 (de) | Systeme und verfahren zur audio-kodierung | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
DE69932786T2 (de) | Tonhöhenerkennung | |
DE69022237T2 (de) | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell. | |
DE69926462T2 (de) | Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung | |
DE69032168T2 (de) | Dynamisches codebuch zur wirksamen sprachcodierung unter anwendung von algebraischen coden | |
DE60214358T2 (de) | Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp | |
DE60213653T2 (de) | Verfahren und system zur echtzeit-sprachsynthese | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE69928288T2 (de) | Kodierung periodischer sprache | |
DE69926821T2 (de) | Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen | |
DE60126575T2 (de) | Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens | |
DE69023402T2 (de) | Verfahren zur Sprachkodierung und -dekodierung. | |
DE69925932T2 (de) | Sprachsynthese durch verkettung von sprachwellenformen | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
DE60309651T2 (de) | Verfahren zur Sprachkodierung mittels verallgemeinerter Analyse durch Synthese und Sprachkodierer zur Durchführung dieses Verfahrens | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |