DE4237563C2 - Verfahren zum Synthetisieren von Sprache - Google Patents
Verfahren zum Synthetisieren von SpracheInfo
- Publication number
- DE4237563C2 DE4237563C2 DE4237563A DE4237563A DE4237563C2 DE 4237563 C2 DE4237563 C2 DE 4237563C2 DE 4237563 A DE4237563 A DE 4237563A DE 4237563 A DE4237563 A DE 4237563A DE 4237563 C2 DE4237563 C2 DE 4237563C2
- Authority
- DE
- Germany
- Prior art keywords
- pitch
- signal
- period
- speech
- pitch pulse
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 231
- 230000002194 synthesizing effect Effects 0.000 title claims description 16
- 239000011295 pitch Substances 0.000 claims description 260
- 230000003595 spectral effect Effects 0.000 claims description 169
- 230000010355 oscillation Effects 0.000 claims description 71
- 230000015572 biosynthetic process Effects 0.000 claims description 69
- 238000003786 synthesis reaction Methods 0.000 claims description 66
- 230000006870 function Effects 0.000 claims description 53
- 230000005284 excitation Effects 0.000 claims description 41
- 230000000737 periodic effect Effects 0.000 claims description 38
- 230000004044 response Effects 0.000 claims description 37
- 238000001228 spectrum Methods 0.000 claims description 21
- 238000007493 shaping process Methods 0.000 claims description 8
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 description 43
- 238000003860 storage Methods 0.000 description 42
- 230000008859 change Effects 0.000 description 20
- 230000008569 process Effects 0.000 description 14
- 239000002243 precursor Substances 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 9
- 238000013518 transcription Methods 0.000 description 9
- 230000035897 transcription Effects 0.000 description 9
- 238000000354 decomposition reaction Methods 0.000 description 8
- 238000001914 filtration Methods 0.000 description 8
- 238000012882 sequential analysis Methods 0.000 description 8
- 238000001308 synthesis method Methods 0.000 description 8
- 230000003044 adaptive effect Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 239000000872 buffer Substances 0.000 description 6
- 230000006835 compression Effects 0.000 description 6
- 238000007906 compression Methods 0.000 description 6
- 230000001755 vocal effect Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 4
- 238000005070 sampling Methods 0.000 description 4
- 241000282414 Homo sapiens Species 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 206010071299 Slow speech Diseases 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000011318 synthetic pitch Substances 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 244000178924 Brassica napobrassica Species 0.000 description 1
- 235000011297 Brassica napobrassica Nutrition 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 210000000867 larynx Anatomy 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000000214 mouth Anatomy 0.000 description 1
- 210000003928 nasal cavity Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000002035 prolonged effect Effects 0.000 description 1
- 230000000191 radiation effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000001260 vocal cord Anatomy 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/09—Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Stereophonic System (AREA)
- Electrophonic Musical Instruments (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
Description
Die Erfindung betrifft ein
Verfahren zum Synthetisieren von Sprache.
Das Prinzip der vorliegenden Erfindung kann direkt nicht
nur auf die Sprachsynthese, sondern auch auf die Synthese
anderer Klänge, wie z. B. den Klang musikalischer
Instrumente oder Gesang, angewandt werden, wobei diese
Klänge jeweils Eigenschaften aufweisen, die denjenigen der
Sprache ähnlich sind. Das erfindungsgemäße Verfahren kann
auch für eine sehr langsame Sprachcodierung oder für eine
Sprachgeschwindigkeitsumwandlung verwendet werden. Die
Erfindung wird nachstehend unter Konzentration auf die
Sprachsynthese beschrieben.
Es sind Sprachsyntheseverfahren bekannt, um ein
Text-in-Sprache-Synthesesystem zu realisieren, welches
zahllose Vokabeln synthetisieren kann, indem es einen
Text, d. h. Zeichenketten, in Sprache umwandelt. Ein
Verfahren, welches leicht zu realisieren ist und welches
am meisten verwendet wird, ist das Sprachsegmentsynthese
verfahren, welches auch als Synthese-durch-Verkettung-Ver
fahren bezeichnet wird, bei dem die menschliche Sprache
abgetastet und in phonetische Einheiten analysiert wird,
wie z. B. Halbsilben oder Diphone, um kurze Sprachsegmente
zu erhalten, die dann codiert und in einem Speicher
gespeichert werden. Wenn Text eingegeben wird, wird er in
phonetische Transkriptionen umgewandelt. Sprachsegmente,
welche den phonetischen Transkriptionen entsprechen,
werden dann sequentiell aus dem Speicher abgerufen und
decodiert, um die Sprache zu synthetisieren, die dem
eingegebenen Text entspricht.
Bei diesem Typ eines mit Segmenten arbeitenden Sprach
syntheseverfahrens besteht eines der wichtigsten Elemente
zur Beherrschung der Qualität der synthetisierten Sprache
in dem Codierverfahren für die Sprachsegmente. Bei
vorbekannten, mit Segmenten arbeitenden Sprachsynthese
verfahren für ein Sprachsynthesesystem wird als Sprach
codierverfahren für die Speicherung von Sprachsegmenten
hauptsächlich ein Vocoderverfahren von niedriger
Sprachqualität verwendet. Dies ist jedoch einer der
wichtigsten Gründe, welcher die Qualität synthetisierter
Sprache verschlechtert. Es folgt eine kurze Beschreibung
der vorbekannten Sprachsegmentcodierverfahren.
Die Sprachcodierverfahren können größtenteils in ein
Schwingungscodierverfahren von guter Sprachqualität und
ein Vocoderverfahren von niedriger Sprachqualität
unterteilt werden. Da das Schwingungscodierverfahren bzw.
das Wellenform- bzw. Signalform-Codierverfahren ein
Verfahren ist, mit dem angestrebt wird, die Sprach
schwingung, so wie sie ist, zu übertragen, ist es
schwierig, die Tonhöhenfrequenz und die Dauer zu ändern,
so daß es unmöglich ist, die Intonation und die Sprech
geschwindigkeit einzustellen, wenn die Sprachsynthese
durchgeführt wird. Außerdem ist es unmöglich, die Sprach
segmente glatt miteinander zu verbinden, so daß das
Schwingungs- bzw. Signalform-Codierverfahren grundsätzlich
nicht für die Codierung von Sprachsegmenten geeignet ist.
Wenn andererseits das Vocoderverfahren verwendet wird,
welches auch als Analyse/Synthese-Verfahren bezeichnet
wird, dann können das Tonhöhenmuster und die Dauer des
Sprachsegments nach Belieben geändert werden. Da die
Sprachsegmente außerdem durch Interpolation der spektralen
Enveloppenabschätzungsparameter glatt verbunden werden
können, ist das Vocoderverfahren für Codiereinrichtungen
für eine Text-in-Sprache-Synthese, für Vocoderverfahren,
wie z. B. das lineare, vorhersagende Codieren (LPC - linear
predictive coding) oder für das Formant-Vocoderverfahren
geeignet und wird in den meisten derzeit eingesetzten
Sprachsynthesesystemen verwendet. Da jedoch die Qualität
der decodierten Sprache gering ist, wenn die Sprache unter
Verwendung des Vocoderverfahrens codiert wird, kann die
synthetisierte Sprache, die durch Decodieren der gespei
cherten Sprachsegmente und durch deren Verkettung erhalten
wird, keine bessere Sprachqualität haben als diejenige,
die durch das Vocoderverfahren angeboten wird.
Bisher unternommene Versuche, die durch das Vocoderver
fahren angebotene Sprachqualität zu verbessern, ersetzen
den verwendeten Impulszug durch ein Anregungssignal,
welches eine weniger künstliche Schwingungsform hat. Ein
solcher Versuch bestand darin, eine Schwingung bzw.
Signalform zu verwenden, welche niedrigere Spitzenwerte
hat als ein Impuls, beispielsweise eine Dreieckschwingung
oder eine halbkreisförmige Schwingung oder eine einem
glossalen Impuls ähnliche Schwingung. Ein anderer Versuch
bestand darin, einen abgetasteten Tonhöhenimpuls mit einer
Dauer von ein oder mehreren Restsignal-Tonhöhenperioden
auszuwählen, welcher durch inverse Filterung erhalten
wurde, und diesen anstelle des Impulses zu verwenden, und
zwar einen einzigen Abtastimpuls für die gesamte Zeit
periode oder für eine Periode beträchtlicher Dauer. Diese
Versuche, den Impuls durch einen Anregungsimpuls anderer
Signalform zu ersetzen, haben jedoch die Sprachqualität nicht
oder nur geringfügig verbessert, und es wurde niemals synthe
tisierte Sprache erhalten, welche eine die natürliche Sprache
annähernde Qualität besaß.
Weiterhin ist ein Verfahren zum Synthetisieren von Sprache
(L.R. Rabiner/R.W. Schäfer: Digital Processing of Speech
Signals, Prentice Hall, Englewood Cliffs, New Jersey, 1978,
S. 355-390) bekannt, bei dem das Cepstrum eines Sprach
signals mittels einer diskreten Fouriertransformation, einer
anschließenden Logarithmierung und einer inversen, diskreten
Fouriertransformation bestimmt wird. Mit Hilfe des kurzzeiti
gen Anteils des Cepstrums wird eine Impulsantwort des Sprach
signals gebildet. Weiter werden aus dem Cepstrum Anregungs
parameter abgeschätzt. Durch eine Faltung der Impulsantwort
mit einer mittels der Anregungsparameter gebildeten Anre
gungsfunktion wird ein Sprachsignal erhalten. Auch bei diesem
bekannten Verfahren ist die Qualität der synthetisierten
Sprache gering.
Der Erfindung liegt die Aufgabe zugrunde, synthetische Spra
che mit hoher Qualität zu erzeugen, welche natürlich und ver
ständlich klingt, und zwar in demselben Maße, wie die mensch
liche Sprache, unter Verwendung eines neuartigen Sprachseg
mentcodierverfahrens, welches eine gute Sprachqualität und
Tonhöhensteuerung ermöglicht.
Die Aufgabe wird erfindungsgemäß durch ein Verfahren mit den
Merkmalen nach einem der Ansprüche 1, 2 oder 3 gelöst. Vor
teilhafte Weiterbildungen ergeben sich aus den Unteransprü
chen.
Das Verfahren gemäß der Erfindung kombiniert die Vorteile des
Schwingungscodierverfahrens, welches eine gute Sprachqualität
liefert, jedoch ohne die Möglichkeit einer Tonhöhensteuerung,
und des Vocoderverfahrens, welches die Möglichkeit einer Ton
höhensteuerung bietet, jedoch eine niedrige Sprachqualität
hat.
Die vorliegende Erfindung verwendet ein Verfahren zur pe
riodischen Schwingungszerlegung, bei dem es sich um ein
Codierverfahren handelt, mit dessen Hilfe ein Signal in einem
stimmhaften Klangsektor der Originalsprache in Einzelschwin
gungen bzw. Einzelwellen oder -signale zerlegt wird, die
äquivalent zu eine Periode umfassenden Sprachschwingungen
sind, die durch glossale Impulse erzeugt werden, wobei das
zerlegte Signal codiert und gespeichert wird. Weiterhin wird
erfindungsgemäß ein auf der Zeitverformung bzw. -verschiebung
basierendes Einzelschwingungs-Repositionierungsverfahren an
gewandt, bei dem es sich um ein Schwingungssyntheseverfahren
handelt, welches in der Lage ist, die Dauer und die Tonhöhen
frequenz des Sprachsegments beliebig einzustellen und dabei
die Qualität der Originalsprache aufrechtzuerhalten, und zwar
durch Auswählen derjenigen Schwingungen unter den gespei
cherten Einzelschwingungen, welche den Positionen am
nächsten sind, an denen die Einzelschwingungen posi
tioniert werden sollen, und durch anschließendes
Decodieren der ausgewählten Einzelschwingungen und durch
Überlagern derselben. Im Rahmen der vorliegenden
Beschreibung werden musikalische Klänge wie stimmhafte
Klanganteile behandelt.
Die Erfindung befaßt sich mit
einem Verfahren, welches geeignet ist, Sprache zu
synthetisieren, welche die Qualität natürlicher Sprache
annähert, und zwar durch Einstellung ihrer Dauer und
Tonhöhenfrequenz, durch Schwingungscodierung von
Einzelschwingungen jeder Periode, durch Speichern der
codierten Daten in einem Speicher und - zum Zeitpunkt der
Synthese - durch Decodieren dieser Daten und durch
Positionieren der entsprechenden Signale an geeigneten
Zeitpunkten, derart, daß sie das gewünschte Tonhöhenmuster
haben, wobei anschließend eine Überlagerung der Signal
elemente erfolgt, um natürliche Sprache, Gesang, Musik und
dergleichen zu erzeugen.
Die vorliegende Erfindung umfaßt ein Sprachsegment
codierverfahren zur Verwendung in einem Sprachsynthese
system, wobei dieses Verfahren die Bildung von Einzel
schwingungen umfaßt, indem Parameter erhalten werden,
welche eine spektrale Enveloppe in jedem Analysezeit
intervall darstellen. Dies geschieht durch Analysieren
eines periodischen oder quasi-periodischen digitalen
Signals, wie z. B. stimmhafter Sprache, unter Anwendung der
Spektrum-Abschätzungstechnik. Ein Originalsignal wird
zunächst entfaltet in eine Impulsantwort, die durch die
spektralen Enveloppenparameter dargestellt wird, und in
ein periodisches oder quasi-periodisches Tonhöhen-Impuls
folgesignal, welches eine nahezu flache, spektrale
Enveloppe aufweist. Ein Anregungssignal, welches erhalten
wird, indem Null-Abtastwerte angehängt werden, nachdem ein
Tonhöhenimpulssignal einer Periode erhalten wurde, indem
das Tonhöhen-Impulsfolgesignal Periode für Periode segmen
tiert wurde, derart, daß in jeder Periode ein Tonhöhen
impuls enthalten ist, sowie eine Impulsantwort, die einem
Satz von spektralen Enveloppenparametern in demselben
Zeitintervall entspricht, in dem das Anregungssignal
liegt, werden gefaltet, um eine Einzelschwingung für diese
Periode zu bilden.
Die Einzelschwingungen können, anstatt vorab durch Schwin
gungscodierung gebildet und in dem Speicher gespeichert zu
werden, gebildet werden, indem man eine Information, die
durch Schwingungscodierung eines Tonhöhenimpulssignals
jedes Periodenintervalls, welches durch Segmentierung
gehalten wird, an die Information anpaßt, welche durch
Codieren eines Satzes von spektralen Enveloppenab
schätzungsparametern für dasselbe Zeitintervall wie die
obige Information erhalten wird oder mit einer Impulsant
wort, die den Parametern entspricht, woraufhin die Einzel
schwingungsinformation in einem Speicher gespeichert wird.
Es gibt zwei Verfahren zum Erzeugen synthetischer Sprache
unter Verwendung der in dem Speicher gespeicherten Einzel
schwingungsinformation. Das erste Verfahren besteht darin,
jede Einzelschwingung dadurch zu bilden, daß ein Anre
gungssignal, welches erhalten wird, indem man Null-Abtast
werte nach einem Tonhöhenimpulssignal einer Periode
anhängt, welches durch Decodieren der Information erhalten
wurde, mit einer Impulsantwort faltet, die den decodier
ten, spektralen Enveloppenparametern für dasselbe Zeit
intervall wie das Anregungssignal entspricht, und dann die
Einzelschwingungen den geeigneten Zeitpunkten derart
zuordnet, daß sie das erwünschte Tonhöhenmuster und Dauer
muster haben, woraufhin die Einzelschwingungen an den
Zeitpunkten angeordnet und anschließend überlagert werden.
Das zweite Verfahren besteht darin, ein synthetisches
Anregungssignal zu bilden, indem den Tonhöhenimpuls
signalen, welche durch Decodieren der Einzelschwingungs
information erhalten wurden, geeignete Zeitpunkte derart
zugeordnet werden, daß sie das gewünschte Tonhöhenmuster
und Dauermuster haben, und sie an den Zeitpunkten anord
net, und einen Satz von synthetischen spektralen, spek
tralen Enveloppenparametern zu bilden, entweder durch
temporäres Komprimieren oder Expandieren des Satzes von
Zeitfunktionen der Parameter auf einer Untersegment-für-
Untersegment-Basis in Abhängigkeit davon, ob die Dauer
eines Untersegments in einem zu synthetisierenden
Sprachsegment kürzer oder länger ist als diejenige eines
entsprechenden Untersegments in dem Original-Sprach
segment, oder durch Anordnen des Satzes von Zeitfunktionen
der Parameter einer Periode synchron mit dem darauf
abgestimmten Tonhöhenimpulssignal einer Periode, die so
angeordnet ist, daß sie das synthetische Anregungssignal
bildet, und das synthetische Anregungssignal und eine
Impulsantwort zu falten, welche dem synthetischen,
spektralen Enveloppenparametersatz entspricht, und zwar
durch Verwendung eines zeitvariablen Filters oder durch
Verwendung einer schnellen Faltungstechnik auf der Basis
der Verwendung einer schnellen Fourier-Transformation. Bei
dem letztgenannten Verfahren ergibt sich ein Leerinter
vall, wenn eine Tonhöhenperiode länger ist als die
Original-Tonhöhenperiode, und es ergibt sich ein Über
lappungsintervall, wenn die gewünschte Tonhöhenperiode
kürzer ist als die Original-Tonhöhenperiode.
In dem Überlappungsintervall wird das synthetische
Anregungssignal erhalten, indem man die einander
überlappenden Tonhöhenimpulssignale zueinander addiert
oder indem man eines von ihnen auswählt, und der spektrale
Enveloppenparameter wird erhalten, indem man entweder
einen der sich überlappenden spektralen Enveloppen
parameter auswählt oder indem man einen Mittelwert der
beiden sich überlappenden Parameter verwendet.
In dem Leerintervall wird das synthetische Anregungssignal
erhalten, indem man dieses Intervall mit Null-Abtastwerten
füllt, und der synthetische, spektrale Enveloppenparameter
wird erhalten, indem man die Werte der spektralen Enve
loppenparameter an den Anfangs- und Endpunkten der
vorausgehenden und der folgenden Periode vor und hinter
der Mitte des Leerintervalls wiederholt, oder indem man
einen der beiden Werte wiederholt oder einen Mittelwert
der beiden Werte, oder indem man das Leerintervall mit
Werten füllt und die beiden Werte glatt miteinander
verbindet.
Die vorliegende Erfindung umfaßt ferner ein Tonhöhen
steuerverfahren für ein Sprachsynthesesystem, welches
geeignet ist, die Dauer und Tonhöhe eines Sprachsegments
durch ein Einzelschwingungs-Repositionierungsverfahren auf
der Basis der Zeitverformung zu steuern, welches es
ermöglicht, Sprache nahezu mit derselben Qualität wie
natürliche Sprache zu synthetisieren, und zwar durch
Codieren wichtiger Grenzzeitpunkte, wie z. B. den
Startpunkt, den Endpunkt und einzelner Punkte im Bereich
eines stetigen Zustands des Sprachsegments und durch
Codieren von Tonhöhenimpulspositionen jeder Einzel
schwingung oder jedes Tonhöhenimpulssignals und durch
Speichern der codierten Signale in einem Speicher,
gleichzeitig mit der Speicherung jedes Sprachsegments,
wobei zum Zeitpunkt der Synthese eine Zeitverformungs
funktion erhalten wird durch Vergleichen der gewünschten
Grenzzeitpunkte und der diesen entsprechenden, gespeicher
ten Original-Grenzzeitpunkte, durch Herausfinden der
Original-Zeitpunkte, die jeder gewünschten Tonhöhenimpuls
position entsprechen, unter Verwendung der Zeitverfor
mungsfunktion, durch Auswählen der Einzelschwingungen,
welche Tonhöhenimpulspositionen haben, die den
Original-Zeitpunkten am nächsten benachbart sind, und durch Posi
tionieren dieser Einzelschwingungen an den gewünschten
Tonhöhenimpulspositionen und schließlich durch Überlagern
der Einzelschwingungen.
Das Tonhöhensteuerverfahren kann ferner umfassen: das
Erzeugen synthetischer Sprache durch Auswählen von
Tonhöhenimpulssignalen einer Periode und von spektralen
Enveloppenparametern, die den Tonhöhenimpulssignalen
entsprechen, und zwar anstelle der Einzelschwingungen, und
durch Positionieren derselben und durch Falten der posi
tionierten Tonhöhenimpulssignale und der Impulsantwort,
welche den spektralen Enveloppenparametern entspricht, um
Einzelschwingungen zu erzeugen und die erzeugten Einzel
schwingungen zu überlagern, oder durch Falten eines
synthetischen Anregungssignals, welches durch Überlagern
der positionierten Tonhöhenimpulssignale und der zeit
variablen Impulsantwort erhalten wurde, welche synthe
tischen, spektralen Enveloppenparametern entspricht, die
durch Verketten der positionierten, spektralen Enveloppen
parameter erhalten wurden.
Bei der Anwendung der vorliegenden Erfindung werden
Sprache und/oder Musik zuerst auf ein Magnetband aufge
zeichnet. Das dabei erhaltene Klangsignal wird dann aus
einem analogen Signal in ein digitales Signal umgewandelt,
und zwar durch Tiefpaßfilterung der analogen Signale und
Zuführung der gefilterten Signale zu einem Analog/Digi
tal-Wandler. Die erhaltenen, digitalisierten Sprachsignale
werden dann in eine Anzahl von Sprachsegmenten segmentiert
bzw. unterteilt, welche Klänge haben, die Synthese-Ein
heiten entsprechen, wie z. B. Phonemen, Diphonen, Halb
silben und dergleichen, und zwar unter Verwendung bekann
ter Spracheditierwerkzeuge. Jedes auf diese Weise
erhaltene Sprachsegment wird dann unter Verwendung
bekannter Einrichtungen zum Erkennen stimmhafter und
stimmloser Sprache und entsprechender Spracheditier
werkzeuge den stimmhaften oder den stimmlosen Sprachseg
menten zugeordnet. Die stimmlosen Sprachsegmente werden
nach dem bekannten Vocoderverfahren codiert, welche weißes
Rauschen als stimmlose Sprachquelle benutzen. Die Vocoder
verfahren umfassen LPC-Vocoderverfahren, homomorphe Voco
derverfahren, Formant-Vocoderverfahren und dergleichen.
Zum vollständigeren Verständnis
der Erfindung wird auf die beigefügten Zeichnungen in
Verbindung mit der nachfolgenden Detailbeschreibung
verwiesen. Es zeigen:
Fig. 1 ein dem Stand der Technik entsprechendes Text-in-Sprache-Synthesesystem des
Sprachsegmentsyntheseverfahrens;
Fig. 2 Sprachsegmentverkettungsuntersystem;
Fig. 3A-3T Schwingungen (Wellenformen, Signalformen)
zur Erläuterung der Prinzips des Verfah
rens der periodischen Schwingungszerlegung
und des Verfahrens der Einzelschwingungs-Re
positionierung gemäß der Erfindung;
Fig. 4 ein Blockdiagramm zur Erläuterung des
Verfahrens der periodischen Schwingungs
zerlegung;
Fig. 5A-5E Blockdiagramm zur Erläuterung des
Verfahrens der blinden Entfaltung;
Fig. 6A u. 6B Codeformate für stimmhafte Sprachsegment
informationen, die in dem Sprachsegment
speicherblock gespeichert sind;
Fig. 7 den Syntheseblock für stimmhafte Sprache
gemäß der Erfindung; und
Fig. 8A u. 8B grafische Darstellungen zur Erläuterung
der Dauer- und Tonhöhensteuerung gemäß der
Erfindung.
Entsprechende Teile bzw. Elemente sind in den einzelnen
Zeichnungsfiguren durchgehend mit denselben Bezugszeichen
bezeichnet.
Die Struktur eines Text-in-Sprache-Synthesesystems eines
bekannten Sprachsegmentsyntheseverfahren besteht aus
drei Untersystemen:
- A. Einem phonetischen Vorverarbeitungsuntersystem 1;
- B. einem Vorläufererzeugungsuntersystem 2; und
- C. einem Sprachsegmentverkettungsuntersystem 3 wie dies in Fig. 1 gezeigt ist.
Wenn ein Text über eine Tastatur, einen Computer oder
irgendein anderes System in das Text-in-Sprache-Synthese
system eingegeben wird, dann analysiert das phonetische
Vorverarbeitungsuntersystem 1 die Syntax des Textes und
verwandelt den Text dadurch, daß es darauf phonetische
Recodierregeln anwendet, in eine Kette von phonetischen
Transkriptionssymbole. Das Vorläufererzeugungsuntersystem
2 erzeugt Intonationsmusterdaten und Betonungsmusterdaten
unter Verwendung der syntaktischen Analysedaten derart,
daß bezüglich der Kette von phonetischen Transkriptions
symbolen eine angemessene Intonation und Betonung ausgeübt
werden kann, und gibt dann die Daten an das Sprachsegment
verkettungsuntersystem 3 aus. Das Vorläufererzeugungs
untersystem 2 liefert auch die Daten hinsichtlich der
Dauer jedes Phonems an das Sprachsegmentverkettungsunter
system 3.
Die drei oben angegebenen Vorläuferdaten, d. h. die Intona
tionsmusterdaten, die Betonungsmusterdaten und die Daten
bezüglich der Dauer jedes Phonems werden im allgemeinen
zusammen mit der Kette von phonetischen Transkriptions
symbolen, die von dem phonetischen Vorverarbeitungs
untersystem erzeugt werden, an das Sprachsegmentver
kettungsuntersystem 3 gesandt, obwohl die genannten Daten
unabhängig von der Kette der phonetischen Transkriptions
symbole an das Sprachsegmentverkettungsuntersystem 3
übertragen werden können.
Das Sprachsegmentverkettungsuntersystem 3 erzeugt konti
nuierliche Sprache, indem es der Reihe nach geeignete
Sprachsegmente heraussucht, die gemäß der Kette der
phonetischen Transkriptionssymbole (nicht gezeigt) in
codierter Form in seinem Speicher gespeichert sind und
indem es diese Informationen decodiert. Zu diesem Zeit
punkt kann das Sprachsegmentverkettungsuntersystem 3
synthetische Sprache erzeugen, welche die Intonation, die
Betonung und die Sprechgeschwindigkeit hat, die gemäß dem
Vorläufererzeugungsuntersystem gewünscht wird, und zwar
durch Steuern der Energie(Intensität), der Dauer und der
Tonhöhenperiode jedes Sprachsegments gemäß der Vorläufer
information.
Die vorliegende Erfindung verbessert die Sprachqualität im
Vergleich zu synthetischer Sprache gemäß dem Stande der
Technik erheblich, indem sie das Codierverfahren zum
Speichern der Sprachsegmente in dem Sprachsegmentver
kettungsuntersystem 3 verbessert. Eine Beschreibung
bezüglich der Arbeitsweise des Sprachsegmentverkettungs
untersystems 3 erfolgt nachstehend unter Bezugnahme auf
Fig. 2.
Wenn die Kette von phonetischen Transkriptionssymbolen,
die von dem phonetischen Vorverarbeitungsuntersystem 1
erzeugt wird, in den Sprachsegmentselektionsblock 4
eingegeben wird, dann wählt dieser nacheinander die
Synthese-Einheiten, wie z. B. Diphone und Halbsilben, indem
er die Kette von eintreffenden, phonetischen Transkrip
tionssymbolen kontinuierlich überwacht und die Adressen
der Sprachsegmente herausfindet, die den ausgewählten
Synthese-Einheiten entsprechen, und zwar aus seinem
Speicher, wie dies in Tabelle 1 angedeutet ist. Tabelle 1
zeigt ein Beispiel der Sprachsegment-Tabelle, die in dem
Sprachsegmentselektionsblock 4 gespeichert ist, welcher
die Sprachsegmente auf der Basis von Diphonen auswählt.
Dies führt zur Bildung einer Adresse des ausgewählten
Sprachsegments, welche an einen Sprachsegmentspeicherblock
5 ausgegeben wird.
Die Sprachsegmente, welche den Adressen der Sprachsegmente
entsprechen, werden nach dem Verfahren gemäß der Erfin
dung, welches weiter unten noch zu beschreiben ist,
codiert und an den (einzelnen) Adressen des Speichers des
Sprachsegmentspeicherblockes 5 gespeichert.
phonetisches Transkriptionssymbol des Sprachsegments | |
Speicheradresse (hexadezimal) | |
/ai/ | |
0000 | |
/au/ | 0021 |
/ab/ | 00A3 |
/ad/ | 00FF |
. | . |
. | . |
. | . |
Wenn die Adresse des ausgewählten Sprachsegmentes aus dem
Sprachsegmentsselektionsblock 4 in den Sprachsegment
speicherblock 5 eingegeben wird, dann holt der Sprachseg
mentspeicherblock 5 die entsprechenden Sprachsegmentdaten
aus dem Speicher in dem Sprachsegmentspeicherblock 5 und
sendet sie an einen Syntheseblock 6 für stimmhafte Sprach
segmente, wenn es sich um einen stimmhaften Klang bzw. um
einen stimmhaften Friktionslaut handelt, oder an einen
Syntheseblock 7 für stimmlose Sprachsegmente, wenn es sich
um einen stimmlosen Laut handelt. Dies bedeutet, daß der
Syntheseblock 6 synthetisch ein digitales Sprachsignal
erzeugt, welches stimmhaften Sprachsegmenten entspricht,
während der Syntheseblock 7 synthetisch ein digitales
Sprachsignal erzeugt, welches einem stimmlosen Sprach
segment entspricht. Jedes synthetisch erzeugte, digitale
Sprachsignal des Syntheseblockes 6 und des Syntheseblockes
7 wird dann in ein analoges Signal umgewandelt. Somit
werden die auf die beschriebene Weise erhaltenen, synthe
tisch erzeugten, digitalen Sprachsignale, die von dem
Syntheseblock oder von dem Syntheseblock 7 ausgegeben
werden, anschließend zu einem Digital/Analog- (D/A-)Um
setzerblock 8 übertragen, der besteht aus einem
Digital/Analog-Umsetzer, einem analogen Tiefpaßfilter und
einem Analog-Verstärker, und von diesem in ein analoges
Signal umgewandelt, um den synthetischen Sprachklang bzw.
die synthetische Sprache zu liefern.
Wenn der Syntheseblock 6 für stimmhafte Sprachsegmente und
der Syntheseblock 7 für stimmlose Sprachsegmente die
Sprachsegmente miteinander verketten, liefern sie ein
Vorläufersignal für synthetische Sprache, wie es von dem
Vorläufererzeugungsuntersystem 2 angestrebt wird, indem
sie die Dauer, die Intensität und die Tonhöhenfrequenz des
Sprachsegments auf der Basis der Vorläuferinformation
zutreffend einstellen, d. h. auf der Basis der Intonations
musterdaten, der Betonungsdaten und der Dauer- bzw. Zeit
daten.
Die Vorbereitung eines Sprachsegments für die Speicherung
in dem Sprachsegmentspeicherblock 5 geschieht wie folgt.
Zunächst wird eine Synthese-Einheit ausgewählt. Zu diesen
Synthese-Einheiten gehören Phoneme, Allophone, Diphone,
Silben, Halbsilben, CVC-, VCV-, CV- und VC-Einheiten,
wobei "C" für ein Konsonantenphonem und "V" für ein
Vokalphonem stehen, bzw. Kombinationen dieser Synthese-Ein
heiten. Die Synthese-Einheiten, welche bei dem derzei
tigen Sprachsyntheseverfahren am häufigsten verwendet
werden, sind die Diphone und die Halbsilben.
Das Sprachsegment, welches den einzelnen Elementen einer
Aggregation von Synthese-Einheiten entspricht, wird als
Segment aus Sprachproben herausgelöst, welche tatsächlich
von einem Menschen gesprochen werden. Folglich ist die
Anzahl der Elemente der Aggregation von Synthese-Einheiten
gleich der Zahl der Sprachsegmente. Wenn beispielsweise
Halbsilben als Synthese-Einheiten für die englische
Sprache verwendet werden, dann beträgt die Anzahl der
Halbsilben etwa 1000 und folglich beträgt die Anzahl der
Sprachsegmente ebenfalls etwa 1000. Im allgemeinen
bestehen solche Sprachsegmente aus einem stimmlosen
Schallintervall und einem stimmhaften Schallintervall.
Das stimmlose Sprachsegment und
das stimmhafte Sprachsegment wird durch Segmentieren eines
Sprachsegmentes gemäß dem Stand der Technik in ein
stimmloses Schallintervall und ein stimmhaftes Schall
intervall erhalten und als Basis-Syntheseeinheiten verwen
det. Der stimmlose Sprachsyntheseteil wird gemäß dem Stand
der Technik in der weiter unten beschriebenen Weise erhal
ten. Der stimmhafte Sprachsyntheseteil wird gemäß der
Erfindung erhalten.
Im einzelnen werden die stimmlosen Sprachsegmente an dem
in Fig. 2 gezeigten Syntheseblock 7 für stimmlose Sprach
segmente decodiert. Im Falle der Decodierung von stimm
losem Schall wurde gemäß dem Stande der Technik festge
stellt, daß die Verwendung eines künstlichen, ein weißes
Rauschen darstellenden Rauschsignals als Erregungssignal
für ein Synthesefilter die Qualität der decodierten
Sprache nicht erschwert oder verschlechtert. Aus diesem
Grunde können für die Codierung und Decodierung der
stimmlosen Sprachsegmente die bekannten Vocoderverfahren
unverändert angewandt werden, bei denen ein weißes
Rauschen als Erregersignal verwendet wird. Bei den
vorbekannten Syntheseverfahren für stimmlosen Schall kann
ein weißes Rauschen, beispielsweise nach einem Algo
rithmus, erzeugt werden, bei dem mit Zufallszahlen
gearbeitet wird, und sofort verwendet werden; es besteht
aber auch die Möglichkeit, ein vorab erzeugtes Rausch
signal in einem Speicher zu speichern und beim Syntheti
sieren aus dem Speicher abzurufen. Das weiße Rauschen kann
ferner ein Restsignal sein, welches erhalten wird, wenn
man ein stimmloses Schallintervall tatsächlich
gesprochener Sprache unter Verwendung eines inversen
Spektralenveloppenfilters filtert. Dieses Restsignal kann
dann in einem Speicher gespeichert und aus diesem für die
Durchführung der Synthese abgerufen werden. Wenn es nicht
erforderlich ist, die Dauer des stimmlosen Sprachsegmentes
zu ändern, kann ein extrem einfaches Codierverfahren
angewandt werden, bei dem das stimmlose Schallsegment nach
einem Wellenformcodierverfahren codiert wird, beispiels
weise nach dem Verfahren der Pulse-Code-Modulation oder
dem Verfahren der adaptiven, differentiellen Pulse-Code-Mo
dulation. Das codierte Signal wird dann gespeichert und
zur Verwendung beim Synthetisieren aus dem Speicher abge
rufen und decodiert.
Die vorliegende Erfindung befaßt sich mit einem Codier- und
Synthetisierverfahren für stimmhafte Sprachsegmente,
welche die Qualität der synthetisch erzeugten Sprache
beherrschen. Eine Beschreibung bezüglich eines solchen
Verfahrens unter Betonung des Sprachsegmentspeicherblockes
5 und des Syntheseblockes 6 für stimmhafte Sprachsegmente
ist in Fig. 2 dargestellt.
Die stimmhaften Sprachsegmente unter den im Speicher des
Sprachsegmentspeicherblockes 5 gespeicherten Sprachseg
menten werden nach dem erfindungsgemäßen Verfahren der
Zerlegung in periodische Signalanteile vorab in Einzel
wellen der periodischen Tonhöhenkomponente zerlegt. Der
Syntheseblock 6 für stimmhafte Sprachsegmente erzeugt
synthetisch Sprachsignale mit der gewünschten Tonhöhe und
dem gewünschten Zeitverlaufsmuster, indem er die Einzel
wellen in entsprechender Weise auswählt und sie entspre
chend dem Verfahren der "time warping-based wavelet
relocation" ordnet. Das Prinzip dieses Verfahrens der
Einzelsignal-Repositionierung auf der Basis der Zeit
verformung bzw. -verzerrung wird nachstehend unter
Bezugnahme auf die Zeichnungen erläutert.
Stimmhafte Sprache s(n) ist ein periodisches Signal,
welches erhalten wird, wenn eine periodische glossale
Schwingung, die an den Stimmbändern erzeugt wird, durch
das akustische Vokaltraktfilter V(f) hindurchläuft,
welches aus der Mundhöhle, der Kehlkopfhöhle und der
Nasenhöhle besteht. Im vorliegenden Fall sei angenommen,
daß das Vokaltraktfilter V(f) eine Frequenzcharakteristik
aufgrund eines Lippen-Abstrahlungseffekts aufweist. Ein
Spektrum S(f) von stimmhafter Sprache ist charakterisiert
durch:
- 1. eine Feinstruktur, die sich bezüglich der Frequenz f sehr schnell ändert; und
- 2. eine spektrale Enveloppe, die sich demgegenüber langsam ändert, wobei die erste Komponente durch die Periodizität des stimmhaften Sprachsignals verursacht wird und die an zweiter Stelle genannte Komponente das Spektrum einer glossalen Impuls- und Frequenz charakteristik des Vokaltraktfilters widerspiegelt.
Das Spektrum S(f) der stimmhaften Sprache nimmt dieselbe
Form an, die sich ergibt, wenn die Feinstruktur eines
Impulszuges aufgrund der harmonischen Komponenten, welche
bei ganzzahligen Vielfachen der Tonhöhenfrequenz Fo
vorhanden sind, mit einer spektralen Enveloppenfunktion
H(f) multipliziert wird. Daher kann stimmhafte Sprache
s(n) als ein Ausgangssignal betrachtet werden, welches
erhalten wird, wenn ein Impulsfolgesignal e(n) mit
periodischer Impulsfolgefrequenz, welches eine flache,
spektrale Enveloppe aufweist und dieselbe Periode wie die
stimmhafte Sprache S(n), als Eingangssignal einem zeit
variablen Filter zugeführt wird, welches denselben
Frequenzgang hat wie die spektrale Enveloppenfunktion H(f)
der stimmhaften Sprache S(n). Betrachtet man dies im
Zeitbereich, dann ist die stimmhafte Sprache s(n) eine
Faltung einer Impulsantwort h(n) des Filters H(f) und des
periodischen Tonhöhen-Impulsfolgesignals e(n). Da H(f) der
spektralen Enveloppenfunktion der stimmhaften Sprache s(n)
entspricht, wird das zeitvariable Filter mit H(f) als
seiner Frequenzcharakteristik als spektrales Enveloppen
filter bzw. als Synthesefilter bezeichnet.
In Fig. 3A ist ein Signal für vier Perioden einer
glossalen Wellenform bzw. Schwingung gezeigt. Im
allgemeinen sind die Wellen- bzw. Schwingungsformen der
glossalen Impulse, aus denen sich die glossale Schwin
gungsform zusammensetzt, einander ähnlich, jedoch nicht
völlig identisch. Außerdem sind die Zeitintervalle
zwischen benachbarten, glossalen Impulsen ähnlich, jedoch
nicht vollständig gleich. Wie oben beschrieben, wird die
Signalform s(n) der stimmhaften Sprache gemäß Fig. 3C
erzeugt, wenn die glossale Signalform g(n), die in Fig. 3A
gezeigt ist, durch das Vokaltraktfilter V(f) gefiltert
wird. Die glossale Signalform g(n) besteht aus den
glossalen Impulsen g1(n), g2(n), g3(n) und g4(n), die sich
voneinander hinsichtlich der Zeit unterscheiden und aus
denen durch Filterung mit Hilfe des Vokaltraktfilters V(f)
die Signale bzw. Schwingungen s1(n), s2(n), s3(n) und
s4(n) erzeugt werden, die in Fig. 3B gezeigt sind. Die
Schwingung bzw. Signalform s(n) der stimmhaften Sprache,
die in Fig. 3C gezeigt ist, wird durch Überlagerung dieser
Einzelschwingungen erhalten.
Ein Grundkonzept der vorliegenden Erfindung besteht darin,
daß man dann, wenn man die Einzelschwingungen erhalten
kann, aus denen ein stimmhaftes Sprachsignal zusammen
gesetzt ist, und zwar indem man dieses stimmhafte
Sprachsignal zerlegt, synthetische Sprache erhalten kann,
welche dadurch beliebige Akzente und Intonationsmuster
erhalten kann, daß die Intensität bzw. die Amplitude der
Einzelschwingungen und die Zeitintervalle zwischen
denselben geändert werden.
Da die Schwingung bzw. Wellenform s(n) gemäß Fig. 3C für
die stimmhafte Sprache durch Überlagerung der sich zeit
lich überlappenden Einzelschwingungen erhalten wurde, ist
es schwierig, die Einzelschwingungen aus der Sprachschwin
gung s(n) zurückzugewinnen.
Damit sich die Schwingungen der einzelnen Perioden im
Zeitbereich nicht überlappen, müssen sie in Form eines
Signals mit einer Spitze (Peak-Signal) vorliegen, bei dem
die Energie um einen Zeitpunkt konzentriert ist, wie dies
in Fig. 3F gezeigt ist.
Ein Peak-Signal ist ein Signal, welches im Frequenzbereich
eine nahezu flache, spektrale Enveloppe aufweist. Wenn ein
stimmhaftes Signal s(n) vorgegeben ist, dann kann als
Ausgangssignal ein Signal e(n) in Form einer periodischen
Tonhöhenimpulsfolge erhalten werden, welche, wie Fig. 3F
zeigt, eine flache, spektrale Enveloppe besitzt, indem die
Enveloppe des Spektrums S(f) des Signals s(n) abgeschätzt
wird und als Eingangssignal in ein inverses, spektrales
Enveloppenfilter 1/H(f) eingegeben wird, welches als
Frequenzcharakteristik eine zu der Enveloppenfunktion H(f)
inverse Charakteristik besitzt. Fig. 4, 5A und 5B beziehen
sich auf diesen Schritt.
Da die Tonhöhen-Impulssignale jeder Periode, die das
periodische Tonhöhen-Impulsfolgesignal e(n) zusammensetzen
einander, wie in Fig. 3F gezeigt, im Zeitbereich nicht
überlappen, können sie getrennt werden. Das Prinzip des
Verfahrens der periodischen Signalzerlegung besteht also
in folgendem: Da die getrennten Tonhöhen-Impulssignale für
eine Periode e1(n), e2(n), . . . ein im wesentlichen flaches
Spektrum haben, können die Signale s1(n), s2(n), usw., die
in Fig. 3B gezeigt sind, erhalten werden, wenn diese
Signale als Eingangssignale auf das spektrale Enveloppen
filter H(f) zurückgeführt werden, so daß die genannten
Signale dann das ursprüngliche Spektrum besitzen.
Fig. 4 zeigt ein Blockdiagramm des periodischen Signalzer
legungsverfahrens gemäß vorliegender Erfindung, bei dem
das stimmhafte Sprachsegment derart analysiert wird, daß
es in Einzelschwingungen aufgelöst wird. Das stimmhafte
Sprachsignal s(n), welches ein digitales Signal ist, wird
erhalten, indem man die Bandbreite des analogen, stimm
haften Sprachsignals oder eines mit Hilfe eines Musik
instrumentes erzeugten Schallsignals mit Hilfe eines
Tiefpaßfilters begrenzt und die resultierenden Signale
durch eine Analog/Digital-Umsetzung umwandelt und sie nach
dem Verfahren der Pulse-Code-Modulation auf einer Magnet
platte (einem magnetischen Aufzeichnungsmedium) speichert,
wobei gleichzeitig mehrere Bits zu einer Gruppe zusammen
gefaßt werden und wobei die gespeicherte Information dann
nach Bedarf zur Verarbeitung abgerufen werden kann.
Der erste Schritt der Erzeugung der Einzelschwingungen
bzw. -signale besteht bei dem periodischen Signalzer
legungsverfahren in einer blinden Entfaltung (blind
deconvolution), in deren Verlauf das stimmhafte Sprach
signal s(n) (das periodische Signal s(n)) in eine Impuls
antwort h(n) entfaltet wird, welche eine Zeitbereichsfunk
tion der Spektralenveloppenfunktion H(f) des Signals s(n)
ist, und in ein periodisches Tonhöhen-Impulsfolgesignal
e(n), welches eine flache, spektrale Enveloppe aufweist
sowie dieselbe Periode wie das Signal s(n) (Vgl. Fig. 5A
und 5B und die zugehörige Beschreibung).
Wie beschrieben, ist für die blinde Entfaltung die Technik
der Abschätzung des Spektrums, mit deren Hilfe die spek
trale Enveloppenfunktion H(f) ausgehend von dem Signal
s(n) abgeschätzt wird, wesentlich. Die vorbekannten
Verfahren bzw. Techniken zur Abschätzung des Spektrums
können in drei Verfahren klassifiziert werden:
- 1. ein Block-Analyseverfahren;
- 2. ein tonhöhensynchrones Analyseverfahren; und
- 3. ein Verfahren der sequentiellen Analyse, welches von der Länge eines Analyseintervalls abhängig ist.
Das Block-Analyseverfahren ist ein Verfahren, bei dem das
Sprachsignal in Blöcke konstanter Dauer in der Größen
ordnung von 10 bis 20 ms (Millisekunden) geteilt wird.
Anschließend wird die Analyse bezüglich der konstanten
Zahl von Sprachproben, die in jedem Block vorhanden sind,
durchgeführt, wobei ein Satz (üblicherweise 10 bis 16
Parameter) der Spektralenveloppenparameter für jeden Block
erhalten wird, wobei für dieses Verfahren ein homomorphes
Analyseverfahren und ein Block-Analyseverfahren mit
linearer Vorhersage typisch sind.
Bei dem tonhöhensynchronen Analyseverfahren wird ein Satz
von spektralen Enveloppenparametern für jede Periode
erhalten, indem die Analyse für jede Periode des Sprach
signals durchgeführt wird, welche durch Teilen des Sprach
signals mit der Tonhöhenperiode als Einheit erhalten wurde
(wie dies in Fig. 3C gezeigt ist), wobei für dieses Ver
fahren das Analyse-durch-Synthese-Verfahren und das
tonhöhensynchrone Analyseverfahren für eine lineare
Vorhersage typisch sind.
Bei dem sequentiellen Analyseverfahren wird für jede
Sprachprobe ein Satz von spektralen Enveloppenparametern
erhalten (wie dies in Fig. 3D gezeigt ist), und zwar durch
Abschätzen des Spektrums für jede Sprachprobe, wobei für
dieses Verfahren das Verfahren der kleinsten Quadrate bzw.
das rekursive Verfahren der kleinsten Quadrate typisch
ist, und wobei diese beiden Verfahren als eine Art von
adaptiven Filterverfahren anzusehen sind.
Fig. 3D zeigt die zeitliche Änderung der ersten
4 Reflexionskoeffizienten unter den 14 Reflexions
koeffizienten k1, k2, . . . , k14, welche einen Satz von
spektralen Enveloppenparametern bilden, der durch das
sequentielle Analyseverfahren erhalten wird (vgl.
Fig. 5A). Wie aus der Zeichnung deutlich wird, ändern sich
die Werte der spektralen Enveloppenparameter kontinuier
lich aufgrund der kontinuierlichen Bewegung der
Artikulierungsorgane, was bedeutet, daß sich die
Impulsantwort h(n) des spektralen Enveloppenfilters
kontinuierlich ändert. Im vorliegenden Fall wird der
Einfachheit halber unter der Voraussetzung, daß sich h(n)
in einem Intervall von der Länge einer Periode nicht
ändert, h(n) für die erste, die zweite und die dritte
Periode als h(n)1, h(n)2 bzw. h(n)3 bezeichnet, wie dies
in Fig. 3E gezeigt ist.
Ein Satz von Enveloppenparametern, der durch verschiedene
Spektrum-Abschätzungstechniken erhalten wurde, wie z. B.
ein Cepstrum CL(i), bei dem es sich um einen Parametersatz
handelt, der durch das homomorphe Analyseverfahren
erhalten wurde, oder ein Vorhersagekoeffizientensatz {ai}
oder ein Reflexionskoeffizientensatz {ki} oder ein Satz
von Linienspektrumspaaren usw., welcher erhalten wird,
indem man das rekursive Verfahren der kleinsten Quadrate
anwendet oder das lineare Vorhersageverfahren, wird ebenso
behandelt wie die Funktionen H(f) oder h(n), da er die
Frequenzcharakteristik H(f) oder die Impulsantwort h(n)
des spektralen Enveloppenfilters liefern kann. Aus diesem
Grunde wird nachstehend die Impulsantwort auch als
spektraler Enveloppenparametersatz bezeichnet.
Fig. 5A und 5B zeigen die Verfahren der blinden Entfaltung.
Im einzelnen zeigt 5A ein Verfahren der blinden Entfal
tung, welches unter Verwendung des Analyseverfahrens der
linearen Vorhersage oder unter Verwendung des rekursiven
Verfahrens der kleinsten Quadrate durchgeführt wird, wobei
es sich in beiden Fällen um vorbekannte Verfahren handelt.
Bei einem gegebenen, stimmhaften Sprachsignal s(n), wie es
in Fig. 3C gezeigt ist, werden die Vorhersagekoeffizienten
{a1, a2, . . . , aN} oder die Reflexionskoeffizienten {k1,
k2, . . . , kN}, bei denen es sich um spektrale Enveloppen
parameter handelt, die die Frequenzcharakteristik H.(f)
oder die Impulsantwort h(n) des spektralen Enveloppen
filters darstellen, unter Verwendung des Analyseverfahrens
der linearen Vorhersage oder des rekursiven Verfahrens der
kleinsten Quadrate erhalten. Normalerweise sind 10 bis 16
Vorhersagekoeffizienten für die Ordnung N der Vorhersage
ausreichend. Unter Verwendung der Vorhersagekoeffizienten
a1, a2, . . . , aN und der Reflexionskoeffizienten {k1, k2, . . . , kN}
als spektralen Enveloppenparametern kann ein
inverses, spektrales Enveloppenfilter, welches nachstehend
einfach als ein inverses Filter bezeichnet wird und
welches die Frequenzcharakteristik 1/H(f) aufweist, die
invers zur Frequenzcharakteristik H(f) des spektralen
Enveloppenfilters ist, von einem Fachmann leicht
hergestellt werden. Wenn das stimmhafte Sprachsignal, das
Eingangssignal für das inverse, spektrale Enveloppenfilter
bildet, welches bei dem Analyseverfahren der linearen
Vorhersage auch als Filter für die lineare Fehlervor
hersage bezeichnet wird und bei dem rekursiven Verfahren
der kleinsten Quadrate ebenfalls, dann kann das perio
dische Tonhöhen-Impulsfolgesignal des in Fig. 3F gezeigten
Typs, welches eine flache, spektrale Enveloppe hat und als
Fehlervorhersagesignal oder als Restsignal bezeichnet
wird, als Ausgangssignal des Filters erhalten werden.
Fig. 5B und 5C zeigen das Verfahren der blinden Entfaltung
unter Anwendung des homomorphen Analyseverfahrens, bei dem
es sich um ein Block-Analyseverfahren handelt, wobei
Fig. 5B das durch Frequenzteilung durchgeführte Verfahren
darstellt (dieses Verfahren wurde vorstehend noch nicht
angesprochen) und wobei Fig. 5C das Verfahren darstellt,
bei welchem mit einer inversen Filterung gearbeitet wird.
Nachstehend soll näher auf Fig. 5B eingegangen werden.
Sprachsignale zur Analyse eines Blockes werden erhalten,
indem das stimmhafte Sprachsignal s(n) mit einer
abgeschrägten Fensterfunktion multipliziert wird, wie z. B.
einem Hamming-Fenster, welches eine Dauer von etwa 10 bis
20 ms hat. Eine cepstrale Sequenz c(i) wird dann dadurch
erhalten, daß man die Sprachproben unter Anwendung einer
Serie von homomorphen Verarbeitungsprozeduren bearbeitet,
die aus einer diskreten Fourier-Transformation, einem
komplexen Logarithmus und einer inversen, diskreten
Fourier-Transformation bestehen, wie dies in Fig. 5D
gezeigt ist. Das Cepstrum ist dabei eine Funktion der
Frequenz, welche eine der Zeit ähnliche Einheit ist.
Ein niederfrequentes Cepstrum CL(i), welches rund um einen
Ursprung angeordnet ist und die spektrale Enveloppe der
stimmhaften Sprache s(n) darstellt und ein hochfrequentes
Cepstrum CH(i), welches ein periodisches Tonhöhen-Impuls
folgesignal e(n) darstellt, können im Frequenzbereich
voneinander getrennt werden. Dies bedeutet, daß das
Cepstrum c(i) mit einer niederfrequenten Fensterfunktion
und einer hochfrequenten Fensterfunktion multipliziert
wird, wobei CL(i) bzw. CH(i) erhalten werden. Durch ein
inverses, homomorphes Verarbeitungsverfahren ergibt sich
aus diesen Funktionen, wie in Fig. 5E gezeigt ist, die
Impulsantwort h(n) und das Tonhöhen-Impulsfolgesignal
e(n). Da im vorliegenden Fall das inverse, homomorphe
Verarbeitungsverfahren für CH(i) nicht direkt zu dem
Tonhöhen-Impulsfolgesignal e(n) führt, sondern zu dem
Tonhöhen-Impulsfolgesignal eines Blockes multipliziert mit
einer Zeitfensterfunktion w(n), kann e(n) erhalten werden,
indem man das Tonhöhen-Impulsfolgesignal erneut mit einer
inversen Zeitfensterfunktion 1/w(n) multipliziert, die
invers zu der Funktion w(n) ist.
Das Verfahren gemäß Fig. 5C ist praktisch gleich dem
Verfahren gemäß Fig. 5B, mit dem einzigen Unterschied, daß
zur Gewinnung des periodischen Impulsfolgesignals e(n)
anstelle von CH(i) das Cepstrum CL(i) verwendet wird. Dies
bedeutet, daß bei diesem Verfahren unter Nutzung der
Eigenschaft, daß eine Impulsantwort h-1(n), welche der
Funktion 1/H(f) entspricht, die wiederum invers zu der
Frequenzcharakteristik H(f) ist, erhalten werden kann,
indem man die Funktion -CL(i), die ihrerseits erhalten
wird, indem man das negative CL(i) nimmt, nach dem
Verfahren der inversen, homomorphen Verarbeitung
verarbeitet, wobei das periodische Tonhöhen-Impulsfolge
signal e(n) als Ausgangssignal erhalten werden kann, indem
man ein Filter (FIR) mit einer Impulsantwort endlicher
Dauer entwickelt, welches die Funktion h-1(n) als
Impulsantwort besitzt, und indem man diesem Filter ein
Original-Sprachsignal s(n) zuführt, welches nicht mit
einer Fensterfunktion multipliziert ist. Dieses Verfahren
ist ein inverses Filterverfahren, welches im wesentlichen
gleich demjenigen gemäß Fig. 5A ist, mit dem einzigen
Unterschied, daß während bei der homomorphen Analyse gemäß
Fig. 5C ein inverses, spektrales Enveloppenfilter 1/H(f)
entwickelt wird, indem man eine Impulsantwort h-1(n) des
inversen, spektralen Enveloppenfilters erhält, gemäß
Fig. 5A das inverse, spektrale Enveloppenfilter 1/H(f)
direkt auf der Basis der Vorhersagecoeffizienten ai oder
der Reflexionscoeffizienten k1 entwickelt wird, die nach
dem Analyseverfahren der linearen Vorhersage erhalten
werden.
Bei der blinden Entfaltung auf der Basis der homomorphen
Analyse können die Impulsantwort h(n) oder das nieder
frequente Cepstrum CL(i), die in Fig. 5B und 5C in
punktierten Linien gezeigt sind, als Spektral-Enveloppen
parametersatz verwendet werden. Wenn man die Impulsantwort
{h(0), h(1), . . . , h(N-1)} verwendet, besteht ein spek
traler Enveloppenparametersatz normalerweise aus einer
guten Zahl von Parametern in einer Größenordnung, bei der
N 90 bis 120 beträgt, während die Anzahl der Parameter auf
50 bis 60 verringert werden kann, wobei N 25 bis 30
beträgt, wenn man das Cepstrum {CL(-N)m, CL(-N+1), . . . , 0, . . . , CL(N)}
verwendet.
Wie oben beschrieben, wird das stimmhafte Sprachsignal
s(n) in die Impulsantwort h(n) des spektralen Enveloppen
filters und das periodische Impulshöhen-Impulsfolgesignal
e(n) gemäß dem in Fig. 5 dargestellten Verfahren entfaltet.
Wenn erst einmal das Tonhöhen-Impulsfolgesignal und die
spektralen Enveloppenparameter nach dem Verfahren der
blinden Entfaltung erhalten wurden, dann werden die
Tonhöhen-Impulspositionen P1, P2, usw. aus dem perio
dischen Tonhöhen-Impulsfolgesignal e(n) oder dem Sprach
signal s(n) erhalten, indem man im Zeitbereich einen
Tonhöhen-Impuls-Positionsdetektions-Algorithmus, wie z. B.
den Epochen-Detektionsalgorithmus, verwendet. Als nächstes
werden die Tonhöhen-Impulssignale e1(n), e2(n) und e3(n),
die in Fig. 3H, 3K bzw. 3N gezeigt sind, erhalten, indem
man das Tonhöhen-Impulsfolgesignal e(n) periodisch derart
segmentiert, daß ein Tonhöhenimpuls in einem Perioden
intervall eingeschlossen wird, wie dies in Fig. 3F gezeigt
ist. Bezüglich der Positionen der Segmentierung kann man
sich für die Mittelpunkte zwischen den Tonhöhenimpulsen
entscheiden oder für Punkte, die um ein konstantes
Zeitintervall vor jedem Tonhöhenimpuls liegen. Da jedoch
die Position jedes Tonhöhenimpulses zeitlich mit dem
Endbereich jedes glossalen Impulses zusammenfällt, wie
vollständig deutlich wird, wenn man Fig. 3A und 3F
vergleicht, ist es zu bevorzugen, als Position für die
Segmentierung einen Punkt auszuwählen, der um ein
konstantes Zeitintervall hinter jedem Tonhöhenimpuls
liegt, wie dies durch die punktierte Linie in Fig. 3F
gezeigt ist. Da jedoch der Tonhöhenimpuls den größten
Effekt für die Hörbarkeit darstellt, ergeben sich zwischen
den angesprochenen Fällen keine signifikanten Unterschiede
in der synthetisch erzeugten Sprache.
Wenn die nach diesem Verfahren erhaltenen Tonhöhen-Impulsfolge
signale e1(n), e2(n), e3(n), usw. jeweils wieder mit
h1(n), h2(n), h3(n) . . . gemäß Fig. 3E gefaltet werden, bei
denen es sich um die Impulsantworten während des Perioden
intervalls der Tonhöhen-Impulssignale e1(n), e2(n), e3(n)
usw. handelt, dann werden die erwünschten Einzelschwin
gungen erhalten, wie sie in Fig. 3I, 3L, 3(O) gezeigt
sind. Eine derartige Faltung kann in bequemer Weise
durchgeführt werden, indem man jedes Tonhöhen-Impuls
folgesignal dem spektralen Enveloppenfilter H(f) zuführt,
welches die spektralen Enveloppenparameter als Filter
koeffizienten verwendet, wie dies in Fig. 4 gezeigt ist.
Beispielsweise kann in den Fällen, in denen die linearen
Vorhersagekoeffizienten oder die Reflexionskoeffizienten
oder Linienspektrumspaare als spektrale Enveloppenparameter
verwendet werden, wie bei dem Analyseverfahren der
linearen Vorhersage ein IIR-Filter (infinite-duration
impulse response = Impulsantwort unendlicher Dauer)
eingesetzt werden, welches mit den linearen Vorhersage
koeffizienten oder den Reflexionskoeffizienten oder den
Linienspektrumspaaren als Filterkoeffizienten aufgebaut
ist. In Fällen, in denen die Impulsantwort für die
spektralen Enveloppenparameter verwendet wird, wie bei dem
homomorphen Analyseverfahren, wird ein FIR-Filter ver
wendet, welches die Impulsantwort als Abgriffskoeffi
zienten hat. Da das Synthesefilter nicht direkt aufgebaut
werden kann, wenn der spektrale Enveloppenparameter ein
logarithmisches Bereichsverhältnis oder das Cepstrum ist,
sollten die spektralen Enveloppenparameter in die
Reflexionskoeffizienten oder die Impulsantwort zurück
transformiert werden, um als Koeffizienten für das
IIR- oder FIR-Filter verwendet zu werden. Wenn das Ton
höhen-Impulssignal für eine Periode dem in der vorstehend
beschriebenen Weise aufgebauten, spektralen Enveloppen
filter als Eingangssignal zugeführt wird und wenn die
Filterkoeffizienten zeitlich in Übereinstimmung mit den
spektralen Enveloppenparametern variiert werden, die
demselben Zeitpunkt entsprechen wie die einzelnen Proben
des Tonhöhen-Impulssignals, dann wird als Ausgangssignal
die Einzelschwingung für diese Periode erhalten. Aus
diesem Grunde werden die "Zeitfunktionsschwingungen bzw.
-wellen" der spektralen Enveloppenparameter an demselben
Punkt ausgeschnitten, wie wenn e(n) ausgeschnitten würde,
um das Tonhöhen-Impulssignal für jede einzelne Periode zu
erhalten. Beispielsweise werden im Falle der sequentiellen
Analyse die spektralen Enveloppenparameter k1(n)1, k2(n)1,
usw. für die erste Periode, wie dies in Fig. 3G gezeigt
ist, dadurch erhalten, daß die spektralen Enveloppen
parameter ausgeschnitten werden, die derselben Zeitperiode
entsprechen wie das Tonhöhen-Impulssignal e1(n) für die
erste Periode, welches in Fig. 3H gezeigt ist, und zwar
aus den Zeitfunktionen k1(n), k2(n), usw. der spektralen
Enveloppenparameter, wie dies in Fig. 3D gezeigt ist. Die
spektralen Enveloppenparameter für die zweite und dritte
Periode, die in Fig. 3J und 3M in ausgezogenen Linien
gezeigt sind, können in ähnlicher Weise erhalten werden
wie oben ausgeführt. In Fig. 4 sind die Reflexions
koeffizienten k1, k2, . . . , kN und die Impulsantwort h(0),
h(1), . . . , h(N-1) als typischer Spektralenveloppenpara
metersatz gezeigt, wobei sie mit k1(n), k2(n), . . , kn(n)
und h(0,n), h(1,n), . . . , h(N-1,n) bezeichnet wurden, um zu
betonen, daß es sich bei ihnen um Funktionen der Zeit
handelt. In gleicher Weise wird das Cepstrum CL(i) in den
Fällen, in denen es als spektraler Enveloppenparametersatz
verwendet wird, als CL(i,n) bezeichnet.
Da bei dem tonhöhensynchronen Analyseverfahren oder dem
Block-Analyseverfahren anders als bei dem sequentiellen
Analyseverfahren nicht die Zeitfunktionen der spektralen
Enveloppenparameter erhalten werden, sondern die
spektralen Enveloppenparameterwerte, welche über das
Analyseintervall konstant sind, ist es erforderlich,
die Zeitfunktionen der spektralen Enveloppenpara
meter aus den spektralen Enveloppenparameterwerten zu
gewinnen und dann die Zeitfunktionen Periode für Periode
zu segmentieren, um die spektralen Enveloppenparameter für
eine Periode zu erhalten. In der Praxis ist es
bequem, wie folgt vorzugehen, anstatt die Zeitfunktionen
zusammenzustellen. Da im Falle des tonhöhensynchronen
Analyseverfahrens ein Satz von spektralen Enveloppen
parametern, welche konstante Werte haben, jedem Tonhöhen
periodenintervall entspricht, wie dies als gestrichelte
Linie in Fig. 8B gezeigt ist, ändern sich die spektralen
Enveloppenparameter selbst dann nicht, wenn ihre
Zeitfunktionen Periode für Periode segmentiert werden.
Daher sind die spektralen Enveloppenparameter für eine
Periode, die in einem Pufferspeicher zu speichern sind,
keine Zeitfunktionen, sondern zeitunabhängige Konstante.
Da im Falle des Block-Analyseverfahrens pro Block ein Satz
von konstanten, spektralen Enveloppenparametern erhalten
wird, sind die Werte eines spektralen Enveloppenparameters
für eine Periode, die zu einem Block gehört, beispiels
weise k1(n)1, k1(n)2, . . . , k1(n)M, nicht nur konstant
unabhängig von der Zeit, sondern auch identisch. (Im
vorliegenden Fall bedeutet k1(n)j die Zeitfunktion von k1
für das j-te-periodische Intervall, während M die Anzahl
von Tonhöhenperiodenintervallen angibt, die zu einem Block
gehören.)
Es ist zu beachten, daß im Falle des Block-Analysever
fahrens dann, wenn das Tonhöhen-Impulssignal über der
Grenze zwischen zwei benachbarten Blöcken liegt, die
spektralen Enveloppenparameterwerte des vorausgehenden
Blockes bzw. des folgenden Blockes für die Auswertung
benutzt und nachfolgende Signalteile bezüglich der
Blockgrenze geteilt werden.
Wie in Fig. 3I erkennbar ist, ist die Dauer einer
Einzelschwingung nicht notwendigerweise gleich einer
Periode. Aus diesem Grunde werden die Verfahren der
Nullanhängung und der Parameterverlängerung, die in Fig. 4
gezeigt sind, benötigt, ehe das Tonhöhen-Impulssignal und
die spektralen Enveloppenparameter für eine Periodendauer,
die durch die periodische Segmentierung erhalten wurden,
an das spektrale Enveloppenfilter angelegt werden, damit
die Dauer des Tonhöhen-Impulssignals und die spektralen
Enveloppenparameter mindestens so lang sind wie die
effektive Dauer der Einzelschwingung. Das Verfahren der
Nullanhängung dient dazu, die Gesamtdauer des Tonhöhen-Im
pulssignals so lang zu machen, wie die erforderliche
Länge ist, indem hinter dem Tonhöhen-Impulssignal einer
Periode die Proben angehängt werden, die den Wert Null
haben. Das Verfahren der Parameterverlängerung besteht
darin, die Gesamtdauer der spektralen Enveloppenparameter
so lang zu machen, wie es erforderlich ist, indem die
spektralen Enveloppenparameter für die folgenden Perioden
nach den spektralen Enveloppenparametern von der Länge
einer Periode angehängt werden. Die Qualität der
synthetisch erzeugten Sprache wird jedoch selbst dann
nicht signifikant verschlechtert, wenn ein einfaches
Verfahren angewandt wird, nach dem wiederholt der Endwert
der spektralen Enveloppenparameter einer Periode oder der
erste Wert der spektralen Enveloppenparameter der nächsten
Periode angehängt wird.
Die Tatsache, daß die effektive Dauer der Einzelschwingung
bzw. -welle, die von dem spektralen Enveloppenfilter
erzeugt werden soll, von den Werten der spektralen
Enveloppenparameter abhängt, macht es schwierig, diese
Dauer vorab abzuschätzen. Da es jedoch im praktischen
Einsatz in den meisten Fällen nicht zu signifikanten
Fehlern führt, wenn man berücksichtigt, daß die effektive
Dauer der Einzelschwingung, ausgehend von der Tonhöhen-Im
pulsposition, bei einem männlichen Sprecher zwei
Perioden beträgt und bei einer Frau oder einem Kind drei
Perioden, ist es bequem zu entscheiden, daß die Dauer des
"verlängerten Tonhöhen-Impulssignals", die durch Nullan
hängen erreicht werden soll, und die Dauer der "verlänger
ten spektralen Enveloppenparameter", die durch Verlängern
der Parameter erzeugt werden soll, für männliche Sprecher
drei Perioden beträgt und für weibliche Sprecher vier
Perioden, und zwar für den Fall, daß die periodische
Segmentierung unmittelbar hinter den Tonhöhenimpulsen
erfolgt. In Fig. 3G sind die spektralen Enveloppen
parameter für die erste Periode des drei Perioden
umfassenden Intervalls "ad", die erhalten werden, indem
man die spektralen Enveloppenparameter für das zwei
Perioden umfassende Intervall "bd" anhängt, durch eine
punktierte Linie, angrenzend an den spektralen Enveloppen
parameter der ersten Periode des Intervalls "ab", als
Beispiel angedeutet, welches durch die periodische
Segmentierung erhalten wird. In Fig. 3H ist als Beispiel
ein verlängertes Tonhöhen-Impulssignal für die erste
Periode des drei Perioden umfassenden Intervalls "ad"
dargestellt, welches erhalten wird, indem man die den Wert
Null aufweisenden Proben an das zwei Perioden umfassende
Intervall "bd" anhängt, welches als nächstes auf das
Tonhöhen-Impulssignal des Intervalls "ab" der ersten
Periode folgt, das durch die periodische Segmentierung
erhalten wird.
Da in dem vorstehend beschriebenen Fall die Dauer nach der
Nullanhängung und der Parameterverlängerung auf drei bzw.
vier Perioden erhöht ist, während die Dauer des Tonhöhen-Im
pulssignals und der spektralen Enveloppenparameter vor
der Nullanhängung und der Parameterverlängerung eine
Periode beträgt, sind zwischen der periodischen Segmen
tierung und der Parameterverlängerung Puffer vorgesehen,
wie dies in Fig. 4 gezeigt ist, und das Tonhöhen-Impuls
signal sowie die spektralen Enveloppenparameter, die durch
die periodische Segmentierung erhalten werden, werden dann
in den Puffern gespeichert und im Bedarfsfall wieder
abgerufen, so daß eine temporäre Pufferung erreicht wird.
Wenn das verlängerte Tonhöhen-Impulssignal und die
verlängerten spektralen Enveloppenparameter gemäß Fig. 4
durch die Nullanhängung und die Parameterverlängerung
erreicht werden, können das "Einzelschwingungssignal"
s1(n) für die erste Periode der Dauer des drei Perioden
umfassenden Intervalls, wie z. B. des Intervalls "ad",
welches in Fig. 3I gezeigt ist, letztlich erhalten werden,
indem man das verlängerte Tonhöhen-Impulssignal der ersten
Periode, wie z. B. das Intervall "ad" in Fig. 3H, in das
spektrale Enveloppenfilter H(f) eingibt und die Koeffi
zienten synchron in der gleichen Weise variiert, wie den
verlängerten spektralen Enveloppenparameter der ersten
Periode, wie z. B. des Intervalls "ad" in Fig. 3G. Die
Einzelschwingungssignale s2(n) und s3(n) für die zweite
bzw. dritte Periode können in derselben Weise erhalten
werden.
Wie vorstehend beschrieben, wird das stimmhafte Sprach
signal s(n) letztlich nach dem Verfahren gemäß Fig. 4 in
Einzelschwingungen zerlegt, aus denen das Signal s(n)
zusammengesetzt ist. Offensichtlich führt das neue
Arrangieren der Einzelwellen gemäß Fig. 3I, 3L und 3(O),
welche durch die Zerlegung erhalten wurden, an den
ursprünglichen Punkten zu dem Signal gemäß Fig. 3B, und
wenn die Einzelwellen übereinandergelegt sind, wird das
ursprüngliche Sprachsignal s(n), welches in Fig. 3C
gezeigt ist, wieder erhalten. Wenn die Einzelschwingungen
gemäß Fig. 31, 3L und 3(O) wieder neu arrangiert werden,
indem die Zwischenräume verändert werden und dann über
lagert werden, wie dies in Fig. 3P gezeigt ist, dann wird
die Sprachschwingung gemäß Fig. 3Q erhalten, welche ein
anderes Tonhöhenmuster hat. Durch geeignetes Variieren des
Zeitintervalls zwischen den Einzelschwingungen, welche
durch die Zerlegung erhalten werden, ist es also möglich,
eine synthetische Sprache zu erzeugen, die ein beliebiges,
gewünschtes Tonhöhenmuster, d. h. eine beliebige Intonation
hat. In ähnlicher Weise ermöglicht das richtige Variieren
der Energie der Einzelschwingungen die Erzeugung von
synthetischer Sprache mit einem beliebigen, erwünschten
Betonungs- bzw. Lautstärkemuster.
In dem in Fig. 2 gezeigten Sprachsegmentspeicherblock 5 wird
jedes stimmhafte Sprachsegment, welches nach dem Verfahren
gemäß Fig. 4 in so viele Einzelschwingungen unterteilt
wird wie Tonhöhenimpulse vorhanden sind, in dem in Fig. 6A
gezeigten Format gespeichert, welches als Sprachsegment
information bezeichnet wird. In einem Kopffeld, bei dem es
sich um den vorderen Teil der Sprachsegmentinformation
handelt, werden Grenzzeitpunkte B1, B2, . . . , BL, welche
wichtige Zeitpunkte in dem Sprachsegment sind, sowie
Tonhöhen-Impulspositionen P1, P2, . . . , PM jedes Ton
höhen-Impulssignals, welches bei der Synthese jeder
Einzelschwingung verwendet wird, gespeichert, wobei die
Anzahl der Proben (Abtastwerte), die jedem Zeitpunkt
entsprechen, aufgezeichnet wird, wobei die Position der
ersten Probe des ersten Tonhöhen-Impulssignals e1(n) als 0
genommen wird. Der Grenzzeitpunkt ist die Zeitposition der
Grenzpunkte zwischen Untersegmenten, die man erhält, wenn
das Sprachsegment in mehrere Untersegmente unterteilt bzw.
segmentiert wird. Beispielsweise kann ein Vokal, vor und
hinter welchem ein Konsonant vorhanden ist, für langsame
Sprache als aus drei Subsegmenten bestehend angesehen
werden, da der Vokal in ein Intervall in seinem mittleren
Teil mit einem stetigen Zustand und zwei Übergangsinter
valle unterteilt werden kann, die vor bzw. hinter dem
Intervall mit stetigem Zustand liegen. In diesem Fall
werden die drei Endpunkte der Subsegmente als Grenz
zeitpunkte in dem Kopffeld des Sprachsegmentes gespei
chert. Wenn die Abtastung jedoch bei schnellerer Sprech
geschwindigkeit erfolgt, werden in der Kopfinformation
zwei Grenzzeitpunkte gespeichert, da das Übergangs
intervall zu einem Punkt wird, so daß das Sprachsegment
des Vokals als aus zwei Subsegmenten bestehend betrachtet
werden kann.
In dem Schwingungs-Codefeld, welches der spätere
Teil der Sprachsegmentinformation ist, werden Einzel
schwingungscodes gespeichert, welche durch Schwingungs
codierung der Einzelschwingungen erhalten werden, die
jeder einzelnen Periode entsprechen. Die Einzelschwin
gungen können durch das einfache Schwingungscodier
verfahren codiert werden, wie z. B. durch PCM; da die
Einzelschwingungen jedoch eine erhebliche Kurzzeit- und
Langzeitkorrelation haben, kann die erforderliche
Speicherplatzmenge für die Speicherung erheblich
verringert werden, wenn die Einzelschwingungen in
effektiver Weise nach dem Verfahren der Schwingungs
codierung unter Verwendung des ADPCM-Verfahrens codiert
werden, bei dem mit einer Tonhöhenvoraussageschleife
gearbeitet wird oder mit einer adaptiven, voraussagenden
Codierung oder einem digitalen, adaptiven Deltamodula
tionsverfahren. Das Verfahren, nach welchem die nach
Zerlegung erhaltenen Einzelschwingungen codiert und in
Form der resultierenden Codes gespeichert werden, derart,
daß die Codes zum Zeitpunkt der Synthese decodiert, neu
geordnet und überlagert werden, um synthetische Sprache zu
erzeugen, wird als "Schwingungscodespeicherverfahren"
bezeichnet.
Das Tonhöhen-Impulssignal und die entsprechenden spek
tralen Enveloppenparameter können als identisch mit der
Einzelschwingung betrachtet werden, da es sich bei ihnen
um Materialien handelt, mit denen die Einzelschwingung
erzeugt werden kann. Daher ist auch ein Verfahren möglich,
bei dem die "Quellcodes" ("source codes") gespeichert
werden, welche durch Codieren der Tonhöhen-Impulssignale
und der spektralen Enveloppenparameter erhalten werden,
und bei dem die Einzelschwingungen mit den Tonhöhen-Im
pulssignalen und den spektralen Enveloppenparametern
hergestellt werden, welche durch Decodieren der Quellcode
erhalten werden, wobei die Einzelschwingungen dann neu
arrangiert und überlagert werden, um die synthetisch
erzeugte Sprache zu erzeugen. Dieses Verfahren wird als
"Quellcode-Speicherverfahren" bezeichnet. Dieses Verfahren
entspricht demjenigen, bei dem das Tonhöhen-Impulssignal
und die spektralen Enveloppenparameter, die in den Puffern
gespeichert sind, anstelle der Einzelschwingungen, die in
Fig. 4 als Ausgangssignal erhalten werden, in demselben
Periodenintervall miteinander verknüpft und dann in dem
Sprachsegmentspeicherblock gespeichert werden. Bei dem
Quellcode-Speicherverfahren werden daher die Prozeduren
hinter dem Puffer in Fig. 4, nämlich die Parameterver
längerung, die Nullanhängung und die Filterung durch das
Synthesefilter H(f) in dem Einzelschwingungsanordnung
unterblock in Fig. 7 durchgeführt.
Bei dem Quellcode-Speicherverfahren hat die Sprachsegment
information das in Fig. 6B gezeigte Format, welches
dasselbe ist wie in Fig. 6A, ausgenommen den Inhalt des
Schwingungs-Codefeldes. D.h. daß die Tonhöhen-Im
pulssignale und die spektralen Enveloppenparameter, die
für die Synthese der Einzelschwingungen erforderlich sind,
anstelle der Einzelschwingungen codiert und an den
Positionen gespeichert werden, an denen die Einzel
schwingung für jede Periode in Fig. 6A zu speichern ist.
Die spektralen Enveloppenparameter werden gemäß dem
bekannten Quantisierungsverfahren für spektrale
Enveloppenparameter codiert und im Einzelschwingungs-Code
feld gespeichert. Wenn die spektralen Enveloppen
parameter zu diesem Zeitpunkt vor der Quantisierung
transformiert werden, kann die Codierung effektiv
durchgeführt werden. Beispielsweise ist es vorteilhaft,
die Vorhersagekoeffizienten in die Parameter des
Linienspektrumspaares und die Reflexionskoeffizienten in
die logarithmischen Bereichsverhältnisse zu transformieren
und die zu quantisieren. Da außerdem die Impulsantwort
zwischen benachbarten Proben und benachbarten Impulsant
worten eine enge Korrelation hat, kann die erforderliche
Menge der zu speichernden Daten beträchtlich verringert
werden, wenn ihre Einzelschwingungscodierung nach einem
differentiellen Codierverfahren erfolgt. Im Falle der
Cepstrumparameter ist ein Codierverfahren bekannt, bei
welchem der Cepstrumparameter so transformiert wird, daß
die Menge der Daten beträchtlich reduziert werden kann.
Einerseits wird das Tonhöhen-Impulssignal nach einem
geeigneten Einzelschwingungscodierverfahren codiert und
der resultierende Code wird in dem Einzelschwingungs
codefeld gespeichert. Die Tonhöhen-Impulssignale haben
eine geringe Kurzzeitkorrelation, aber eine signifikante
Langzeitkorrelation miteinander. Wenn daher ein Schwin
gungscodierverfahren, wie z. B. das tonhöhenvorhersagende,
adaptive PCM-Codierverfahren angewandt wird, welches eine
die Tonhöhe voraussagende Schleife umfaßt, dann kann eine
hohe Qualität der synthetisch erzeugten Sprache selbst
dann erreicht werden, wenn die Menge des für die
Speicherung erforderlichen Speicherplatzes auf drei Bit
pro Probe bzw. Abtastwert reduziert wird. Der Vorher
sagekoeffizient einer Tonhöhenvorhersage-Einheit kann ein
Wert sein, der für jede Tonhöhenperiode nach einem
Autokorrelationsverfahren gewonnen wird, oder auch ein
konstanter Wert. In der ersten Stufe der Codierung kann
der Tonhöhenvorhersage-Effekt durch eine Normierung erhöht
werden, indem man das zu codierende Tonhöhen-Impulssignal
durch die Quadratwurzel der mittleren Energie pro Abtast
wert "G" teilt. Das Decodieren erfolgt in dem Synthese
block für stimmhafte Sprache und das Tonhöhen-Impulssignal
wird mit seiner ursprünglichen Größe wiederhergestellt,
indem es in der Endstufe der Decodierung erneut mit dem
Faktor "G" multipliziert wird.
In Fig. 6B ist die Sprachsegmentinformation für den Fall
gezeigt, daß ein lineares, vorhersagendes Analyseverfahren
angewandt wird, welches als spektrale Enveloppenparameter
14 Reflexionskoeffizienten verwendet. Wenn das Analyse
intervall für die lineare, vorhersagende Analyse die
Tonhöhenperiode ist, entsprechen 14 Reflexionskoeffi
zienten jedem Tonhöhen-Impulssignal und werden gespei
chert. Wenn das Analyseintervall ein Block mit einer
gewissen Länge ist, dann haben die Reflexionskoeffizienten
für mehrere Tonhöhen-Impulse in einem Block dieselben
Werte, so daß der erforderliche Speicherplatz für die
Speicherung der Einzelschwingungen reduziert wird. In
diesem Fall muß, wie oben diskutiert, da die Reflexions
koeffizienten des vorausgehenden Blockes oder des späteren
Blockes zum Zeitpunkt der Synthese für Tonhöhen-Impuls
signale, die über der Grenze zwischen zwei Blöcken liegen,
in Abhängigkeit davon, ob die Abtastwerte des Signals vor
oder hinter dem Grenzpunkt liegen, die Position des
Grenzpunkts zwischen den Blöcken zusätzlich in dem
Kopffeld gespeichert werden. Wenn ein sequentielles
Analyseverfahren, wie z. B. das rekursive Verfahren der
kleinsten Quadrate, angewandt wird, dann werden die
Reflexionskoeffizienten k1, k2, . . . , k14 zu kontinuier
lichen Funktionen des Zeitindex "n", wie dies in Fig. 3D
gezeigt ist, und es ist eine Menge Speicherplatz erforder
lich, um die Zeitfunktion k1(n), k2(n), . . . , k14(n) zu
speichern. Nimmt man den Fall gemäß Fig. 3 als Beispiel,
dann sind die Schwingungen für das Intervall "ab" in
Fig. 3G und Fig. 3H als die erste Periode und für das
Intervall "bc" in Fig. 3J und Fig. 3K als die zweite
Periode und für das Intervall "cd" in Fig. 3M und Fig. 3N
als dritte Periode des Einzelschwingungs-Codefeldes in dem
Einzelschwingungs-Codefeld gespeichert.
Das Schwingungscode-Speicherverfahren und das Quellcode-Speicher
verfahren sind im wesentlichen gleiche Verfahren,
und tatsächlich werden der Schwingungscode, der erhalten
wird, wenn die Einzelschwingungen nach dem effektiven
Einzelschwingungs-Codierverfahren, wie z. B. dem
APC-Verfahren (APC = adaptive predictive coding = anpassende,
vorhersagende Codierung), bei dem Schwingungscode-Spei
cherverfahren in ihren Inhalten nahezu gleich dem
Quellcode, der bei dem Quellcode-Speicherverfahren
erhalten wird. Der Schwingungsformcode bei dem Schwin
gungsformcode-Speicherverfahren und der Quellcode bei dem
Quellcode-Speicherverfahren werden insgesamt als Einzel
schwingungscode bezeichnet.
Fig. 7 zeigt die innere Konfiguration des Syntheseblockes
für stimmhafte Sprache gemäß vorliegender Erfindung. Die
Einzelschwingungscode, die in dem Einzelschwingungs
codefeld der Sprachsegmentinformation gespeichert sind,
welche von dem Sprachsegmentspeicherblock 5 erhalten wird,
werden durch einen Decodier-Unterblock 9 im Zuge eines
Verfahrens decodiert, welches invers zu dem Verfahren ist,
nachdem diese Informationen codiert wurden. Einerseits
werden die Einzelschwingungssignale, die erhalten werden,
wenn die Schwingungscode bei dem Schwingungscode-Speicher
verfahren decodiert werden, oder die Tonhöhen-Impuls
signale, welche erhalten werden, wenn die Source-Code bei
dem Source-Code-Speicherverfahren decodiert werden und die
an die spektralen Enveloppenparameter angepaßten
Tonhöhen-Impulssignale als Einzelschwingungsinformation
bezeichnet und dem Schwingungsanordnungs-Unterblock 13
zugeführt. Andererseits wird die Kopfinformation, die in
dem Kopffeld der Sprachsegmentinformation gespeichert ist,
als Eingangssignal für einen Dauersteuerungs-Unterblock 10
und einen Tonhöhensteuerungs-Unterblock 11 verwendet.
Der Dauersteuerungs-Unterblock 10 gemäß Fig. 7 empfängt als
Eingangssignal die Dauerdaten (die Daten über die zeit
liche Dauer bzw. Länge) der vorausgehenden Information und
die Grenzzeitpunkte, die von der Sprachsegmentkopf
information umfaßt werden, und erzeugt die Zeit-Form
änderungsinformation durch Verwendung der Dauerdaten und
der Grenzzeitpunkte und liefert die erzeugte Zeit-Form
änderungsinformation an den Schwingungsanordnungs-Un
terblock 13, den Tonhöhensteuerungs-Unterblock 11 und den
Energiesteuerungsunterblock 12. Wenn die Gesamtdauer des
Sprachsegments kürzer oder länger wird, dann wird die
Dauer der Subsegmente, die das Sprachsegment bilden,
entsprechend kürzer oder länger, wobei das Verhältnis der
Kompression oder Expansion von der Eigenschaft jedes
Subsegments abhängt. Beispielsweise besitzt die Dauer des
Intervalls stetigen Zustands, welches im Falle eines
Vokals, der zwischen zwei Konsonanten steht, in der Mitte
liegt, eine beträchtlich größere Variationsrate als die
Dauer der Übergangsintervalle auf beiden Seiten des
Vokals. Der Dauersteuerungs-Unterblock 10 vergleicht die
Dauer BL des Original-Sprachsegments, welches gespeichert
wurde, und die Dauer des synthetisch zu erzeugenden
Sprachsegments, die durch die Dauerdaten angezeigt wird,
und erreicht die Dauer jedes zu synthetisierenden Subseg
ments entsprechend der Dauer jedes Original-Subsegments
unter Verwendung der Variationsrate derselben oder der
Dauerregel, wodurch die Grenzzeitpunkte der syntheti
sierten Sprache erhalten werden. Die Original-Grenz
zeitpunkte B1, B2 usw. und die Grenzzeitpunkte B′1, B′2
usw. der synthetischen Sprache, die an die Original-Grenz
zeitpunkte angepaßt sind, werden insgesamt als Zeit-Form
änderungsinformation bezeichnet, woraufhin, beispielsweise
im Falle von Fig. 8, die Zeit-Formänderungsinformation wie
folgt dargestellt werden kann: {(B1, B′1), (B1, B′2), (B2,
B′3), (B3, B′3), (B4, B′4)}.
Die Funktion des Tonhöhensteuerungs-Unterblockes 11 in Fig. 7
besteht darin, die Tonhöhen-Impulspositionsinformation zu
erzeugen, derart, daß die synthetisierte Sprache das
Intonationsmuster aufweist, welches durch die Intonations
musterdaten angegeben wird, und liefert die Information an
den Schwingungsanordnungs-Unterblock 13 und den Energiesteue
rungs-Unterblock 12. Der Tonhöhensteuerungs-Unterblock 11
empfängt als Eingangssignal die Informationsmusterdaten,
bei denen es sich um die Ziel-Tonhöhenfrequenzwerte für
jedes Phonem handelt, und erzeugt eine Tonhöhenkontur,
welche die kontinuierliche Variation der Tonhöhenfrequenz
über der Zeit darstellt, indem er die Ziel-Tonhöhen
frequenzwerte glatt miteinander verbindet. Der Tonhöhen
steuerungs-Unterblock 11 kann aufgrund eines Obstruenten
(Verschlußlaut oder Reiblaut) der Tonhöhenkontur ein
Mikrointonationsphenomen reflektieren. In diesem Fall wird
die Tonhöhenkontur jedoch zu einer diskontinuierlichen
Funktion, in der sich der Tonhöhenfrequenzwert an dem
Grenzpunkt zwischen dem Verschlußlautphonem und dem
angrenzenden, anderen Phonem bezüglich der Zeit abrupt
ändert. Die Tonhöhenfrequenz wird erhalten, indem man die
Tonhöhenkontur in einer- ersten Tonhöhenimpulsposition des
Sprachsegmentes abtastet, und die Tonhöhenperiode wird
erhalten, indem man das Inverse der Tonhöhenfrequenz
nimmt. Anschließend wird der Punkt, bis zu dem sich die
Tonhöhenperiode erstreckt, als zweite Tonhöhenimpuls
position bestimmt. Die nächste Tonhöhenperiode wird dann
aus der Tonhöhenfrequenz an diesem Punkt erhalten und die
nächste Tonhöhenimpulsposition wird wieder daraus
erhalten, und die Wiederholung dieser Vorgänge könnte alle
Tonhöhenimpulspositionen der synthetisierten Sprache
ergeben. Die erste Tonhöhenimpulsposition des Sprachseg
ments kann auf den Punkt des ersten Abtastwertes gelegt
werden oder auf dessen benachbarte Abtastwerte im Falle
des ersten Sprachsegments einer Serie von Segmenten
kontinuierlicher, stimmhafter Sprache der synthetisierten
Sprache, und für die ersten Tonhöhenimpulsposition des
nächsten Sprachsegments wird der Punkt festgelegt, der der
Position des vorletzten Tonhöhenimpulses des voraus
gehenden Sprachsegments entspricht, usw. Der Tonhöhen
steuerungs-Unterblock 11 sendet die Tonhöhenimpulspositionen
P′1, P′2 usw. der erhaltenen synthetischen Sprache als
solcher und die Original-Tonhöhen-Impulspositionen P1, P2
usw., die in der Sprachsegmentkopfinformation enthalten
sind, zusammen in verknüpfter Form an den Schwingungs
anordnungs-Unterblock 13 und den Energiesteuerungs-Unterblock 12,
wo diese Informationen als sogenannte
Tonhöhenimpulspositionsinformationen empfangen werden. Im
Fall von Fig. 8 kann die Tonhöhenimpulspositionsinfor
mation beispielsweise wie folgt dargestellt werden: {(P1,
P2, . . . P9), (P′1, P′′′, . . . , P′8)}.
Der Energiesteuerungs-Unterblock 12 gemäß Fig. 7 erzeugt eine
Verstärkungsinformation, aufgrund welcher die syntheti
sierte Sprache das Betonungsmuster erhält, welches durch
die Betonungsmusterdaten angezeigt wird, und sendet diese
Verstärkungsinformationen zu dem Schwingungsanordnungs-Unter
block 13. Der Energiesteuerungs-Unterblock 12 empfängt als
Eingangssignal die Betonungsmusterdaten, bei denen es sich
um Zielamplitudenwerte für jedes Phonem handelt, und
erzeugt eine Energiekontur, welche die kontinuierliche
Veränderung der Amplitude über der Zeit darstellt, indem
er die Zielamplitudenwerte glatt miteinander verbindet. Es
wird angenommen, daß die Sprachsegmente vorab zum Zeit
punkt der Speicherung normiert werden, so daß sie eine
relative Energie gemäß der Klasse des Sprachsegments
haben, um die relative Differenz der Energie für jedes
Phonem widerzuspiegeln. Beispielsweise hat im Falle von
Vokalen ein niedriger (dunkler) Vokal eine größere Energie
pro Zeiteinheit als ein hoher Vokal und ein nasaler Laut
hat pro Zeiteinheit etwa die halbe Energie, verglichen mit
dem Vokal. Weiterhin ist die Energie während des Ver
schlußintervalls eines Explosionslaut sehr schwach. Wenn
die Sprachsegmente gespeichert werden, sollen sie daher
codiert werden, nachdem sie vorab so eingestellt wurden,
daß sie eine solche relative Energie haben. In diesem Fall
wird die in dem Energiesteuerungs-Unterblock 12 erzeugte
Energiekontur eine Verstärkung, die mit der Schwingung zu
multiplizieren ist, die synthetisiert werden soll. Der
Energiesteuerungs-Unterblock 12 erhält die Verstärkungswerte
G1, G2 usw. bei jeder Tonhöhenimpulsposition P′1, P′2 usw.
der synthetischen Sprache durch Verwendung der Energie
kontur und der Tonhöhenimpulspositionsinformation und
liefert sie an den Schwingungsanordnungs-Unterblock 13, wobei
die betreffenden Informationen als Verstärkungsinforma
tionen bezeichnet werden. Im Fall von Fig. 8 kann die
Verstärkungsinformation beispielsweise wie folgt
dargestellt werden: {(P′1, G1), (P′2, G2), . . . , (P′8, G8)}.
Der Schwingungsanordnungs-Unterblock 13 gemäß Fig. 7 empfängt
als Eingangssignal die oben beschriebene Einzelschwin
gungsinformation, die Zeitverformungsinformation, die
Tonhöhenimpulspositionsinformation und die Verstärkungs
information und erzeugt letztlich das stimmhafte bzw.
klingende Sprachsignal. Der Schwingungsanordnungs-Unter
block 13 erzeugt die Sprache, welche das Intonations
muster, das Betonungsmuster und die Dauer hat, die durch
die Vorläuferinformation angezeigt werden, indem er die
Einzelschwingungsinformationen verarbeitet, die er von dem
Decodier-Unterblock 9 empfangen hat. Zu diesem Zeitpunkt
werden einzelne Einzelschwingungen wiederholt und andere
weggelassen. Die Dauerdaten, die Intonationsmusterdaten
und die Betonungsmusterdaten, welche von der Vorläufer
information umfaßt werden, sind voneinander unabhängige,
hinweisgebende Informationen, während sie bei ihrer
Verarbeitung miteinander verknüpft werden müssen, da es
eine Verknüpfung zwischen diesen drei Informationen gibt,
wenn die Schwingung synthetisch mit der Schwingungs
information zusammengesetzt wird. Eines der wichtigsten
Probleme der Schwingungsanordnung besteht darin, welche
Einzelschwingung als diejenige Einzelschwingung auszu
wählen ist, die in jeder einzelnen Tonhöhenimpulsposition
der synthetisierten Sprache anzuordnen ist. Wenn nicht die
richtigen Einzelschwingungen ausgewählt und angeordnet
werden, kann keine gute Qualität der synthetisierten
Sprache erhalten werden. Weiter unten erfolgt eine
Beschreibung der Arbeitsweise des Schwingungsanordnungs-Unter
blockes 13, der das Verfahren der Einzelschwingungs
positionierung auf der Basis der Zeitverformung durch
führt, bei dem es sich gemäß der Erfindung um ein
Einzelschwingungsanordnungsverfahren handelt, welches in
der Lage ist, bei der Synthetisierung der synthetischen
Sprache eine hohe Qualität zu erreichen, und zwar unter
Verwendung der Sprachsegmentinformation, welche von dem
Sprachsegmentspeicherblock 5 erhalten wird.
Der Prozeß der Synthese der stimmhaften Sprachschwingung
mit Hilfe des Schwingungsanordnungs-Unterblockes 13 besteht
aus zwei Stufen, nämlich aus der Stufe der Positionierung
der Einzelschwingungen unter Verwendung der Zeitverfor
mungsfunktion und aus der Überlagerungsstufe zum Über
lagern der neu positionierten Einzelschwingungen.
Im Falle des Schwingungscode-Speicherverfahrens werden
also unter den in Form der Einzelschwingungsinformation
empfangenen Einzelschwingungssignalen die am besten
geeigneten für die Tonhöhenimpulspositionen der synthe
tischen Sprache ausgewählt und an ihren Tonhöhenimpuls
positionen positioniert, wobei jeweils ihre Verstärkung
eingestellt wird und wobei die synthetisierte Sprache
anschließend durch Überlagerung der Einzelschwingungen
erzeugt wird.
Bei dem Quellcode-Speicherverfahren werden das Tonhöhen-Im
pulssignal und die spektralen Enveloppenparameter für
jede Periode, die dem Tonhöhen-Impulssignal entspricht,
als Einzelschwingungsinformation empfangen. In diesem
Falle sind zwei synthetische Sprachanordnungsverfahren
möglich. Das erste Verfahren besteht darin, jede Einzel
schwingung dadurch zu erhalten, daß man dem Synthesefilter
die spektralen Enveloppenparameter und das Tonhöhen-Im
pulssignal für zwei bis vier Periodenintervallängen
zuführt, die erhalten werden, indem man die Prozesse
durchführt, die der rechten Seite des Puffers in Fig. 4
entsprechen, nämlich das oben beschriebene Parameter
verlängern und das Nullanhängen bezüglich der Einzel
schwingungsinformation, wobei die synthetische Sprache
dann mit den Einzelschwingungen nach einem Verfahren
angeordnet bzw. zusammengesetzt wird, welches identisch
mit dem Verfahren der Schwingungscodespeicherung ist.
Dieses Verfahren ist im wesentlichen dasselbe wie das
Anordnen der synthetischen Sprache nach dem Schwingungs
code-Speicherverfahren, weshalb hier auf eine separate
Beschreibung verzichtet wird. Das zweite Verfahren besteht
darin, ein synthetisches Tonhöhen-Impulsfolgesignal zu
erhalten oder ein synthetisches Anregungs- bzw. Erregungs
signal, welches eine flache, spektrale Enveloppe hat,
welches jedoch ein Tonhöhenmuster hat, welches von dem
jenigen des ursprünglichen periodischen Tonhöhen-Impuls
folgesignals verschieden ist, wobei unter den Tonhöhen-Im
pulssignalen diejenigen ausgewählt werden, die für die
Tonhöhenimpulspositionen der synthetischen Sprache am
besten geeignet sind, und wobei die Verstärkung für diese
Signale eingestellt wird. Anschließend werden die Signale
überlagert und zum Erhalten der synthetischen, spektralen
Enveloppenparameter ausgewertet, indem man die spektralen
Enveloppenparameter mit jedem Tonhöhenimpulssignal
verknüpft, welches das synthetische Tonhöhen-Impuls
folgesignal bildet oder mit dem synthetischen Anregungs
signal. Zum Erzeugen der synthetisierten Sprache werden
schließlich das synthetische Anregungssignal und die
synthetischen, spektralen Enveloppenparameter dem
Synthesefilter zugeführt. Diese beiden Verfahren sind im
wesentlichen identisch, mit der Ausnahme, daß die Sequenz
zwischen dem Synthesefilter und dem Überlagerungsschritt
in der Anordnung der synthetischen Sprache umgedreht ist.
Das vorstehend beschriebene, synthetische Sprachanord
nungsverfahren wird nachstehend unter Bezugnahme auf
Fig. 8 erläutert. Das Verfahren der Repositionierung der
Einzelschwingungen kann grundsätzlich in gleicher Weise
sowohl auf das Schwingungscode-Speicherverfahren als auch
auf das Quellcode-Speicherverfahren angewandt werden. Die
beiden Schwingungsanordnungsverfahren für die Erzeugung
synthetischer Sprache nach den beiden genannten Methoden
werden folglich unter Bezugnahme auf Fig. 8 gleichzeitig
beschrieben.
In Fig. 8A ist die Korrelation zwischen dem Original-Sprach
segment und dem zu synthetisierenden Sprachsegment
dargestellt. Die Original-Grenzzeitpunkte B1, B2 usw., die
durch gestrichelte Linien angedeutet sind, die Grenzzeit
punkte B′1, B′2 usw. des synthetisierten Klanges und die
Korrelation zwischen diesen Größen, die durch gestrichelte
Linien angedeutet ist, werden von der Zeitverformungs
information umfaßt, die von dem Dauersteuerungs-Unterblock 10
empfangen wird. Zusätzlich sind die Original-Tonhöhen-Im
pulspositionen P1, P2 usw. durch ausgezogene Linien
angezeigt und die Tonhöhenimpulspositionen P′1, P′2 der
synthetisierten Sprache sind in der Tonhöhenimpuls
positionsinformation enthalten, die von dem Tonhöhen
steuerungs-Unterblock 11 empfangen wird. Der Einfachheit
halber ist in Fig. 8 angenommen, daß die Tonhöhenperiode
der Originalsprache und die Tonhöhenperiode des synthe
tisierten Klanges jeweils konstant sind und daß letztere
das 1,5fache der ersteren beträgt.
Der Schwingungsanordnungs-Unterblock 13 bildet zunächst die
Zeitverformungsfunktion, wie dies in Fig. 8B gezeigt ist,
indem er die Original-Grenzzeitpunkte, die Grenzzeitpunkte
des synthetisierten Klanges und die Korrelation zwischen
diesen verwendet. Auf der Abszisse der Zeitverformungs
funktion ist die Zeit "t" des Original-Sprachsegments
dargestellt, während längs der Ordinate die Zeit "t′" des
zu synthetisierenden Sprachsegments aufgetragen ist. Da in
Fig. 8A beispielsweise das erste Untersegment und das
letzte Untersegment des Original-Sprachsegments zeitlich
auf 2/3 komprimiert bzw. auf das 2fache expandiert werden
sollten, erscheint die Korrelation zwischen diesen Größen
in Form von Linien mit der Steigung 2/3 bzw. 2 in der
Zeitverformungsfunktion gemäß Fig. 8B. Das zweite Unter
segment ändert sich in seiner Dauer nicht, so daß es in
der Zeitverformungsfunktion als Linie mit der Steigung 1
erscheint. Das zweite Untersegment des Sprachsegmentes,
welches synthetisiert werden soll, ergibt sich durch die
Wiederholung des Grenzzeitpunktes B1 des Original-Sprach
segments. Im Gegensatz dazu ist das dritte Untersegment
des Original-Sprachsegmentes in dem zu synthetisierenden
Sprachsegment auf einen Grenzzeitpunkt B′3 verändert. Die
Korrelationen erscheinen in diesen Fällen als vertikale
Linie bzw. als horizontale Linie. Die Zeitverformungs
funktion wird somit erhalten, indem man den Grenzzeitpunkt
des Original-Sprachsegmentes und den Grenzzeitpunkt des zu
synthetisierenden Sprachsegmentes vorgibt, der dem
Grenzzeitpunkt des Original-Sprachsegmentes entspricht,
und zwar in Form von zwei Punkten, und indem man diese
Punkte über eine Linie miteinander verbindet. In einigen
Fällen kann es möglich sein, daß die Korrelation zwischen
den Untersegmenten näher an die Wirklichkeit angenähert
wird, indem die Punkte über eine sanfte Kurve verbunden
werden.
Bei dem Schwingungscode-Speicherverfahren findet der
Schwingungsanordnungs-Unterblock 13 den Original-Zeitpunkt,
der der Tonhöhenimpulsposition des synthetisierten Klanges
entspricht, heraus, indem er die Zeitverformungsfunktion
verwendet, und findet außerdem die Einzelschwingung
heraus, welche die Tonhöhen-Impulsposition hat, die am
nächsten an dem Original-Zeitpunkt liegt, und ordnet die
Einzelschwingung dann an der Tonhöhen-Impulsposition des
synthetischen Klanges an.
In der nächsten Stufe multipliziert der Schwingungs
anordnungs-Unterblock 13 jedes positionierte Einzelschwin
gungssignal mit der Verstärkung, die der Tonhöhenimpuls
position des Einzelschwingungssignals entspricht, welches
für die Verstärkungsinformation herausgefunden wurde.
Schließlich erhält der Unterblock den gewünschten
synthetischen Klang durch Überlagerung der hinsichtlich
der Verstärkung eingestellten Einzelschwingungssignale
durch einfache Addition derselben. In Fig. 3Q ist der
synthetische Klang gezeigt, der durch einen derartigen
Überlagerungsprozeß für den Fall erzeugt wurde, daß die
Einzelschwingungen gemäß Fig. 3I, Fig. 3L und Fig. 3(O) in
der Weise neu positioniert werden, wie dies in Fig. 3P
gezeigt ist.
In ähnlicher Weise findet der Schwingungsanordnungs-Unter
block bei dem Quellcode-Speicherverfahren den Original-
Zeitpunkt heraus, der der Tonhöhenimpulsposition des
synthetischen Klanges entspricht, indem er die Zeitver
formungsfunktion verwendet und dasjenige Tonhöhenimpuls
signal herausfindet, welches diejenige Tonhöhenimpuls
position besitzt, die am nächsten an dem Original-Zeit
punkt liegt, und indem er dann das Tonhöhenimpulssignal an
dieser Tonhöhenimpulsposition des synthetischen Klanges
anordnet.
Die Zahl der Tonhöhenimpulssignale bzw. der Einzelschwin
gungen, die auf diese Weise an jeder Tonhöhenimpuls
position des zu synthetisierend 19539 00070 552 001000280000000200012000285911942800040 0002004237563 00004 19420en Sprachsegmentes angeord
net werden, ist in Fig. 8A und 8B gezeigt. Wie man an
diesen Zeichnungsfiguren sieht, werden einige der
Einzelschwingungen, die das Original-Sprachsegment bilden,
aufgrund der Kompression der Untersegmente weggelassen,
während einige wegen der Expansion der Untersegmente
wiederholt verwendet werden. In Fig. 8 wurde angenommen,
daß das Tonhöhenimpulssignal für jede Periode durch
Segmentieren unmittelbar hinter jedem Tonhöhenimpuls
erhalten wurde.
Die Überlagerung der Einzelschwingungen bei dem
Schwingungscode-Speicherverfahren ist äquivalent zur
Überlagerung der Tonhöhen-Impulssignale bei dem
Quellcode-Speicherverfahren. Daher multipliziert der
Schwingungsanordnungs- bzw. -positionierungs-Unterblock im
Falle des Quellcode-Speicherverfahrens jedes neu positio
nierte Tonhöhen-Impulssignal mit der Verstärkung, welche
der Tonhöhenimpulsposition des neu angeordneten Tonhöhen
impulssignals entspricht und die aus der Verstärkungs
information ermittelt wurde, wobei schließlich das
gewünschte, synthetische Anregungssignal erhalten wird,
indem die hinsichtlich der Verstärkung eingestellten
Tonhöhenimpulssignale überlagert werden. Da jedoch die
meiste Energie an dem Tonhöhenimpuls konzentriert ist,
kann es in diesem Falle möglich sein, das synthetische
Anregungssignal zu erzeugen, indem zunächst ein synthe
tisches Anregungssignal ohne Verstärkungseinstellung
erhalten wird, indem man die positionierten Tonhöhen
impulssignale überlagert und indem man dann das synthe
tische Anregungssignal ohne Verstärkungseinstellung mit
der Energiekontur multipliziert, die an dem Energiesteue
rungs-Unterblock erzeugt wurde, anstatt Tonhöhenimpuls
signale mit konstanter Verstärkungseinstellung zu über
lagern. Fig. 3R zeigt das synthetische Anregungssignal,
welches erhalten wird, wenn die Tonhöhenimpulssignale
gemäß Fig. 3H, 3K und 3N nach einem solchen Verfahren neu
positioniert werden, so daß das Tonhöhenmuster dasselbe
wird wie für den Fall gemäß Fig. 3P.
Bei dem Quellcode-Speicherverfahren muß der Schwingungs
anordnungs-Unterblock 13 die synthetischen, spektralen
Enveloppenparameter erzeugen, wobei zwei Wege möglich
sind, nämlich das temporäre Kompressions- und Expansions-Verfahren,
welches in Fig. 8A gezeigt ist, und das syn
chrone Korrespondenz-(Entsprechungs-)Verfahren, welches in
Fig. 8B gezeigt ist. Wenn die spektralen Enveloppenpara
meter über der Zeit kontinuierliche Funktionen sind und
die Enveloppe des Sprachspektrums vollständig darstellen,
dann können die synthetischen, spektralen Enveloppenpara
meter erhalten werden, indem man die ursprünglichen,
spektralen Enveloppenparameter einfach temporär
komprimiert oder expandiert, und zwar Untersegment für
Untersegment. In Fig. 8A ist der spektrale Enveloppen
parameter, der durch das sequentielle Analyseverfahren
erhalten wird, als punktierte Kurve dargestellt, während
der spektrale Enveloppenparameter, der durch Annäherung
der Kurve durch Verbinden verschiedener Punkte, wie z. B.
der Punkte A, B, C usw., mit Liniensegmenten codiert
wurde, als ausgezogene Linie dargestellt ist. Da aufgrund
der temporären Kompression und Expansion lediglich die
temporäre Position jedes Punktes variiert wird, wobei sich
die Punkte A′, B′, C′ usw. ergeben, ist ein solches
Liniensegment-Codierverfahren, besonders für den Fall der
temporären Kompression und Expansion geeignet. Im Falle
der Anwendung des Block-Analyseverfahrens oder des
tonhöhensynchronen Analyseverfahrens kann jedoch das
temporäre Kompressions- und Expansions-Verfahren nicht die
gewünschte synthetische Klangqualität ergeben, da die
spektrale Anpassung nicht exakt ist und die temporäre
Veränderung der spektralen Enveloppenparameter diskon
tinuierlich ist. Es wird daher bevorzugt, das synchrone
Korrespondenzverfahren anzuwenden, bei dem die synthe
tischen, spektralen Enveloppenparameter dadurch positio
niert werden, daß die spektralen Enveloppenparameter für
jedes Tonhöhenperiodenintervall mit jedem entsprechenden
Tonhöhenimpulssignal korreliert werden, wie dies in
Fig. 8B gezeigt ist. Dies bedeutet, daß die synthetischen,
spektralen Enveloppenparameter gewonnen werden können,
indem man die spektralen Enveloppenparameter für ein
Periodenintervall in demselben Periodenintervall für jedes
positionierte Tonhöhenimpulssignal anordnet, weil die
Einzelwelle bei dem Schwingungscode-Speicherverfahren
äquivalent zu dem Tonhöhenimpulssignal und den korres
pondierenden, spektralen Enveloppenparametern für dasselbe
Tonhöhenperiodenintervall ist. In Fig. 8B sind k1, bei dem
es sich um einen der spektralen Enveloppenparameter
handelt, und k′1, bei dem es sich um den k1 entspre
chenden, synthetischen, spektralen Enveloppenparameter
handelt, in Form einer ausgezogenen Linie bzw. einer
punktierten Linien dargestellt, wobei k′1 durch die
genannten Verfahren-für das Block-Analyseverfahren und das
tonhöhensynchrone Analyseverfahren gewonnen wurde.
Natürlich kann der synthetische, spektrale Enveloppen
parameter auch nach dem Verfahren gemäß Fig. 8A angeordnet
werden, wenn er aus dem spektralen Enveloppenparameter
durch das sequentielle Analyseverfahren erhalten wurde.
Wenn beispielsweise das Tonhöhenimpulssignal für jede
Periode so angeordnet wurde, wie dies in Fig. 3R gezeigt
ist, dann werden die spektralen Enveloppenparameter für
jede Periode in Übereinstimmung mit den Tonhöhenimpuls
signalen so angeordnet, wie dies in Fig. 3S gezeigt ist.
Zum Zeitpunkt der Anordnung des synthetischen Anregungs
signals und der synthetischen, spektralen Enveloppenpara
meter nach dem Quellcode-Speicherverfahren ergibt sich,
wenn die Tonhöhenperiode des synthetisierten Klanges
länger ist als die ursprüngliche Tonhöhenperiode, ein
Leerintervall zwischen zwei benachbarten Tonhöhenperioden
intervallen, wie dies in Fig. 8 in schrägen Linien gezeigt
ist. Wenn die Tonhöhenperiode des synthetisierten Klanges
kürzer ist als die Original-Tonhöhenperiode, ergeben sich
Überlappungsintervalle, in welchen sich zwei benachbarte
Tonhöhenperiodenintervalle überlappen. Das Überlappungs
intervall "fb" und das Leerintervall "gh" sind beispiels
weise in Fig. 3R und Fig. 3S eingezeichnet. Wie oben
beschrieben, sollen die neu positionierten Tonhöhen
impulssignale zum Zeitpunkt der Überlappung überlagert
werden. Es ist jedoch vernünftig, wenn die in Über
einstimmung mit den Tönhöhenimpulssignalen neu positio
nierten, spektralen Enveloppenparameter zum Zeitpunkt der
Überlappung gemittelt werden, anstatt überlagert zu
werden. Daher wird bezüglich der synthetischen, spektralen
Enveloppenparameter unter Berücksichtigung der Leer
intervalle und der Überlappungsintervalle folgendes
Anordnungsverfahren für das synthetische Anregungssignal
angewandt:
Die Abtastwerte mit dem Wert 0 werden zum Zeitpunkt der Anordnung des synthetischen Anregungssignals in das Leerintervall eingesetzt. Im Falle eines stimmhaften Friktionslautes kann ein natürlicherer Klang synthetisiert werden, wenn in das Leerintervall anstelle des Abtast wertes mit dem Wert 0 ein mit Hilfe eines Hochpaßfilters gefiltertes Rauschsignal eingesetzt wird. Die neu positionierten Tonhöhenimpulssignale müssen in dem Überlappungsintervall addiert werden. Da ein solches Additionsverfahren lästig ist, ist es angenehm, ein Rumpfbildungsverfahren anzuwenden, gemäß welchem unter den beiden sich überlappenden Tonhöhenimpulssignalen im Überlappungsintervall nur ein Signal ausgewählt wird. Die Qualität des synthetisierten Klanges wird bei Anwendung des Rumpfbildungsverfahrens nicht signifikant ver schlechtert. In Fig. 3R wurde das Leerintervall "gh" mit Null-Proben gefüllt und in dem Überlappungsintervall "fb" wurde das Tonhöhenimpulssignal des früheren Intervalls ausgewählt. Im Falle des Auftretens einer Überlappung wird also das frühere der beiden einander überlappenden Inter valle jedes der Tonhöhenimpulssignale abgetrennt, und dieses Verfahren ist physikalisch bedeutungsvoller im Vergleich zu dem Verfahren, bei dem die Tonhöhenimpuls signale erzeugt werden, indem man die Segmentierung unmittelbar vor dem Tonhöhenimpuls durchführt, und bei dem zum Zeitpunkt der Synthese des letzteren unter den Ton höhenimpulssignalen im Überlappungsintervall abgetrennt wird, wenn diese Signale sich überlappen, wie vorstehend beschrieben. In der Praxis führt jedoch keines der beiden Verfahren zu einer signifikanten Differenz in der Klangqualität des synthetisierten Klanges.
Die Abtastwerte mit dem Wert 0 werden zum Zeitpunkt der Anordnung des synthetischen Anregungssignals in das Leerintervall eingesetzt. Im Falle eines stimmhaften Friktionslautes kann ein natürlicherer Klang synthetisiert werden, wenn in das Leerintervall anstelle des Abtast wertes mit dem Wert 0 ein mit Hilfe eines Hochpaßfilters gefiltertes Rauschsignal eingesetzt wird. Die neu positionierten Tonhöhenimpulssignale müssen in dem Überlappungsintervall addiert werden. Da ein solches Additionsverfahren lästig ist, ist es angenehm, ein Rumpfbildungsverfahren anzuwenden, gemäß welchem unter den beiden sich überlappenden Tonhöhenimpulssignalen im Überlappungsintervall nur ein Signal ausgewählt wird. Die Qualität des synthetisierten Klanges wird bei Anwendung des Rumpfbildungsverfahrens nicht signifikant ver schlechtert. In Fig. 3R wurde das Leerintervall "gh" mit Null-Proben gefüllt und in dem Überlappungsintervall "fb" wurde das Tonhöhenimpulssignal des früheren Intervalls ausgewählt. Im Falle des Auftretens einer Überlappung wird also das frühere der beiden einander überlappenden Inter valle jedes der Tonhöhenimpulssignale abgetrennt, und dieses Verfahren ist physikalisch bedeutungsvoller im Vergleich zu dem Verfahren, bei dem die Tonhöhenimpuls signale erzeugt werden, indem man die Segmentierung unmittelbar vor dem Tonhöhenimpuls durchführt, und bei dem zum Zeitpunkt der Synthese des letzteren unter den Ton höhenimpulssignalen im Überlappungsintervall abgetrennt wird, wenn diese Signale sich überlappen, wie vorstehend beschrieben. In der Praxis führt jedoch keines der beiden Verfahren zu einer signifikanten Differenz in der Klangqualität des synthetisierten Klanges.
Zum Zeitpunkt der Anordnung der synthetischen, spektralen
Enveloppenparameter ist es ideal, daß das Leerintervall
mit den Werten gefüllt ist, welche sich linear von einem
Wert des spektralen Enveloppenparameters an dem Endpunkt
des vorausgehenden Periodenintervalls bis auf einen Wert
des spektralen Enveloppenparameters am Anfangspunkt der
folgenden Periode ändern, und wenn sich in dem Über
lappungsintervall die spektralen Enveloppenparameter
allmählich von dem spektralen Enveloppenparameter der
vorangehenden Periode auf denjenigen der folgenden Periode
ändern, und zwar durch Verwendung des Interpolations
verfahrens, bei dem der Mittelwert der beiden sich
überlappenden, spektralen Enveloppenparameter mit
Gewichtungswerten erhalten wird, welche sich über der Zeit
linear ändern. Da diese Verfahren jedoch mühsam sind, kann
das folgende Verfahren verwendet werden, welches bequemer
ist und die Klangqualität nicht signifikant ver
schlechtert. Nach diesem Verfahren kann für den spektralen
Enveloppenparameter in dem Leerintervall der Wert des
spektralen Enveloppenparameters am Endpunkt des
vorausgehenden Periodenintervalls wiederholt verwendet
werden, wie in Fig. 8B, oder es kann der Wert des
spektralen Enveloppenparameters am Anfangspunkt des
folgenden Periodenintervalls verwendet werden. Außerdem
kann der arithmetische Mittelwert der beiden spektralen
Enveloppenparameter verwendet werden, oder es können die
Werte der spektralen Enveloppenparameter am Endpunkt und
am Anfangspunkt des vorausgehenden und des folgenden
Periodenintervalls vor und hinter der Mitte des Leer
intervalls verwendet werden, wobei die Mitte die Grenze
darstellt. Für den spektralen Enveloppenparameter im
Überlappungsintervall kann einfach der eine oder andere
Teil ausgewählt werden, welcher dem ausgewählten
Tonhöhenimpuls entspricht. In Fig. 3S wurden beispiels
weise, da das Tonhöhenimpulssignal für das vorausgehende
Periodenintervall als das synthetische Anregungssignal in
dem Überlappungsintervall "fb" ausgewählt wurde, die
Parameterwerte für das vorausgehende Periodenintervall
gleichermaßen als synthetische, spektrale Enveloppen
parameter ausgewählt. In dem Leerintervall "gh" in Fig. 8B
und 3S wurden die Parameterwerte der spektralen Envelop
penparameter am Ende des vorangehenden Periodenintervalls
wiederholt verwendet. Im Falle von Fig. 3S, wo der spek
trale Enveloppenparameter bezüglich der Zeit eine konti
nuierliche Funktion ist, führt das Verfahren, bei dem der
letzte Wert des vorangehenden Periodenintervalls oder der
erste Wert des folgenden Periodenintervalls während des
Leerintervalls wiederholt verwendet werden, und das
Verfahren, bei dem die beiden Werte während des Leer
intervalls linear variiert werden, zu demselben Ergebnis.
Wenn erst einmal alle Elemente, nämlich das synthetische
Anregungssignal und die synthetischen, spektralen Envelop
penparameter für ein Segment angeordnet sind, glättet der
Schwingungsanordnungs-Unterblock 13 normalerweise beide Enden
der angeordneten synthetischen, spektralen Enveloppenpara
meter unter Anwendung des Interpolationsverfahrens derart,
daß die Änderung des spektralen Enveloppenparameters
zwischen benachbarten Sprachsegmenten glatt verläuft. Wenn
das synthetische Anregungssignal und die synthetischen,
spektralen Enveloppenparameter, die in der vorstehend
beschriebenen Weise angeordnet wurden, als Anregungssignal
bzw. als Filterkoeffizienten in das Synthesefilter des
Schwingungsanordnungs-Unterblockes eingegeben werden, dann
wird von dem Synthesefilter schließlich der gewünschte
synthetische Klang abgegeben. Das synthetische Anregungs
signal, welches erhalten wird, wenn die Tonhöhenimpuls
signale gemäß Fig. 3H, 3K und 3N derart neu angeordnet
werden, daß das Tonhöhenmuster dasselbe ist wie in
Fig. 3P, ist in Fig. 3R gezeigt, und die synthetischen,
spektralen Enveloppenparameter, die aus den entsprechenden
spektralen Enveloppenparametern für eine Periode gemäß
Fig. 3G, 3J und 3M zu den Tonhöhenimpulssignalen in dem
synthetischen Anregungssignal gemäß Fig. 3R erhalten
werden, sind in Fig. 3S gezeigt. Wenn man ein zeit
variables Synthesefilter herstellt, welches als Filter
koeffizienten die Reflexionskoeffizienten besitzt, die
sich gemäß Fig. 3S ändern, und wenn man an dieses Filter
als Eingangssignal das synthetische Anregungssignal gemäß
Fig. 3R anlegt, dann erhält man den synthetisierten Klang
gemäß Fig. 3T, welcher nahezu gleich dem synthetisierten
Klang gemäß Fig. 3P ist.
Wenn man nun das Schwingungscode-Speicherverfahren und das
Quellcode-Speicherverfahren vergleicht, dann können die
beiden Verfahren als im Prinzip identisch angesehen
werden. Wenn man jedoch die Sprachsegmente in schlechter
Verbindung miteinander verkettet, ergibt sich ein Unter
schied, derart, daß es möglich ist, den glatt verbundenen
Klang durch Glätten der spektralen Enveloppenparameter zu
synthetisieren, indem man im Falle des Quellcode-Speicher
verfahrens das Interpolationsverfahren verwendet, was
jedoch im Falle des Schwingungscode-Speicherverfahrens
unmöglich ist. Weiterhin benötigt das Quellcode-Speicher
verfahren einen kleineren Speicher als das Schwingungs
code-Speicherverfahren, da die Schwingung von nur einer
Periodenlänge pro Einzelwelle in dem Quellcode-Speicher
verfahren gespeichert werden muß, und dieses den Vorteil
hat, daß es einfach ist, die Funktion des Syntheseblockes 6
für den stimmhaften Klang und die Funktion des Synthese
blockes 7 für den oben beschriebenen stimmlosen Klang zu
integrieren. Im Falle der Verwendung des homomorphen
Analyseverfahrens kann das Cepstrum oder die Impulsantwort
als Satz spektraler Enveloppenparameter bei dem Schwin
gungscode-Speicherverfahren verwendet werden, während es
bei dem Quellcode-Speicherverfahren praktisch unmöglich
ist, das Cepstrum zu verwenden, welches die Berechnung auf
Blockbasis erforderlich macht, da die Dauer des Synthese
blockes, welcher die Werte der konstanten, synthetischen,
spektralen Enveloppenparameter enthält, Block für Block
variiert, wie dies an dem synthetischen, spektralen
Enveloppenparameter gesehen werden kann, der in Fig. 8B
durch eine ausgezogene Linie dargestellt ist. Das
Quellcode-Speicherverfahren gemäß der vorliegenden
Erfindung verwendet den Tonhöhenimpuls einer Periode als
Anregungsimpuls. Dieses Verfahren ist jedoch von dem
vorbekannten, regulären Tonhöhenimpuls-Anregungsverfahren
verschieden, welches darauf abzielt, den Impuls durch
einen Tonhöhenabtastimpuls zu ersetzen, und zwar insofern
als gemäß der Erfindung der Tonhöhenimpuls jeder Periode
und die spektralen Enveloppenparameter jeder Periode, die
dem Tonhöhenimpuls entsprechen, vereinigt werden, um die
Einzelschwingung für jede Periode zu erzeugen.
Wie aus der vorstehenden Beschreibung deutlich wird, ist
das erfindungsgemäße Verfahren für das Codieren und
Decodieren des Sprachsegments des Text-in-Sprache-Syn
thesesystems des Sprachsegment-Syntheseverfahrens
geeignet. Da das erfindungsgemäße Verfahren ferner ein
Verfahren ist, bei dem die Gesamtdauer und die Teildauer
und die Tonhöhenmuster beliebiger, phonetischer Einheiten,
wie Phoneme, Halbsilben, Diphone und Untersegmente etc.,
welche die Sprache bilden, frei und unabhängig geändert
werden können, kann es in einem Sprachgeschwindigkeits
änderungssystem oder in einem Zeitskalamodifikationssystem
verwendet werden, welches die Sprechgeschwindigkeit in
einem konstanten Verhältnis derart ändert, daß sie
schneller oder langsamer als die Originalgeschwindigkeit
ist, und zwar ohne das Intonationsmuster der Sprache zu
ändern. Außerdem kann das Verfahren auch in einem
Singstimmensynthesesystem verwendet werden oder in einem
sehr langsamen Sprachcodiersystem, wie z. B. einem
phonetischen Vocoder oder einem Segmentvocoder, welcher
die Sprache überträgt, indem er die Dauer und die Tonhöhe
von Schablonen-Sprachsegmenten ändert, die vorab
gespeichert werden.
Ein anderer Anwendungsbereich der vorliegenden Erfindung
besteht in einem musikalischen Klangsynthesesystem, wie
z. B. einem elektronischen Musikinstrument nach dem
Abtastverfahren. Da nahezu der gesamte Klang im Bereich
elektronischer Musikinstrumente digital schwingungs
codiert, gespeichert und reproduziert wird, wenn er über
die Tasten usw. aufgerufen wird, ergibt sich bei den
bekannten Abtastverfahren für elektronische Musik
instrumente der Nachteil, daß für die Speicherung des
musikalischen Klanges eine große Menge an Speicherplatz
erforderlich ist. Wenn jedoch die periodische
Schwingungszerlegung und das Einzelschwingungs-Re
positionierungsverfahren gemäß vorliegender Erfindung
angewandt werden, dann kann die erforderliche Speicher
platzmenge beträchtlich reduziert werden, da die Klänge
verschiedener Tonhöhen durch Abtasten der Töne lediglich
einiger, weniger Arten von Tonhöhen synthetisiert werden
können. Der musikalische Klang besteht typischerweise aus
drei Teilen, d. h. einem Anstieg, einem im wesentlichen
kontinuierlichen Hauptteil und einem Abfall. Da sich die
Spektrum-Enveloppe nicht nur zwischen den drei Teilen
allmählich ändert, sondern auch während des Hauptteils,
ändert sich auch das Timbre entsprechend. Wenn musika
lische Klangsegmente daher nach dem oben beschriebenen
Verfahren der periodischen Schwingungszerlegung codiert
und gespeichert werden, indem die geeigneten Punkte, an
denen sich das Spektrum erheblich ändert, als Grenzzeit
punkte gespeichert werden, und wenn der Klang dann nach
dem oben beschriebenen Verfahren der Zeitverformung auf
der Basis des Einzelschwindungsrepositionierungsverfahrens
synthetisiert wird, wenn eine entsprechende Anforderung
von der Tastatur usw. eintrifft, dann kann ein musika
lischer Klang mit beliebiger, erwünschter Tonhöhe
synthetisiert werden. In den Fällen, in denen ein
musikalisches Klangsignal jedoch nach dem linearen,
vorhersagenden Analyseverfahren entfaltet wird, wird wegen
der Tendenz, daß die exakte, spektrale Enveloppe nicht
erhalten wird und daß der Tonhöhenimpuls nicht scharf ist,
empfohlen, die Anzahl der für die Analyse verwendeten,
spektralen Enveloppenparameter und die Differenz des
Signals vor der Analyse zu reduzieren.
Claims (6)
1. Verfahren zum Synthetisieren von Sprache,
- - wobei Einzelschwingungen eines periodischen oder
quasi-periodischen Original-Signals gebildet werden,
- - indem das Original-Signal in eine durch spektrale Enveloppenparameter dargestellte Impulsantwort un ter Verwendung einer Spektrum-Abschätztechnik und in ein periodisches oder quasi-periodisches Tonhö hen-Impulsfolgesignal mit einer nahezu flachen, spektralen Enveloppe entfaltet wird,
- - indem das Tonhöhen-Impulsfolgesignal in Tonhöhenim pulssignale für jede Periode segmentiert wird, so daß in jeder Periode ein Tonhöhenimpuls enthalten ist,
- - indem an jedes Tonhöhenimpulssignal Abtastwerte mit dem Wert 0 zur Bildung eines Anregungssignals ange hängt werden, und
- - indem jedes Anregungssignal mit der zeitlich ent sprechenden Impulsantwort zur Bildung einer Einzel schwingung gefaltet wird,
- - wobei die Einzelschwingungen codiert gespeichert wer den, und
- - wobei zum Synthetisieren der Sprache decodierte Ein zelschwingungen an gewünschter Dauer und Tonhöhenfre quenz entsprechenden Zeitpunkten positioniert und überlagert werden.
2. Verfahren zum Synthetisieren von Sprache,
- - wobei Einzelschwingungen eines periodischen oder
quasi-periodischen Original-Signals gebildet werden,
- - indem das Original-Signal in eine durch spektrale Enveloppenparameter dargestellte Impulsantwort un ter Verwendung einer Spektrum-Abschätztechnik und in ein periodisches oder quasi-periodisches Tonhö hen-Impulsfolgesignal mit einer nahezu flachen, spektralen Enveloppe entfaltet wird,
- - indem das Tonhöhen-Impulsfolgesignal in Tonhöhen impulssignale für jede Periode segmentiert wird, so daß in jeder Periode ein Tonhöhenimpuls enthalten ist,
- - indem die Enveloppenparameter und die Tonhöhen impulssignale codiert gespeichert werden,
- - indem zum Zeitpunkt der Synthese an jedes deco dierte Tonhöhenimpulssignal Abtastwerte mit dem Wert 0 zur Bildung eines Anregungssignals angehängt werden, und
- - indem jedes Anregungssignal mit den zeitlich ent sprechenden, decodierten Enveloppenparametern zur Bildung einer Einzelschwingung gefaltet wird, und
- - wobei zum Synthetisieren der Sprache die Einzelschwin gungen an gewünschter Dauer und Tonhöhenfrequenz ent sprechenden Zeitpunkten positioniert und überlagert werden.
3. Verfahren zum Synthetisieren von Sprache,
- - wobei ein periodisches oder quasi-periodisches Origi nal-Signal in eine durch spektrale Enveloppenparameter dargestellte Impulsantwort unter Verwendung einer Spektrum-Abschätztechnik und in ein periodisches oder quasi-periodisches Tonhöhen-Impulsfolgesignal mit einer nahezu flachen, spektralen Enveloppe entfaltet wird,
- - wobei das Tonhöhen-Impulsfolgesignal in Tonhöhen impulssignale für jede Periode segmentiert wird, so daß in jeder Periode ein Tonhöhenimpuls enthalten ist,
- - wobei die Enveloppenparameter und die Tonhöhenimpuls signale codiert gespeichert werden,
- - wobei zum Zeitpunkt der Synthese ein synthetisches An
regungssignal gebildet wird,
- - indem die decodierten Tonhöhenimpulssignale an ei nem gewünschten Tonhöhenmuster entsprechenden Zeit punkten angeordnet werden, wobei auftretende Leerintervalle, wenn gewünschte Tonhöhenintervalle länger als Original-Tonhöhenperioden sind, mit Null-Abtastwerten gefüllt werden, und wobei in ei nem Überlappungsintervall, welches auftritt, wenn die gewünschte Tonhöhenperiode länger als die Ori ginal-Tonhöhenperiode ist, die einander überlappen den Tonhöhenimpulssignale zueinander addiert werden oder eines dieser Signale ausgewählt wird,
- - wobei eine einem Satz von decodierten Enveloppenpara metern entsprechende zeitvariable Impulsantwort gebil det wird,
- - entweder indem der Satz von Zeitfunktionen der En veloppenparameter von Periode zu Periode in Abhän gigkeit davon, ob die Dauer einer nachfolgenden Periode in einem zu synthetisierenden Sprachsegment kürzer oder länger als die entsprechende Periode im Original-Sprachsegment ist, komprimiert oder expan diert wird,
- - oder indem der Satz von Zeitfunktionen der Envelop
penparameter für jede Periode synchron mit dem dar
auf abgestimmten Tonhöhenimpulssignal der
entsprechenden Periode positioniert wird, wobei ein
synthetischer spektraler Enveloppenparameter in ei
nem Leerintervall erhalten wird, indem
- - der Wert des Enveloppenparameters am Endpunkt der vorangehenden Periode oder
- - der Wert des Enveloppenparameters am ersten Punkt der folgenden Periode wiederholt oder
- - der Mittelwert dieser beiden Werte verwendet oder
- - das Leerintervall mit Werten, die die beiden ge nannten Werte glatt miteinander verbinden, ge füllt wird oder
- - die Werte des Enveloppenparameters an dem Ende der vorangehenden Periode und am Anfang der fol genden Periode vor und hinter dem Mittelpunkt des Leerintervalls wiederholt werden,
- und wobei der synthetische Enveloppenparameter in
einem Überlappungsintervall erhalten wird, indem
- - einer der einander überlappenden Enveloppenpara meter ausgewählt oder
- - der Mittelwert der beiden sich überlappenden En veloppenparameter verwendet wird, und
- - wobei zum Synthetisieren der Sprache das synthetische Anregungssignal mit der gebildeten Impulsantwort ge faltet wird.
4. Verfahren nach einem der voranstehenden Ansprüche, da
durch gekennzeichnet, daß die Tonhöhenimpulssignale
erhalten werden, indem das Tonhöhen-Impulsfolgesignal an
Punkten segmentiert wird, die jeweils um ein konstantes
Zeitintervall hinter einem Tonhöhenimpuls liegen.
5. Verfahren nach einem der voranstehenden Ansprüche, da
durch gekennzeichnet, daß das Original-Signal in Sprach
segmente unterteilt wird und daß Original-Grenzzeitpunkte
jedes Sprachsegments und die Tonhöhenimpulspositionen der
Einzelschwingungen oder der Tonhöhenimpulssignale jedes
Sprachsegments gespeichert werden.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß
zur Auswahl der jeweils an den gewünschter Dauer und Ton
höhenfrequenz entsprechenden Zeitpunkten zu positionie
renden Einzelschwingungen oder Tonhöhenimpulssignale eine
Zeitverformungsfunktion gebildet wird, indem die gespei
cherten Original-Grenzzeitpunkte und gewünschte Grenz
zeitpunkte miteinander verglichen werden, und daß durch
Verwendung der Zeitverformungsfunktion die Einzel
schwingungen oder Tonhöhenimpulssignale ausgewählt
werden, deren gespeicherte Tonhöhenimpulspositionen den
mittels der Zeitverformungsfunktion aus gewünschten
Tonhöhenimpulspositionen bestimmten Original-Zeitpunkten
am nächsten benachbart sind.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1019910019617A KR940002854B1 (ko) | 1991-11-06 | 1991-11-06 | 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE4237563A1 DE4237563A1 (de) | 1993-05-19 |
DE4237563C2 true DE4237563C2 (de) | 1996-03-28 |
Family
ID=19322321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE4237563A Expired - Fee Related DE4237563C2 (de) | 1991-11-06 | 1992-11-06 | Verfahren zum Synthetisieren von Sprache |
Country Status (17)
Country | Link |
---|---|
US (1) | US5617507A (de) |
JP (1) | JP2787179B2 (de) |
KR (1) | KR940002854B1 (de) |
AT (1) | AT400646B (de) |
BE (1) | BE1005622A3 (de) |
CA (1) | CA2081693A1 (de) |
DE (1) | DE4237563C2 (de) |
DK (1) | DK134192A (de) |
ES (1) | ES2037623B1 (de) |
FR (1) | FR2683367B1 (de) |
GB (1) | GB2261350B (de) |
GR (1) | GR1002157B (de) |
IT (1) | IT1258235B (de) |
LU (1) | LU88189A1 (de) |
NL (1) | NL9201941A (de) |
PT (1) | PT101037A (de) |
SE (1) | SE9203230L (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10393463B4 (de) * | 2002-10-10 | 2010-07-01 | Hiroshi Rikimaru | Hörhilfe |
Families Citing this family (220)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4227826C2 (de) * | 1991-08-23 | 1999-07-22 | Hitachi Ltd | Digitales Verarbeitungsgerät für akustische Signale |
CA2119397C (en) * | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
US5704000A (en) * | 1994-11-10 | 1997-12-30 | Hughes Electronics | Robust pitch estimation method and device for telephone speech |
US5864812A (en) * | 1994-12-06 | 1999-01-26 | Matsushita Electric Industrial Co., Ltd. | Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments |
US5592585A (en) * | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
DE69615832T2 (de) * | 1995-04-12 | 2002-04-25 | British Telecomm | Sprachsynthese mit wellenformen |
DE19538852A1 (de) * | 1995-06-30 | 1997-01-02 | Deutsche Telekom Ag | Verfahren und Anordnung zur Klassifizierung von Sprachsignalen |
US6591240B1 (en) * | 1995-09-26 | 2003-07-08 | Nippon Telegraph And Telephone Corporation | Speech signal modification and concatenation method by gradually changing speech parameters |
CA2188369C (en) * | 1995-10-19 | 2005-01-11 | Joachim Stegmann | Method and an arrangement for classifying speech signals |
US6240384B1 (en) * | 1995-12-04 | 2001-05-29 | Kabushiki Kaisha Toshiba | Speech synthesis method |
DE19610019C2 (de) * | 1996-03-14 | 1999-10-28 | Data Software Gmbh G | Digitales Sprachsyntheseverfahren |
US5822370A (en) * | 1996-04-16 | 1998-10-13 | Aura Systems, Inc. | Compression/decompression for preservation of high fidelity speech quality at low bandwidth |
EP0811906B1 (de) * | 1996-06-07 | 2003-08-27 | Hewlett-Packard Company, A Delaware Corporation | Sprachsegmentierung |
JP3242331B2 (ja) * | 1996-09-20 | 2001-12-25 | 松下電器産業株式会社 | Vcv波形接続音声のピッチ変換方法及び音声合成装置 |
JPH10149199A (ja) * | 1996-11-19 | 1998-06-02 | Sony Corp | 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体 |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
EP0895672B1 (de) * | 1997-02-10 | 2006-11-22 | Koninklijke Philips Electronics N.V. | Kommunikationsnetzwerk zur übertragung von sprachsignalen |
JPH10260692A (ja) * | 1997-03-18 | 1998-09-29 | Toshiba Corp | 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム |
KR100269255B1 (ko) * | 1997-11-28 | 2000-10-16 | 정선종 | 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법 |
WO1998048408A1 (en) * | 1997-04-18 | 1998-10-29 | Koninklijke Philips Electronics N.V. | Method and system for coding human speech for subsequent reproduction thereof |
US5973252A (en) * | 1997-10-27 | 1999-10-26 | Auburn Audio Technologies, Inc. | Pitch detection and intonation correction apparatus and method |
US6064960A (en) | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6012025A (en) * | 1998-01-28 | 2000-01-04 | Nokia Mobile Phones Limited | Audio coding method and apparatus using backward adaptive prediction |
US6073094A (en) * | 1998-06-02 | 2000-06-06 | Motorola | Voice compression by phoneme recognition and communication of phoneme indexes and voice features |
US6199042B1 (en) * | 1998-06-19 | 2001-03-06 | L&H Applications Usa, Inc. | Reading system |
WO2000028468A1 (en) * | 1998-11-09 | 2000-05-18 | Datascope Investment Corp. | Improved method for compression of a pulse train |
US6253182B1 (en) * | 1998-11-24 | 2001-06-26 | Microsoft Corporation | Method and apparatus for speech synthesis with efficient spectral smoothing |
AUPP829899A0 (en) * | 1999-01-27 | 1999-02-18 | Motorola Australia Pty Ltd | Method and apparatus for time-warping a digitised waveform to have an approximately fixed period |
US6202049B1 (en) * | 1999-03-09 | 2001-03-13 | Matsushita Electric Industrial Co., Ltd. | Identification of unit overlap regions for concatenative speech synthesis system |
JP3730435B2 (ja) * | 1999-03-26 | 2006-01-05 | 株式会社東芝 | 波形信号解析装置 |
SE9903223L (sv) * | 1999-09-09 | 2001-05-08 | Ericsson Telefon Ab L M | Förfarande och anordning i telekommunikationssystem |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US7346488B2 (en) * | 2000-07-10 | 2008-03-18 | Fujitsu Limited | Automatic translator and computer-readable storage medium having automatic translation program recorded thereon |
AU2001290882A1 (en) * | 2000-09-15 | 2002-03-26 | Lernout And Hauspie Speech Products N.V. | Fast waveform synchronization for concatenation and time-scale modification of speech |
US6952669B2 (en) * | 2001-01-12 | 2005-10-04 | Telecompression Technologies, Inc. | Variable rate speech data compression |
US7177810B2 (en) * | 2001-04-10 | 2007-02-13 | Sri International | Method and apparatus for performing prosody-based endpointing of a speech signal |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
US20030135374A1 (en) * | 2002-01-16 | 2003-07-17 | Hardwick John C. | Speech synthesizer |
AT6920U1 (de) | 2002-02-14 | 2004-05-25 | Sail Labs Technology Ag | Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen |
GB0209770D0 (en) * | 2002-04-29 | 2002-06-05 | Mindweavers Ltd | Synthetic speech sound |
US20040073428A1 (en) * | 2002-10-10 | 2004-04-15 | Igor Zlokarnik | Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database |
KR100486734B1 (ko) * | 2003-02-25 | 2005-05-03 | 삼성전자주식회사 | 음성 합성 방법 및 장치 |
JP4256189B2 (ja) * | 2003-03-28 | 2009-04-22 | 株式会社ケンウッド | 音声信号圧縮装置、音声信号圧縮方法及びプログラム |
US9165478B2 (en) | 2003-04-18 | 2015-10-20 | International Business Machines Corporation | System and method to enable blind people to have access to information printed on a physical document |
US7487092B2 (en) * | 2003-10-17 | 2009-02-03 | International Business Machines Corporation | Interactive debugging and tuning method for CTTS voice building |
US20070111173A1 (en) * | 2004-01-13 | 2007-05-17 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20060073452A1 (en) * | 2004-01-13 | 2006-04-06 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US8210851B2 (en) * | 2004-01-13 | 2012-07-03 | Posit Science Corporation | Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training |
US20060105307A1 (en) * | 2004-01-13 | 2006-05-18 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20060177805A1 (en) * | 2004-01-13 | 2006-08-10 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20050175972A1 (en) * | 2004-01-13 | 2005-08-11 | Neuroscience Solutions Corporation | Method for enhancing memory and cognition in aging adults |
US20060051727A1 (en) * | 2004-01-13 | 2006-03-09 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20070065789A1 (en) * | 2004-01-13 | 2007-03-22 | Posit Science Corporation | Method for enhancing memory and cognition in aging adults |
US20060074678A1 (en) * | 2004-09-29 | 2006-04-06 | Matsushita Electric Industrial Co., Ltd. | Prosody generation for text-to-speech synthesis based on micro-prosodic data |
BRPI0517246A (pt) * | 2004-10-28 | 2008-10-07 | Matsushita Electric Ind Co Ltd | aparelho de codificação escalável, aparelho de decodificação escalável e métodos para os mesmos |
US20060259303A1 (en) * | 2005-05-12 | 2006-11-16 | Raimo Bakis | Systems and methods for pitch smoothing for text-to-speech synthesis |
US20070011009A1 (en) * | 2005-07-08 | 2007-01-11 | Nokia Corporation | Supporting a concatenative text-to-speech synthesis |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
TWI277947B (en) * | 2005-09-14 | 2007-04-01 | Delta Electronics Inc | Interactive speech correcting method |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20070134635A1 (en) * | 2005-12-13 | 2007-06-14 | Posit Science Corporation | Cognitive training using formant frequency sweeps |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
CN101578659B (zh) * | 2007-05-14 | 2012-01-18 | 松下电器产业株式会社 | 音质转换装置及音质转换方法 |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US9959870B2 (en) | 2008-12-11 | 2018-05-01 | Apple Inc. | Speech recognition involving a mobile device |
US8862252B2 (en) | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US8457965B2 (en) * | 2009-10-06 | 2013-06-04 | Rothenberg Enterprises | Method for the correction of measured values of vowel nasalance |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE112011100329T5 (de) | 2010-01-25 | 2012-10-31 | Andrew Peter Nelson Jerram | Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8965768B2 (en) | 2010-08-06 | 2015-02-24 | At&T Intellectual Property I, L.P. | System and method for automatic detection of abnormal stress patterns in unit selection synthesis |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
EP2737479B1 (de) * | 2011-07-29 | 2017-01-18 | Dts Llc | Adaptive sprachverständlichkeitsverbesserung |
US8620646B2 (en) * | 2011-08-08 | 2013-12-31 | The Intellisis Corporation | System and method for tracking sound pitch across an audio signal using harmonic envelope |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8744854B1 (en) | 2012-09-24 | 2014-06-03 | Chengjun Julian Chen | System and method for voice transformation |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US8886539B2 (en) * | 2012-12-03 | 2014-11-11 | Chengjun Julian Chen | Prosody generation using syllable-centered polynomial representation of pitch contours |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US9308446B1 (en) | 2013-03-07 | 2016-04-12 | Posit Science Corporation | Neuroplasticity games for social cognition disorders |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
KR101904293B1 (ko) | 2013-03-15 | 2018-10-05 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US11151899B2 (en) | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
DE112014002747T5 (de) | 2013-06-09 | 2016-03-03 | Apple Inc. | Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
CN105265005B (zh) | 2013-06-13 | 2019-09-17 | 苹果公司 | 用于由语音命令发起的紧急呼叫的系统和方法 |
AU2014306221B2 (en) | 2013-08-06 | 2017-04-06 | Apple Inc. | Auto-activating smart responses based on activities from remote devices |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
ES2732859T3 (es) | 2014-05-01 | 2019-11-26 | Nippon Telegraph & Telephone | Codificador, descodificador, método de codificación, método de descodificación, programa de codificación, programa de descodificación y medio de grabación |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
EP3149728B1 (de) | 2014-05-30 | 2019-01-16 | Apple Inc. | Eingabeverfahren durch einzelne äusserung mit mehreren befehlen |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
WO2017046887A1 (ja) * | 2015-09-16 | 2017-03-23 | 株式会社東芝 | 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10083682B2 (en) * | 2015-10-06 | 2018-09-25 | Yamaha Corporation | Content data generating device, content data generating method, sound signal generating device and sound signal generating method |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
JP6962268B2 (ja) * | 2018-05-10 | 2021-11-05 | 日本電信電話株式会社 | ピッチ強調装置、その方法、およびプログラム |
CN111370002B (zh) * | 2020-02-14 | 2022-08-19 | 平安科技(深圳)有限公司 | 语音训练样本的获取方法、装置、计算机设备和存储介质 |
US11848005B2 (en) * | 2022-04-28 | 2023-12-19 | Meaning.Team, Inc | Voice attribute conversion using speech to speech |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US3700815A (en) * | 1971-04-20 | 1972-10-24 | Bell Telephone Labor Inc | Automatic speaker verification by non-linear time alignment of acoustic parameters |
JPS51104202A (en) * | 1975-03-12 | 1976-09-14 | Hitachi Ltd | Onseigoseinotameno sohensakuseisochi |
JPS5660499A (en) * | 1979-10-22 | 1981-05-25 | Casio Computer Co Ltd | Audible sounddsource circuit for voice synthesizer |
JPS5710200A (en) * | 1980-06-20 | 1982-01-19 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JPS5717997A (en) * | 1980-07-07 | 1982-01-29 | Matsushita Electric Ind Co Ltd | Voice synthesizer |
JPS57144600A (en) * | 1981-03-03 | 1982-09-07 | Nippon Electric Co | Voice synthesizer |
JPS5843498A (ja) * | 1981-09-09 | 1983-03-14 | 沖電気工業株式会社 | 音声合成装置 |
JPS58196597A (ja) * | 1982-05-13 | 1983-11-16 | 日本電気株式会社 | 音声合成装置 |
JPS6050600A (ja) * | 1983-08-31 | 1985-03-20 | 株式会社東芝 | 規則合成方式 |
FR2553555B1 (fr) * | 1983-10-14 | 1986-04-11 | Texas Instruments France | Procede de codage de la parole et dispositif pour sa mise en oeuvre |
WO1986003873A1 (en) * | 1984-12-20 | 1986-07-03 | Gte Laboratories Incorporated | Method and apparatus for encoding speech |
JPH0632020B2 (ja) * | 1986-03-25 | 1994-04-27 | インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン | 音声合成方法および装置 |
FR2636163B1 (fr) * | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
DE69022237T2 (de) * | 1990-10-16 | 1996-05-02 | Ibm | Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell. |
-
1991
- 1991-11-06 KR KR1019910019617A patent/KR940002854B1/ko not_active IP Right Cessation
-
1992
- 1992-10-28 GB GB9222756A patent/GB2261350B/en not_active Expired - Fee Related
- 1992-10-29 CA CA002081693A patent/CA2081693A1/en not_active Abandoned
- 1992-11-02 SE SE9203230A patent/SE9203230L/ not_active Application Discontinuation
- 1992-11-04 BE BE9200956A patent/BE1005622A3/fr not_active IP Right Cessation
- 1992-11-04 DK DK134192A patent/DK134192A/da not_active Application Discontinuation
- 1992-11-05 NL NL9201941A patent/NL9201941A/nl not_active Application Discontinuation
- 1992-11-05 GR GR920100488A patent/GR1002157B/el unknown
- 1992-11-05 IT ITMI922538A patent/IT1258235B/it active IP Right Grant
- 1992-11-05 PT PT101037A patent/PT101037A/pt not_active Application Discontinuation
- 1992-11-05 ES ES09202232A patent/ES2037623B1/es not_active Expired - Lifetime
- 1992-11-06 JP JP4297000A patent/JP2787179B2/ja not_active Expired - Fee Related
- 1992-11-06 DE DE4237563A patent/DE4237563C2/de not_active Expired - Fee Related
- 1992-11-06 AT AT0219292A patent/AT400646B/de not_active IP Right Cessation
- 1992-11-06 LU LU88189A patent/LU88189A1/fr unknown
- 1992-11-06 FR FR9213415A patent/FR2683367B1/fr not_active Expired - Fee Related
-
1994
- 1994-07-14 US US08/275,940 patent/US5617507A/en not_active Expired - Fee Related
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10393463B4 (de) * | 2002-10-10 | 2010-07-01 | Hiroshi Rikimaru | Hörhilfe |
DE10362224B4 (de) * | 2002-10-10 | 2013-07-25 | Hiroshi Rikimaru | Hörtrainingsvorrichtungen |
Also Published As
Publication number | Publication date |
---|---|
FR2683367B1 (fr) | 1997-04-25 |
ES2037623A2 (es) | 1993-06-16 |
US5617507A (en) | 1997-04-01 |
JP2787179B2 (ja) | 1998-08-13 |
DE4237563A1 (de) | 1993-05-19 |
JPH06110498A (ja) | 1994-04-22 |
KR940002854B1 (ko) | 1994-04-04 |
SE9203230D0 (sv) | 1992-11-02 |
AT400646B (de) | 1996-02-26 |
GB2261350B (en) | 1995-08-09 |
GR920100488A (el) | 1993-07-30 |
ATA219292A (de) | 1995-06-15 |
SE9203230L (sv) | 1993-05-07 |
NL9201941A (nl) | 1993-06-01 |
IT1258235B (it) | 1996-02-22 |
DK134192D0 (da) | 1992-11-04 |
LU88189A1 (fr) | 1993-04-15 |
CA2081693A1 (en) | 1993-05-07 |
GR1002157B (en) | 1996-02-22 |
BE1005622A3 (fr) | 1993-11-23 |
GB2261350A (en) | 1993-05-12 |
ITMI922538A0 (it) | 1992-11-05 |
ITMI922538A1 (it) | 1994-05-05 |
GB9222756D0 (en) | 1992-12-09 |
ES2037623B1 (es) | 1997-03-01 |
ES2037623R (de) | 1996-08-16 |
PT101037A (pt) | 1994-07-29 |
FR2683367A1 (fr) | 1993-05-07 |
DK134192A (da) | 1993-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE3041423C1 (de) | Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals | |
DE60029990T2 (de) | Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer | |
DE69816810T2 (de) | Systeme und verfahren zur audio-kodierung | |
DE69932786T2 (de) | Tonhöhenerkennung | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE60006271T2 (de) | Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung | |
DE60214358T2 (de) | Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp | |
DE69926462T2 (de) | Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung | |
DE60126575T2 (de) | Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens | |
DE69916321T2 (de) | Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen | |
DE60213653T2 (de) | Verfahren und system zur echtzeit-sprachsynthese | |
DE69832358T2 (de) | Verfahren zur Sprachkodierung und -dekodierung | |
DE60126149T2 (de) | Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen | |
DE60128121T2 (de) | Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE69720861T2 (de) | Verfahren zur Tonsynthese | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE60202161T2 (de) | Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache | |
DE2519483A1 (de) | Verfahren und anordnung zur sprachsynthese | |
DE4033350B4 (de) | Verfahren und Vorrichtung für die Sprachverarbeitung | |
DE60205421T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
DE60030069T2 (de) | Verschleierungsverfahren bei Verlust von Sprachrahmen |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |