DE4237563C2 - Verfahren zum Synthetisieren von Sprache - Google Patents

Verfahren zum Synthetisieren von Sprache

Info

Publication number
DE4237563C2
DE4237563C2 DE4237563A DE4237563A DE4237563C2 DE 4237563 C2 DE4237563 C2 DE 4237563C2 DE 4237563 A DE4237563 A DE 4237563A DE 4237563 A DE4237563 A DE 4237563A DE 4237563 C2 DE4237563 C2 DE 4237563C2
Authority
DE
Germany
Prior art keywords
pitch
signal
period
speech
pitch pulse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE4237563A
Other languages
English (en)
Other versions
DE4237563A1 (de
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KT Corp
Original Assignee
KT Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KT Corp filed Critical KT Corp
Publication of DE4237563A1 publication Critical patent/DE4237563A1/de
Application granted granted Critical
Publication of DE4237563C2 publication Critical patent/DE4237563C2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Description

Die Erfindung betrifft ein Verfahren zum Synthetisieren von Sprache.
Das Prinzip der vorliegenden Erfindung kann direkt nicht nur auf die Sprachsynthese, sondern auch auf die Synthese anderer Klänge, wie z. B. den Klang musikalischer Instrumente oder Gesang, angewandt werden, wobei diese Klänge jeweils Eigenschaften aufweisen, die denjenigen der Sprache ähnlich sind. Das erfindungsgemäße Verfahren kann auch für eine sehr langsame Sprachcodierung oder für eine Sprachgeschwindigkeitsumwandlung verwendet werden. Die Erfindung wird nachstehend unter Konzentration auf die Sprachsynthese beschrieben.
Es sind Sprachsyntheseverfahren bekannt, um ein Text-in-Sprache-Synthesesystem zu realisieren, welches zahllose Vokabeln synthetisieren kann, indem es einen Text, d. h. Zeichenketten, in Sprache umwandelt. Ein Verfahren, welches leicht zu realisieren ist und welches am meisten verwendet wird, ist das Sprachsegmentsynthese­ verfahren, welches auch als Synthese-durch-Verkettung-Ver­ fahren bezeichnet wird, bei dem die menschliche Sprache abgetastet und in phonetische Einheiten analysiert wird, wie z. B. Halbsilben oder Diphone, um kurze Sprachsegmente zu erhalten, die dann codiert und in einem Speicher gespeichert werden. Wenn Text eingegeben wird, wird er in phonetische Transkriptionen umgewandelt. Sprachsegmente, welche den phonetischen Transkriptionen entsprechen, werden dann sequentiell aus dem Speicher abgerufen und decodiert, um die Sprache zu synthetisieren, die dem eingegebenen Text entspricht.
Bei diesem Typ eines mit Segmenten arbeitenden Sprach­ syntheseverfahrens besteht eines der wichtigsten Elemente zur Beherrschung der Qualität der synthetisierten Sprache in dem Codierverfahren für die Sprachsegmente. Bei vorbekannten, mit Segmenten arbeitenden Sprachsynthese­ verfahren für ein Sprachsynthesesystem wird als Sprach­ codierverfahren für die Speicherung von Sprachsegmenten hauptsächlich ein Vocoderverfahren von niedriger Sprachqualität verwendet. Dies ist jedoch einer der wichtigsten Gründe, welcher die Qualität synthetisierter Sprache verschlechtert. Es folgt eine kurze Beschreibung der vorbekannten Sprachsegmentcodierverfahren.
Die Sprachcodierverfahren können größtenteils in ein Schwingungscodierverfahren von guter Sprachqualität und ein Vocoderverfahren von niedriger Sprachqualität unterteilt werden. Da das Schwingungscodierverfahren bzw. das Wellenform- bzw. Signalform-Codierverfahren ein Verfahren ist, mit dem angestrebt wird, die Sprach­ schwingung, so wie sie ist, zu übertragen, ist es schwierig, die Tonhöhenfrequenz und die Dauer zu ändern, so daß es unmöglich ist, die Intonation und die Sprech­ geschwindigkeit einzustellen, wenn die Sprachsynthese durchgeführt wird. Außerdem ist es unmöglich, die Sprach­ segmente glatt miteinander zu verbinden, so daß das Schwingungs- bzw. Signalform-Codierverfahren grundsätzlich nicht für die Codierung von Sprachsegmenten geeignet ist.
Wenn andererseits das Vocoderverfahren verwendet wird, welches auch als Analyse/Synthese-Verfahren bezeichnet wird, dann können das Tonhöhenmuster und die Dauer des Sprachsegments nach Belieben geändert werden. Da die Sprachsegmente außerdem durch Interpolation der spektralen Enveloppenabschätzungsparameter glatt verbunden werden können, ist das Vocoderverfahren für Codiereinrichtungen für eine Text-in-Sprache-Synthese, für Vocoderverfahren, wie z. B. das lineare, vorhersagende Codieren (LPC - linear predictive coding) oder für das Formant-Vocoderverfahren geeignet und wird in den meisten derzeit eingesetzten Sprachsynthesesystemen verwendet. Da jedoch die Qualität der decodierten Sprache gering ist, wenn die Sprache unter Verwendung des Vocoderverfahrens codiert wird, kann die synthetisierte Sprache, die durch Decodieren der gespei­ cherten Sprachsegmente und durch deren Verkettung erhalten wird, keine bessere Sprachqualität haben als diejenige, die durch das Vocoderverfahren angeboten wird.
Bisher unternommene Versuche, die durch das Vocoderver­ fahren angebotene Sprachqualität zu verbessern, ersetzen den verwendeten Impulszug durch ein Anregungssignal, welches eine weniger künstliche Schwingungsform hat. Ein solcher Versuch bestand darin, eine Schwingung bzw. Signalform zu verwenden, welche niedrigere Spitzenwerte hat als ein Impuls, beispielsweise eine Dreieckschwingung oder eine halbkreisförmige Schwingung oder eine einem glossalen Impuls ähnliche Schwingung. Ein anderer Versuch bestand darin, einen abgetasteten Tonhöhenimpuls mit einer Dauer von ein oder mehreren Restsignal-Tonhöhenperioden auszuwählen, welcher durch inverse Filterung erhalten wurde, und diesen anstelle des Impulses zu verwenden, und zwar einen einzigen Abtastimpuls für die gesamte Zeit­ periode oder für eine Periode beträchtlicher Dauer. Diese Versuche, den Impuls durch einen Anregungsimpuls anderer Signalform zu ersetzen, haben jedoch die Sprachqualität nicht oder nur geringfügig verbessert, und es wurde niemals synthe­ tisierte Sprache erhalten, welche eine die natürliche Sprache annähernde Qualität besaß.
Weiterhin ist ein Verfahren zum Synthetisieren von Sprache (L.R. Rabiner/R.W. Schäfer: Digital Processing of Speech Signals, Prentice Hall, Englewood Cliffs, New Jersey, 1978, S. 355-390) bekannt, bei dem das Cepstrum eines Sprach­ signals mittels einer diskreten Fouriertransformation, einer anschließenden Logarithmierung und einer inversen, diskreten Fouriertransformation bestimmt wird. Mit Hilfe des kurzzeiti­ gen Anteils des Cepstrums wird eine Impulsantwort des Sprach­ signals gebildet. Weiter werden aus dem Cepstrum Anregungs­ parameter abgeschätzt. Durch eine Faltung der Impulsantwort mit einer mittels der Anregungsparameter gebildeten Anre­ gungsfunktion wird ein Sprachsignal erhalten. Auch bei diesem bekannten Verfahren ist die Qualität der synthetisierten Sprache gering.
Der Erfindung liegt die Aufgabe zugrunde, synthetische Spra­ che mit hoher Qualität zu erzeugen, welche natürlich und ver­ ständlich klingt, und zwar in demselben Maße, wie die mensch­ liche Sprache, unter Verwendung eines neuartigen Sprachseg­ mentcodierverfahrens, welches eine gute Sprachqualität und Tonhöhensteuerung ermöglicht.
Die Aufgabe wird erfindungsgemäß durch ein Verfahren mit den Merkmalen nach einem der Ansprüche 1, 2 oder 3 gelöst. Vor­ teilhafte Weiterbildungen ergeben sich aus den Unteransprü­ chen.
Das Verfahren gemäß der Erfindung kombiniert die Vorteile des Schwingungscodierverfahrens, welches eine gute Sprachqualität liefert, jedoch ohne die Möglichkeit einer Tonhöhensteuerung, und des Vocoderverfahrens, welches die Möglichkeit einer Ton­ höhensteuerung bietet, jedoch eine niedrige Sprachqualität hat.
Die vorliegende Erfindung verwendet ein Verfahren zur pe­ riodischen Schwingungszerlegung, bei dem es sich um ein Codierverfahren handelt, mit dessen Hilfe ein Signal in einem stimmhaften Klangsektor der Originalsprache in Einzelschwin­ gungen bzw. Einzelwellen oder -signale zerlegt wird, die äquivalent zu eine Periode umfassenden Sprachschwingungen sind, die durch glossale Impulse erzeugt werden, wobei das zerlegte Signal codiert und gespeichert wird. Weiterhin wird erfindungsgemäß ein auf der Zeitverformung bzw. -verschiebung basierendes Einzelschwingungs-Repositionierungsverfahren an­ gewandt, bei dem es sich um ein Schwingungssyntheseverfahren handelt, welches in der Lage ist, die Dauer und die Tonhöhen­ frequenz des Sprachsegments beliebig einzustellen und dabei die Qualität der Originalsprache aufrechtzuerhalten, und zwar durch Auswählen derjenigen Schwingungen unter den gespei­ cherten Einzelschwingungen, welche den Positionen am nächsten sind, an denen die Einzelschwingungen posi­ tioniert werden sollen, und durch anschließendes Decodieren der ausgewählten Einzelschwingungen und durch Überlagern derselben. Im Rahmen der vorliegenden Beschreibung werden musikalische Klänge wie stimmhafte Klanganteile behandelt.
Die Erfindung befaßt sich mit einem Verfahren, welches geeignet ist, Sprache zu synthetisieren, welche die Qualität natürlicher Sprache annähert, und zwar durch Einstellung ihrer Dauer und Tonhöhenfrequenz, durch Schwingungscodierung von Einzelschwingungen jeder Periode, durch Speichern der codierten Daten in einem Speicher und - zum Zeitpunkt der Synthese - durch Decodieren dieser Daten und durch Positionieren der entsprechenden Signale an geeigneten Zeitpunkten, derart, daß sie das gewünschte Tonhöhenmuster haben, wobei anschließend eine Überlagerung der Signal­ elemente erfolgt, um natürliche Sprache, Gesang, Musik und dergleichen zu erzeugen.
Die vorliegende Erfindung umfaßt ein Sprachsegment­ codierverfahren zur Verwendung in einem Sprachsynthese­ system, wobei dieses Verfahren die Bildung von Einzel­ schwingungen umfaßt, indem Parameter erhalten werden, welche eine spektrale Enveloppe in jedem Analysezeit­ intervall darstellen. Dies geschieht durch Analysieren eines periodischen oder quasi-periodischen digitalen Signals, wie z. B. stimmhafter Sprache, unter Anwendung der Spektrum-Abschätzungstechnik. Ein Originalsignal wird zunächst entfaltet in eine Impulsantwort, die durch die spektralen Enveloppenparameter dargestellt wird, und in ein periodisches oder quasi-periodisches Tonhöhen-Impuls­ folgesignal, welches eine nahezu flache, spektrale Enveloppe aufweist. Ein Anregungssignal, welches erhalten wird, indem Null-Abtastwerte angehängt werden, nachdem ein Tonhöhenimpulssignal einer Periode erhalten wurde, indem das Tonhöhen-Impulsfolgesignal Periode für Periode segmen­ tiert wurde, derart, daß in jeder Periode ein Tonhöhen­ impuls enthalten ist, sowie eine Impulsantwort, die einem Satz von spektralen Enveloppenparametern in demselben Zeitintervall entspricht, in dem das Anregungssignal liegt, werden gefaltet, um eine Einzelschwingung für diese Periode zu bilden.
Die Einzelschwingungen können, anstatt vorab durch Schwin­ gungscodierung gebildet und in dem Speicher gespeichert zu werden, gebildet werden, indem man eine Information, die durch Schwingungscodierung eines Tonhöhenimpulssignals jedes Periodenintervalls, welches durch Segmentierung gehalten wird, an die Information anpaßt, welche durch Codieren eines Satzes von spektralen Enveloppenab­ schätzungsparametern für dasselbe Zeitintervall wie die obige Information erhalten wird oder mit einer Impulsant­ wort, die den Parametern entspricht, woraufhin die Einzel­ schwingungsinformation in einem Speicher gespeichert wird. Es gibt zwei Verfahren zum Erzeugen synthetischer Sprache unter Verwendung der in dem Speicher gespeicherten Einzel­ schwingungsinformation. Das erste Verfahren besteht darin, jede Einzelschwingung dadurch zu bilden, daß ein Anre­ gungssignal, welches erhalten wird, indem man Null-Abtast­ werte nach einem Tonhöhenimpulssignal einer Periode anhängt, welches durch Decodieren der Information erhalten wurde, mit einer Impulsantwort faltet, die den decodier­ ten, spektralen Enveloppenparametern für dasselbe Zeit­ intervall wie das Anregungssignal entspricht, und dann die Einzelschwingungen den geeigneten Zeitpunkten derart zuordnet, daß sie das erwünschte Tonhöhenmuster und Dauer­ muster haben, woraufhin die Einzelschwingungen an den Zeitpunkten angeordnet und anschließend überlagert werden.
Das zweite Verfahren besteht darin, ein synthetisches Anregungssignal zu bilden, indem den Tonhöhenimpuls­ signalen, welche durch Decodieren der Einzelschwingungs­ information erhalten wurden, geeignete Zeitpunkte derart zugeordnet werden, daß sie das gewünschte Tonhöhenmuster und Dauermuster haben, und sie an den Zeitpunkten anord­ net, und einen Satz von synthetischen spektralen, spek­ tralen Enveloppenparametern zu bilden, entweder durch temporäres Komprimieren oder Expandieren des Satzes von Zeitfunktionen der Parameter auf einer Untersegment-für- Untersegment-Basis in Abhängigkeit davon, ob die Dauer eines Untersegments in einem zu synthetisierenden Sprachsegment kürzer oder länger ist als diejenige eines entsprechenden Untersegments in dem Original-Sprach­ segment, oder durch Anordnen des Satzes von Zeitfunktionen der Parameter einer Periode synchron mit dem darauf abgestimmten Tonhöhenimpulssignal einer Periode, die so angeordnet ist, daß sie das synthetische Anregungssignal bildet, und das synthetische Anregungssignal und eine Impulsantwort zu falten, welche dem synthetischen, spektralen Enveloppenparametersatz entspricht, und zwar durch Verwendung eines zeitvariablen Filters oder durch Verwendung einer schnellen Faltungstechnik auf der Basis der Verwendung einer schnellen Fourier-Transformation. Bei dem letztgenannten Verfahren ergibt sich ein Leerinter­ vall, wenn eine Tonhöhenperiode länger ist als die Original-Tonhöhenperiode, und es ergibt sich ein Über­ lappungsintervall, wenn die gewünschte Tonhöhenperiode kürzer ist als die Original-Tonhöhenperiode.
In dem Überlappungsintervall wird das synthetische Anregungssignal erhalten, indem man die einander überlappenden Tonhöhenimpulssignale zueinander addiert oder indem man eines von ihnen auswählt, und der spektrale Enveloppenparameter wird erhalten, indem man entweder einen der sich überlappenden spektralen Enveloppen­ parameter auswählt oder indem man einen Mittelwert der beiden sich überlappenden Parameter verwendet.
In dem Leerintervall wird das synthetische Anregungssignal erhalten, indem man dieses Intervall mit Null-Abtastwerten füllt, und der synthetische, spektrale Enveloppenparameter wird erhalten, indem man die Werte der spektralen Enve­ loppenparameter an den Anfangs- und Endpunkten der vorausgehenden und der folgenden Periode vor und hinter der Mitte des Leerintervalls wiederholt, oder indem man einen der beiden Werte wiederholt oder einen Mittelwert der beiden Werte, oder indem man das Leerintervall mit Werten füllt und die beiden Werte glatt miteinander verbindet.
Die vorliegende Erfindung umfaßt ferner ein Tonhöhen­ steuerverfahren für ein Sprachsynthesesystem, welches geeignet ist, die Dauer und Tonhöhe eines Sprachsegments durch ein Einzelschwingungs-Repositionierungsverfahren auf der Basis der Zeitverformung zu steuern, welches es ermöglicht, Sprache nahezu mit derselben Qualität wie natürliche Sprache zu synthetisieren, und zwar durch Codieren wichtiger Grenzzeitpunkte, wie z. B. den Startpunkt, den Endpunkt und einzelner Punkte im Bereich eines stetigen Zustands des Sprachsegments und durch Codieren von Tonhöhenimpulspositionen jeder Einzel­ schwingung oder jedes Tonhöhenimpulssignals und durch Speichern der codierten Signale in einem Speicher, gleichzeitig mit der Speicherung jedes Sprachsegments, wobei zum Zeitpunkt der Synthese eine Zeitverformungs­ funktion erhalten wird durch Vergleichen der gewünschten Grenzzeitpunkte und der diesen entsprechenden, gespeicher­ ten Original-Grenzzeitpunkte, durch Herausfinden der Original-Zeitpunkte, die jeder gewünschten Tonhöhenimpuls­ position entsprechen, unter Verwendung der Zeitverfor­ mungsfunktion, durch Auswählen der Einzelschwingungen, welche Tonhöhenimpulspositionen haben, die den Original-Zeitpunkten am nächsten benachbart sind, und durch Posi­ tionieren dieser Einzelschwingungen an den gewünschten Tonhöhenimpulspositionen und schließlich durch Überlagern der Einzelschwingungen.
Das Tonhöhensteuerverfahren kann ferner umfassen: das Erzeugen synthetischer Sprache durch Auswählen von Tonhöhenimpulssignalen einer Periode und von spektralen Enveloppenparametern, die den Tonhöhenimpulssignalen entsprechen, und zwar anstelle der Einzelschwingungen, und durch Positionieren derselben und durch Falten der posi­ tionierten Tonhöhenimpulssignale und der Impulsantwort, welche den spektralen Enveloppenparametern entspricht, um Einzelschwingungen zu erzeugen und die erzeugten Einzel­ schwingungen zu überlagern, oder durch Falten eines synthetischen Anregungssignals, welches durch Überlagern der positionierten Tonhöhenimpulssignale und der zeit­ variablen Impulsantwort erhalten wurde, welche synthe­ tischen, spektralen Enveloppenparametern entspricht, die durch Verketten der positionierten, spektralen Enveloppen­ parameter erhalten wurden.
Bei der Anwendung der vorliegenden Erfindung werden Sprache und/oder Musik zuerst auf ein Magnetband aufge­ zeichnet. Das dabei erhaltene Klangsignal wird dann aus einem analogen Signal in ein digitales Signal umgewandelt, und zwar durch Tiefpaßfilterung der analogen Signale und Zuführung der gefilterten Signale zu einem Analog/Digi­ tal-Wandler. Die erhaltenen, digitalisierten Sprachsignale werden dann in eine Anzahl von Sprachsegmenten segmentiert bzw. unterteilt, welche Klänge haben, die Synthese-Ein­ heiten entsprechen, wie z. B. Phonemen, Diphonen, Halb­ silben und dergleichen, und zwar unter Verwendung bekann­ ter Spracheditierwerkzeuge. Jedes auf diese Weise erhaltene Sprachsegment wird dann unter Verwendung bekannter Einrichtungen zum Erkennen stimmhafter und stimmloser Sprache und entsprechender Spracheditier­ werkzeuge den stimmhaften oder den stimmlosen Sprachseg­ menten zugeordnet. Die stimmlosen Sprachsegmente werden nach dem bekannten Vocoderverfahren codiert, welche weißes Rauschen als stimmlose Sprachquelle benutzen. Die Vocoder­ verfahren umfassen LPC-Vocoderverfahren, homomorphe Voco­ derverfahren, Formant-Vocoderverfahren und dergleichen.
Zum vollständigeren Verständnis der Erfindung wird auf die beigefügten Zeichnungen in Verbindung mit der nachfolgenden Detailbeschreibung verwiesen. Es zeigen:
Fig. 1 ein dem Stand der Technik entsprechendes Text-in-Sprache-Synthesesystem des Sprachsegmentsyntheseverfahrens;
Fig. 2 Sprachsegmentverkettungsuntersystem;
Fig. 3A-3T Schwingungen (Wellenformen, Signalformen) zur Erläuterung der Prinzips des Verfah­ rens der periodischen Schwingungszerlegung und des Verfahrens der Einzelschwingungs-Re­ positionierung gemäß der Erfindung;
Fig. 4 ein Blockdiagramm zur Erläuterung des Verfahrens der periodischen Schwingungs­ zerlegung;
Fig. 5A-5E Blockdiagramm zur Erläuterung des Verfahrens der blinden Entfaltung;
Fig. 6A u. 6B Codeformate für stimmhafte Sprachsegment­ informationen, die in dem Sprachsegment­ speicherblock gespeichert sind;
Fig. 7 den Syntheseblock für stimmhafte Sprache gemäß der Erfindung; und
Fig. 8A u. 8B grafische Darstellungen zur Erläuterung der Dauer- und Tonhöhensteuerung gemäß der Erfindung.
Entsprechende Teile bzw. Elemente sind in den einzelnen Zeichnungsfiguren durchgehend mit denselben Bezugszeichen bezeichnet.
Die Struktur eines Text-in-Sprache-Synthesesystems eines bekannten Sprachsegmentsyntheseverfahren besteht aus drei Untersystemen:
  • A. Einem phonetischen Vorverarbeitungsuntersystem 1;
  • B. einem Vorläufererzeugungsuntersystem 2; und
  • C. einem Sprachsegmentverkettungsuntersystem 3 wie dies in Fig. 1 gezeigt ist.
Wenn ein Text über eine Tastatur, einen Computer oder irgendein anderes System in das Text-in-Sprache-Synthese­ system eingegeben wird, dann analysiert das phonetische Vorverarbeitungsuntersystem 1 die Syntax des Textes und verwandelt den Text dadurch, daß es darauf phonetische Recodierregeln anwendet, in eine Kette von phonetischen Transkriptionssymbole. Das Vorläufererzeugungsuntersystem 2 erzeugt Intonationsmusterdaten und Betonungsmusterdaten unter Verwendung der syntaktischen Analysedaten derart, daß bezüglich der Kette von phonetischen Transkriptions­ symbolen eine angemessene Intonation und Betonung ausgeübt werden kann, und gibt dann die Daten an das Sprachsegment­ verkettungsuntersystem 3 aus. Das Vorläufererzeugungs­ untersystem 2 liefert auch die Daten hinsichtlich der Dauer jedes Phonems an das Sprachsegmentverkettungsunter­ system 3.
Die drei oben angegebenen Vorläuferdaten, d. h. die Intona­ tionsmusterdaten, die Betonungsmusterdaten und die Daten bezüglich der Dauer jedes Phonems werden im allgemeinen zusammen mit der Kette von phonetischen Transkriptions­ symbolen, die von dem phonetischen Vorverarbeitungs­ untersystem erzeugt werden, an das Sprachsegmentver­ kettungsuntersystem 3 gesandt, obwohl die genannten Daten unabhängig von der Kette der phonetischen Transkriptions­ symbole an das Sprachsegmentverkettungsuntersystem 3 übertragen werden können.
Das Sprachsegmentverkettungsuntersystem 3 erzeugt konti­ nuierliche Sprache, indem es der Reihe nach geeignete Sprachsegmente heraussucht, die gemäß der Kette der phonetischen Transkriptionssymbole (nicht gezeigt) in codierter Form in seinem Speicher gespeichert sind und indem es diese Informationen decodiert. Zu diesem Zeit­ punkt kann das Sprachsegmentverkettungsuntersystem 3 synthetische Sprache erzeugen, welche die Intonation, die Betonung und die Sprechgeschwindigkeit hat, die gemäß dem Vorläufererzeugungsuntersystem gewünscht wird, und zwar durch Steuern der Energie(Intensität), der Dauer und der Tonhöhenperiode jedes Sprachsegments gemäß der Vorläufer­ information.
Die vorliegende Erfindung verbessert die Sprachqualität im Vergleich zu synthetischer Sprache gemäß dem Stande der Technik erheblich, indem sie das Codierverfahren zum Speichern der Sprachsegmente in dem Sprachsegmentver­ kettungsuntersystem 3 verbessert. Eine Beschreibung bezüglich der Arbeitsweise des Sprachsegmentverkettungs­ untersystems 3 erfolgt nachstehend unter Bezugnahme auf Fig. 2.
Wenn die Kette von phonetischen Transkriptionssymbolen, die von dem phonetischen Vorverarbeitungsuntersystem 1 erzeugt wird, in den Sprachsegmentselektionsblock 4 eingegeben wird, dann wählt dieser nacheinander die Synthese-Einheiten, wie z. B. Diphone und Halbsilben, indem er die Kette von eintreffenden, phonetischen Transkrip­ tionssymbolen kontinuierlich überwacht und die Adressen der Sprachsegmente herausfindet, die den ausgewählten Synthese-Einheiten entsprechen, und zwar aus seinem Speicher, wie dies in Tabelle 1 angedeutet ist. Tabelle 1 zeigt ein Beispiel der Sprachsegment-Tabelle, die in dem Sprachsegmentselektionsblock 4 gespeichert ist, welcher die Sprachsegmente auf der Basis von Diphonen auswählt. Dies führt zur Bildung einer Adresse des ausgewählten Sprachsegments, welche an einen Sprachsegmentspeicherblock 5 ausgegeben wird.
Die Sprachsegmente, welche den Adressen der Sprachsegmente entsprechen, werden nach dem Verfahren gemäß der Erfin­ dung, welches weiter unten noch zu beschreiben ist, codiert und an den (einzelnen) Adressen des Speichers des Sprachsegmentspeicherblockes 5 gespeichert.
phonetisches Transkriptionssymbol des Sprachsegments
Speicheradresse (hexadezimal)
/ai/
0000
/au/ 0021
/ab/ 00A3
/ad/ 00FF
. .
. .
. .
Wenn die Adresse des ausgewählten Sprachsegmentes aus dem Sprachsegmentsselektionsblock 4 in den Sprachsegment­ speicherblock 5 eingegeben wird, dann holt der Sprachseg­ mentspeicherblock 5 die entsprechenden Sprachsegmentdaten aus dem Speicher in dem Sprachsegmentspeicherblock 5 und sendet sie an einen Syntheseblock 6 für stimmhafte Sprach­ segmente, wenn es sich um einen stimmhaften Klang bzw. um einen stimmhaften Friktionslaut handelt, oder an einen Syntheseblock 7 für stimmlose Sprachsegmente, wenn es sich um einen stimmlosen Laut handelt. Dies bedeutet, daß der Syntheseblock 6 synthetisch ein digitales Sprachsignal erzeugt, welches stimmhaften Sprachsegmenten entspricht, während der Syntheseblock 7 synthetisch ein digitales Sprachsignal erzeugt, welches einem stimmlosen Sprach­ segment entspricht. Jedes synthetisch erzeugte, digitale Sprachsignal des Syntheseblockes 6 und des Syntheseblockes 7 wird dann in ein analoges Signal umgewandelt. Somit werden die auf die beschriebene Weise erhaltenen, synthe­ tisch erzeugten, digitalen Sprachsignale, die von dem Syntheseblock oder von dem Syntheseblock 7 ausgegeben werden, anschließend zu einem Digital/Analog- (D/A-)Um­ setzerblock 8 übertragen, der besteht aus einem Digital/Analog-Umsetzer, einem analogen Tiefpaßfilter und einem Analog-Verstärker, und von diesem in ein analoges Signal umgewandelt, um den synthetischen Sprachklang bzw. die synthetische Sprache zu liefern.
Wenn der Syntheseblock 6 für stimmhafte Sprachsegmente und der Syntheseblock 7 für stimmlose Sprachsegmente die Sprachsegmente miteinander verketten, liefern sie ein Vorläufersignal für synthetische Sprache, wie es von dem Vorläufererzeugungsuntersystem 2 angestrebt wird, indem sie die Dauer, die Intensität und die Tonhöhenfrequenz des Sprachsegments auf der Basis der Vorläuferinformation zutreffend einstellen, d. h. auf der Basis der Intonations­ musterdaten, der Betonungsdaten und der Dauer- bzw. Zeit­ daten.
Die Vorbereitung eines Sprachsegments für die Speicherung in dem Sprachsegmentspeicherblock 5 geschieht wie folgt. Zunächst wird eine Synthese-Einheit ausgewählt. Zu diesen Synthese-Einheiten gehören Phoneme, Allophone, Diphone, Silben, Halbsilben, CVC-, VCV-, CV- und VC-Einheiten, wobei "C" für ein Konsonantenphonem und "V" für ein Vokalphonem stehen, bzw. Kombinationen dieser Synthese-Ein­ heiten. Die Synthese-Einheiten, welche bei dem derzei­ tigen Sprachsyntheseverfahren am häufigsten verwendet werden, sind die Diphone und die Halbsilben.
Das Sprachsegment, welches den einzelnen Elementen einer Aggregation von Synthese-Einheiten entspricht, wird als Segment aus Sprachproben herausgelöst, welche tatsächlich von einem Menschen gesprochen werden. Folglich ist die Anzahl der Elemente der Aggregation von Synthese-Einheiten gleich der Zahl der Sprachsegmente. Wenn beispielsweise Halbsilben als Synthese-Einheiten für die englische Sprache verwendet werden, dann beträgt die Anzahl der Halbsilben etwa 1000 und folglich beträgt die Anzahl der Sprachsegmente ebenfalls etwa 1000. Im allgemeinen bestehen solche Sprachsegmente aus einem stimmlosen Schallintervall und einem stimmhaften Schallintervall.
Das stimmlose Sprachsegment und das stimmhafte Sprachsegment wird durch Segmentieren eines Sprachsegmentes gemäß dem Stand der Technik in ein stimmloses Schallintervall und ein stimmhaftes Schall­ intervall erhalten und als Basis-Syntheseeinheiten verwen­ det. Der stimmlose Sprachsyntheseteil wird gemäß dem Stand der Technik in der weiter unten beschriebenen Weise erhal­ ten. Der stimmhafte Sprachsyntheseteil wird gemäß der Erfindung erhalten.
Im einzelnen werden die stimmlosen Sprachsegmente an dem in Fig. 2 gezeigten Syntheseblock 7 für stimmlose Sprach­ segmente decodiert. Im Falle der Decodierung von stimm­ losem Schall wurde gemäß dem Stande der Technik festge­ stellt, daß die Verwendung eines künstlichen, ein weißes Rauschen darstellenden Rauschsignals als Erregungssignal für ein Synthesefilter die Qualität der decodierten Sprache nicht erschwert oder verschlechtert. Aus diesem Grunde können für die Codierung und Decodierung der stimmlosen Sprachsegmente die bekannten Vocoderverfahren unverändert angewandt werden, bei denen ein weißes Rauschen als Erregersignal verwendet wird. Bei den vorbekannten Syntheseverfahren für stimmlosen Schall kann ein weißes Rauschen, beispielsweise nach einem Algo­ rithmus, erzeugt werden, bei dem mit Zufallszahlen gearbeitet wird, und sofort verwendet werden; es besteht aber auch die Möglichkeit, ein vorab erzeugtes Rausch­ signal in einem Speicher zu speichern und beim Syntheti­ sieren aus dem Speicher abzurufen. Das weiße Rauschen kann ferner ein Restsignal sein, welches erhalten wird, wenn man ein stimmloses Schallintervall tatsächlich gesprochener Sprache unter Verwendung eines inversen Spektralenveloppenfilters filtert. Dieses Restsignal kann dann in einem Speicher gespeichert und aus diesem für die Durchführung der Synthese abgerufen werden. Wenn es nicht erforderlich ist, die Dauer des stimmlosen Sprachsegmentes zu ändern, kann ein extrem einfaches Codierverfahren angewandt werden, bei dem das stimmlose Schallsegment nach einem Wellenformcodierverfahren codiert wird, beispiels­ weise nach dem Verfahren der Pulse-Code-Modulation oder dem Verfahren der adaptiven, differentiellen Pulse-Code-Mo­ dulation. Das codierte Signal wird dann gespeichert und zur Verwendung beim Synthetisieren aus dem Speicher abge­ rufen und decodiert.
Die vorliegende Erfindung befaßt sich mit einem Codier- und Synthetisierverfahren für stimmhafte Sprachsegmente, welche die Qualität der synthetisch erzeugten Sprache beherrschen. Eine Beschreibung bezüglich eines solchen Verfahrens unter Betonung des Sprachsegmentspeicherblockes 5 und des Syntheseblockes 6 für stimmhafte Sprachsegmente ist in Fig. 2 dargestellt.
Die stimmhaften Sprachsegmente unter den im Speicher des Sprachsegmentspeicherblockes 5 gespeicherten Sprachseg­ menten werden nach dem erfindungsgemäßen Verfahren der Zerlegung in periodische Signalanteile vorab in Einzel­ wellen der periodischen Tonhöhenkomponente zerlegt. Der Syntheseblock 6 für stimmhafte Sprachsegmente erzeugt synthetisch Sprachsignale mit der gewünschten Tonhöhe und dem gewünschten Zeitverlaufsmuster, indem er die Einzel­ wellen in entsprechender Weise auswählt und sie entspre­ chend dem Verfahren der "time warping-based wavelet relocation" ordnet. Das Prinzip dieses Verfahrens der Einzelsignal-Repositionierung auf der Basis der Zeit­ verformung bzw. -verzerrung wird nachstehend unter Bezugnahme auf die Zeichnungen erläutert.
Stimmhafte Sprache s(n) ist ein periodisches Signal, welches erhalten wird, wenn eine periodische glossale Schwingung, die an den Stimmbändern erzeugt wird, durch das akustische Vokaltraktfilter V(f) hindurchläuft, welches aus der Mundhöhle, der Kehlkopfhöhle und der Nasenhöhle besteht. Im vorliegenden Fall sei angenommen, daß das Vokaltraktfilter V(f) eine Frequenzcharakteristik aufgrund eines Lippen-Abstrahlungseffekts aufweist. Ein Spektrum S(f) von stimmhafter Sprache ist charakterisiert durch:
  • 1. eine Feinstruktur, die sich bezüglich der Frequenz f sehr schnell ändert; und
  • 2. eine spektrale Enveloppe, die sich demgegenüber langsam ändert, wobei die erste Komponente durch die Periodizität des stimmhaften Sprachsignals verursacht wird und die an zweiter Stelle genannte Komponente das Spektrum einer glossalen Impuls- und Frequenz­ charakteristik des Vokaltraktfilters widerspiegelt.
Das Spektrum S(f) der stimmhaften Sprache nimmt dieselbe Form an, die sich ergibt, wenn die Feinstruktur eines Impulszuges aufgrund der harmonischen Komponenten, welche bei ganzzahligen Vielfachen der Tonhöhenfrequenz Fo vorhanden sind, mit einer spektralen Enveloppenfunktion H(f) multipliziert wird. Daher kann stimmhafte Sprache s(n) als ein Ausgangssignal betrachtet werden, welches erhalten wird, wenn ein Impulsfolgesignal e(n) mit periodischer Impulsfolgefrequenz, welches eine flache, spektrale Enveloppe aufweist und dieselbe Periode wie die stimmhafte Sprache S(n), als Eingangssignal einem zeit­ variablen Filter zugeführt wird, welches denselben Frequenzgang hat wie die spektrale Enveloppenfunktion H(f) der stimmhaften Sprache S(n). Betrachtet man dies im Zeitbereich, dann ist die stimmhafte Sprache s(n) eine Faltung einer Impulsantwort h(n) des Filters H(f) und des periodischen Tonhöhen-Impulsfolgesignals e(n). Da H(f) der spektralen Enveloppenfunktion der stimmhaften Sprache s(n) entspricht, wird das zeitvariable Filter mit H(f) als seiner Frequenzcharakteristik als spektrales Enveloppen­ filter bzw. als Synthesefilter bezeichnet.
In Fig. 3A ist ein Signal für vier Perioden einer glossalen Wellenform bzw. Schwingung gezeigt. Im allgemeinen sind die Wellen- bzw. Schwingungsformen der glossalen Impulse, aus denen sich die glossale Schwin­ gungsform zusammensetzt, einander ähnlich, jedoch nicht völlig identisch. Außerdem sind die Zeitintervalle zwischen benachbarten, glossalen Impulsen ähnlich, jedoch nicht vollständig gleich. Wie oben beschrieben, wird die Signalform s(n) der stimmhaften Sprache gemäß Fig. 3C erzeugt, wenn die glossale Signalform g(n), die in Fig. 3A gezeigt ist, durch das Vokaltraktfilter V(f) gefiltert wird. Die glossale Signalform g(n) besteht aus den glossalen Impulsen g1(n), g2(n), g3(n) und g4(n), die sich voneinander hinsichtlich der Zeit unterscheiden und aus denen durch Filterung mit Hilfe des Vokaltraktfilters V(f) die Signale bzw. Schwingungen s1(n), s2(n), s3(n) und s4(n) erzeugt werden, die in Fig. 3B gezeigt sind. Die Schwingung bzw. Signalform s(n) der stimmhaften Sprache, die in Fig. 3C gezeigt ist, wird durch Überlagerung dieser Einzelschwingungen erhalten.
Ein Grundkonzept der vorliegenden Erfindung besteht darin, daß man dann, wenn man die Einzelschwingungen erhalten kann, aus denen ein stimmhaftes Sprachsignal zusammen­ gesetzt ist, und zwar indem man dieses stimmhafte Sprachsignal zerlegt, synthetische Sprache erhalten kann, welche dadurch beliebige Akzente und Intonationsmuster erhalten kann, daß die Intensität bzw. die Amplitude der Einzelschwingungen und die Zeitintervalle zwischen denselben geändert werden.
Da die Schwingung bzw. Wellenform s(n) gemäß Fig. 3C für die stimmhafte Sprache durch Überlagerung der sich zeit­ lich überlappenden Einzelschwingungen erhalten wurde, ist es schwierig, die Einzelschwingungen aus der Sprachschwin­ gung s(n) zurückzugewinnen.
Damit sich die Schwingungen der einzelnen Perioden im Zeitbereich nicht überlappen, müssen sie in Form eines Signals mit einer Spitze (Peak-Signal) vorliegen, bei dem die Energie um einen Zeitpunkt konzentriert ist, wie dies in Fig. 3F gezeigt ist.
Ein Peak-Signal ist ein Signal, welches im Frequenzbereich eine nahezu flache, spektrale Enveloppe aufweist. Wenn ein stimmhaftes Signal s(n) vorgegeben ist, dann kann als Ausgangssignal ein Signal e(n) in Form einer periodischen Tonhöhenimpulsfolge erhalten werden, welche, wie Fig. 3F zeigt, eine flache, spektrale Enveloppe besitzt, indem die Enveloppe des Spektrums S(f) des Signals s(n) abgeschätzt wird und als Eingangssignal in ein inverses, spektrales Enveloppenfilter 1/H(f) eingegeben wird, welches als Frequenzcharakteristik eine zu der Enveloppenfunktion H(f) inverse Charakteristik besitzt. Fig. 4, 5A und 5B beziehen sich auf diesen Schritt.
Da die Tonhöhen-Impulssignale jeder Periode, die das periodische Tonhöhen-Impulsfolgesignal e(n) zusammensetzen einander, wie in Fig. 3F gezeigt, im Zeitbereich nicht überlappen, können sie getrennt werden. Das Prinzip des Verfahrens der periodischen Signalzerlegung besteht also in folgendem: Da die getrennten Tonhöhen-Impulssignale für eine Periode e1(n), e2(n), . . . ein im wesentlichen flaches Spektrum haben, können die Signale s1(n), s2(n), usw., die in Fig. 3B gezeigt sind, erhalten werden, wenn diese Signale als Eingangssignale auf das spektrale Enveloppen­ filter H(f) zurückgeführt werden, so daß die genannten Signale dann das ursprüngliche Spektrum besitzen.
Fig. 4 zeigt ein Blockdiagramm des periodischen Signalzer­ legungsverfahrens gemäß vorliegender Erfindung, bei dem das stimmhafte Sprachsegment derart analysiert wird, daß es in Einzelschwingungen aufgelöst wird. Das stimmhafte Sprachsignal s(n), welches ein digitales Signal ist, wird erhalten, indem man die Bandbreite des analogen, stimm­ haften Sprachsignals oder eines mit Hilfe eines Musik­ instrumentes erzeugten Schallsignals mit Hilfe eines Tiefpaßfilters begrenzt und die resultierenden Signale durch eine Analog/Digital-Umsetzung umwandelt und sie nach dem Verfahren der Pulse-Code-Modulation auf einer Magnet­ platte (einem magnetischen Aufzeichnungsmedium) speichert, wobei gleichzeitig mehrere Bits zu einer Gruppe zusammen­ gefaßt werden und wobei die gespeicherte Information dann nach Bedarf zur Verarbeitung abgerufen werden kann.
Der erste Schritt der Erzeugung der Einzelschwingungen bzw. -signale besteht bei dem periodischen Signalzer­ legungsverfahren in einer blinden Entfaltung (blind deconvolution), in deren Verlauf das stimmhafte Sprach­ signal s(n) (das periodische Signal s(n)) in eine Impuls­ antwort h(n) entfaltet wird, welche eine Zeitbereichsfunk­ tion der Spektralenveloppenfunktion H(f) des Signals s(n) ist, und in ein periodisches Tonhöhen-Impulsfolgesignal e(n), welches eine flache, spektrale Enveloppe aufweist sowie dieselbe Periode wie das Signal s(n) (Vgl. Fig. 5A und 5B und die zugehörige Beschreibung).
Wie beschrieben, ist für die blinde Entfaltung die Technik der Abschätzung des Spektrums, mit deren Hilfe die spek­ trale Enveloppenfunktion H(f) ausgehend von dem Signal s(n) abgeschätzt wird, wesentlich. Die vorbekannten Verfahren bzw. Techniken zur Abschätzung des Spektrums können in drei Verfahren klassifiziert werden:
  • 1. ein Block-Analyseverfahren;
  • 2. ein tonhöhensynchrones Analyseverfahren; und
  • 3. ein Verfahren der sequentiellen Analyse, welches von der Länge eines Analyseintervalls abhängig ist.
Das Block-Analyseverfahren ist ein Verfahren, bei dem das Sprachsignal in Blöcke konstanter Dauer in der Größen­ ordnung von 10 bis 20 ms (Millisekunden) geteilt wird. Anschließend wird die Analyse bezüglich der konstanten Zahl von Sprachproben, die in jedem Block vorhanden sind, durchgeführt, wobei ein Satz (üblicherweise 10 bis 16 Parameter) der Spektralenveloppenparameter für jeden Block erhalten wird, wobei für dieses Verfahren ein homomorphes Analyseverfahren und ein Block-Analyseverfahren mit linearer Vorhersage typisch sind.
Bei dem tonhöhensynchronen Analyseverfahren wird ein Satz von spektralen Enveloppenparametern für jede Periode erhalten, indem die Analyse für jede Periode des Sprach­ signals durchgeführt wird, welche durch Teilen des Sprach­ signals mit der Tonhöhenperiode als Einheit erhalten wurde (wie dies in Fig. 3C gezeigt ist), wobei für dieses Ver­ fahren das Analyse-durch-Synthese-Verfahren und das tonhöhensynchrone Analyseverfahren für eine lineare Vorhersage typisch sind.
Bei dem sequentiellen Analyseverfahren wird für jede Sprachprobe ein Satz von spektralen Enveloppenparametern erhalten (wie dies in Fig. 3D gezeigt ist), und zwar durch Abschätzen des Spektrums für jede Sprachprobe, wobei für dieses Verfahren das Verfahren der kleinsten Quadrate bzw. das rekursive Verfahren der kleinsten Quadrate typisch ist, und wobei diese beiden Verfahren als eine Art von adaptiven Filterverfahren anzusehen sind.
Fig. 3D zeigt die zeitliche Änderung der ersten 4 Reflexionskoeffizienten unter den 14 Reflexions­ koeffizienten k1, k2, . . . , k14, welche einen Satz von spektralen Enveloppenparametern bilden, der durch das sequentielle Analyseverfahren erhalten wird (vgl. Fig. 5A). Wie aus der Zeichnung deutlich wird, ändern sich die Werte der spektralen Enveloppenparameter kontinuier­ lich aufgrund der kontinuierlichen Bewegung der Artikulierungsorgane, was bedeutet, daß sich die Impulsantwort h(n) des spektralen Enveloppenfilters kontinuierlich ändert. Im vorliegenden Fall wird der Einfachheit halber unter der Voraussetzung, daß sich h(n) in einem Intervall von der Länge einer Periode nicht ändert, h(n) für die erste, die zweite und die dritte Periode als h(n)1, h(n)2 bzw. h(n)3 bezeichnet, wie dies in Fig. 3E gezeigt ist.
Ein Satz von Enveloppenparametern, der durch verschiedene Spektrum-Abschätzungstechniken erhalten wurde, wie z. B. ein Cepstrum CL(i), bei dem es sich um einen Parametersatz handelt, der durch das homomorphe Analyseverfahren erhalten wurde, oder ein Vorhersagekoeffizientensatz {ai} oder ein Reflexionskoeffizientensatz {ki} oder ein Satz von Linienspektrumspaaren usw., welcher erhalten wird, indem man das rekursive Verfahren der kleinsten Quadrate anwendet oder das lineare Vorhersageverfahren, wird ebenso behandelt wie die Funktionen H(f) oder h(n), da er die Frequenzcharakteristik H(f) oder die Impulsantwort h(n) des spektralen Enveloppenfilters liefern kann. Aus diesem Grunde wird nachstehend die Impulsantwort auch als spektraler Enveloppenparametersatz bezeichnet.
Fig. 5A und 5B zeigen die Verfahren der blinden Entfaltung.
Im einzelnen zeigt 5A ein Verfahren der blinden Entfal­ tung, welches unter Verwendung des Analyseverfahrens der linearen Vorhersage oder unter Verwendung des rekursiven Verfahrens der kleinsten Quadrate durchgeführt wird, wobei es sich in beiden Fällen um vorbekannte Verfahren handelt. Bei einem gegebenen, stimmhaften Sprachsignal s(n), wie es in Fig. 3C gezeigt ist, werden die Vorhersagekoeffizienten {a1, a2, . . . , aN} oder die Reflexionskoeffizienten {k1, k2, . . . , kN}, bei denen es sich um spektrale Enveloppen­ parameter handelt, die die Frequenzcharakteristik H.(f) oder die Impulsantwort h(n) des spektralen Enveloppen­ filters darstellen, unter Verwendung des Analyseverfahrens der linearen Vorhersage oder des rekursiven Verfahrens der kleinsten Quadrate erhalten. Normalerweise sind 10 bis 16 Vorhersagekoeffizienten für die Ordnung N der Vorhersage ausreichend. Unter Verwendung der Vorhersagekoeffizienten a1, a2, . . . , aN und der Reflexionskoeffizienten {k1, k2, . . . , kN} als spektralen Enveloppenparametern kann ein inverses, spektrales Enveloppenfilter, welches nachstehend einfach als ein inverses Filter bezeichnet wird und welches die Frequenzcharakteristik 1/H(f) aufweist, die invers zur Frequenzcharakteristik H(f) des spektralen Enveloppenfilters ist, von einem Fachmann leicht hergestellt werden. Wenn das stimmhafte Sprachsignal, das Eingangssignal für das inverse, spektrale Enveloppenfilter bildet, welches bei dem Analyseverfahren der linearen Vorhersage auch als Filter für die lineare Fehlervor­ hersage bezeichnet wird und bei dem rekursiven Verfahren der kleinsten Quadrate ebenfalls, dann kann das perio­ dische Tonhöhen-Impulsfolgesignal des in Fig. 3F gezeigten Typs, welches eine flache, spektrale Enveloppe hat und als Fehlervorhersagesignal oder als Restsignal bezeichnet wird, als Ausgangssignal des Filters erhalten werden.
Fig. 5B und 5C zeigen das Verfahren der blinden Entfaltung unter Anwendung des homomorphen Analyseverfahrens, bei dem es sich um ein Block-Analyseverfahren handelt, wobei Fig. 5B das durch Frequenzteilung durchgeführte Verfahren darstellt (dieses Verfahren wurde vorstehend noch nicht angesprochen) und wobei Fig. 5C das Verfahren darstellt, bei welchem mit einer inversen Filterung gearbeitet wird.
Nachstehend soll näher auf Fig. 5B eingegangen werden. Sprachsignale zur Analyse eines Blockes werden erhalten, indem das stimmhafte Sprachsignal s(n) mit einer abgeschrägten Fensterfunktion multipliziert wird, wie z. B. einem Hamming-Fenster, welches eine Dauer von etwa 10 bis 20 ms hat. Eine cepstrale Sequenz c(i) wird dann dadurch erhalten, daß man die Sprachproben unter Anwendung einer Serie von homomorphen Verarbeitungsprozeduren bearbeitet, die aus einer diskreten Fourier-Transformation, einem komplexen Logarithmus und einer inversen, diskreten Fourier-Transformation bestehen, wie dies in Fig. 5D gezeigt ist. Das Cepstrum ist dabei eine Funktion der Frequenz, welche eine der Zeit ähnliche Einheit ist.
Ein niederfrequentes Cepstrum CL(i), welches rund um einen Ursprung angeordnet ist und die spektrale Enveloppe der stimmhaften Sprache s(n) darstellt und ein hochfrequentes Cepstrum CH(i), welches ein periodisches Tonhöhen-Impuls­ folgesignal e(n) darstellt, können im Frequenzbereich voneinander getrennt werden. Dies bedeutet, daß das Cepstrum c(i) mit einer niederfrequenten Fensterfunktion und einer hochfrequenten Fensterfunktion multipliziert wird, wobei CL(i) bzw. CH(i) erhalten werden. Durch ein inverses, homomorphes Verarbeitungsverfahren ergibt sich aus diesen Funktionen, wie in Fig. 5E gezeigt ist, die Impulsantwort h(n) und das Tonhöhen-Impulsfolgesignal e(n). Da im vorliegenden Fall das inverse, homomorphe Verarbeitungsverfahren für CH(i) nicht direkt zu dem Tonhöhen-Impulsfolgesignal e(n) führt, sondern zu dem Tonhöhen-Impulsfolgesignal eines Blockes multipliziert mit einer Zeitfensterfunktion w(n), kann e(n) erhalten werden, indem man das Tonhöhen-Impulsfolgesignal erneut mit einer inversen Zeitfensterfunktion 1/w(n) multipliziert, die invers zu der Funktion w(n) ist.
Das Verfahren gemäß Fig. 5C ist praktisch gleich dem Verfahren gemäß Fig. 5B, mit dem einzigen Unterschied, daß zur Gewinnung des periodischen Impulsfolgesignals e(n) anstelle von CH(i) das Cepstrum CL(i) verwendet wird. Dies bedeutet, daß bei diesem Verfahren unter Nutzung der Eigenschaft, daß eine Impulsantwort h-1(n), welche der Funktion 1/H(f) entspricht, die wiederum invers zu der Frequenzcharakteristik H(f) ist, erhalten werden kann, indem man die Funktion -CL(i), die ihrerseits erhalten wird, indem man das negative CL(i) nimmt, nach dem Verfahren der inversen, homomorphen Verarbeitung verarbeitet, wobei das periodische Tonhöhen-Impulsfolge­ signal e(n) als Ausgangssignal erhalten werden kann, indem man ein Filter (FIR) mit einer Impulsantwort endlicher Dauer entwickelt, welches die Funktion h-1(n) als Impulsantwort besitzt, und indem man diesem Filter ein Original-Sprachsignal s(n) zuführt, welches nicht mit einer Fensterfunktion multipliziert ist. Dieses Verfahren ist ein inverses Filterverfahren, welches im wesentlichen gleich demjenigen gemäß Fig. 5A ist, mit dem einzigen Unterschied, daß während bei der homomorphen Analyse gemäß Fig. 5C ein inverses, spektrales Enveloppenfilter 1/H(f) entwickelt wird, indem man eine Impulsantwort h-1(n) des inversen, spektralen Enveloppenfilters erhält, gemäß Fig. 5A das inverse, spektrale Enveloppenfilter 1/H(f) direkt auf der Basis der Vorhersagecoeffizienten ai oder der Reflexionscoeffizienten k1 entwickelt wird, die nach dem Analyseverfahren der linearen Vorhersage erhalten werden.
Bei der blinden Entfaltung auf der Basis der homomorphen Analyse können die Impulsantwort h(n) oder das nieder­ frequente Cepstrum CL(i), die in Fig. 5B und 5C in punktierten Linien gezeigt sind, als Spektral-Enveloppen­ parametersatz verwendet werden. Wenn man die Impulsantwort {h(0), h(1), . . . , h(N-1)} verwendet, besteht ein spek­ traler Enveloppenparametersatz normalerweise aus einer guten Zahl von Parametern in einer Größenordnung, bei der N 90 bis 120 beträgt, während die Anzahl der Parameter auf 50 bis 60 verringert werden kann, wobei N 25 bis 30 beträgt, wenn man das Cepstrum {CL(-N)m, CL(-N+1), . . . , 0, . . . , CL(N)} verwendet.
Wie oben beschrieben, wird das stimmhafte Sprachsignal s(n) in die Impulsantwort h(n) des spektralen Enveloppen­ filters und das periodische Impulshöhen-Impulsfolgesignal e(n) gemäß dem in Fig. 5 dargestellten Verfahren entfaltet.
Wenn erst einmal das Tonhöhen-Impulsfolgesignal und die spektralen Enveloppenparameter nach dem Verfahren der blinden Entfaltung erhalten wurden, dann werden die Tonhöhen-Impulspositionen P1, P2, usw. aus dem perio­ dischen Tonhöhen-Impulsfolgesignal e(n) oder dem Sprach­ signal s(n) erhalten, indem man im Zeitbereich einen Tonhöhen-Impuls-Positionsdetektions-Algorithmus, wie z. B. den Epochen-Detektionsalgorithmus, verwendet. Als nächstes werden die Tonhöhen-Impulssignale e1(n), e2(n) und e3(n), die in Fig. 3H, 3K bzw. 3N gezeigt sind, erhalten, indem man das Tonhöhen-Impulsfolgesignal e(n) periodisch derart segmentiert, daß ein Tonhöhenimpuls in einem Perioden­ intervall eingeschlossen wird, wie dies in Fig. 3F gezeigt ist. Bezüglich der Positionen der Segmentierung kann man sich für die Mittelpunkte zwischen den Tonhöhenimpulsen entscheiden oder für Punkte, die um ein konstantes Zeitintervall vor jedem Tonhöhenimpuls liegen. Da jedoch die Position jedes Tonhöhenimpulses zeitlich mit dem Endbereich jedes glossalen Impulses zusammenfällt, wie vollständig deutlich wird, wenn man Fig. 3A und 3F vergleicht, ist es zu bevorzugen, als Position für die Segmentierung einen Punkt auszuwählen, der um ein konstantes Zeitintervall hinter jedem Tonhöhenimpuls liegt, wie dies durch die punktierte Linie in Fig. 3F gezeigt ist. Da jedoch der Tonhöhenimpuls den größten Effekt für die Hörbarkeit darstellt, ergeben sich zwischen den angesprochenen Fällen keine signifikanten Unterschiede in der synthetisch erzeugten Sprache.
Wenn die nach diesem Verfahren erhaltenen Tonhöhen-Impulsfolge­ signale e1(n), e2(n), e3(n), usw. jeweils wieder mit h1(n), h2(n), h3(n) . . . gemäß Fig. 3E gefaltet werden, bei denen es sich um die Impulsantworten während des Perioden­ intervalls der Tonhöhen-Impulssignale e1(n), e2(n), e3(n) usw. handelt, dann werden die erwünschten Einzelschwin­ gungen erhalten, wie sie in Fig. 3I, 3L, 3(O) gezeigt sind. Eine derartige Faltung kann in bequemer Weise durchgeführt werden, indem man jedes Tonhöhen-Impuls­ folgesignal dem spektralen Enveloppenfilter H(f) zuführt, welches die spektralen Enveloppenparameter als Filter­ koeffizienten verwendet, wie dies in Fig. 4 gezeigt ist. Beispielsweise kann in den Fällen, in denen die linearen Vorhersagekoeffizienten oder die Reflexionskoeffizienten oder Linienspektrumspaare als spektrale Enveloppenparameter verwendet werden, wie bei dem Analyseverfahren der linearen Vorhersage ein IIR-Filter (infinite-duration impulse response = Impulsantwort unendlicher Dauer) eingesetzt werden, welches mit den linearen Vorhersage­ koeffizienten oder den Reflexionskoeffizienten oder den Linienspektrumspaaren als Filterkoeffizienten aufgebaut ist. In Fällen, in denen die Impulsantwort für die spektralen Enveloppenparameter verwendet wird, wie bei dem homomorphen Analyseverfahren, wird ein FIR-Filter ver­ wendet, welches die Impulsantwort als Abgriffskoeffi­ zienten hat. Da das Synthesefilter nicht direkt aufgebaut werden kann, wenn der spektrale Enveloppenparameter ein logarithmisches Bereichsverhältnis oder das Cepstrum ist, sollten die spektralen Enveloppenparameter in die Reflexionskoeffizienten oder die Impulsantwort zurück­ transformiert werden, um als Koeffizienten für das IIR- oder FIR-Filter verwendet zu werden. Wenn das Ton­ höhen-Impulssignal für eine Periode dem in der vorstehend beschriebenen Weise aufgebauten, spektralen Enveloppen­ filter als Eingangssignal zugeführt wird und wenn die Filterkoeffizienten zeitlich in Übereinstimmung mit den spektralen Enveloppenparametern variiert werden, die demselben Zeitpunkt entsprechen wie die einzelnen Proben des Tonhöhen-Impulssignals, dann wird als Ausgangssignal die Einzelschwingung für diese Periode erhalten. Aus diesem Grunde werden die "Zeitfunktionsschwingungen bzw. -wellen" der spektralen Enveloppenparameter an demselben Punkt ausgeschnitten, wie wenn e(n) ausgeschnitten würde, um das Tonhöhen-Impulssignal für jede einzelne Periode zu erhalten. Beispielsweise werden im Falle der sequentiellen Analyse die spektralen Enveloppenparameter k1(n)1, k2(n)1, usw. für die erste Periode, wie dies in Fig. 3G gezeigt ist, dadurch erhalten, daß die spektralen Enveloppen­ parameter ausgeschnitten werden, die derselben Zeitperiode entsprechen wie das Tonhöhen-Impulssignal e1(n) für die erste Periode, welches in Fig. 3H gezeigt ist, und zwar aus den Zeitfunktionen k1(n), k2(n), usw. der spektralen Enveloppenparameter, wie dies in Fig. 3D gezeigt ist. Die spektralen Enveloppenparameter für die zweite und dritte Periode, die in Fig. 3J und 3M in ausgezogenen Linien gezeigt sind, können in ähnlicher Weise erhalten werden wie oben ausgeführt. In Fig. 4 sind die Reflexions­ koeffizienten k1, k2, . . . , kN und die Impulsantwort h(0), h(1), . . . , h(N-1) als typischer Spektralenveloppenpara­ metersatz gezeigt, wobei sie mit k1(n), k2(n), . . , kn(n) und h(0,n), h(1,n), . . . , h(N-1,n) bezeichnet wurden, um zu betonen, daß es sich bei ihnen um Funktionen der Zeit handelt. In gleicher Weise wird das Cepstrum CL(i) in den Fällen, in denen es als spektraler Enveloppenparametersatz verwendet wird, als CL(i,n) bezeichnet.
Da bei dem tonhöhensynchronen Analyseverfahren oder dem Block-Analyseverfahren anders als bei dem sequentiellen Analyseverfahren nicht die Zeitfunktionen der spektralen Enveloppenparameter erhalten werden, sondern die spektralen Enveloppenparameterwerte, welche über das Analyseintervall konstant sind, ist es erforderlich, die Zeitfunktionen der spektralen Enveloppenpara­ meter aus den spektralen Enveloppenparameterwerten zu gewinnen und dann die Zeitfunktionen Periode für Periode zu segmentieren, um die spektralen Enveloppenparameter für eine Periode zu erhalten. In der Praxis ist es bequem, wie folgt vorzugehen, anstatt die Zeitfunktionen zusammenzustellen. Da im Falle des tonhöhensynchronen Analyseverfahrens ein Satz von spektralen Enveloppen­ parametern, welche konstante Werte haben, jedem Tonhöhen­ periodenintervall entspricht, wie dies als gestrichelte Linie in Fig. 8B gezeigt ist, ändern sich die spektralen Enveloppenparameter selbst dann nicht, wenn ihre Zeitfunktionen Periode für Periode segmentiert werden. Daher sind die spektralen Enveloppenparameter für eine Periode, die in einem Pufferspeicher zu speichern sind, keine Zeitfunktionen, sondern zeitunabhängige Konstante.
Da im Falle des Block-Analyseverfahrens pro Block ein Satz von konstanten, spektralen Enveloppenparametern erhalten wird, sind die Werte eines spektralen Enveloppenparameters für eine Periode, die zu einem Block gehört, beispiels­ weise k1(n)1, k1(n)2, . . . , k1(n)M, nicht nur konstant unabhängig von der Zeit, sondern auch identisch. (Im vorliegenden Fall bedeutet k1(n)j die Zeitfunktion von k1 für das j-te-periodische Intervall, während M die Anzahl von Tonhöhenperiodenintervallen angibt, die zu einem Block gehören.)
Es ist zu beachten, daß im Falle des Block-Analysever­ fahrens dann, wenn das Tonhöhen-Impulssignal über der Grenze zwischen zwei benachbarten Blöcken liegt, die spektralen Enveloppenparameterwerte des vorausgehenden Blockes bzw. des folgenden Blockes für die Auswertung benutzt und nachfolgende Signalteile bezüglich der Blockgrenze geteilt werden.
Wie in Fig. 3I erkennbar ist, ist die Dauer einer Einzelschwingung nicht notwendigerweise gleich einer Periode. Aus diesem Grunde werden die Verfahren der Nullanhängung und der Parameterverlängerung, die in Fig. 4 gezeigt sind, benötigt, ehe das Tonhöhen-Impulssignal und die spektralen Enveloppenparameter für eine Periodendauer, die durch die periodische Segmentierung erhalten wurden, an das spektrale Enveloppenfilter angelegt werden, damit die Dauer des Tonhöhen-Impulssignals und die spektralen Enveloppenparameter mindestens so lang sind wie die effektive Dauer der Einzelschwingung. Das Verfahren der Nullanhängung dient dazu, die Gesamtdauer des Tonhöhen-Im­ pulssignals so lang zu machen, wie die erforderliche Länge ist, indem hinter dem Tonhöhen-Impulssignal einer Periode die Proben angehängt werden, die den Wert Null haben. Das Verfahren der Parameterverlängerung besteht darin, die Gesamtdauer der spektralen Enveloppenparameter so lang zu machen, wie es erforderlich ist, indem die spektralen Enveloppenparameter für die folgenden Perioden nach den spektralen Enveloppenparametern von der Länge einer Periode angehängt werden. Die Qualität der synthetisch erzeugten Sprache wird jedoch selbst dann nicht signifikant verschlechtert, wenn ein einfaches Verfahren angewandt wird, nach dem wiederholt der Endwert der spektralen Enveloppenparameter einer Periode oder der erste Wert der spektralen Enveloppenparameter der nächsten Periode angehängt wird.
Die Tatsache, daß die effektive Dauer der Einzelschwingung bzw. -welle, die von dem spektralen Enveloppenfilter erzeugt werden soll, von den Werten der spektralen Enveloppenparameter abhängt, macht es schwierig, diese Dauer vorab abzuschätzen. Da es jedoch im praktischen Einsatz in den meisten Fällen nicht zu signifikanten Fehlern führt, wenn man berücksichtigt, daß die effektive Dauer der Einzelschwingung, ausgehend von der Tonhöhen-Im­ pulsposition, bei einem männlichen Sprecher zwei Perioden beträgt und bei einer Frau oder einem Kind drei Perioden, ist es bequem zu entscheiden, daß die Dauer des "verlängerten Tonhöhen-Impulssignals", die durch Nullan­ hängen erreicht werden soll, und die Dauer der "verlänger­ ten spektralen Enveloppenparameter", die durch Verlängern der Parameter erzeugt werden soll, für männliche Sprecher drei Perioden beträgt und für weibliche Sprecher vier Perioden, und zwar für den Fall, daß die periodische Segmentierung unmittelbar hinter den Tonhöhenimpulsen erfolgt. In Fig. 3G sind die spektralen Enveloppen­ parameter für die erste Periode des drei Perioden umfassenden Intervalls "ad", die erhalten werden, indem man die spektralen Enveloppenparameter für das zwei Perioden umfassende Intervall "bd" anhängt, durch eine punktierte Linie, angrenzend an den spektralen Enveloppen­ parameter der ersten Periode des Intervalls "ab", als Beispiel angedeutet, welches durch die periodische Segmentierung erhalten wird. In Fig. 3H ist als Beispiel ein verlängertes Tonhöhen-Impulssignal für die erste Periode des drei Perioden umfassenden Intervalls "ad" dargestellt, welches erhalten wird, indem man die den Wert Null aufweisenden Proben an das zwei Perioden umfassende Intervall "bd" anhängt, welches als nächstes auf das Tonhöhen-Impulssignal des Intervalls "ab" der ersten Periode folgt, das durch die periodische Segmentierung erhalten wird.
Da in dem vorstehend beschriebenen Fall die Dauer nach der Nullanhängung und der Parameterverlängerung auf drei bzw. vier Perioden erhöht ist, während die Dauer des Tonhöhen-Im­ pulssignals und der spektralen Enveloppenparameter vor der Nullanhängung und der Parameterverlängerung eine Periode beträgt, sind zwischen der periodischen Segmen­ tierung und der Parameterverlängerung Puffer vorgesehen, wie dies in Fig. 4 gezeigt ist, und das Tonhöhen-Impuls­ signal sowie die spektralen Enveloppenparameter, die durch die periodische Segmentierung erhalten werden, werden dann in den Puffern gespeichert und im Bedarfsfall wieder abgerufen, so daß eine temporäre Pufferung erreicht wird.
Wenn das verlängerte Tonhöhen-Impulssignal und die verlängerten spektralen Enveloppenparameter gemäß Fig. 4 durch die Nullanhängung und die Parameterverlängerung erreicht werden, können das "Einzelschwingungssignal" s1(n) für die erste Periode der Dauer des drei Perioden umfassenden Intervalls, wie z. B. des Intervalls "ad", welches in Fig. 3I gezeigt ist, letztlich erhalten werden, indem man das verlängerte Tonhöhen-Impulssignal der ersten Periode, wie z. B. das Intervall "ad" in Fig. 3H, in das spektrale Enveloppenfilter H(f) eingibt und die Koeffi­ zienten synchron in der gleichen Weise variiert, wie den verlängerten spektralen Enveloppenparameter der ersten Periode, wie z. B. des Intervalls "ad" in Fig. 3G. Die Einzelschwingungssignale s2(n) und s3(n) für die zweite bzw. dritte Periode können in derselben Weise erhalten werden.
Wie vorstehend beschrieben, wird das stimmhafte Sprach­ signal s(n) letztlich nach dem Verfahren gemäß Fig. 4 in Einzelschwingungen zerlegt, aus denen das Signal s(n) zusammengesetzt ist. Offensichtlich führt das neue Arrangieren der Einzelwellen gemäß Fig. 3I, 3L und 3(O), welche durch die Zerlegung erhalten wurden, an den ursprünglichen Punkten zu dem Signal gemäß Fig. 3B, und wenn die Einzelwellen übereinandergelegt sind, wird das ursprüngliche Sprachsignal s(n), welches in Fig. 3C gezeigt ist, wieder erhalten. Wenn die Einzelschwingungen gemäß Fig. 31, 3L und 3(O) wieder neu arrangiert werden, indem die Zwischenräume verändert werden und dann über­ lagert werden, wie dies in Fig. 3P gezeigt ist, dann wird die Sprachschwingung gemäß Fig. 3Q erhalten, welche ein anderes Tonhöhenmuster hat. Durch geeignetes Variieren des Zeitintervalls zwischen den Einzelschwingungen, welche durch die Zerlegung erhalten werden, ist es also möglich, eine synthetische Sprache zu erzeugen, die ein beliebiges, gewünschtes Tonhöhenmuster, d. h. eine beliebige Intonation hat. In ähnlicher Weise ermöglicht das richtige Variieren der Energie der Einzelschwingungen die Erzeugung von synthetischer Sprache mit einem beliebigen, erwünschten Betonungs- bzw. Lautstärkemuster.
In dem in Fig. 2 gezeigten Sprachsegmentspeicherblock 5 wird jedes stimmhafte Sprachsegment, welches nach dem Verfahren gemäß Fig. 4 in so viele Einzelschwingungen unterteilt wird wie Tonhöhenimpulse vorhanden sind, in dem in Fig. 6A gezeigten Format gespeichert, welches als Sprachsegment­ information bezeichnet wird. In einem Kopffeld, bei dem es sich um den vorderen Teil der Sprachsegmentinformation handelt, werden Grenzzeitpunkte B1, B2, . . . , BL, welche wichtige Zeitpunkte in dem Sprachsegment sind, sowie Tonhöhen-Impulspositionen P1, P2, . . . , PM jedes Ton­ höhen-Impulssignals, welches bei der Synthese jeder Einzelschwingung verwendet wird, gespeichert, wobei die Anzahl der Proben (Abtastwerte), die jedem Zeitpunkt entsprechen, aufgezeichnet wird, wobei die Position der ersten Probe des ersten Tonhöhen-Impulssignals e1(n) als 0 genommen wird. Der Grenzzeitpunkt ist die Zeitposition der Grenzpunkte zwischen Untersegmenten, die man erhält, wenn das Sprachsegment in mehrere Untersegmente unterteilt bzw. segmentiert wird. Beispielsweise kann ein Vokal, vor und hinter welchem ein Konsonant vorhanden ist, für langsame Sprache als aus drei Subsegmenten bestehend angesehen werden, da der Vokal in ein Intervall in seinem mittleren Teil mit einem stetigen Zustand und zwei Übergangsinter­ valle unterteilt werden kann, die vor bzw. hinter dem Intervall mit stetigem Zustand liegen. In diesem Fall werden die drei Endpunkte der Subsegmente als Grenz­ zeitpunkte in dem Kopffeld des Sprachsegmentes gespei­ chert. Wenn die Abtastung jedoch bei schnellerer Sprech­ geschwindigkeit erfolgt, werden in der Kopfinformation zwei Grenzzeitpunkte gespeichert, da das Übergangs­ intervall zu einem Punkt wird, so daß das Sprachsegment des Vokals als aus zwei Subsegmenten bestehend betrachtet werden kann.
In dem Schwingungs-Codefeld, welches der spätere Teil der Sprachsegmentinformation ist, werden Einzel­ schwingungscodes gespeichert, welche durch Schwingungs­ codierung der Einzelschwingungen erhalten werden, die jeder einzelnen Periode entsprechen. Die Einzelschwin­ gungen können durch das einfache Schwingungscodier­ verfahren codiert werden, wie z. B. durch PCM; da die Einzelschwingungen jedoch eine erhebliche Kurzzeit- und Langzeitkorrelation haben, kann die erforderliche Speicherplatzmenge für die Speicherung erheblich verringert werden, wenn die Einzelschwingungen in effektiver Weise nach dem Verfahren der Schwingungs­ codierung unter Verwendung des ADPCM-Verfahrens codiert werden, bei dem mit einer Tonhöhenvoraussageschleife gearbeitet wird oder mit einer adaptiven, voraussagenden Codierung oder einem digitalen, adaptiven Deltamodula­ tionsverfahren. Das Verfahren, nach welchem die nach Zerlegung erhaltenen Einzelschwingungen codiert und in Form der resultierenden Codes gespeichert werden, derart, daß die Codes zum Zeitpunkt der Synthese decodiert, neu geordnet und überlagert werden, um synthetische Sprache zu erzeugen, wird als "Schwingungscodespeicherverfahren" bezeichnet.
Das Tonhöhen-Impulssignal und die entsprechenden spek­ tralen Enveloppenparameter können als identisch mit der Einzelschwingung betrachtet werden, da es sich bei ihnen um Materialien handelt, mit denen die Einzelschwingung erzeugt werden kann. Daher ist auch ein Verfahren möglich, bei dem die "Quellcodes" ("source codes") gespeichert werden, welche durch Codieren der Tonhöhen-Impulssignale und der spektralen Enveloppenparameter erhalten werden, und bei dem die Einzelschwingungen mit den Tonhöhen-Im­ pulssignalen und den spektralen Enveloppenparametern hergestellt werden, welche durch Decodieren der Quellcode erhalten werden, wobei die Einzelschwingungen dann neu arrangiert und überlagert werden, um die synthetisch erzeugte Sprache zu erzeugen. Dieses Verfahren wird als "Quellcode-Speicherverfahren" bezeichnet. Dieses Verfahren entspricht demjenigen, bei dem das Tonhöhen-Impulssignal und die spektralen Enveloppenparameter, die in den Puffern gespeichert sind, anstelle der Einzelschwingungen, die in Fig. 4 als Ausgangssignal erhalten werden, in demselben Periodenintervall miteinander verknüpft und dann in dem Sprachsegmentspeicherblock gespeichert werden. Bei dem Quellcode-Speicherverfahren werden daher die Prozeduren hinter dem Puffer in Fig. 4, nämlich die Parameterver­ längerung, die Nullanhängung und die Filterung durch das Synthesefilter H(f) in dem Einzelschwingungsanordnung­ unterblock in Fig. 7 durchgeführt.
Bei dem Quellcode-Speicherverfahren hat die Sprachsegment­ information das in Fig. 6B gezeigte Format, welches dasselbe ist wie in Fig. 6A, ausgenommen den Inhalt des Schwingungs-Codefeldes. D.h. daß die Tonhöhen-Im­ pulssignale und die spektralen Enveloppenparameter, die für die Synthese der Einzelschwingungen erforderlich sind, anstelle der Einzelschwingungen codiert und an den Positionen gespeichert werden, an denen die Einzel­ schwingung für jede Periode in Fig. 6A zu speichern ist.
Die spektralen Enveloppenparameter werden gemäß dem bekannten Quantisierungsverfahren für spektrale Enveloppenparameter codiert und im Einzelschwingungs-Code­ feld gespeichert. Wenn die spektralen Enveloppen­ parameter zu diesem Zeitpunkt vor der Quantisierung transformiert werden, kann die Codierung effektiv durchgeführt werden. Beispielsweise ist es vorteilhaft, die Vorhersagekoeffizienten in die Parameter des Linienspektrumspaares und die Reflexionskoeffizienten in die logarithmischen Bereichsverhältnisse zu transformieren und die zu quantisieren. Da außerdem die Impulsantwort zwischen benachbarten Proben und benachbarten Impulsant­ worten eine enge Korrelation hat, kann die erforderliche Menge der zu speichernden Daten beträchtlich verringert werden, wenn ihre Einzelschwingungscodierung nach einem differentiellen Codierverfahren erfolgt. Im Falle der Cepstrumparameter ist ein Codierverfahren bekannt, bei welchem der Cepstrumparameter so transformiert wird, daß die Menge der Daten beträchtlich reduziert werden kann.
Einerseits wird das Tonhöhen-Impulssignal nach einem geeigneten Einzelschwingungscodierverfahren codiert und der resultierende Code wird in dem Einzelschwingungs­ codefeld gespeichert. Die Tonhöhen-Impulssignale haben eine geringe Kurzzeitkorrelation, aber eine signifikante Langzeitkorrelation miteinander. Wenn daher ein Schwin­ gungscodierverfahren, wie z. B. das tonhöhenvorhersagende, adaptive PCM-Codierverfahren angewandt wird, welches eine die Tonhöhe voraussagende Schleife umfaßt, dann kann eine hohe Qualität der synthetisch erzeugten Sprache selbst dann erreicht werden, wenn die Menge des für die Speicherung erforderlichen Speicherplatzes auf drei Bit pro Probe bzw. Abtastwert reduziert wird. Der Vorher­ sagekoeffizient einer Tonhöhenvorhersage-Einheit kann ein Wert sein, der für jede Tonhöhenperiode nach einem Autokorrelationsverfahren gewonnen wird, oder auch ein konstanter Wert. In der ersten Stufe der Codierung kann der Tonhöhenvorhersage-Effekt durch eine Normierung erhöht werden, indem man das zu codierende Tonhöhen-Impulssignal durch die Quadratwurzel der mittleren Energie pro Abtast­ wert "G" teilt. Das Decodieren erfolgt in dem Synthese­ block für stimmhafte Sprache und das Tonhöhen-Impulssignal wird mit seiner ursprünglichen Größe wiederhergestellt, indem es in der Endstufe der Decodierung erneut mit dem Faktor "G" multipliziert wird.
In Fig. 6B ist die Sprachsegmentinformation für den Fall gezeigt, daß ein lineares, vorhersagendes Analyseverfahren angewandt wird, welches als spektrale Enveloppenparameter 14 Reflexionskoeffizienten verwendet. Wenn das Analyse­ intervall für die lineare, vorhersagende Analyse die Tonhöhenperiode ist, entsprechen 14 Reflexionskoeffi­ zienten jedem Tonhöhen-Impulssignal und werden gespei­ chert. Wenn das Analyseintervall ein Block mit einer gewissen Länge ist, dann haben die Reflexionskoeffizienten für mehrere Tonhöhen-Impulse in einem Block dieselben Werte, so daß der erforderliche Speicherplatz für die Speicherung der Einzelschwingungen reduziert wird. In diesem Fall muß, wie oben diskutiert, da die Reflexions­ koeffizienten des vorausgehenden Blockes oder des späteren Blockes zum Zeitpunkt der Synthese für Tonhöhen-Impuls­ signale, die über der Grenze zwischen zwei Blöcken liegen, in Abhängigkeit davon, ob die Abtastwerte des Signals vor oder hinter dem Grenzpunkt liegen, die Position des Grenzpunkts zwischen den Blöcken zusätzlich in dem Kopffeld gespeichert werden. Wenn ein sequentielles Analyseverfahren, wie z. B. das rekursive Verfahren der kleinsten Quadrate, angewandt wird, dann werden die Reflexionskoeffizienten k1, k2, . . . , k14 zu kontinuier­ lichen Funktionen des Zeitindex "n", wie dies in Fig. 3D gezeigt ist, und es ist eine Menge Speicherplatz erforder­ lich, um die Zeitfunktion k1(n), k2(n), . . . , k14(n) zu speichern. Nimmt man den Fall gemäß Fig. 3 als Beispiel, dann sind die Schwingungen für das Intervall "ab" in Fig. 3G und Fig. 3H als die erste Periode und für das Intervall "bc" in Fig. 3J und Fig. 3K als die zweite Periode und für das Intervall "cd" in Fig. 3M und Fig. 3N als dritte Periode des Einzelschwingungs-Codefeldes in dem Einzelschwingungs-Codefeld gespeichert.
Das Schwingungscode-Speicherverfahren und das Quellcode-Speicher­ verfahren sind im wesentlichen gleiche Verfahren, und tatsächlich werden der Schwingungscode, der erhalten wird, wenn die Einzelschwingungen nach dem effektiven Einzelschwingungs-Codierverfahren, wie z. B. dem APC-Verfahren (APC = adaptive predictive coding = anpassende, vorhersagende Codierung), bei dem Schwingungscode-Spei­ cherverfahren in ihren Inhalten nahezu gleich dem Quellcode, der bei dem Quellcode-Speicherverfahren erhalten wird. Der Schwingungsformcode bei dem Schwin­ gungsformcode-Speicherverfahren und der Quellcode bei dem Quellcode-Speicherverfahren werden insgesamt als Einzel­ schwingungscode bezeichnet.
Fig. 7 zeigt die innere Konfiguration des Syntheseblockes für stimmhafte Sprache gemäß vorliegender Erfindung. Die Einzelschwingungscode, die in dem Einzelschwingungs­ codefeld der Sprachsegmentinformation gespeichert sind, welche von dem Sprachsegmentspeicherblock 5 erhalten wird, werden durch einen Decodier-Unterblock 9 im Zuge eines Verfahrens decodiert, welches invers zu dem Verfahren ist, nachdem diese Informationen codiert wurden. Einerseits werden die Einzelschwingungssignale, die erhalten werden, wenn die Schwingungscode bei dem Schwingungscode-Speicher­ verfahren decodiert werden, oder die Tonhöhen-Impuls­ signale, welche erhalten werden, wenn die Source-Code bei dem Source-Code-Speicherverfahren decodiert werden und die an die spektralen Enveloppenparameter angepaßten Tonhöhen-Impulssignale als Einzelschwingungsinformation bezeichnet und dem Schwingungsanordnungs-Unterblock 13 zugeführt. Andererseits wird die Kopfinformation, die in dem Kopffeld der Sprachsegmentinformation gespeichert ist, als Eingangssignal für einen Dauersteuerungs-Unterblock 10 und einen Tonhöhensteuerungs-Unterblock 11 verwendet.
Der Dauersteuerungs-Unterblock 10 gemäß Fig. 7 empfängt als Eingangssignal die Dauerdaten (die Daten über die zeit­ liche Dauer bzw. Länge) der vorausgehenden Information und die Grenzzeitpunkte, die von der Sprachsegmentkopf­ information umfaßt werden, und erzeugt die Zeit-Form­ änderungsinformation durch Verwendung der Dauerdaten und der Grenzzeitpunkte und liefert die erzeugte Zeit-Form­ änderungsinformation an den Schwingungsanordnungs-Un­ terblock 13, den Tonhöhensteuerungs-Unterblock 11 und den Energiesteuerungsunterblock 12. Wenn die Gesamtdauer des Sprachsegments kürzer oder länger wird, dann wird die Dauer der Subsegmente, die das Sprachsegment bilden, entsprechend kürzer oder länger, wobei das Verhältnis der Kompression oder Expansion von der Eigenschaft jedes Subsegments abhängt. Beispielsweise besitzt die Dauer des Intervalls stetigen Zustands, welches im Falle eines Vokals, der zwischen zwei Konsonanten steht, in der Mitte liegt, eine beträchtlich größere Variationsrate als die Dauer der Übergangsintervalle auf beiden Seiten des Vokals. Der Dauersteuerungs-Unterblock 10 vergleicht die Dauer BL des Original-Sprachsegments, welches gespeichert wurde, und die Dauer des synthetisch zu erzeugenden Sprachsegments, die durch die Dauerdaten angezeigt wird, und erreicht die Dauer jedes zu synthetisierenden Subseg­ ments entsprechend der Dauer jedes Original-Subsegments unter Verwendung der Variationsrate derselben oder der Dauerregel, wodurch die Grenzzeitpunkte der syntheti­ sierten Sprache erhalten werden. Die Original-Grenz­ zeitpunkte B1, B2 usw. und die Grenzzeitpunkte B′1, B′2 usw. der synthetischen Sprache, die an die Original-Grenz­ zeitpunkte angepaßt sind, werden insgesamt als Zeit-Form­ änderungsinformation bezeichnet, woraufhin, beispielsweise im Falle von Fig. 8, die Zeit-Formänderungsinformation wie folgt dargestellt werden kann: {(B1, B′1), (B1, B′2), (B2, B′3), (B3, B′3), (B4, B′4)}.
Die Funktion des Tonhöhensteuerungs-Unterblockes 11 in Fig. 7 besteht darin, die Tonhöhen-Impulspositionsinformation zu erzeugen, derart, daß die synthetisierte Sprache das Intonationsmuster aufweist, welches durch die Intonations­ musterdaten angegeben wird, und liefert die Information an den Schwingungsanordnungs-Unterblock 13 und den Energiesteue­ rungs-Unterblock 12. Der Tonhöhensteuerungs-Unterblock 11 empfängt als Eingangssignal die Informationsmusterdaten, bei denen es sich um die Ziel-Tonhöhenfrequenzwerte für jedes Phonem handelt, und erzeugt eine Tonhöhenkontur, welche die kontinuierliche Variation der Tonhöhenfrequenz über der Zeit darstellt, indem er die Ziel-Tonhöhen­ frequenzwerte glatt miteinander verbindet. Der Tonhöhen­ steuerungs-Unterblock 11 kann aufgrund eines Obstruenten (Verschlußlaut oder Reiblaut) der Tonhöhenkontur ein Mikrointonationsphenomen reflektieren. In diesem Fall wird die Tonhöhenkontur jedoch zu einer diskontinuierlichen Funktion, in der sich der Tonhöhenfrequenzwert an dem Grenzpunkt zwischen dem Verschlußlautphonem und dem angrenzenden, anderen Phonem bezüglich der Zeit abrupt ändert. Die Tonhöhenfrequenz wird erhalten, indem man die Tonhöhenkontur in einer- ersten Tonhöhenimpulsposition des Sprachsegmentes abtastet, und die Tonhöhenperiode wird erhalten, indem man das Inverse der Tonhöhenfrequenz nimmt. Anschließend wird der Punkt, bis zu dem sich die Tonhöhenperiode erstreckt, als zweite Tonhöhenimpuls­ position bestimmt. Die nächste Tonhöhenperiode wird dann aus der Tonhöhenfrequenz an diesem Punkt erhalten und die nächste Tonhöhenimpulsposition wird wieder daraus erhalten, und die Wiederholung dieser Vorgänge könnte alle Tonhöhenimpulspositionen der synthetisierten Sprache ergeben. Die erste Tonhöhenimpulsposition des Sprachseg­ ments kann auf den Punkt des ersten Abtastwertes gelegt werden oder auf dessen benachbarte Abtastwerte im Falle des ersten Sprachsegments einer Serie von Segmenten kontinuierlicher, stimmhafter Sprache der synthetisierten Sprache, und für die ersten Tonhöhenimpulsposition des nächsten Sprachsegments wird der Punkt festgelegt, der der Position des vorletzten Tonhöhenimpulses des voraus­ gehenden Sprachsegments entspricht, usw. Der Tonhöhen­ steuerungs-Unterblock 11 sendet die Tonhöhenimpulspositionen P′1, P′2 usw. der erhaltenen synthetischen Sprache als solcher und die Original-Tonhöhen-Impulspositionen P1, P2 usw., die in der Sprachsegmentkopfinformation enthalten sind, zusammen in verknüpfter Form an den Schwingungs­ anordnungs-Unterblock 13 und den Energiesteuerungs-Unterblock 12, wo diese Informationen als sogenannte Tonhöhenimpulspositionsinformationen empfangen werden. Im Fall von Fig. 8 kann die Tonhöhenimpulspositionsinfor­ mation beispielsweise wie folgt dargestellt werden: {(P1, P2, . . . P9), (P′1, P′′′, . . . , P′8)}.
Der Energiesteuerungs-Unterblock 12 gemäß Fig. 7 erzeugt eine Verstärkungsinformation, aufgrund welcher die syntheti­ sierte Sprache das Betonungsmuster erhält, welches durch die Betonungsmusterdaten angezeigt wird, und sendet diese Verstärkungsinformationen zu dem Schwingungsanordnungs-Unter­ block 13. Der Energiesteuerungs-Unterblock 12 empfängt als Eingangssignal die Betonungsmusterdaten, bei denen es sich um Zielamplitudenwerte für jedes Phonem handelt, und erzeugt eine Energiekontur, welche die kontinuierliche Veränderung der Amplitude über der Zeit darstellt, indem er die Zielamplitudenwerte glatt miteinander verbindet. Es wird angenommen, daß die Sprachsegmente vorab zum Zeit­ punkt der Speicherung normiert werden, so daß sie eine relative Energie gemäß der Klasse des Sprachsegments haben, um die relative Differenz der Energie für jedes Phonem widerzuspiegeln. Beispielsweise hat im Falle von Vokalen ein niedriger (dunkler) Vokal eine größere Energie pro Zeiteinheit als ein hoher Vokal und ein nasaler Laut hat pro Zeiteinheit etwa die halbe Energie, verglichen mit dem Vokal. Weiterhin ist die Energie während des Ver­ schlußintervalls eines Explosionslaut sehr schwach. Wenn die Sprachsegmente gespeichert werden, sollen sie daher codiert werden, nachdem sie vorab so eingestellt wurden, daß sie eine solche relative Energie haben. In diesem Fall wird die in dem Energiesteuerungs-Unterblock 12 erzeugte Energiekontur eine Verstärkung, die mit der Schwingung zu multiplizieren ist, die synthetisiert werden soll. Der Energiesteuerungs-Unterblock 12 erhält die Verstärkungswerte G1, G2 usw. bei jeder Tonhöhenimpulsposition P′1, P′2 usw. der synthetischen Sprache durch Verwendung der Energie­ kontur und der Tonhöhenimpulspositionsinformation und liefert sie an den Schwingungsanordnungs-Unterblock 13, wobei die betreffenden Informationen als Verstärkungsinforma­ tionen bezeichnet werden. Im Fall von Fig. 8 kann die Verstärkungsinformation beispielsweise wie folgt dargestellt werden: {(P′1, G1), (P′2, G2), . . . , (P′8, G8)}.
Der Schwingungsanordnungs-Unterblock 13 gemäß Fig. 7 empfängt als Eingangssignal die oben beschriebene Einzelschwin­ gungsinformation, die Zeitverformungsinformation, die Tonhöhenimpulspositionsinformation und die Verstärkungs­ information und erzeugt letztlich das stimmhafte bzw. klingende Sprachsignal. Der Schwingungsanordnungs-Unter­ block 13 erzeugt die Sprache, welche das Intonations­ muster, das Betonungsmuster und die Dauer hat, die durch die Vorläuferinformation angezeigt werden, indem er die Einzelschwingungsinformationen verarbeitet, die er von dem Decodier-Unterblock 9 empfangen hat. Zu diesem Zeitpunkt werden einzelne Einzelschwingungen wiederholt und andere weggelassen. Die Dauerdaten, die Intonationsmusterdaten und die Betonungsmusterdaten, welche von der Vorläufer­ information umfaßt werden, sind voneinander unabhängige, hinweisgebende Informationen, während sie bei ihrer Verarbeitung miteinander verknüpft werden müssen, da es eine Verknüpfung zwischen diesen drei Informationen gibt, wenn die Schwingung synthetisch mit der Schwingungs­ information zusammengesetzt wird. Eines der wichtigsten Probleme der Schwingungsanordnung besteht darin, welche Einzelschwingung als diejenige Einzelschwingung auszu­ wählen ist, die in jeder einzelnen Tonhöhenimpulsposition der synthetisierten Sprache anzuordnen ist. Wenn nicht die richtigen Einzelschwingungen ausgewählt und angeordnet werden, kann keine gute Qualität der synthetisierten Sprache erhalten werden. Weiter unten erfolgt eine Beschreibung der Arbeitsweise des Schwingungsanordnungs-Unter­ blockes 13, der das Verfahren der Einzelschwingungs­ positionierung auf der Basis der Zeitverformung durch­ führt, bei dem es sich gemäß der Erfindung um ein Einzelschwingungsanordnungsverfahren handelt, welches in der Lage ist, bei der Synthetisierung der synthetischen Sprache eine hohe Qualität zu erreichen, und zwar unter Verwendung der Sprachsegmentinformation, welche von dem Sprachsegmentspeicherblock 5 erhalten wird.
Der Prozeß der Synthese der stimmhaften Sprachschwingung mit Hilfe des Schwingungsanordnungs-Unterblockes 13 besteht aus zwei Stufen, nämlich aus der Stufe der Positionierung der Einzelschwingungen unter Verwendung der Zeitverfor­ mungsfunktion und aus der Überlagerungsstufe zum Über­ lagern der neu positionierten Einzelschwingungen.
Im Falle des Schwingungscode-Speicherverfahrens werden also unter den in Form der Einzelschwingungsinformation empfangenen Einzelschwingungssignalen die am besten geeigneten für die Tonhöhenimpulspositionen der synthe­ tischen Sprache ausgewählt und an ihren Tonhöhenimpuls­ positionen positioniert, wobei jeweils ihre Verstärkung eingestellt wird und wobei die synthetisierte Sprache anschließend durch Überlagerung der Einzelschwingungen erzeugt wird.
Bei dem Quellcode-Speicherverfahren werden das Tonhöhen-Im­ pulssignal und die spektralen Enveloppenparameter für jede Periode, die dem Tonhöhen-Impulssignal entspricht, als Einzelschwingungsinformation empfangen. In diesem Falle sind zwei synthetische Sprachanordnungsverfahren möglich. Das erste Verfahren besteht darin, jede Einzel­ schwingung dadurch zu erhalten, daß man dem Synthesefilter die spektralen Enveloppenparameter und das Tonhöhen-Im­ pulssignal für zwei bis vier Periodenintervallängen zuführt, die erhalten werden, indem man die Prozesse durchführt, die der rechten Seite des Puffers in Fig. 4 entsprechen, nämlich das oben beschriebene Parameter verlängern und das Nullanhängen bezüglich der Einzel­ schwingungsinformation, wobei die synthetische Sprache dann mit den Einzelschwingungen nach einem Verfahren angeordnet bzw. zusammengesetzt wird, welches identisch mit dem Verfahren der Schwingungscodespeicherung ist. Dieses Verfahren ist im wesentlichen dasselbe wie das Anordnen der synthetischen Sprache nach dem Schwingungs­ code-Speicherverfahren, weshalb hier auf eine separate Beschreibung verzichtet wird. Das zweite Verfahren besteht darin, ein synthetisches Tonhöhen-Impulsfolgesignal zu erhalten oder ein synthetisches Anregungs- bzw. Erregungs­ signal, welches eine flache, spektrale Enveloppe hat, welches jedoch ein Tonhöhenmuster hat, welches von dem­ jenigen des ursprünglichen periodischen Tonhöhen-Impuls­ folgesignals verschieden ist, wobei unter den Tonhöhen-Im­ pulssignalen diejenigen ausgewählt werden, die für die Tonhöhenimpulspositionen der synthetischen Sprache am besten geeignet sind, und wobei die Verstärkung für diese Signale eingestellt wird. Anschließend werden die Signale überlagert und zum Erhalten der synthetischen, spektralen Enveloppenparameter ausgewertet, indem man die spektralen Enveloppenparameter mit jedem Tonhöhenimpulssignal verknüpft, welches das synthetische Tonhöhen-Impuls­ folgesignal bildet oder mit dem synthetischen Anregungs­ signal. Zum Erzeugen der synthetisierten Sprache werden schließlich das synthetische Anregungssignal und die synthetischen, spektralen Enveloppenparameter dem Synthesefilter zugeführt. Diese beiden Verfahren sind im wesentlichen identisch, mit der Ausnahme, daß die Sequenz zwischen dem Synthesefilter und dem Überlagerungsschritt in der Anordnung der synthetischen Sprache umgedreht ist.
Das vorstehend beschriebene, synthetische Sprachanord­ nungsverfahren wird nachstehend unter Bezugnahme auf Fig. 8 erläutert. Das Verfahren der Repositionierung der Einzelschwingungen kann grundsätzlich in gleicher Weise sowohl auf das Schwingungscode-Speicherverfahren als auch auf das Quellcode-Speicherverfahren angewandt werden. Die beiden Schwingungsanordnungsverfahren für die Erzeugung synthetischer Sprache nach den beiden genannten Methoden werden folglich unter Bezugnahme auf Fig. 8 gleichzeitig beschrieben.
In Fig. 8A ist die Korrelation zwischen dem Original-Sprach­ segment und dem zu synthetisierenden Sprachsegment dargestellt. Die Original-Grenzzeitpunkte B1, B2 usw., die durch gestrichelte Linien angedeutet sind, die Grenzzeit­ punkte B′1, B′2 usw. des synthetisierten Klanges und die Korrelation zwischen diesen Größen, die durch gestrichelte Linien angedeutet ist, werden von der Zeitverformungs­ information umfaßt, die von dem Dauersteuerungs-Unterblock 10 empfangen wird. Zusätzlich sind die Original-Tonhöhen-Im­ pulspositionen P1, P2 usw. durch ausgezogene Linien angezeigt und die Tonhöhenimpulspositionen P′1, P′2 der synthetisierten Sprache sind in der Tonhöhenimpuls­ positionsinformation enthalten, die von dem Tonhöhen­ steuerungs-Unterblock 11 empfangen wird. Der Einfachheit­ halber ist in Fig. 8 angenommen, daß die Tonhöhenperiode der Originalsprache und die Tonhöhenperiode des synthe­ tisierten Klanges jeweils konstant sind und daß letztere das 1,5fache der ersteren beträgt.
Der Schwingungsanordnungs-Unterblock 13 bildet zunächst die Zeitverformungsfunktion, wie dies in Fig. 8B gezeigt ist, indem er die Original-Grenzzeitpunkte, die Grenzzeitpunkte des synthetisierten Klanges und die Korrelation zwischen diesen verwendet. Auf der Abszisse der Zeitverformungs­ funktion ist die Zeit "t" des Original-Sprachsegments dargestellt, während längs der Ordinate die Zeit "t′" des zu synthetisierenden Sprachsegments aufgetragen ist. Da in Fig. 8A beispielsweise das erste Untersegment und das letzte Untersegment des Original-Sprachsegments zeitlich auf 2/3 komprimiert bzw. auf das 2fache expandiert werden sollten, erscheint die Korrelation zwischen diesen Größen in Form von Linien mit der Steigung 2/3 bzw. 2 in der Zeitverformungsfunktion gemäß Fig. 8B. Das zweite Unter­ segment ändert sich in seiner Dauer nicht, so daß es in der Zeitverformungsfunktion als Linie mit der Steigung 1 erscheint. Das zweite Untersegment des Sprachsegmentes, welches synthetisiert werden soll, ergibt sich durch die Wiederholung des Grenzzeitpunktes B1 des Original-Sprach­ segments. Im Gegensatz dazu ist das dritte Untersegment des Original-Sprachsegmentes in dem zu synthetisierenden Sprachsegment auf einen Grenzzeitpunkt B′3 verändert. Die Korrelationen erscheinen in diesen Fällen als vertikale Linie bzw. als horizontale Linie. Die Zeitverformungs­ funktion wird somit erhalten, indem man den Grenzzeitpunkt des Original-Sprachsegmentes und den Grenzzeitpunkt des zu synthetisierenden Sprachsegmentes vorgibt, der dem Grenzzeitpunkt des Original-Sprachsegmentes entspricht, und zwar in Form von zwei Punkten, und indem man diese Punkte über eine Linie miteinander verbindet. In einigen Fällen kann es möglich sein, daß die Korrelation zwischen den Untersegmenten näher an die Wirklichkeit angenähert wird, indem die Punkte über eine sanfte Kurve verbunden werden.
Bei dem Schwingungscode-Speicherverfahren findet der Schwingungsanordnungs-Unterblock 13 den Original-Zeitpunkt, der der Tonhöhenimpulsposition des synthetisierten Klanges entspricht, heraus, indem er die Zeitverformungsfunktion verwendet, und findet außerdem die Einzelschwingung heraus, welche die Tonhöhen-Impulsposition hat, die am nächsten an dem Original-Zeitpunkt liegt, und ordnet die Einzelschwingung dann an der Tonhöhen-Impulsposition des synthetischen Klanges an.
In der nächsten Stufe multipliziert der Schwingungs­ anordnungs-Unterblock 13 jedes positionierte Einzelschwin­ gungssignal mit der Verstärkung, die der Tonhöhenimpuls­ position des Einzelschwingungssignals entspricht, welches für die Verstärkungsinformation herausgefunden wurde. Schließlich erhält der Unterblock den gewünschten synthetischen Klang durch Überlagerung der hinsichtlich der Verstärkung eingestellten Einzelschwingungssignale durch einfache Addition derselben. In Fig. 3Q ist der synthetische Klang gezeigt, der durch einen derartigen Überlagerungsprozeß für den Fall erzeugt wurde, daß die Einzelschwingungen gemäß Fig. 3I, Fig. 3L und Fig. 3(O) in der Weise neu positioniert werden, wie dies in Fig. 3P gezeigt ist.
In ähnlicher Weise findet der Schwingungsanordnungs-Unter­ block bei dem Quellcode-Speicherverfahren den Original- Zeitpunkt heraus, der der Tonhöhenimpulsposition des synthetischen Klanges entspricht, indem er die Zeitver­ formungsfunktion verwendet und dasjenige Tonhöhenimpuls­ signal herausfindet, welches diejenige Tonhöhenimpuls­ position besitzt, die am nächsten an dem Original-Zeit­ punkt liegt, und indem er dann das Tonhöhenimpulssignal an dieser Tonhöhenimpulsposition des synthetischen Klanges anordnet.
Die Zahl der Tonhöhenimpulssignale bzw. der Einzelschwin­ gungen, die auf diese Weise an jeder Tonhöhenimpuls­ position des zu synthetisierend 19539 00070 552 001000280000000200012000285911942800040 0002004237563 00004 19420en Sprachsegmentes angeord­ net werden, ist in Fig. 8A und 8B gezeigt. Wie man an diesen Zeichnungsfiguren sieht, werden einige der Einzelschwingungen, die das Original-Sprachsegment bilden, aufgrund der Kompression der Untersegmente weggelassen, während einige wegen der Expansion der Untersegmente wiederholt verwendet werden. In Fig. 8 wurde angenommen, daß das Tonhöhenimpulssignal für jede Periode durch Segmentieren unmittelbar hinter jedem Tonhöhenimpuls erhalten wurde.
Die Überlagerung der Einzelschwingungen bei dem Schwingungscode-Speicherverfahren ist äquivalent zur Überlagerung der Tonhöhen-Impulssignale bei dem Quellcode-Speicherverfahren. Daher multipliziert der Schwingungsanordnungs- bzw. -positionierungs-Unterblock im Falle des Quellcode-Speicherverfahrens jedes neu positio­ nierte Tonhöhen-Impulssignal mit der Verstärkung, welche der Tonhöhenimpulsposition des neu angeordneten Tonhöhen­ impulssignals entspricht und die aus der Verstärkungs­ information ermittelt wurde, wobei schließlich das gewünschte, synthetische Anregungssignal erhalten wird, indem die hinsichtlich der Verstärkung eingestellten Tonhöhenimpulssignale überlagert werden. Da jedoch die meiste Energie an dem Tonhöhenimpuls konzentriert ist, kann es in diesem Falle möglich sein, das synthetische Anregungssignal zu erzeugen, indem zunächst ein synthe­ tisches Anregungssignal ohne Verstärkungseinstellung erhalten wird, indem man die positionierten Tonhöhen­ impulssignale überlagert und indem man dann das synthe­ tische Anregungssignal ohne Verstärkungseinstellung mit der Energiekontur multipliziert, die an dem Energiesteue­ rungs-Unterblock erzeugt wurde, anstatt Tonhöhenimpuls­ signale mit konstanter Verstärkungseinstellung zu über­ lagern. Fig. 3R zeigt das synthetische Anregungssignal, welches erhalten wird, wenn die Tonhöhenimpulssignale gemäß Fig. 3H, 3K und 3N nach einem solchen Verfahren neu positioniert werden, so daß das Tonhöhenmuster dasselbe wird wie für den Fall gemäß Fig. 3P.
Bei dem Quellcode-Speicherverfahren muß der Schwingungs­ anordnungs-Unterblock 13 die synthetischen, spektralen Enveloppenparameter erzeugen, wobei zwei Wege möglich sind, nämlich das temporäre Kompressions- und Expansions-Verfahren, welches in Fig. 8A gezeigt ist, und das syn­ chrone Korrespondenz-(Entsprechungs-)Verfahren, welches in Fig. 8B gezeigt ist. Wenn die spektralen Enveloppenpara­ meter über der Zeit kontinuierliche Funktionen sind und die Enveloppe des Sprachspektrums vollständig darstellen, dann können die synthetischen, spektralen Enveloppenpara­ meter erhalten werden, indem man die ursprünglichen, spektralen Enveloppenparameter einfach temporär komprimiert oder expandiert, und zwar Untersegment für Untersegment. In Fig. 8A ist der spektrale Enveloppen­ parameter, der durch das sequentielle Analyseverfahren erhalten wird, als punktierte Kurve dargestellt, während der spektrale Enveloppenparameter, der durch Annäherung der Kurve durch Verbinden verschiedener Punkte, wie z. B. der Punkte A, B, C usw., mit Liniensegmenten codiert wurde, als ausgezogene Linie dargestellt ist. Da aufgrund der temporären Kompression und Expansion lediglich die temporäre Position jedes Punktes variiert wird, wobei sich die Punkte A′, B′, C′ usw. ergeben, ist ein solches Liniensegment-Codierverfahren, besonders für den Fall der temporären Kompression und Expansion geeignet. Im Falle der Anwendung des Block-Analyseverfahrens oder des tonhöhensynchronen Analyseverfahrens kann jedoch das temporäre Kompressions- und Expansions-Verfahren nicht die gewünschte synthetische Klangqualität ergeben, da die spektrale Anpassung nicht exakt ist und die temporäre Veränderung der spektralen Enveloppenparameter diskon­ tinuierlich ist. Es wird daher bevorzugt, das synchrone Korrespondenzverfahren anzuwenden, bei dem die synthe­ tischen, spektralen Enveloppenparameter dadurch positio­ niert werden, daß die spektralen Enveloppenparameter für jedes Tonhöhenperiodenintervall mit jedem entsprechenden Tonhöhenimpulssignal korreliert werden, wie dies in Fig. 8B gezeigt ist. Dies bedeutet, daß die synthetischen, spektralen Enveloppenparameter gewonnen werden können, indem man die spektralen Enveloppenparameter für ein Periodenintervall in demselben Periodenintervall für jedes positionierte Tonhöhenimpulssignal anordnet, weil die Einzelwelle bei dem Schwingungscode-Speicherverfahren äquivalent zu dem Tonhöhenimpulssignal und den korres­ pondierenden, spektralen Enveloppenparametern für dasselbe Tonhöhenperiodenintervall ist. In Fig. 8B sind k1, bei dem es sich um einen der spektralen Enveloppenparameter handelt, und k′1, bei dem es sich um den k1 entspre­ chenden, synthetischen, spektralen Enveloppenparameter handelt, in Form einer ausgezogenen Linie bzw. einer punktierten Linien dargestellt, wobei k′1 durch die genannten Verfahren-für das Block-Analyseverfahren und das tonhöhensynchrone Analyseverfahren gewonnen wurde. Natürlich kann der synthetische, spektrale Enveloppen­ parameter auch nach dem Verfahren gemäß Fig. 8A angeordnet werden, wenn er aus dem spektralen Enveloppenparameter durch das sequentielle Analyseverfahren erhalten wurde. Wenn beispielsweise das Tonhöhenimpulssignal für jede Periode so angeordnet wurde, wie dies in Fig. 3R gezeigt ist, dann werden die spektralen Enveloppenparameter für jede Periode in Übereinstimmung mit den Tonhöhenimpuls­ signalen so angeordnet, wie dies in Fig. 3S gezeigt ist.
Zum Zeitpunkt der Anordnung des synthetischen Anregungs­ signals und der synthetischen, spektralen Enveloppenpara­ meter nach dem Quellcode-Speicherverfahren ergibt sich, wenn die Tonhöhenperiode des synthetisierten Klanges länger ist als die ursprüngliche Tonhöhenperiode, ein Leerintervall zwischen zwei benachbarten Tonhöhenperioden­ intervallen, wie dies in Fig. 8 in schrägen Linien gezeigt ist. Wenn die Tonhöhenperiode des synthetisierten Klanges kürzer ist als die Original-Tonhöhenperiode, ergeben sich Überlappungsintervalle, in welchen sich zwei benachbarte Tonhöhenperiodenintervalle überlappen. Das Überlappungs­ intervall "fb" und das Leerintervall "gh" sind beispiels­ weise in Fig. 3R und Fig. 3S eingezeichnet. Wie oben beschrieben, sollen die neu positionierten Tonhöhen­ impulssignale zum Zeitpunkt der Überlappung überlagert werden. Es ist jedoch vernünftig, wenn die in Über­ einstimmung mit den Tönhöhenimpulssignalen neu positio­ nierten, spektralen Enveloppenparameter zum Zeitpunkt der Überlappung gemittelt werden, anstatt überlagert zu werden. Daher wird bezüglich der synthetischen, spektralen Enveloppenparameter unter Berücksichtigung der Leer­ intervalle und der Überlappungsintervalle folgendes Anordnungsverfahren für das synthetische Anregungssignal angewandt:
Die Abtastwerte mit dem Wert 0 werden zum Zeitpunkt der Anordnung des synthetischen Anregungssignals in das Leerintervall eingesetzt. Im Falle eines stimmhaften Friktionslautes kann ein natürlicherer Klang synthetisiert werden, wenn in das Leerintervall anstelle des Abtast­ wertes mit dem Wert 0 ein mit Hilfe eines Hochpaßfilters gefiltertes Rauschsignal eingesetzt wird. Die neu positionierten Tonhöhenimpulssignale müssen in dem Überlappungsintervall addiert werden. Da ein solches Additionsverfahren lästig ist, ist es angenehm, ein Rumpfbildungsverfahren anzuwenden, gemäß welchem unter den beiden sich überlappenden Tonhöhenimpulssignalen im Überlappungsintervall nur ein Signal ausgewählt wird. Die Qualität des synthetisierten Klanges wird bei Anwendung des Rumpfbildungsverfahrens nicht signifikant ver­ schlechtert. In Fig. 3R wurde das Leerintervall "gh" mit Null-Proben gefüllt und in dem Überlappungsintervall "fb" wurde das Tonhöhenimpulssignal des früheren Intervalls ausgewählt. Im Falle des Auftretens einer Überlappung wird also das frühere der beiden einander überlappenden Inter­ valle jedes der Tonhöhenimpulssignale abgetrennt, und dieses Verfahren ist physikalisch bedeutungsvoller im Vergleich zu dem Verfahren, bei dem die Tonhöhenimpuls­ signale erzeugt werden, indem man die Segmentierung unmittelbar vor dem Tonhöhenimpuls durchführt, und bei dem zum Zeitpunkt der Synthese des letzteren unter den Ton­ höhenimpulssignalen im Überlappungsintervall abgetrennt wird, wenn diese Signale sich überlappen, wie vorstehend beschrieben. In der Praxis führt jedoch keines der beiden Verfahren zu einer signifikanten Differenz in der Klangqualität des synthetisierten Klanges.
Zum Zeitpunkt der Anordnung der synthetischen, spektralen Enveloppenparameter ist es ideal, daß das Leerintervall mit den Werten gefüllt ist, welche sich linear von einem Wert des spektralen Enveloppenparameters an dem Endpunkt des vorausgehenden Periodenintervalls bis auf einen Wert des spektralen Enveloppenparameters am Anfangspunkt der folgenden Periode ändern, und wenn sich in dem Über­ lappungsintervall die spektralen Enveloppenparameter allmählich von dem spektralen Enveloppenparameter der vorangehenden Periode auf denjenigen der folgenden Periode ändern, und zwar durch Verwendung des Interpolations­ verfahrens, bei dem der Mittelwert der beiden sich überlappenden, spektralen Enveloppenparameter mit Gewichtungswerten erhalten wird, welche sich über der Zeit linear ändern. Da diese Verfahren jedoch mühsam sind, kann das folgende Verfahren verwendet werden, welches bequemer ist und die Klangqualität nicht signifikant ver­ schlechtert. Nach diesem Verfahren kann für den spektralen Enveloppenparameter in dem Leerintervall der Wert des spektralen Enveloppenparameters am Endpunkt des vorausgehenden Periodenintervalls wiederholt verwendet werden, wie in Fig. 8B, oder es kann der Wert des spektralen Enveloppenparameters am Anfangspunkt des folgenden Periodenintervalls verwendet werden. Außerdem kann der arithmetische Mittelwert der beiden spektralen Enveloppenparameter verwendet werden, oder es können die Werte der spektralen Enveloppenparameter am Endpunkt und am Anfangspunkt des vorausgehenden und des folgenden Periodenintervalls vor und hinter der Mitte des Leer­ intervalls verwendet werden, wobei die Mitte die Grenze darstellt. Für den spektralen Enveloppenparameter im Überlappungsintervall kann einfach der eine oder andere Teil ausgewählt werden, welcher dem ausgewählten Tonhöhenimpuls entspricht. In Fig. 3S wurden beispiels­ weise, da das Tonhöhenimpulssignal für das vorausgehende Periodenintervall als das synthetische Anregungssignal in dem Überlappungsintervall "fb" ausgewählt wurde, die Parameterwerte für das vorausgehende Periodenintervall gleichermaßen als synthetische, spektrale Enveloppen­ parameter ausgewählt. In dem Leerintervall "gh" in Fig. 8B und 3S wurden die Parameterwerte der spektralen Envelop­ penparameter am Ende des vorangehenden Periodenintervalls wiederholt verwendet. Im Falle von Fig. 3S, wo der spek­ trale Enveloppenparameter bezüglich der Zeit eine konti­ nuierliche Funktion ist, führt das Verfahren, bei dem der letzte Wert des vorangehenden Periodenintervalls oder der erste Wert des folgenden Periodenintervalls während des Leerintervalls wiederholt verwendet werden, und das Verfahren, bei dem die beiden Werte während des Leer­ intervalls linear variiert werden, zu demselben Ergebnis.
Wenn erst einmal alle Elemente, nämlich das synthetische Anregungssignal und die synthetischen, spektralen Envelop­ penparameter für ein Segment angeordnet sind, glättet der Schwingungsanordnungs-Unterblock 13 normalerweise beide Enden der angeordneten synthetischen, spektralen Enveloppenpara­ meter unter Anwendung des Interpolationsverfahrens derart, daß die Änderung des spektralen Enveloppenparameters zwischen benachbarten Sprachsegmenten glatt verläuft. Wenn das synthetische Anregungssignal und die synthetischen, spektralen Enveloppenparameter, die in der vorstehend beschriebenen Weise angeordnet wurden, als Anregungssignal bzw. als Filterkoeffizienten in das Synthesefilter des Schwingungsanordnungs-Unterblockes eingegeben werden, dann wird von dem Synthesefilter schließlich der gewünschte synthetische Klang abgegeben. Das synthetische Anregungs­ signal, welches erhalten wird, wenn die Tonhöhenimpuls­ signale gemäß Fig. 3H, 3K und 3N derart neu angeordnet werden, daß das Tonhöhenmuster dasselbe ist wie in Fig. 3P, ist in Fig. 3R gezeigt, und die synthetischen, spektralen Enveloppenparameter, die aus den entsprechenden spektralen Enveloppenparametern für eine Periode gemäß Fig. 3G, 3J und 3M zu den Tonhöhenimpulssignalen in dem synthetischen Anregungssignal gemäß Fig. 3R erhalten werden, sind in Fig. 3S gezeigt. Wenn man ein zeit­ variables Synthesefilter herstellt, welches als Filter­ koeffizienten die Reflexionskoeffizienten besitzt, die sich gemäß Fig. 3S ändern, und wenn man an dieses Filter als Eingangssignal das synthetische Anregungssignal gemäß Fig. 3R anlegt, dann erhält man den synthetisierten Klang gemäß Fig. 3T, welcher nahezu gleich dem synthetisierten Klang gemäß Fig. 3P ist.
Wenn man nun das Schwingungscode-Speicherverfahren und das Quellcode-Speicherverfahren vergleicht, dann können die beiden Verfahren als im Prinzip identisch angesehen werden. Wenn man jedoch die Sprachsegmente in schlechter Verbindung miteinander verkettet, ergibt sich ein Unter­ schied, derart, daß es möglich ist, den glatt verbundenen Klang durch Glätten der spektralen Enveloppenparameter zu synthetisieren, indem man im Falle des Quellcode-Speicher­ verfahrens das Interpolationsverfahren verwendet, was jedoch im Falle des Schwingungscode-Speicherverfahrens unmöglich ist. Weiterhin benötigt das Quellcode-Speicher­ verfahren einen kleineren Speicher als das Schwingungs­ code-Speicherverfahren, da die Schwingung von nur einer Periodenlänge pro Einzelwelle in dem Quellcode-Speicher­ verfahren gespeichert werden muß, und dieses den Vorteil hat, daß es einfach ist, die Funktion des Syntheseblockes 6 für den stimmhaften Klang und die Funktion des Synthese­ blockes 7 für den oben beschriebenen stimmlosen Klang zu integrieren. Im Falle der Verwendung des homomorphen Analyseverfahrens kann das Cepstrum oder die Impulsantwort als Satz spektraler Enveloppenparameter bei dem Schwin­ gungscode-Speicherverfahren verwendet werden, während es bei dem Quellcode-Speicherverfahren praktisch unmöglich ist, das Cepstrum zu verwenden, welches die Berechnung auf Blockbasis erforderlich macht, da die Dauer des Synthese­ blockes, welcher die Werte der konstanten, synthetischen, spektralen Enveloppenparameter enthält, Block für Block variiert, wie dies an dem synthetischen, spektralen Enveloppenparameter gesehen werden kann, der in Fig. 8B durch eine ausgezogene Linie dargestellt ist. Das Quellcode-Speicherverfahren gemäß der vorliegenden Erfindung verwendet den Tonhöhenimpuls einer Periode als Anregungsimpuls. Dieses Verfahren ist jedoch von dem vorbekannten, regulären Tonhöhenimpuls-Anregungsverfahren verschieden, welches darauf abzielt, den Impuls durch einen Tonhöhenabtastimpuls zu ersetzen, und zwar insofern als gemäß der Erfindung der Tonhöhenimpuls jeder Periode und die spektralen Enveloppenparameter jeder Periode, die dem Tonhöhenimpuls entsprechen, vereinigt werden, um die Einzelschwingung für jede Periode zu erzeugen.
Wie aus der vorstehenden Beschreibung deutlich wird, ist das erfindungsgemäße Verfahren für das Codieren und Decodieren des Sprachsegments des Text-in-Sprache-Syn­ thesesystems des Sprachsegment-Syntheseverfahrens geeignet. Da das erfindungsgemäße Verfahren ferner ein Verfahren ist, bei dem die Gesamtdauer und die Teildauer und die Tonhöhenmuster beliebiger, phonetischer Einheiten, wie Phoneme, Halbsilben, Diphone und Untersegmente etc., welche die Sprache bilden, frei und unabhängig geändert werden können, kann es in einem Sprachgeschwindigkeits­ änderungssystem oder in einem Zeitskalamodifikationssystem verwendet werden, welches die Sprechgeschwindigkeit in einem konstanten Verhältnis derart ändert, daß sie schneller oder langsamer als die Originalgeschwindigkeit ist, und zwar ohne das Intonationsmuster der Sprache zu ändern. Außerdem kann das Verfahren auch in einem Singstimmensynthesesystem verwendet werden oder in einem sehr langsamen Sprachcodiersystem, wie z. B. einem phonetischen Vocoder oder einem Segmentvocoder, welcher die Sprache überträgt, indem er die Dauer und die Tonhöhe von Schablonen-Sprachsegmenten ändert, die vorab gespeichert werden.
Ein anderer Anwendungsbereich der vorliegenden Erfindung besteht in einem musikalischen Klangsynthesesystem, wie z. B. einem elektronischen Musikinstrument nach dem Abtastverfahren. Da nahezu der gesamte Klang im Bereich elektronischer Musikinstrumente digital schwingungs­ codiert, gespeichert und reproduziert wird, wenn er über die Tasten usw. aufgerufen wird, ergibt sich bei den bekannten Abtastverfahren für elektronische Musik­ instrumente der Nachteil, daß für die Speicherung des musikalischen Klanges eine große Menge an Speicherplatz erforderlich ist. Wenn jedoch die periodische Schwingungszerlegung und das Einzelschwingungs-Re­ positionierungsverfahren gemäß vorliegender Erfindung angewandt werden, dann kann die erforderliche Speicher­ platzmenge beträchtlich reduziert werden, da die Klänge verschiedener Tonhöhen durch Abtasten der Töne lediglich einiger, weniger Arten von Tonhöhen synthetisiert werden können. Der musikalische Klang besteht typischerweise aus drei Teilen, d. h. einem Anstieg, einem im wesentlichen kontinuierlichen Hauptteil und einem Abfall. Da sich die Spektrum-Enveloppe nicht nur zwischen den drei Teilen allmählich ändert, sondern auch während des Hauptteils, ändert sich auch das Timbre entsprechend. Wenn musika­ lische Klangsegmente daher nach dem oben beschriebenen Verfahren der periodischen Schwingungszerlegung codiert und gespeichert werden, indem die geeigneten Punkte, an denen sich das Spektrum erheblich ändert, als Grenzzeit­ punkte gespeichert werden, und wenn der Klang dann nach dem oben beschriebenen Verfahren der Zeitverformung auf der Basis des Einzelschwindungsrepositionierungsverfahrens synthetisiert wird, wenn eine entsprechende Anforderung von der Tastatur usw. eintrifft, dann kann ein musika­ lischer Klang mit beliebiger, erwünschter Tonhöhe synthetisiert werden. In den Fällen, in denen ein musikalisches Klangsignal jedoch nach dem linearen, vorhersagenden Analyseverfahren entfaltet wird, wird wegen der Tendenz, daß die exakte, spektrale Enveloppe nicht erhalten wird und daß der Tonhöhenimpuls nicht scharf ist, empfohlen, die Anzahl der für die Analyse verwendeten, spektralen Enveloppenparameter und die Differenz des Signals vor der Analyse zu reduzieren.

Claims (6)

1. Verfahren zum Synthetisieren von Sprache,
  • - wobei Einzelschwingungen eines periodischen oder quasi-periodischen Original-Signals gebildet werden,
    • - indem das Original-Signal in eine durch spektrale Enveloppenparameter dargestellte Impulsantwort un­ ter Verwendung einer Spektrum-Abschätztechnik und in ein periodisches oder quasi-periodisches Tonhö­ hen-Impulsfolgesignal mit einer nahezu flachen, spektralen Enveloppe entfaltet wird,
    • - indem das Tonhöhen-Impulsfolgesignal in Tonhöhenim­ pulssignale für jede Periode segmentiert wird, so daß in jeder Periode ein Tonhöhenimpuls enthalten ist,
    • - indem an jedes Tonhöhenimpulssignal Abtastwerte mit dem Wert 0 zur Bildung eines Anregungssignals ange­ hängt werden, und
    • - indem jedes Anregungssignal mit der zeitlich ent­ sprechenden Impulsantwort zur Bildung einer Einzel­ schwingung gefaltet wird,
  • - wobei die Einzelschwingungen codiert gespeichert wer­ den, und
  • - wobei zum Synthetisieren der Sprache decodierte Ein­ zelschwingungen an gewünschter Dauer und Tonhöhenfre­ quenz entsprechenden Zeitpunkten positioniert und überlagert werden.
2. Verfahren zum Synthetisieren von Sprache,
  • - wobei Einzelschwingungen eines periodischen oder quasi-periodischen Original-Signals gebildet werden,
    • - indem das Original-Signal in eine durch spektrale Enveloppenparameter dargestellte Impulsantwort un­ ter Verwendung einer Spektrum-Abschätztechnik und in ein periodisches oder quasi-periodisches Tonhö­ hen-Impulsfolgesignal mit einer nahezu flachen, spektralen Enveloppe entfaltet wird,
    • - indem das Tonhöhen-Impulsfolgesignal in Tonhöhen­ impulssignale für jede Periode segmentiert wird, so daß in jeder Periode ein Tonhöhenimpuls enthalten ist,
    • - indem die Enveloppenparameter und die Tonhöhen­ impulssignale codiert gespeichert werden,
    • - indem zum Zeitpunkt der Synthese an jedes deco­ dierte Tonhöhenimpulssignal Abtastwerte mit dem Wert 0 zur Bildung eines Anregungssignals angehängt werden, und
    • - indem jedes Anregungssignal mit den zeitlich ent­ sprechenden, decodierten Enveloppenparametern zur Bildung einer Einzelschwingung gefaltet wird, und
  • - wobei zum Synthetisieren der Sprache die Einzelschwin­ gungen an gewünschter Dauer und Tonhöhenfrequenz ent­ sprechenden Zeitpunkten positioniert und überlagert werden.
3. Verfahren zum Synthetisieren von Sprache,
  • - wobei ein periodisches oder quasi-periodisches Origi­ nal-Signal in eine durch spektrale Enveloppenparameter dargestellte Impulsantwort unter Verwendung einer Spektrum-Abschätztechnik und in ein periodisches oder quasi-periodisches Tonhöhen-Impulsfolgesignal mit einer nahezu flachen, spektralen Enveloppe entfaltet wird,
  • - wobei das Tonhöhen-Impulsfolgesignal in Tonhöhen­ impulssignale für jede Periode segmentiert wird, so daß in jeder Periode ein Tonhöhenimpuls enthalten ist,
  • - wobei die Enveloppenparameter und die Tonhöhenimpuls­ signale codiert gespeichert werden,
  • - wobei zum Zeitpunkt der Synthese ein synthetisches An­ regungssignal gebildet wird,
    • - indem die decodierten Tonhöhenimpulssignale an ei­ nem gewünschten Tonhöhenmuster entsprechenden Zeit­ punkten angeordnet werden, wobei auftretende Leerintervalle, wenn gewünschte Tonhöhenintervalle länger als Original-Tonhöhenperioden sind, mit Null-Abtastwerten gefüllt werden, und wobei in ei­ nem Überlappungsintervall, welches auftritt, wenn die gewünschte Tonhöhenperiode länger als die Ori­ ginal-Tonhöhenperiode ist, die einander überlappen­ den Tonhöhenimpulssignale zueinander addiert werden oder eines dieser Signale ausgewählt wird,
  • - wobei eine einem Satz von decodierten Enveloppenpara­ metern entsprechende zeitvariable Impulsantwort gebil­ det wird,
  • - entweder indem der Satz von Zeitfunktionen der En­ veloppenparameter von Periode zu Periode in Abhän­ gigkeit davon, ob die Dauer einer nachfolgenden Periode in einem zu synthetisierenden Sprachsegment kürzer oder länger als die entsprechende Periode im Original-Sprachsegment ist, komprimiert oder expan­ diert wird,
  • - oder indem der Satz von Zeitfunktionen der Envelop­ penparameter für jede Periode synchron mit dem dar­ auf abgestimmten Tonhöhenimpulssignal der entsprechenden Periode positioniert wird, wobei ein synthetischer spektraler Enveloppenparameter in ei­ nem Leerintervall erhalten wird, indem
    • - der Wert des Enveloppenparameters am Endpunkt der vorangehenden Periode oder
    • - der Wert des Enveloppenparameters am ersten Punkt der folgenden Periode wiederholt oder
    • - der Mittelwert dieser beiden Werte verwendet oder
    • - das Leerintervall mit Werten, die die beiden ge­ nannten Werte glatt miteinander verbinden, ge­ füllt wird oder
    • - die Werte des Enveloppenparameters an dem Ende der vorangehenden Periode und am Anfang der fol­ genden Periode vor und hinter dem Mittelpunkt des Leerintervalls wiederholt werden,
  • und wobei der synthetische Enveloppenparameter in einem Überlappungsintervall erhalten wird, indem
    • - einer der einander überlappenden Enveloppenpara­ meter ausgewählt oder
    • - der Mittelwert der beiden sich überlappenden En­ veloppenparameter verwendet wird, und
  • - wobei zum Synthetisieren der Sprache das synthetische Anregungssignal mit der gebildeten Impulsantwort ge­ faltet wird.
4. Verfahren nach einem der voranstehenden Ansprüche, da­ durch gekennzeichnet, daß die Tonhöhenimpulssignale erhalten werden, indem das Tonhöhen-Impulsfolgesignal an Punkten segmentiert wird, die jeweils um ein konstantes Zeitintervall hinter einem Tonhöhenimpuls liegen.
5. Verfahren nach einem der voranstehenden Ansprüche, da­ durch gekennzeichnet, daß das Original-Signal in Sprach­ segmente unterteilt wird und daß Original-Grenzzeitpunkte jedes Sprachsegments und die Tonhöhenimpulspositionen der Einzelschwingungen oder der Tonhöhenimpulssignale jedes Sprachsegments gespeichert werden.
6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, daß zur Auswahl der jeweils an den gewünschter Dauer und Ton­ höhenfrequenz entsprechenden Zeitpunkten zu positionie­ renden Einzelschwingungen oder Tonhöhenimpulssignale eine Zeitverformungsfunktion gebildet wird, indem die gespei­ cherten Original-Grenzzeitpunkte und gewünschte Grenz­ zeitpunkte miteinander verglichen werden, und daß durch Verwendung der Zeitverformungsfunktion die Einzel­ schwingungen oder Tonhöhenimpulssignale ausgewählt werden, deren gespeicherte Tonhöhenimpulspositionen den mittels der Zeitverformungsfunktion aus gewünschten Tonhöhenimpulspositionen bestimmten Original-Zeitpunkten am nächsten benachbart sind.
DE4237563A 1991-11-06 1992-11-06 Verfahren zum Synthetisieren von Sprache Expired - Fee Related DE4237563C2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1019910019617A KR940002854B1 (ko) 1991-11-06 1991-11-06 음성 합성시스팀의 음성단편 코딩 및 그의 피치조절 방법과 그의 유성음 합성장치

Publications (2)

Publication Number Publication Date
DE4237563A1 DE4237563A1 (de) 1993-05-19
DE4237563C2 true DE4237563C2 (de) 1996-03-28

Family

ID=19322321

Family Applications (1)

Application Number Title Priority Date Filing Date
DE4237563A Expired - Fee Related DE4237563C2 (de) 1991-11-06 1992-11-06 Verfahren zum Synthetisieren von Sprache

Country Status (17)

Country Link
US (1) US5617507A (de)
JP (1) JP2787179B2 (de)
KR (1) KR940002854B1 (de)
AT (1) AT400646B (de)
BE (1) BE1005622A3 (de)
CA (1) CA2081693A1 (de)
DE (1) DE4237563C2 (de)
DK (1) DK134192A (de)
ES (1) ES2037623B1 (de)
FR (1) FR2683367B1 (de)
GB (1) GB2261350B (de)
GR (1) GR1002157B (de)
IT (1) IT1258235B (de)
LU (1) LU88189A1 (de)
NL (1) NL9201941A (de)
PT (1) PT101037A (de)
SE (1) SE9203230L (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10393463B4 (de) * 2002-10-10 2010-07-01 Hiroshi Rikimaru Hörhilfe

Families Citing this family (220)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4227826C2 (de) * 1991-08-23 1999-07-22 Hitachi Ltd Digitales Verarbeitungsgerät für akustische Signale
CA2119397C (en) * 1993-03-19 2007-10-02 Kim E.A. Silverman Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation
US5704000A (en) * 1994-11-10 1997-12-30 Hughes Electronics Robust pitch estimation method and device for telephone speech
US5864812A (en) * 1994-12-06 1999-01-26 Matsushita Electric Industrial Co., Ltd. Speech synthesizing method and apparatus for combining natural speech segments and synthesized speech segments
US5592585A (en) * 1995-01-26 1997-01-07 Lernout & Hauspie Speech Products N.C. Method for electronically generating a spoken message
DE69615832T2 (de) * 1995-04-12 2002-04-25 British Telecomm Sprachsynthese mit wellenformen
DE19538852A1 (de) * 1995-06-30 1997-01-02 Deutsche Telekom Ag Verfahren und Anordnung zur Klassifizierung von Sprachsignalen
US6591240B1 (en) * 1995-09-26 2003-07-08 Nippon Telegraph And Telephone Corporation Speech signal modification and concatenation method by gradually changing speech parameters
CA2188369C (en) * 1995-10-19 2005-01-11 Joachim Stegmann Method and an arrangement for classifying speech signals
US6240384B1 (en) * 1995-12-04 2001-05-29 Kabushiki Kaisha Toshiba Speech synthesis method
DE19610019C2 (de) * 1996-03-14 1999-10-28 Data Software Gmbh G Digitales Sprachsyntheseverfahren
US5822370A (en) * 1996-04-16 1998-10-13 Aura Systems, Inc. Compression/decompression for preservation of high fidelity speech quality at low bandwidth
EP0811906B1 (de) * 1996-06-07 2003-08-27 Hewlett-Packard Company, A Delaware Corporation Sprachsegmentierung
JP3242331B2 (ja) * 1996-09-20 2001-12-25 松下電器産業株式会社 Vcv波形接続音声のピッチ変換方法及び音声合成装置
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
US5933805A (en) * 1996-12-13 1999-08-03 Intel Corporation Retaining prosody during speech analysis for later playback
EP0895672B1 (de) * 1997-02-10 2006-11-22 Koninklijke Philips Electronics N.V. Kommunikationsnetzwerk zur übertragung von sprachsignalen
JPH10260692A (ja) * 1997-03-18 1998-09-29 Toshiba Corp 音声の認識合成符号化/復号化方法及び音声符号化/復号化システム
KR100269255B1 (ko) * 1997-11-28 2000-10-16 정선종 유성음 신호에서 성문 닫힘 구간 신호의 가변에의한 피치 수정방법
WO1998048408A1 (en) * 1997-04-18 1998-10-29 Koninklijke Philips Electronics N.V. Method and system for coding human speech for subsequent reproduction thereof
US5973252A (en) * 1997-10-27 1999-10-26 Auburn Audio Technologies, Inc. Pitch detection and intonation correction apparatus and method
US6064960A (en) 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6012025A (en) * 1998-01-28 2000-01-04 Nokia Mobile Phones Limited Audio coding method and apparatus using backward adaptive prediction
US6073094A (en) * 1998-06-02 2000-06-06 Motorola Voice compression by phoneme recognition and communication of phoneme indexes and voice features
US6199042B1 (en) * 1998-06-19 2001-03-06 L&H Applications Usa, Inc. Reading system
WO2000028468A1 (en) * 1998-11-09 2000-05-18 Datascope Investment Corp. Improved method for compression of a pulse train
US6253182B1 (en) * 1998-11-24 2001-06-26 Microsoft Corporation Method and apparatus for speech synthesis with efficient spectral smoothing
AUPP829899A0 (en) * 1999-01-27 1999-02-18 Motorola Australia Pty Ltd Method and apparatus for time-warping a digitised waveform to have an approximately fixed period
US6202049B1 (en) * 1999-03-09 2001-03-13 Matsushita Electric Industrial Co., Ltd. Identification of unit overlap regions for concatenative speech synthesis system
JP3730435B2 (ja) * 1999-03-26 2006-01-05 株式会社東芝 波形信号解析装置
SE9903223L (sv) * 1999-09-09 2001-05-08 Ericsson Telefon Ab L M Förfarande och anordning i telekommunikationssystem
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7346488B2 (en) * 2000-07-10 2008-03-18 Fujitsu Limited Automatic translator and computer-readable storage medium having automatic translation program recorded thereon
AU2001290882A1 (en) * 2000-09-15 2002-03-26 Lernout And Hauspie Speech Products N.V. Fast waveform synchronization for concatenation and time-scale modification of speech
US6952669B2 (en) * 2001-01-12 2005-10-04 Telecompression Technologies, Inc. Variable rate speech data compression
US7177810B2 (en) * 2001-04-10 2007-02-13 Sri International Method and apparatus for performing prosody-based endpointing of a speech signal
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US20030135374A1 (en) * 2002-01-16 2003-07-17 Hardwick John C. Speech synthesizer
AT6920U1 (de) 2002-02-14 2004-05-25 Sail Labs Technology Ag Verfahren zur erzeugung natürlicher sprache in computer-dialogsystemen
GB0209770D0 (en) * 2002-04-29 2002-06-05 Mindweavers Ltd Synthetic speech sound
US20040073428A1 (en) * 2002-10-10 2004-04-15 Igor Zlokarnik Apparatus, methods, and programming for speech synthesis via bit manipulations of compressed database
KR100486734B1 (ko) * 2003-02-25 2005-05-03 삼성전자주식회사 음성 합성 방법 및 장치
JP4256189B2 (ja) * 2003-03-28 2009-04-22 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法及びプログラム
US9165478B2 (en) 2003-04-18 2015-10-20 International Business Machines Corporation System and method to enable blind people to have access to information printed on a physical document
US7487092B2 (en) * 2003-10-17 2009-02-03 International Business Machines Corporation Interactive debugging and tuning method for CTTS voice building
US20070111173A1 (en) * 2004-01-13 2007-05-17 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060073452A1 (en) * 2004-01-13 2006-04-06 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US8210851B2 (en) * 2004-01-13 2012-07-03 Posit Science Corporation Method for modulating listener attention toward synthetic formant transition cues in speech stimuli for training
US20060105307A1 (en) * 2004-01-13 2006-05-18 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060177805A1 (en) * 2004-01-13 2006-08-10 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20050175972A1 (en) * 2004-01-13 2005-08-11 Neuroscience Solutions Corporation Method for enhancing memory and cognition in aging adults
US20060051727A1 (en) * 2004-01-13 2006-03-09 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20070065789A1 (en) * 2004-01-13 2007-03-22 Posit Science Corporation Method for enhancing memory and cognition in aging adults
US20060074678A1 (en) * 2004-09-29 2006-04-06 Matsushita Electric Industrial Co., Ltd. Prosody generation for text-to-speech synthesis based on micro-prosodic data
BRPI0517246A (pt) * 2004-10-28 2008-10-07 Matsushita Electric Ind Co Ltd aparelho de codificação escalável, aparelho de decodificação escalável e métodos para os mesmos
US20060259303A1 (en) * 2005-05-12 2006-11-16 Raimo Bakis Systems and methods for pitch smoothing for text-to-speech synthesis
US20070011009A1 (en) * 2005-07-08 2007-01-11 Nokia Corporation Supporting a concatenative text-to-speech synthesis
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
TWI277947B (en) * 2005-09-14 2007-04-01 Delta Electronics Inc Interactive speech correcting method
US7633076B2 (en) 2005-09-30 2009-12-15 Apple Inc. Automated response to and sensing of user activity in portable devices
US20070134635A1 (en) * 2005-12-13 2007-06-14 Posit Science Corporation Cognitive training using formant frequency sweeps
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN101578659B (zh) * 2007-05-14 2012-01-18 松下电器产业株式会社 音质转换装置及音质转换方法
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8620662B2 (en) 2007-11-20 2013-12-31 Apple Inc. Context-aware unit selection
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8583418B2 (en) 2008-09-29 2013-11-12 Apple Inc. Systems and methods of detecting language and natural language strings for text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8457965B2 (en) * 2009-10-06 2013-06-04 Rothenberg Enterprises Method for the correction of measured values of vowel nasalance
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8600743B2 (en) 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8965768B2 (en) 2010-08-06 2015-02-24 At&T Intellectual Property I, L.P. System and method for automatic detection of abnormal stress patterns in unit selection synthesis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
EP2737479B1 (de) * 2011-07-29 2017-01-18 Dts Llc Adaptive sprachverständlichkeitsverbesserung
US8620646B2 (en) * 2011-08-08 2013-12-31 The Intellisis Corporation System and method for tracking sound pitch across an audio signal using harmonic envelope
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8744854B1 (en) 2012-09-24 2014-06-03 Chengjun Julian Chen System and method for voice transformation
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US8886539B2 (en) * 2012-12-03 2014-11-11 Chengjun Julian Chen Prosody generation using syllable-centered polynomial representation of pitch contours
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US9308446B1 (en) 2013-03-07 2016-04-12 Posit Science Corporation Neuroplasticity games for social cognition disorders
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
KR101904293B1 (ko) 2013-03-15 2018-10-05 애플 인크. 콘텍스트-민감성 방해 처리
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
ES2732859T3 (es) 2014-05-01 2019-11-26 Nippon Telegraph & Telephone Codificador, descodificador, método de codificación, método de descodificación, programa de codificación, programa de descodificación y medio de grabación
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
EP3149728B1 (de) 2014-05-30 2019-01-16 Apple Inc. Eingabeverfahren durch einzelne äusserung mit mehreren befehlen
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
WO2017046887A1 (ja) * 2015-09-16 2017-03-23 株式会社東芝 音声合成装置、音声合成方法、音声合成プログラム、音声合成モデル学習装置、音声合成モデル学習方法及び音声合成モデル学習プログラム
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10083682B2 (en) * 2015-10-06 2018-09-25 Yamaha Corporation Content data generating device, content data generating method, sound signal generating device and sound signal generating method
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
JP6962268B2 (ja) * 2018-05-10 2021-11-05 日本電信電話株式会社 ピッチ強調装置、その方法、およびプログラム
CN111370002B (zh) * 2020-02-14 2022-08-19 平安科技(深圳)有限公司 语音训练样本的获取方法、装置、计算机设备和存储介质
US11848005B2 (en) * 2022-04-28 2023-12-19 Meaning.Team, Inc Voice attribute conversion using speech to speech

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3700815A (en) * 1971-04-20 1972-10-24 Bell Telephone Labor Inc Automatic speaker verification by non-linear time alignment of acoustic parameters
JPS51104202A (en) * 1975-03-12 1976-09-14 Hitachi Ltd Onseigoseinotameno sohensakuseisochi
JPS5660499A (en) * 1979-10-22 1981-05-25 Casio Computer Co Ltd Audible sounddsource circuit for voice synthesizer
JPS5710200A (en) * 1980-06-20 1982-01-19 Matsushita Electric Ind Co Ltd Voice synthesizer
JPS5717997A (en) * 1980-07-07 1982-01-29 Matsushita Electric Ind Co Ltd Voice synthesizer
JPS57144600A (en) * 1981-03-03 1982-09-07 Nippon Electric Co Voice synthesizer
JPS5843498A (ja) * 1981-09-09 1983-03-14 沖電気工業株式会社 音声合成装置
JPS58196597A (ja) * 1982-05-13 1983-11-16 日本電気株式会社 音声合成装置
JPS6050600A (ja) * 1983-08-31 1985-03-20 株式会社東芝 規則合成方式
FR2553555B1 (fr) * 1983-10-14 1986-04-11 Texas Instruments France Procede de codage de la parole et dispositif pour sa mise en oeuvre
WO1986003873A1 (en) * 1984-12-20 1986-07-03 Gte Laboratories Incorporated Method and apparatus for encoding speech
JPH0632020B2 (ja) * 1986-03-25 1994-04-27 インタ−ナシヨナル ビジネス マシ−ンズ コ−ポレ−シヨン 音声合成方法および装置
FR2636163B1 (fr) * 1988-09-02 1991-07-05 Hamon Christian Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde
DE69022237T2 (de) * 1990-10-16 1996-05-02 Ibm Sprachsyntheseeinrichtung nach dem phonetischen Hidden-Markov-Modell.

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10393463B4 (de) * 2002-10-10 2010-07-01 Hiroshi Rikimaru Hörhilfe
DE10362224B4 (de) * 2002-10-10 2013-07-25 Hiroshi Rikimaru Hörtrainingsvorrichtungen

Also Published As

Publication number Publication date
FR2683367B1 (fr) 1997-04-25
ES2037623A2 (es) 1993-06-16
US5617507A (en) 1997-04-01
JP2787179B2 (ja) 1998-08-13
DE4237563A1 (de) 1993-05-19
JPH06110498A (ja) 1994-04-22
KR940002854B1 (ko) 1994-04-04
SE9203230D0 (sv) 1992-11-02
AT400646B (de) 1996-02-26
GB2261350B (en) 1995-08-09
GR920100488A (el) 1993-07-30
ATA219292A (de) 1995-06-15
SE9203230L (sv) 1993-05-07
NL9201941A (nl) 1993-06-01
IT1258235B (it) 1996-02-22
DK134192D0 (da) 1992-11-04
LU88189A1 (fr) 1993-04-15
CA2081693A1 (en) 1993-05-07
GR1002157B (en) 1996-02-22
BE1005622A3 (fr) 1993-11-23
GB2261350A (en) 1993-05-12
ITMI922538A0 (it) 1992-11-05
ITMI922538A1 (it) 1994-05-05
GB9222756D0 (en) 1992-12-09
ES2037623B1 (es) 1997-03-01
ES2037623R (de) 1996-08-16
PT101037A (pt) 1994-07-29
FR2683367A1 (fr) 1993-05-07
DK134192A (da) 1993-08-18

Similar Documents

Publication Publication Date Title
DE4237563C2 (de) Verfahren zum Synthetisieren von Sprache
DE60112512T2 (de) Kodierung von Ausdruck in Sprachsynthese
DE3041423C1 (de) Verfahren und Vorrichtung zur Verarbeitung eines Sprachsignals
DE60029990T2 (de) Glättung des verstärkungsfaktors in breitbandsprach- und audio-signal dekodierer
DE69816810T2 (de) Systeme und verfahren zur audio-kodierung
DE69932786T2 (de) Tonhöhenerkennung
DE2945413C1 (de) Verfahren und Vorrichtung zur Synthetisierung von Sprache
DE60006271T2 (de) Celp sprachkodierung mit variabler bitrate mittels phonetischer klassifizierung
DE60214358T2 (de) Zeitskalenmodifikation von signalen mit spezifischem verfahren je nach ermitteltem signaltyp
DE69926462T2 (de) Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
DE60126575T2 (de) Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens
DE69916321T2 (de) Kodierung eines verbesserungsmerkmals zur leistungsverbesserung in der kodierung von kommunikationssignalen
DE60213653T2 (de) Verfahren und system zur echtzeit-sprachsynthese
DE69832358T2 (de) Verfahren zur Sprachkodierung und -dekodierung
DE60126149T2 (de) Verfahren, einrichtung und programm zum codieren und decodieren eines akustischen parameters und verfahren, einrichtung und programm zum codieren und decodieren von klängen
DE60128121T2 (de) Wahrnehmungsbezogen verbesserte aufbesserung kodierter akustischer signale
DE2115258A1 (de) Sprachsynthese durch Verkettung von in Formant Form codierten Wortern
DE69720861T2 (de) Verfahren zur Tonsynthese
EP1105867B1 (de) Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten
DE60202161T2 (de) Verfahren, Vorrichtung und Programm zur Analyse und Synthese von Sprache
DE2519483A1 (de) Verfahren und anordnung zur sprachsynthese
DE4033350B4 (de) Verfahren und Vorrichtung für die Sprachverarbeitung
DE60205421T2 (de) Verfahren und Vorrichtung zur Sprachsynthese
DE1811040C3 (de) Anordnung zum Synthetisieren von Sprachsignalen
DE60030069T2 (de) Verschleierungsverfahren bei Verlust von Sprachrahmen

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
D2 Grant after examination
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee