DE4237563A1

DE4237563A1 -

Info

Publication number: DE4237563A1
Application number: DE4237563A
Authority: DE
Inventors: Des Erfinders Auf Nennung Verzicht
Original assignee: KT Corp
Current assignee: KT Corp
Priority date: 1991-11-06
Filing date: 1992-11-06
Publication date: 1993-05-19
Anticipated expiration: 2012-11-07
Also published as: DE4237563C2; IT1258235B; AT400646B; GB2261350A; PT101037A; ATA219292A; CA2081693A1; LU88189A1; FR2683367A1; US5617507A; DK134192D0; ES2037623R; ES2037623B1; SE9203230D0; GR920100488A; BE1005622A3; JPH06110498A; ITMI922538A0; DK134192A; GB9222756D0

Description

Die Erfindung betrifft ein Sprachsynthesesystem und ein Verfahren zum Synthetisieren von Sprache, insbesondere ein Verfahren zur Sprachsegmentcodierung und zur Tonhöhensteuerung, welches die Qualität der synthetisierten Sprache signifikant verbessert.

Das Prinzip der vorliegenden Erfindung kann direkt nicht nur auf die Sprachsynthese, sondern auch auf die Synthese anderer Klänge, wie z. B. den Klang musikalischer Instrumente oder Gesang, angewandt werden, wobei diese Klänge jeweils Eigenschaften aufweisen, die denjenigen der Sprache ähnlich sind. Das erfindungsgemäße Verfahren kann auch für eine sehr langsame Sprachcodierung oder für eine Sprachgeschwindigkeitsumwandlung verwendet werden. Die Erfindung wird nachstehend unter Konzentration auf die Sprachsynthese beschrieben.

Es sind Sprachsyntheseverfahren bekannt, um ein Text-in-Sprache-Synthesesystem zu realisieren, welches zahllose Vokabeln synthetisieren kann, indem es einen Text, d. h. Zeichenketten, in Sprache umwandelt. Ein Verfahren, welches leicht zu realisieren ist und welches am meisten verwendet wird, ist das Sprachsegmentsynthese verfahren, welches auch als Synthese-durch-Verkettung-Ver fahren bezeichnet wird, bei dem die menschliche Sprache abgetastet und in phonetische Einheiten analysiert wird, wie z. B. Halbsilben oder Diphone, um kurze Sprachsegmente zu erhalten, die dann codiert und in einem Speicher gespeichert werden. Wenn Text eingegeben wird, wird er in phonetische Transkriptionen umgewandelt. Sprachsegmente, welche den phonetischen Transkriptionen entsprechen, werden dann sequentiell aus dem Speicher abgerufen und decodiert, um die Sprache zu synthetisieren, die dem eingegebenen Text entspricht.

Bei diesem Typ eines mit Segmenten arbeitenden Sprach syntheseverfahrens besteht eines der wichtigsten Elemente zur Beherrschung der Qualität der synthetisierten Sprache in dem Codierverfahren für die Sprachsegmente. Bei vorbekannten, mit Segmenten arbeitenden Sprachsynthese verfahren für ein Sprachsynthesesystem wird als Sprach codierverfahren für die Speicherung von Sprachsegmenten hauptsächlich ein Vocoderverfahren von niedriger Sprachqualität verwendet. Dies ist jedoch einer der wichtigsten Gründe, welcher die Qualität synthetisierter Sprache verschlechtert. Es folgt eine kurze Beschreibung der vorbekannten Sprachsegmentcodierverfahren.

Die Sprachcodierverfahren können größtenteils in ein Schwingungscodierverfahren von guter Sprachqualität und ein Vocoderverfahren von niedriger Sprachqualität unterteilt werden. Da das Schwingungscodierverfahren bzw. das Wellenform- bzw. Signalform-Codierverfahren ein Verfahren ist, mit dem angestrebt wird, die Sprach schwingung, so wie sie ist, zu übertragen, ist es schwierig, die Tonhöhenfrequenz und die Dauer zu ändern, so daß es unmöglich ist, die Intonation und die Sprech geschwindigkeit einzustellen, wenn die Sprachsynthese durchgeführt wird. Außerdem ist es unmöglich, die Sprach segmente glatt miteinander zu verbinden, so daß das Schwingungs- bzw. Signalform-Codierverfahren grundsätzlich nicht für die Codierung von Sprachsegmenten geeignet ist.

Wenn andererseits das Vocoderverfahren verwendet wird, welches auch als Analyse/Synthese-Verfahren bezeichnet wird, dann können das Tonhöhenmuster und die Dauer des Sprachsegments nach Belieben geändert werden. Da die Sprachsegmente außerdem durch Interpolation der spektralen Enveloppenabschätzungsparameter glatt verbunden werden können, ist das Vocoderverfahren für Codiereinrichtungen für eine Text-in-Sprache-Synthese, für Vocoderverfahren, wie z. B. das lineare, vorhersagende Codieren (LPC - linear predictive coding) oder für das Formant-Vocoderverfahren geeignet und wird in den meisten derzeit eingesetzten Sprachsynthesesystemen verwendet. Da jedoch die Qualität der decodierten Sprache gering ist, wenn die Sprache unter Verwendung des Vocoderverfahrens codiert wird, kann die synthetisierte Sprache, die durch Decodieren der gespei cherten Sprachsegmente und durch deren Verkettung erhalten wird, keine bessere Sprachqualität haben als diejenige, die durch das Vocoderverfahren angeboten wird.

Bisher unternommene Versuche, die durch das Vocoderver fahren angebotene Sprachqualität zu verbessern, ersetzen den verwendeten Impulszug durch ein Anregungssignal, welches eine weniger künstliche Schwingungsform hat. Ein solcher Versuch bestand darin, eine Schwingung bzw. Signalform zu verwenden, welche niedrigere Spitzenwerte hat als ein Impuls, beispielsweise eine Dreieckschwingung oder eine halbkreisförmige Schwingung oder eine einem glossalen Impuls ähnliche Schwingung. Ein anderer Versuch bestand darin, einen abgetasteten Tonhöhenimpuls mit einer Dauer von ein oder mehreren Restsignal-Tonhöhenperioden auszuwählen, welcher durch inverse Filterung erhalten wurde, und diesen anstelle des Impulses zu verwenden, und zwar einen einzigen Abtastimpuls für die gesamte Zeit periode oder für eine Periode beträchtlicher Dauer. Diese Versuche, den Impuls durch einen Anregungsimpuls anderer Signalform zu ersetzen, haben jedoch die Sprachqualität nicht oder nur geringfügig verbessert, und es wurde niemals synthetisierte Sprache erhalten, welche eine die natürliche Sprache annähernde Qualität besaß.

Der Erfindung liegt die Aufgabe zugrunde, synthetische Sprache mit hoher Qualität zu erzeugen, welche natürlich und verständlich klingt, und zwar in demselben Maße, wie die menschliche Sprache, unter Verwendung eines neuartigen Sprachsegmentcodierverfahrens, welches eine gute Sprach qualität und Tonhöhensteuerung ermöglicht. Das Verfahren gemäß der Erfindung kombiniert die Vorteile des Schwin gungscodierverfahrens, welches eine gute Sprachqualität liefert, jedoch ohne die Möglichkeit einer Tonhöhensteue rung, und des Vocoderverfahrens, welches die Möglichkeit einer Tonhöhensteuerung bietet, jedoch eine niedrige Sprachqualität hat.

Die vorliegende Erfindung verwendet ein Verfahren zur periodischen Schwingungszerlegung, bei dem es sich um ein Codierverfahren handelt, mit dessen Hilfe ein Signal in einem stimmhaften Klangsektor der Originalsprache in Einzelschwingungen bzw. Einzelwellen oder -signale zerlegt wird, die äquivalent zu eine Periode umfassenden Sprach schwingungen sind, die durch glossale Impulse erzeugt werden, wobei das zerlegte Signal codiert und gespeichert wird. Weiterhin wird erfindungsgemäß ein auf der Zeit verformung bzw. -verschiebung basierendes Einzelschwin gungs-Repositionierungsverfahren angewandt, bei dem es sich um ein Schwingungssyntheseverfahren handelt, welches in der Lage ist, die Dauer und die Tonhöhenfrequenz des Sprachsegments beliebig einzustellen und dabei die Qualität der Originalsprache aufrechtzuerhalten, und zwar durch Auswählen derjenigen Schwingungen unter den gespei cherten Einzelschwingungen, welche den Positionen am nächsten sind, an denen die Einzelschwingungen posi tioniert werden sollen, und durch anschließendes Decodieren der ausgewählten Einzelschwingungen und durch Überlagern derselben. Im Rahmen der vorliegenden Beschreibung werden musikalische Klänge wie stimmhafte Klanganteile behandelt.

Die vorstehend angegebene Aufgabenstellung ist so zu interpretieren, daß lediglich einige wenige der wichti geren Merkmale und Anwendungsmöglichkeiten der Erfindung erwähnt werden. Zahlreiche weitere, vorteilhafte Ergeb nisse können erzielt werden, indem man die offenbarte Erfindung in anderer Weise anwendet oder sie im Rahmen der Offenbarung modifiziert. Folglich ergeben sich weitere Aufgaben und ein vollständigeres Verständnis der Erfindung durch Bezugnahme auf die Zusammenfassung und die Detail beschreibung, welche ein bevorzugtes Ausführungsbeispiel beschreiben und zusätzlich aus dem Umfang der Erfindung, wie er durch die Ansprüche definiert ist, jeweils in Verbindung mit den beigefügten Zeichnungen.

Zusammenfassung der Erfindung

Die Verfahren zur Sprachsegmentcodierung und zur Tonhöhensteuerung für Sprachsynthesesysteme gemäß vorliegender Erfindung sind durch die Ansprüche definiert, wobei spezielle Ausführungsbeispiele in den beigefügten Zeichnungen gezeigt sind. Zusammenfassend kann man bezüglich der Erfindung sagen, daß sich die Erfindung mit einem Verfahren befaßt, welches geeignet ist, Sprache zu synthetisieren, welche die Qualität natürlicher Sprache annähert, und zwar durch Einstellung ihrer Dauer und Tonhöhenfrequenz, durch Schwingungscodierung von Einzelschwingungen jeder Periode, durch Speichern der codierten Daten in einem Speicher und - zum Zeitpunkt der Synthese - durch Decodieren dieser Daten und durch Positionieren der entsprechenden Signale an geeigneten Zeitpunkten, derart, daß sie das gewünschte Tonhöhenmuster haben, wobei anschließend eine Überlagerung der Signal elemente erfolgt, um natürliche Sprache, Gesang, Musik und dergleichen zu erzeugen.

Die vorliegende Erfindung umfaßt ein Sprachsegment codierverfahren zur Verwendung in einem Sprachsynthese system, wobei dieses Verfahren die Bildung von Einzel schwingungen umfaßt, indem Parameter erhalten werden, welche eine spektrale Enveloppe in jedem Analysezeit intervall darstellen. Dies geschieht durch Analysieren eines periodischen oder quasi-periodischen digitalen Signals, wie z. B. stimmhafter Sprache, unter Anwendung der Spektrum-Abschätzungstechnik. Ein Originalsignal wird zunächst entfaltet in eine Impulsantwort, die durch die spektralen Enveloppenparameter dargestellt wird, und in ein periodisches oder quasi-periodisches Tonhöhen-Impuls folgesignal, welches eine nahezu flache, spektrale Enveloppe aufweist. Ein Anregungssignal, welches erhalten wird, indem Null-Abtastwerte angehängt werden, nachdem ein Tonhöhenimpulssignal einer Periode erhalten wurde, indem das Tonhöhen-Impulsfolgesignal Periode für Periode segmen tiert wurde, derart, daß in jeder Periode ein Tonhöhen impuls enthalten ist, sowie eine Impulsantwort, die einem Satz von spektralen Enveloppenparametern in demselben Zeitintervall entspricht, in dem das Anregungssignal liegt, werden gefaltet, um eine Einzelschwingung für diese Periode zu bilden.

Die Einzelschwingungen können, anstatt vorab durch Schwin gungscodierung gebildet und in dem Speicher gespeichert zu werden, gebildet werden, indem man eine Information, die durch Schwingungscodierung eines Tonhöhenimpulssignals jedes Periodenintervalls, welches durch Segmentierung gehalten wird, an die Information anpaßt, welche durch Codieren eines Satzes von spektralen Enveloppenab schätzungsparametern für dasselbe Zeitintervall wie die obige Information erhalten wird oder mit einer Impulsant wort, die den Parametern entspricht, woraufhin die Einzel schwingungsinformation in einem Speicher gespeichert wird. Es gibt zwei Verfahren zum Erzeugen synthetischer Sprache unter Verwendung der in dem Speicher gespeicherten Einzel schwingungsinformation. Das erste Verfahren besteht darin, jede Einzelschwingung dadurch zu bilden, daß ein Anre gungssignal, welches erhalten wird, indem man Null-Abtast werte nach einem Tonhöhenimpulssignal einer Periode anhängt, welches durch Decodieren der Information erhalten wurde, mit einer Impulsantwort faltet, die den decodier ten, spektralen Enveloppenparametern für dasselbe Zeit intervall wie das Anregungssignal entspricht, und dann die Einzelschwingungen den geeigneten Zeitpunkten derart zuordnet, daß sie das erwünschte Tonhöhenmuster und Dauer muster haben, woraufhin die Einzelschwingungen an den Zeitpunkten angeordnet und anschließend überlagert werden.

Das zweite Verfahren besteht darin, ein synthetisches Anregungssignal zu bilden, indem den Tonhöhenimpuls signalen, welche durch Decodieren der Einzelschwingungs information erhalten wurden, geeignete Zeitpunkte derart zugeordnet werden, daß sie das gewünschte Tonhöhenmuster und Dauermuster haben, und sie an den Zeitpunkten anord net, und einen Satz von synthetischen spektralen, spek tralen Enveloppenparametern zu bilden, entweder durch temporäres Komprimieren oder Expandieren des Satzes von Zeitfunktionen der Parameter auf einer Untersegment-für- Untersegment-Basis in Abhängigkeit davon, ob die Dauer eines Untersegments in einem zu synthetisierenden Sprachsegment kürzer oder länger ist als diejenige eines entsprechenden Untersegments in dem Original-Sprach segment, oder durch Anordnen des Satzes von Zeitfunktionen der Parameter einer Periode synchron mit dem darauf abgestimmten Tonhöhenimpulssignal einer Periode, die so angeordnet ist, daß sie das synthetische Anregungssignal bildet, und das synthetische Anregungssignal und eine Impulsantwort zu falten, welche dem synthetischen, spektralen Enveloppenparametersatz entspricht, und zwar durch Verwendung eines zeitvariablen Filters oder durch Verwendung einer schnellen Faltungstechnik auf der Basis der Verwendung einer schnellen Fourier-Transformation. Bei dem letztgenannten Verfahren ergibt sich ein Leerinter vall, wenn eine Tonhöhenperiode länger ist als die Original-Tonhöhenperiode, und es ergibt sich ein Über lappungsintervall, wenn die gewünschte Tonhöhenperiode kürzer ist als die Original-Tonhöhenperiode.

In dem Überlappungsintervall wird das synthetische Anregungssignal erhalten, indem man die einander überlappenden Tonhöhenimpulssignale zueinander addiert oder indem man eines von ihnen auswählt, und der spektrale Enveloppenparameter wird erhalten, indem man entweder einen der sich überlappenden spektralen Enveloppen parameter auswählt oder indem man einen Mittelwert der beiden sich überlappenden Parameter verwendet.

In dem Leerintervall wird das synthetische Anregungssignal erhalten, indem man dieses Intervall mit Null-Abtastwerten füllt, und der synthetische, spektrale Enveloppenparameter wird erhalten, indem man die Werte der spektralen Enve loppenparameter an den Anfangs- und Endpunkten der vorausgehenden und der folgenden Periode vor und hinter der Mitte des Leerintervalls wiederholt, oder indem man einen der beiden Werte wiederholt oder einen Mittelwert der beiden Werte, oder indem man das Leerintervall mit Werten füllt und die beiden Werte glatt miteinander verbindet.

Die vorliegende Erfindung umfaßt ferner ein Tonhöhen steuerverfahren für ein Sprachsynthesesystem, welches geeignet ist, die Dauer und Tonhöhe eines Sprachsegments durch ein Einzelschwingungs-Repositionierungsverfahren auf der Basis der Zeitverformung zu steuern, welches es ermöglicht, Sprache nahezu mit derselben Qualität wie natürliche Sprache zu synthetisieren, und zwar durch Codieren wichtiger Grenzzeitpunkte, wie z. B. den Startpunkt, den Endpunkt und einzelner Punkte im Bereich eines stetigen Zustands des Sprachsegments und durch Codieren von Tonhöhenimpulspositionen jeder Einzel schwingung oder jedes Tonhöhenimpulssignals und durch Speichern der codierten Signale in einem Speicher, gleichzeitig mit der Speicherung jedes Sprachsegments, wobei zum Zeitpunkt der Synthese eine Zeitverformungs funktion erhalten wird durch Vergleichen der gewünschten Grenzzeitpunkte und der diesen entsprechenden, gespeicher ten Original-Grenzzeitpunkte, durch Herausfinden der Original-Zeitpunkte, die jeder gewünschten Tonhöhenimpuls position entsprechen, unter Verwendung der Zeitverfor mungsfunktion, durch Auswählen der Einzelschwingungen, welche Tonhöhenimpulspositionen haben, die den Original-Zeitpunkten am nächsten benachbart sind, und durch Posi tionieren dieser Einzelschwingungen an den gewünschten Tonhöhenimpulspositionen und schließlich durch Überlagern der Einzelschwingungen.

Das Tonhöhensteuerverfahren kann ferner umfassen: das Erzeugen synthetischer Sprache durch Auswählen von Tonhöhenimpulssignalen einer Periode und von spektralen Enveloppenparametern, die den Tonhöhenimpulssignalen entsprechen, und zwar anstelle der Einzelschwingungen, und durch Positionieren derselben und durch Falten der posi tionierten Tonhöhenimpulssignale und der Impulsantwort, welche den spektralen Enveloppenparametern entspricht, um Einzelschwingungen zu erzeugen und die erzeugten Einzel schwingungen zu überlagern, oder durch Falten eines synthetischen Anregungssignals, welches durch Überlagern der positionierten Tonhöhenimpulssignale und der zeit variablen Impulsantwort erhalten wurde, welche synthe tischen, spektralen Enveloppenparametern entspricht, die durch Verketten der positionierten, spektralen Enveloppen parameter erhalten wurden.

Es wird eine Einrichtung zum Synthetisieren stimmhafter Sprache zur Verwendung in einem Sprachsynthesesystem beschrieben, welches durch folgende Merkmale gekenn zeichnet ist:
Es ist ein Decodier-Unterblock 9 vorgesehen, welcher durch Decodieren von Einzelschwingungscodes aus dem Sprachseg mentspeicherblock 5 eine Einzelschwingungsinformation erzeugt;
es ist ein Dauersteuerungs-Unterblock 10 vorgesehen, welcher aus eingegebenen Dauerdaten von einem Vorläufer erzeugungs-Untersystem 2 und aus Grenzzeitpunkten, die in einer Kopfinformation aus dem Sprachsegmentspeicherblock 5 enthalten sind, eine Zeitverformungsinformation erzeugt;
es ist ein Tonhöhensteuerungs-Unterblock 11 vorgesehen, welcher eine Tonhöhenimpulspositionsinformation derart erzeugt, daß sie ein Intonationsmuster hat, wie es von Intonationsmusterdaten in der als Eingangssignal verwen deten Kopfinformation von dem Sprachsegmentspeicherblock (5), von Intonationsmusterdaten von dem Vorläuferer zeugungs-Untersystem und von der Zeitverformungs information aus dem Dauersteuerungs-Unterblock (10) angegeben wird;
es ist ein Energiesteuerungs-Unterblock 12 vorgesehen, welcher Verstärkungsinformationen in der Weise erzeugt, daß die synthetisierte Sprache ein Betonungsmuster auf weist, wie es angezeigt wird durch die Betonungsmuster daten vom Eingang der Betonungsmusterdaten, von dem Vor läufererzeugungs-Untersystem 2, von der Zeitverformungs information von dem Dauersteuerungs-Unterblock 10 und von der Tonhöhenimpulspositionsinformation von dem Tonhöhen steuerungs-Unterblock 11; und
es ist ein Schwingungsanordnungs-Unterblock 13 vorgesehen, welcher ein stimmhaftes Sprachsignal erzeugt aus Eingangsinformationen über die Einzelschwingungsinformationen von dem Decodier-Unterblock 9, über die Zeitverformungs informationen von dem Dauersteuerungs-Unterblock 10, über die Tonhöhenimpulsinformationen von dem Tonhöhensteue rungs-Unterblock 11 und über die Verstärkungsinformationen von dem Energiesteuerungs-Unterblock 12.

Gemäß der vorliegenden Erfindung wird also in das phone tische Vorverarbeitungsuntersystem 1 ein Text eingegeben und dort in phonetische Transkriptionssymbole und syntak tische Analysedaten umgewandelt. Die syntaktischen Analysedaten werden an ein Vorläufererzeugungsuntersystem 2 ausgegeben. Das Vorläufererzeugungsuntersystem 2 gibt die Vorläuferinformation an das Sprachsegmentverkettungs untersystem 3. Die phonetischen Transkriptionssymbole vom Ausgang des Vorverarbeitungsuntersystems werden ebenfalls in das Sprachsegmentverkettungsuntersystem 3 eingegeben. Die phonetischen Transkriptionssymbole werden dann in den Sprachsegmentselektionsblock 4 eingegeben und die entsprechenden Vorläuferdaten werden in den Syntheseblock 6 für stimmhaften Klang und in den Syntheseblock 7 für stimmlosen Klang eingegeben. In dem Sprachsegment selektionsblock 4 wird jedes eingegebene, phonetische Transkriptionssymbol an eine entsprechende Sprach segmentsyntheseeinheit angepaßt, und es wird eine Speicheradresse der angepaßten Synthese-Einheit, die dem jeweils eingegebenen phonetischen Transkriptionssymbol entspricht, aus einer Sprachsegmenttabelle in dem Sprach segmentspeicherblock 5 herausgefunden. Die Adresse der angepaßten Synthese-Einheit wird dann an den Sprach segmentspeicherblock 5 ausgegeben, wo das betreffende Sprachsegment in Form einer kodierten Einzelschwingung für jede der Adressen der angepaßten Synthese-Einheiten ausgewählt wird. Das ausgewählte Sprachsegment in Form einer codierten Einzelschwingung wird an den Syntheseblock 6 für stimmhaften Klang ausgegeben und an den Synthese block 7 für stimmlosen Klang. Der Syntheseblock 6 für stimmhaften Klang, welcher das Verfahren der Einzel schwingungs-Repositionierung auf Zeitverformungsbasis anwendet, synthetisiert den Sprachklang und der Synthese block 7 für stimmlose Sprache gibt digitale, synthetische Sprachsignale an den Digital/Analog-Wandler für die Umsetzung der eingegebenen Digitalsignale in analoge Signale aus, die synthetisierte Sprachklänge sind.

Bei der Anwendung der vorliegenden Erfindung werden Sprache und/oder Musik zuerst auf ein Magnetband aufge zeichnet. Das dabei erhaltene Klangsignal wird dann aus einem analogen Signal in ein digitales Signal umgewandelt, und zwar durch Tiefpaßfilterung der analogen Signale und Zuführung der gefilterten Signale zu einem Analog/Digi tal-Wandler. Die erhaltenen, digitalisierten Sprachsignale werden dann in eine Anzahl von Sprachsegmenten segmentiert bzw. unterteilt, welche Klänge haben, die Synthese-Ein heiten entsprechen, wie z. B. Phonemen, Diphonen, Halb silben und dergleichen, und zwar unter Verwendung bekann ter Spracheditierwerkzeuge. Jedes auf diese Weise erhaltene Sprachsegment wird dann unter Verwendung bekannter Einrichtungen zum Erkennen stimmhafter und stimmloser Sprache und entsprechender Spracheditier werkzeuge den stimmhaften oder den stimmlosen Sprachseg menten zugeordnet. Die stimmlosen Sprachsegmente werden nach dem bekannten Vocoderverfahren codiert, welche weißes Rauschen als stimmlose Sprachquelle benutzen. Die Vocoder verfahren umfassen LPC-Vocoderverfahren, homomorphe Voco derverfahren, Formant-Vocoderverfahren und dergleichen.

Die stimmhaften Sprachsegmente werden verwendet, um kleine Wellen, Schwingungen bzw. Einzelschwingungen sj(n) zu erzeugen, und zwar nach dem Verfahren, welches weiter hinten anhand von Fig. 4 beschrieben wird. Die Einzel schwingungen sj(n) werden unter Verwendung eines geeig neten Schwingungscodierverfahrens codiert. Zu den bekann ten Schwingungscodierverfahren gehören die Pulse-Code-Modulation (PCM), die adaptive, differentielle Pulse-Code-Modulation (ADPCM), das adaptive, vorhersagende Codieren (APC) und dergleichen. Die so erhaltenen codierten, stimmhaften Sprachsegmente werden in dem Sprachsegmentspeicherblock 5 gespeichert, wie dies in Fig. 6A und 6B gezeigt ist. Die codierten, stimmlosen Sprach segmente werden ebenfalls in dem Sprachsegmentspeicher block 5 gespeichert.

Die relevanteren und wichtigen Merkmale der vorliegenden Erfindung wurden vorstehend skizziert, damit die Detail beschreibung der Erfindung, welche sich anschließt, besser zu verstehen ist, und damit der erfindungsgemäße Beitrag zum Stand der Technik voll gewürdigt werden kann. Zusätz liche Merkmale der Erfindung, die nachstehend beschrieben werden, bilden den Gegenstand der Ansprüche der Erfindung. Der Fachmann wird anerkennen, daß die Konzeption und die spezifische Realisierung, die in der vorliegenden Anmel dung offenbart ist, ohne weiteres als Basis für die Modifikation oder Gestaltung anderer Strukturen zum Ausführen desselben Zweckes der Erfindung verwendet werden kann. Ferner sieht der Fachmann, daß eine äquivalente Realisierung nicht vom Grundgedanken und Schutzumfang der Erfindung gemäß den Ansprüchen abweicht.

Kurzbeschreibung der Figuren

Zum vollständigeren Verständnis der Natur und der Ziele der Erfindung wird auf die Zeichnungen in Verbindung mit der nachfolgenden Detailbeschreibung verwiesen. Es zeigen:

Fig. 1 das Text-in-Sprache-Synthesesystem des Sprachsegmentsyntheseverfahrens;

Fig. 2 das Sprachsegmentverkettungsuntersystem;

Fig. 3A-3T Schwingungen (Wellenformen, Signalformen) zur Erläuterung der Prinzips des Verfah rens der periodischen Schwingungszerlegung und des Verfahrens der Einzelschwingungs- Repositionierung gemäß der Erfindung;

Fig. 4 ein Blockdiagramm zur Erläuterung des Verfahrens der periodischen Schwingungs zerlegung;

Fig. 5A-5E Blockdiagramm zur Erläuterung des Verfahrens der blinden Entfaltung;

Fig. 6A u. 6B Codeformate für stimmhafte Sprachsegment informationen, die in dem Sprachsegment speicherblock gespeichert sind;

Fig. 7 den Syntheseblock für stimmhafte Sprache gemäß der Erfindung; und

Fig. 8A u. 8B grafische Darstellungen zur Erläuterung der Dauer- und Tonhöhensteuerung gemäß der Erfindung.

Entsprechende Teile bzw. Elemente sind in den einzelnen Zeichnungsfiguren durchgehend mit denselben Bezugszeichen bezeichnet.

Detailbeschreibung der Erfindung

Die Struktur eines Text-in-Sprache-Synthesesystems gemäß dem bekannten Sprachsegmentsyntheseverfahren besteht aus drei Untersystemen:
A. Einem phonetischen Vorverarbeitungsuntersystem 1;
B. einem Vorläufererzeugungsuntersystem 2; und
C. einem Sprachsegmentverkettungsuntersystem 3 wie dies in Fig. 1 gezeigt ist.

Wenn ein Text über eine Tastatur, einen Computer oder irgendein anderes System in das Text-in-Sprache-Synthese system eingegeben wird, dann analysiert das phonetische Vorverarbeitungsuntersystem 1 die Syntax des Textes und verwandelt den Text dadurch, daß es darauf phonetische Recodierregeln anwendet, in eine Kette von phonetischen Transkriptionssymbolen. Das Vorläufererzeugungsuntersystem 2 erzeugt Intonationsmusterdaten und Betonungsmusterdaten unter Verwendung der syntaktischen Analysedaten derart, daß bezüglich der Kette von phonetischen Transkriptions symbolen eine angemessene Intonation und Betonung ausgeübt werden kann, und gibt dann die Daten an das Sprachsegment verkettungsuntersystem 3 aus. Das Vorläufererzeugungs untersystem 2 liefert auch die Daten hinsichtlich der Dauer jedes Phonems an das Sprachsegmentverkettungsunter system 3.

Die drei oben angegebenen Vorläuferdaten, d. h. die Intona tionsmusterdaten, die Betonungsmusterdaten und die Daten bezüglich der Dauer jedes Phonems werden im allgemeinen zusammen mit der Kette von phonetischen Transkriptions symbolen, die von dem phonetischen Vorverarbeitungs untersystem erzeugt werden, an das Sprachsegmentver kettungsuntersystem 3 gesandt, obwohl die genannten Daten unabhängig von der Kette der phonetischen Transkriptions symbole an das Sprachsegmentverkettungsuntersystem 3 übertragen werden können.

Das Sprachsegmentverkettungsuntersystem 3 erzeugt konti nuierliche Sprache, indem es der Reihe nach geeignete Sprachsegmente heraussucht, die gemäß der Kette der phonetischen Transkriptionssymbole (nicht gezeigt) in codierter Form in seinem Speicher gespeichert sind und indem es diese Informationen decodiert. Zu diesem Zeit punkt kann das Sprachsegmentverkettungsuntersystem 3 synthetische Sprache erzeugen, welche die Intonation, die Betonung und die Sprechgeschwindigkeit hat, die gemäß dem Vorläufererzeugungsuntersystem gewünscht wird, und zwar durch Steuern der Energie(Intensität), der Dauer und der Tonhöhenperiode jedes Sprachsegments gemäß der Vorläufer information.

Die vorliegende Erfindung verbessert die Sprachqualität im Vergleich zu synthetischer Sprache gemäß dem Stande der Technik erheblich, indem sie das Codierverfahren zum Speichern der Sprachsegmente in dem Sprachsegmentver kettungsuntersystem 3 verbessert. Eine Beschreibung bezüglich der Arbeitsweise des Sprachsegmentverkettungs untersystems 3 erfolgt nachstehend unter Bezugnahme auf Fig. 2.

Wenn die Kette von phonetischen Transkriptionssymbolen, die von dem phonetischen Vorverarbeitungsuntersystem 1 erzeugt wird, in den Sprachsegmentselektionsblock 4 eingegeben wird, dann wählt dieser nacheinander die Synthese-Einheiten, wie z. B. Diphone und Halbsilben, indem er die Kette von eintreffenden, phonetischen Transkrip tionssymbolen kontinuierlich überwacht und die Adressen der Sprachsegmente herausfindet, die den ausgewählten Synthese-Einheiten entsprechen, und zwar aus seinem Speicher, wie dies in Tabelle 1 angedeutet ist. Tabelle 1 zeigt ein Beispiel der Sprachsegment-Tabelle, die in dem Sprachsegmentselektionsblock 4 gespeichert ist, welcher die Sprachsegmente auf der Basis von Diphonen auswählt. Dies führt zur Bildung einer Adresse des ausgewählten Sprachsegments, welche an einen Sprachsegmentspeicherblock 5 ausgegeben wird.

Die Sprachsegmente, welche den Adressen der Sprachsegmente entsprechen, werden nach dem Verfahren gemäß der Erfin dung, welches weiter unten noch zu beschreiben ist, codiert und an den (einzelnen) Adressen des Speichers des Sprachsegmentspeicherblockes 5 gespeichert.

Tabelle 1

Wenn die Adresse des ausgewählten Sprachsegmentes aus dem Sprachsegmentsselektionsblock 4 in den Sprachsegment speicherblock 5 eingegeben wird, dann holt der Sprachseg mentspeicherblock 5 die entsprechenden Sprachsegmentdaten aus dem Speicher in dem Sprachsegmentspeicherblock 5 und sendet sie an einen Syntheseblock 6 für stimmhafte Sprach segmente, wenn es sich um einen stimmhaften Klang bzw. um einen stimmhaften Friktionslaut handelt, oder an einen Syntheseblock 7 für stimmlose Sprachsegmente, wenn es sich um einen stimmlosen Laut handelt. Dies bedeutet, daß der Syntheseblock 6 synthetisch ein digitales Sprachsignal erzeugt, welches stimmhaften Sprachsegmenten entspricht, während der Syntheseblock 7 synthetisch ein digitales Sprachsignal erzeugt, welches einem stimmlosen Sprach segment entspricht. Jedes synthetisch erzeugte, digitale Sprachsignal des Syntheseblockes 6 und des Syntheseblockes 7 wird dann in ein analoges Signal umgewandelt. Somit werden die auf die beschriebene Weise erhaltenen, synthe tisch erzeugten, digitalen Sprachsignale, die von dem Syntheseblock oder von dem Syntheseblock 7 ausgegeben werden, anschließend zu einem Digital/Analog-(D/A-)Um setzerblock 8 übertragen, der besteht aus einem Digital/Analog-Umsetzer, einem analogen Tiefpaßfilter und einem Analog-Verstärker, und von diesem in ein analoges Signal umgewandelt, um den synthetischen Sprachklang bzw. die synthetische Sprache zu liefern.

Wenn der Syntheseblock 6 für stimmhafte Sprachsegmente und der Syntheseblock 7 für stimmlose Sprachsegmente die Sprachsegmente miteinander verketten, liefern sie ein Vorläufersignal für synthetische Sprache, wie es von dem Vorläufererzeugungsuntersystem 2 angestrebt wird, indem sie die Dauer, die Intensität und die Tonhöhenfrequenz des Sprachsegments auf der Basis der Vorläuferinformation zutreffend einstellen, d. h. auf der Basis der Intonations musterdaten, der Betonungsdaten und der Dauer- bzw. Zeit daten.

Die Vorbereitung eines Sprachsegments für die Speicherung in dem Sprachsegmentspeicherblock 5 geschieht wie folgt. Zunächst wird eine Synthese-Einheit ausgewählt. Zu diesen Synthese-Einheiten gehören Phoneme, Allophone, Diphone, Silben, Halbsilben, CVC-, VCV-, CV- und VC-Einheiten, wobei "C" für ein Konsonantenphonem und "V" für ein Vokalphonem stehen, bzw. Kombinationen dieser Synthese-Einheiten. Die Synthese-Einheiten, welche bei dem derzei tigen Sprachsyntheseverfahren am häufigsten verwendet werden, sind die Diphone und die Halbsilben.

Das Sprachsegment, welches den einzelnen Elementen einer Aggregation von Synthese-Einheiten entspricht, wird als Segment aus Sprachproben herausgelöst, welche tatsächlich von einem Menschen gesprochen werden. Folglich ist die Anzahl der Elemente der Aggregation von Synthese-Einheiten gleich der Zahl der Sprachsegmente. Wenn beispielsweise Halbsilben als Synthese-Einheiten für die englische Sprache verwendet werden, dann beträgt die Anzahl der Halbsilben etwa 1000 und folglich beträgt die Anzahl der Sprachsegmente ebenfalls etwa 1000. Im allgemeinen bestehen solche Sprachsegmente aus einem stimmlosen Schallintervall und einem stimmhaften Schallintervall.

Gemäß der Erfindung werden das stimmlose Sprachsegment und das stimmhafte Sprachsegment durch Segmentieren eines Sprachsegmentes gemäß dem Stand der Technik in ein stimmloses Schallintervall und ein stimmhaftes Schall intervall erhalten und als Basis-Syntheseeinheiten verwen det. Der stimmlose Sprachsyntheseteil wird gemäß dem Stand der Technik in der weiter unten beschriebenen Weise erhal ten. Der stimmhafte Sprachsyntheseteil wird gemäß der Erfindung erhalten.

Im einzelnen werden die stimmlosen Sprachsegmente an dem in Fig. 2 gezeigten Syntheseblock 7 für stimmlose Sprach segmente decodiert. Im Falle der Decodierung von stimm losem Schall wurde gemäß dem Stande der Technik festge stellt, daß die Verwendung eines künstlichen, ein weißes Rauschen darstellenden Rauschsignals als Erregungssignal für ein Synthesefilter die Qualität der decodierten Sprache nicht erschwert oder verschlechtert. Aus diesem Grunde können für die Codierung und Decodierung der stimmlosen Sprachsegmente die bekannten Vocoderverfahren unverändert angewandt werden, bei denen ein weißes Rauschen als Erregersignal verwendet wird. Bei den vorbekannten Syntheseverfahren für stimmlosen Schall kann ein weißes Rauschen, beispielsweise nach einem Algo rithmus, erzeugt werden, bei dem mit Zufallszahlen gearbeitet wird, und sofort verwendet werden; es besteht aber auch die Möglichkeit, ein vorab erzeugtes Rausch signal in einem Speicher zu speichern und beim Syntheti sieren aus dem Speicher abzurufen. Das weiße Rauschen kann ferner ein Restsignal sein, welches erhalten wird, wenn man ein stimmloses Schallintervall tatsächlich gesprochener Sprache unter Verwendung eines inversen Spektralenveloppenfilters filtert. Dieses Restsignal kann dann in einem Speicher gespeichert und aus diesem für die Durchführung der Synthese abgerufen werden. Wenn es nicht erforderlich ist, die Dauer des stimmlosen Sprachsegmentes zu ändern, kann ein extrem einfaches Codierverfahren angewandt werden, bei dem das stimmlose Schallsegment nach einem Wellenformcodierverfahren codiert wird, beispiels weise nach dem Verfahren der Pulse-Code-Modulation oder dem Verfahren der adaptiven, differentiellen Pulse-Code-Modulation. Das codierte Signal wird dann gespeichert und zur Verwendung beim Synthetisieren aus dem Speicher abge rufen und decodiert.

Die vorliegende Erfindung befaßt sich mit einem Codier- und Synthetisierverfahren für stimmhafte Sprachsegmente, welche die Qualität der synthetisch erzeugten Sprache beherrschen. Eine Beschreibung bezüglich eines solchen Verfahrens unter Betonung des Sprachsegmentspeicherblockes 5 und des Syntheseblockes 6 für stimmhafte Sprachsegmente ist in Fig. 2 dargestellt.

Die stimmhaften Sprachsegmente unter den im Speicher des Sprachsegmentspeicherblockes 5 gespeicherten Sprachseg menten werden nach dem erfindungsgemäßen Verfahren der Zerlegung in periodische Signalanteile vorab in Einzel wellen der periodischen Tonhöhenkomponente zerlegt. Der Syntheseblock 6 für stimmhafte Sprachsegmente erzeugt synthetisch Sprachsignale mit der gewünschten Tonhöhe und dem gewünschten Zeitverlaufsmuster, indem er die Einzel wellen in entsprechender Weise auswählt und sie entspre chend dem Verfahren der "time warping-based wavelet relocation" ordnet. Das Prinzip dieses Verfahrens der Einzelsignal-Repositionierung auf der Basis der Zeit verformung bzw. -verzerrung wird nachstehend unter Bezugnahme auf die Zeichnungen erläutert.

Stimmhafte Sprache s(n) ist ein periodisches Signal, welches erhalten wird, wenn eine periodische glossale Schwingung, die an den Stimmbändern erzeugt wird, durch das akustische Vokaltraktfilter V(f) hindurchläuft, welches aus der Mundhöhle, der Kehlkopfhöhle und der Nasenhöhle besteht. Im vorliegenden Fall sei angenommen, daß das Vokaltraktfilter V(f) eine Frequenzcharakteristik aufgrund eines Lippen-Abstrahlungseffekts aufweist. Ein Spektrum S(f) von stimmhafter Sprache ist charakterisiert durch:

1. eine Feinstruktur, die sich bezüglich der Frequenz f sehr schnell ändert; und
2. eine spektrale Enveloppe, die sich demgegenüber langsam ändert, wobei die erste Komponente durch die Periodizität des stimmhaften Sprachsignals verursacht wird und die an zweiter Stelle genannte Komponente das Spektrum einer glossalen Impuls- und Frequenz charakteristik des Vokaltraktfilters widerspiegelt.

Das Spektrum S(f) der stimmhaften Sprache nimmt dieselbe Form an, die sich ergibt, wenn die Feinstruktur eines Impulszuges aufgrund der harmonischen Komponenten, welche bei ganzzahligen Vielfachen der Tonhöhenfrequenz F_o vorhanden sind, mit einer spektralen Enveloppenfunktion H(f) multipliziert wird. Daher kann stimmhafte Sprache s(n) als ein Ausgangssignal betrachtet werden, welches erhalten wird, wenn ein Impulsfolgesignal e(n) mit periodischer Impulsfolgefrequenz, welches eine flache, spektrale Enveloppe aufweist und dieselbe Periode wie die stimmhafte Sprache S(n), als Eingangssignal einem zeit variablen Filter zugeführt wird, welches denselben Frequenzgang hat wie die spektrale Enveloppenfunktion H(f) der stimmhaften Sprache S(n). Betrachtet man dies im Zeitbereich, dann ist die stimmhafte Sprache s(n) eine Faltung einer Impulsantwort h(n) des Filters H(f) und des periodischen Tonhöhen-Impulsfolgesignals e(n). Da H(f) der spektralen Enveloppenfunktion der stimmhaften Sprache s(n) entspricht, wird das zeitvariable Filter mit H(f) als seiner Frequenzcharakteristik als spektrales Enveloppen filter bzw. als Synthesefilter bezeichnet.

In Fig. 3A ist ein Signal für vier Perioden einer glossalen Wellenform bzw. Schwingung gezeigt. Im allgemeinen sind die Wellen- bzw. Schwingungsformen der glossalen Impulse, aus denen sich die glossale Schwin gungsform zusammensetzt, einander ähnlich, jedoch nicht völlig identisch. Außerdem sind die Zeitintervalle zwischen benachbarten, glossalen Impulsen ähnlich, jedoch nicht vollständig gleich. Wie oben beschrieben, wird die Signalform s(n) der stimmhaften Sprache gemäß Fig. 3C erzeugt, wenn die glossale Signalform g(n), die in Fig. 3A gezeigt ist, durch das Vokaltraktfilter V(f) gefiltert wird. Die glossale Signalform g(n) besteht aus den glossalen Impulsen g1(n), g2(n), g3(n) und g4(n), die sich voneinander hinsichtlich der Zeit unterscheiden und aus denen durch Filterung mit Hilfe des Vokaltraktfilters V(f) die Signale bzw. Schwingungen s1(n), s2(n), s3(n) und s4(n) erzeugt werden, die in Fig. 3B gezeigt sind. Die Schwingung bzw. Signalform s(n) der stimmhaften Sprache, die in Fig. 3C gezeigt ist, wird durch Überlagerung dieser Einzelschwingungen erhalten.

Ein Grundkonzept der vorliegenden Erfindung besteht darin, daß man dann, wenn man die Einzelschwingungen erhalten kann, aus denen ein stimmhaftes Sprachsignal zusammen gesetzt ist, und zwar indem man dieses stimmhafte Sprachsignal zerlegt, synthetische Sprache erhalten kann, welche dadurch beliebige Akzente und Intonationsmuster erhalten kann, daß die Intensität bzw. die Amplitude der Einzelschwingungen und die Zeitintervalle zwischen denselben geändert werden.

Da die Schwingung bzw. Wellenform s(n) gemäß Fig. 3C für die stimmhafte Sprache durch Überlagerung der sich zeit lich überlappenden Einzelschwingungen erhalten wurde, ist es schwierig, die Einzelschwingungen aus der Sprachschwin gung s(n) zurückzugewinnen.

Damit sich die Schwingungen der einzelnen Perioden im Zeitbereich nicht überlappen, müssen sie in Form eines Signals mit einer Spitze (Peak-Signal) vorliegen, bei dem die Energie um einen Zeitpunkt konzentriert ist, wie dies in Fig. 3F gezeigt ist.

Ein Peak-Signal ist ein Signal, welches im Frequenzbereich eine nahezu flache, spektrale Enveloppe aufweist. Wenn ein stimmhaftes Signal s(n) vorgegeben ist, dann kann als Ausgangssignal ein Signal e(n) in Form einer periodischen Tonhöhenimpulsfolge erhalten werden, welche, wie Fig. 3F zeigt, eine flache, spektrale Enveloppe besitzt, indem die Enveloppe des Spektrums S(f) des Signals s(n) abgeschätzt wird und als Eingangssignal in ein inverses, spektrales Enveloppenfilter 1/H(f) eingegeben wird, welches als Frequenzcharakteristik eine zu der Enveloppenfunktion H(f) inverse Charakteristik besitzt. Fig. 4, 5A und 5B beziehen sich auf diesen Schritt.

Da die Tonhöhen-Impulssignale jeder Periode, die das periodische Tonhöhen-Impulsfolgesignal e(n) zusammensetzen einander, wie in Fig. 3F gezeigt, im Zeitbereich nicht überlappen, können sie getrennt werden. Das Prinzip des Verfahrens der periodischen Signalzerlegung besteht also in folgendem: Da die getrennten Tonhöhen-Impulssignale für eine Periode e1(n), e2(n), . . . ein im wesentlichen flaches Spektrum haben, können die Signale s1(n), s2(n), usw., die in Fig. 3B gezeigt sind, erhalten werden, wenn diese Signale als Eingangssignale auf das spektrale Enveloppen filter H(f) zurückgeführt werden, so daß die genannten Signale dann das ursprüngliche Spektrum besitzen.

Fig. 4 zeigt ein Blockdiagramm des periodischen Signalzer legungsverfahrens gemäß vorliegender Erfindung, bei dem das stimmhafte Sprachsegment derart analysiert wird, daß es in Einzelschwingungen aufgelöst wird. Das stimmhafte Sprachsignal s(n), welches ein digitales Signal ist, wird erhalten, indem man die Bandbreite des analogen, stimm haften Sprachsignals oder eines mit Hilfe eines Musik instrumentes erzeugten Schallsignals mit Hilfe eines Tiefpaßfilters begrenzt und die resultierenden Signale durch eine Analog/Digital-Umsetzung umwandelt und sie nach dem Verfahren der Pulse-Code-Modulation auf einer Magnet platte (einem magnetischen Aufzeichnungsmedium) speichert, wobei gleichzeitig mehrere Bits zu einer Gruppe zusammen gefaßt werden und wobei die gespeicherte Information dann nach Bedarf zur Verarbeitung abgerufen werden kann.

Der erste Schritt der Erzeugung der Einzelschwingungen bzw. -signale besteht bei dem periodischen Signalzer legungsverfahren in einer blinden Entfaltung (blind deconvolution), in deren Verlauf das stimmhafte Sprach signal s(n) (das periodische Signal s(n)) in eine Impuls antwort h(n) entfaltet wird, welche eine Zeitbereichsfunk tion der Spektralenveloppenfunktion H(f) des Signals s(n) ist, und in ein periodisches Tonhöhen-Impulsfolgesignal e(n), welches eine flache, spektrale Enveloppe aufweist sowie dieselbe Periode wie das Signal s(n) (Vgl. Fig. 5A und 5B und die zugehörige Beschreibung).

Wie beschrieben, ist für die blinde Entfaltung die Technik der Abschätzung des Spektrums, mit deren Hilfe die spek trale Enveloppenfunktion H(f) ausgehend von dem Signal s(n) abgeschätzt wird, wesentlich. Die vorbekannten Verfahren bzw. Techniken zur Abschätzung des Spektrums können in drei Verfahren klassifiziert werden:

1. ein Block-Analyseverfahren;
2. ein tonhöhensynchrones Analyseverfahren; und
3. ein Verfahren der sequentiellen Analyse, welches von der Länge eines Analyseintervalls abhängig ist.

Das Block-Analyseverfahren ist ein Verfahren, bei dem das Sprachsignal in Blöcke konstanter Dauer in der Größen ordnung von 10 bis 20 ms (Millisekunden) geteilt wird. Anschließend wird die Analyse bezüglich der konstanten Zahl von Sprachproben, die in jedem Block vorhanden sind, durchgeführt, wobei ein Satz (üblicherweise 10 bis 16 Parameter) der Spektralenveloppenparameter für jeden Block erhalten wird, wobei für dieses Verfahren ein homomorphes Analyseverfahren und ein Block-Analyseverfahren mit linearer Vorhersage typisch sind.

Bei dem tonhöhensynchronen Analyseverfahren wird ein Satz von spektralen Enveloppenparametern für jede Periode erhalten, indem die Analyse für jede Periode des Sprach signals durchgeführt wird, welche durch Teilen des Sprach signals mit der Tonhöhenperiode als Einheit erhalten wurde (wie dies in Fig. 3C gezeigt ist), wobei für dieses Ver fahren das Analyse-durch-Synthese-Verfahren und das tonhöhensynchrone Analyseverfahren für eine lineare Vorhersage typisch sind.

Bei dem sequentiellen Analyseverfahren wird für jede Sprachprobe ein Satz von spektralen Enveloppenparametern erhalten (wie dies in Fig. 3D gezeigt ist), und zwar durch Abschätzen des Spektrums für jede Sprachprobe, wobei für dieses Verfahren das Verfahren der kleinsten Quadrate bzw. das rekursive Verfahren der kleinsten Quadrate typisch ist, und wobei diese beiden Verfahren als eine Art von adaptiven Filterverfahren anzusehen sind.

Fig. 3D zeigt die zeitliche Änderung der ersten 4 Reflexionscoeffizienten unter den 14 Reflexions coeffizienten k1, k2, . . ., k14, welche einen Satz von spektralen Enveloppenparametern bilden, der durch das sequentielle Analyseverfahren erhalten wird (vgl. Fig. 5A). Wie aus der Zeichnung deutlich wird, ändern sich die Werte der spektralen Enveloppenparameter kontinuier lich aufgrund der kontinuierlichen Bewegung der Artikulierungsorgane, was bedeutet, daß sich die Impulsantwort h(n) des spektralen Enveloppenfilters kontinuierlich ändert. Im vorliegenden Fall wird der Einfachheit halber unter der Voraussetzung, daß sich h(n) in einem Intervall von der Länge einer Periode nicht ändert, h(n) für die erste, die zweite und die dritte Periode als h(n)1, h(n)2 bzw. h(n)3 bezeichnet, wie dies in Fig. 3E gezeigt ist.

Ein Satz von Enveloppenparametern, der durch verschiedene Spektrum-Abschätzungstechniken erhalten wurde, wie z. B. ein Cepstrum CL(i), bei dem es sich um einen Parametersatz handelt, der durch das homomorphe Analyseverfahren erhalten wurde, oder ein Vorhersagecoeffizientensatz {ai} oder ein Reflexionscoeffizientensatz {ki} oder ein Satz von Linienspektrumpaaren usw., welcher erhalten wird, indem man das rekursive Verfahren der kleinsten Quadrate anwendet oder das lineare Vorhersageverfahren, wird ebenso behandelt wie die Funktionen H(f) oder h(n), da er die Frequenzcharakteristik H(f) oder die Impulsantwort h(n) des spektralen Enveloppenfilters liefern kann. Aus diesem Grunde wird nachstehend die Impulsantwort auch als spektraler Enveloppenparametersatz bezeichnet.

Fig. 5A und 5B zeigen die Verfahren der blinden Entfaltung.

Im einzelnen zeigt 5A ein Verfahren der blinden Entfal tung, welches unter Verwendung des Analyseverfahrens der linearen Vorhersage oder unter Verwendung des rekursiven Verfahrens der kleinsten Quadrate durchgeführt wird, wobei es sich in beiden Fällen um vorbekannte Verfahren handelt. Bei einem gegebenen, stimmhaften Sprachsignal s(n), wie es in Fig. 3C gezeigt ist, werden die Vorhersagecoeffizienten {a1, a2, . . ., aN} oder die Reflexionscoeffizienten {k1, k2, . . .. kN}, bei denen es sich um spektrale Enveloppen parameter handelt, die die Frequenzcharakteristik H(f) oder die Impulsantwort h(n) des spektralen Enveloppen filters darstellen, unter Verwendung des Analyseverfahrens der linearen Vorhersage oder des rekursiven Verfahrens der kleinsten Quadrate erhalten. Normalerweise sind 10 bis 16 Vorhersagecoeffizienten für die Ordnung H der Vorhersage ausreichend. Unter Verwendung der Vorhersagecoeffizienten a1, a2, . . ., aN und der Reflexionscoeffizienten {k1, k2, ..., kN} als spektralen Enveloppenparametern kann ein inverses, spektrales Enveloppenfilter, welches nachstehend einfach als ein inverses Filter bezeichnet wird und welches die Frequenzcharakteristik 1/H(f) aufweist, die invers zur Frequenzcharakteristik H(f) des spektralen Enveloppenfilters ist, von einem Fachmann leicht hergestellt werden. Wenn das stimmhafte Sprachsignal, das Eingangssignal für das inverse, spektrale Enveloppenfilter bildet, welches bei dem Analyseverfahren der linearen Vorhersage auch als Filter für die lineare Fehlervor hersage bezeichnet wird und bei dem rekursiven Verfahren der kleinsten Quadrate ebenfalls, dann kann das perio dische Tonhöhen-Impulsfolgesignal des in Fig. 3F gezeigten Typs, welches eine flache, spektrale Enveloppe hat und als Fehlervorhersagesignal oder als Restsignal bezeichnet wird, als Ausgangssignal des Filters erhalten werden.

Fig. 5B und 5C zeigen das Verfahren der blinden Entfaltung unter Anwendung des homomorphen Analyseverfahrens, bei dem es sich um ein Block-Analyseverfahren handelt, wobei Fig. 5B das durch Frequenzteilung durchgeführte Verfahren darstellt (dieses Verfahren wurde vorstehend noch nicht angesprochen) und wobei Fig. 5C das Verfahren darstellt, bei welchem mit einer inversen Filterung gearbeitet wird.

Nachstehend soll näher auf Fig. 5B eingegangen werden. Sprachsignale zur Analyse eines Blockes werden erhalten, indem das stimmhafte Sprachsignal s(n) mit einer abgeschrägten Fensterfunktion multipliziert wird, wie z. B. einem Hamming-Fenster, welches eine Dauer von etwa 10 bis 20 ms hat. Eine cepstrale Sequenz c(i) wird dann dadurch erhalten, daß man die Sprachproben unter Anwendung einer Serie von homomorphen Verarbeitungsprozeduren bearbeitet, die aus einer diskreten Fourier-Transformation, einem komplexen Logarithmus und einer inversen, diskreten Fourier-Transformation bestehen, wie dies in Fig. 5D gezeigt ist. Das Cepstrum ist dabei eine Funktion der Frequenz, welche eine der Zeit ähnliche Einheit ist.

Ein niederfrequentes Cepstrum CL(i), welches rund um einen Ursprung angeordnet ist und die spektrale Enveloppe der stimmhaften Sprache s(n) darstellt und ein hochfrequentes Cepstrum CH(i), welches ein periodisches Tonhöhen-Impuls folgesignal e(n) darstellt, können im Frequenzbereich voneinander getrennt werden. Dies bedeutet, daß das Cepstrum c(i) mit einer niederfrequenten Fensterfunktion und einer hochfrequenten Fensterfunktion multipliziert wird, wobei CL(i) bzw. CH(i) erhalten werden. Durch ein inverses, homomorphes Verarbeitungsverfahren ergibt sich aus diesen Funktionen, wie in Fig. 5E gezeigt ist, die Impulsantwort h(n) und das Tonhöhen-Impulsfolgesignal e(n). Da im vorliegenden Fall das inverse, homomorphe Verarbeitungsverfahren für CH(i) nicht direkt zu dem Tonhöhen-Impulsfolgesignal e(n) führt, sondern zu dem Tonhöhen-Impulsfolgesignal eines Blockes multipliziert mit einer Zeitfensterfunktion w(n), kann e(n) erhalten werden, indem man das Tonhöhen-Impulsfolgesignal erneut mit einer inversen Zeitfensterfunktion 1/w(n) multipliziert, die invers zu der Funktion w(n) ist.

Das Verfahren gemäß Fig. 5C ist praktisch gleich dem Verfahren gemäß Fig. 5B, mit dem einzigen Unterschied, daß zur Gewinnung des periodischen Impulsfolgesignals e(n) anstelle von CH(i) das Cepstrum CL(i) verwendet wird. Dies bedeutet, daß bei diesem Verfahren unter Nutzung der Eigenschaft, daß eine Impulsantwort h^-1(n), welche der Funktion 1/H(f) entspricht, die wiederum invers zu der Frequenzcharakteristik H(f) ist, erhalten werden kann, indem man die Funktion -CL(i), die ihrerseits erhalten wird, indem man das negative CL(i) nimmt, nach dem Verfahren der inversen, homomorphen Verarbeitung verarbeitet, wobei das periodische Tonhöhen-Impulsfolge signal e(n) als Ausgangssignal erhalten werden kann, indem man ein Filter (FIR) mit einer Impulsantwort endlicher Dauer entwickelt, welches die Funktion h^-1(n) als Impulsantwort besitzt, und indem man diesem Filter ein Original-Sprachsignal s(n) zuführt, welches nicht mit einer Fensterfunktion multipliziert ist. Dieses Verfahren ist ein inverses Filterverfahren, welches im wesentlichen gleich demjenigen gemäß Fig. 5A ist, mit dem einzigen Unterschied, daß während bei der homomorphen Analyse gemäß Fig. 5G ein inverses, spektrales Enveloppenfilter 1/H(f) entwickelt wird, indem man eine Impulsantwort h^-1(n) des inversen, spektralen Enveloppenfilters erhält, gemäß Fig. 5A das inverse, spektrale Enveloppenfilter 1/H(f) direkt auf der Basis der Vorhersagecoeffizienten ai oder der Reflexionscoeffizienten k1 entwickelt wird, die nach dem Analyseverfahren der linearen Vorhersage erhalten werden.

Bei der blinden Entfaltung auf der Basis der homomorphen Analyse können die Impulsantwort h(n) oder das nieder frequente Cepstrum CL(i), die in Fig. 5B und 5C in punktierten Linien gezeigt sind, als Spektral-Enveloppen parametersatz verwendet werden. Wenn man die Impulsantwort {h(0), h(1), . . ., h(Ni)} verwendet, besteht ein spek traler Enveloppenparametersatz normalerweise aus einer guten Zahl von Parametern in einer Größenordnung, bei der N 90 bis 120 beträgt, während die Anzahl der Parameter auf 50 bis 60 verringert werden kann, wobei N 25 bis 30 beträgt, wenn man das Cepstrum {CL(-N)m, CL(-N+1), . . ., 0, ..., CL(N)} verwendet.

Wie oben beschrieben, wird das stimmhafte Sprachsignal s(n) in die Impulsantwort h(n) des spektralen Enveloppen filters und das periodische Impulshöhen-Impulsfolgesignal e(n) gemäß dem in Fig. 5 dargestellten Verfahren entfaltet.

Wenn erst einmal das Tonhöhen-Impulsfolgesignal und die spektralen Enveloppenparameter nach dem Verfahren der blinden Entfaltung erhalten wurden, dann werden die Tonhöhen-Impulspositionen P1, P2, usw. aus dem perio dischen Tonhöhen-Impulsfolgesignal e(n) oder dem Sprach signal s(n) erhalten, indem man im Zeitbereich einen Tonhöhen-Impuls-Positionsdetektions-Algorithmus, wie z. B. den Epochen-Detektionsalgorithmus, verwendet. Als nächstes werden die Tonhöhen-Impulssignale e1(n), e2(n) und e3(n), die in Fig. 3H, 3K bzw. 3N gezeigt sind, erhalten, indem man das Tonhöhen-Impulsfolgesignal e(n) periodisch derart segmentiert, daß ein Tonhöhenimpuls in einem Perioden intervall eingeschlossen wird, wie dies in Fig. 3F gezeigt ist. Bezüglich der Positionen der Segmentierung kann man sich für die Mittelpunkte zwischen den Tonhöhenimpulsen entscheiden oder für Punkte, die um ein konstantes Zeitintervall vor jedem Tonhöhenimpuls liegen. Da jedoch die Position jedes Tonhöhenimpulses zeitlich mit dem Endbereich jedes glossalen Impulses zusammenfällt, wie vollständig deutlich wird, wenn man Fig. 3A und 3F vergleicht, ist es zu bevorzugen, als Position für die Segmentierung einen Punkt auszuwählen, der um ein konstantes Zeitintervall hinter jedem Tonhöhenimpuls liegt, wie dies durch die punktierte Linie in Fig. 3F gezeigt ist. Da jedoch der Tonhöhenimpuls den größten Effekt für die Hörbarkeit darstellt, ergeben sich zwischen den angesprochenen Fällen keine signifikanten Unterschiede in der synthetisch erzeugten Sprache.

Wenn die nach diesem Verfahren erhaltenen Tonhöhen-Impuls signale e1(n), e2(n), e3(n), usw. jeweils wieder mit h1(n), h2(n), h3(n) . . . gemäß Fig. 3E gefaltet werden, bei denen es sich um die Impulsantworten während des Perioden intervalls der Tonhöhen-Impulssignale e1(n), e2(n), e3(n), usw. handelt, dann werden die erwünschten Einzelschwin gungen erhalten, wie sie in Fig. 3I, 3L, 3(0) gezeigt sind. Eine derartige Faltung kann in bequemer Weise durchgeführt werden, indem man jedes Tonhöhen-Impuls folgesignal dem spektralen Enveloppenfilter H(f) zuführt, welches die spektralen Enveloppenparameter als Filter coeffizienten verwendet, wie dies in Fig. 4 gezeigt ist. Beispielsweise kann in den Fällen, in denen die linearen Vorhersagecoeffizienten oder die Reflexionscoeffizienten oder Linienspektrumpaare als spektrale Enveloppenparameter verwendet werden, wie bei dem Analyseverfahren der linearen Vorhersage ein IIR-Filter (infinite-duration impulse respone = Impulsantwort unendlicher Dauer) eingesetzt werden, welches mit den linearen Vorhersage coeffizienten oder den Reflexionscoeffizienten oder den Linienspektrumpaaren als Filtercoeffizienten aufgebaut ist. In Fällen, in denen die Impulsantwort für die spektralen Enveloppenparameter verwendet wird, wie bei dem homomorphen Analyseverfahren, wird ein FIR-Filter ver wendet, welches die Impulsantwort als Abgriffscoeffi zienten hat. Da das Synthesefilter nicht direkt aufgebaut werden kann, wenn der spektrale Enveloppenparameter ein logarithmisches Bereichsverhältnis oder das Cepstrum ist, sollten die spektralen Enveloppenparameter in die Reflexionscoeffizienten oder die Impulsantwort zurück transformiert werden, um als Coeffizienten für das IIR- oder FIR-Filter verwendet zu werden. Wenn das Tonhöhen- Impulssignal für eine Periode dem in der vorstehend beschriebenen Weise aufgebauten, spektralen Enveloppen filter als Eingangssignal zugeführt wird und wenn die Filtercoeffizienten zeitlich in Übereinstimmung mit den spektralen Enveloppenparametern variiert werden, die demselben Zeitpunkt entsprechen wie die einzelnen Proben des Tonhöhen-Impulssignals, dann wird als Ausgangssignal die Einzelschwingung für diese Periode erhalten. Aus diesem Grunde werden die "Zeitfunktionsschwingungen bzw. -wellen" der spektralen Enveloppenparameter an demselben Punkt ausgeschnitten, wie wenn e(n) ausgeschnitten würde, um das Tonhöhen-Impulssignal für jede einzelne Periode zu erhalten. Beispielsweise werden im Falle der sequentiellen Analyse die spektralen Enveloppenparameter k1(n)1, k2(n)1, usw. für die erste Periode, wie dies in Fig. 3G gezeigt ist, dadurch erhalten, daß die spektralen Enveloppen parameter ausgeschnitten werden, die derselben Zeitperiode entsprechen wie das Tonhöhen-Impulssignal e1(n) für die erste Periode, welches in Fig. 3H gezeigt ist, und zwar aus den Zeitfunktionen k1(n), k2(n), usw. der spektralen Enveloppenparameter, wie dies in Fig. 3D gezeigt ist. Die spektralen Enveloppenparameter für die zweite und dritte Periode, die in Fig. 3J und 3M in ausgezogenen Linien gezeigt sind, können in ähnlicher Weise erhalten werden wie oben ausgeführt. In Fig. 4 sind die Reflexions coeffizienten k1, k2, . . ., kN und die Impulsantwort h(0), h(1), . . ., h(N-1) als typischer Spektralenveloppenpara metersatz gezeigt, wobei sie mit k1(n), k2(n), . . ., kn(n) und h(0, n), h(1, n), . . ., h(N-1, n) bezeichnet wurden, um zu betonen, daß es sich bei ihnen um Funktionen der Zeit handelt. In gleicher Weise wird das Cepstrum CL(i) in den Fällen, in denen es als spektraler Enveloppenparametersatz verwendet wird, als CL(i, n) bezeichnet.

Da bei dem tonhöhensynchronen Analyseverfahren oder dem Block-Analyseverfahren anders als bei dem sequentiellen Analyseverfahren nicht die Zeitfunktionen der spektralen Enveloppenparameter erhalten werden, sondern die spektralen Enveloppenparameterwerte, welche über das Analyseintervall konstant sind, sollte es erforderlich sein, die Zeitfunktionen der spektralen Enveloppenpara meter aus den spektralen Enveloppenparameterwerten zu gewinnen und dann die Zeitfunktionen Periode für Periode zu segmentieren, um die spektralen Enveloppenparameter für eine Periode zu erhalten. In der Praxis ist es jedoch bequem, wie folgt vorzugehen, anstatt die Zeitfunktionen zusammenzustellen. Da im Falle des tonhöhensynchronen Analyseverfahrens ein Satz von spektralen Enveloppen parametern, welche konstante Werte haben, jedem Tonhöhen periodenintervall entspricht, wie dies als gestrichelte Linie in Fig. 8B gezeigt ist, ändern sich die spektralen Enveloppenparameter selbst dann nicht, wenn ihre Zeitfunktionen Periode für Periode segmentiert werden. Daher sind die spektralen Enveloppenparameter für eine Periode, die in einem Pufferspeicher zu speichern sind, keine Zeitfunktionen, sondern zeitunabhängige Konstante.

Da im Falle des Block-Analyseverfahrens pro Block ein Satz von konstanten, spektralen Enveloppenparametern erhalten wird, sind die Werte eines spektralen Enveloppenparameters für eine Periode, die zu einem Block gehört, beispiels weise k1(n)1, k1(n)2, . . ., k1(n)M, nicht nur konstant unabhängig von der Zeit, sondern auch identisch. (Im vorliegenden Fall bedeutet k1(n)j die Zeitfunktion von k1 für das j-th-periodische Intervall, während M die Anzahl von Tonhöhenperiodenintervallen angibt, die zu einem Block gehören.)

Es ist zu beachten, daß im Falle des Block-Analysever fahrens dann, wenn das Tonhöhen-Impulssignal über der Grenze zwischen zwei benachbarten Blöcken liegt, die spektralen Enveloppenparameterwerte des vorausgehenden Blockes bzw. des folgenden Blockes für die Auswertung benutzt und nachfolgende Signalteile bezüglich der Blockgrenze geteilt werden sollen.

Wie in Fig. 3I erkennbar ist, ist die Dauer einer Einzelschwingung nicht notwendigerweise gleich einer Periode. Aus diesem Grunde werden die Verfahren der Nullanhängung und der Parameterverlängerung, die in Fig. 4 gezeigt sind, benötigt, ehe das Tonhöhen-Impulssignal und die spektralen Enveloppenparameter für eine Periodendauer, die durch die periodische Segmentierung erhalten wurden, an das spektrale Enveloppenfilter angelegt werden, damit die Dauer des Tonhöhen-Impulssignals und die spektralen Enveloppenparameter mindestens so lang sind wie die effektive Dauer der Einzelschwingung. Das Verfahren der Nullanhängung dient dazu, die Gesamtdauer des Tonhöhen-Impulssignals so lang zu machen, wie die erforderliche Länge ist, indem hinter dem Tonhöhen-Impulssignal einer Periode die Proben angehängt werden, die den Wert Null haben. Das Verfahren der Parameterverlängerung besteht darin, die Gesamtdauer der spektralen Enveloppenparameter so lang zu machen, wie es erforderlich ist, indem die spektralen Enveloppenparameter für die folgenden Perioden nach den spektralen Enveloppenparametern von der Länge einer Periode angehängt werden. Die Qualität der synthetisch erzeugten Sprache wird jedoch selbst dann nicht signifikant verschlechtert, wenn ein einfaches Verfahren angewandt wird, nach dem wiederholt der Endwert der spektralen Enveloppenparameter einer Periode oder der erste Wert der spektralen Enveloppenparameter der nächsten Periode angehängt wird.

Die Tatsache, daß die effektive Dauer der Einzelschwingung bzw. -welle, die von dem spektralen Enveloppenfilter erzeugt werden soll, von den Werten der spektralen Enveloppenparameter abhängt, macht es schwierig, diese Dauer vorab abzuschätzen. Da es jedoch im praktischen Einsatz in den meisten Fällen nicht zu signifikanten Fehlern führt, wenn man berücksichtigt, daß die effektive Dauer der Einzelschwingung, ausgehend von der Tonhöhen-Impulsposition, bei einem männlichen Sprecher zwei Perioden beträgt und bei einer Frau oder einem Kind drei Perioden, ist es bequem zu entscheiden, daß die Dauer des "verlängerten Tonhöhen-Impulssignals", die durch Nullan hängen erreicht werden soll, und die Dauer der "verlänger ten spektralen Enveloppenparameter", die durch Verlängern der Parameter erzeugt werden soll, für männliche Sprecher drei Perioden beträgt und für weibliche Sprecher vier Perioden, und zwar für den Fall, daß die periodische Segmentierung unmittelbar hinter den Tonhöhenimpulsen erfolgt. In Fig. 3G sind die spektralen Enveloppen parameter für die erste Periode des drei Perioden umfassenden Intervalls "ad", die erhalten werden, indem man die spektralen Enveloppenparameter für das zwei Perioden umfassende Intervall "bd" anhängt, durch eine punktierte Linie, angrenzend an den spektralen Enveloppen parameter der ersten Periode des Intervalls "ab", als Beispiel angedeutet, welches durch die periodische Segmentierung erhalten wird. In Fig. 3H ist als Beispiel ein verlängertes Tonhöhen-Impulssignal für die erste Periode des drei Perioden umfassenden Intervalls "ad" dargestellt, welches erhalten wird, indem man die den Wert Null aufweisenden Proben an das zwei Perioden umfassende Intervall "bd" anhängt, welches als nächstes auf das Tonhöhen-Impulssignal des Intervalls "ab" der ersten Periode folgt, das durch die periodische Segmentierung erhalten wird.

Da in dem vorstehend beschriebenen Fall die Dauer nach der Nullanhängung und der Parameterverlängerung auf drei bzw. vier Perioden erhöht ist, während die Dauer des Tonhöhen-Impulssignals und der spektralen Enveloppenparameter vor der Nullanhängung und der Parameterverlängerung eine Periode beträgt, sind zwischen der periodischen Segmen tierung und der Parameterverlängerung Puffer vorgesehen, wie dies in Fig. 4 gezeigt ist, und das Tonhöhen-Impuls signal sowie die spektralen Enveloppenparameter, die durch die periodische Segmentierung erhalten werden, werden dann in den Puffern gespeichert und im Bedarfsfall wieder abgerufen, so daß eine temporäre Pufferung erreicht wird.

Wenn das verlängerte Tonhöhen-Impulssignal und die verlängerten spektralen Enveloppenparameter gemäß Fig. 4 durch die Nullanhängung und die Parameterverlängerung erreicht werden, können das "Einzelschwingungssignal" s1(n) für die erste Periode der Dauer des drei Perioden umfassenden Intervalls, wie z. B. des Intervalls "ad", welches in Fig. 3I gezeigt ist, letztlich erhalten werden, indem man das verlängerte Tonhöhen-Impulssignal der ersten Periode, wie z. B. das Intervall "ad" in Fig. 3H, in das spektrale Enveloppenfilter H(f) eingibt und die Coeffi zienten synchron in der gleichen Weise variiert, wie den verlängerten spektralen Enveloppenparameter der ersten Periode, wie z. B. des Intervalls "ad" in Fig. 3G. Die Einzelschwingungssignale s2(n) und s3(n) für die zweite bzw. dritte Periode können in derselben Weise erhalten werden.

Wie vorstehend beschrieben, wird das stimmhafte Sprach signal s(n) letztlich nach dem Verfahren gemäß Fig. 4 in Einzelschwingungen zerlegt, aus denen das Signal s(n) zusammengesetzt ist. Offensichtlich führt das neue Arrangieren der Einzelwellen gemäß Fig. 3I, 3L und 3(0), welche durch die Zerlegung erhalten wurden, an den ursprünglichen Punkten zu dem Signal gemäß Fig. 3B, und wenn die Einzelwellen übereinandergelegt sind, wird das ursprüngliche Sprachsignal s(n), welches in Fig. 3C gezeigt ist, wieder erhalten. Wenn die Einzelschwingungen gemäß Fig. 3I, 3L und 3(0) wieder neu arrangiert werden, indem die Zwischenräume verändert werden und dann über lagert werden, wie dies in Fig. 3P gezeigt ist, dann wird die Sprachschwingung gemäß Fig. 3Q erhalten, welche ein anderes Tonhöhenmuster hat. Durch geeignetes Variieren des Zeitintervalls zwischen den Einzelschwingungen, welche durch die Zerlegung erhalten werden, ist es also möglich, eine synthetische Sprache zu erzeugen, die ein beliebiges, gewünschtes Tonhöhenmuster, d. h. eine beliebige Intonation hat. In ähnlicher Weise ermöglicht das richtige Variieren der Energie der Einzelschwingungen die Erzeugung von synthetischer Sprache mit einem beliebigen, erwünschten Betonungs- bzw. Lautstärkemuster.

In dem in Fig. 2 gezeigten Sprachsegmentspeicherblock wird jedes stimmhafte Sprachsegment, welches nach dem Verfahren gemäß Fig. 4 in so viele Einzelschwingungen unterteilt wird wie Tonhöhenimpulse vorhanden sind, in dem in Fig. 6A gezeigten Format gespeichert, welches als Sprachsegment information bezeichnet wird. In einem Kopffeld, bei dem es sich um den vorderen Teil der Sprachsegmentinformation handelt, werden Grenzzeitpunkte B1, B2, . . ., BL, welche wichtige Zeitpunkte in dem Sprachsegment sind, sowie Tonhöhen-Impulspositionen P1, P2, . . ., PM jedes Ton höhen-Impulssignals, welches bei der Synthese jeder Einzelschwingung verwendet wird, gespeichert, wobei die Anzahl der Proben (Abtastwerte), die jedem Zeitpunkt entsprechen, aufgezeichnet wird, wobei die Position der ersten Probe des ersten Tonhöhen-Impulssignals e1(n) als 0 genommen wird. Der Grenzzeitpunkt ist die Zeitposition der Grenzpunkte zwischen Untersegmenten, die man erhält, wenn das Sprachsegment in mehrere Untersegmente unterteilt bzw. segmentiert wird. Beispielsweise kann ein Vokal, vor und hinter welchem ein Konsonant vorhanden ist, für langsame Sprache als aus drei Subsegmenten bestehend angesehen werden, da der Vokal in ein Intervall in seinem mittleren Teil mit einem stetigen Zustand und zwei Übergangsinter valle unterteilt werden kann, die vor bzw. hinter dem Intervall mit stetigem Zustand liegen. In diesem Fall werden die drei Endpunkte der Subsegmente als Grenz zeitpunkte in dem Kopffeld des Sprachsegmentes gespei chert. Wenn die Abtastung jedoch bei schnellerer Sprech geschwindigkeit erfolgt, werden in der Kopfinformation zwei Grenzzeitpunkte gespeichert, da das Übergangs intervall zu einem Punkt wird, so daß das Sprachsegment des Vokals als aus zwei Subsegmenten bestehend betrachtet werden kann.

In dem Einzelschwingungs-Codefeld, welches der spätere Teil der Sprachsegmentinformation ist, werden Einzel schwingungscode gespeichert, welche durch Schwingungs codierung der Einzelschwingungen erhalten werden, die jeder einzelnen Periode entsprechen. Die Einzelschwin gungen können durch das einfache Schwingungscodier verfahren codiert werden, wie z. B. durch PCM; da die Einzelschwingungen jedoch eine erhebliche Kurzzeit- und Langzeitkorrelation haben, kann die erforderliche Speicherplatzmenge für die Speicherung erheblich verringert werden, wenn die Einzelschwingungen in effektiver Weise nach dem Verfahren der Schwingungs codierung unter Verwendung des ADPCM-Verfahrens codiert werden, bei dem mit einer Tonhöhenvoraussageschleife gearbeitet wird oder mit einer adaptiven, voraussagenden Codierung oder einem digitalen, adaptiven Deltamodula tionsverfahren. Das Verfahren, nach welchem die nach Zerlegung erhaltenen Einzelschwingungen codiert und in Form der resultierenden Codes gespeichert werden, derart, daß die Codes zum Zeitpunkt der Synthese decodiert, neu geordnet und überlagert werden, um synthetische Sprache zu erzeugen, wird als "Schwingungscodespeicherverfahren" bezeichnet.

Das Tonhöhen-Impulssignal und die entsprechenden spek tralen Enveloppenparameter können als identisch mit der Einzelschwingung betrachtet werden, da es sich bei ihnen um Materialien handelt, mit denen die Einzelschwingung erzeugt werden kann. Daher ist auch ein Verfahren möglich, bei dem die "Quellcodes" (source codes)" gespeichert werden, welche durch Codieren der Tonhöhen-Impulssignale und der spektralen Enveloppenparameter erhalten werden, und bei dem die Einzelschwingungen mit den Tonhöhen-Impulssignalen und den spektralen Enveloppenparametern hergestellt werden, welche durch Decodieren der Quellcode erhalten werden, wobei die Einzelschwingungen dann neu arrangiert und überlagert werden, um die synthetisch erzeugte Sprache zu erzeugen. Dieses Verfahren wird als "Quellcode-Speicherverfahren" bezeichnet. Dieses Verfahren entspricht demjenigen, bei dem das Tonhöhen-Impulssignal und die spektralen Enveloppenparameter, die in den Puffern gespeichert sind, anstelle der Einzelschwingungen, die in Fig. 4 als Ausgangssignal erhalten werden, in demselben Periodenintervall miteinander verknüpft und dann in dem Sprachsegmentspeicherblock gespeichert werden. Bei dem Quellcode-Speicherverfahren werden daher die Prozeduren hinter dem Puffer in Fig. 4, nämlich die Parameterver langerung, die Nullanhängung und die Filterung durch das Synthesefilter H(f) in dem Einzelschwingungsanordnung unterblock in Fig. 7 durchgeführt.

Bei dem Quellcode-Speicherverfahren hat die Sprachsegment information das in Fig. 6B gezeigte Format, welches daßelbe ist wie in Fig. 6A, ausgenommen den Inhalt des Einzelschwingungs-Codefeldes. D.h. daß die Tonhöhen-Impulssignale und die spektralen Enveloppenparameter, die für die Synthese der Einzelschwingungen erforderlich sind, anstelle der Einzelschwingungen codiert und an den Positionen gespeichert werden, an denen die Einzel schwingung für jede Periode in Fig. 6A zu speichern ist.

Die spektralen Enveloppenparameter werden gemäß dem bekannten Quantisierungsverfahren für spektrale Enveloppenparameter codiert und im Einzelschwingungs-Codefeld gespeichert. Wenn die spektralen Enveloppen parameter zu diesem Zeitpunkt vor der Quantisierung transformiert werden, kann die Codierung effektiv durchgeführt werden. Beispielsweise ist es vorteilhaft, die Vorhersagecoeffizienten in die Parameter des Linienspektrumpaares und die Reflexionscoeffizienten in die logarithmischen Bereichsverhältnisse zu transformieren und sie zu quantisieren. Da außerdem die Impulsantwort zwischen benachbarten Proben und benachbarten Impulsant worten eine enge Korrelation hat, kann die erforderliche Menge der zu speichernden Daten beträchtlich verringert werden, wenn ihre Einzelschwingungscodierung nach einem differentiellen Codierverfahren erfolgt. Im Falle der Cepstrumparameter ist ein Codierverfahren bekannt, bei welchem der Cepstrumparameter so transformiert wird, daß die Menge der Daten beträchtlich reduziert werden kann.

Einerseits wird das Tonhöhen-Impulssignal nach einem geeigneten Einzelschwingungscodierverfahren codiert und der resultierende Code wird in dem Einzelschwingungs codefeld gespeichert. Die Tonhöhen-Impulssignale haben eine geringe Kurzzeitkorrelation, aber eine signifikante Langzeitkorrelation miteinander. Wenn daher ein Schwin gungscodierverfahren, wie z. B. das tonhöhenvorhersagende, adaptive PCM-Codierverfahren angewandt wird, welches eine die Tonhöhe voraussagende Schleife umfaßt, dann kann eine hohe Qualität der synthetisch erzeugten Sprache selbst dann erreicht werden, wenn die Menge des für die Speicherung erforderlichen Speicherplatzes auf drei Bit pro Probe bzw. Abtastwert reduziert wird. Der Vorher sagecoeffizient einer Tonhöhenvorhersage-Einheit kann ein Wert sein, der für jede Tonhöhenperiode nach einem Autokorrelationsverfahren gewonnen wird, oder auch ein konstanter Wert. In der ersten Stufe der Codierung kann der Tonhöhenvorhersage-Effekt durch eine Normierung erhöht werden, indem man das zu codierende Tonhöhen-Impulssignal durch die Quadratwurzel der mittleren Energie pro Abtast wert "G" teilt. Das Decodieren erfolgt in dem Synthese block für stimmhafte Sprache und das Tonhöhen-Impulssignal wird mit seiner ursprünglichen Größe wiederhergestellt, indem es in der Endstufe der Decodierung erneut mit dem Faktor "G" multipliziert wird.

In Fig. 6B ist die Sprachsegmentinformation für den Fall gezeigt, daß ein lineares, vorhersagendes Analyseverfahren angewandt wird, welches als spektrale Enveloppenparameter 14 Reflexionscoeffizienten verwendet. Wenn das Analyse intervall für die lineare, vorhersagende Analyse die Tonhöhenperiode ist, entsprechen 14 Reflexionscoeffi zienten jedem Tonhöhen-Impulssignal und werden gespei chert. Wenn das Analyseintervall ein Block mit einer gewissen Länge ist, dann haben die Reflexionscoeffizienten für mehrere Tonhöhen-Impulse in einem Block dieselben Werte, so daß der erforderliche Speicherplatz für die Speicherung der Einzelschwingungen reduziert wird. In diesem Fall muß, wie oben diskutiert, da die Reflexions coeffizienten des vorausgehenden Blockes oder des späteren Blockes zum Zeitpunkt der Synthese für Tonhöhen-Impuls signale, die über der Grenze zwischen zwei Blöcken liegen, in Abhängigkeit davon, ob die Abtastwerte des Signals vor oder hinter dem Grenzpunkt liegen, die Position des Grenzpunkts zwischen den Blöcken zusätzlich in dem Kopffeld gespeichert werden. Wenn ein sequentielles Analyseverfahren, wie z. B. das rekursive Verfahren der kleinsten Quadrate, angewandt wird, dann werden die Reflexionscoeffizienten k1, k2, . . ., k14 zu kontinuier lichen Funktionen des Zeitindex "n", wie dies in Fig. 3D gezeigt ist, und es ist eine Menge Speicherplatz erforder lich, um die Zeitfunktion k1(n), k2(n), . . ., k14(n) zu speichern. Nimmt man den Fall gemäß Fig. 3 als Beispiel, dann sind die Schwingungen für das Intervall "ab" in Fig. 3G und Fig. 3H als die erste Periode und für das Intervall "bc" in Fig. 3J und Fig. 3K als die zweite Periode und für das Intervall "cd" in Fig. 3M und Fig. 3N als dritte Periode des Einzelschwingungs-Codefeldes in dem Einzelschwingungs-Codefeld gespeichert.

Das Schwingungscode-Speicherverfahren und das Quellcode-Speicherverfahren sind im wesentlichen gleiche Verfahren, und tatsächlich werden der Schwingungscode, der erhalten wird, wenn die Einzelschwingungen nach dem effektiven Einzelschwingungs-Codierverfahren, wie z. B. dem APC-Verfahren (APC = adaptive predictive coding = anpassende, vorhersagende Codierung), bei dem Schwingungscode- Speicherverfahren in ihren Inhalten nahezu gleich dem Quellcode, der bei dem Quellcode-Speicherverfahren erhalten wird. Der Schwingungsformcode bei dem Schwin gungsformcode-Speicherverfahren und der Quellcode bei dem Quellcode-Speicherverfahren werden insgesamt als Einzel schwingungscode bezeichnet.

Fig. 7 zeigt die innere Konfiguration des Syntheseblockes für stimmhafte Sprache gemäß vorliegender Erfindung. Die Einzelschwingungscode, die in dem Einzelschwingungs codefeld der Sprachsegmentinformation gespeichert sind, welche von dem Sprachsegmentspeicherblock erhalten wird, werden durch einen Decodier-Unterblock 9 im Zuge eines Verfahrens decodiert, welches invers zu dem Verfahren ist, nachdem diese Informationen codiert wurden. Einerseits werden die Einzelschwingungssignale, die erhalten werden, wenn die Schwingungscode bei dem Schwingungscode-Speicher verfahren decodiert werden, oder die Tonhöhen-Impuls signale, welche erhalten werden, wenn die Source-Code bei dem Source-Code-Speicherverfahren decodiert werden und die an die spektralen Enveloppenparameter angepaßten Tonhöhen-Impulssignale als Einzelschwingungsinformation bezeichnet und dem Schwingungsanordnungs-Unterblock zugeführt. Andererseits wird die Kopfinformation, die in dem Kopffeld der Sprachsegmentinformation gespeichert ist, als Eingangssignal für einen Dauersteuerungsunterblock 10 und einen Tonhöhensteuerungsunterblock 11 verwendet.

Der Dauersteuerungs-Unterblock gemäß Fig. 7 empfängt als Eingangssignal die Dauerdaten (die Daten über die zeit liche Dauer bzw. Länge) der vorausgehenden Information und die Grenzzeitpunkte, die von der Sprachsegmentkopf information umfaßt werden, und erzeugt die Zeit-Form änderungsinformation durch Verwendung der Dauerdaten und der Grenzzeitpunkte und liefert die erzeugte Zeit-Form änderungsinformation an den Schwingungsanordnungs- Unterblock 13, den Tonhöhensteuerungs-Unterblock und den Energiesteuerungsunterblock. Wenn die Gesamtdauer des Sprachsegments kürzer oder länger wird, dann wird die Dauer der Subsegmente, die das Sprachsegment bilden, entsprechend kürzer oder länger, wobei das Verhältnis der Kompression oder Expansion von der Eigenschaft jedes Subsegments abhängt. Beispielsweise besitzt die Dauer des Intervalls stetigen Zustands, welches im Falle eines Vokals, der zwischen zwei Konsonanten steht, in der Mitte liegt, eine beträchtlich größere Variationsrate als die Dauer der Übergangsintervalle auf beiden Seiten des Vokals. Der Dauersteuerungs-Unterblock vergleicht die Dauer BL des Original-Sprachsegments, welches gespeichert wurde, und die Dauer des synthetisch zu erzeugenden Sprachsegments, die durch die Dauerdaten angezeigt wird, und erreicht die Dauer jedes zu synthetisierenden Subseg ments entsprechend der Dauer jedes Original-Subsegments unter Verwendung der Variationsrate derselben oder der Dauerregel, wodurch die Grenzzeitpunkte der syntheti sierten Sprache erhalten werden. Die Original-Grenz zeitpunkte B1, B2 usw. und die Grenzzeitpunkte B′1, B′2 usw. der synthetischen Sprache, die an die Original-Grenz zeitpunkte angepaßt sind, werden insgesamt als Zeit-Form änderungsinformation bezeichnet, woraufhin, beispielsweise im Falle von Fig. 8, die Zeit-Formänderungsinformation wie folgt dargestellt werden kann: {(B1, B′1), (B1, B′2), (B2, B′3), (B3, B′3), (B4, B′4)}.

Die Funktion des Tonhöhensteuerungs-Unterblockes in Fig. 7 besteht darin, die Tonhöhen-Impulspositionsinformation zu erzeugen, derart, daß die synthetisierte Sprache das Intonationsmuster aufweist, welches durch die Intonations musterdaten angegeben wird, und liefert die Information an den Schwingungsanordnungs-Unterblock und den Energiesteue rungsunterblock. Der Tonhöhensteuerungs-Unterblock empfängt als Eingangssignal die Informationsmusterdaten, bei denen es sich um die Ziel-Tonhöhenfrequenzwerte für jedes Phonem handelt, und erzeugt eine Tonhöhenkontur, welche die kontinuierliche Variation der Tonhöhenfrequenz über der Zeit darstellt, indem er die Ziel-Tonhöhen frequenzwerte glatt miteinander verbindet. Der Tonhöhen steuerungs-Unterblock kann aufgrund eines Obstruenten (Verschlußlaut oder Reiblaut) der Tonhöhenkontur ein Mikrointonationsphenomen reflektieren. In diesem Fall wird die Tonhöhenkontur jedoch zu einer diskontinuierlichen Funktion, in der sich der Tonhöhenfrequenzwert an dem Grenzpunkt zwischen dem Verschlußlautphonem und dem angrenzenden, anderen Phonem bezüglich der Zeit abrupt ändert. Die Tonhöhenfrequenz wird erhalten, indem man die Tonhöhenkontur in einer ersten Tonhöhenimpulsposition des Sprachsegmentes abtastet, und die Tonhöhenperiode wird erhalten, indem man das Inverse der Tonhöhenfrequenz nimmt. Anschließend wird der Punkt, bis zu dem sich die Tonhöhenperiode erstreckt, als zweite Tonhöhenimpuls position bestimmt. Die nächste Tonhöhenperiode wird dann aus der Tonhöhenfrequenz an diesem Punkt erhalten und die nächste Tonhöhenimpulsposition wird wieder daraus erhalten, und die Wiederholung dieser Vorgänge könnte alle Tonhöhenimpulspositionen der synthetisierten Sprache ergeben. Die erste Tonhöhenimpulsposition des Sprachseg ments kann auf den Punkt des ersten Abtastwertes gelegt werden oder auf dessen benachbarte Abtastwerte im Falle des ersten Sprachsegments einer Serie von Segmenten kontinuierlicher, stimmhafter Sprache der synthetisierten Sprache, und für die ersten Tonhöhenimpulsposition des nächsten Sprachsegments wird der Punkt festgelegt, der der Position des vorletzten Tonhöhenimpulses des voraus gehenden Sprachsegments entspricht, usw. Der Tonhöhen steuerungs-Unterblock sendet die Tonhöhenimpulspositionen P′1, P′2 usw. der erhaltenen synthetischen Sprache als solcher und die Original-Tonhöhen-Impulspositionen P1, P2 usw., die in der Sprachsegmentkopfinformation enthalten sind, zusammen in verknüpfter Form an den Schwingungs anordnungs-Unterblock und den Energiesteuerungs- Unterblock, wo diese Informationen als sogenannte Tonhöhenimpulspositionsinformationen empfangen werden. Im Fall von Fig. 8 kann die Tonhöhenimpulspositionsinfor mation beispielsweise wie folgt dargestellt werden: {(P1, P2, . . . P9), (P′1, P′′′, . . ., P′8)}.

Der Energiesteuerungs-Unterblock gemäß Fig. 7 erzeugt eine Verstärkungsinformation, aufgrund welcher die syntheti sierte Sprache das Betonungsmuster erhält, welches durch die Betonungsmusterdaten angezeigt wird, und sendet diese Verstärkungsinformationen zu dem Schwingungsanordnungs- Unterblock. Der Energiesteuerungs-Unterblock empfängt als Eingangssignal die Betonungsmusterdaten, bei denen es sich um Zielamplitudenwerte für jedes Phonem handelt, und erzeugt eine Energiekontur, welche die kontinuierliche Veränderung der Amplitude über der Zeit darstellt, indem er die Zielamplitudenwerte glatt miteinander verbindet. Es wird angenommen, daß die Sprachsegmente vorab zum Zeit punkt der Speicherung normiert werden, so daß sie eine relative Energie gemäß der Klasse des Sprachsegments haben, um die relative Differenz der Energie für jedes Phonem widerzuspiegeln. Beispielsweise hat im Falle von Vokalen ein niedriger (dunkler) Vokal eine größere Energie pro Zeiteinheit als ein hoher Vokal und ein nasaler Laut hat pro Zeiteinheit etwa die halbe Energie, verglichen mit dem Vokal. Weiterhin ist die Energie während des Ver schlußintervalls eines Explosionslaut sehr schwach. Wenn die Sprachsegmente gespeichert werden, sollen sie daher codiert werden, nachdem sie vorab so eingestellt wurden, daß sie eine solche relative Energie haben. In diesem Fall wird die in dem Energiesteuerungs-Unterblock erzeugte Energiekontur eine Verstärkung, die mit der Schwingung zu multiplizieren ist, die synthetisiert werden soll. Der Energiesteuerungs-Unterblock erhält die Verstärkungswerte G1, G2 usw. bei jeder Tonhöhenimpulsposition P1, P′2 usw. der synthetischen Sprache durch Verwendung der Energie kontur und der Tonhöhenimpulspositionsinformation und liefert sie an den Schwingungsanordnungs-Unterblock, wobei die betreffenden Informationen als Verstärkungsinforma tionen bezeichnet werden. Im Fall von Fig. 8 kann die Verstärkungsinformation beispielsweise wie folgt dargestellt werden: {(P′1, G1), (P′2, G2), . . ., (P′8, G8)}.

Der Schwingungsanordnungs-Unterblock gemäß Fig. 7 empfängt als Eingangssignal die oben beschriebene Einzelschwin gungsinformation, die Zeitverformungsinformation, die Tonhöhenimpulspositionsinformation und die Verstärkungs information und erzeugt letztlich das stimmhafte bzw. klingende Sprachsignal. Der Schwingungsanordnungs- Unterblock erzeugt die Sprache, welche das Intonations muster, das Betonungsmuster und die Dauer hat, die durch die Vorläuferinformation angezeigt werden, indem er die Einzelschwingungsinformationen verarbeitet, die er von dem Decodier-Unterblock empfangen hat. Zu diesem Zeitpunkt werden einzelne Einzelschwingungen wiederholt und andere weggelassen. Die Dauerdaten, die Intonationsmusterdaten und die Betonungsmusterdaten, welche von der Vorläufer information umfaßt werden, sind voneinander unabhängige, hinweisgebende Informationen, während sie bei ihrer Verarbeitung miteinander verknüpft werden müssen, da es eine Verknüpfung zwischen diesen drei Informationen gibt, wenn die Schwingung synthetisch mit der Schwingungs information zusammengesetzt wird. Eines der wichtigsten Probleme der Schwingungsanordnung besteht darin, welche Einzelschwingung als diejenige Einzelschwingung auszu wählen ist, die in jeder einzelnen Tonhöhenimpulsposition der synthetisierten Sprache anzuordnen ist. Wenn nicht die richtigen Einzelschwingungen ausgewählt und angeordnet werden, kann keine gute Qualität der synthetisierten Sprache erhalten werden. Weiter unten erfolgt eine Beschreibung der Arbeitsweise des Schwingungsanordnungs- Unterblockes, der das Verfahren der Einzelschwingungs positionierung auf der Basis der Zeitverformung du 29050 00070 552 001000280000000200012000285912893900040 0002004237563 00004 28931rch führt, bei dem es sich gemäß der Erfindung um ein Einzelschwingungsanordnungsverfahren handelt, welches in der Lage ist, bei der Synthetisierung der synthetischen Sprache eine hohe Qualität zu erreichen, und zwar unter Verwendung der Sprachsegmentinformation, welche von dem Sprachsegmentspeicherblock erhalten wird.

Der Prozeß der Synthese der stimmhaften Sprachschwingung mit Hilfe des Schwingungsanordnungs-Unterblockes besteht aus zwei Stufen, nämlich aus der Stufe der Positionierung der Einzelschwingungen unter Verwendung der Zeitverfor mungsfunktion und aus der Überlagerungsstufe zum Über lagern der neu positionierten Einzelschwingungen.

Im Falle des Schwingungscode-Speicherverfahrens werden also unter den in Form der Einzelschwingungsinformation empfangenen Einzelschwingungssignalen die am besten geeigneten für die Tonhöhenimpulspositionen der synthe tischen Sprache ausgewählt und an ihren Tonhöhenimpuls positionen positioniert, wobei jeweils ihre Verstärkung eingestellt wird und wobei die synthetisierte Sprache anschließend durch Überlagerung der Einzelschwingungen erzeugt wird.

Bei dem Quellcode-Speicherverfahren werden das Tonhöhen-Impulssignal und die spektralen Enveloppenparameter für jede Periode, die dem Tonhöhen-Impulssignal entspricht, als Einzelschwingungsinformation empfangen. In diesem Falle sind zwei synthetische Sprachanordnungsverfahren möglich. Das erste Verfahren besteht darin, jede Einzel schwingung dadurch zu erhalten, daß man dem Synthesefilter die spektralen Enveloppenparameter und das Tonhöhen-Impulssignal für zwei bis vier Periodenintervallängen zuführt, die erhalten werden, indem man die Prozesse durchführt, die der rechten Seite des Puffers in Fig. 4 entsprechen, nämlich das oben beschriebene Parameter verlängern und das Nullanhängen bezüglich der Einzel-Schwingungsinformation, wobei die synthetische Sprache dann mit den Einzelschwingungen nach einem Verfahren angeordnet bzw. zusammengesetzt wird, welches identisch mit dem Verfahren der Schwingungscodespeicherung ist. Dieses Verfahren ist im wesentlichen dasselbe wie das Anordnen der synthetischen Sprache nach dem Schwingungs code-Speicherverfahren, weshalb hier auf eine separate Beschreibung verzichtet wird. Das zweite Verfahren besteht darin, ein synthetisches Tonhöhen-Impulsfolgesignal zu erhalten oder ein synthetisches Anregungs- bzw. Erregungs signal, welches eine flache, spektrale Enveloppe hat, welches jedoch ein Tonhöhenmuster hat, welches von dem jenigen des ursprünglichen periodischen Tonhöhen-Impuls folgesignals verschieden ist, wobei unter den Tonhöhen-Impulssignalen diejenigen ausgewählt werden, die für die Tonhöhenimpulspositionen der synthetischen Sprache am besten geeignet sind, und wobei die Verstärkung für diese Signale eingestellt wird. Anschließend werden die Signale überlagert und zum Erhalten der synthetischen, spektralen Enveloppenparameter ausgewertet, indem man die spektralen Enveloppenparameter mit jedem Tonhöhenimpulssignal verknüpft, welches das synthetische Tonhöhen-Impuls folgesignal bildet oder mit dem synthetischen Anregungs signal. Zum Erzeugen der synthetisierten Sprache werden schließlich das synthetische Anregungssignal und die synthetischen, spektralen Enveloppenparameter dem Synthesefilter zugeführt. Diese beiden Verfahren sind im wesentlichen identisch, mit der Ausnahme, daß die Sequenz zwischen dem Synthesefilter und dem Überlagerungsschritt in der Anordnung der synthetischen Sprache umgedreht ist.

Das vorstehend beschriebene, synthetische Sprachanord nungsverfahren wird nachstehend unter Bezugnahme auf Fig. 8 erläutert. Das Verfahren der Repositionierung der Einzelschwingungen kann grundsätzlich in gleicher Weise sowohl auf das Schwingungscode-Speicherverfahren als auch auf das Quellcode-Speicherverfahren angewandt werden. Die beiden Schwingungsanordnungsverfahren für die Erzeugung synthetischer Sprache nach den beiden genannten Methoden werden folglich unter Bezugnahme auf Fig. 8 gleichzeitig beschrieben.

In Fig. 8A ist die Korrelation zwischen dem Original-Sprachsegment und dem zu synthetisierenden Sprachsegment dargestellt. Die Original-Grenzzeitpunkte B1, B2 usw., die durch gestrichelte Linien angedeutet sind, die Grenzzeit punkte B′1, B′2 usw. des synthetisierten Klanges und die Korrelation zwischen diesen Größen, die durch gestrichelte Linien angedeutet ist, werden von der Zeitverformungs information umfaßt, die von dem Dauersteuerungs-Unterblock empfangen wird. Zusätzlich sind die Original-Tonhöhen- Impulspositionen P1, P2 usw. durch ausgezogene Linien angezeigt und die Tonhöhenimpulspositionen P′1, P′2 der synthetisierten Sprache sind in der Tonhöhenimpuls positionsinformation enthalten, die von dem Tonhöhen steuerungs-Unterblock empfangen wird. Der Einfachheit halber ist in Fig. 8 angenommen, daß die Tonhöhenperiode der Originalsprache und die Tonhöhenperiode des synthe tisierten Klanges jeweils konstant sind und daß letztere das 1,5fache der ersteren beträgt.

Der Schwingungsanordnungs-Unterblock bildet zunächst die Zeitverformungsfunktion, wie dies in Fig. 8B gezeigt ist, indem er die Original-Grenzzeitpunkte, die Grenzzeitpunkte des synthetisierten Klanges und die Korrelation zwischen diesen verwendet. Auf der Abszisse der Zeitverformungs funktion ist die Zeit "t" des Original-Sprachsegments dargestellt, während längs der Ordinate die Zeit "t′" des zu synthetisierenden Sprachsegments aufgetragen ist. Da in Fig. 8A beispielsweise das erste Untersegment und das letzte Untersegment des Original-Sprachsegments zeitlich auf 2/3 komprimiert bzw. auf das 2fache expandiert werden sollten, erscheint die Korrelation zwischen diesen Größen in Form von Linien mit der Steigung 2/3 bzw. 2 in der Zeitverformungsfunktion gemäß Fig. 8B. Das zweite Unter segment ändert sich in seiner Dauer nicht, so daß es in der Zeitverformungsfunktion als Linie mit der Steigung 1 erscheint. Das zweite Untersegment des Sprachsegmentes, welches synthetisiert werden soll, ergibt sich durch die Wiederholung des Grenzzeitpunktes B1 des Original-Sprach segments. Im Gegensatz dazu ist das dritte Untersegment des Original-Sprachsegmentes in dem zu synthetisierenden Sprachsegment auf einen Grenzzeitpunkt B′3 verändert. Die Korrelationen erscheinen in diesen Fällen als vertikale Linie bzw. als horizontale Linie. Die Zeitverformungs funktion wird somit erhalten, indem man den Grenzzeitpunkt des Original-Sprachsegmentes und den Grenzzeitpunkt des zu synthetisierenden Sprachsegmentes vorgibt, der dem Grenzzeitpunkt des Original-Sprachsegmentes entspricht, und zwar in Form von zwei Punkten, und indem man diese Punkte über eine Linie miteinander verbindet. In einigen Fällen kann es möglich sein, daß die Korrelation zwischen den Untersegmenten näher an die Wirklichkeit angenähert wird, indem die Punkte über eine sanfte Kurve verbunden werden.

Bei dem Schwingungscode-Speicherverfahren findet der Schwingungsanordnungs-Unterblock den Original-Zeitpunkt, der der Tonhöhenimpulsposition des synthetisierten Klanges entspricht, heraus, indem er die Zeitverformungsfunktion verwendet, und findet außerdem die Einzelschwingung heraus, welche die Tonhöhen-Impulsposition hat, die am nächsten an dem Original-Zeitpunkt liegt, und ordnet die Einzelschwingung dann an der Tonhöhen-Impulsposition des synthetischen Klanges an.

In der nächsten Stufe multipliziert der Schwingungs anordnungs-Unterblock jedes positionierte Einzelschwin gungssignal mit der Verstärkung, die der Tonhöhenimpuls position des Einzelschwingungssignals entspricht, welches für die Verstärkungsinformation herausgefunden wurde. Schließlich erhält der Unterblock den gewünschten synthetischen Klang durch Überlagerung der hinsichtlich der Verstärkung eingestellten Einzelschwingungssignale durch einfache Addition derselben. In Fig. 3Q ist der synthetische Klang gezeigt, der durch einen derartigen Überlagerungsprozeß für den Fall erzeugt wurde, daß die Einzelschwingungen gemäß Fig. 3I, Fig. 3L und Fig. 3(0) in der Weise neu positioniert werden, wie dies in Fig. 3P gezeigt ist.

In ähnlicher Weise findet der Schwingungsanordnungs-Unter block bei dem Quellcode-Speicherverfahren den Original- Zeitpunkt heraus, der der Tonhöhenimpulsposition der synthetischen Klanges entspricht, indem er die Zeitver formungsfunktion verwendet und dasjenige Tonhöhenimpuls signal heraus findet, welches diejenige Tonhöhenimpuls position besitzt, die am nächsten an dem Original-Zeit punkt liegt, und indem er dann das Tonhöhenimpulssignal an dieser Tonhöhenimpulsposition des synthetischen Klanges anordnet.

Die Zahl der Tonhöhenimpulssignale bzw. der Einzelschwin gungen, die auf diese Weise an jeder Tonhöhenimpuls position des zu synthetisierenden Sprachsegmentes angeord net werden, ist in Fig. 8A und 8B gezeigt. Wie man an diesen Zeichnungsfiguren sieht, werden einige der Einzelschwingungen, die das Original-Sprachsegment bilden, aufgrund der Kompression der Untersegmente weggelassen, während einige wegen der Expansion der Untersegmente wiederholt verwendet werden. In Fig. 8 wurde angenommen, daß das Tonhöhenimpulssignal für jede Periode durch Segmentieren unmittelbar hinter jedem Tonhöhenimpuls erhalten wurde.

Die Überlagerung der Einzelschwingungen bei dem Schwingungscode-Speicherverfahren ist äquivalent zur Überlagerung der Tonhöhen-Impulssignale bei dem Quellcode-Speicherverfahren. Daher multipliziert der Schwingungsanordnungs- bzw. Positionierungs-Unterblock im Falle des Quellcode-Speicherverfahrens jedes neu positio nierte Tonhöhen-Impulssignal mit der Verstärkung, welche der Tonhöhenimpulsposition des neu angeordneten Tonhöhen impulssignals entspricht und die aus der Verstärkungs information ermittelt wurde, wobei schließlich das gewünschte, synthetische Anregungssignal erhalten wird, indem die hinsichtlich der Verstärkung eingestellten Tonhöhenimpulssignale überlagert werden. Da jedoch die meiste Energie an dem Tonhöhenimpuls konzentriert ist, kann es in diesem Falle möglich sein, das synthetische Anregungssignal zu erzeugen, indem zunächst ein synthe tisches Anregungssignal ohne Verstärkungseinstellung erhalten wird, indem man die positionierten Tonhöhen impulssignale überlagert und indem man dann das synthe tische Anregungssignal ohne Verstärkungseinstellung mit der Energiekontur multipliziert, die an dem Energiesteue rungs-Unterblock erzeugt wurde, anstatt Tonhöhenimpuls signale mit konstanter Verstärkungseinstellung zu über lagern. Fig. 3R zeigt das synthetische Anregungssignal, welches erhalten wird, wenn die Tonhöhenimpulssignale gemäß Fig. 3H, 3K und 3N nach einem solchen Verfahren neu positioniert werden, so daß das Tonhöhenmuster dasselbe wird wie für den Fall gemäß Fig. 3P.

Bei dem Quellcode-Speicherverfahren muß der Schwingungs anordnungs-Unterblock die synthetischen, spektralen Enveloppenparameter erzeugen, wobei zwei Wege möglich sind, nämlich das temporäre Kompressions- und Expansions-Verfahren, welches in Fig. 8A gezeigt ist, und das syn chrone Korrespondenz(Entsprechungs-)Verfahren, welches in Fig. 8B gezeigt ist. Wenn die spektralen Enveloppenpara meter über der Zeit kontinuierliche Funktionen sind und die Enveloppe des Sprachspektrums vollständig darstellen, dann können die synthetischen, spektralen Enveloppenpara meter erhalten werden, indem man die ursprünglichen, spektralen Enveloppenparameter einfach temporär komprimiert oder expandiert, und zwar Untersegment für Untersegment. In Fig. 8A ist der spektrale Enveloppen parameter, der durch das sequentielle Analyseverfahren erhalten wird, als punktierte Kurve dargestellt, während der spektrale Enveloppenparameter, der durch Annäherung der Kurve durch Verbinden verschiedener Punkte, wie z. B. der Punkte A, B, C usw., mit Liniensegmenten codiert wurde, als ausgezogene Linie dargestellt ist. Da aufgrund der temporären Kompression und Expansion lediglich die temporäre Position jedes Punktes variiert wird, wobei sich die Punkte A′, B′, C′ usw. ergeben, ist ein solches Liniensegment-Codierverfahren, besonders für den Fall der temporären Kompression und Expansion geeignet. Im Falle der Anwendung des Block-Analyseverfahrens oder des tonhöhensynchronen Analyseverfahrens kann jedoch das temporäre Kompressions- und Expansions-Verfahren nicht die gewünschte synthetische Klangqualität ergeben, da die spektrale Anpassung nicht exakt ist und die temporäre Veränderung der spektralen Enveloppenparameter diskon tinuierlich ist. Es wird daher bevorzugt, das synchrone Korrespondenzverfahren anzuwenden, bei dem die synthe tischen, spektralen Enveloppenparameter dadurch positio niert werden, daß die spektralen Enveloppenparameter für jedes Tonhöhenperiodenintervall mit jedem entsprechenden Tonhöhenimpulssignal korreliert werden, wie dies in Fig. 8B gezeigt ist. Dies bedeutet, daß die synthetischen, spektralen Enveloppenparameter gewonnen werden können, indem man die spektralen Enveloppenparameter für ein Periodenintervall in demselben Periodenintervall für jedes positionierte Tonhöhenimpulssignal anordnet, weil die Einzelwelle bei dem Schwingungscode-Speicherverfahren äquivalent zu dem Tonhöhenimpulssignal und den korres pondierenden, spektralen Enveloppenparametern für dasselbe Tonhöhenperiodenintervall ist. In Fig. 8B sind k1, bei dem es sich um einen der spektralen Enveloppenparameter handelt, und k′1, bei dem es sich um den k1 entspre chenden, synthetischen, spektralen Enveloppenparameter handelt, in Form einer ausgezogenen Linie bzw. einer punktierten Linien dargestellt, wobei k′1 durch die genannten Verfahren für das Block-Analyseverfahren und das tonhöhensynchrone Analyseverfahren gewonnen wurde. Natürlich kann der synthetische, spektrale Enveloppen parameter auch nach dem Verfahren gemäß Fig. 8A angeordnet werden, wenn er aus dem spektralen Enveloppenparameter durch das sequentielle Analyseverfahren erhalten wurde. Wenn beispielsweise das Tonhöhenimpulssignal für jede Periode so angeordnet wurde, wie dies in Fig. 3R gezeigt ist, dann werden die spektralen Enveloppenparameter für jede Periode in Übereinstimmung mit den Tonhöhenimpuls signalen so angeordnet, wie dies in Fig. 3S gezeigt ist.

Zum Zeitpunkt der Anordnung des synthetischen Anregungs signals und der synthetischen, spektralen Enveloppenpara meter nach dem Quellcode-Speicherverfahren ergibt sich, wenn die Tonhöhenperiode des synthetisierten Klanges länger ist als die ursprüngliche Tonhöhenperiode, ein Leerintervall zwischen zwei benachbarten Tonhöhenperioden intervallen, wie dies in Fig. 8 in schrägen Linien gezeigt ist. Wenn die Tonhöhenperiode des synthetisierten Klanges kürzer ist als die Original-Tonhöhenperiode, ergeben sich Überlappungsintervalle, in welchen sich zwei benachbarte Tonhöhenperiodenintervalle überlappen. Das Überlappungs intervall "fb" und das Leerintervall "gh" sind beispiels weise in Fig. 3R und Fig. 3S eingezeichnet. Wie oben beschrieben, sollen die neu positionierten Tonhöhen impulssignale zum Zeitpunkt der Überlappung überlagert werden. Es ist jedoch vernünftig, wenn die in Über einstimmung mit den Tonhöhenimpulssignalen neu positio nierten, spektralen Enveloppenparameter zum Zeitpunkt der Überlappung gemittelt werden, anstatt überlagert zu werden. Daher wird bezüglich der synthetischen, spektralen Enveloppenparameter unter Berücksichtigung der Leer intervalle und der Überlappungsintervalle folgendes Anordnungsverfahren für das synthetische Anregungssignal angewandt:

Die Abtastwerte mit dem Wert 0 werden zum Zeitpunkt der Anordnung des synthetischen Anregungssignals in das Leerintervall eingesetzt. Im Falle eines stimmhaften Friktionslautes kann ein natürlicherer Klang synthetisiert werden, wenn in das Leerintervall anstelle des Abtast wertes mit dem Wert 0 ein mit Hilfe eines Hochpaßfilters gefiltertes Rauschsignal eingesetzt wird. Die neu positionierten Tonhöhenimpulssignale müssen in dem Überlappungsintervall addiert werden. Da ein solches Additionsverfahren lästig ist, ist es angenehm, ein Rumpfbildungsverfahren anzuwenden, gemäß welchem unter den beiden sich überlappenden Tonhöhenimpulssignalen im Überlappungsintervall nur ein Signal ausgewählt wird. Die Qualität des synthetisierten Klanges wird bei Anwendung des Rumpfbildungsverfahrens nicht signifikant ver schlechtert. In Fig. 3R wurde das Leerintervall "gh" mit Null-Proben gefüllt und in dem Überlappungsintervall "fb" wurde das Tonhöhenimpulssignal des früheren Intervalls ausgewählt. Im Falle des Auftretens einer Überlappung wird also das frühere der beiden einander überlappenden Inter valle jedes der Tonhöhenimpulssignale abgetrennt, und dieses Verfahren ist physikalisch bedeutungsvoller im Vergleich zu dem Verfahren, bei dem die Tonhöhenimpuls signale erzeugt werden, indem man die Segmentierung unmittelbar vor dem Tonhöhenimpuls durchführt, und bei dem zum Zeitpunkt der Synthese des letzteren unter den Ton höhenimpulssignalen im Überlappungsintervall abgetrennt wird, wenn diese Signale sich überlappen, wie vorstehend beschrieben. In der Praxis führt jedoch keines der beiden Verfahren zu einer signifikanten Differenz in der Klangqualität des synthetisierten Klanges.

Zum Zeitpunkt der Anordnung der synthetischen, spektralen Enveloppenparameter ist es ideal, daß das Leerintervall mit den Werten gefüllt ist, welche sich linear von einem Wert des spektralen Enveloppenparameters an dem Endpunkt des vorausgehenden Periodenintervalls bis auf einen Wert des spektralen Enveloppenparameters am Anfangspunkt der folgenden Periode ändern, und wenn sich in dem Über lappungsintervall die spektralen Enveloppenparameter allmählich von dem spektralen Enveloppenparameter der vorangehenden Periode auf denjenigen der folgenden Periode ändern, und zwar durch Verwendung des Interpolations verfahrens, bei dem der Mittelwert der beiden sich überlappenden, spektralen Enveloppenparameter mit Gewichtungswerten erhalten wird, welche sich über der Zeit linear ändern. Da diese Verfahren jedoch mühsam sind, kann das folgende Verfahren verwendet werden, welches bequemer ist und die Klangqualität nicht signifikant ver schlechtert. Nach diesem Verfahren kann für den spektralen Enveloppenparameter in dem Leerintervall der Wert des spektralen Enveloppenparameters am Endpunkt des vorausgehenden Periodenintervalls wiederholt verwendet werden, wie in Fig. 8B, oder es kann der Wert des spektralen Enveloppenparameters am Anfangspunkt des folgenden Periodenintervalls verwendet werden. Außerdem kann der arithmetische Mittelwert der beiden spektralen Enveloppenparameter verwendet werden, oder es können die Werte der spektralen Enveloppenparameter am Endpunkt und am Anfangspunkt des vorausgehenden und des folgenden Periodenintervalls vor und hinter der Mitte des Leer intervalls verwendet werden, wobei die Mitte die Grenze darstellt. Für den spektralen Enveloppenparameter im Überlappungsintervall kann einfach der eine oder andere Teil ausgewählt werden, welcher dem ausgewählten Tonhöhenimpuls entspricht. In Fig. 3S wurden beispiels weise, da das Tonhöhenimpulssignal für das vorausgehende Periodenintervall als das synthetische Anregungssignal in dem Überlappungsintervall "fb" ausgewählt wurde, die Parameterwerte für das vorausgehende Periodenintervall gleichermaßen als synthetische, spektrale Enveloppen parameter ausgewählt. In dem Leerintervall "gh" in Fig. 8B und 3S wurden die Parameterwerte der spektralen Envelop penparameter am Ende des vorangehenden Periodenintervalls wiederholt verwendet. Im Falle von Fig. 3S, wo der spek trale Enveloppenparameter bezüglich der Zeit eine konti nuierliche Funktion ist, führt das Verfahren, bei dem der letzte Wert des vorangehenden Periodenintervalls oder der erste Wert des folgenden Periodenintervalls während des Leerintervalls wiederholt verwendet werden, und das Verfahren, bei dem die beiden Werte während des Leer intervalls linear variiert werden, zu demselben Ergebnis.

Wenn erst einmal alle Elemente, nämlich das synthetische Anregungssignal und die synthetischen, spektralen Envelop penparameter für ein Segment angeordnet sind, glättet der Schwingungsanordnungs-Unterblock normalerweise beide Enden der angeordneten synthetischen, spektralen Enveloppenpara meter unter Anwendung des Interpolationsverfahrens derart, daß die Änderung des spektralen Enveloppenparameters zwischen benachbarten Sprachsegmenten glatt verläuft. Wenn das synthetische Anregungssignal und die synthetischen, spektralen Enveloppenparameter, die in der vorstehend beschriebenen Weise angeordnet wurden, als Anregungssignal bzw. als Filtercoeffizienten in das Synthesefilter des Schwingungsanordnungs-Unterblockes eingegeben werden, dann wird von dem Synthesefilter schließlich der gewünschte synthetische Klang abgegeben. Das synthetische Anregungs signal, welches erhalten wird, wenn die Tonhöhenimpuls signale gemäß Fig. 3H, 3K und 3N derart neu angeordnet werden, daß das Tonhöhenmuster dasselbe ist wie in Fig. 3P, ist in Fig. 3R gezeigt, und die synthetischen, spektralen Enveloppenparameter, die aus den entsprechenden spektralen Enveloppenparametern für eine Periode gemäß Fig. 3G, 3J und 3M zu den Tonhöhenimpulssignalen in dem synthetischen Anregungssignal gemäß Fig. 3R erhalten werden, sind in Fig. 3S gezeigt. Wenn man ein zeit variables Synthesefilter herstellt, welches als Filter coeffizienten die Reflexionscoeffizienten besitzt, die sich gemäß Fig. 3S ändern, und wenn man an dieses Filter als Eingangssignal das synthetische Anregungssignal gemäß Fig. 3R anlegt, dann erhält man den synthetisierten Klang gemäß Fig. 3T, welcher nahezu gleich dem synthetisierten Klang gemäß Fig. 3P ist.

Wenn man nun das Schwingungscode-Speicherverfahren und das Quellcode-Speicherverfahren vergleicht, dann können die beiden Verfahren als im Prinzip identisch angesehen werden. Wenn man jedoch die Sprachsegmente in schlechter Verbindung miteinander verkettet, ergibt sich ein Unter schied, derart, daß es möglich, den glatt verbundenen Klang durch Glätten der spektralen Enveloppenparameter zu synthetisieren, indem man im Falle des Quellcode-Speicher verfahrens das Interpolationsverfahren verwendet, was jedoch im Falle des Schwingungscode-Speicherverfahrens unmöglich ist. Weiterhin benötigt das Quellcode-Speicher verfahren einen kleineren Speicher als das Schwingungs code-Speicherverfahren, da die Schwingung von nur einer Periodenlänge pro Einzelwelle in dem Quellcode-Speicher verfahren gespeichert werden muß, und dieses den Vorteil hat, daß es einfach ist, die Funktion des Syntheseblockes für den stimmhaften Klang und die Funktion des Synthese blockes für den oben beschriebenen stimmlosen Klang zu integrieren. Im Falle der Verwendung des homomorphen Analyseverfahrens kann das Cepstrum oder die Impulsantwort als Satz spektraler Enveloppenparameter bei dem Schwin gungscode-Speicherverfahren verwendet werden, während es bei dem Quellcode-Speicherverfahren praktisch unmöglich ist, das Cepstrum zu verwenden, welches die Berechnung auf Blockbasis erforderlich macht, da die Dauer des Synthese blockes, welcher die Werte der konstanten, synthetischen, spektralen Enveloppenparameter enthält, Block für Block variiert, wie dies an dem synthetischen, spektralen Enveloppenparameter gesehen werden kann, der in Fig. 8B durch eine ausgezogene Linie dargestellt ist. Das Quellcode-Speicherverfahren gemäß der vorliegenden Erfindung verwendet den Tonhöhenimpuls einer Periode als Anregungsimpuls. Dieses Verfahren ist jedoch von dem vorbekannten, regulären Tonhöhenimpuls-Anregungsverfahren verschieden, welches darauf abzielt, den Impuls durch einen Tonhöhenabtastimpuls zu ersetzen, und zwar insofern als gemäß der Erfindung der Tonhöhenimpuls jeder Periode und die spektralen Enveloppenparameter jeder Periode, die dem Tonhöhenimpuls entsprechen, vereinigt werden, um die Einzelschwingung für jede Periode zu erzeugen.

Wie aus der vorstehenden Beschreibung deutlich wird, ist das erfindungsgemäße Verfahren für das Codieren und Decodieren des Sprachsegments des Text-in-Sprache- Synthesesystems des Sprachsegment-Syntheseverfahrens geeignet. Da das erfindungsgemäße Verfahren ferner ein Verfahren ist, bei dem die Gesamtdauer und die Teildauer und die Tonhöhenmuster beliebiger, phonetischer Einheiten, wie Phoneme, Halbsilben, Diphone und Untersegmente etc., welche die Sprache bilden, frei und unabhängig geändert werden können, kann es in einem Sprachgeschwindigkeits änderungssystem oder in einem Zeitskalamodifikationssystem verwendet werden, welches die Sprechgeschwindigkeit in einem konstanten Verhältnis derart ändert, daß sie schneller oder langsamer als die Originalgeschwindigkeit ist, und zwar ohne das Intonationsmuster der Sprache zu ändern. Außerdem kann das Verfahren auch in einem Singstimmensynthesesystem verwendet werden oder in einem sehr langsamen Sprachcodiersystem, wie z. B. einem phonetischen Vocoder oder einem Segmentvocoder, welcher die Sprache überträgt, indem er die Dauer und die Tonhöhe von Schablonen-Sprachsegmenten ändert, die vorab gespeichert werden.

Ein anderer Anwendungsbereich der vorliegenden Erfindung besteht in einem musikalischen Klangsynthesesystem, wie z. B. einem elektronischen Musikinstrument nach dem Abtastverfahren. Da nahezu der gesamte Klang im Bereich elektronischer Musikinstrumente digital schwingungs codiert, gespeichert und reproduziert wird, wenn er über die Tasten usw. aufgerufen wird, ergibt sich bei den bekannten Abtastverfahren für elektronische Musik instrumente der Nachteil, daß für die Speicherung des musikalischen Klanges eine große Menge an Speicherplatz erforderlich ist. Wenn jedoch die periodische Schwingungszerlegung und das Einzelschwingungs- Repositionierungsverfahren gemäß vorliegender Erfindung angewandt werden, dann kann die erforderliche Speicher platzmenge beträchtlich reduziert werden, da die Klänge verschiedener Tonhöhen durch Abtasten der Töne lediglich einiger, weniger Arten von Tonhöhen synthetisiert werden können. Der musikalische Klang besteht typischerweise aus drei Teilen, d. h. einem Anstieg, einem im wesentlichen kontinuierlichen Hauptteil und einem Abfall. Da sich die Spektrum-Enveloppe nicht nur zwischen den drei Teilen allmählich ändert, sondern auch während des Hauptteils, ändert sich auch das Timbre entsprechend. Wenn musika lische Klangsegmente daher nach dem oben beschriebenen Verfahren der periodischen Schwingungszerlegung codiert und gespeichert werden, indem die geeigneten Punkte, an denen sich das Spektrum erheblich ändert, als Grenzzeit punkte gespeichert werden, und wenn der Klang dann nach dem oben beschriebenen Verfahren der Zeitverformung auf der Basis des Einzelschwindungsrepositionierungsverfahrens synthetisiert wird, wenn eine entsprechende Anforderung von der Tastatur usw. eintrifft, dann kann ein musika lischer Klang mit beliebiger, erwünschter Tonhöhe synthetisiert werden. In den Fällen, in denen ein musikalisches Klangsignal jedoch nach dem linearen, vorhersagenden Analyseverfahren entfaltet wird, wird wegen der Tendenz, daß die exakte, spektrale Enveloppe nicht erhalten wird und daß der Tonhöhenimpuls nicht scharf ist, empfohlen, die Anzahl der für die Analyse verwendeten, spektralen Enveloppenparameter und die Differenz des Signals vor der Analyse zu reduzieren.

Obwohl die Erfindung vorstehend in ihrer bevorzugten Ausführungsform mit einer gewissen Ausführlichkeit beschrieben wurde, versteht es sich für den Fachmann, daß es sich bei der beschriebenen Ausgestaltung lediglich um ein bevorzugtes Ausführungsbeispiel handelt, und daß zahlreiche Möglichkeiten für Änderungen und/oder Ergänzungen bestehen, ohne daß dabei der Grundgedanke der Erfindung verlassen werden müßte.

Claims

1. Sprachsegmentcodierverfahren zur Verwendung in einem Sprachsynthesesystem, gekennzeichnet durch folgende Merkmale:
Es werden Einzelschwingungen gebildet, indem Parameter gewalten werden, welche in einem Analysezeitintervall eine spektrale Enveloppe darstellen, und zwar durch Analysieren eines periodischen oder quasi-periodischen digitalen Signals unter Verwendung einer Spektrum-Abschätzungstechnik, durch Entfalten des Original-Signals in eine Impulsantwort, die durch die spektralen Enveloppenparameter dargestellt wird, und in ein periodisches oder quasi-periodisches Tonhöhen-Impulsfolgesignal, welches eine nahezu flache, spektrale Enveloppe hat, und durch Falten eines Erregungssignals, welches erhalten wird, indem man hinter einem Tonhöhenimpulssignal für eine Periode, die durch Segmentieren des Tonhöhen-Impulsfolgesignals erhalten wird, für jede Periode Abtastwerte mit dem Wert 0 anhängt, so daß in jeder Periode ein Tonhöhen impuls enthalten ist, sowie einer Impulsantwort, die den spektralen Enveloppenparametern in demselben Zeit intervall wie das Anregungssignal entspricht; und für die Einzelschwingungen jeder Periode wird eine Schwingungscodierung durchgeführt, die codierten Werte werden in einem Speicher gespeichert und die Einzel schwingungen werden zum Zeitpunkt der Sprachsynthese decodiert, wobei die Dauer und die Tonhöhenfrequenz eingestellt werden, indem den Einzelschwingungen geeignete Zeitpunkte derart zugeordnet werden, daß sie das gewünschte Tonhöhenmuster haben, und wobei die Einzelschwingungen an den genannten Zeitpunkten positioniert und zum Synthetisieren von Sprache überlagert werden.

2. Sprachsegmentcodierverfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Einzelschwingungen erzeugt werden, indem man die Information, welche durch die Schwingungscodierung eines Tonhöhenimpulssignals für jede der durch Segmentierung erhaltenen Perioden an die Information anpaßt, die man durch Codieren eines Satzes von spektralen Enveloppenabschätzungsparametern einer Periode desselben Zeitintervalls erhält, und die Information in den Speichereinrichtungen speichert und daß zum Zeitpunkt der Synthese Einzelschwingungen erzeugt werden, indem man ein Anregungssignal, welches durch das Anhängen von Null-Abtastwerten nach einem Tonhöhenimpulssignal einer Periode erhalten wird, welches durch Decodieren der genannten Information und einer Impulsantwort erhalten wird, mit den decodier ten, spektralen Enveloppenparametern im gleichen Zeitintervall wie das Anregungssignal faltet.

3. Sprachsegmentcodierverfahren nach Anspruch 2, dadurch gekennzeichnet, daß der synthetische Sprachklang zum Zeitpunkt der Synthese erzeugt wird, indem ein synthe tisches Anregungssignal, welches gebildet wird, indem man Tonhöhenimpulssignale, die durch Decodieren der Information erhalten wurden, geeigneten Zeitpunkten derart zuordnet, daß sie das gewünschte Tonhöhenmuster haben, und sie an den Zeitpunkten anordnet, wobei ein Leerintervall, welches auftritt, wenn eine gewünschte Tonhöhenperiode länger ist als eine Original-Tonhöhen periode, mit Null-Abtastwerten gefüllt wird, und wobei in einem Überlappungsintervall, welches auftritt, wenn die gewünschte Tonhöhenperiode kürzer ist als die Original-Tonhöhenperiode, die einander überlappenden Tonhöhenimpulssignale zueinander addiert oder eines dieser Signale auswählt, mit einer zeitvariablen Impulsantwort faltet, die einem Satz von synthe tischen, spektralen Enveloppenparametern entspricht, und welche gebildet wird, indem man entweder den Satz von Zeitfunktionen dieser Parameter auf einer Schritt-für-Schritt-Basis komprimiert oder expandiert, und zwar in Abhängigkeit davon, ob die Dauer eines nachfolgenden Untersegments in einem zu synthetisie renden Sprachsegment kürzer oder länger ist als ein entsprechendes Untersegment in dem Original-Sprach segment, oder indem man den Satz von Zeitfunktionen dieser Parameter für eine Periode synchron mit dem darauf abgestimmten Tonhöhenimpulssignal einer Periode positioniert, welches so angeordnet wird, daß das synthetische Anregungssignal gebildet wird, wobei im zuletzt betrachteten Fall ein synthetischer, spektra ler Enveloppenparameter in dem Leerintervall erhalten wird, indem man den Wert des spektralen Enveloppen parameters am Endpunkt der vorangehenden Periode wiederholt oder den Wert des spektralen Enveloppen parameters am ersten Punkt der folgenden Periode, oder indem man einen Mittelwert dieser beiden Werte verwen det, oder indem man das Leerintervall mit Werten füllt, die diese beiden Werte glatt miteinander verbinden, oder indem man die Werte des spektralen Enveloppenparameters an dem Ende der vorausgehenden Periode und die ersten Punkte der folgenden Perioden vor und hinter dem Mittelpunkt des Leerintervalls wiederholt, wobei der synthetische, spektrale Enveloppenparameter in dem Überlappungsintervall erhalten wird, indem man einen der einander über lappenden spektralen Enveloppenparameter auswählt oder indem man einen Mittelwert der beiden sich überlappen den Parameter verwendet.

4. Tonhöhensteuerverfahren für ein Sprachsynthesesystem, gekennzeichnet durch folgende Merkmale:
Die Dauer und Tonhöhe eines Sprachsegments werden gleichzeitig nach einem Verfahren der Einzel wellenrepositionierung auf der Basis der Zeitverfor mung durch Codieren der Grenzzeitpunkte, einschließ lich des Anfangspunktes, des Endpunktes und eines einem stetigen Zustand zugeordneten Punktes in dem Sprachsignal und durch Codieren der Tonhöhenimpuls positionen jeder Einzelschwingung oder eines Tonhöhenimpulssignals einer Periode und durch Speichern der codierten Werte gleichzeitig mit der Speicherung jedes Sprachsegmentes gesteuert; und
zum Zeitpunkt der Synthese wird eine Zeitverformungs funktion erhalten, indem man die gewünschten Grenz zeitpunkte und die gespeicherten Original-Grenz zeitpunkte vergleicht, die den gewünschten Grenzzeit punkten entsprechen, indem die Original-Zeitpunkte herausgefunden werden, die jeder gewünschten Ton höhenimpulsposition entsprechen, und zwar unter Verwendung der Zeitverformungsfunktion, indem man die Einzelwellen auswählt, welche Tonhöhenimpulspositionen haben, die den Original-Zeitpunkten am nächsten benachbart sind, und indem man sie an den gewünschten Tonhöhenimpulspositionen anordnet und die Einzel schwingungen überlagert.

5. Tonhöhensteuerverfahren für ein Sprachsynthesesystem nach Anspruch 4, dadurch gekennzeichnet, daß außerdem synthetische Sprache erzeugt wird, indem Tonhöhenim pulssignale einer Periode und spektrale Enveloppen parameter ausgewählt werden, die den Tonhöhenimpuls signalen entsprechen und diese positioniert werden, und indem man das positionierte Tonhöhenimpulssignal und die Impulsantwort faltet, die den spektralen Enveloppenparametern entspricht, um Einzelschwingungen zu erzeugen, die dann überlagert werden.

6. Tonhöhensteuerverfahren für ein Sprachsynthesesystem nach Anspruch 4, dadurch gekennzeichnet, daß synthetische Sprache erzeugt wird, indem man Tonhöhenimpulssignale einer Periode und spektrale Enveloppenparameter, welche diesen Tonhöhensignalen entsprechen, auswählt und sie positioniert und indem man ein synthetisches Anregungssignal, welches durch Überlagerung der positionierten Tonhöhenimpulssignale nach dem Verfahren gemäß Anspruch 3 erhalten wird und eine zeitvariable Impulsantwort faltet, die synthe tischen, spektralen Enveloppenparametern entspricht, die erzeugt werden, indem man die positionierten, spektralen Enveloppenparameter nach dem Verfahren gemäß Anspruch 3 miteinander verkettet.

7. Einrichtung zum Synthetisieren stimmhafter Sprache zur Verwendung in einem Sprachsynthesesystem, gekennzeich net durch folgende Merkmale:
Es ist ein Decodier-Unterblock (9) vorgesehen, welcher durch Decodieren von Einzelschwingungscodes aus dem Sprachsegmentspeicherblock (5) eine Einzelschwingungs information erzeugt;
es ist ein Dauersteuerungs-Unterblock (10) vorgesehen, welcher aus eingegebenen Dauerdaten von einem Vorläu fererzeugungs-Untersystem (2) und aus Grenzzeitpunk ten, die in einer Kopfinformation aus dem Sprachseg mentspeicherblock (5) enthalten sind, eine Zeitverfor mungsinformation erzeugt;
es ist ein Tonhöhensteuerungs-Unterblock (11) vorgesehen, welcher eine Tonhöhenimpulspositions information derart erzeugt, daß sie ein Intonations muster hat, wie es von Intonationsmusterdaten in der als Eingangssignal verwendeten Kopfinformation von dem Sprachsegmentspeicherblock (5), von Intonationsmuster daten von dem Vorläufererzeugungs-Untersystem und von der Zeitverformungsinformation aus dem Dauersteue rungs-Unterblock (10) angegeben wird;
es ist ein Energiesteuerungs-Unterblock (12) vorge sehen, welcher Verstärkungsinformationen in der Weise erzeugt, daß die synthetisierte Sprache ein Betonungs muster aufweist, wie es angezeigt wird durch die Betonungsmusterdaten vom Eingang der Betonungsmuster daten, von dem Vorläufererzeugungs-Untersystem (2), von der Zeitverformungsinformation von dem Dauersteue rungs-Unterblock (10) und von der Tonhöhenimpuls positionsinformation von dem Tonhöhensteuerungs- Unterblock (11); und
es ist ein Schwingungsanordnungs-Unterblock (13) vorgesehen, welcher ein stimmhaftes Sprachsignal erzeugt aus Eingangsinformationen über die Einzel schwingungsinformationen von dem Decodier-Unterblock (9), über die Zeitverformungsinformationen von dem Dauersteuerungs-Unterblock (10), über die Tonhöhen impulsinformationen von dem Tonhöhensteuerungs- Unterblock (11) und über die Verstärkungsinformationen von dem Energiesteuerungs-Unterblock (12).