AT400646B

AT400646B - Sprachsegmentkodierungs- und tonlagensteuerungsverfahren für sprachsynthesesysteme und synthesevorrichtung

Info

Publication number: AT400646B
Application number: AT0219292A
Authority: AT
Original assignee: Korea Telecommunication
Priority date: 1991-11-06
Filing date: 1992-11-06
Publication date: 1996-02-26
Also published as: ATA219292A; FR2683367A1; GR920100488A; DK134192D0; PT101037A; LU88189A1; ES2037623R; DE4237563C2; KR940002854B1; IT1258235B; GB2261350A; DE4237563A1; US5617507A; NL9201941A; ES2037623B1; DK134192A; ITMI922538A0; CA2081693A1; SE9203230L; SE9203230D0

Description

AT 400 646 B

Die Erfindung betrifft ein Sprachsynthesesystem und ein Verfahren zum Synthetisieren von Sprache, und im spezielleren ein Sprachsegmentkodierungs- und Tonlagensteuerungsverfahren, das die Qualität der synthetisierten Sprache wesentlich verbessert.

Das Prinzip der vorliegenden Erfindung kann direkt nicht nur auf Sprachsynthese angewendet werden, sondern auch auf die Synthese anderer Klänge, wie den Klängen von Musikinstrumenten oder Gesang, von denen jedes eine der von Sprache ähnliche Eigenschaft aufweist, oder auf Sprachkodierung mit sehr niedriger Rate bzw. Geschwindigkeit oder Sprachgeschwindigkeits- bzw. Sprachratenumwandlung. Die vorliegende Erfindung wird unten unter Konzentration auf Sprachsynthese beschrieben.

Es gibt Sprachsyntheseverfahren zum Ausführen eines Text-zu-Sprache-Synthesesystems, das zahllose Vokabeln synthetisieren kann, indem Text, das heißt Zeichenfolgen, in Sprache umgewandelt wird. Jedoch ist ein Verfahren, das leicht auszuführen ist und am weitestverbreiteten verwendet wird, das Sprachseg-mentsyntheseverfahren, auch als Synthese-durch-Verknüpfung-Verfahren bezeichnet, bei dem die menschliche Sprache in Abschnitte zerlegt bzw. abgetastet und in phonetische Einheiten wie Halbsiiben oder Diphone analysiert wird, um kurze Sprachsegmente zu erhalten, die dann kodiert und im Speicher gespeichert werden; wenn der Text eingegeben wird, wird er in phonetische Transkriptionen umgewandelt. Den phonetischen Transkriptionen entsprechende Sprachsegmente werden dann aus dem Speicher sequentiell abgerufen und dekodiert, um die dem eingegebenen Text entsprechende Sprache zu synthetisieren.

Bei diesem Typ von Segmentsprachsyntheseverfahren besteht eines der wichtigsten Elemente zur Regulierung der Qualität der synthetisierten Sprache im Kodierungsverfahren der Sprachsegmente. Bei Sprachsegmentsyntheseverfahren des Sprachsynthesesystems nach dem Stand der Technik wird ein Sprachverschlüsselungsverfahren mit geringer Sprachqualität hauptsächlich als das Sprachkodierungsver-fahren zum Speichern von Sprachsegmenten verwendet. Das ist jedoch eine der wichtigsten Ursachen, die die Qualität synthetisierter Sprache verringern. Eine kurze Beschreibung bezüglich des Sprachsegmentko-dierungsverfahrens nach dem Stand der Technik folgt.

Das Sprachkodierungsverfahren kann allgemein in ein Wellenformkodierungsverfahren mit guter Sprachqualität und ein Sprachverschlüsselungsverfahren mit geringer Sprachqualität klassifiziert Herden. Da das Wellenformkodierungsverfahren ein Verfahren ist, mit dem die Sprachwellenform übertragen werden soll, wie sie ist, ist es sehr schwierig, die Tonlagenfrequenz und -dauer zu ändern, sodaß es unmöglich ist, die Intonation und Sprachrate bzw. -geschwindigkeit einzustellen, wenn die Sprachsynthese durchgeführt wird. Es ist auch unmöglich, die Sprachsegmente dazwischen glatt miteinander zu verknüpfen, sodaß das Wellenformkodierungsverfahren grundsätzlich nicht zum Kodieren der Sprachsegmente geeignet ist.

Wenn im Gegensatz dazu das Sprachverschlüsselungsverfahren (auch als ein Analyse-Synthese-Verfahren bezeichnet) verwendet wird, können das Tonlagenmuster und die Dauer des Sprachsegments willkürlich verändert werden. Des weiteren werden, da die Sprachsegmente auch glatt miteinander verknüpft werden können, durch Interpolation der Spektralhüllschätzparameter, sodaß das Sprachverschlüsselungs-verfahren für die Kodiereinrichtung zur Text-zu-Sprache-Synthese geeignet ist, Sprachverschlüsselungsver-fahren, wie das lineare Vorhersage-Kodierungs(LPC)-Verfahren oder die Formant-Sprachverschlüsselung, in den meisten gegenwärtigen Sprachsynthesesystemen verwendet. Da jedoch die Qualität von dekodierter Sprache gering ist, wenn die Sprache unter Verwendung des Sprachverschlüsselsungsverfahrens kodiert wird, kann die durch Dekodieren der gespeicherten Sprachsegmente und ihr Verknüpfen erhaltene synthetisierte Sprache keine bessere Sprachqualität aufweisen, als sie das Sprachverschlüsselungsverfahren bietet.

Bei bisher unternommenen Versuchen, die durch das Sprachverschlüsselungsverfahren gebotene Sprachqualität zu verbessern, wird die verwendete Impulsserie durch ein Erregungssignal ersetzt, das eine weniger künstliche Wellenform aufweist.

Ein derartiger Versuch bestand darin, eine Wellenform mit geringeren Peaks bzw. geringerer Spitzigkert als jenen des Impulses zu verwenden, beispielweise eine dreieckige Wellenform oder eine halbkreisförmige Wellenform oder eine einem Giottalpuls ähnliche Wellenform. Ein weiterer Versuch bestand darin, einen Probentonlagenpuls aus einer oder einigen durch Umkehrfilterung erhaltenen Restsignaltonlagenperioden auszuwählen und anstelle des Impulses einen Probenpuls für die gesamte Zeitperiode oder für eine wesentlich lange Zeitperiode zu verwenden. Jedoch haben derartige Versuche, den Impuls durch einen Erregungspuls oder andere Wellenformen zu ersetzen, die Sprachqualität nicht verbessert oder sie nur leicht, wenn überhaupt, verbessert, und haben nie synthetisierte Sprache mit einer Qualität erzielt, die jener von natürlicher Sprache nahe kommt.

Die EP-0 140 777 A1 beschreibt den Einsatz von Sprachsynthese, um von einem geschriebenen Text eine niedrige Bitrate zu erhalten. Das Sprachkodierungsverfahren besteht darin, eine Kodierung einer geschriebenen Version einer zu kodierenden Botschaft zu bewirken, und ist dadurch gekennzeichnet, daß es außerdem das Kodieren der gesprochenen Version derselben Botschaft und das Kombinieren des Codes 2

AT 400 646 B der von der gesprochenen Botschaft genommenen Intonationsparameter mit den Codes der geschriebenen Botschaft umfaßt. ;·ΐ*ίΐ ' Ri iaitifi “fl

Das Ziel der EP-0 139 419 A1 ist die Erzeugung von synthetischer Sprache mit solcher Klarheit und hohen Qualität, daß sie der natürlichen Sprache sehr nahe kommt, durch Modifizierung der prosodischen 5 Parameter variabler Phoneme als Funktion des Vorhandenseins der beeinflussenden Phoneme, die nahe dem variablen Phonem angeordnet sind, als auch jener, die unmittelbar vor oder nach dem variablen Phonem angeordnet sind.

Die Hauptidee der Sprachsynthese gemäß der EP-0 481 107 A1 ist die Anwendung der wohlbekannten HMM (Hidden Markov Model)-Technik, die auf dem Gebiet der automatischen Spracherkennung weit το verbreitet verwendet wird, auf Sprachsynthesesysteme.

Es ist ein Ziel der vorliegenden Erfindung, qualitativ hochwertige Sprache zu synthetisieren, die eine Natürlichkeit und eine Verständlichkeit im gleichen Ausmaß wie die menschlicher Sprache aufweist, indem ein neues Sprachsegmentkodierungsverfahren verwendet wird, das gute Sprachqualität und Tonlagensteuerung ermöglicht. Das erfindungsgemäße Verfahren kombiniert die Vorteile des Weilenformkodierungsverfah-75 rens, das gute Sprachqualität schafft, aber ohne die Möglichkeit, die Tonlage zu steuern, mit dem Sprachverschlüsselungsverfahren, das Tonlagensteuerung bietet, aber geringe Sprachqualität aufweist.

Die vorliegende Erfindung verwendet ein periodisches Wellenformzeriegungsverfahren, das ein Kodierungsverfahren ist, das ein Signal in einem stimmhaften Lautabschnitt in der Originalsprache in Teilwellen zerlegt, die durch Glottalpulse hergestellten Einperiodensprachwelienformen äquivalent sind, um das 20 zerlegte Signal zu kodieren und zu speichern, und ein auf Zeitverzerrung basierendes Teilwellenverschie-bungs- bzw. Neuadressierungsverfahren, das ein Wellenformsyntheseverfahren ist, das zur willkürlichen Anpassung der Dauer und Tonlagenfrequenz des Sprachsegments unter Beibehaltung der Qualität der Originalsprache fähig ist, in dem Teilwellen ausgewählt werden, die den Positionen am nächsten sind, wo Teilwellen unter gespeicherten Teilwellen anzuordnen sind, und die gewählten Teilwellen dann dekodiert 25 und überlagert werden. Zum Zweck der vorliegenden Erfindung werden Musikklänge wie stimmhafte Laute behandelt.

Das vorangegangene Ziel sollte als nur einige der vorstechenden Merkmale und Anwendungen der Erfindung darlegend verstanden werden. Viele andere positive Ergebnisse können durch Anwenden der geoffenbarten Erfindung auf eine andere Weise oder Modifizieren der Erfindung innerhalb des Schutzum-30 fangs der Offenbarung erzielt werden.

Demgemäß können andere Ziele und ein umfassenderes Verständnis der Erfindung durch Bezugnahme sowohl auf die Zusammenfassung der Erfindung, als auch auch die detaillierte Beschreibung unten erfaßt werden, die, in Verbindung mit den bei liegenden Zeichnungen betrachtet, die bevorzugte Ausführungsform zusätzlich zum durch die Ansprüche definierten Schutzumfang der Erfindung beschreibt. 35

ZUSAMMENFASSUNG DER ERFINDUNG

Sprachsegmentkodierungs- und Tonlagensteuerungsverfahren für Sprachsynthesesysteme gemäß vorliegender Erfindung werden von den Ansprüchen definiert, wobei spezifische Ausführungsformen in den bei 40 liegenden Zeichnungen gezeigt werden. Zum Zweck der Zusammenfassung der Erfindung betrifft die Erfindung ein Verfahren, das fähig ist, Sprache zu synthetisieren, die der Qualität natürlicher Sprache nahe kommt, indem ihre Dauer und Tonlagenfrequenz durch Wellenform-Kodierungs-Teilwellen einer jeden 1 Periode eingestellt wird, sie im Speicher gespeichert werden und sie zum Zeitpunkt der Synthese dekodiert und an geeigneten Zeitpunkten angeordnet werden, sodaß sie das gewünschte Tonlagenmuster aufweisen, 45 und sie dann überlagert werden, um natürliche Sprache, Gesang, Musik und ähnliches zu erzeugen.

Die vorliegende Erfindung umfaßt ein Sprachsegmentkodierungsverfahren zur Verwendung bei einem Sprachsynthesesystem, wobei das Verfahren das Bilden von Teilwellen durch das Ermitteln von Parametern umfaßt, die eine Spektralhülle in jedem Analysezeitintervall darstellen. Das wird durch Analysieren eines periodischen oder quasiperiodischen digitalen Signals wie stimmhafter Sprache durch die Spektralbewer- # so tungstechnik gemacht. Ein Originalsignal wird zeurst in eine Impulsreaktion bzw. -antwort transformiert, die von den Spektralhüllparametern und einer periodischen oder quasiperiodischen Tonlagenpulssignalserie mit ® einer beinahe flachen Spektralhülle dargestellt wird. Ein Erregungssignal, das erhalten wird durch Anhängen von Proben bzw. Abtastungen mit Nullwert nach einem Tonlagenpulssigna! von einer Periode, das durch Segmentieren des Tonlagenpulsseriensignals Periode für Periode erhalten wird, sodaß ein Tonlagenpuls in 55 jeder Periode enthalten ist, und eine einem Satz von Spektralhüilparametem im gleichen Zeitintervall wie das Erregungssignal entsprechende Impulsreaktion werden gefaltet, um eine Teilwelle für diese Periode zu ' % bilden.

3

AT 400 646 B

Die Teilwellen werden nicht im vorhinein durch Wellenform kodieren gebildet und im Speicher gespeichert, sondern können durch Verknüpfung von Information, die erhalten wird durch Wellenformkodieren eines Tonlagenpulssignals eines jeden Periodenintervalls, erhalten durch Segmentation, mit Information gebildet werden, die durch Kodieren eines Satzes von Spektralhüllbestimmungsparametem mit dem gleichen Zeitintervall wie die obige Information erhalten wird, oder mit einer Impulsreaktion, die den Parametern entspricht, und Speichern der Teilwelleninformation im Speicher. Es gibt zwei Verfahren zum Erzeugen synthetischer Sprache unter Verwendung der im Speicher gespeicherten Teilwelieninformation. Das erste Verfahren besteht darin, jede Teiiwelle durch Falten eines Erregungssignals zu bilden, das durch Anhängen von Proben mit Nullwert nach einem Tonlagenpulssignal von einer Periode erhalten wird, das durch Dekodieren der Information und einer Impulsreaktion erhalten wird, die den dekodierten Spektralhüllparametern im gleichen Zeitintervall wie das Erregungssignal entspricht, und dann die Teilwellen geeigneten Zeitpunkten zuzuordnen, sodaß sie ein gewünschtes Tonlagenmuster und Dauermuster aufweisen, sie an den Zeitpunkten anzuordnen und sie dann zu überlagern.

Das zweite Verfahren besteht darin, ein synthetisches Erregungssignal zu bilden, indem die durch Dekodieren der Teilwelleninformation erhaltenen Tonlagenpulssignale geeigneten Zeitpunkten zugeordnet werden, sodaß sie ein gewünschtes Tonlagenmuster und Dauermuster aufweisen, und sie an den Zeitpunkten angeordnet werden, und einen Satz synthetischer Spektralhüllparameter zu bilden, entweder durch temporäres Komprimieren oder Expandieren des Satzes von Zeitfunktionen der Parameter auf einer Untersegment-für-Untersegment-Basis, je nachdem, ob die Dauer eines Untersegments in einem zu synthetisierenden Sprachsegment jeweils kürzer oder länger als die eines entsprechenden Subsegments im Originalsprachsegment ist, oder durch Festlegung des Satzes von Zeitfunktionen der Parameter einer Periode synchron mit dem verknüpften Tonlagenpulssignal von einer Periode, die angeordnet ist, um das synthetische Erregungssignal zu bilden, und das synthetische Erregungssignal und eine Impulsreaktion, die dem synthetischen Spektralhüllparameterset entspricht, unter Einsatz eines zeitvariierenden Filters oder unter Verwendung einer Schnellfalttechnik auf FFT(Fast Fourier Transform)-Basis zu falten. Beim letzteren Verfahren tritt eine Austastlücke auf, wenn eine gewünschte Tonlagenperiode länger ist als die ursprüngliche Tonlagenperiode, und ein Überlappungsintervall tritt auf, wenn die gewünschte Tonlagenperiode kürzer als die ursprüngliche Tonlagenperiode ist.

Beim Überlappungsintervali wird das synthetische Erregungssignal durch Addieren der überlappten Tonlagenpulssignale zueinander oder durch Auswählen von einem davon erhalten, und der Spektralhüiipara-meter wird durch Auswählen entweder eines der überlappten Spektralhüllparameter oder durch Verwendung eines Durchschnittswertes der beiden überlappten Parameter erhalten.

In der Austastlücke wird das synthetische Erregungssignal erhalten, indem sie mit Proben mit Nullwert gefüllt wird, und der synthetische Spektralhüllparamter wird erhalten, indem die Werte der Spektralhüllpa-ramter an den Beginn- und Endpunkten des der vorhergehenden und folgenden Perioden vor und nach dem Zentrum der Austastlücke wiederholt werden, oder indem einer der beiden Werte oder ein Durchschnittswert der beiden Werte wiederholt wird, oder indem sie mit Werten gefüllt wird und die beiden Werte glatt verbunden werden.

Die vorliegende Erfindung umfaßt weiters ein Tonlagensteuerverfahren eines Sprachsynthesesystems, das fähig ist, die Dauer und Tonlage eines Sprachsegments durch ein Teilwellenverschiebungsverfahren auf Zeitverzerrungsbasis zu steuern, das es möglich macht, Sprache mit beinahe der gleichen Qualität wie der von natürlicher Sprache zu synthetisieren, indem wichtige Grenzzeitpunkte wie der Beginnpunkt, der Endpunkt und die Stabilzustandspunkte, in einem Sprachsegment und die Tonlagenpulspositionen einer jeden Teilwelle oder jeden Toniagenpulssignals kodiert werden, und sie gleichzeitig zur Zeit der Speicherung eines jeden Sprachsegments im Speicher gespeichert werden, und zur Zeit der Synthese eine Zeitverzerrungsfunktion durch Vergleich gewünschter Grenzzeitpunkte und ursprünglicher Grenzzeitpunkte erhalten werden, die den gewünschten Grenzzeitpunkten entsprechend gespeichert sind, unter Verwendung der Zeitverzerrungsfunktion die ursprünglichen Zeitpunkte herausgefunden werden, die jeder gewünschten Tonlagenpulsposition entsprechen, Teilwellen ausgewählt werden, die Tonlagenpulspositionen aufweisen, die den ursprünglichen Zeitpunkten am nächsten sind, und sie an gewünschten Tonlagenpulspositionen angeordnet werden und die Teilwellen überlagert werden.

Das Tonlagensteuerverfahren kann weiters das Erzeugen synthetischer Sprache durch das Auswahlen von Tonlagenpulssignalen einer Periode und den Tonlagenpulssignalen entsprechenden Spektralhüllparametern anstelle der Teilwellen umfassen, sowie ihr Lokalisieren und das Falten der lokalisierten Tonlagenpulssignale und der den Spektralhüllparametern entsprechenden Impulsreaktion, um Teilwellen zu erzeugen, und das Überlagern der erzeugten Teilwellen, oder das Falten eines durch überlagern der lokalisierten Tonlagenpulssignale erhaltenen synthetischen Erregungssignals und einer Zeitvarianten Impulsreaktion, die einem synthetischen Spektralhüllparameter entspricht, der durch Verknüpfen der lokalisierten Spektralhüil- 4

AT 400 646 B

iv;, i"S1 Jlftl i'i’""

Parameter erhalten wurde. Eine Vorrichtung zur Synthese stimmhafter Sprache eines Sprachsynthesesystems wird geoffenbart und umfaßt einen Dekodierungsunterblock 9. der Teilwelleninformation erzeugt, indem er Teilwellencodes vom Sprachsegmentspeicherblock 5 dekodiert. Ein Dauersteuerungsunterblock 10 erzeugt Zeitverzerrungsdaten aus dem Eingang an Dauerdaten von einem Prosodics-Erzeugungssubsystem 2 und in Headerinformation enthaltenen Grenzzeitpunkte vom Sprachsegmentspeicherblock 5. Ein Tonlagensteuerungssubblock 11 erzeugt Tonlagenpulspositionsinformation, sodaß er ein Intonationsmuster, wie durch Intonationsmusterdaten vom Eingang der Headerinformation vom Sprachsegmentspeicherblock 5, den Intonationsmusterdaten vom Prosodieserzeugungssubsystem und der Zeitverzerrungsinformation vom Dauersteuerungssubblock 10 angegeben, aufweist. Ein Energiesteuersubblock 12 erzeugt Verstärkungsinformation, sodaß synthetisierte Sprache das Betonungsmuster, wie durch Betonungsmusterdaten vom Eingang der Betonungsmusterdaten vom Prosodieserzeugungssubsystem 2, der Zeitverzerrungsinformation vom Dauersteuerungssubbiock 10 und der Tonlagenpulspositionsinformation vom Tonlagensteuerungssubblock 11 angegeben, aufweist. Ein Wellenformanordnungssubblock 13 erzeugt ein stimmhaftes Sprachsignal aus dem Eingang der Teilwelleninformation vom Dekodierungssubblock 9, der Zeitverzerrungsinformation vom Dauersteuerungssubbiock 10, der Tonlagenpulspositionsinformation vom Tonlagensteuerungssubblock 11 und der Verstärkungsirjför-mation vom Energiesteuerungssubbiock 12. So wird gemäß vorliegender Erfindung Text in das phonetische Vorverarbeitungssubsystem 1 eingegeben, wo er in phonetische transkriptive Symbole und syntaktische Analysedaten umgewandelt wird. Die syntaktischen Analysedaten werden an ein Prosodieserzeugungssubsystem 2 abgegeben. Das Prosodieserzeugungssubsystem 2 gibt Prosodicinformation an das Sprachsegmentverknüpfungssubsystem 3 ab. Der phonetische transkriptive Symbolausgang vom Vorverarbeitungssubsystem wird ebenfalls in das Sprach-segmentverknüpfungssubsystem 3 abgegeben. Die phonetischen transkriptiven Symbole werden dann In den Sprachsegmentselektionsblock 4 eingegeben, und die entsprechenden prosodischen Daten werden in den Syntheseblock 6 für stimmhaften Laut und in den Syntheseblock 7 für nicht stimmhaften Laut eingegeben. Im Sprachsegmentselektionsblock 4 wird jedes eingegebene phonetische transkriptive Symbol mit einer entsprechenden Sprachsegmentsyntheseeinheit gepaart, und eine Speicheradresse der gepaarten Syntheseeinheit, die jedem eingegebenen phonetischen transkriptiven Symbol entspricht, wird aus einer Sprachsegmenttabelle im Sprachsegmentspeicherblock 5 herausgefunden. Die Adresse der gepaarten Syntheseeinheit wird dann an den Sprachsegmentspriecherblock 5 abgegeben, wo das entsprechende Sprachsegment in kodierter Teilwellenform für jede der Adressen der gepaarten Syntheseeinheiten ausgewählt wird. Das ausgewählte Sprachsegment in kodierter Teilwellenform wird für stimmhaften Laut an den Syntheseblock 6 für stimmhaften Laut und für nicht stimmhaften Laut an den Syntheseblock 7 für nicht stimmhaften Laut abgegeben. Der Syntheseblock 6 für stimmhaften Laut, bei dem das Teilwellenverschiebungsverfahren auf Zeitverzerrungsbasis zum synthetisieren von Sprachklang verwendet wird, und der Syntheseblock 7 für nicht stimmhaften Laut geben an den Digital-Analog-Umsetzer zum Umwandeln der Eingangsdigitalsignale in Analogsignale, welche die synthetisierten Sprachklänge sind, digitale synthetische Sprachsignale ab. Um die vorliegende Erfindung zu verwenden, wird zuerst Sprache und/oder Musik auf Magnetband aufgezeichnet. Der resultierende Klang wird dann durch Tiefpaßfiltern der Analogsignale und anschließendem Zuführen der gefilterten Signale zu einem Analog-Digital-Umsetzer aus Analogsignalen in Digitalsignale umgewandelt. Die resultierenden digitalisierten Sprachsignale werden dann in eine Anzahl von Sprachseg* menten segmentiert, die Klänge aufweisen, die Syntheseeinheiten entsprechen, wie Phoneme, Diphone, Halbsilben und ähnliches, wobei bekannte Sprachaufbereitungsgeräte verwendet werden. Jedes resultieren* de Sprachsegment wird dann in stimmhafte und nicht stimmhafte Sprachsegmente differenziert, wob« bekannte, stimmhaft/nicht stimmhaft, Feststellungsgeräte und Sprachaufbereitungsgeräte verwendet werden. Die nicht stimmhaften Sprachsegmente werden nach bekannten Sprachverschlüsselungsverfahren kodiert, die weißes Rauschen als eine Quelle für nicht stimmhafte Sprache verwenden. Die Sprachver-schlüsselungsverfahren umfassen LPC, homomorphe, Formant-Sprachverschlüsselungsverfahren und ähnS-che. Die stimmhaften Sprachsegmente werden verwendet, um Teilwellen sj(n) gemäß dem unten in Figur 4 geoffenbarten Verfahren zu bilden. Die Teilwellen sj(n) werden dann unter Verwendung eines geeigneten Wellenformkodierungsverfahrens kodiert. Bekannte Wellenformkodierungsverfahren umfassen Pulscode-Modulation (PCM), adaptive differentielle Pulscode-Modulation (ADPCM), adaptive Vorraussage-Codierung (APC) und ähnliches. Die resultierenden kodierten stimmhaften Sprachsegmente werden wie in den Figuren 6A und 6B gezeigt im Sprachsegmentspeicherblock 5 gespeichert. Die kodierten nicht stimmhaften Sprachsegmente werden ebenfalls im Sprachsegmentspeicherblock 5 gespeichert. l:::'

:ΐ·; -ü';i λ > id #;

•fv.i ;*!'ϋ rf- dipi r 11 '1 : i-i 5

AT 400 646 B

Die hervorstechenderen und wichtigeren Merkmale der vorliegenden Erfindung sind oben dargelegt worden, sodaß die folgende detaillierte Beschreibung der Erfindung besser verstanden wird und der vorliegende Beitrag zum Gebiet der Technik voll anerkannt werden kann. Zusätzliche Merkmale der Erfindung, die in der Folge beschrieben werden, bilden den Gegenstand der Ansprüche der Erfindung. Fachleute können anerkennen, daß das/die hierin geoffenbarte Konzept und spezifische Ausführungsform einfach als Basis zum Modifizieren und Konstruieren anderer Strukturen zum Durchführen der gleichen Ziele der vorliegenden Erfindung verwendet werden können. Weiters können Fachleute erkennen, daß derartige äquivalente Konstruktionen nicht vom Geist und Schutzumfang der Erfindung wie in den Ansprüchen dargelegt abweichen.

KURZE BESCHREIBUNG DER ZEICHNUNGEN Für ein umfassenderes Verständnis des Wesens und der Ziele der Erfindung, sollte auf die folgende detaillierte Beschreibung in Verbindung mit den bei liegenden Zeichnungen bezuggenommen werden, in denen:

Figur 1 das Text-zu-Sprache-Synthesesystem des Sprachsegmentsyntheseverfahrens veranschaulicht: Figur 2 das Sprachsegmentverknüpfungs-Subsystem veranschaulicht; die Figuren 3A bis 3T Wellenformen veranschaulichen, um das Prinzip des periodischen Wellenformzerlegungsverfahrens und des Teilwellenverschiebungsverfahrens gemäß vorliegender Erfindung zu erklären;

Figur 4 ein Biockdiagramm zum Erklären des periodischen Wellenformzeriegungsverfahrens darstellt; die Figuren 5A bis 5E Blockdiagramme zum Erklären der Vorgangsweise des Blindfaltungsverfahrens darstellen; die Figuren 6A und 6B Codeformate für die im Sprachsegmentspeicherblock gespeicherte stimmhafte Sprachsegmentinformation veranschaulichen;

Figur 7 den Syntheseblock für stimmhafte Sprache gemäß vorliegender Erfindung veranschaulicht; und die Figuren 8A und 8B Schaubilder zum Erklären des Dauer- und Tonlagensteuerungsverfahrens gemäß vorliegender Erfindung darstellen.

Gleichartige Bezugszeichen beziehen sich in allen der mehreren Ansichten der Zeichnungen auf gleichartige Teile.

DETAILLIERTE BESCHREIBUNG DER ERFINDUNG

Die Anordnung des Text-zu-Sprache-Synthesesystems von Sprachsegmentsyntheseverfahren nach dem Stand der Technik besteht aus drei Subsystemen: A. Einem Phonetischen Vorbearbeitungssubsystem (1); B. Einem Prosodieserzeugungssubsystem (2); und C. einem Sprachsegmentverknüpfungssubsystem (3), wie in Figur 1 gezeigt. Wenn der Text von einer Tastatur, einem Computer oder irgend einem anderen System in das Text-zur-Sprache-Synthesesystem eingegeben wird, analysiert das phonetische Vorbearbeitungssubsystem (1) die Syntax des Textes und verwandelt den Text dann in eine Abfolge phonetischer transkriptiver Symbole, indem darauf phonetische Aufzeichnungsregeln angewandt werden. Das Prosodieserzeugungssubsystem (2) erzeugt Intonationsmusterdaten und Betonungsmusterdaten, wobei syntaktische Analysedaten verwendet werden, sodaß auf die Abfolge phonetischer transkriptiver Symbole die geeignete Intonation und Betonung angewandt werden kann, und gibt die Daten dann an das Sprachsegmentverknüpfungssubsystem (3) ab. Das Prosodieserzeugungssubsystem (2) stellt auch die Daten im Hinblick auf die Dauer jedes Phonems an das Sprachsegmentverknüpfungssubsystem (3) zur Verfügung.

Die obigen drei prosodischen Daten, d.h. die Intonationsmusterdaten, die Betonungsmusterdaten und die Daten bezüglich der Dauer eines jedem Phonems werden im allgemeinen gemeinsam mit der Abfolge der durch das phonetische Vorbearbeitungssubsystem (1) erzeugten phonetischen transkriptiven Symbole an das Sprachsegmentverknüpfungssubsystem (3) geschickt, obwohl sie unabhängig von der Abfolge der phonetischen transkriptiven Symbole zum Sprachsegmentverknüpfungssubsystem (3) transferiert werden können.

Das Sprachsegmentverknüpfungssubsystem (3) erzeugt kontinuierliche Sprache, indem geeignete Sprachsegmente, die kodiert und im Speicher davon gespeichert sind, gemäß der Abfolge der phonetischen transkriptiven Symbole (nicht gezeigt) nacheinander geholt und dekodiert werden. Zu diesem Zeitpunkt kann das Sprachsegmentverknüpfungssubsystem (3) synthetische Sprache erzeugen, die die Intonation, Betonung und Sprachgeschwindigkeit aufweist, wie sie vom Prosodieserzeugungssubsystem (2) 6 11

AT 400 646 B beabsichtigt ist, indem die Energie (Intensität), die Dauer und die Tonlagenperiode eines jeden Sprachseg-ments gemäß der prosodischen Information gesteuert wird.

Die vorliegende Erfindung verbessert die Sprachqualität im Vergleich zu synthetisierter Sprache nach dem Stand der Technik merklich, indem sie das Kodierungsverfahren zum Speichern der Sprachsegmente im Sprachsegmentverknüpfungssubsystem (3) verbessert. Eine Beschreibung bezüglich des Betriebs des Sprachsegmentverknüpfungssubsystems (3) unter Bezugnahme auf Figur 2 folgt.

Wenn die Abfolge der durch das phonetische Vorbearbeitungsssubsystem (1) gebildeten phonetischen transkriptiven Symbole in den Sprachsegmentselektionsbiock (4) eingegeben wird, wählt der Sprachseg-mentselektionsbiock (4) die Syntheseeinheiten wie Diphone und Halbsilben nacheinander aus, indem er die Abfolge hereinkommender phonetischer transkriptiver Symbole kontinuierlich überprüft, und findet vom Speicher davon wie in Tabelle 1 die Adressen der Sprachsegmente heraus, die den ausgewählten Syntheseeinheiten entsprechen. Tabelle 1 zeigt ein Beispiel der im Sprachsegmentselektionsbiock (4) festgehaltenen Sprachsegmenttabelle, der die Sprachsegmente auf Diphonbasis auswählt. Das führt zur •Bildung einer Adresse des ausgewählten Sprachsegments, die an den Sprachsegmentspeicherblock (5) angegeben wird.

Die den Adressen des Sprachsegments entsprechenden Sprachsegmente werden gemäß dem erfindungsgemäßen Verfahren, das später beschrieben wird, kodiert, und an den Adressen des Speichers des Sprachsegmentspeicherblocks (5) gespeichert.

Tabelle 1 phonetisches transkriptives Speicheradresse

Symbol für Sprachsegment (hexadecimal) /ai/ 0000 /au/ 0021 /ab/ 00 A3 /ad/ • OOFF • • • «

Wenn die Adresse des ausgewählten Sprachsegments vom Sprachsegmentselektionsbiock (4) in den Sprachsegmentspeicherblock (5) eingegeben wird, holt der Sprachsegmentspeicherblock (5) die entsprechenden Sprachsegmentdaten vom Speicher im Sprachsegmentspeicherblock (5) und sendet sie an einen Syntheseblock (6) für stimmhaften Laut, wenn es sich um einen stimmhaften Laut oder einen stimmhaften Reibelaut handelt, oder einen Syntheseblock (7) für nicht stimmhaften Laut, wenn es sich um einen nicht stimmhaften Laut handelt. Das heißt, der Syntheseblock (6) für stimmhaften Laut synthetisiert ein digitales Sprachsignal, das den stimmhaften Lautsprachsegmenten entspricht; und der Syntheseblock (7) für nicht stimmhaften Laut synthetisiert ein digitales Sprachsignal, das dem nicht stimmhaften Lautsprachsegmerrt entspricht. Jedes digitale synthetisierte Sprachsignal des Syntheseblocks (6) für stimmhaften Laut und des Syntheseblocks (7) für nicht stimmhaften Laut wird dann in ein analoges Signal umgewandelt.

So wird das vom Syntheseblock (6) für stimmhaften Laut oder vom Syntheseblock (7) für nicht stimmhaften Laut abgebene resultierende digitale synthetisierte Sprachsignal dann zu einem D/A-Umwand-lungsblock (8) geschickt, der aus einem Digital-Analog-Umsetzer, einem Analogtiefpaßfilter und einem Analogverstärker besteht, und wird in ein analoges Signal umgewandelt, um synthetisierten Sprachlaut zu erzeugen.

Wenn der Syntheseblock (6) für stimmhaften Laut und der Syntheseblock (7) für nicht stimmhaften Laut die Sprachsegmente verknüpfen, schaffen sie die Prosodie wie vom prosodischen Erzeugungssubsystem (2) beabsichtigt für synthetisierte Sprache, indem sie die Dauer, die Intensität und die Tonlagenfrequenz des Sprachsegments auf der Basis der prosodischen Information, d.h. Intonationsmusterdaten, Betonungsmusterdaten, Dauerdaten, richtig einstellen.

Die Vorbereitung des Sprachsegments zum Speichern im Sprachsegmentspeicherblock (5) erfolgt folgendermaßen. Zuerst wird eine Syntheseeinheit ausgewählt. Derartige Syntheseeinheiten umfassen 7

AT 400 646 B

Phonem, Allophon, Diphon, Silbe, Halbsilbe, CVC-, VCV-, CV- VC-Einheit (hier steht "C" für ein Konsonanten- bzw. "V" für ein Vokalphonem) oder Kombinationen davon. Die Syntheseeinheiten, die am häufigsten für Sprachsyntheseverfahren nach dem Stand der Technik verwendet werden, sind die Diphone und die Halbsilben.

Das jedem Element einer Anhäufung von Syntheseeinheiten entsprechende Sprachsegment wird von den Sprachproben bzw. -abtastungen segmentiert, die von einem Menschen tatsächlich ausgesprochen werden. Demgemäß ist die Anzahl der Elemente der Syntheseeinheitanhäufung die gleiche wie die Anzahl der Sprachsegmente. Beispielsweise beträgt in Fällen, in denen als die Syntheseeinheiten in Englisch Halbsilben verwendet werden, die Anzahl der Halbsilben etwa 1000, und demgemäß beträgt die Anzahl an Sprachsegmenten ebenfalls etwa 1000. Im allgemeinen bestehen derartige Sprachsegmente aus dem nicht stimmhaften Lautintervall und dem stimmhaften Lautintervall.

Gemäß vorliegender Erfindung werden als die grundlegende Syntheseeinheit das nicht stimmhafte Sprachsegment und das stimmhafte Sprachsegment verwendet, die durch Segmentieren des Sprachseg-ments nach dem Stand der Technik in das nicht stimmhafte Lautintervall und das stimmhafte Lautintervall erhalten wurden. Der nicht stimmhafte Lautsprachsyntheseabschnitt wird nach dem Stand der Technik wie unten besprochen erreicht. Die Synthese von stimmhafter Lautsprache wird gemäß vorliegender Erfindung erreicht.

So werden die nicht stimmhaften Sprachsegmente am in Figur 2 gezeigten Syntheseblock (7) für nicht stimmhaften Laut dekodiert. Im Fall des Dekodierens des nicht stimmhaften Lauts ist nach dem Stand der Technik festgestellt worden, daß die Verwendung eines künstlichen weißen Flauschsignals als ein Erregungssignal für ein Synthesefilter die Qualität der dekodierten Sprache nicht verschlechtert oder verringert. Daher kann beim Kodieren und Dekodieren der nicht stimmhaften Sprachsegmente das Sprachverschlüs-selungsverfahren nach dem Stand der Technik wie es ist angewandt werden, bei welchem Verfahren das weiße Rauschen als das Erregungssignal verwendet wird. Beispielsweise kann bei der Synthese nicht stimmhaften Lauts nach dem Stand der Technik das weiße Flauschsignal durch einen Zufallszahlerzeugungsalgorithmus erzeugt werden und kann verwendet werden, oder das im vorhinein erzeugte und im Speicher gespeicherte weiße Rauschsignal kann beim Synthetisieren aus dem Speicher geholt werden, oder ein durch Filtern des nicht stimmhaften Lautintervalls der tatsächlichen Sprache unter Verwendung eines Inversspektralhüllfilters erhaltenes und im Speicher gespeichertes Restsignal kann vom Speicher geholt werden, wenn synthetisiert wird. Wenn es nicht notwendig ist, die Dauer des nicht stimmhaften Sprachsegmente zu verändern, kann ein äußerst einfaches Kodierungsverfahren verwendet werden, bei dem der nicht stimmhafte Lautabschnitt nach einem Welienformkodierungsverfahren wie Pulscodemodulation (PCM) oder adaptive differentielle Pulscodemodulation (ADPCM) kodiert wird und gespeichert wird. Er wird dann beim Synthetisieren zur Verwendung dekodiert. .#!

Die vorliegende Erfindung betrifft ein Kodierungs- und Syntheseverfahren für die stimmhaften Sprachsegmente, das die Qualität der synthetisierten Sprache bestimmt. Eine Beschreibung bezüglich eines solchen Verfahrens mit dem Hauptaugenmerk auf dem Sprachsegmentspeicherblock und dem Syntheseblock (6) für stimmhaften Laut wird in Figur 2 gezeigt.

Die stimmhaften Sprachsegmente unter den im Speicher des Sprachsegmentspeicherblocks (5) gespeicherten Sprachsegmenten werden im vorhinein gemäß dem Zerlegungsverfahren für periodische Wellenform gemäß vorliegender Erfindung in Teilwellen des periodischen Tonlagenbestandteils zerlegt und darin gespeichert. Der Syntheseblock (6) für stimmhaften Laut synthetisiert Sprache, die die gewünschten Tonlagen- und Dauermuster aufweist, indem die Teilwellen richtig ausgewählt und nach dem Teilwellenneu-addressierungsverfahren auf Zeitverzerrungsbasis angeordnet werden. Das Prinzip dieser Verfahren wird unten unter Bezugnahme auf die Zeichnungen beschrieben.

Stimmhafte Sprache s(n) ist ein periodisches Signal, das erhalten wird, wenn eine an den Stimmbändern erzeugte periodische Glottalwelle (N.B.glottal = die Stimmritze betreffend) durch das akustische Vokaltraktfilter V(f) hindurchgeht, das aus der Mundhöhle, Rachenhöhle und Nasenhöhle besteht. Hier wird angenommen, daß das Vokaltraktfilter V(f) Frequenzcharakteristik einschließt, die auf eine Lippenausstrahlungswirkung zurückzuführen sind. Ein Spektrum S(f) stimmhafter Sprache ist gekennzeichnet durch: : "fi ........ 1. Eine feine Struktur, die rasch bezogen auf die Frequenz "fn variiert: und 2. Eine Spektralhülle, die langsam dazu variiert, wobei ersteres auf die Perodizität des stimmhaften Sprachsignals zurückzuführen ist und letzteres das Spektrum eines Glottalpulses und eine für das Vokaltraktfilter charakteristische Frequenz widerspiegelt.

Das Spektrum S(f) der stimmhaften Sprache hat die gleiche Form wie die Form, die erhalten wird, wenn die feine Struktur einer Impulsserie aufgrund harmonischer Komponenten, die an ganzzahligen Vielfachen der Tonlagenfrequenz Fo bestehen, mit einer Spektralhüllfunktion H(f) multipliziert wird. Daher kann stimmhafte Sprache s(n) als ein Ausgangssignal betrachtet werden, wenn ein periodisches Tonlagenpulsse- :..1¾ -Üj 8

AT 400 646 B riensignal e(n) mit einer flachen Spektralhülle und der gleichen Periode wie die stimmhafte Sprache S(n) an ein zeitvariierendes Filter mit der gleichen Frequenzreaktionseigenschaft wie die Spektralhüllfunktion H(f) der stimmhaften Sprache s(n) eingegeben wird. Wenn man das im Zeitbereich betrachtet, ist die stimmhafte Sprache s(n) eine Faltung einer Impulsreaktion h(n) des Filters H(f) und des periodischen Tonlagenpulsseriensignals e(n). Da H(f) der Spektralhüllfunktion der stimmhaften Sprache s(n) entspricht, wird das zeitvariierende Filter, das H(f) als seine Frequenzreaktionscharakteristik aufweist, als ein Spektraihüllfilter oder ein Synthesefilter bezeichent.

In Figur 3A ist ein Signal für 4 Perioden einer Glottalwellenform dargestellt. Üblicherweise sind die Welienformen der Glottalpulse, die die Glottalwellenform bilden, einander ähnlich aber nicht vollständig identisch, und auch die Intervallzeit zwischen den benachbarten Glottalpulsen ist einander ähnlich aber nicht vollständig gleich. Wie oben beschrieben wird die stimmhafte Sprachwellenform s(n) von Figur 3C erzeugt, wenn die in Figur 3A gezeigte Glottalwellenform g(n) durch das Vokaltraktfilter V(f) gefiltert wird. Die Glottalwellenform g(n) besteht aus den Glottalpulsen g1(n), g2(2), g3(n) und g4(n), die voneinander was die Zeit betrifft unterschieden werden, und wenn sie durch das Vokaltraktfilter V(f) gefiltert werden, werden die in Figur 3B gezeigten Teilwellen s1(n), s2(n), s3(n) und s4(n) erzeugt. Die in Figur 3C gezeigte stimmhafte Sprachwellenform s(n) wird durch überlagern derartiger Teilwellen erzeugt,

Ein Grundkonzept der vorliegenden Erfindung besteht darin, daß, wenn man durch Zerlegen des stimmhaften Sprachsignals die Teilwellen erhalten kann, aus denen ein stimmhaftes Sprachsignal besteht, Sprache mit willkürlichem Akzent- und Intonationsmuster synthetisiert werden kann, indem die Intensität der Teilwellen und die Zeitintervalle zwischen ihnen geändert werden.

Da die in Figur 3C gezeigte stimmhafte Sprachwellenform s(n) durch Überlagerung der Teilwellen erzeugt wurde, die einander in der Zeit überlappen, ist es schwierig, die Teilwellen von der Sprachwellenform s(n) zurückzubekommen.

Damit die Wellenformen einer jeden Periode einander im Zeitbereich nicht überlappen, muß die Wellenform eine Wellenform mit Peak bzw. Spitze sein, bei der die Energie um einen Zeitpunkt konzentriert ist, wie in Figur 3F gezeigt.

Eine spitze Wellenform ist eine Wellenform, die im Frequenzbereich eine beinahe flache Spektralhülle aufweist. Wenn eine stimmhafte Sprachwellenform s(n) gegeben ist, kann ein periodisches Tonlagenpulsseriensignal e(n) mit einer flachen Spektralhülle wie in Figur 3F gezeigt als Ausgang erhalten werden, indem die Hülle des Spektrums S(f) der Wellenform s(n) geschätzt und sie in ein Umkehrspektralhüllfilter 1/H(f) eingegeben wird, das eine Umkehrung der Hülifunktion H(f) als eine Frequenzcharakteristik aufweist. Die Figuren 4, 5A und 5B beziehen sich auf diesen Schritt.

Da die Tonlagenpulswellenformen einer jeden Periode, die das periodische Tonlagenpulsseriensignal e-(n) wie in Figur 3F gezeigt bilden, einander im Zeitbereich nicht überlappen, können sie getrennt werden. Das Prinzip des Zerlegungsverfahrens für periodische Wellenform ist das, daß, weil die getrennten "Tonlagenpulssignale für eine Periode" e1(n), e2(n), . . ein im wesentlichen flaches Spektrum aufweisen, wenn sie zum Spektraihüllfilter H(f) zurück einegeben werden, sodaß die Signale das Originalspektrum aufweisen, dann die Teilwellen s1(n), S2(n) usw. wie in Figur 3B erhalten werden können.

Figur 4 ist ein Blockdiagramm des Zerlegungsverfahrens für periodische Wellenform gemäß vorliegender Erfindung, in dem das stimmhafte Sprachsegment in Teilwellen analysiert wird. Die stimmhafte Sprachwellenform s(n), die ein digitales Signal ist, wird durch Bandbegrenzung des analogen stimmhaften Sprachsignals oder Musikinstrumentlautsignals mit einem Tiefpaßfilter und durch Umwandeln der resultierenden Signale in Analog-zu-Digital-Signalen und Speichern auf einer Magnetscheibe in der Form des Pulscodemodulations(PCM)-Codeformats durch Gruppieren mehrerer Bits gleichzeitig erhalten, und wird dann wenn erforderlich zur Bearbeitung geholt.

Das erste Stadium des Teilwellenvorbereitungsverfahrens nach dem Zerlegungsverfahren für periodische Wellenform ist eine Blindfaltung, bei dem die stimmhafte Sprachwellenform s(n) (periodisches Signal s(n)) in eine Impulsreaktion h(n) gefaltet wird, die eine Funktion im Zeitbereich der Spektrumhüllfunktion H(f) des Signals s(n) ist, und ein periodisches Tonlagenpulsseriensignal e(n), das eine flache Spektralhülle und die gleiche Periode wie das Signal s(n) aufweist. Siehe Figuren 5A und 5B und die darauf bezogene Erörterung.

Wie beschrieben wird für das Blindfalten die Spektrumschätztechnik wesentlich, mit der die Spektralhüllfunktion H(f) vom Signal s(n) geschätzt wird.

Spektrumschätztechniken nach dem Stand der Technik können in 3 Verfahren klassifiziert werden: 1. Ein Blockanalyseverfahren; 2. ein Tonlagensynchronanalyseverfahren,· und 3. ein sequentielles Analyseverfahren, das von der Länge eines Analyseintervalls abhängt. 9

I

AT 400 646 B

Das Blockanalyseverfahren ist ein Verfahren, bei dem das Sprachsignal in Blöcke mit konstanter Dauer im Bereich von 10 -20 ms (Millisekunden) geteilt wird, und die Analyse dann bezogen auf die konstante Anzahl an Sprachproben bzw. -abtastungen, die in jedem Block vorhanden sind, durchgeführt wird, wobei ein Satz (üblicherweise 10-16 Paramter) von Spektralhüllparametem für jeden Block erhalten wird, für welches Verfahren ein homomorphes Analyseverfahren und ein Block-Linearvorhersageanalyseverfahren typisch sind.

Das Tonlagensynchronanalyseverfahren erzielt einen Satz Spektralhüllparamter für jede Periode durch das Durchführen von Anlyse an jedem Periodensprachsignal, das durch Teilen des Sprachsignals mit der Tonlagenperiode als die Einheit (wie in Figur 3C gezeigt) erhalten wurde, für welches Verfahren das Analyse-durch-Synthese-Verfahren und das Tonlagensynchronlinearvorhersageanalyseverfahren typisch sind.

Beim sequentiellen Analyseverfahren wird ein Satz Spektralhüllparameter für jede Sprachprobe erhalten (wie in Figur 3D gezeigt) durch Schätzen des Spektrums für jede Sprachprobe, für welches Verfahren das Verfahren der kleinsten Quadrate und das rekursive Verfahren der kleinsten Quadrate, die eine Art adaptives Filterverfahren sind, typisch sind.

Figur 3D zeigt Variation mit der Zeit der ersten 4 Reflexionskoeffizienten unter 14 Reflexionskoeffizienten k1, k2, . . ,k14, die einen Spektralhüllparametersatz darstellen, der durch das sequentielle Analyseverfahren erhalten wird. (Siehe Figur 5A). Wie aus der Zeichnung zu ersehen ist, verändern sich die Werte der Spektralhüllparameter aufgrund kontinuierlicher Bewegung der Artikulationsorgane kontinuierlich, was bedeutet, daß die Impulsreaktion h(n) des Spektralhüllfilters sich kontinuierlich ändert. Hier wird, um die Erklärung zweckmäßig zu gestalten, wobei davon ausgegangen wird, daß h(n) sich im Intervall einer Periode nicht ändert, h(n) während der ersten, zweiten und dritten Periode jeweils mit h(n)1, h(n)2, h(n)3 benannt, wie in Figur 3E gezeigt.

Ein durch verschiedene Spektrumsschätztechniken erhaltener Satz von Hüllparametem, wie ein Cep-strum CL(i), der ein Parametersatz ist, der durch das homomorphe Analyseverfahren erhalten wird, und ein Vorhersagekoeffizientensatz ai oder ein Reflexionskoeffizientensatz ki, oder ein Satz Linienspektrumpaare usw., der durch Anwendung des rekursiven Verfahrens der kleinsten Quadrate oder das lineare Vorhersageverfahren erhalten wird, wird ebenfalls als das H(f) oder h(n) behandelt, da er die Frequenzcharakteristik H(f) oder die Impulsreaktion h(n) des Spektralhüllfilters machen kann. Daher wird in der Folge auch die Impulsreaktion als der Spektralhüllparametersatz bezeichnet.

Die Figuren 5A und5B zeigen Verfahren des Blindfaltens.

Figur 5A zeigt ein Blindfaltverfahren, das unter Verwendung des Linearvorhersageanalyseverfahrens oder unter Verwendung des rekursiven Verfahrens der kleinsten Quadrate durchgeführt wird, die beide Verfahren nach dem Stand der Technik sind. Wenn die stimmhafte Sprachwellenform s(n) gegeben ist, wie in Figur 3C gezeigt, werden die Vorhersagekoeffizienten {a1,a2, . . ,aN} oder die Reflexionskoeffizienten {k1, k2,.., kN}, die die Spektralhüllparameter sind, die die Frequenzcharakteristik H(f) darstellen, oder die Impulsreaktion h(n) des Spektralhülifilters unter Verwendung des Linearvorhersageanalyseverfahrens oder des rekursiven Verfahrens der kleinsten Quadrate erhalten. Normalerweise reichen 10 bis 16 Vorhersagekoeffizienten für den Bereich der Vorhersage "N" aus. Unter Verwendung der Vorhersagekoeffizienten {a1, a2 . . . aN} und der Reflexionskoeffizienten {k1, k2 . . . kN} als der Spektralhüllparameter kann von einem Fachmann leicht ein Inversspektralhüllfilter (oder einfach als ein Inversfilter bezeichnet) mit der Frequenz- Charakteristik von 1/H(f), das eine Umkehrung des Frequenzmerkmals H(f) des SpektralhUIIfiIter ist, konstruiert werden. Wenn die stimmhafte Sprachwellenform die Eingangsgröße für das Umkehrspektralhüllfilter ist das auch als ein Linearvorhersagefehlerfilter im linearen Vorhersageanalyseverfahren oder im rekursiven Verfahren der kleinsten Quadrate ist, kann das periodische Tonlagenpulsseriensignal des Typs von Figur 3F, welche die als ein Vorhersagefehlersignal oder ein Restsignal bezeichnete flache Spektralhülle aufwei-' sen, als Ausgang vom Filter erhalten werden.

Die Figuren 5B und 5C zeigen das Blindfaltverfahren unter Verwendung des homomorphen Analyseverfahrens, das ein Blockanalyseverfahren ist, während Figur 5B das durch eine Frequenzteilung durchgeführte Verfahren zeigt, bzw. Figur 5C das durch Umkehrfiltern durchgeführte Verfahren zeigt.

Eine Beschreibung von Figur 5B folgt. Sprachproben bzw. -abtastungen zur Analyse eines Blocks werden durch Multiplizieren des stimmhaften Sprachsignals s(n) durch eine spitz zulaufende Fensterfunktion wie ein Hamming-Fenster mit einer Dauer von etwa 10 - 20 ms erhalten. Eine Cepstralsequenz c(i) wird dann durch Bearbeiten der Sprachproben bzw. -abtastungen erhalten, wobei eine Reihe homomorpher Bearbeitungsverfahren verwendet werden, die aus einer diskreten Fourier-Transformation, einem komplexen Logarithmus und einer diskreten Umkehr-Fourier-Transformation wie in Figur 5D gezeigt bestehen. Das Cepstrum ist eine Funktion der Frequenz, die eine der Zeit ähnliche Einheit ist. ;-N:v

‘iiH' "3* SP" p- -:P. . <! ‘i : :p !v

10

AT 400 646 B

Ein Niederfrequenzcepstrum CL(i), das um einen Ursprung angeordnet ist, der die Spektralhülie der stimmhaften Sprache s(n) darstellt, und ein Hochfrequenzcepstrum CH(i), das ein periodisches Tonlagen-pulsseriensignal e(n) darstellt, können voneinander im Freqenzbereich getrennt werden. Das heißt, das Multiplizieren von Cepstrum c(i) mit einer Niederfrequenzfensterfunktion bzw. einer Hochfrequenzfenster-5 funktion ergibt CL(i) bzw. CH(i). Wenn man sie jeweils durch ein homomorphes Umkehrbearbeitungsverfahren wie in Figur 5E gezeigt führt, ergibt das die Impulsreaktion h(n) und das Tonlagenpulsseriensignal e(n). In diesem Fall kann, weil sich durch das Führen des CH(i) durch das homomorphe Umkehrbearbeitungsverfahren nicht direkt das Tonlagenpulsseriensignal e(n) ergibt, sondern das Tonlagenpulsseriensignal eines Blocks multipliziert mit einer Zeitfensterfunktion w(n) ergibt, e(n) erhalten werden, indem das Tonlagenpuls-70 seriensignal wieder mit einer Umkehrzeitfensterfunktion 1/w(n) multipliziert wird, die der Umkehrung von w-(n) entspricht.

Das Verfahren von Figur 5C ist das gleiche wie das von Figur 5B, nur mit der Ausnahme, daß in Figur 5C beim Erhalten des periodischen Tonlagenpulsseriensignals e(n) CL(i) anstelle von CH(i) verwendet wird. Das heißt bei diesem Verfahren kann, indem die Eigenschaft ausgenutzt wird, daß eine Impulsreaktion h~1 75 (n), die 1/H(f) entspricht, das eine Umkehrung der Frequenzcharakteristik H(f) ist, durch Bearbeiten von -CL- (i) erhalten werden kann, das durch Nehmen des Negativen von CL(i) erhalten wird, durch das homomorphe Inversbearbeitungsverfahren, das periodische Tonlagenseriensignal e(n) als Ausgangsgröße erhalten werden, indem ein in der Dauer begrenztes Impulsreaktions (FIR)-Filter konstruiert wird, das h-1(n) als eine Impulsreaktion aufweist, und indem dem Filter ein Originalsprachsignal s(n) eingegeben wird, das nicht mit 20 einer Fensterfunktion multipliziert ist. Dieses Verfahren ist ein Umkehrfilterverfahren, das im wesentlichen das gleiche wie das von Figur 5A ist, lediglich mit der Ausnahme, daß, während bei der homomorphen Analyse von Figur 5C das Inversspektralhüllfilter 1/H(f) konstruiert wird, indem eine Impulsreaktion h-1(n) des Umkehrspektralhüllfilters erhalten wird, in Figur 5A das Umkehrspektralhüllfilter 1/H(f) direkt durch die Vorhersagekoeffizienten {ai} oder die Reflexionskoeffizienten {ki> konstruiert werden die durch das lineare 25 Vorhersageanalyseverfahren erhalten werden.

Beim auf der homomorphen Analyse basierenden blinden Falten kann die Impulsreaktion h(n) des Niederfrequenz-Cepstrum CL(i), das in den Figuren 5B und 5C durch gepunktete Linien gezeigt wird, als der Spektralhüllparametersatz verwendet werden. Bei der Verwendung der Impulsreaktion (h(o), h(1),..., h(N-l)} besteht ein Spektralhüllparametersatz normalerweise aus einer guten Anzahl von Parametern in 30 dem Bereich in dem N 90 - 120 ist, während die Anzahl der Parameter auf 50 - 60 gesenkt werden kann, wenn N 25 - 30 ist, wenn das Cepstrum {CL(-N)m CL(-N +1).....0,... CL(N)} verwendet wird.

Wie oben beschrieben wird die stimmhafte Sprachwellenform s(n) nach dem Verfahren von Figur 5 in die Impulsreaktion h(n) des Spektralhüllfilters und das periodische Tonlagenpulsseriensignal e(n) gefaltet.

Wenn das Tonlagenpulsseriensignal und die Spektralhüllparameter einmal nach dem Blind-Faltverfahren 35 erhalten worden sind, werden dann die Tonlagenpulspositionen P1, P2 usw. vom periodischen Tonlagenpulsseriensignal e(n) oder dem Sprachsignal s(n) erhalten, indem ein Tonlagenpulspositionsbestimmungsai-gorithmus im Zeitbereich verwendet wird, wie der Epochenbestimmungsalgorithmus. Als nächstes werden die in den Figuren 3H, 3K, bzw. 3N gezeigten Tonlagenpulssignale e1(n), e2(n) und e3(n) erhalten, indem das Tonlagenpulsseriensignal e(n) periodisch segmentiert wird, sodaß ein Tonlagenpuls in einem Perioden-40 Intervall eingeschlossen bzw. enthalten ist, wie in Figur 3F gezeigt. Die Positionen der Segmentierung können als Mittelpunkte zwischen den Tonlagenpulsen oder Punkten entschieden bzw. bestimmt werden, die eine konstante Zeit vor jedem Tonlagenpuls liegen. Da jedoch die Position eines jeden Tonlagenpulses in in Anbetracht der Zeit mit dem Endabschnitt eines jeden Glottalpulses zusammenfällt, wie voll verstanden wird, wenn man die Figuren 3A und 3F vergleicht, ist es vorzuziehen, einen Punkt eine konstante Zeit 45 nach einem jeden Tonlagenpuls als die Position der Segmentierung auszuwählen, wie durch die gepunktete Linie in Figur 3F angezeigt. Da jedoch der Tonlagenpuls die größte Wirteung auf die Hörbarkeit darstellt, gibt es keine wesentlichen Unterschiede in der synthetisierten Sprache zwischen den Fällen.

Wenn die nach diesem Verfahren erhaltenen Tonlagenpulssignale e1(n), e2(n), e3(n), usw. jeweils wieder mit dem h1(n), h2(n) h3(n) von Figur 3E gefaltet werden, die Impulsreaktionen während des so Zeitintervalls der Tonlagenpulssignale e1(n), e2(n), e3(n) usw. sind, werden die in Betracht gezogenen Teilwellen wie in Figur 3I, 3L, 3(0) gezeigt erhalten. Ein derartiges Falten kann zweckmäßig durchgeführt werden, indem jedes Tonlagenpulsseriensignal dem Spektralhüllfiiter H(f) eingegeben wird, das die Spektrumhüllparameter als die Filterkoeffizienten wie in Figur 4 gezeigt verwendet. Beispielsweise wird in Fällen, wo die linearen Vorhersagekoeffizienten oder die Reflexionskoeffizienten oder die Linienspektrumpaare als 55 die Spektralhüllparameter wie im linearen Vorhersageanalyseverfahren verwendet werden, ein IIR-(Impulsreaktion mit unbegrenzter Dauer)-Filter zusammengesetzt, das die lineare Vorhersagekoeffizienten oder die Reflexionskoeffizienten oder die Linienspektralpaare als die Filterkoeffizienten aufweist. In Fällen, in denen die Impulsreaktion für die Spektralhüllparameter verwendet wird, wie beim homomorphen Analyse- 11

AT 400 646 B verfahren, wird ein FIR-Filter mit der Impulsreaktion als die Abhör- bzw. Anzapfkoeffizienten zusammengesetzt. Da das Synthesefilter nicht direkt zusammengesetzt werden kann, wenn der Spektralhüllparameter ein logarithmisches Flächenverhältnis oder das Cepstrum ist, sollten die Spektralhüllparameter in die Reflexionkoeffizienten oder die Impulsreaktion zurückverwandelt werden, die als die Koeffizienten des IIR- oder FIR-Filter zu verwenden sind. Wenn das Tonlagenpulssignal für eine Periode der Eingang für das wie oben beschrieben zusammengesetzte Spektralhüllfilter ist, wobei die Filterkoeffizienten mit der Zeit gemäß den Spektraihüllparametern geändert werden> die dem gleichen Augenblick wie jede Probe des Tonlagenpulssignals entsprechen , dann wird die Teilwelle für diese Periode ausgegeben.

Aus diesem Grund werden die "Zeitfunktionwellenformen'' der Spektralhüllparameter am gleichen Punkt ausgeschnitten, wie wenn e(n) ausgeschnitten wurde, um das Tonlagenpulssignal für jede Periode zu erhalten. Zum Beispiel werden im Fall der Sequenzanalyse die Spektralhüllparameter der ersten Periode k1(n)1, k2(n)1 usw., wie in Figur 3Θ gezeigt, durch Ausschneiden der Spektralhüllparameter erhalten, die der gleichen Zeitperiode entsprechen wie das in Figur 3H gezeigte Tonlagenpulssignal ei(n) der ersten Periode von den Zeitfunktionen k1(n), k2(n) usw. der Spektralhüllparameter wie in Figur 3D gezeigt. Die Spektralhüllparameter der zweiten und dritten Periode, die in Figur 3J und Figur 3M als durchgehende Linie angegeben sind, können auch auf eine ähnliche Art wie oben erwähnt erhalten werden. In Figur 4 werden die Reflexionskoeffizienten kl, k2.....kN und die Impulsreaktion h(0), h(1).....h(N-l) als typischer

Spektralhüllparametersatz gezeigt, wo sie als k1(n), k2(n), . . . , kn(n) und h(0,n), h(1,n).....h(N-1,n) bezeichnet werden, um zu unterstreichen, daß sie Funktionen der Zeit sind. Ebenso wird in Fällen, in denen das Cepstrum CL(i) als der Spektralhüllparametersatz verwendet wird, dieses als CL(i,n) bezeichnet.

Da anders als beim Sequenzanalyseverfahren die Zeitfunktionen der Spektralhüllparameter im Fall des Tonlagensychronanalyseverfahrens oder des Blockanalyseverfahrens nicht erhalten werden, sondern die Spektralhüilparameterwerte erhalten werden, die über den Analyseintervall konstant sind, sollte es notwendig sein, die Zeitfunktionen der Spektralhüllparameter aus den Spektralhüllparameterwerten zu machen und die Zeitfunktionen dann Periode für Periode zu segmentieren, um die Spektralhüllparameter für eine Periode zu erhalten. In der Realität jedoch ist es zweckmäßig, wie folgt' zu bearbeiten, anstatt die Zeitfunktionen zusammenzusetzen. Das heißt im Fall des Tonlagensynchronanalyseverfahrens zeigen die Spetralhüllparameter, da ein Satz von Spektraihüllparametern mit konstanten Werten einem jeden Tonlagenperiodenintervall wie als gestrichelte Linie in Figur 8B gezeigt entspricht, keine Veränderung, auch wenn ihre Zeitfunktionen Periode für Periode segmentiert werden. Deshalb sind die Spektralhüllparameter für eine Periode, die in einem Puffer zu speichern sind, keine Zeitfunktionen sondern von der Zeit unabhängige Konstante.

Im Fall des Blockanalyseverfahrens, da ein Satz von konstanten Spektraihüllparametern pro Block erhalten worden ist, sind die Werte eines Spektralhüllparameters für eine Periode, die zu einem Block gehören, z.B. k1(n)1, k1(n)2, . . . , k1(n)M nicht nur konstant von der Zeit unabhängig sondern auch identisch. (Hier bedeutet k1(n)j die Zeitfunktion von k1 für das j-ten Periodenintervall und M stellt die Anzahl der Tonlagenperiodenintervalle dar, die zu einem Block gehören).

Es sollte im Fall des Blockanalyseverfahrens angemerkt werden, daß, wenn das Tonlagenpulssignal über die Grenze von zwei benachbarten Blöcken liegt, die Spektralhüilparameterwerte des vorhergehenden Blocks und des folgenden Blocks jeweils für die vorhergehenden und folgenden Signalabschnitte, geteilt bezogen auf die Blockgrenze, zu verwenden sind.

Wie in Figur 3I zu sehen ist, ist die Dauer der Teilwelle nicht notwendigerweise gleich einer Periode. Deshalb sind vor der Anwendung des Tonlagenpulssignais und der Spektralhüllparameter einer Periodenlänge, die durch die periodische Segmentierung am Spektralhüllfilter erhalten wird, die Verfahren des Nullanhängens und des Parameternachschleppens wie in Figur 4 gezeigt notwendig, damit die Dauer des Tonlagenpulssignais und der Spektralhüllparameter zumindest so lange sind wie die der tatsächlichen Dauer der Teilwellen. Das Verfahren des Nullanhängens besteht darin, die Gesamtdauer des Tonlagenpulssignals so lange wie die erforderliche Länge zu machen, indem die Proben mit dem Wert Null nach dem Tonlagenpulssignal einer Periode angehängt werden. Das Verfahren des Parameternachschleppens besteht darin, die Gesamtdauer des Spektralhüllparameters so lange wie die erforderliche Länge zu machen, indem der Spektralhüllparameter für die folgenden Perioden nach dem Spektralhüllparameter einer Periodenlänge angehängt wird. Jedoch ist, auch wenn ein einfaches Verfahren des wiederholten Anhängens des Endwertes des Spektralhüliparameters einer Periode oder des ersten Wertes des Spektralhüllparameters der nächsten Periode verwendet wird, die Qualität der snythetisierten Sprache nicht wesentlich beeinträchtigt.

Die Tatsache, daß die tatsächliche Dauer der durch das Spektralhüllfilter zu erzeugenden Teilwelle von den Werten der Spektralhüllparameter abhängt, macht es schwierig, sie im vorhinein einzuschätzen. Es ist jedoch, da es in den meisten Fällen für die praktische Verwendung keine wesentlichen Fehler ergibt, wenn beachtet wird, daß die tatsächliche Dauer der Teilwelle 2 Perioden von der Tonlagenpulsposition im Fall 12

AT 400 646 B männlicher Sprache und 3 Perioden von der Tonlagenpulsposition im Fall der Sprache von Frauen oder Kindern beträgt, zweckmäßig, zu bestimmen, daß die Dauer des durch Nullanhängen zu machenden "nachgeschleppten Tonlagenpulssignals" und der durch Parametemachschleppen zu machenden "nachgeschleppten Spektralhüllparameter" in dem Fall, daß periodische Segmentierung unmittelbar nach den 5 Tonlagenpulsen durchgeführt wird, für männliche und weibliche Sprache 3 bzw. 4 Periodenlängen wurde. In Figur 3G werden nachgeschleppte Spektralhüllparameter für die erste Periode des Dreiperiodenintervalls "ad”, die durch Anhängen der Spektralhüllparameter für das Zweiperiodenintervall "bd" gemacht wurden, der durch eine gepunktete Linie nahe dem Spektralhüllparameter des ersten Periodenintervalls "ab” angegeben ist, der durch die periodische Segmentierung erhalten wird, als ein Beispiel gezeigt. In Figur 3B 70 wird ein nachgeschlepptes Tonlagenpulssignal für die erste Periode des Dreiperiodenintervalls "ad”, das durch Anhängen der Proben mit Nullwert an das Zweiperiodenintervall "bd" nahe dem Tonlagenpulssignaf des ersten Periodenintervalls "ab" gemacht wird, das durch die periodische Segmentierung erhalten wird, als ein Beispiel gezeigt.

Im Fall wie oben beschrieben sind Puffer zwischen der periodischen Segmentierung und dem 75 Parametemachschleppen vorgesehen, wie in Rgur 4 gezeigt, weil die Dauer nach dem Nullanhängen und dem Parametemachschleppen auf 3 oder 4 Perioden erhöht wird, während die Dauer des Tonlagenpulssignals und des Spektralhüllparameters vor dem Nullanhängen und dem Perametemachschleppen eine Periode ist, und das Tonlagenpulssignal und die Spektralhüllparameter, die durch die periodische Segmentierung erhalten werden, werden dann in den Puffern gespeichert und wenn erforderlich herausgeholt, sodaß 20 ein temporäres Puffern erreicht wird.

Wenn das nachgeschleppte Tonlagenpulssignal und die nachgeschleppten Spektralhüllparameter durch das Nullanhängen und das Parametemachschleppen in Figur 4 erhalten werden, kann das "Teilwellensi-gnal" s1(n) für die erste Periode der Länge des Dreiperiodenintervalls wie das Intervall "ad" wie in Rgur 3l gezeigt schließlich erhalten werden, indem das nachgeschleppte Tonlagenpulssignal der ersten Periode wie 25 das Intervall "ad" von Rgur 3H in das Spektralhüllfilter H(f) eingegeben wird und die Koeffizienten auf die gleiche Weise wie die nachgeschleppten Spektraihüliparameter der ersten Periode synchron variiert werden, wie das Intervall "ad" von Rgur 3G. Das Teilweliensignal s2(n) und s3(n) für die zweite bzw. dritte Periode können ebenso erhalten werden.

Wie oben beschrieben wird die stimmhafte Sprachwellenform s(n) schließlich nach dem Verfahren von 30 Figur 4 in die Teilwellen zerlegt, die die Wellenform s(n) bilden. Offensichtlich ergibt das Neuanordnen der Teilwellen von Figur 3I, Figur 3L und Figur 3(0), die durch Zerlegung zurück zu den ursprünglichen Punkten erhalten werden, Figur 3B, und wenn die Teilwellen überlagert werden, wird wieder die ursprüngliche Sprachwellenform s(n) wie in Figur 3C gezeigt erhalten. Wenn die Teilwellen von Rgur 3I, Rgur 3L und Figur 3(0) durch Variieren der Zwischenräume neu angeordnet werden und dann wie in Figur 3P gezeigt 35 überlagert werden, wird die Sprachteilwelle mit einem anderen Tonlagenmuster wie in Figur 3Q gezeigt erhalten. Als solches ermöglicht das richtige Variieren des Zeitintervalls zwischen den durch Zerlegung erhaltenen Teilwellen die Synthese von Sprache mit dem willkürlichen gewünschten Tonlagenmuster, d.h. der Intonation. Auf ähnliche Weise ermöglicht das richtige Variieren der Energie der Teilwellen die Synthese von Sprache mit dem willkürlichen gewünschten Betonungsmuster. 40 Im in Figur 2 gezeigten Sprachsegmentspeicherblock ist jedes stimmhafte Sprachsegment, das in so viele Teilwellen wie die Anzahl der Tonlagenpulse nach dem in Rgur 4 gezeigten Verfahren zerlegt ist, in dem Format wie in Figur 6A gezeigt gespeichert, das als die SprachSegmentinformation bezeichnet wird. In einem Headerfeld, das ein Vorderteil der SprachSegmentinformation ist, sind Grenzzeitpunkte B1, B2, . . . ,BL, die wichtige Zeitpunkte im Sprachsegment sind, und Tonlagenpulspositonen P1, P2, . . . , PM eines 45 jeden Tonlagenpulssignals, das bei der Synthese einer jeden Teilwelle verwendet wird, gespeichert, worin die Anzahl der Proben, die jedem Zeitpunkt entsprechen, aufgezeichnet wird, wobei die erste Probenposition des ersten Tonlagenpulssignals e1(n) als 0 angenommen wird. Der Grenzzeitpunkt ist die Zeitposition der Grenzpunkte zwischen den Subsegmenten, die sich ergeben, wenn das Sprachsegment in mehrere Subsegmente segmentiert wird. Zum Beispiel kann der Vokal, der Konsonanten davor und danach aufweist, so für Sprache mit langsamer Geschwindigkeit als aus 3 Subsegmenten bestehend betrachtet werden, da dm Vokal in ein Intervall in einem stabilen Zustand des mittleren Teils und zwei Übergangsintervalle geteilt werden kann, die vor und nach dem Intervall in stabilen Zustand vorhanden sind, und 3 Endpunkte der Subsegmente sind als die Grenzzeitpunkte im Headerfeld des Sprachsegments gespeichert. Jedoch sind in dem Fall, indem das Abtasten bei schnellerer Sprachgeschwindigkeit durchgeführt wird, da das Obergangs-55 Intervall ein Punkt wird, sodaß das Sprachsegment des Vokals als aus 2 Subsegmenten bestehend betrachtet werden kann, zwei Grenzzeitpunkte in der Headerinformation gespeichert.

Im Teilweliencodefeld, das der letztere Teil der SprachSegmentinformation ist, sind Teilweliencodes gespeichert, die durch Wellenformkodieren der einer jeden Periode entsprechenden Teilwelle erhalten 13

AT 400 646 B werden. Die Teilwelien können durch das einfache Wellenformkodierungsverfahren wie PCM kodiert werden, aber da die Teilwelien eine beträchtliche Kurzzeit- und Langzeitkorrelation aufweisen, kann die für die Speicherung erforderliche Speicherkapazität wesentlich verringert werden, wenn die Teilwellen unter Verwendung des ADPCM mit einer Tonlagen vorhersagenden Schleife, einem adaptiven Vorhersagekodieren oder einem digitalen adaptiven Deltamodulationsverfahren effizient wellenformkodiert werden. Das Verfahren, bei dem die durch Zerlegung erhaltenen Teilwellen weilenformkodiert werden, wobei die resultierenden Kodes gespeichert werden, und die Kodes zum Zeitpunkt der Synthese dekodiert, neu angeordnet und überlagert werden, um synthetisierte Sprache zu erzeugen, wird als das "Wellenformcodespeicherverfahren" bezeichnet.

Das Tonlagenpulssignal und die entsprechenden Spektralhüllparameter können als mit der Teilwelle identisch betrachtet werden, da sie Materialien sind, mit denen die Teilwelle hergestellt werden kann. Daher ist auch das Verfahren möglich, bei dem die durch Kodieren der Tonlangenpulssignale und der Spektralhüllparameter erhaltenen "Quellenkodes" gespeichert werden und die Teilwellen mit den Tonlagenpulssignalen und den Spektralhüllparametern gemacht werden, die durch Dekodieren der Quellenkodes erhalten werden, und die Teilwellen dann neu angeordnet und überlagert werden, um die synthetisierte Sprache zu erzeugen. Dieses Verfahren wird als das "Quellenkodespeicherverfahren" bezeichnet. Dieses Verfahren entspricht demjenigen, bei dem das Tonlagenpulssignal und die Spektralhüilparameter, die in den Puffern gespeichert sind, anstelle der als der Ausgang in Figur 4 erhaltenen Teilwellen miteinander im selben Periodenintervall verknüpft und dann im Sprachsegmentspeicherblock gespeichert werden. Daher werden beim Quellenkodespeicherverfahren die Verfahren nach dem Puffer in Figur 4, d.h. das Parametemach-schleppverfahren, das Nullanhängverfahren und das Filterverfahren durch das Synthesefiiter H(f) im Wellenformanordnungssubblock in Figur 7 durchgeführt.

Beim Quellenkodespeicherverfahren ist das Format der Sprachsegmentinformation wie in Figur 6B gezeigt, das das gleiche wie Figur 6A ist, mit Ausnahme des Inhalts des Teilwellenkodefeldes. Das heißt die Tonlagenpulssignale und die Spektralhüilparameter, die für die Synthese der Teilwellen notwendig sind, werden, anstelle der Teilwellen kodiert und gespeichert in den Positionen, wo die Teilwelle für jede Periode in Figur 6A zu speichern ist.

Die Spektralhüilparameter werden nach dem Quantisierungsverfahren nach dem Stand der Technik der Spektralhüilparameter kodiert und am Teilwellenkodefeld gespeichert. Zu diesem Zeitpunkt kann, wenn die Spektralhüilparameter vor der Quantisierung auf geeignete Weise umgewandelt werden, das Kodieren effizient durchgeführt werden. Beispielsweise ist es vorzuziehen, die Vorhersagekoeffizienten in die Parameter des Linienspektrumpaares und die Reflexionskoeffizienten in die Logarithmusflächenverhältnisse umzu-wandein und sie zu quantisieren. Des weiteren kann die Menge an Daten, die zum Speichern notwendig ist, da die Impulsreaktion eine enge Korrelation zwischen benachbarten Proben bzw. Abtastungen und zwischen benachbarten Impulsreaktionen aufweist, wenn sie nach einem Differentialkodierungsverfahren wellenformkodiert werden, beträchtlich verringert werden. Im Fall der Cepstrumparameter ist ein Kodierungsverfahren bekannt, bei dem der Cepstrumparameter so umgewandelt wird, daß die Menge an Daten beträchtlich verringert werden kann.

Andererseits wird das Tonlagenpulssignal nach einem geeigneten Wellenformkodierungsverfahren kodiert und der resultierende Kode wird am Teilwellenkodefeld gespeichert. Die Tonlagenpulssignale weisen geringe Kurzzeitkorrelation auf, weisen aber beträchtliche Langzeitkorrelation miteinander auf. Deshalb kann, wenn das Wellenformkodierungsverfahren wie das Tonlagen vorhersagende, adaptive PCM-Kodieren, das die Tonlagen vorhersagende Schleife aufweist, verwendet wird, qualitativ hochwertige synthetisierte Sprache erhalten werden, auch wenn die zum Speichern notwendige Speicherkapazität auf 3 Bits pro Probe bzw. Abtastung verringert ist. Der Vorhersagekoeffizient eines Tonlagenprädiktors bzw. -Vorhersagegeräts kann ein Wert sein, der für jede Tonlagenperiode nach einem Autokorrelationsverfahren erhalten wird, oder kann ein konstanter Wert sein. Auf der ersten Stufe des Kodierens kann die Tonlagenvorhersagewirkung durch eine Normalisierung erhöht werden, indem das zu kodierende Tonlagepulsignal durch die Quadratwurzel der durchschnittlichen Energie pro Probe bzw. Abtastung "G" dividiert wird. Das Dekodieren wird in einem Synthesebiock für stimmhafte Sprache durchgeführt, und das Tonlagenpuissignai wird wieder auf seine ursprüngliche Größe gebracht, indem am Ende des Dekodierungsschritts wieder mit "G" multipliziert wird.

In Figur 6B wird die Sprachsegmentinformation für den Fall gezeigt, daß ein lineares Vorhersageanalyseverfahren verwendet wird, bei dem 14 Reflexionskoeffizienten als die Spektralhüilparameter verwendet werden, Wenn das Analyseintervall für die lineare Vorhersageanaiyse die Tonlagenperiode ist, entsprechen 14 Reflexionskoeffizienten jedem Tonlagenpulssignal und werden gespeichert. Wenn das Analyseinterval! ein Block mit bestimmter Länge ist, haben die Reflexionskoeffizienten für mehrere Tonlagenpulse in einem Block die gleichen Werte, sodaß die Speicherkapazität, die für das Speichern der Teilwellen notwendig ist, 14

AT 400 646 B verringert wird. In diesem Fall muß, wie oben besprochen, die Position des Grenzpunkts zwischen Blöcken j; zusätzlich im Headerfeld gespeichert werden, da die Reflexionskoeffizienten des vorderen Blocks oder des späteren Blocks zum Zeitpunkt der Synthese für das Tonlagenpulsignal verwendet werden, das über die Grenze von zwei Blocks liegt, je nachdem, ob die Proben des Signals vor oder nach dem Grenzpunkt liegen. Wenn das sequentielle Analyseverfahren wie das rekursive Verfahren der kleinsten Quadrate verwendet wird, werden die Reflexionskoeffizienten kl, k2, . . . , k14 kontinuierliche Funktionen des Zeitindex "n" wie in Figur 30 gezeigt, und es ist viel Speicher erfoderlich, um die Zeitfunktion kl(n), k2(n),. .., k14(n) zu speichern. Wenn man den Fall von Figur 3 als Beispiel nimmt, sind die Wellenformen für das Intervall "ab" von Figur 3G und Figur 3H als die erste Periode und für das Intervall "bc" von Figur 3J und Figur 3K als die zweite Periode und für das Intervall "cd" von Figur 3M und Figur 3N als die dritte Periode des Teiiwellenkodefeldes im Teilwellenkodefeld gespeichert.

Das Wellenformkodespeicherverfahren und das Quellenkodespeicherverfahren sind im wesentlichen das gleiche Verfahren, und tatsächlich wird der Wellenformkode, der erhalten wird, wenn die Teilwellen nach dem effizienten Wellenformkodierungsverfahren wie dem APC (adaptives prädiktives Kodieren) im Wellen- formkodespeicherverfahren kodiert werden, fast der gleiche wie der Quellenkode, der im Quellenkodespeicherverfahren erhalten wird, was ihre Inhalte betrifft. Der Wellenformkode im Wellenformkodespeicherver- fahren und der Quellenkode im Quellenkodespeicherverfahren werden insgesamt als Teilwellenkode bezeichnet. ,..s

Figur 7 zeigt die innere Konfiguration des erfindungsgemäßen Syntheseblocks für stimmhafte Sprache.

Die Teilwellenkodes, die im Teilwellenkodefeld der Sprachsegmentinformation gespeichert sind, die vom Sprachsegmentspeicherblock erhalten wird, werden in dem Verfahren mit einem Dekodierungssubblock 9 dekodiert, das die Umkehrung des Verfahrens darstellt, in dem sie kodiert wurden. Die Teilwellensignale, die erhalten werden, wenn die Wellenformkodes im Wellenformkodespeicherverfahren dekodiert werden, oder die Tonlagenpulssignale, die erhalten werden, wenn die Quellenkodes im Quellenkodespeicherverfahren dekodiert werden, und die Spektralhüllparameter, die mit den Tonlagenpulssignalen gepaart werden, werden die Teilwelleninformation genannt, und werden dem Wellenformanordnungssubblock zugeliefert. Andererseits ist die im Headerfeld der Sprachsegmentinformation gespeicherte Headerinformation die Eingangsgröße für einen Dauersteuerungssubblock 10 und einen Tonlagensteuerungssubblock 11.

Der Dauersteuerungssubblock von Figur 7 empfängt als Eingang die Dauerdaten in der prosodischen Information und die Grenzzeitpunkte, die in der Sprachsegmentheaderinformation enthalten sind, und erzeugt die Zeitverzerrungsinformation unter Verwendung der Dauerdaten und der Grenzzeitpunkte und stellt die erzeugte Zeitverzerrungsinformation dem Wellenformanordnungssubblock 13, dem Tonlagensteu-ersubblock und dem Energiesteuersubblock zur Verfügung. Wenn die Gesamtdauer des Sprachsegments V' länger oder kürzer wird, wird die Dauer von Subsegmenten, die das Sprachsegment ausmachen, entsprechend länger oder kürzer, wobei das Verhältnis der Ausdehnung oder Komprimierung von der Eigenschaft eines jeden Subsegments abhängt. Beispielsweise hat in dem Fall, indem der Vokal Konsonanten davor und danach aufweist, die Dauer des Intervalls im stabilen Zustand, das sich in der Mitte befindet, eine im * wesentlichen größere Variationsrate als diejenigen der Übergangsintervalle an beiden Seiten des Vokals.

Der Dauersteuerungssubblock vergleicht die Dauer BL des ursprünglichen Sprachsegments, die gespei- ' ' 1 chert wurde, mit der Dauer des zu synthetisierenden Sprachsegments, die durch die Dauerdaten angege- ' ben wird, und erzielt die Dauer eines jeden Subsegments, das entsprechend zur Dauer jedes ursprünglichen Subsegments unter Verwendung ihrer Variationsrate oder der Dauerregel synthetisiert werden soll, wodurch die Grenzzeitpunkte der synthetisierten Sprache erhalten werden. Die ursprünglichen Grenzzeitpunkte B1, B2 usw. und die Grenzzeitpunkte ΒΊ, B'2 usw. der synthetischen Sprache, verknüpft entspre-chend den ursprünglichen Grenzzeitpunkten werden insgesamt als die Zeitverzerrungsinformation bezeich- j net, auf der im Fall von Figur 8 beispielsweise die Zeitverzerrungsinformation durch {(Β1,ΒΊ), (B1,B'2), (B2, B'3), (B3,B'3), (B4, B'4)} dargestellt werden kann. ! 4

Die Funktion des Tonlagensteuerungssubblocks von Figur 7 besteht darin, die Tonlagenpulspositionsin- 's

formation zu erzeugen, sodaß die synthetische Sprache das durch die Intonationsmusterdaten angegebene Intonationsmuster aufweist, und sie dem Wellenformanordnungssubblock und dem Energiesteuerungssubblock zu liefern. Der Tonlagensteuerungssubblock empfängt als Eingangsgröße die Intonationsmusterdaten, die die Zieltonlagenfrequenzwerte für jedes Phonem sind, und erzeugt eine Tonlagenkontur, die die kontinuierliche Variation der Tonlagenfrequenz bezogen auf die Zeit darstellt, indem die Zieltoniagenfre- H quenzwerte glatt verbunden werden. Der Tonlagensteuerungssubblock kann aufgrund eines Hemmnisses 1 für die Tonlagenkontur ein Mikrointonationsphänomen reflektieren. Jedoch wird die Tonlagenkontur in diesem Fall eine diskontinuierliche Funktion, bei der der Tonlagenfrequenzwert bezogen auf Zeit am ‘ '

Grenzpunkt zwischen dem hemmenden Phonem und dem benachbarten anderen Phonem abrupt variiert.

Die Tonlagenfrequenz wird erhalten, indem die Tonlagenkontur an der ersten Tonlagenpulsposition des 15

AT 400 646 B

Sprachsegments abgetastet wird, und die Tonlagenperiode wird erhalten, indem ein Kehrwert der Tonlagenfrequenz genommmen wird, und dann wird der Punkt, dem die Tonlagenperiode vorangeht, als die zweite Tonlagenpulsposition bestimmt. Die nächste Tonlagenperiode wird dann von der Tonlagenfrequenz an diesem Punkt erhalten, und die nächste Tonlagenpulsposition wird wiederum erhalten, und die Wiederholung eines derartigen Verfahrens könnte alle Tonlagenpulspositionen der synthetisierten Sprache ergeben. Die erste Tonlagenpulsposition des Sprachsegments kann als die erste Probe bestimmt werden, oder ihre benachbarten Proben im Fall des ersten Sprachsegments einer Serie der kontinuierlichen stimmhaften Sprachsegmente der synthetisierten Sprache, und die erste Tonlagenpulsposition für das nächste Sprach-segment wird als der Punkt bestimmt, der der Position des Tonlagenpulses nächststehend dem letzten Tonlagenpuls des vorhergehenden Sprachsegments entspricht, und so weiter. Der Tonlagensteuerungssubblock schickt die Tonlangepuispositionen ΡΊ, P'2 usw. der synthetischen Sprache, die als solche erhalten wird, und die ursprünglichen Tonlagenpulspositionen P1, P2 usw., die in der Sprachsegmentheaderinforma-tion enthalten sind, gemeinsam miteinander verbunden zum Wellenformanordnungssubblock und dem Energiesteuerungssubblock, wo sie die sogenannte Tonlagenpulspositionsinformation sind. Im Fall von Figur 8 beispielsweise kann die Tonlagenpulspositionsinformation als {(P1, P2, . . . P9), (ΡΊ, P'2.....P'8)} dargestellt werden.

Der Energiesteuerungssubblock von Figur 7 erzeugt Verstärkungsinformation, durch die die synthetisierte Sprache das durch die Betonungsmusterdaten angegebene Betonungssmuster aufweist, und schickt sie an den Wellenformanordnungssubbiock. Der Energiesteuerungssubblock empfängt als Eingangsgröße die Betonungsmusterdaten, die die Zielamplidutenwerte für jedes Phonem sind, und erzeugt eine Energiekontur, die die kontinuierliche Variation der Amplitude bezogen auf die Zeit darstellt, indem sie sie glatt verbindet. Es wird angenommen, daß die Sprachsegmente im vorhinein zum Zeitpunkt des Speichems normalisiert werden, sodaß sie relative Energie entsprechend der Klasse des Sprachsegments aufweisen, um die relative Energiedifferenz für jedes Phonem zu reflektieren. Zum Beispiel hat im Fall der Vokale ein tiefer Vokal eine größere Energie pro Zeiteinheit als ein hoher Vokal, und ein nasaler Laut hat etwa die Hälfte der Energie pro Zeiteinheit im Vergleich mit dem Vokal. Desweiteren ist die Energie während des Schlußintervalls des Verschlußlauts sehr schwach. Daher sollen die Sprachsegmente, wenn sie gespeichert werden, nach dem Einstelien im vorhinein kodiert werden, sodaß sie eine derartige relative Energie aufweisen. In diesem Fall wird die im Energiesteuerungssubblock erzeugte Energiekontur eine Verstärkung, die zur zu synthetisierenden Wellenform zu multiplizieren ist. Der Energiesteuerungssubblock erhätt die Verstärkungswerte G1, G2 usw an jeder Tonlagenpulsposition ΡΊ, P'2 usw. der synthetischen Sprache unter Verwendung der Energiekontur und der Tonlagenpuispositionsinformation, und liefert diese an den Wellenformanordnungssubbiock, was als die Verstärkungsinformation bezeichnet wird. Im Fall von Figur 8 zum Beispiel kann die Verstärkungsinformation als {(P'1,G1), (P'2,G2),.... (P'8, G8)} dargestellt werden.

Der Wellenformanordnungssubbiock von Figur 7 empfängt als Eingangsgröße die oben beschriebene Teilwelleninformation, Zeitverzerrungsinformation, Toniagenpulspositionsinformation und Verstärkungsinformation und erzeugt schließlich das stimmhafte Sprachsignal. Der Wellenformanordnungssubbiock erzeugt die Sprache, die das Intonationsmuster, Betonungsmuster und die Dauer wie durch die prosodische Information angegeben aufweist, indem die vom Dekodierungssubblock erhaltene Teilwelleninformation verwendet wird. Zu diesem Zeitpunkt werden einige der Teilwellen wiederholt und einige werden weggelassen. Die in der prosodischen Information enthaltenen Dauerdaten, Intonationsmusterdaten und Betonungsmusterdaten sind voneinander unabhängige indikative Informationen, während sie miteinander verbunden behandelt werden müssen, weil sie eine gegenseitige Beziehung zwischen diesen drei Informationen aufweisen, wenn die Wellenform mit der Teilwelleninformation synthetisiert wird. Eines der wichtigsten Probleme bei der Wellenformanordnung besteht darin, welche Teilwelle als die Teilwelie auszuwählen ist, die an jeder Tonlagenpulsposition der synthetisierten Sprache anzuordnen ist. Wenn nicht die richtigen Teilwellen ausgewählt und angeordnet werden, kann synthetische Sprache mit guter Qualität nicht erhalten werden. Unten wird eine Beschreibung des Betriebs des Wellenformanordnungssubblocks angegeben, wobei das erfindungsgemäße Teiiwellenverschiebungs- bzw. neuadressierungsverfahren auf Zeitverzerrungsbasis verwendet wird, das ein Teilwellenverschiebungsverfahren ist, das fähig ist, beim Synthetisieren der synthetischen Sprache hohe Qualität zu erreichen, indem die Sprachsegmentinformation verwendet wird, die vom Sprachsegmentspeicherblock empfangen wird.

Das Syntheseverfahren für stimmhafte Sprachwellenform des Wellenformanordnungssubblocks besteht aus zwei Schritten, nämlich dem Teilwellenverschiebungsschritt, bei dem die Zeitverzerrungsfunktion verwendet wird, und dem Überlagerungsschritt zum überlagern der verschobenen bzw. neu adressierten Teilwellen.

Das heißt, im Fall des Wellenformkodespeicherverfahrens werden aus den Teilwellensignalen, die als die Teilwelleninformation empfangen werden, die am besten geeigneten für die Tonlagenpulspositionen der

16

AT 400 646 B synthetischen Sprache ausgewählt und an ihren Tonlagenpulspositionen angeordnet, und ihre Verstärkungen werden eingestellt, und danach wird die synthetische Sprache erzeugt, indem diese überlagert werden.

Beim Quellenkodespeicherverfahren werden das Tonlagenpulssignal und die Spektralhüllparameter für jede Periode, die dem Tonlagenpulssignal entspricht, als die Teilwelleninformation empfangen. In diesem 5 Fall sind zwei Anordnungsverfahren für synthetische Sprache möglich. Das erste Verfahren besteht darin, jede Teilwelle zu erhalten, indem an das Synthesefilter die Spektralhüllparameter und das Tonlagenpulssignal für 2 bis 4 Periodenintervallängen gegeben werden, die durch Durchführen der Verfahren erhalten werden, die der rechten Seite des Puffers von Rgur 4 entsprechen, d.h. dem oben beschriebenen Parametemachschleppen und dem Nulianhängen um die Teilwelleninformation herum, und dann die io synthetische Sprache mit den Teilwellen entsprechend zu jenem im Wellenformkodespeicherverfahren identischen Verfahren zusammenzustellen. Dieses Verfahren ist grundsätzlich das gleiche wie das Zusammenstellen der synthetischen Sprache gemäß dem Wellenformkodierungsspeicherverfahren und daher wird eine eigene Beschreibung weggelassen. Die zweite Methode besteht im Erhalten eines synthetischen Tonlagenpulsserien- bzw. -abfolgesignals oder synthetischen Erregungssignals, das eine flache spektrale 15 Umhüllung aber ein Tonlagenmuster unterschiedlich von jenem des ursprünglichen periodischen Tonlagenpulsserien- bzw. -abfolgesignals aufweist, in dem jene ausgewählt werden, die am besten passend zu den Tonlagenpulspositionen der synthetischen Sprache sind unter den Tonlagenpuissignalen, und diese anordnet und ihre Verstärkungen einstellt, und danach diese überlagert, und synthetische spektrale Hüllparameter erhält, die durch Inbeziehungsetzen der Spektralhüllparameter mit jedem Tonlagenpulssignal gemacht 20 werden, das synthetische Tonlagenpulsseriensignal oder das synthetische Erregungssignal bildend und dann die synthetische Sprache zu erzeugen, indem das synthetische Erregungssignal und die synthetischen spektralen Hüllparameter an das Synthesefilter gegeben werden. Diese beiden Verfahren sind im wesentlichen identisch, mit der Ausnahme, daß die Abfolge zwischen dem Synthesefilter und dem überlagerungsverfahren beim Zusammenstellen der synthetischen Sprache umgedreht wird. 25 Das oben beschriebene Verfahren zum Zusammenstellen synthetischer Sprache wird unten unter Bezugnahme auf Figur 8 beschrieben. Das Teilwellenverschiebungsverfahren kann im wesentlichen gleichermaßen auf das Wellenformkodespeicherverfahren und das Quellenkodespeicherverfahren angewandt werden. Deshalb werden die Wellenformanordnungsverfahren für synthetische Sprache in den beiden Verfahren gleichzeitig unter Bezugnahme auf Figur 8 beschrieben. 3o In Figur 8A ist die Korrelation zwischen dem ursprünglichen Sprachsegment und dem zu synthetisierenden Sprachsegment veranschaulicht. Die ursprünglichen Grenzzeitpunkte B1, B2 usw., die in gepunkteten Linien angegeben sind, die Grenzzeitpunkte ΒΊ, B'2 usw. des synthetisierten Lauts und die durch strichlierte Linien angegebene Korrelation zwischen ihnen sind in der Zeitverzerrungsinformation enthalten, die vom Dauersteuerungssubblock erhalten wird. Außerdem sind die ursprünglichen Tonlagenpulspositionen 35 P1, P2 usw., die durch die durchgehenden Linien angegeben sind, und die Tonlagenpulspositionen ΡΊ, P'2 usw. des synthetisierten Lauts in der vom Tonlagensteuerungssubblock empfangenen Tonlagenpulspositionsinformation enthalten. Zur Zweckmäßigkeit der Erklärung in Figur 8 wird angenommen, daß die Tonlagenperiode der ursprünglichen Sprache und die Tonlagenperiode des synthetisierten Lauts jeweils konstant sind und letztere das 1,5-fache der ersteren beträgt. 40 Der Wellenformanordnungssubblock bildet zuerst die Zeitverzerrungsfunktion wie in Figur 8B gezeigt, indem die ursprünglichen Grenzzeitpunkte, die Grenzzeitpunkte des synthetisierten Lauts und die Korelation zwischen ihnen verwendet werden. Die Abszisse der Zeitverzerrungsfunktion stellt die Zeit "t" des ursprünglichen Sprachsegments dar, und die Ordinate stellt die Zeit "t,n des zu synthetisierenden Sprach-segments dar. In Rgur 8A zum Beispiel erscheint da das erste Subsegment und das letzte Subsegment 45 des ursprünglichen Sprachsegments auf das 2/3-fache komprimiert bzw. auf das 2-fache ausgedehnt werden sollte, die Korrelation davon als die Linien der Neigung von 2/3 bzw. 2 in der Zeitverzerrungsfunktion von Figur 8B. Das zweite Subsegment variiert nicht in seiner Dauer, sodaß es als eine Linie mit ein«· Neigung von 1 in der Zeitverzerrungsfunktion erscheint. Das zweite Subsegment des zu synthetisierenden Sprachsegments resultiert aus der Wiederholung des Grenzzeitpunkts "B1" des ursprünglichen Sprachseg-50 ments und im Gegensatz dazu variiert das dritte Subsegment des ursprünglichen Sprachsegments zu einem Grenzzeitpunkt "B'3" im zu synthetisierenden Sprachsegment. Die Korrelationen in solchen Fällen erscheinen jeweils als eine vertikale Linie und eine horizontale Linie. Die Zeitverzerrungsfunktion wird so erhalten, indem der Grenzzeitpunkt des ursprünglichen Sprachsegments und der Grenzzeitpunkt des zu synthetisierenden Sprachsegments, der dem Grenzzeitpunkt des ursprünglichen Sprachsegments errt-55 spricht, als zwei Punkte dargestellt werden und diese mit einer Linie verbunden werden. Es kann in manchen Fällen möglich sein, die Korrelation zwischen den Subsegmenten der Realität näher dazustellen, indem die Punkte mit einer glatten bzw. gleichmäßigen Kurve verbunden werden. 17 m

AT 400 646 B

Beim Weilenformkodespeicherverfahren findet der Weilenformanordnungssubblock den ursprünglichen Zeitpunkt heraus, der der Tonlagenpulsposition des synthetischen Lauts entspricht, indem die Zeitverzerrungsfunktion verwendet wird, und findet die Teilwelle heraus, die die dem ursprünglichen Zeitpunkt am nähesten gelegene Tonlagenpulsposition aufweist, und lokalisiert die Teilwelle dann an der Tonlagenpulspo-5 sition des synthetischen Lauts. Im nächsten Schritt multipliziert der Wellenformanordnungssubblock jedes lokalierte Teilwellensignal mit die Verstärkung, der der Tonlagenpulsposition des Teilwellensignals entspricht, das von der Verstärkungsinformation herausgefunden wird, und erzielt schließlich den gewünschten synthetischen Laut, in dem die Verstärkungseingestellten Teilwellensignale überlagert werden, indem sie einfach addiert werden. In Figur 70 3Q ist der synthetische Laut dargestellt, der durch ein derartiges Überlagerungsverfahren erzeugt wurde, für den Fall, daß die Teilwellen von Figur 31, Figur 3L, Figur 3(0) wie in Figur 3P verschoben bzw. neuangeordnet werden. Auf ähnliche Weise findet im Quellenkodespeicherverfahren der Wellenformanordnungssubblock den ursprünglichen Zeitpunkt heraus, der der Tonlagenpuisposition des synthetischen Lauts entspricht, indem 75 die Zeitverzerrungsfunktion verwendet wird, und findet das Tonlagenpulssignal heraus, das die Tonlagenpuisposition dem ursprünglichen Zeitpunkt am nächsten aufweist, und lokalisiert dann das Tonlagenpulssi-gnal an der Tonlagenpulsposition des synthetischen Lauts. Die Zahlen für die Tonlagenpulssignale oder die Teiiwellen, die auf diese Weise an jeder Tonlagenpulsposition des zu synthetisierenden Sprachsegments lokalisiert werden, werden in den Figuren SA und 8B 20 gezeigt. Wie in den Zeichnungen zu sehen ist, sind aufgrund der Komprimierung der Subsegmente einige der Teilwellen, aus denen das ursprüngliche Sprachsegment besteht, weggelassen, und einige werden aufgrund der Ausdehnung der Subsegmente wiederholt verwendet. In Figur 8 wurde angenommen, daß das Tonlagenpulssignal für jede Periode durch Segmentieren unmittelbar nach jedem Tonlagenpuls erhalten wurde. 25 Die Überlagerung der Teilwellen im Wellenformkodespeicherverfahren entspricht der Überlagerung der Tonlagenpulssignale im Quellenkodespeicherverfahren. Deshalb multipliziert im Fall des Quellenkodespeicherverfahrens der Wellenformanordnungssgbblock jedes verschobene Tonlagenpulssignal mit die Verstärkung, die der Tonlagenpulsposition des verschobenen Tonlagenpulssignals entspricht, das von der Verstärkungsinformation herausgefunden wurde, und erzielt schließlich das gewünschte synthetische Erregungssi-30 gnal, indem die Verstärkungseingestellten Tonlagenpulssignale überlagert werden. Jedoch kann es in diesem Fall, da die meiste Energie am Tonlagenpuls konzentriert ist, möglich sein, das synthetische Erregungssignal herzustellen, indem zuerst ein synthetisches Erregungssignal ohne Verstärkungseinstellung erhalten wird, indem die lokalisierten Tonlagenpulssignale überlagert werden, und das synthetische Erregungssignal ohne Verstärkungseinstellung dann mit der Energiekontur multipliziert wird, die am Energie-35 steuerungssubblock erzeugt wird, anstatt die konstant-verstärkungseingestellten Tonlagenpulssignale zu überlagern. Figur 3R zeigt das synthetische Erregungssignal, das erhalten wird, wenn die Tonlagenpulssignale von Figur 3H, Figur 3K, Figur 3N nach einem solchen Verfahren verschoben werden, sodaß das Tonlagenmuster das gleiche wie für den Fall von Figur 3P wird. Beim Quellenkodespeicherverfahren ist es notwendig, daß der Wellenformanordnunggssubblock die 40 synthetischen Spektralhüllparameter erzeugt, und es sind zwei Wege möglich, nämlich das in Figur 8A gezeigte zeitliche Komprimierungs-und-Expansions-Verfahren und das in Figur 8B gezeigte Synchronzuordnungsverfahren. Wenn die Spektralhüllparameter bezogen auf die Zeit kontinuierliche Funktionen sind, und die Hülle des Sprachspektrums vollständig darstellen, können die synthetischen Spektralhüllparamter einfach erhalten werden, indem die ursprünglichen Spektralhüllparameter auf einer Subsegement-für-45 Subsegment-Basis zeitlich komprimiert oder ausgedehnt werden. In Figur 8A ist der durch·Sequenzanalyseverfahren erhaltene Spektralhüllparameter als eine gepunktete Kurve dargestellt, und der durch Annähem der Kurve durch Verbinden mehrerer Punkte wie A, B, C usw. mit Liniensegmenten kodierte Spektralhüllparameter ist als durchgehende Linie dargestellt. Da nur die zeitliche Position eines jeden Punkts variiert, um die Punkte A\ B\ C' usw. als ein Ergebnis der zeitlichen Komprimierung und Expansion bzw. Ausdehnung so zu ergeben, ist ein derartiges Liniensegmentkodierungsverfahren besonders geeignet für den Fall des zeitlichen Komprimierens und Ausdehnens. Jedoch kann im Fall der Verwendung des Blockanalyseverfahrens oder des Tonlagensynchronanalyseverfahrens, da die Spektralpaarung nicht präzise ist und die zeitliche Variation des Spektralhüllparameters diskontinuierlich ist, das zeitliche Komprimierungs-und-Aus-dehnungs-Verfahren nicht die gewünschte synthetische Klangqualität ergeben, und es ist vorzuziehen, das 55 Synchronzuordnungsverfahren zu verwenden, bei dem die synthetischen Spektralhüllparater durch Korrelieren der Spektralhüllparameter für jedes Tonlagenperiodenintervall mit jedem entsprechenden Tonlagenpulssignal, wie in Figur 8B gezeigt, zusammengestellt werden. Das heißt, da die Teilwelle im Wellenformkodespeicherverfahren dem Tonlagenpulssignal und den entsprechenden Spektralhüllparametern für das gleiche •:P: |j -w :'Ui i- 'm-i

! -i :.:,1 #5 iüiiifi '!!!;*!

18

AT 400 646 B

Tonlagenperiodenintervall äquivalent ist, können die synthetischen SpektralhQliparameter hergestellt werden, indem die Spektralhüllparameter für eine Periodenintervall am gleichen Periodenintervall eines jeden lokalisierten Tonlagenpulssignals synchron lokalisiert werden. In Figur 8B werden kl, das einer der Spektraihüllparameter ist, und k'1, das der synthetische Spektralhüllparameter ist, der k1 entspricht, das durch derartige Verfahren für das Blockanalyseverfahren und das Tonlagensynchronanalyseverfahren zusammengestellt ist, in der durchgehenden Linie bzw. in der gepunkteten Linie gezeigt Natürlich kann, wie oben gesagt, mit dem durch Sequenzanalyseverfahren erhaltenen Spektraihüllparameter der synthetische Spektraihüllparameter nach dem Verfahren von Figur 8A zusammengestellt werden. Wenn beispielsweise das Tonlagenpulssignal für jede Periode wie in Figur 3R gezeigt verschoben worden ist, werden die Spektraihüllparameter für jede Periode wie in Rgur 3S gezeigt in Übereinstimmung mit den Tonlagenpulssignalen lokalisiert.

Zum Zeitpunkt des Zusammenstellens des synthetischen Erregungssignals und der synthetischen Spektraihüllparameter im Quellenkodespeicherverfahren entsteht dann ein Leerintervall bzw. eine Austastlücke zwischen zwei benachbarten Tonlagenperiodenintervallen, wie in schrägen Linien in Rgur 8 gezeigt, wenn die Tonlagenperiode des synthetisierten Lauts länger als die ursprüngliche Tonlagenperiode ist. Wenn die Tonlagenperiode des synthetisierten Lauts kürzer als die ursprüngliche Tonlagenperiode ist, treten Überlappungsintervalle auf, bei den zwei benachbarte Tonlagenperiodenintervalle einander überlappen. Das Überlappungsintervall "fb" und die Austastlücke "gh" werden beispielsweise in Rgur 3R und Figur 3S gezeigt. Wie zuvor beschrieben sollen die verschobenen Tonlagenpulssignale zur Zeit des Überlappens überlagert werden. Jedoch ist es vernünftig, daß aus den in Übereinstimmung mit den Tonlagenpulssignalen verschobenen Spektralhüllparametem ein Durchschnitt gebildet wird, anstatt daß sie zum Zeitpunkt des Überiappens überlagert werden. Deshalb ist das Anordnungsverfahren des synthetischen Erregungssignals und der synthetischen Spektraihüllparameter unter Berücksichtung der Austastlücken und der Überlappungsintervalle folgendes.

Die Proben mit Nullwert werden zur Zeit des Zusammenstellens des synthetischen Erregungssignals in die Austastlücke eingefügt. Im Fall eines stimmhaften Reiblauts, kann ein natürlicherer Laut synthetisiert werden, wenn das hochpaßgefilterte Rauschsignal anstelle der Proben mit Nullwert in die Austastlücke eingefügt wird. Es ist notwendig, daß die verschobenen Tonlagenpulssignale im Überlappungsintervall addiert werden. Da ein derartiges Additionsverfahren mühsam ist, ist es zweckmäßig, ein Verstümmeiungs bzw. Abstumpfungsverfahren zu verwenden, bei dem nur ein Signal von zwei Tonlagenpulssignal«! ausgewählt wird, die im Überlappungsintervall überlappen. Die Qualität des synthetisierten Lauts wird bei Verwendung des Abstumpfungsverfahrens nicht wesentlich vermindert. In Figur 3R wurde die Austastlücke gh mit Nullproben gefüllt, und das Tonlagenpulssignal des vorderen Intervalls wurde im Überlappungsintervall fb ausgewählt. Das heißt, im Fall des Auftretens von Überlappung wurde das vordere von den Überlappungsintervallen eines jeden Tonlagenpulssignals abgestumpft bzw. verstümmelt, und dieses Verfahren ist physikalisch sinnvoller im Vergleich zu dem Verfahren, bei dem die Tonlagenpulssignale durch Segmentieren unmittelbar vor dem Tonlagenpuls hergestellt werden, und zur Zeit der Synthese das letztere von den Überlappungsintervallen des Tonlagenpulssignals abgestumpft wird, wenn sie überlappen, wie zuvor beschrieben. In der Realität jedoch macht keines der Verfahren einen wesentlichen Unterschied für die Klangqualität des synthetisierten Lauts.

Zur Zeit des Zusammenstellens des synthetischen Spektralhüllparameters ist es ideal, daß die Austast-lücke mit Werten gefüllt wird, die linear von einem Wert des Spektralhüllparameters am Endpunkt des vorhergehenden Periodenintervalls zu einem Wert des Spektralhüllparameters am Beginnpunkt der folgenden Periode variieren, und daß im Überlappungsintervall der Spektraihüllparameter allmählich vom Spektraihüllparameter der vorhergehenden Periode zu jenem der folgenden Periode variiert, indem das Interpolationsverfahren verwendet wird, bei dem der Durchschnitt von zwei überlappenden Spektralhüllparametem mit Gewichtswerten erhalten wird, die linear bezüglich der Zeit variieren. Da diese Verfahren jedoch mühsam sind, kann das folgende Verfahren verwendet werden, das zweckmäßiger ist und die Klangqualität nicht wesentlich vermindert. Das heißt, für den Spektraihüllparameter in der Austastlücke kann der Wert des Spektralhüllparameters am Endpunkt des vorhergehenden Periodenintervalls wiederholt wie in Figur 8b verwendet werden, oder der Wert des Spektralhüllparameters am Beginnpunkt des folgenden Periodenintervalls wiederholt verwendet werden, es kann der arithmetische Durchschnittswert der beiden Spektralhüllparameter verwendet werden oder die Werte des Spektralhüllparameters an den End- und Beginnpunkten den vorhergehenden bzw. der folgenden Periodenintervalle können vor und nach der Mitte der Austastlücke, die eine Grenze ist, verwendet werden. Für den Spektraihüllparameter im Überlappungsintervall kann einfach jeder Teil ausgewählt werden, der dem ausgewählten Tonlagenpuls entspricht. In Rgur 3S beispielsweise wurden, da das Tonlagenpulssignal für das vorhergehende Periodenintervall als das synthetische Erregungssignal im Überlappungsintervall "fb" ausgewählt wurde, die Parameterwerte für das vorhergehende 19

AT 400 646 B

Periodenintervall ebenso als die synthetischen SpektralhQllparameter ausgewählt. In der Austastlücke "gh" von Figur 8b und Figur 3S wurden jeweils die Parameterwerte des Spektralhüllparameters am Ende des vorhergehenden Periodenintervalls verwendet. Selbstverständlich ergeben im Fall von Figur 3S, in dem der Spektralhüllparameter eine kontinuierliche Funktion bezogen auf die Zeit ist, das Verfahren, bei dem der letzte Wert des vorhergehenden Periodenintervalls oder der erste Wert des folgenden Periodenintervalls wiederholt während der Austastlücke verwendet wird, und das Verfahren, bei dem die beiden Werte während der Austastlücke linear variiert werden, das gleiche Ergebnis.

Wenn einmal das gesamte synthetische Erregungssignal und die synthetischen Spektralhüliparameter für ein Segment zusammengestellt worden sind, glättet der Welienformanordnungssubblock normalerweise beide Enden der zusammengestellten synthetischen Spektralhüliparameter, wobei das lnterpolationsverfah-ren verwendet wird, sodaß die Variation des Spektralhüllparameters zwischen benachbarten Sprachsegmen-ten glatt ist. Wenn das synthetische Erregungssignal und die synthetischen Spektralhüliparameter wie oben zusammengestellt als das Erregungssignal bzw. die Filterkoeffizienten in das Synthesefilter im Wellenforma-nordungssubblock eingegeben werden, wird der gewünschte synthetische Laut schließlich vom Synthesefilter abgegeben. Das synthetische Erregungssignal, das erhalten wird, wenn die Tonlagenpulssignale von Figur 3H, 3K und 3N verschoben werden, sodaß das Tonlagenmuster das gleiche wie in Figur 3P ist, wird in Figur 3R gezeigt, und die durch entsprechende Spektralhüliparameter für eine Periode von Figur 3G, 3J und 3M zu den Tonlagenpulssignalen im synthetischen Erregungssignal von Figur 3R erhaltenen synthetischen Spektralhüliparameter werden in Figur 3S gezeigt. Das Aufbauen eines zeitvariierenden Synthesefilters, das als die Filterkoeffizienten die Reflexionskoeffizienten aufweist, die wie in Figur 3S gezeigt variieren, und das Eingeben des synthetischen Erregungssignals wie in Figur 3R gezeigt an das zeitvariierende Synthesefilter ergibt den synthetisierten Laut von Figur 3T, der beinahe der gleiche ist wie der synthetisierte Laut von Figur 3P.

Wenn nun das Wellenformkodespeicherverfahren und das Quellenkodespeicherverfahren verglichen werden, können die beiden Verfahren als im Prinzip identisch betrachtet werden. Jedoch gibt es beim Verknüpfen der Sprachsegmente mit schlechter Verbindbarkeit miteinander einen Unterschied dahingehend, daß es möglich ist, im Fall des Quellenkodespeicherverfahrens den glatt verbundenen Laut zu synthetisieren, indem die Spektralhüliparameter unter Verwendung des Interpolationsverfahrens geglättet werden, das aber im Fall des Wellenformkodespeicherverfahrens unmöglich ist. Des weiteren erfordert das Quellenkodespeicherverfahren einen kleineren Speicher als das Wellenformkodespeicherverfahren, da im Quellenkodespeicherverfahren die Wellenform von nur einer Periodenlänge pro Teilwelle gespeichert werden muß, und hat den Vorteil, daß es leicht ist, die Funktion des Syntheseblocks für stimmhaften Laut und die Funktion des oben beschriebenen Syntheseblocks für nicht stimmhaften Laut zu integrieren. Im Fall der Verwendung des homomorphen Analyseverfahrens kann im Wellenformkodespeicherverfahren das Cepstrum oder die Impulsreaktion als der Spektralhüllparametersatz verwendet werden, während es beim Quellenkodespei- IF cherverfahren praktisch unmöglich ist, das Cepstrum zu verwenden, das die Berechnung auf Blockbasis erfordert, da die Dauer des Syntheseblocks, der die Werte der konstanten synthetischen Spektralhüllparameter aufweist, Block für Block variiert, wie aus dem synthetischen Spektralhüliparameter von Figur 8B zu ersehen ist, das darin mit einer durchgehenden Linie dargestellt ist. Das Quellenkodespeicherverfahren gemäß vorliegender Erfindung verwendet den Tonlagenpuls einer Periode als den Erregungspuls. Jedoch unterscheidet es sich vom regulären Tonlagenpulserregungsverfahren nach dem Stand der Technik, das beabsichtigt, den Impuls durch einen Probentonlagenpuls zu substituieren insofern, als gemäß vorliegender Erfindung der Tonlagenpuls einer jeden Periode und die Spektralhüliparameter einer jeden Periode, die dem Tonlagenpuls entspricht, miteinander verbunden werden, um die Teilwelle einer jeden Periode zu erzeugen.

Wie aus der obigen Beschreibung zu sehen ist, eignet sich die vorliegende Erfindung für das Kodieren und Dekodieren des Sprachsegments des Text-zu-Sprache-Synthesesystems des Sprachsementsynthese-verfahrens. Da die vorliegende Erfindung ein Verfahren ist, bei dem die Gesamt- und Teildauer und das Tonlagenmuster der willkürlichen phonetischen Einheiten wie Phonem, Halbsilbe, Diphon und Subsegment usw., aus denen die Sprache besteht, frei und unabhängig verändert werden können, kann sie in einem Sprachgeschwindigkeitsumwandlungssystem oder Zeitmaßstabmodifikationssystem verwendet werden, das die Sprechgeschwindigkeit in einem konstanten Verhältnis so verändert, daß sie rascher oder langsamer als die ursprüngliche Geschwindigkeit ist, ohne daß das Intonationsmuster der Sprache geändert wird, und sie kann auch in einem Singstimmensynthesesystem oder einem Sprachcodierungssystem mit sehr niedriger Geschwindigkeit wie einem phonetischen Sprachverschlüsselungsgerät oder einem Segmentsprachver-schlüsselungsgerät verwendet werden, das die Sprache transferiert, indem die Dauer und Tonlage von im vorhinein gespeicherten Modelisprachsegmenten verändert werden. .

20

Claims

AT 400 646 B Ein weiteres Anwendungsgebiet der vorliegenden Erfindung ist das Musikklangsynthesesystem wie das elektronische Musikinstrument des Abtastverfahrens. Da nach dem Stand der Technik für Abtastverfahren für elektronische Musikinstrumente beinahe der gesamte Klang innerhalb des Tonumfangs von elektronischen Musikinstrumenten digital wellenformkodiert, gespeichert und reproduziert werden, wenn das die Tastatur erfordert usw., gibt es einen Nachteil, daß ein großer Teil des Speichers zum Speichern des Musikklangs erforderlich ist. Wenn aber das periodische Wellenformzerlegungs- und das Teilwellenverschiebungsverfahren gemäß vorliegender Erfindung verwendet werden, kann die erforderliche Speicherkapazität beträchtlich verringert werden, da die Laute bzw. Klänge von verschiedenen Tonlagen synthetisiert werden können, indem die Töne von nur wenigen Arten von Tonlagen abgetastet werden. Der musikalische Klang besteht typischerweise aus 3 Teilen, nämlich einem Anschlag, einem Aushalten und einem Ausklin-gen. Da die Spektrumeinhüllende allmählich nicht nur zwischen den 3 Teilen sondern auch innerhalb des Aushaltens variiert, variiert auch die Klangfarbe entsprechend. Wenn die Musikklangsegmente nach dem oben beschriebenen periodischen Wellenformzerlegungsverfahren kodiert und gespeichert werden, wobei die geeigneten Punkte, an denen das Spektrum im wesentlichen variiert, als die Grenzzeitpunkte genommen werden, und wenn der Klang nach dem oben beschriebenen Teilwellenverschiebungsverfahren auf Zeitverzerrungsbasis synthetisiert wird, wenn die Tastatur usw. das verlangt, kann daher dann musikalischer Klang mit willkürlich gewünschter Tonlage synthetisiert werden. Jedoch wird es in Fällen, in denen das musikalische Klangsignal nach dem linearen Vorhersageanalyseverfahren auseinandergerollt wird, da es eine Tendenz gibt, daß die präzise Spektralhülle nicht erhalten wird und der Tonlagenpuls nicht spitz bzw. spitz ist, empfohlen, die Anzahl an Spektralhüllparametern zu verringern, die zur Analyse verwendet werden, und das Signal vor der Analyse zu differenzieren. Obwohl diese Erfindung in ihrer bevorzugten Form mit einem gewissen Grad an Spezifität beschrieben vorden ist, werden Fachleute anerkennen, daß die vorliegende Offenbarung der bevorzugten Form nur beispielhaft gemacht worden ist und daß zahlreiche Veränderungen in den Details der Konstruktion, Kombination und Anordnung der Teile durchgeführt werden können, ohne daß vom Geist und Schutzumfang der Erfindung abgegangen wird. Patentansprüche 1. Sprachsegmentkodierungsverfahren zur Anwendung in einem Sprachsynthesesystem, dadurch gekennzeichnet, daß es umfaßt: das Bilden von Teilwelien durch das Ermitteln von Parametern, die eine Spektralhülle in jedem Analysezeitintervall darstellen, durch das Analysieren eines periodischen oder quasi-periodischen digitalen Signals unter Verwendung einer Spektrumschätztechnik, durch Transformieren des ursprünglichen Signals in eine Impulsantwort, die durch die Spektralhüllparameter und ein periodisches oder quasi-periodisches Tonlagenpulsseriensignal, das eine beinahe flache Spektralhülle aufweist, dargesteift wird, und durch Falten eines Erregungssignals, das durch Anhängen von Proben mit Nullwert nach einem Tonlagenpulssignal einer Periode, ermittelt durch Segmentieren des genannten Tonlagenpulsse-riensignais für jede Periode erhalten wird, so daß ein Tonlagenpuls in jeder Periode und eine Impulsantwort, die den Spektralhüllparametern entspricht, im gleichen Zeitintervali wie das genannte Erregungssignal vorhanden ist; und das Wellenformkodieren von Teilwellen einer jeden Periode, ihr Speichern im Speicher, und zur Zeit der Sprachsynthese das Dekodieren der Teilwellen, das Einstellen der Dauer und Tonlagenfrequenz durch Zuordnen der Teilwelien zu geeigneten Zeitpunkten, so daß sie das gewünschte Tonlagenmuster aufweisen, ihre Festlegung auf die genannten Zeitpunkte, und das Synthetisieren von Sprache durch ihre Überlagerung.
2. Sprachsegmentkodierungsverfahren nach Anspruch 1, dadurch gekennzeichnet, daß die Teilwellen durch Verknüpfen von Information gebildet werden, die durch Wellenformkodieren eines Tonlagenpulssignals einer jeden Periode ermittelt wird, erhalten durch Segmentation mit Information, die durch Kodieren eines Satzes von Spektralhüllschätzparametern einer Periode während des gleichen Zeitintervalls erhalten wird, und Speichern der genannten Information in die genannten Speicher, und zur Zeit der Synthese die Erzeugung von Teilwellen durch Faltung eines Erregungssignals, erhalten durch Anhängen von Proben mit Nullwert nach einem Tonlagenpulssignal einer Periode, erhalten durch Dekodieren der genannten Information und einer Impulsantwort, die den dekodierten Spektralhüllparametern im gleichen Zeitintervall wie das genannte Erregungssignal entspricht. 21 AT 400 646 B
3. Sprachsegmentkodierungsverfahren nach Anspruch 2, dadurch gekennzeichnet, daß der synthetische Sprachlaut zur Zeit der Synthese erzeugt wird, durch Faltung eines synthetischen Erregungssignals, das durch Zuordnen von durch Dekodieren der genannten Information erhaltenen Tonlagenpulssignalen zu geeigneten Zeitpunkten gebildet wird, so daß sie gewünschte Tonlagenmuster aufweisen, und ihre Festlegung auf die genannten Zeitpunkte, wobei eine Austastlücke, die auftritt, wenn eine gewünschte Tonlagenperiode länger als eine ursprüngliche Tonlagenperiode ist, mit Proben mit Nullwert gefüllt wird und in einem überlappungsintervali, das auftritt, wenn die genannte gewünschte Tonlagenperiode kürzer ist als die genannte ursprüngliche Tonlagenperiode, die überlappten Tonlagenpulssignale zueinander addiert werden oder irgendeines der Signale von ihnen ausgewähft wird, bzw. eine zeitvariante Impulsantwort, die einem Satz synthetischer Spektralhüiiparameter entspricht, der entweder durch temporäres Komprimieren oder Ausdehnen des Satzes an Zeitfunktionen der genannten Parameter auf einer Subsegment-für-Subsegment-Basis gebildet wird, je nachdem, ob die Dauer eines Subsegments in einem zu synthetisierenden Sprachsegment kürzer oder länger als jene eines entsprechenden Subsegments im ursprünglichen Sprachsegment ist, oder durch Festlegung des Satzes von Zeitfunktionen der genannten Parameter einer Periode synchron mit dem genannten verknüpften Tonlagenpuissignal einer Periode, die so festgelegt ist, um das genannte synthetische Erregungssignal zu bilden, wobei im letzteren Fall ein synthetischer Spektralhüiiparameter in der genannten Austastlücke erhalten wird, indem der Wert des Spektralhüllparameters am Endpunkt der vorhergehenden Periode oder der Wert des Spektralhüllparameters am ersten Punkt der folgenden Periode oder ein Durchschnittswert der genannten beiden Werte wiederholt wird oder aber durch Füllen mit Werten, die die genannten beiden Werte glatt verbinden, oder durch Wiederholen der Werte der Spektralhüiiparameter an den End- und Beginnpunkten der vorhergehenden und folgenden Perioden vor und nach der Mitte der Austastlücke, und der genannte synthetische Spektralhüiiparameter im genannten Überlappungsintervall durch Auswählen irgendeines der überlappten Spektralhüiiparameter oder durch Verwendung eines Durchschnittswertes der genannten beiden überlappten Parameter erhalten wird.
4. Sprachsegmentkodierungsverfahren nach einem der Ansprüche 1 bis 3, gekennzeichnet durch die zeitgleiche Steuerung der Dauer und Tonlage eines Sprachsegments durch ein Teilwellenverschiebungsverfahren auf Zeitverzerrungsbasis durch das Kodieren von Grenzzeitpunkten einschließlich Beginnpunkt, Endpunkt und Punkt im stationären Zustand in Sprachsegment- und Tonlagenpulspositionen eines jeden Teilwellen- oder Tonlagenpulssignals einer Periode und ihr Speichern in Speicher zeitgleich mit dem Speichern eines jeden Sprachsegments, und zur Zeit der Synthese, Ermitteln einer Zeitverzerrungsfunktion durch Vergleichen gewünschter Grenzzeitpunkte und ursprünglicher Grenzzeitpunkte, die den genannten gewünschten Grenzzeitpunkten entsprechend gespeichert sind, Herausfinden von ursprünglichen, jeder gewünschten Tonlagenpulsposition entsprechenden Zeitpunkten, durch Anwenden der genannten Zeitverzerrungsfunktion, Auswählen von Teilwellen mit Tonlagenpulspositionen, die am nächsten zu den genannten ursprünglichen Zeitpunkten liegen und ihr Festlegen auf die gewünschten Tonlagenpulspositionen, und Überlagern der genannten Teilwellen.
5. Sprachsegmentkodierungsverfahren nach Anspruch 4, weiters gekennzeichnet durch das Erzeugen von synthetischer Sprache durch Auswahlen von Tonlagenpulssignalen einer Periode und von Spektralhüllparametern, die den genannten Tonlagenpulssignalen entsprechen und ihre Festlegung, und Faltung des genannten festgelegten Tonlagenpulssignals und der Impulsantwort, die den genannten Spektralhüllparametern entspricht, um Teiiwellen zu erzeugen, und Überlagern der genannten erzeugten Teilwellen.
6. Sprachsegmentkodierungsverfahren nach Anspruch 4, weiters gekennzeichnet durch das Erzeugen synthetischer Sprache durch das Auswählen von Tonlagenpulssignalen einer Periode und von Spektral-hüllparametem, die den genannten Tonlagenpulssignalen entsprechen, und ihre Festlegung, und Faltung eines synthetischen Erregungssignals, das durch Überlagern der genannten festgelegten Tonlagenpulssignale nach dem Verfahren nach Anspruch 3 erhalten wird und einer Zeitvarianten Impulsantwort, die synthetischen Spektralhüllparametern entspricht, die durch Verknüpfen der genannten festgelegten Spektralhüiiparameter nach dem Verfahren nach Anspruch 3 erhalten wurden.
7. Synthesevorrichtung für stimmhafte Sprache zur Verwendung in einem Sprachsynthesesystem, insbesondere zur Durchführung des Sprachsegmentkodierungsverfahrens nach einem der Ansprüche 1-6, dadurch gekennzeichnet, daß es umfaßt: 22 AT 400 646 B ©inen Dekodierungssubblock (9), der Teilwelleninformation durch Dekodieren von Teilwellencodes vom Sprachsegmentspeicherblock (5) erzeugt; einen Zeitdauersteuerungssubblock (10), der Zeitverzerrungsinformation vom Eingang von Zeitdauerdaten von einem Prosodics-Erzeugungssubsystem (2) und von Grenzzeitpunkten erzeugt, die in der Headerinformation vom genannten Sprachsegmentspeicherblock (5) enthalten sind; einen Tonlagensteuerungssubblock (11), der Tonlagenpulspositionsinformation erzeugt, so daß sie ein Intonationsmuster aufweist wie durch Intonationsmusterdaten vom Eingang der genannten Headerinformation vom genannten Sprachsegmentspeicherblock (5), die genannten Intonationsmusterdaten vom genannten Prosodics-Erzeugungssubsystem und die genannte Zeitverzerrungsinformation vom genannten Zeitdauersteuerungssubblock (10) angegeben; einen Energiesteuerungssubblock (12), der Verstärkungsinformation erzeugt, so daß synthetische Sprache ein Betonungsmuster aufweist wie durch die Betonungsmusterdaten vom Eingang der genannten Betonungsmusterdaten vom genannten Prosodics-Erzeugungssubsystem (2), die genannte Zeitverzerrungsinformation vom genannten Zeitdauersteuerungssubblock (10) und die Tonlagenpulspositionsinformation vom genannten Tonlagensteuerungssubblock (11) angegeben; und einen Weilenformanordnungssubblock (13), der ein stimmhaftes Sprachsignal vom Eingang der genannten Teilwelleninformation vom genannten Dekodierungssubblock (9), der genannten Zeitverzerrungsinformation vom genannten Zeitdauersteuerungssubblock (10), der genannten Tonlagenpulspositionsinformation vom genannten Tonlagensteuerungssubblock (11) und der genannten Verstärkungsinformation vom genannten Energiesteuerungssubblock (12) erzeugt. Hiezu 15 Blatt Zeichnungen

23