DE19837661C2

DE19837661C2 - Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten

Info

Publication number: DE19837661C2
Application number: DE1998137661
Authority: DE
Inventors: Christoph Buskies
Original assignee: Individual
Current assignee: BUSKIES, CHRISTOPH, 22769 HAMBURG, DE
Priority date: 1998-08-19
Filing date: 1998-08-19
Publication date: 2000-10-05
Anticipated expiration: 2018-08-20
Also published as: DE19837661A1

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur Konkatenation von Audiosegmenten zur Erzeugung synthe tisierter akustischer Daten, insbesondere synthetisierter Sprache.

Es ist zu betonen, daß sowohl der im folgenden dargestellte Stand der Technik als auch die vorliegenden Erfindung den gesamten Bereich der Synthese von akustischen Daten durch Konkatenation einzelner, auf beliebige Art und Weise erhal tene Audiosegmente betrifft. Aber um die Diskussion des Standes der Technik sowie die Beschreibung der vorliegenden Erfindung zu vereinfachen, beziehen sich die folgenden Aus führungen speziell auf synthetisierte Sprachdaten durch Konkatenation einzelner Sprachsegmente.

In den letzten Jahren hat sich im Bereich der Sprachsynthese der datenbasierte Ansatz gegenüber dem regelbasierten Ansatz durchgesetzt und ist in verschiedenen Verfahren und Systemen zur Sprachsynthese zu finden. Obwohl der regelbasierte Ansatz prinzipiell eine bessere Sprachsynthese ermöglicht, ist es für dessen Umsetzung notwendig, das gesamte zur Spracherzeugung notwendige Wissen explizit zu formulieren, d. h. die zu synthe tisierende Sprache formal zu modellieren. Da die bekannten Sprachmodellierungen Vereinfachung der zu synthetisierenden Sprache aufweisen, ist die Sprachqualität der so erzeugten Sprache nicht ausreichend.

Daher wird in zunehmenden Maße eine datenbasierte Sprachsynthe se durchgeführt, bei der aus einer einzelne Sprachsegmente aufweisenden Datenbasis entsprechende Segmente ausgewählt und miteinander verknüpft (konkateniert) werden. Die Sprachqualität hängt hierbei in erster Linie von der Zahl und Art der verfüg baren Sprachsegmente ab, denn es kann nur Sprache synthetisiert werden, die durch Sprachsegmente in der Datenbasis wiedergeben ist. Um die Zahl der vorzusehenden Sprachsegmente zu minimieren und dennoch eine synthetisierte Sprache hoher Qualität zu erzeugen, sind verschieden Verfahren bekannt, die eine Verknüp fung (Konkatenation) der Sprachsegmente nach komplexen Regeln durchführen.

Unter Verwendung solcher Verfahren bzw. entsprechender Vorrich tungen kann ein Inventar, d. h. eine die Sprachsegmente umfas sende Datenbasis, verwendet werden, das vollständig und handhabbar ist. Ein Inventar ist vollständig, wenn damit jede Lautfolge der zu synthetisierenden Sprache erzeugt werden kann, und ist handhabbar, wenn die Zahl und Art der Daten des Inven tars mit den technisch verfügbaren Mitteln in einer gewünschten Weise verarbeitet werden kann. Darüber hinaus muß ein solches Verfahren gewährleisten, daß die Konkatenation der einzelnen Inventarelemente eine synthetisierte Sprache erzeugt, die sich von einer natürlich gesprochenen Sprache möglichst wenig unter scheidet. Hierfür muß eine synthetisierte Sprache flüssig sein und die gleichen artikulatorischen Effekte einer natürlichen Sprache aufweisen. Hier kommen den sogenannten koartikulatori schen Effekten, d. h. der gegenseitigen Beeinflussung von Sprachlauten, eine besondere Bedeutung zu. Daher sollten die Inventarelemente so beschaffen sein, das sie die Koartikulation einzelner aufeinanderfolgender Sprachlaute berücksichtigen. Des weiteren sollte ein Verfahren zu Konkatenation der Inventarele mente, die Elemente unter Berücksichtigung der Koartikulation einzelner aufeinanderfolgender Sprachlaute sowie der übergeord neten Koartikulation mehrerer aufeinanderfolgender Sprachlaute, auch über Wort- und Satzgrenzen hinweg, verketten.

Vor der Darstellung des Standes der Technik werden im folgenden einige zum besseren Verständnis notwendige Begriffe aus dem Bereich der Sprachsynthese erläutert:

- Ein Phonem ist die kleinste formal beschreibbare Lauteinheit, wobei i. allg. die formale Beschreibung durch Lautschriftzei chen erfolgt.
- Ein Phon ist die kleinste Lauteinheit, die in Form eines Audiosegmentes speicherbar ist, und stellt die akustische Realisierung eines Phonems dar. Die Phone werden in statische und dynamische Phone unterteilt.
- Zu den statischen Phonen zählen Vokale, Diphtonge, Nasale, Laterale, Vibranten und Frikative.
- Zu den dynamischen Phonen zählen Plosive, Affrikate, Glottal stops und geschlagene Laute.
- Die Koartikulation bezeichnet das Phänomen, daß ein Phon durch vorgelagerte und nachgelagerte Phone beeinflußt wird, wobei die Koartikulation zwischen unmittelbar benachbarten Phonen auftritt, aber sich auch über eine Folge mehrerer Phone erstrecken kann (Beispielsweise bei einer Lippenrundung).

Daher kann ein Phon in drei Bereiche unterteilt werden (siehe auch Fig. 1b):

- Der Anfangs-Koartikulationsbereich umfaßt den Bereich vom Beginn des Phons bis zum Ende der Koartikulation aufgrund eines vorgelagerten Phons.
- Der Solo-Artikulationsbereich, ist der Bereich des Phons, der nicht durch ein vor- oder nachgelagertes Phon beeinflußt ist.
- Der End-Koartikulationsbereich umfaßt den Bereich vom Beginn der Koartikulation aufgrund eines nachgelagerten Phons bis zum Ende des Phons.
- Ein Polyphon ist eine Folge von Phonen.
- Die Elemente eines Inventars sind in kodierter Form gespei cherte Audiosegmente, die Phone, Teile von Phonen oder Polypho ne wiedergeben. Zur besseren Verständnis des möglichen Aufbau eines Elementarelementes sei hier auf die Fig. 2a, die ein herkömmliches Audiosegment zeigt, und die Fig. 2b-2l verwie sen, in denen erfindungsgemäße Audiosegmente gezeigt sind. Er gänzend ist zu erwähnen, daß Audiosegmente auch aus kleineren oder größeren Audiosegmenten gebildet werden können, die in dem Inventar oder einer Datenbank enthalten sind. Des weiteren können Audiosegmente auch in einer transformierten Form (z. B. einer fouriertransformierten Form) in dem Inventar oder einer Datenbank vorliegen.
- Unter Konkatenation versteht man das Aneinanderfügen zweier Inventarelemente.
- Der Konkatenationsmoment ist der Zeitpunkt, zu dem zwei Audiodaten aneinandergefügt werden.

Die Konkatenation kann auf verschiedene Arten erfolgen, z. B. mit einem Crossfade oder einem Hardfade (siehe auch Fig. 3a-3d):

- Bei einem Crossfade werden ein zeitlich hinterer Bereich eines ersten Inventarelementes sowie ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, und danach werden diese beiden Bereiche überlappend so addiert, daß maximal der zeitliche kürzer der beiden Bereichen von dem zeitlich längeren der beiden Bereiche vollständig überlappt wird.
- Bei einem Hardfade wird ein zeitlich hinterer Bereich eines ersten Inventarelementes und ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, wobei diese beiden Inventarelemente so aneinandergefügt werden, daß sich der hintere Bereich des ersten Inventarelementes und der vorde re Bereich des zweiten Inventarelementes nicht überlappen.

Der Koartikulationsbereich macht sich vor allem dadurch bemerk bar, daß eine Konkatenation darin mit Unstetigkeiten (z. B. Spektralsprüngen) verbunden ist. Deswegen wird der Konkatenati onsmoment vorzugsweise in der Umgebung der Grenze des Solo- Artikulationsbereiches zum Koartikulationsbereich gewählt.

Im allgemeinen werden Inventarelemente durch die Aufnahme von real gesprochener Sprache erzeugt. In Abhängigkeit des Trai ningsgrades des inventaraufbauenden Sprechers, d. h. seiner Fähigkeit die aufzunehmende Sprache zu kontrollieren (z. B. die Tonhöhe der Sprache zu kontrollieren oder exakt auf einer Tonhöhe zu sprechen), ist es möglich, gleiche oder ähnliche Inventarelemente zu erzeugen, die verschobene Grenzen zwischen den Solo-Artikulationsbereichen und Koartikulationsbereichen haben. Dadurch ergeben sich wesentlich mehr Möglichkeiten, die Konkatenationspunkte an verschiedenen Stellen zu plazieren. In der Folge kann die Qualität einer zu synthetisierenden Sprache deutlich verbessert werden.

Ergänzend sei zu erwähnen, daß streng genommen ein Hardfade einen Grenzfall eines Crossfades darstellt, bei dem eine Über lappung eines zeitlich hinteren Bereiches eines ersten Inventa relementes und eines zeitlich vorderen Bereiches eines zweiten Inventarelementes eine Länge Null hat. Dies erlaubt es in be stimmten, z. B. äußerst zeitkritischen Anwendungen einen Cross fade durch einen Hardfade zu ersetzen, wobei eine solche Vorge hensweise genau abzuwägen ist, da diese zu deutlichen Quali tätseinbußen bei der Konkatenation von Inventarelementen führt, die eigentlich durch einen Crossfade zu konkatenieren sind.

- Unter Prosodie versteht man die Veränderungen der Sprachfre quenz und des Sprachrhythmus, die bei gesprochenen Worten bzw. Sätzen auftreten. Die Berücksichtigung solcher prosodischer Informationen ist bei der Sprachsynthese notwendig, um eine natürliche Wort- bzw. Satzmelodie zu erzeugen.

Aus WO 95/30193 A1 ist ein Verfahren und eine Vorrichtung zur Umwandlung von Text in hörbare Sprachsignale unter Verwendung eines neuronalen Netzwerkes bekannt. Hierfür wird der in Spra che umzuwandelnde Text mit einer Konvertiereinheit in eine Folge von Phonemen umgewandelt, wobei zusätzlich Informationen über die syntaktischen Grenzen des Textes und die Betonung der einzelnen syntaktischen Komponenten des Textes erzeugt werden. Diese werden zusammen mit den Phonemen an eine Einrichtung weitergeleitet, die regelbasiert die Dauer der Aussprache der einzelnen Phoneme bestimmt. Ein Prozessor erzeugt aus jedem einzelnen Phonem in Verbindung mit den entsprechenden syntakti schen und zeitlichen Information eine geeignete Eingabe für das neuronale Netzwerk, wobei diese Eingabe für das neuronale Netz auch die entsprechenden prosodischen Informationen für die gesamte Phonemfolge umfaßt. Das neuronale Netz wählt aus den verfügbaren Audiosegmenten nun die aus, die die eingegebenen Phoneme am besten wiedergeben, und verkettet diese Audiosegmen te entsprechend. Bei dieser Verkettung werden die einzelnen Audiosegmente in ihrer Dauer, Gesamtamplitude und Frequenz an vor- und nachgelagerte Audiosegmente unter Berücksichtigung der prosodischen Informationen der zu synthetisierenden Sprache angepaßt und zeitlich aufeinanderfolgend miteinander verbunden. Eine Veränderung einzelner Bereiche der Audiosegmente ist hier nicht beschrieben.

Zur Erzeugung der für dieses Verfahren erforderlichen Audioseg mente ist das neuronale Netzwerk zuerst zu trainieren, indem natürlich gesprochene Sprache in Phone oder Phonfolgen unter teilt wird und diesen Phonen oder Phonfolgen entsprechende Phoneme oder Phonemfolgen in Form von Audiosegmenten zugeordnet werden. Da dieses Verfahren nur eine Veränderung von einzelnen Audiosegmenten, aber keine Veränderung einzelner Bereiche eines Audiosegmentes vorsieht, muß das neuronale Netzwerk mit mög lichst vielen verschiedenen Phonen oder Phonfolgen trainiert werden, um beliebige Texte in synthetisierte natürlich klingen de Sprache umzuwandeln. Dies kann sich je nach Anwendungsfall sehr aufwendig gestalten. Auf der anderen Seite kann ein unzu reichender Trainingsprozeß des neuronalen Netzes die Qualität der zu synthetisierenden Sprache negativ beeinflussen. Des weiteren ist es bei dem hier beschriebene Verfahren nicht möglich, den Konkatenationsmoment der einzelnen Audiosegmente in Abhängigkeit vorgelagerter oder nachgelagerter Audiosegmente zu bestimmen, um so eine koartikulationsgerechte Konkatenation durchzuführen.

In US-5 524 172 ist eine Vorrichtung zur Erzeugung syntheti sierter Sprache beschrieben, die das sogenannte Diphonverfahren nutzt. Hier wird ein Text, der in synthetisierte Sprache umge wandelt werden soll, in Phonemfolgen unterteilt, wobei jeder Phonemfolge entsprechende prosodische Informationen zugeordnet werden. Aus einer Datenbank, die Audiosegmente in Form von Diphonen enthält, werden für jedes Phonem der Folge zwei das Phonem wiedergebende Diphone ausgewählt und unter Berücksichti gung der entsprechenden prosodischen Informationen konka teniert. Bei der Konkatenation werden die beiden Diphone jeweils mit Hilfe eines geeigneten Filters gewichtet und die Dauer und Tonhöhe beider Diphone so verändert, daß bei der Verkettung der Diphone eine synthetisierte Phonfolge erzeugt wird, deren Dauer und Tonhöhe der Dauer und Tonhöhe der ge wünschten Phonemfolge entspricht. Bei der Konkatenation werden die einzelnen Diphone so addiert, daß sich ein zeitlich hinte rer Bereich eines ersten Diphones und ein zeitlich vorderer Bereich eines zweiten Diphones überlappen, wobei der Konkatena tionsmoment generell im Bereich der stationären Bereiche der ein zelnen Diphone liegt (siehe Fig. 2a). Da eine Variation des Konkatenationsmomentes unter Berücksichtigung der Koartikulati on aufeinanderfolgender Audiosegmente (Diphone) hier nicht vorgesehen ist, kann die Qualität (Natürlichkeit und Verständ lichkeit) einer so synthetisierten Sprache negativ beeinflußt werden.

Eine Weiterentwicklung des zuvor diskutierten Verfahrens ist in EP-0 813 184 A1 zu finden. Auch hier wird ein in synthetisierte Sprache umzuwandelnder Text in einzelne Phoneme oder Phonemfol gen unterteilt und aus einer Datenbank entsprechende Audioseg mente ausgewählt und konkateniert. Um eine Verbesserung der synthetisierten Sprache zu erzielen, sind bei diesem Ver fahren zwei Ansätze, die sich vom bisher diskutierten Stand der Technik unterscheiden, umgesetzt worden. Unter Verwen dung eines Glättungsfilters, der die tieferfrequenten har monischen Frequenzanteile eines vorgelagerten und eines nachgelagerten Audiosegments berücksichtigt, soll der Über gang von dem vorgelagerten Audiosegment zu dem nachgelager ten Audiosegment optimiert werden, indem ein zeitlich hin terer Bereich des vorgelagerten Audiosegments und ein zeit lich vorderer Bereich des nachgelagerten Audiosegments im Frequenzbereich aufeinander abgestimmt werden. Des weiteren stellt die Datenbank Audiosegmente zur Verfügung, die sich leicht unterscheiden, aber zur Synthetisierung desselben Phonems geeignet sind. Auf diese Weise soll die natürliche Variation der Sprache nachgebildet, werden, um eine höhere Qualität der synthetisierten Sprache zu erreichen. Sowohl die Verwendung des Glättungsfilter als auch die Auswahl aus einer Menge unterschiedlicher Audiosegmente zur Realisie rung eines Phonems erfordert bei einer Umsetzung dieses Verfahrenes eine hohe Rechenleistung der verwendeten Sy stemkomponenten. Außerdem steigt der Umfang der Datenbank aufgrund der erhöhten Zahl der vorgesehenen Audiosegmente. Des weiteren ist auch bei diesem Verfahren eine koartiku lationsabhängige Wahl des Konkatenationsmoments einzelner Audiosegmente nicht vorgesehen, wodurch die Qualität der synthetisierten Sprache reduziert werden kann.

DE 693 18 209 T2 beschäftigt sich mit Formantsynthese. Gemäß diesem Dokument werden zwei mehrstimmige Laute unter Ver wendung eines Interpolationsmechanismus miteinander verbun den, der auf ein letztes Phonem eines vorgelagerten Lauts und auf ein erstes Phonem eines nachgelagerten Lauts ange wendet wird, wobei die zwei Phoneme der beiden Laute gleich sind und bei den verbundenen Lauten zu einem Phonem überla gert werden. Bei der Überlagerung werden die die zwei Pho neme beschreibenden Kurven jeweils mit einer Gewichtungs funktion gewichtet. Die Gewichtungsfunktion wird bei jedem Phonem in einem Bereich angewendet, der unmittelbar nach dem Beginn des Phonems beginnt und unmittelbar vor dem Ende des Phonems endet. Somit entsprechen bei der hier beschrie benen Konkatenation von Lauten die verwendeten Bereiche der Phoneme, die den Übergang zwischen den Lauten bilden, im wesentlichen den jeweiligen gesamten Phonemen. Das heißt, daß die zur Konkatenation verwendeten Teile der Phoneme stets alle drei Bereiche, nämlich den jeweiligen Anfangs koartikulationsbereich, Soloartikulationsbereich und Endko artikulationsbereich umfassen. Mithin lehrt D1 eine Verfah rensweise wie die Übergänge zwischen zwei Lauten zu glätten sind.

Des weiteren wird gemäß diesem Dokument der Moment der Kon katenation zweier Laute so festgelegt, daß sich das letzte Phonem in dem vorgelagerten Laut und das erste Phonem in dem nachgelagerten Laut vollständig überlappen.

Grundsätzlich ist festzustellen, daß DE 689 15 353 T2 eine Verbesserung der Tonqualität erreichen will indem eine Vor gehensweise angegeben wird, wie der Übergang zwischen zwei benachbarten Abtastwerten zu gestalten ist. Dies ist ins besondere bei niedrigen Abtastraten relevant.

Bei der in diesem Dokument beschriebenen Sprachsynthese werden Wellenformen verwendet, die zu konkatenierende Laute wiedergeben. Bei Wellenformen für vorgelagerte Laute wird jeweils ein entsprechender Endabtastwert und ein zugeordne ter Nulldurchgangspunkt bestimmt, während bei Wellenformen für nachgelagerte Laute jeweils ein erster oberer Abtast wert und ein zugeordneter Nulldurchgangspunkt bestimmt wird. In Abhängigkeit dieser bestimmten Abtastwerte und der zugeordneten Nulldurchgangspunkte werden Laute auf maximal vier verschiedene Arten miteinander verbunden. Die Anzahl der Verbindungsarten wird auf zwei reduziert, wenn die Wel lenformen unter Verwendung des Nyquist-Theorems erzeugt werden. In DE 689 15 353 T2 ist beschrieben, daß sich der verwendete Bereich der Wellenformen zwischen dem letzten Abtastwert der vorgelagerten Wellenform und dem ersten Ab tastwert der nachgelagerten Wellenform erstreckt. Eine Va riation der Dauer der verwendeten Bereiche in Abhängigkeit der zu konkatenierenden Wellenformen, wie dies bei der Er findung der Fall ist, ist in D1 nicht beschrieben.

Zusammenfassend ist zu sagen, daß es der Stand der Technik zwar erlaubt, beliebige Phonemfolgen zu synthetisieren, aber die so synthetisierten Phonemfolgen haben keine au thentische Sprachqualität. Eine synthetisierte Phonemfolge hat eine authentische Sprachqualität, wenn sie von der gleichen Phonemfolge, die von einem realen Sprecher gespro chen wurde, durch einen Hörer nicht unterschieden werden kann.

Es sind auch Verfahren bekannt, die ein Inventar benutzen, das vollständige Worte und/oder Sätze in authentischer Sprachqualität als Inventarelemente enthält. Diese Elemente werden zur Sprachsynthese in einer gewünschten Reihenfolge hintereinander gesetzt, wobei die Möglichkeiten unter schiedliche Sprachsequenzen in hohem Maße von dem Umfang eines solchen Inventars limitiert werden. Die Synthese be liebiger Phonemfolgen ist mit diesen Verfahren nicht mög lich.

Daher ist es eine Aufgabe der vorliegenden Erfindung ein Verfahren und eine entsprechende Vorrichtung zur Verfügung zu stellen, die die Probleme des Standes der Technik besei tigen und die Erzeugung synthetisierter akustischer Daten, insbesondere synthetisierter Sprachdaten, ermöglichen, die sich für einen Hörer nicht von entsprechenden natürlichen akustischen Daten, insbesondere natürlich gesprochener Sprache, unterscheiden. Die mit der Erfindung synthetisier ten akustischen Daten, insbesondere synthetisierte Sprach daten sollen eine authentische akustische Qualität, insbe sondere eine authentische Sprachqualität aufweisen.

Zu Lösung dieser Aufgabe sieht die Erfindung ein Verfahren gemäß Anspruch 1 und eine Vorrichtung gemäß Anspruch 14 vor. So mit ermöglicht es die Erfindung, synthetisierte akustische Daten zu erzeugen, die aus einer Folge von Lauteinheiten bestehen, indem bei der Konkatenation von Audiosegmenten der Moment der Konkatenation zweier Audiosegmente in Abhän gigkeit von Eigenschaften der zu verknüpfenden Audioseg mente, insbesondere der die beiden Audiosegmente betref fenden Koartikulationseffekte bestimmt. Auf diese Weise wird eine Sprachqualität erreicht, die mit dem Stand der Technik nicht erzielbar ist. Dabei ist die erforderliche Rechenleistung nicht höher als beim Stand der Technik.

Um bei der Synthese akustischer Daten die Variationen nach zubilden, die bei entsprechenden natürlichen akustischen Daten zu finden sind, sieht die Erfindung eine unterschied liche Auswahl der Audiosegmente sowie unterschiedliche Ar ten der koartikulationsgerechten Konkatenation vor. So wird ein höheres Maß an Natürlichkeit der synthetisierten aku stischen Daten erzielt, wenn ein zeitlich nachgelagertes Audiosegment, dessen Anfang eine statische Lauteinheit wie dergibt, mit einem zeitlich vorgelagerten Audiosegment mit tels eines Crossfades verbunden wird, bzw. wenn ein zeit lich nachgelagertes Audiosegment, dessen Anfang eine dyna mische Lauteinheit wiedergibt, mit einem zeitlich vorgela gerten Audiosegment mittels eines Hardfades verbunden wird.

Des weiteren ist es vorteilhaft den Anfang der zu erzeugen den synthetisierten akustischen Daten unter Verwendung ei nes den Anfang wiedergebenden Audiosegments bzw. das Ende der zu erzeugenden synthetisierten akustischen Daten unter Verwendung eines das Ende wiedergebenden Audiosegments zu erzeugen.

Um die Erzeugung der synthetisierten akustischen Daten ein facher und schneller durchzuführen, ermöglicht es die Er findung die Zahl der zur Datensynthetisierung notwendigen Audiosegmente zu reduzieren, indem Audiosegmente verwendet werden, die immer mit einer dynamischen Lauteinheit begin nen, wodurch alle Konkatenationen dieser Audiosegmente mit tels eines Hardfades durchgeführt werden können. Hierfür werden zeitlich nachgelagerte Audiosegmente mit zeitlich vorgelagerten Audiosegmenten verbunden, deren Anfänge je weils eine dynamische Lauteinheit wiedergeben. Auf diese Weise können auch mit geringer Rechenleistung (z. B. bei An rufbeantwortern oder Autoleitsystemen) erfindungsgemäß syn thetisierte akustische Daten hoher Qualität erzeugt werden. Des weiteren sinkt der zur Speicherung des Inventars not wendige Speicherbedarf.

Außerdem sieht die Erfindung vor, akustische Phänomene nachzubilden, die sich aufgrund einer gegenseitigen Beein flussung einzelner Segmente entsprechender natürlicher aku stischer Daten ergeben. Insbesondere ist hier vorgesehen, einzelne Audiosegmente bzw. einzelne Bereiche der Audioseg mente in ihrer Frequenz, Dauer und Amplitude(n) zu variie ren. Werden mit der Erfindung synthetisierte Sprachdaten erzeugt, so werden zur Lösung dieser Aufgabe vorzugsweise prosodische Informationen und/oder übergeordnete Koartiku lationseffekte berücksichtigt.

Der Signalverlauf von synthetisierten akustischen Daten kann zusätzlich verbessert werden, wenn der Konkatenations moment an Nullstellen der einzelnen zu verknüpfenden Audio segmente gelegt wird.

Darüber hinaus ermöglicht es Erfindung, die Auswahl der Au diosegmente zur Erzeugung der synthetisierten akustischen Daten zu verbessern sowie deren Konkatenation effizienter zu gestalten, indem heuristisches Wissen verwendet wird, das die Auswahl, Variation und Konkatenation der Audioseg mente betrifft.

Um synthetisierte akustische Daten zu erzeugen, die Sprach daten sind, die sich von entsprechenden natürlichen Sprach daten nicht unterscheiden, werden vorzugsweise Audiosegmen te genutzt werden, die Phone oder Polyphone wiedergeben.

Außerdem erlaubt die Erfindung die Nutzung der erzeugten synthetisierten akustischen Daten, indem diese Daten in akustische Signale und/oder Sprachsignale umwandelbar und/ oder auf einem Datenträger speicherbar sind.

Weitere Eigenschaften, Merkmale, Vorteile oder Abwandlungen der Erfindung werden anhand der nachfolgenden Beschreibung erläu tert. Dabei zeigt:

Fig. 1a: Schematische Darstellung einer erfindungsgemäßen Vorrichtung zur Erzeugung synthetisierter akustischer Daten;

Fig. 1b: Struktur eines Phons;

Fig. 2a: Struktur eines herkömmlichen Audiosegmentes nach dem Stand der Technik;

Fig. 2b: Struktur eines Audiosegmentes, das ein Phon mit nachgelagerten Koartikulations bereichen wiedergibt;

Fig. 2c: Struktur eines Audiosegmentes, das ein Phon mit vorgelagerten Koartikulations bereichen wiedergibt;

Fig. 2d: Struktur eines Audiosegmentes, das ein Phon mit nachgelagerten Koartikulations bereichen wiedergibt und eventuell vom Konka tenationsverfahren (z. B. Crossfade) benötigte zusätzliche Bereiche enthält;

Fig. 2e: Struktur eines Audiosegmentes, das ein Phon mit vorgelagerten Koartikulations bereichen wiedergibt und eventuell vom Konka tenationsverfahren (z. B. Crossfade) benötigte zusätzliche Bereiche enthält;

Fig. 2f: Strukturen eines Audiosegmentes, das ein Polyphon mit jeweils nachgelagerten Ko artikualtionsbereichen wiedergeben;

Fig. 2g: Struktur eines Audiosegmentes, das ein Polyphon mit jeweils vorgelagerten Koar tikualtionsbereichen wiedergibt;

Fig. 2h: Struktur eines Audiosegmentes, das ein Polyphon mit jeweils nachgelagerten Ko artikualtionsbereichen wiedergibt und eventuell vom Konkatenationsverfahren (z. B. Crossfade) be nötigte zusätzliche Bereiche enthält;

Fig. 2i: Struktur eines Audiosegmentes, das ein Polyphon mit jeweils vorgelagerten Koar tikualtionsbereichen wiedergibt und eventuell vom Konkatenationsverfahren (z. B. Crossfade) be nötigte zusätzliche Bereiche enthält;

Fig. 2j: Strukturen von Audiosegmenten, das einen Teil eines Phons oder Phone vom Anfang einer Phonfolge wiedergeben;

Fig. 2k: Struktur eines Audiosegmentes, das Phone vom Ende einer Phonfolge wiedergibt;

Fig. 3a: Konkatenation gemäß dem Stand der Technik am Beispiel zweier Audiosegmente;

Fig. 3b: Konkatenation gemäß dem erfindungsgemäßen Ver fahren am Beispiel zweier Audiosegmente, die je ein Phon mit nachgelagerten Koartikulationsbe reichen enthalten, mittels eines Crossfades (Fig. 3bI) und eines Hardfades (Fig. 3bII), wo bei das erste Phon vom Anfang einer Lauteinhei tenfolge stammt;

Fig. 3c: Konkatenation gemäß dem erfindungsgemäßen Ver fahren am Beispiel zweier Audiosegmente, die je ein Phon mit nachgelagerten Koartikulationsbe reichen enthalten, mittels eines Crossfades (Fig. 3cI) und eines Hardfades (Fig. 3cII);

Fig. 3d: Konkatenation gemäß dem erfindungsgemäßen Ver fahren am Beispiel zweier Audiosegmente, die je ein Phon mit vorgelagerten Koartikulationsberei chen enthalten, mittels eines Crossfades (Fig. 3dI) und eines Hardfades (Fig. 3dII);

Fig. 3e: Konkatenation gemäß dem erfindungsgemäßen Ver fahren am Beispiel zweier Audiosegmente, die je ein Phon mit nachgelagerten Koartikulationsbe reichen enthalten, mittels eines Crossfades (Fig. 3eI) und eines Hardfades (Fig. 3eII), wo bei das erste Phon vom Ende einer Lauteinheiten folge stammt; und

Fig. 4: Schematische Darstellung der Schritte eines erfindungsgemäßen Verfahrens zur Erzeugung synthetisierter akustischer Daten.

Die im folgenden benutzten Bezugszeichen beziehen sich auf die Fig. 1 und die im folgenden für die verschiedenen Verfahrens schritte benutzten Nummern beziehen sich auf die Fig. 4.

Um mit Hilfe der Erfindung beispielsweise einen Text in synthe tisierte Sprache umzuwandeln, ist es notwendig in einem vorge lagerten Schritt diesen Text in eine Folge von Phonemen unter Verwendung bekannter Verfahren oder Vorrichtungen zu untertei len. Vorzugsweise sind auch dem Text entsprechende prosodische Informationen zu erzeugen. Die Phonemfolge sowie die prosodi schen Informationen dienen als Eingabegrößen für das erfin dungsgemäße Verfahren bzw. die erfindungsgemäße Vorrichtung.

Die zu synthetisierenden Phoneme werden einer Eingabeeinheit 101 der Vorrichtung 1 zur Erzeugung synthetisierter Sprachdaten zugeführt und in einer ersten Speichereinheit 103 abgelegt (siehe Fig. 1). Mit Hilfe einer Auswahleinrichtung 105 werden aus einem Audiosegmente (Elemente) enthaltenden Inventar, das in einer Datenbank 107 gespeichert ist, die Audiosegmente ausgewählt, die Phone oder Teile von Phonen wiedergeben, die den einzelnen eingegebenen Phonemen oder Teilen davon entspre chen und in einer Reihenfolge, die der Reihenfolge der eingege benen Phoneme entspricht, in einer zweiten Speichereinheit 104 gespeichert. Falls das Inventar Polyphone wiedergebende Audio segmente enthält, so wählt die Auswahleinrichtung 105 vorzugs weise die Audiosegmente aus, die die längsten Polyphone wieder geben, die einer Folge von Phonemen aus der eingegebenen Pho nemfolge entsprechen.

Stellt die Datenbank 107 ein Inventar mit Audiosegmenten unter schiedlicher Arten zur Verfügung, so wählt die Auswahleinrich tung 105 vorzugsweise die längsten Audiosegmente aus, die den Phonemfolgen oder Teilen davon entsprechen, um die eingegebene Phonemfolge und/oder eine Folge von Phonemen aus einer minima len Anzahl von Audiosegmenten zu synthetisieren. Hierbei ist es vorteilhaft, verkettete Phone als Inventarelemente zu verwen den, die aus einem zeitlich vorgelagerten statischen Phon und einem zeitlich nachgelagerten dynamischen Phon bestehen. So entstehen Inventarelemente, die aufgrund der Einbettung der dynamischen Phone immer mit einem statischen Phon beginnen. Dadurch vereinfacht und vereinheitlicht sich das Vorgehen bei Konkatenationen solcher Inventarelemente, da hierfür nur Cross fades benötigt werden.

Um eine koartikulationsgerechte Konkatenation der zu verketten den Audiosegmente zu erzielen, werden mit Hilfe einer Konka tenationseinrichtung 111 die Konkatenationsmomente zweier aufeinanderfolgender Audiosegmente wie folgt festgelegt:

- Soll ein Audiosegment zu Synthetisierung des Anfanges der eingegebenen Phonemfolge (Schritt 1) verwendet werden, so ist aus dem Inventar ein Audiosegment zu wählen, das einen Wortan fang wiedergibt und mit einem zeitlich nachgelagerten Audioseg ment zu verketten (siehe Fig. 3b und Schritt 3 in Fig. 4).
- Bei der Konkatenation eines zweiten Audiosegmentes an ein zeitlich vorgelagertes erstes Audiosegment ist zu unterschei den, ob das zweite Audiosegment mit einem statischen Phon oder einem dynamischen Phon beginnt, um die Wahl des Momentes der Konkatenation entsprechend zu treffen (Schritt 6).
- Beginnt das zweite Audiosegment mit einem statischen Phon, wird die Konkatenation in Form eines Crossfades durchgeführt, wobei der Moment der Konkatenation im zeitlich hinteren Bereich des ersten Audiosegmentes und im zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird, wodurch sich diese beiden Bereiche bei der Konkatenation überlappen oder wenigstens unmittelbar aneinandergrenzen (siehe Fig. 3c und 3d, Konka tenation mittels Crossfade).
- Beginnt das zweite Audiosegment mit einem dynamischen Phon, wird die Konkatenation in Form eines Hardfades durchgeführt, wobei der Moment der Konkatenation zeitlich unmittelbar hinter der zeitlich hinteren Bereich des ersten Audiosegmentes und zeitlich unmittelbar vor dem zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird (siehe Fig. 3c und 3d, Konkatenation mittels Hardfade).

Auf diese Weise können aus diesen ursprünglich verfügbaren Audiosegmenten, die Phone oder Polyphone wiedergeben, neue Polyphone wiedergebende Audiosegmente erzeugt werden, die mit einem statischen Phon beginnen. Dies erreicht man, indem Audio segmente, die mit einem dynamischen Phon beginnen, zeitlich nachgelagert mit Audiosegmenten, die mit einem statischen Phon beginnen, verkettet werden. Dies vergrößert zwar die Zahl der Audiosegmente bzw. den Umfang des Inventars, kann aber bei der Erzeugung synthetisierter Sprachdaten einen rechentechnischen Vorteil darstellen, da weniger einzelne Konkatenationen zur Erzeugung einer Phonemfolge erforderliche sind und Konkate nationen nur noch in Form eines Crossfades durchgeführt werden müssen. Vorzugsweise werden die so erzeugten neuen verketteten Audiosegmente der Datenbank 107 oder einer anderen Speicherein heit 113 zugeführt.

Ein weiterer Vorteil dieser Verkettung der ursprüngliche Audio segmente zu neuen längeren Audiosegmenten ergibt sich, wenn sich beispielsweise eine Folge von Phonemen in der eingegebenen Phonemfolge häufig wiederholt. Dann kann auf eines der neuen entsprechend verketteten Audiosegmente zurückgegriffen werden und es ist nicht notwendig, bei jedem Auftreten dieser Folge von Phonemen eine erneute Konkatenation der ursprünglich vor handenen Audiosegmente durchzuführen. Vorzugsweise sind bei der Speicherung solcher verketteten Audiosegmente auch übergreifen de Koartikulationseffekte zu erfassen bzw. spezifische Koarti kulationseffekte in Form zusätzlicher Daten dem gespeicherten verketteten Audiosegment zuzuordnen.

Soll ein Audiosegment zu Synthetisierung des Endes der eingege benen Phonemfolge verwendet werden, so ist aus dem Inventar ein Audiosegment zu wählen, das ein Wortende wiedergibt und mit einem zeitlich vorgelagertes Audiosegment zu verketten (siehe Fig. 3e und Schritt 8 in Fig. 4).

Die einzelnen Audiosegmente werden in der Datenbank 107 kodiert gespeichert, wobei die kodierte Form der Audiosegmente neben der Wellenform des jeweiligen Audiosegmentes angibt, welche(s) Phon(e) das jeweilige Audiosegment wiedergibt, welche Art der Konkatenation (z. B. Hardfade, linearer oder exponentieller Crossfade) mit welchem zeitlich nachfolgenden Audiosegment durchzuführen ist und zu welchem Moment die Konkatenation mit welchem zeitlich nachfolgenden Audiosegment stattfindet. Vor zugsweise enthält die kodierte Form der Audiosegmente auch Informationen bezüglich der Prosodie und übergeordneten Koarti kulationen, die bei einer Synthetisierung der gesamten vom Sprecher aufgenommene Phonemfolge und/oder Folgen von Phonem verwendet werden, um eine zusätzliche Verbesserung der Sprach qualität zu erzielen.

Bei der Wahl der Audiosegmente zur Synthetisierung der eingege benen Phonemfolge werden als zeitlich nachgelagerte Audioseg mente solche gewählt, die den Eigenschaften der jeweils zeitlich vorgelagerten Audiosegmente, d. h. Konkatenationsart und Konkatenationsmoment, entsprechen. Nachdem die der Phonem folge entsprechenden Audiosegmente aus der Datenbank 107 ge wählt wurden, erfolgt die Verkettung zweier aufeinanderfol gender Audiosegmente mit Hilfe der Konkatenationseinrichtung 111 folgendermaßen. Es wird die Wellenform, die Konkatenations art und der Konkatenationsmoment des ersten Audiosegmentes und des zweiten Audiosegmentes aus der Datenbank (Fig. 3a und Schritt 10 und 11) geladen. Vorzugsweise werden bei der oben erwähnten Wahl der Audiosegmente solche Audiosegmente gewählt, die hinsichtlich ihrer Konkatenationsart und ihres Konkatenati onsmoment zu einander passen. In diesem Fall ist das Laden der Informationen bezüglich der Konkatenationsart und des Konka tenationsmomentes des zweiten Audiosegmentes ist nicht mehr notwendig.

Zur Konkatenation der beiden Audiosegmente werden die Wellen form des ersten Audiosegmentes in einem zeitlich hinteren Bereich und die Wellenform des zweiten Audiosegmentes in einem zeitlich vorderen Bereich jeweils mit einer geeigneten Gewich tungsfunktion multipliziert (siehe Fig. 3a, Schritt 12 und 13). Die Längen des zeitlich hinteren Bereiches des ersten Audiosegmentes und des zeitlich vorderen Bereiches des zweiten Audiosegmentes ergeben sich aus der Konkatenationsart und zeitlichen Lage des Konkatenationsmomentes, wobei diese Längen auch in der kodierten Form der Audiosegmente in der Datenbank gespeichert werden können.

Sind die beiden Audiosegmente mit einem Crossfade zu verketten, werden diese entsprechend dem jeweiligen Konkatenationsmoment überlappend addiert (siehe Fig. 3c und 3d, Schritt 15). Vorzugsweise ist hierbei ein linearer symmetrischer Crossfade zu verwenden, es kann aber auch jede andere Art eines Crossfa des eingesetzt werden. Ist eine Konkatenation in Form eines Hardfades durchzuführen, werden die beiden Audiosegmente nicht überlappend hintereinander verbunden (siehe Fig. 3c und 3d, Schritt 15). Wie in Fig. 3d zu sehen ist, werden hierbei die beiden Audiosegmente zeitlich unmittelbar hintereinander ange ordnet. Um die so erzeugten synthetisierten Sprachdaten weiter verarbeiten zu können, werden diese vorzugsweise in einer dritten Speichereinheit 115 abgelegt.

Für die weitere Verkettung mit nachfolgenden Audiosegmenten werden die bisher verketteten Audiosegmente als erstes Audio segment betrachtet (Schritt 16) und der oben beschriebenen Verkettungsprozeß solange wiederholt, bis die gesamte Phonem folge synthetisiert wurde.

Zur Verbesserung der Qualität der synthetisierten Sprachdaten sind vorzugsweise auch die prosodischen Informationen, die zusätzlich zu der Phonemfolge eingegeben werden, bei der Ver kettung der Audiosegmente zu berücksichtigen. Mit Hilfe bekann ter Verfahren kann die Frequenz, Dauer und Amplitude der Audiosegmente vor und/oder nach deren Konkatenation so verän dert werden, daß die synthetisierten Sprachdaten eine natürli che Wort- und/oder Satzmelodie aufweisen (Schritte 14, 17 oder 18). Hierbei ist es zu bevorzugen, Konkatenationsmomente an Nullstellen der Audiosegmente zu wählen.

Um die Übergänge zwischen zwei aufeinander folgenden Audioseg menten zu optimieren, ist zusätzlich die Anpassung der Frequen zen, Dauer und Gesamtamplituden sowie von Amplituden in verschiedenen Frequenzbereichen der beiden Audiosegmente im Bereich des Konkatenationsmomentes vorgesehen. Des weiteren erlaubt es die Erfindung, auch übergeordnete akustische Phäno mene einer realen Sprache, wie z. B. übergeordnete Koartikulati onseffekte oder Sprachstil (u. a. Flüstern, Betonung, Gesangsstimme oder Falsett) bei der Synthetisierung der Phonem folgen zu berücksichtigen. Hierfür werden Informationen, die solche übergeordnete Phänomene betreffen, zusätzlich in kodier ter Form mit den entsprechenden Audiosegmenten gespeichert, um so bei der Auswahl der Audiosegmente nur solche zu wählen, die den übergeordneten Koartikulationseigenschaften der zeitlich vor- und/oder nachgelagerten Audiosegmente entsprechen.

Die so erzeugten synthetisierten Sprachdaten haben vorzugsweise eine Form, die es unter Verwendung einer Ausgabeeinheit 117 erlaubt, die Sprachdaten in akustische Sprachsignale umzuwan deln und die Sprachdaten und/oder Sprachsignale auf einem akustischen, optischen oder elektrischen Datenträger zu spei chern (Schritt 19).

Mit dieser Erfindung ist es erstmals möglich synthetisierte Sprachsignale durch eine koartikulationsgerechte Konkatenation einzelner Audiosegmente zu erzeugen, da der Moment der Konka tenation in Abhängigkeit der jeweils zu verkettenden Audioseg mente gewählt wird. Auf diese Weise kann eine synthetisierte Sprache erzeugt werden, die vom einer natürlichen Sprache nicht mehr zu unterscheiden ist. Im Gegensatz zu bekannten Verfahren oder Vorrichtungen werden die hier verwendeten Audiosegmente nicht durch ein Einsprechen ganzer Worte erzeugt, um eine authentische Sprachqualität zu gewährleisten. Daher ist es mit dieser Erfindung möglich, synthetisierte Sprache beliebigen Inhalts in der Qualität einer real gesprochenen Sprache zu erzeugen.

Obwohl diese Erfindung am Beispiel der Sprachsynthese beschrie ben wurde, ist die Erfindung nicht auf den Bereich der synthe tisierten Sprache beschränkt, sondern kann zu Synthetisierung beliebiger akustischer Daten verwendet werden. Daher ist diese Erfindung auch für eine Erzeugung und/oder Bereitstellung von synthetisierten Sprachdaten und/oder Sprachsignale für beliebi ge Sprachen oder Dialekte sowie zur Synthese von Musik einsetz bar.

Claims

1. Verfahren zur koartikulationsgerechten Konkatenation von Audiosegmenten, um synthetisierte akustische Daten zu erzeugen, die eine Folge konkatenierter Lauteinheiten wiedergeben, mit folgenden Schritten:

- Auswahl von wenigstens zwei Audiosegmenten, die jeweils eine Lauteinheit oder einen Teil der Folge konkatenierter Lautein heiten wiedergeben, wobei jedes Audiosegment wenigstens einen Soloartikulationsbereich aufweist,

gekennzeichnet durch die Schritte:

- Festlegen eines zu verwendenden Teils eines zeitlich vorgela gerten Audiosegments,
- Festlegen eines zu verwendenden Teils eines zeitlich nachge lagerten Audiosegments, der zeitlich unmittelbar vor dem zu verwendenden Teil des zeitlich nachgelagerten Audiosegments beginnt und mit dem zuerst verwendeten Soloartikulationsbereich des zeitlich nachgelagerten Audiosegments endet,
- wobei die Dauer der zu verwendenden Teile in Abhängigkeit der vor- und nachgelagerten Audiosegmente bestimmt wird, und
- Konkatenieren des festgelegten Teils des zeitlich vorgelager ten Audiosegments mit dem festgelegten Teils des zeitlich nachgelagerten Audiosegments, indem der Moment der Konkatenati on in Abhängigkeit von Eigenschaften des verwendeten Teiles des zeitlich nachgelagerten Audiosegments in dessen festgelegten Teil gelegt wird.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß

- der Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der Grenzen des zuerst zu verwendenden Soloartikulationsbereichs des zeitlich nachgelagerten Audioseg ments liegt, wenn dessen Anfang eine statische Lauteinheit wiedergibt, und
- ein zeitlich hinterer Bereich des zu verwendenden Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Teiles des zeitlich nachgelagerten Audiosegments gewichtet und addiert werden (Crossfade), wobei die Länge eines Überlappungsbereichs der beiden Bereiche in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt wird.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß

- der Moment der Konkatenation in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem zu verwendenden Teil des zeitlich nachgelagerten Audiosegments liegt, wenn dessen Anfang eine dynamische Lauteinheit wiedergibt, und
- ein zeitlich hinterer Bereich des zu verwendenden Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Teiles des zeitlich nachgelagerten Audiosegments gewichtet und nicht überlappend verbunden werden (Hardfade).

4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekenn zeichnet, daß für eine Lauteinheit oder einen Teil der Folge konkatenierter Lauteinheiten am Anfang der konkatenierten Lauteinheitenfolge ein Bereich eines Audiosegmentes ausgewählt wird, so daß der Anfang des Bereiches die Eigenschaften des Anfangs der konka tenierten Lauteinheitenfolge wiedergibt.

5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekenn zeichnet, daß für eine Lauteinheit oder einen Teil der Folge konkatenierter Lauteinheiten am Ende der konkatenierten Lauteinheitenfolge ein Bereich eines Audiosegmentes ausgewählt wird, so daß das Ende des Bereiches die Eigenschaften des Endes der konkatenierten Lauteinheitenfolge wiedergibt.

6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die zu synthetisierenden Sprachdaten in Gruppen zusammengefaßt werden, die jeweils durch ein einzelnes Audiosegment beschrie ben werden.

7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekenn zeichnet, daß für das zeitlich nachgelagerte Audiosegment ein Audiosegment gewählt wird, das die größte Anzahl aufeinanderfolgender konka tenierter Lauteinheiten der Lauteinheitenfolge wiedergibt, um bei der Erzeugung der synthetisierten akustischen Daten die kleinste Anzahl von Audiosegmenten zu verwenden.

8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekenn zeichnet, daß eine Variation der Frequenz, der Dauer und der Gesamtamplitude der verwendeten Teile einzelner Audiosegmente sowie deren Amplitude in verschiedenen Frequenzbereichen in Abhängigkeit von akustischen Eigenschaften der konkatenierten Lauteinheiten folge durchgeführt wird.

9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekenn zeichnet, daß eine Variation der Frequenz, der Dauer und der Gesamtamplitude der verwendeten Teile einzelner Audiosegmente sowie deren Amplitude in verschiedenen Frequenzbereichen in einem Bereich durchgeführt wird, in dem der Moment der Konkatenation liegt.

10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekenn zeichnet, daß der Moment der Konkatenation bei einer Nullstelle in den zu verwendenden Teilen des zeitlich vorgelagerten und/oder des zeitlich nachgelagerten Audiosegments gelegt wird.

11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch ge kennzeichnet, daß die Auswahl der verwendeten Teile einzelner Audiosegmente, deren Variation sowie deren Konkatenation zusätzlich unter Verwendung heuristischen Wissens durchgeführt wird, das durch ein zusätzlich durchgeführtes heuristisches Verfahren gewonnen wird.

12. Verfahren einem der Ansprüche 1 bis 11, dadurch gekenn zeichnet, daß

- die zu synthetisierenden akustischen Daten Sprachdaten, die Lauteinheiten Phone und/oder Polyphone sind,
- die statischen Lauteinheiten Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfassen, und
- die dynamischen Lauteinheiten Plosive, Affrikate, Glottal stops und geschlagenen Laute umfassen.

13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch ge kennzeichnet, daß eine Umwandlung der synthetisierten akustischen Daten in aku stische Signale und/oder Sprachsignale durchgeführt wird.

14. Vorrichtung (1) zur koartikulationsgerechten Konkatenation von Audiosegmenten, um synthetisierte akustische Daten zu erzeugen, die eine Folge konkatenierter Lauteinheiten wiederge ben, mit:

- einer Datenbank (107), in der Audiosegmente gespeichert sind, die jeweils eine Lauteinheit oder einen Teil der Folge konka tenierter Lauteinheiten wiedergeben,
- einer Einrichtung (105) zur Auswahl von wenigstens zwei Audiosegmenten aus der Datenbank (107), und
- einer Einrichtung (111) zur Konkatenation der Audiosegmente, dadurch gekennzeichnet, daß die Konkatenationseinrichtung (111) geeignet ist,
- einen zu verwendenden Teils eines zeitlich vorgelagerten Audiosegments in einem Bereich an dessen Ende zu definieren,
- einen zu verwendenden Teils eines zeitlich nachgelagerten Audiosegments in einem Bereich zu definieren, der mit dem zeitlich nachgelagerten Audiosegment beginnt und zeitlich nach einem in dem zeitlich nachgelagerten Audiosegment zuerst auf tretenden Soloartikulationsbereich endet,
- die Dauer der verwendeten Bereiche in Abhängigkeit der vor- und nachgelagerten Audiosegmente zu bestimmen, und
- den verwendeten Teil des zeitlich vorgelagerten Audiosegments mit dem verwendeten Teil des zeitlich nachgelagerten Audioseg ments durch Definition des Moment der Konkatenation in Abhän gigkeit von Eigenschaften des verwendeten Teiles des zeitlich nachgelagerten Audiosegments in einem Bereich zu konkatenieren, der zeitlich unmittelbar vor dem verwendeten Teil des zeitlich nachgelagerten Audiosegments beginnt und mit dem zuerst auftre tenden Soloartikulationsbereich des zeitlich nachgelagerten Audiosegments endet.

15. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Konkatenationseinrichtung (111) umfaßt:

- Einrichtungen zur Konkatenation des zeitlich vorgelagerten Audiosegments mit dem zeitlich nachgelagerten Audiosegment, dessen Anfang eine statische Lauteinheit wiedergibt, im Bereich der Grenzen des zuerst auftretetenden Soloartikulationsbereichs des verwendeten Teils des zeitlich nachgelagerten Audio segments,
- Einrichtungen zur Gewichtung eines zeitlich hinteren Berei ches des verwendeten Teils des zeitlich vorgelagerten Audio segments und eines zeitlich vorderen Bereiches des verwendeten Teils des zeitlich nachgelagerten Audiosegments, und
- Einrichtungen zur Addition der beiden Bereiche in einem von den zu konkatenierenden Audiosegmenten abhängenden Überlap pungsbereich.

16. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß die Konkatenationseinrichtung (111) umfaßt:

- Einrichtungen zur Konkatenation des zeitlich vorgelagerten Audiosegments mit dem zeitlich nachgelagerten Audiosegment, dessen Anfang eine dynamische Lauteinheit wiedergibt, zeitlich unmittelbar vor dem verwendeten Teil des zeitlich nachgelager ten Audiosegments,
- Einrichtungen zur Gewichtung eines zeitlich hinteren Berei ches des verwendeten Teils des zeitlich vorgelagerten Audio segments und eines zeitlich vorderen Bereiches des verwendeten Teil des zeitlich nachgelagerten Audiosegments, und
- Einrichtungen zur nicht überlappenden Verbindung der Audio segmente.

17. Vorrichtung nach einem der Ansprüche 14 bis 16, dadurch gekennzeichnet, daß die Datenbank (107) Audiosegmente enthält, deren Anfang eine Lauteinheit oder einen Teil der konkatenierten Lauteinheitenfol ge am Anfang der konkatenierten Lauteinheitenfolge wiedergibt.

18. Vorrichtung nach einem der Ansprüche 14 bis 17, dadurch gekennzeichnet, daß die Datenbank (107) Audiosegmente enthält, deren Ende eine Lauteinheit oder einen Teil der konkatenierten Lauteinheiten folge am Ende der konkatenierten Lauteinheitenfolge wiedergibt.

19. Vorrichtung nach einem der Ansprüche 14 bis 18, dadurch gekennzeichnet, daß die Datenbank (117) eine Gruppe von Audiosegmenten enthält, deren Anfänge jeweils nur eine statische Lauteinheiten wieder geben.

20. Vorrichtung nach einem der Ansprüche 14 bis 19, dadurch gekennzeichnet, daß die Konkatenationseinrichtung (111) umfaßt:

- Einrichtungen zur Erzeugung weiterer Audiosegmente durch Konkatenation von Audiosegmenten, deren Anfänge jeweils eine statische Lauteinheit wiedergeben, jeweils mit einem zeitlich nachgelagerten Audiosegment, dessen Anfang eine dynamische Lauteinheit wiedergibt, und
- eine Einrichtung, die die weiteren Audiosegmente der Daten bank (107) oder der Auswahleinrichtung (105) zuführt.

21. Vorrichtung nach einem der Ansprüche 14 bis 20, dadurch gekennzeichnet, daß die Auswahleinrichtung (105) geeignet ist, bei der Auswahl der Audiosegmente aus der Datenbank (107), die Audiosegmente auszu wählen, die jeweils die meisten aufeinanderfolgenden konka tenierten Lauteinheiten der konkatenierten Lauteinheitenfolge wiedergeben.

22. Vorrichtung nach einem der Ansprüche 14 bis 21, dadurch gekennzeichnet, daß die Konkatenationseinrichtung (111) Einrichtungen zur Variation der Frequenz, der Dauer und der Gesamtamplitude der verwendeten Teile einzelner Audiosegmente sowie deren Amplitude in ver schiedenen Frequenzbereichen in Abhängigkeit von Eigenschaften der konkatenierten Lauteinheitenfolge aufweist.

23. Vorrichtung nach einem der Ansprüche 14 bis 22, dadurch gekennzeichnet, daß die Konkatenationseinrichtung (111) Einrichtungen zur Variation der Frequenz, der Dauer und der Gesamtamplitude der verwendeten Teile einzelner Audiosegmente sowie deren Amplitude in ver schiedenen Frequenzbereichen in einem den Moment der Konkatena tion umfassenden Bereich aufweist.

24. Vorrichtung nach einem der Ansprüche 14 bis 23, dadurch gekennzeichnet, daß die Konkatenationseinrichtung (111) Einrichtungen zur Auswahl des Momentes der Konkatenation bei einer Nullstelle in den verwendeten Teilen des zeitlich vorgelagerten und/oder des zeitlich nachgelagerten Audiosegments aufweist.

25. Vorrichtung nach einem der Ansprüche 14 bis 24, dadurch gekennzeichnet, daß die Auswahleinrichtung (105) Einrichtungen zur Implementation heuristischen Wissens umfaßt, das die Auswahl der einzelnen Audiosegmente, deren Variation sowie die Konkatenation der Audiosegmente betrifft.

26. Vorrichtung nach einem der Ansprüche 14 bis 25, dadurch gekennzeichnet, daß

- die Datenbank (107) Audiosegmente enthält, die jeweils wenig stens einen Teil eines Phons, ein Phon oder Polyphone wiederge ben, wobei eine statische Lauteinheit Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfaßt und eine dynamische Lauteinheit Plosive, Affrikate, Glottalstops und geschlagene Laute umfaßt, und
- die Konkatenationseinrichtung (111) geeignet ist, um durch Konkatenation von Audiosegmenten synthetisierte Sprachdaten zu erzeugen.

27. Vorrichtung nach einem der Ansprüche 14 bis 26, dadurch gekennzeichnet, daß Einrichtungen (117) zur Umwandlung der synthetisierten akusti schen Daten in akustische Signale und/oder Sprachsignale vor handen sind.