DE19861167A1

DE19861167A1 - Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten

Info

Publication number: DE19861167A1
Application number: DE19861167A
Authority: DE
Inventors: Christoph Buskies
Original assignee: Individual
Current assignee: BUSKIES, CHRISTOPH, 22559 HAMBURG, DE
Priority date: 1998-08-19
Filing date: 1998-08-19
Publication date: 2000-06-15
Also published as: US7047194B1; CA2340073A1; ATE243876T1; AU5623199A; WO2000011647A1; DE59906115D1; EP1105867B1; EP1105867A1

Abstract

Die Erfindung ermöglicht es, beliebige akustische Daten durch eine Konkatenation einzelner Audiosegmente zu synthetisieren, wobei die Momente, zu denen die jeweiligen Konkatenation zweier aufeinander folgender Audiosegmente erfolgt, in Abhängigkeit von Eigenschaften der Audiosegmente festgelegt werden. Auf diese Weise können synthetisierte akustische Daten erzeugt werden, die sich nach einer Umwandlung in akustische Signale nicht von entsprechenden natürlich erzeugten akustischen Signalen unterscheiden. Insbesondere erlaubt es die Erfindung, synthetisierte Sprachdaten unter Berücksichtigung koartikulatorischer Effekte durch Konkatenation einzelner Sprachsegmente zu erzeugen. Die so zur Verfügung gestellten Sprachdaten können in Sprachsignale umgewandelt werden, die von einer natürlich gesprochenen Sprache nicht zu unterscheiden sind.

Description

Die Erfindung betrifft synthetisierte Sprachsignale, die durch die erfindungsgemäße koartikulationsgerechte Konkatenation von Sprachsegmenten erzeugt wurden, sowie einen Datenträger, der ein Computerprogramm zur erfindungsgemäßen Herstellung von synthetisierten akustischen Daten, insbesondere synthetisierter Sprache, enthält.

Zusätzlich betrifft die Erfindung einen Datenspeicher, der Audiosegmente enthält, die zur erfindungsgemäßen koartikulati onsgerechten Konkatenation geeignet sind, und einen Tonträger, der erfindungsgemäß synthetisierte akustische Daten enthält.

Es ist zu betonen, daß sowohl der im folgenden dargestellte Stand der Technik als auch die vorliegenden Erfindung den gesamten Bereich der Synthese von akustischen Daten durch Konkatenation einzelner, auf beliebige Art und Weise erhaltene Audiosegmente betrifft. Aber um die Diskussion des Standes der Technik sowie die Beschreibung der vorliegenden Erfindung zu vereinfachen, beziehen sich die folgenden Ausführungen speziell auf synthetisierte Sprachdaten durch Konkatenation einzelner Sprachsegmente.

In den letzten Jahren hat sich im Bereich der Sprachsynthese der datenbasierte Ansatz gegenüber dem regelbasierten Ansatz durchgesetzt und ist in verschiedenen Verfahren und Systemen zur Sprachsynthese zu finden. Obwohl der regelbasierte Ansatz prinzipiell eine bessere Sprachsynthese ermöglicht, ist es für dessen Umsetzung notwendig, das gesamte zur Spracherzeugung notwendige Wissen explizit zu formulieren, d. h. die zu synthe tisierende Sprache formal zu modellieren. Da die bekannten Sprachmodellierungen Vereinfachung der zu synthetisierenden Sprache aufweisen, ist die Sprachqualität der so erzeugten Sprache nicht ausreichend.

Daher wird in zunehmenden Maße eine datenbasierte Sprachsynthe se durchgeführt, bei der aus einer einzelne Sprachsegmente aufweisenden Datenbasis entsprechende Segmente ausgewählt und miteinander verknüpft (konkateniert) werden. Die Sprachqualität hängt hierbei in erster Linie von der Zahl und Art der verfüg baren Sprachsegmente ab, denn es kann nur Sprache synthetisiert werden, die durch Sprachsegmente in der Datenbasis wiedergeben ist. Um die Zahl der vorzusehenden Sprachsegmente zu minimieren und dennoch eine synthetisierte Sprache hoher Qualität zu er zeugen, sind verschieden Verfahren bekannt, die eine Verknüp fung (Konkatenation) der Sprachsegmente nach komplexen Regeln durchführen.

Unter Verwendung solcher Verfahren bzw. entsprechender Vorrich tungen kann ein Inventar, d. h. eine die Sprachsegmente umfas sende Datenbasis, verwendet werden, das vollständig und handhabbar ist. Ein Inventar ist vollständig, wenn damit jede Lautfolge der zu synthetisierenden Sprache erzeugt werden kann, und ist handhabbar, wenn die Zahl und Art der Daten des Inven tars mit den technisch verfügbaren Mitteln in einer gewünschten Weise verarbeitet werden kann. Darüber hinaus muß ein solches Verfahren gewährleisten, daß die Konkatenation der einzelnen Inventarelemente eine synthetisierte Sprache erzeugt, die sich von einer natürlich gesprochenen Sprache möglichst wenig unter scheidet. Hierfür muß eine synthetisierte Sprache flüssig sein und die gleichen artikulatorischen Effekte einer natürlichen Sprache aufweisen. Hier kommen den sogenannten koartikulatori schen Effekten, d. h. der gegenseitigen Beeinflussung von Sprachlauten, eine besondere Bedeutung zu. Daher sollten die Inventarelemente so beschaffen sein, das sie die Koartikulation einzelner aufeinanderfolgender Sprachlaute berücksichtigen. Des weiteren sollte ein Verfahren zu Konkatenation der Inventarele mente, die Elemente unter Berücksichtigung der Koartikulation einzelner aufeinanderfolgender Sprachlaute sowie der übergeord neten Koartikulation mehrerer aufeinanderfolgender Sprachlaute, auch über Wort- und Satzgrenzen hinweg, verketten.

Vor der Darstellung des Standes der Technik werden im folgenden einige zum besseren Verständnis notwendige Begriffe aus dem Bereich der Sprachsynthese erläutert:

- Ein Phonem ist die kleinste formal beschreibbare Lauteinheit, wobei i. allg. die formale Beschreibung durch Lautschriftzei chen erfolgt.
- Ein Phon ist die kleinste Lauteinheit, die in Form eines Audiosegmentes speicherbar ist, und stellt die akustische Realisierung eines Phonems dar. Die Phone werden in statische und dynamische Phone unterteilt.
- Zu den statischen Phonen zählen Vokale, Diphtonge, Nasale, Laterale, Vibranten und Frikative.
- Zu den dynamischen Phonen zählen Plosive, Affrikate, Glottal stops und geschlagene Laute.
- Die Koartikulation bezeichnet das Phänomen, daß ein Phon durch vorgelagerte und nachgelagerte Phone beeinflußt wird, wobei die Koartikulation zwischen unmittelbar benachbarten Phonen auftritt, aber sich auch über eine Folge mehrerer Phone erstrecken kann (Beispielsweise bei einer Lippenrundung).
Daher kann ein Phon in drei Bereiche unterteilt werden (siehe auch Fig. 1b):
- Der Anfangs-Koartikulationsbereich umfaßt den Bereich vom Beginn des Phons bis zum Ende der Koartikulation aufgrund eines vorgelagerten Phons.
- Der Solo-Artikulationsbereich, ist der Bereich des Phons, der nicht durch ein vor- oder nachgelagertes Phon beeinflußt ist.
- Der End-Koartikulationsbereich umfaßt den Bereich vom Beginn der Koartikulation aufgrund eines nachgelagerten Phons bis zum Ende des Phons.
- Ein Polyphon ist eine Folge von Phonen.
- Die Elemente eines Inventars sind in kodierter Form gespei cherte Audiosegmente, die Phone, Teile von Phonen oder Polypho ne wiedergeben. Zur besseren Verständnis des möglichen Aufbau eines Elementarelementes sei hier auf die Fig. 2a, die ein herkömmliches Audiosegment zeigt, und die Fig. 2b-2l verwie sen, in denen erfindungsgemäße Audiosegmente gezeigt sind. Er gänzend ist zu erwähnen, daß Audiosegmente auch aus kleineren oder größeren Audiosegmenten gebildet werden können, die in dem Inventar oder einer Datenbank enthalten sind. Des weiteren können Audiosegmente auch in einer transformierten Form (z. B. einer fouriertransformierten Form) in dem Inventar oder einer Datenbank vorliegen.
- Unter Konkatenation versteht man das Aneinanderfügen zweier Inventarelemente.
- Der Konkatenationsmoment ist der Zeitpunkt, zu dem zwei Audiodaten aneinandergefügt werden.

Die Konkatenation kann auf verschiedene Arten erfolgen, z. B. mit einem Crossfade oder einem Hardfade (siehe auch Fig. 3a- 3d):

- Bei einem Crossfade werden ein zeitlich hinterer Bereich eines ersten Inventarelementes sowie ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, und danach werden diese beiden Bereiche überlappend so addiert, daß maximal der zeitliche kürzer der beiden Bereichen von dem zeitlich längeren der beiden Bereiche vollständig überlappt wird.
- Bei einem Hardfade wird ein zeitlich hinterer Bereich eines ersten Inventarelementes und ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, wobei diese beiden Inventarelemente so aneinandergefügt werden, daß sich der hintere Bereich des ersten Inventarelementes und der vorde re Bereich des zweiten Inventarelementes nicht überlappen.

Der Koartikulationsbereich macht sich vor allem dadurch bemerk bar, daß eine Konkatenation darin mit Unstetigkeiten (z. B. Spektralsprüngen) verbunden ist. Deswegen wird der Konkatenati onsmoment vorzugsweise in der Umgebung der Grenze des Solo- Artikulationsbereiches zum Koartikulationsbereich gewählt.

Im allgemeinen werden Inventarelemente durch die Aufnahme von real gesprochener Sprache erzeugt. In Abhängigkeit des Trai ningsgrades des inventaraufbauenden Sprechers, d. h. seiner Fähigkeit die aufzunehmende Sprache zu kontrollieren (z. B. die Tonhöhe der Sprache zu kontrollieren oder exakt auf einer Tonhöhe zu sprechen), ist es möglich, gleiche oder ähnliche Inventarelemente zu erzeugen, die verschobene Grenzen zwischen den Solo-Artikulationsbereichen und Koartikulationsbereichen haben. Dadurch ergeben sich wesentlich mehr Möglichkeiten, die Konkatenationspunkte an verschiedenen Stellen zu plazieren. In der Folge kann die Qualität einer zu synthetisierenden Sprache deutlich verbessert werden.

Ergänzend sei zu erwähnen, daß streng genommen ein Hardfade einen Grenzfall eines Crossfades darstellt, bei dem eine Über lappung eines zeitlich hinteren Bereiches eines ersten Inventa relementes und eines zeitlich vorderen Bereiches eines zweiten Inventarelementes eine Länge Null hat. Dies erlaubt es in be stimmten, z. B. äußerst zeitkritischen Anwendungen einen Cross fade durch einen Hardfade zu ersetzen, wobei eine solche Vorge hensweise genau abzuwägen ist, da diese zu deutlichen Quali tätseinbußen bei der Konkatenation von Inventarelementen führt, die eigentlich durch einen Crossfade zu konkatenieren sind.

- Unter Prosodie versteht man die Veränderungen der Sprachfre quenz und des Sprachrhythmus, die bei gesprochenen Worten bzw. Sätzen auftreten. Die Berücksichtigung solcher prosodischer Informationen ist bei der Sprachsynthese notwendig, um eine natürliche Wort- bzw. Satzmelodie zu erzeugen.

Aus WO 95/30193 ist ein Verfahren und eine Vorrichtung zur Umwandlung von Text in hörbare Sprachsignale unter Verwendung eines neuronalen Netzwerkes bekannt. Hierfür wird der in Spra che umzuwandelnde Text mit einer Konvertiereinheit in eine Folge von Phonemen umgewandelt, wobei zusätzlich Informationen über die syntaktischen Grenzen des Textes und die Betonung der einzelnen syntaktischen Komponenten des Textes erzeugt werden. Diese werden zusammen mit den Phonemen an eine Einrichtung weitergeleitet, die regelbasiert die Dauer der Aussprache der einzelnen Phoneme bestimmt. Ein Prozessor erzeugt aus jedem einzelnen Phonem in Verbindung mit den entsprechenden syntakti schen und zeitlichen Information eine geeignet Eingabe für das neuronale Netzwerk, wobei diese Eingabe für das neuronale Netz auch die entsprechenden prosodischen Informationen für die gesamte Phonemfolge umfaßt. Das neuronale Netz wählt aus den verfügbaren Audiosegmenten nun die aus, die die eingegebenen Phoneme am besten wiedergeben, und verkettet diese Audiosegmen te entsprechend. Bei dieser Verkettung werden die einzelnen Audiosegmente in ihrer Dauer, Gesamtamplitude und Frequenz an vor- und nachgelagerte Audiosegmente unter Berücksichtigung der prosodischen Informationen der zu synthetisierenden Sprache angepaßt und zeitlich aufeinanderfolgend miteinander verbunden. Eine Veränderung einzelner Bereiche der Audiosegmente ist hier nicht beschrieben.

Zur Erzeugung der für dieses Verfahren erforderlichen Audioseg mente ist das neuronale Netzwerk zuerst zu trainieren, indem natürlich gesprochene Sprache in Phone oder Phonfolgen unter teilt wird und diesen Phonen oder Phonfolgen entsprechende Phonem oder Phonemfolgen in Form von Audiosegmenten zugeordnet werden. Da dieses Verfahren nur eine Veränderung von einzelnen Audiosegmenten, aber keine Veränderung einzelner Bereiche eines Audiosegmentes vorsieht, muß das neuronale Netzwerk mit mög lichst vielen verschiedenen Phonen oder Phonfolgen trainiert werden, um beliebige Texte in synthetisierte natürlich klingen de Sprache umzuwandeln. Dies kann sich je nach Anwendungsfall sehr aufwendig gestalten. Auf der anderen Seite kann ein unzu reichender Trainingsprozeß des neuronalen Netzes die Qualität der zu synthetisierenden Sprache negativ beeinflussen. Des weiteren ist es bei dem hier beschriebene Verfahren nicht möglich, den Konkatenationsmoment der einzelnen Audiosegmente in Abhängigkeit vorgelagerter oder nachgelagerter Audiosegmente zu bestimmen, um so eine koartikulationsgerechte Konkatenation durchzuführen.

In US-5,524,172 ist eine Vorrichtung zur Erzeugung syntheti sierter Sprache beschrieben, die das sogenannte Diphonverfahren nutzt. Hier wird ein Text, der in synthetisierte Sprache umge wandelt werden soll, in Phonemfolgen unterteilt, wobei jeder Phonemfolge entsprechende prosodische Informationen zugeordnet werden. Aus einer Datenbank, die Audiosegmente in Form von Diphonen enthält, werden für jedes Phonem der Folge zwei das Phonem wiedergebende Diphone ausgewählt und unter Berücksichti gung der entsprechenden prosodischen Informationen konka teniert. Bei der Konkatenation werden die beiden Diphone jeweils mit Hilfe eines geeigneten Filters gewichtet und die Dauer und Tonhöhe beider Diphone so verändert, daß bei der Verkettung der Diphone eine synthetisierte Phonfolge erzeugt wird, deren Dauer und Tonhöhe der Dauer und Tonhöhe der ge wünschten Phonemfolge entspricht. Bei der Konkatenation werden die einzelnen Diphone so addiert, daß sich ein zeitlich hinte rer Bereich eines ersten Diphones und ein zeitlich vorderer Bereich eines zweiten Diphones überlappen, wobei der Konkatena tionsmoment generell im Bereich stationären Bereiche der ein zelnen Diphone liegt (siehe Fig. 2a). Da eine Variation des Konkatenationsmomentes unter Berücksichtigung der Koartikulati on aufeinanderfolgender Audiosegmente (Diphone) hier nicht vorgesehen ist, kann die Qualität (Natürlichkeit und Verständ lichkeit) einer so synthetisierten Sprache negativ beeinflußt werden.

Eine Weiterentwicklung des zuvor diskutierten Verfahrens ist in EP-0,813,184 A1 zu finden. Auch hier wird ein in synthetisierte Sprache umzuwandelnder Text in einzelne Phoneme oder Phonemfol gen unterteilt und aus einer Datenbank entsprechende Audioseg mente ausgewählt und konkateniert. Um eine Verbesserung der synthetisierten Sprache zu erzielen, sind bei diesem Verfahren zwei Ansätze, die sich vom bisher diskutierten Stand der Tech nik unterscheiden, umgesetzt worden. Unter Verwendung eines Glättungsfilters, der die tieferfrequenten harmonischen Fre quenzanteile eines vorgelagerten und eines nachgelagerten Audiosegments berücksichtigt, soll der Übergang von dem vorge lagerten Audiosegment zu dem nachgelagerten Audiosegment opti miert werden, indem ein zeitlich hinterer Bereich des vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des nachgelagerten Audiosegments im Frequenzbereich aufeinander abgestimmt werden. Des weiteren stellt die Datenbank Audioseg mente zur Verfügung, die sich leicht unterscheiden, aber zur Synthetisierung desselben Phonems geeignet sind. Auf diese Weise soll die natürliche Variation der Sprache nachgebildet werden, um eine höhere Qualität der synthetisierten Sprache zu erreichen. Sowohl, die Verwendung des Glättungsfilter als auch die Auswahl aus einer Menge unterschiedlicher Audiosegmente zur Realisierung eines Phonems erfordert bei einer Umsetzung dieses Verfahrenes eine hohe Rechenleistung der verwendeten Systemkom ponenten. Außerdem steigt der Umfang der Datenbank aufgrund der erhöhten Zahl der vorgesehenen Audiosegmente. Des weiteren ist auch bei diesem Verfahren eine koartikulationsabhängige Wahl des Konkatenationsmoments einzelner Audiosegmente nicht vorge sehen, wodurch die Qualität der synthetisierten Sprache redu ziert werden kann.

DE 693 18 209 T2 beschäftigt sich mit Formatsynthese. Gemäß diesem Dokument werden zwei mehrstimmige Laute unter Verwendung eines Interpolationsmechanismus miteinander verbunden, der auf ein letztes Phonem eines vorgelagerten Lauts und auf ein erstes Phonem eines nachgelagerten Lauts angewendet wird, wobei die zwei Phoneme der beiden Laute gleich sind und bei den verbunde nen Lauten zu einem Phonem überlagert werden. Bei der Überlage rung werden die die zwei Phoneme beschreibenden Kurven jeweils mit einer Gewichtungsfunktion gewichtet. Die Gewichtungsfunkti on wird bei jedem Phonem in einem Bereich angewendet, der unmittelbar nach dem Beginn des Phonems beginnt und unmittelbar vor dem Ende des Phonems endet. Somit entsprechen bei der hier beschriebenen Konkatenation von Lauten die verwendeten Bereiche der Phoneme, die den Übergang zwischen den Lauten bilden, im wesentlichen den jeweiligen gesamten Phonemen. Das heißt, daß die zur Konkatenation verwendeten Teile der Phoneme stets alle drei Bereiche, nämlich den jeweiligen Anfangskoartikulations bereich, Soloartikulationsbereich und Endkoartikulationsbereich umfassen. Mithin lehrt D1 eine Verfahrensweise wie die Übergän ge zwischen zwei Lauten zu glätten sind.

Des weiteren wird gemäß diesem Dokument der Moment der Konka tenation zweier Laute so festgelegt, daß sich das letzte Phonem in dem vorgelagerten Laut und das erste Phonem in dem nachgela gerten Laut vollständig überlappen.

Grundsätzlich ist festzustellen, daß DE 689 15 353 T2 eine Verbesserung der Tonqualität erreichen will indem eine Vorge hensweise angegeben wird, wie der Übergang zwischen zwei be nachbarten Abtastwerten zu gestalten ist. Dies ist insbesondere bei niedrigen Abtastraten relevant.

Bei der in diesem Dokument beschriebenen Sprachsynthese werden Wellenformen verwendet, die zu konkatenierende Laute wiederge ben. Bei Wellenformen für vorgelagerte Laute wird jeweils ein entsprechender Endabtastwert und ein zugeordneter Nulldurch gangspunkt bestimmt, während bei Wellenformen für nachgelagerte Laute jeweils ein erster oberer Abtastwert und ein zugeordneter Nulldurchgangspunkt bestimmt wird. In Abhängigkeit dieser bestimmten Abtastwerte und der zugeordneten Nulldurchgangspunk te werden Laute auf maximal vier verschiedene Arten miteinander verbunden. Die Anzahl der Verbindungsarten wird auf zwei redu ziert, wenn die Wellenformen unter Verwendung des Nyquist-Theo rems erzeugt werden. In DE 689 15 353 T2 ist beschrieben, daß sich der verwendete Bereich der Wellenformen zwischen dem letzten Abtastwert der vorgelagerten Wellenform und dem ersten Abtastwert der nachgelagerten Wellenform erstreckt. Eine Varia tion der Dauer der verwendeten Bereiche in Abhängigkeit der zu konkatenierenden Wellenformen, wie dies bei der Erfindung der Fall ist, ist in D1 nicht beschrieben.

Zusammenfassend ist zu sagen, daß es der Stand der Technik zwar erlaubt, beliebige Phonemfolgen zu synthetisieren, aber die so synthetisierten Phonemfolgen haben keine authentische Sprach qualität. Eine synthetisierte Phonemfolge hat eine authentische Sprachqualität, wenn sie von der gleichen Phonemfolge, die von einem realen Sprecher gesprochen wurde, durch einen Hörer nicht unterschieden werden kann.

Es sind auch Verfahren bekannt, die ein Inventar benutzen, das vollständige Worte und/oder Sätze in authentischer Sprachquali tät als Inventarelemente enthält. Diese Elemente werden zur Sprachsynthese in einer gewünschten Reihenfolge hintereinander gesetzt, wobei die Möglichkeiten unterschiedliche Sprachsequen zen in hohem Maße von dem Umfang eines solchen Inventars limi tiert werden. Die Synthese beliebiger Phonemfolgen ist mit die sen Verfahren nicht möglich.

Daher ist es eine Aufgabe der vorliegenden Erfindung ein Ver fahren und eine entsprechende Vorrichtung zur Verfügung zu stellen, die die Probleme des Standes der Technik beseitigen und die Erzeugung synthetisierter akustischer Daten, insbeson dere synthetisierter Sprachdaten, ermöglichen, die sich für einen Hörer nicht von entsprechenden natürlichen akustischen Daten, insbesondere natürlich gesprochener Sprache, unterschei den. Die mit der Erfindung synthetisierten akustischen Daten, insbesondere synthetisierte Sprachdaten sollen eine authenti sche akustische Qualität, insbesondere eine authentische Sprachqualität aufweisen.

Zur Lösung dieser Aufgabe sieht die Erfindung synthetisierte Sprachsignale gemäß Anspruch 1, einen Datenträger gemäß An spruch 12, einen Datenspeicher gemäß Anspruch 24, sowie einen Tonträger gemäß Anspruch 33 vor. Somit ermöglicht es die Erfin dung, synthetisierte akustische Daten zu erzeugen, die aus einer Folge von Lauteinheiten bestehen, indem bei der Konka tenation von Audiosegmenten der Moment der Konkatenation zweier Audiosegmente in Abhängigkeit von Eigenschaften der zu verknüp fenden Audiosegmente, insbesondere der die beiden Audiosegmente betreffenden Koartikulationseffekte bestimmt. Auf diese Weise wird eine Sprachqualität erreicht, die mit dem Stand der Tech nik nicht erzielbar ist. Dabei ist die erforderliche Rechenlei stung nicht höher als beim Stand der Technik.

Um bei der Synthese akustischer Daten die Variationen nachzu bilden, die bei entsprechenden natürlichen akustischen Daten zu finden sind, sieht die Erfindung eine unterschiedliche Auswahl der Audiosegmente sowie unterschiedliche Arten der koartikula tionsgerechten Konkatenation vor. So wird ein höheres Maß an Natürlichkeit der synthetisierten akustischen Daten erzielt, wenn ein zeitlich nachgelagertes Audiosegment, dessen Anfang eine statische Lauteinheit wiedergibt, mit einem zeitlich vorgelagerten Audiosegment mittels eines Crossfades verbunden wird, bzw. wenn ein zeitlich nachgelagertes Audiosegment, dessen Anfang eine dynamische Lauteinheit wiedergibt, mit einem zeitlich vorgelagerten Audiosegment mittels eines Hardfades verbunden wird. Des weiteren ist es vorteilhaft den Anfang der zu erzeugenden synthetisierten akustischen Daten unter Verwen dung eines den Anfang wiedergebenden Audiosegments bzw. das Ende der zu erzeugenden synthetisierten akustischen Daten unter Verwendung eines das Ende wiedergebenden Audiosegments zu erzeugen.

Um die Erzeugung der synthetisierten akustischen Daten einfa cher und schneller durchzuführen, ermöglicht es die Erfindung die Zahl der zur Datensynthetisierung notwendigen Audiosegmente zu reduzieren, indem Audiosegmente verwendet werden, die immer mit einer dynamischen Lauteinheit beginnen, wodurch alle Konka tenationen dieser Audiosegmente mittels eines Hardfades durch geführt werden können. Hierfür werden zeitlich nachgelagerte Audiosegmente mit zeitlich vorgelagerten Audiosegmenten verbun den, deren Anfänge jeweils eine dynamische Lauteinheit wieder geben. Auf diese Weise können auch mit geringer Rechenleistung (z. B. bei Anrufbeantwortern oder Autoleitsystemen) erfindungs gemäß synthetisierte akustische Daten hoher Qualität erzeugt werden. Des weiteren sinkt der zur Speicherung des Inventars notwendige Speicherbedarf.

Außerdem sieht die Erfindung vor, akustische Phänomene nach zubilden, die sich aufgrund einer gegenseitigen Beeinflussung einzelner Segmente entsprechender natürlicher akustischer Daten ergeben. Insbesondere ist hier vorgesehen, einzelne Audioseg mente bzw. einzelne Bereiche der Audiosegmente in ihrer Fre quenz, Dauer und Amplitude(n) zu variieren. Werden mit der Er findung synthetisierte Sprachdaten erzeugt, so werden zur Lösung dieser Aufgabe vorzugsweise prosodische Informationen und/oder übergeordnete Koartikulationseffekte berücksichtigt.

Der Signalverlauf von synthetisierten akustischen Daten kann zusätzlich verbessert werden, wenn der Konkatenationsmoment an Nullstellen der einzelnen zu verknüpfenden Audiosegmente gelegt wird.

Darüber hinaus ermöglicht es Erfindung, die Auswahl der Audio segmente zur Erzeugung der synthetisierten akustischen Daten zu verbessern sowie deren Konkatenation effizienter zu gestalten, indem heuristisches Wissen verwendet wird, das die Auswahl, Va riation und Konkatenation der Audiosegmente betrifft.

Um synthetisierte akustische Daten zu erzeugen, die Sprachdaten sind, die sich von entsprechenden natürlichen Sprachdaten nicht unterscheiden, werden vorzugsweise Audiosegmente genutzt wer den, die Phone oder Polyphone wiedergeben.

Außerdem erlaubt die Erfindung die Nutzung der erzeugten syn thetisierten akustischen Daten, indem diese Daten in akustische Signale und/oder Sprachsignale umwandelbar und/ oder auf einem Datenträger speicherbar sind.

Des weiteren kann die Erfindung verwendet werden, um syntheti sierte Sprachsignale zu Verfügung zu stellen, die sich von be kannten synthetisierten Sprachsignalen dadurch unterscheiden, daß sie sich in ihrer Natürlichkeit und Verständlichkeit nicht von realer Sprache unterscheiden. Hierfür werden Audiosegmente koartikulationsgerecht konkateniert, die jeweils Phone und/oder Polyphone der zu synthetisierenden Sprache wiedergeben, indem die zu verwendenden Teile der Audiosegmente sowie der Moment der Konkatenation dieser Teile erfindungsgemäß wie in Anspruch 28 definiert bestimmt werden.

Eine zusätzliche Verbesserung der synthetisierten Sprache kann erreicht werden, wenn ein zeitlich nachgelagertes Audiosegment, dessen Anfang ein statisches Phon wiedergibt, mit einem zeit lich vorgelagerten Audiosegment mittels eines Crossfades ver bunden wird, bzw. wenn ein zeitlich nachgelagertes Audiosegment, dessen Anfang ein dynamisches Phon wiedergibt, mit einem zeitlich vorgelagerten Audiosegment mittels eines Hardfades verbunden wird. Hierbei umfassen statische Phone Vokale, Diphtonge, Liquide, Frikative, Vibranten und Nasale bzw. dynamische Phone Plosive, Affrikate, Glottalstops und geschlagene Laute.

Da sich die Anfangs- und Endbetonungen von Lauten bei natürli cher Sprache von vergleichbaren, aber eingebetteten Lauten un terscheiden ist es zu bevorzugen, entsprechend Audiosegmente zu verwenden, deren Anfänge jeweils den Anfang bzw. deren Enden jeweils das Ende von zu synthetisierender Sprache wiedergeben.

Besonders bei Erzeugung synthetisierter Sprache ist eine schnelle und effiziente Vorgehensweise wünschenswert. Hierfür ist es zu bevorzugen, erfindungsgemäße koartikualtionsgerechte Konkatenationen immer mittels Hardfades durchzuführen, wobei nur Audiosegmente verwendet werden, deren Anfänge jeweils immer ein dynamisches Phon wiedergeben. Derartige Audiosegmente können mit der Erfindung durch koartikulationsgerechte Konka tenation entsprechender Audiosegmente zuvor erzeugt werden.

Des weiteren stellt die Erfindung Sprachsignale bereit, die einen natürlichen Sprachfluß, Sprachmelodie und Sprachrhythmus haben, indem Audiosegmente in Form von Phonen oder Phonfolgen jeweils vor und/oder nach der Konkatenation in ihrer Gesamtheit oder in einzelnen Bereichen in ihrer Frequenz, Dauer und Ampli tude variiert werden. Besonders vorteilhaft ist es diese Varia tion in Bereichen durchzuführen, in denen die entsprechenden Momente der Konkatenationen liegen.

Ein zusätzlich verbesserter Signalverlauf kann erreicht werden, wenn die Konkatenationsmomente an Nullstellen der zu verknüp fenden Audiosegmente liegen.

Um eine einfache Nutzung und/oder Weiterverarbeitung der erfin dungsgemäßen Sprachsignale durch bekannte Verfahren oder Vor richtungen, z. B. einem CD-Abspielgerät, zu erlauben, ist es be sonders zu bevorzugen, daß die Sprachsignale in akustische Si gnale umwandelbar oder auf einem Datenträger speicherbar sind.

Um die Erfindung auch bei bekannten Vorrichtungen, z. B. einem Personal Computer oder einem computergesteuerten Musikinstru ment, anzuwenden, ist ein Datenträger vorgesehen, der ein Computerprogramm enthält, der die Durchführung des erfindungs gemäßen Verfahrens bzw. die Steuerung der erfindungsgemäßen Vorrichtung sowie deren verschiedenen Ausführungsformen ermög licht. Des weiteren erlaubt der erfindungsgemäße Datenträger auch die Erzeugung von Sprachsignalen, die koartikulationsge rechte Konkatenationen aufweisen.

Um ein Audiosegmente umfassendes Inventar zur Verfügung zu stellen, mit dem synthetisierte akustische Daten, insbesondere synthetisierte Sprachdaten, erzeugt werden können, die sich von entsprechenden natürlichen akustischen Daten nicht unterschei den, sieht die Erfindung einen Datenspeicher vor, der Audioseg mente enthält, die geeignet sind, um erfindungsgemäß zu synthe tisierten akustischen Daten konkateniert zu werden. Vorzugswei se enthält ein solcher Datenträger Audiosegmente, zur Durchfüh rung des erfindungsgemäßen Verfahrens, zur Anwendung bei der erfindungsgemäßen Vorrichtung oder dem erfindungsgemäßen Daten träger geeignet sind. Alternativ kann der Datenträger auch erfindungsgemäße Sprachsignale umfassen.

Darüber hinaus ermöglicht es die Erfindung, erfindungsgemäße synthetisierte akustische Daten, insbesondere synthetisierte Sprachdaten, zur Verfügung zu stellen, die mit herkömmlichen bekannten Vorrichtungen, beispielsweise einem Tonbandgerät oder einer PC-Audiokarte, genutzt werden können. Hierfür ist ein Tonträger vorgesehen, der Daten aufweist, die zumindest teil weise mit dem erfindungsgemäßen Verfahren oder der erfindungs gemäßen Vorrichtung bzw. unter Verwendung des erfindungsgemäßen Datenträgers oder des erfindungsgemäßen Datenspeichers erzeugt wurden. Der Tonträger kann auch Daten enthalten, die erfin dungsgemäß koartikulationsgerecht konkatenierte Sprachsignale sind.

Weitere Eigenschaften, Merkmale, Vorteile oder Abwandlungen der Erfindung werden anhand der nachfolgenden Beschreibung erläu tert. Dabei zeigt:

Fig. 1a: Schematische Darstellung einer Vorrichtung zur Erzeugung erfindungsgemäßer synthetisierter akustischer Daten;

Fig. 1b: Struktur eines Phons;

Fig. 2a: Struktur eines herkömmlichen Audiosegmentes nach dem Stand der Technik;

Fig. 2b: Struktur eines erfindungsgemäßen Audiosegmentes, das ein Phon mit nachgelagerten Koartikualtions bereichen wiedergibt;

Fig. 2c: Struktur eines erfindungsgemäßen Audiosegmentes, das ein Phon mit vorgelagerten Koartikualtions bereichen wiedergibt;

Fig. 2d: Struktur eines erfindungsgemäßen Audiosegmentes, das ein Phon mit nachgelagerten Koartikualtions bereichen wiedergibt und eventuell vom Konka tenationsverfahren (z. B. Crossfade) benötigte zusätzliche Bereiche enthält;

Fig. 2e: Struktur eines erfindungsgemäßen Audiosegmentes, das ein Phon mit vorgelagerten Koartikualtions bereichen wiedergibt und eventuell vom Konka tenationsverfahren (z. B. Crossfade) benötigte zusätzliche Bereiche enthält;

Fig. 2f: Strukturen von erfindungsgemäßen Audiosegmenten, das ein Polyphon mit jeweils nachgelagerten Koartikualtionsbereichen wiedergeben;

Fig. 2g: Struktur eines erfindungsgemäßen Audiosegmentes, das ein Polyphon mit jeweils vorgelagerten Koar tikualtionsbereichen wiedergibt;

Fig. 2h: Struktur eines erfindungsgemäßen Audiosegmentes, das ein Polyphon mit jeweils nachgelagerten Koartikualtionsbereichen wiedergibt und eventu ell vom Konkatenationsverfahren (z. B. Crossfade) benötigte zusätzliche Bereiche enthält;

Fig. 2i: Struktur eines erfindungsgemäßen Audiosegmentes, das ein Polyphon mit jeweils vorgelagerten Koar tikualtionsbereichen wiedergibt und eventuell vom Konkatenationsverfahren (z. B. Crossfade) be nötigte zusätzliche Bereiche enthält;

Fig. 2j: Strukturen von erfindungsgemäßen Audiosegmenten, das einen Teil eines Phons oder Phone vom Anfang einer Phonfolge wiedergeben;

Fig. 2k: Struktur eines erfindungsgemäßen Audiosegmentes, das Phone vom Ende einer Phonfolge wiedergibt;

Fig. 3a: Konkatenation gemäß dem Stand der Technik am Beispiel zweier Audiosegmente;

Fig. 3b: Konkatenation gemäß dem erfindungsgemäßen Ver fahren am Beispiel zweier Audiosegmente, die je ein Phon mit nachgelagerten Koartikulationsbe reichen enthalten, mittels eines Crossfades (Fig. 3bI) und eines Hardfades (Fig. 3bII), wo bei das erste Phon vom Anfang einer Lauteinhei tenfolge stammt;

Fig. 3c: Konkatenation gemäß dem erfindungsgemäßen Ver fahren am Beispiel zweier Audiosegmente, die je ein Phon mit nachgelagerten Koartikulationsbe reichen enthalten, mittels eines Crossfades (Fig. 3cI) und eines Hardfades (Fig. 3cII);

Fig. 3d: Konkatenation gemäß dem erfindungsgemäßen Ver fahren am Beispiel zweier Audiosegmente, die je ein Phon mit vorgelagerten Koartikulationsberei chen enthalten, mittels eines Crossfades (Fig. 3dI) und eines Hardfades (Fig. 3dII);

Fig. 3e: Konkatenation gemäß dem erfindungsgemäßen Ver fahren am Beispiel zweier Audiosegmente, die je ein Phon mit nachgelagerten Koartikulationsbe reichen enthalten, mittels eines Crossfades (Fig. 3e1) und eines Hardfades (Fig. 3eII), wo bei das erste Phon vom Ende einer Lauteinheiten folge stammt; und

Fig. 4: Schematische Darstellung der Schritte eines erfindungsgemäßen Verfahrens zur Erzeugung synthetisierter akustischer Daten.

Die im folgenden benutzten Bezugszeichen beziehen sich auf die Fig. 1 und die im folgenden für die verschiedenen Verfahrens schritte benutzten Nummern beziehen sich auf die Fig. 4.

Um mit Hilfe der Erfindung beispielsweise einen Text in synthe tisierte Sprache umzuwandeln, ist es notwendig in einem vorge lagerten Schritt diesen Text in eine Folge von Phonemen unter Verwendung bekannter Verfahren oder Vorrichtungen zu untertei len. Vorzugsweise sind auch dem Text entsprechende prosodische Informationen zu erzeugen. Die Phonemfolge sowie die prosodi schen Informationen dienen als Eingabegrößen für das erfin dungsgemäße Verfahren bzw. die erfindungsgemäße Vorrichtung.

Die zu synthetisierenden Phoneme werden einer Eingabeeinheit 101 der Vorrichtung 1 zur Erzeugung synthetisierter Sprachdaten zugeführt und in einer ersten Speichereinheit 103 abgelegt (siehe Fig. 1). Mit Hilfe einer Auswahleinrichtung 103 werden aus einem Audiosegmente (Elemente) enthaltenden Inventar, das in einer Datenbank 107 gespeichert ist, die Audiosegmente ausgewählt, die Phone oder Teile von Phonen wiedergeben, die den einzelnen eingegebenen Phonemen oder Teilen davon entspre chen und in einer Reihenfolge, die der Reihenfolge der eingege benen Phoneme entspricht, in einer zweiten Speichereinheit 104 gespeichert. Falls das Inventar Polyphone wiedergebende Audio segmente enthält, so wählt die Auswahleinrichtung 103 vorzugs weise die Audiosegmente aus, die die längsten Polyphone wieder geben, die einer Folge von Phonemen aus der eingegebenen Pho nemfolge entsprechen.

Stellt die Datenbank 107 ein Inventar mit Audiosegmenten unter schiedlicher Arten zur Verfügung, so wählt die Auswahleinrich tung 103 vorzugsweise die längsten Audiosegmente aus, die den Phonemfolgen oder Teilen davon entsprechen, um die eingegebene Phonemfolge und/oder eine Folge von Phonemen aus einer minima len Anzahl von Audiosegmenten zu synthetisieren. Hierbei ist es vorteilhaft, verkettete Phone als Inventarelemente zu verwen den, die aus einem zeitlich vorgelagerten statischen Phon und einem zeitlich nachgelagerten dynamischen Phon bestehen. So entstehen Inventarelemente, die aufgrund der Einbettung der dynamischen Phone immer mit einem statischen Phon beginnen. Dadurch vereinfacht und vereinheitlicht sich das Vorgehen bei Konkatenationen solcher Inventarelemente, da hierfür nur Cross fades benötigt werden.

Um eine koartikulationsgerechte Konkatenation der zu verketten den Audiosegmente zu erzielen, werden mit Hilfe einer Konka tenationseinrichtung 111 die Konkatenationsmomente zweier aufeinanderfolgender Audiosegmente wie folgt festgelegt:

- Soll ein Audiosegment zu Synthetisierung des Anfanges der eingegebenen Phonemfolge (Schritt 1) verwendet werden, so ist aus dem Inventar ein Audiosegment zu wählen, das einen Wortan fang wiedergibt und mit einem zeitlich nachgelagerten Audioseg ment zu verketten (siehe Fig. 3b und Schritt 3 in Fig. 4).
- Bei der Konkatenation eines zweiten Audiosegmentes an ein zeitlich vorgelagertes erstes Audiosegment ist zu unterschei den, ob das zweite Audiosegment mit einem statischen Phon oder einem dynamischen Phon beginnt, um die Wahl des Momentes der Konkatenation entsprechend zu treffen (Schritt 6).
- Beginnt das zweite Audiosegment mit einem statischen Phon, wird die Konkatenation in Form eines Crossfades durchgeführt, wobei der Moment der Konkatenation im zeitlich hinteren Bereich des ersten Audiosegmentes und im zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird, wodurch sich diese beiden Bereiche bei der Konkatenation überlappen oder wenigstens unmittelbar aneinandergrenzen (siehe Fig. 3c und 3d, Konka tenation mittels Crossfade).
- Beginnt das zweite Audiosegment mit einem dynamischen Phon, wird die Konkatenation in Form eines Hardfades durchgeführt, wobei der Moment der Konkatenation zeitlich unmittelbar hinter der zeitlich hinteren Bereich des ersten Audiosegmentes und zeitlich unmittelbar vor dem zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird (siehe Fig. 3c und 3d, Konkatenation mittels Hardfade).

Auf diese Weise können aus diesen ursprünglich verfügbaren Audiosegmenten, die Phone oder Polyphone wiedergeben, neue Polyphone wiedergebende Audiosegmente erzeugt werden, die mit einem statischen Phon beginnen. Dies erreicht man, indem Audio segmente, die mit einem dynamischen Phon beginnen, zeitlich nachgelagert mit Audiosegmenten, die mit einem statischen Phon beginnen, verkettet werden. Dies vergrößert zwar die Zahl der Audiosegmente bzw. den Umfang des Inventars, kann aber bei der Erzeugung synthetisierter Sprachdaten einen rechentechnischen Vorteil darstellen, da weniger einzelne Konkatenationen zur Erzeugung einer Phonemfolge erforderliche sind und Konkate nationen nur noch in Form eines Crossfades durchgeführt werden müssen. Vorzugsweise werden die so erzeugten neuen verketteten Audiosegmente der Datenbank 107 oder einer anderen Speicherein heit 113 zugeführt.

Ein weiterer Vorteil dieser Verkettung der ursprüngliche Audio segmente zu neuen längeren Audiosegmenten ergibt sich, wenn sich beispielsweise eine Folge von Phonemen in der eingegebenen Phonemfolge häufig wiederholt. Dann kann auf eines der neuen entsprechend verketteten Audiosegmente zurückgegriffen werden und es ist nicht notwendig, bei jedem Auftreten dieser Folge von Phonemen eine erneute Konkatenation der ursprünglich vor handenen Audiosegmente durchzuführen. Vorzugsweise sind bei der Speicherung solcher verketteten Audiosegmente auch übergreifen de Koartikulationseffekte zu erfassen bzw. spezifische Koarti kulationseffekte in Form zusätzlicher Daten dem gespeicherten verketteten Audiosegment zuzuordnen.

Soll ein Audiosegment zu Synthetisierung des Endes der eingege benen Phonemfolge verwendet werden, so ist aus dem Inventar ein Audiosegment zu wählen, das ein Wortende wiedergibt und mit einem zeitlich vorgelagertes Audiossegment zu verketten (siehe Fig. 3e und Schritt 8 in Fig. 4).

Die einzelnen Audiosegmente werden in der Datenbank 107 kodiert gespeichert, wobei die kodierte Form der Audiosegmente neben der Wellenform des jeweiligen Audiosegmentes angibt, welche(s) Phon(e) das jeweilige Audiosegment wiedergibt, welche Art der Konkatenation (z. B. Hardfade, linearer oder exponentieller Crossfade) mit welchem zeitlich nachfolgenden Audiosegment durchzuführen ist und zu welchem Moment die Konkatenation mit welchem zeitlich nachfolgenden Audiosegment stattfindet. Vor zugsweise enthält die kodierte Form der Audiosegmente auch Informationen bezüglich der Prosodie und übergeordneten Koarti kulationen, die bei einer Synthetisierung der gesamten vom Sprecher aufgenommene Phonemfolge und/oder Folgen von Phonem verwendet werden, um eine zusätzliche Verbesserung der Sprach qualität zu erzielen.

Bei der Wahl der Audiosegmente zur Synthetisierung der eingege benen Phonemfolge werden als zeitlich nachgelagerte Audioseg mente solche gewählt, die den Eigenschaften der jeweils zeitlich vorgelagerten Audiosegmente, d. h. Konkatenationsart und Konkatenationsmoment, entsprechen. Nachdem die der Phonem folge entsprechenden Audiosegmente aus der Datenbank 107 ge wählt wurden, erfolgt die Verkettung zweier aufeinanderfol gender Audiosegmente mit Hilfe der Konkatenationseinrichtung 111 folgendermaßen. Es wird die Wellenform, die Konkatenations art und der Konkatenationsmoment des ersten Audiosegmentes und des zweiten Audiosegmentes aus der Datenbank (Fig. 3a und Schritt 10 und 11) geladen. Vorzugsweise werden bei der oben erwähnten Wahl der Audiosegmente solche Audiosegmente gewählt, die hinsichtlich ihrer Konkatenationsart und ihres Konkatenati onsmoment zu einander passen. In diesem Fall ist das Laden der Informationen bezüglich der Konkatenationsart und des Konka tenationsmomentes des zweiten Audiosegmentes ist nicht mehr notwendig.

Zur Konkatenation der beiden Audiosegmente werden die Wellen form des ersten Audiosegmentes in einem zeitlich hinteren Bereich und die Wellenform des zweiten Audiosegmentes in einem zeitlich vorderen Bereich jeweils mit einer geeigneten Gewich tungsfunktion multipliziert (siehe Fig. 3a, Schritt 12 und 13). Die Längen des zeitlich hinteren Bereiches des ersten Audiosegmentes und des zeitlich vorderen Bereiches des zweiten Audiosegmentes ergeben sich aus der Konkatenationsart und zeitlichen Lage des Konkatenationsmomentes, wobei diese Längen auch in der kodierten Form der Audiosegmente in der Datenbank gespeichert werden können.

Sind die beiden Audiosegmente mit einem Crossfade zu verketten, werden diese entsprechend dem jeweiligen Konkatenationsmoment überlappend addiert (siehe Fig. 3c und 3d, Schritt 15). Vorzugsweise ist hierbei ein linearer symmetrischer Crossfade zu verwenden, es kann aber auch jede andere Art eines Crossfa des eingesetzt werden. Ist eine Konkatenation in Form eines Hardfades durchzuführen, werden die beiden Audiosegmente nicht überlappend hintereinander verbunden (siehe Fig. 3c und 3d, Schritt 15). Wie in Fig. 3d zu sehen ist, werden hierbei die beiden Audiosegmente zeitlich unmittelbar hintereinander ange ordnet. Um die so erzeugten synthetisierten Sprachdaten weiter verarbeiten zu können, werden diese vorzugsweise in einer dritten Speichereinheit 115 abgelegt.

Für die weitere Verkettung mit nachfolgenden Audiosegmenten werden die bisher verketteten Audiosegmente als erstes Audio segment betrachtet (Schritt 16) und der oben beschriebenen Verkettungsprozeß solange wiederholt, bis die gesamte Phonem folge synthetisiert wurde.

Zur Verbesserung der Qualität der synthetisierten Sprachdaten sind vorzugsweise auch die prosodischen Informationen, die zusätzlich zu der Phonemfolge eingegeben werden, bei der Ver kettung der Audiosegmente zu berücksichtigen. Mit Hilfe bekann ter Verfahren kann die Frequenz, Dauer und Amplitude der Audiosegmente vor und/oder nach deren Konkatenation so verän dert werden, daß die synthetisierten Sprachdaten eine natürli che Wort- und/oder Satzmelodie aufweisen (Schritte 14, 17 oder 18). Hierbei ist es zu bevorzugen, Konkatenationsmomente an Nullstellen der Audiosegmente zu wählen.

Um die Übergänge zwischen zwei aufeinander folgenden Audioseg menten zu optimieren, ist zusätzlich die Anpassung der Frequen zen, Dauer und Gesamtamplituden sowie von Amplituden in verschiedenen Frequenzbereichen der beiden Audiosegmente im Bereich des Konkatenationsmomentes vorgesehen. Des weiteren erlaubt es die Erfindung, auch übergeordnete akustische Phäno mene einer realen Sprache, wie z. B. übergeordnete Koartikulati onseffekte oder Sprachstil (u. a. Flüstern, Betonung, Gesangsstimme oder Falsett) bei der Synthetisierung der Phonem folgen zu berücksichtigen. Hierfür werden Informationen, die solche übergeordnete Phänomene betreffen, zusätzlich in kodier ter Form mit den entsprechenden Audiosegmenten gespeichert, um so bei der Auswahl der Audiosegmente nur solche zu wählen, die den übergeordneten Koartikulationseigenschaften der zeitlich vor- und/oder nachgelagerten Audiosegmente entsprechen.

Die so erzeugten synthetisierten Sprachdaten haben vorzugsweise eine Form, die es unter Verwendung einer Ausgabeeinheit 117 erlaubt, die Sprachdaten in akustische Sprachsignale umzuwan deln und die Sprachdaten und/oder Sprachsignale auf einem akustischen, optischen oder elektrischen Datenträger zu spei chern (Schritt 19).

Mit dieser Erfindung ist es erstmals möglich synthetisierte Sprachsignale durch eine koartikulationsgerechte Konkatenation einzelner Audiosegmente zu erzeugen, da der Moment der Konka tenation in Abhängigkeit der jeweils zu verkettenden Audioseg-. mente gewählt wird. Auf diese Weise kann eine synthetisierte Sprache erzeugt werden, die von einer natürlichen Sprache nicht mehr zu unterscheiden ist. Im Gegensatz zu bekannten Verfahren oder Vorrichtungen werden die hier verwendeten Audiosegmente nicht durch ein Einsprechen ganzer Worte erzeugt, um eine authentische Sprachqualität zu gewährleisten. Daher ist es mit dieser Erfindung möglich, synthetisierte Sprache beliebigen Inhalts in der Qualität einer real gesprochenen Sprache zu erzeugen.

Obwohl diese Erfindung am Beispiel der Sprachsynthese beschrie ben wurde, ist die Erfindung nicht auf den Bereich der synthe tisierten Sprache beschränkt, sondern kann zu Synthetisierung beliebiger akustischer Daten verwendet werden. Daher ist diese Erfindung auch für eine Erzeugung und/oder Bereitstellung von synthetisierten Sprachdaten und/oder Sprachsignale für beliebi ge Sprachen oder Dialekte sowie zur Synthese von Musik einsetz bar.

Claims

1. Synthetisierte Sprachsignale, die aus einer Folge von Phonen und/oder Polyphonen bestehen, wobei die Sprachsignale erzeugt werden, indem:

- wenigstens zwei die Phone und/oder Polyphone wiedergebende Audiosegmente ausgewählt werden, und
- die Audiosegmente durch eine koartikualtionsgerechte Konka tenation verkettet werden, wobei
- ein zu verwendender Teil eines zeitlich vorgelagerten Audio segments festgelegt wird,
- ein zu verwendender Teil eines zeitlich nachgelagerten Audio segments festgelegt wird, der zeitlich unmittelbar vor dem zu verwendenden Teil des zeitlich nachgelagerten Audiosegments beginnt und mit dem zuerst verwendeten Soloartikulationsbereich des zeitlich nachgelagerten Audosegments endet,
- wobei die Dauer der zu verwendenden Teile in Abhängigkeit der Audiosegmente bestimmt wird, und
- die verwendeten Teile der Audiosegmente koartikulationsge recht konkateniert werden, indem der Moment der Konkatenation in Abhängigkeit von Eigenschaften des verwendeten Teiles des zeitlich nachgelagerten Audiosegments in dessen festgelegten Teil gelegt wird.

2. Synthetisierte Sprachsignale nach Anspruch 1, dadurch gekennzeichnet, daß die Sprachsignale erzeugt werden, indem

- die Audiosegmente zu einem Moment konkateniert werden, der in der Umgebung der Grenzen des zuerst auftretenden Soloartikula tionsbereichs des verwendeten Teiles des zeitlich nachgelager ten Audiosegmentes liegt, wenn dessen Anfang mit einem statischen Phon beginnt, wobei ein statischer Phon ein Vokal, ein Diphtong, ein Liquid, ein Frikativ, ein Vibrant oder ein Nasal ist, und
- ein zeitlich hinterer Bereich des verwendeten Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Teiles des zeitlich nachgelagerten Audiosegments gewichtet und beide Bereiche addiert werden (Crossfade), wobei die Länge eines Überlappungsbereichs in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt wird.

3. Synthetisierte Sprachsignale nach Anspruch 2, dadurch gekennzeichnet, daß die Sprachsignale erzeugt werden, indem

- die Audiosegmente zu einem Moment konkateniert werden, der zeitlich unmittelbar vor dem verwendeten Teil des zeitlich nachgelagerten Audiosegmentes liegt, wenn dessen Anfang mit einem dynamischen Phon beginnt, wobei ein dynamischer Phon ein Plosiv, ein Affrikat, ein Glottalstop oder ein geschlagener Laut ist, und
- ein zeitlich hinterer Bereich des verwendeten Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Teiles des zeitlich nachgelagerten Audiosegments gewichtet werden und nicht überlappend verbunden werden (Hardfade).

4. Synthetisierte Sprachsignale nach einem der Ansprüche 1-3, dadurch gekennzeichnet, daß das erste Phon oder Polyphon in der Folge durch ein Audiosegment erzeugt wird, dessen Anfang die Eigenschaften des Anfangs der Folge wiedergibt.

5. Synthetisierte Sprachsignale nach einem der Ansprüche 1- 4, dadurch gekennzeichnet, daß das letzte Phon oder Polyphon in der Folge durch ein Audiosegment erzeugt wird, dessen Ende die Eigenschaften des Endes der Folge wiedergibt.

6. Synthetisierte Sprachsignale nach einem der Ansprüche 1-5, dadurch gekennzeichnet, daß die Sprachsignale erzeugt werden, die mit einem dynamischen Phon beginnen, indem nachgelagerte Audiosegmente mit vorgelagerten Audiosegmenten konkateniert werden, deren Anfang ein statisches Phon wiedergibt.

7. Synthetisierte Sprachsignale nach einem der Ansprüche 1-6, dadurch gekennzeichnet, daß die Audiosegmente ausgewählt wer den, die die meisten Polyphone der Folge wiedergeben, um bei der Erzeugung der Sprachsignale die minimale Anzahl von Audio segmenten zu verwenden.

8. Synthetisierte Sprachsignale nach einem der Ansprüche 1-7, dadurch gekennzeichnet, daß die Sprachsignale durch Konkatena tion der verwendeten Teile von Audiosegmenten erzeugt werden, deren Frequenz, Dauer und Gesamtamplitude sowie deren Amplitu den in verschiedenen Frequenzbereichen in Abhängigkeit von Eigenschaften der Folge von Phon und/oder Polyphonen variiert werden.

9. Synthetisierte Sprachsignale nach einem der Ansprüche 1-8, dadurch gekennzeichnet, daß die Sprachsignale durch Konkatena tion von Audiosegmenten erzeugt werden, deren Frequenz, Dauer, Gesamtamplitude und deren Amplituden in verschiedenen Frequenz bereichen der jeweils verwendeten Teile der Audiosegmente in einem Bereich variiert werden, in dem der Moment der Konkatena tion liegt.

10. Synthetisierte Sprachsignale nach einem der Ansprüche 1-9, dadurch gekennzeichnet, daß der Moment der Konkatenation bei einer Nullstelle in den verwendeten Teilen des vorgelagerten und/oder des nachgelagerten Audiosegmentes liegt.

11. Synthetisierte Sprachsignale nach einem der Ansprüche 1- 10, dadurch gekennzeichnet, daß die Sprachsignale geeignet sind, in akustische Signale umgewandelt zu werden.

12. Datenträger, der ein Computerprogramm zur koartikulations gerechten Konkatenation von Audiosegmenten enthält, um synthe tisierte akustische Daten zu erzeugen, die eine Folge konkatenierter Lauteinheiten wiedergeben, mit folgenden Schrit ten:

- Auswahl von wenigstens zwei Audiosegmenten, die jeweils eine Lauteinheit oder einen Teil der Folge konkatenierter Lautein heiten wiedergeben, wobei jedes Audiosegment wenigstens einen Soloartikulationsbereich aufweist, gekennzeichnet durch die Schritte:
- Festlegen eines zu verwendenden Teils eines zeitlich vorgela gerten Audiosegments,
- Festlegen eines zu verwendenden Teils eines zeitlich nachge lagerten Audiosegments, der zeitlich unmittelbar vor dem zu verwendenden Teil des zeitlich nachgelagerten Audiosegments beginnt und mit dem zuerst verwendeten Soloartikulationsbereich des zeitlich nachgelagerten Audiosegments endet,
- wobei die Dauer der zu verwendenden Teile in Abhängigkeit der vor- und nachgelagerten Audiosegmente bestimmt wird, und
- Konkatenieren des festgelegten Teils des zeitlich vorgelager ten Audiosegments mit dem festgelegten Teil des zeitlich nach gelagerten Audiosegments, indem der Moment der Konkatenation in Abhängigkeit von Eigenschaften des verwendeten Teiles des zeitlich nachgelagerten Audiosegments in dessen fesetgelegten Teil gelegt wird.

13. Datenträger nach Anspruch 12, dadurch gekennzeichnet, daß das Computerprogramm den Moment der Konkatenation des zweiten Audiosegmentes mit dem ersten Audiosegment so wählt, daß

- der, Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der Grenzen des zuerst auftretenden Soloar tikulationsbereichs des zeitlich nachgelagerten Audiosegments liegt, wenn dessen Anfang eine statische Lauteinheit wieder gibt, und
- ein zeitlich hinterer Bereich des verwendeten Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Teiles des zeitlich nachgelagerten Audiosegments gewichtet und addiert werden (Crossfade), wobei die Länge eines Überlappungsbereichs der beiden Bereiche in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt wird.

14. Datenträger nach Anspruch 12 dadurch gekennzeichnet, daß das Computerprogramm den Moment der Konkatenation des zweiten Audiosegmentes mit dem ersten Audiosegment so wählt, daß

- der Moment der Konkatenation in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem verwendeten Teil des zeitlich nachgelagerten Audiosegments liegt, wenn dessen Anfang eine dynamische Lauteinheit wiedergibt, und
- ein zeitlich hinterer Bereich des verwendeten Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Teiles des zeitlich nachgelagerten Audiosegments gewichtet und nicht überlappend verbunden werden (Hardfade).

15. Datenträger nach einem der Ansprüche 12-14, dadurch ge kennzeichnet, daß das Computerprogramm für eine Lauteinheit oder einen Teil der Folge konkatenierter Lauteinheiten am Anfang der konkatenierten Lauteinheitenfolge ein Audiosegment auswählt, dessen Anfang die Eigenschaften des Anfangs der konkatenierten Lauteinheitenfolge wiedergibt.

16. Datenträger nach einem der Ansprüche 12-15, dadurch ge kennzeichnet, daß das Computerprogramm für eine Lauteinheit oder einen Teil der Folge konkatenierter Lauteinheiten am Ende der konkatenierten Lauteinheitenfolge ein Audiosegment aus wählt, dessen Ende die Eigenschaften des Endes der konkatenier ten Lauteinheitenfolge wiedergibt.

17. Datenträger nach einem der Ansprüche 12-16, dadurch ge kennzeichnet, daß das Computerprogramm eine Variation der Frequenz, Dauer und Gesamtamplitude der verwendeten Teile einzelner Audiosegmente und deren Amplituden in verschiedenen Frequenzbereichen in Abhängigkeit von Eigenschaften der Lauteinheitenfolge durchführt.

18. Datenträger nach einem der Ansprüche 12-17, dadurch ge kennzeichnet, daß das Computerprogramm für das zeitliche nach gelagerte Audiosegment ein Audiosegment wählt, das die größte Anzahl aufeinanderfolgender konkatenierter Lauteinheiten der Lauteinheitenfolge wiedergibt, um bei der Erzeugung der synthe tisierten akustischen Daten die kleinste Anzahl von Audioseg menten zu verwenden.

19. Datenträger nach einem der Ansprüche 12-18, dadurch ge kennzeichnet, daß das Computerprogramm eine Variation der Frequenz, Dauer und Gesamtamplitude der verwendeten Teile einzelner Audiosegmente und deren Amplituden in verschiedenen Frequenzbereichen in einem Bereich durchführt, in dem der Moment der Konkatenation liegt.

20. Datenträger nach einem der Ansprüche 12-19, dadurch ge kennzeichnet, daß Computerprogramm den Moment der Konkatenation bei einer Nullstelle in den verwendeten Teilen des ersten und/oder des zweiten Audiosegmentes festlegt.

21. Datenträger nach einem der Ansprüche 12-20, dadurch ge kennzeichnet, daß das Computerprogramm eine Implementation von heuristischem Wissen durchführt, das die Auswahl der einzelnen Audiosegmente, deren Variation sowie die Konkatenation der Audiosegmente betrifft.

22. Datenträger nach einem der Ansprüche 12-21, dadurch ge kennzeichnet, daß das Computerprogramm zur Erzeugung syntheti sierter Sprachdaten geeignet ist, wobei die Lauteinheiten Phone sind, die statischen Lauteinheiten Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale und die dynamischen Lauteinhei ten Plosive, Affrikate, Glottalstops und geschlagene Laute umfassen.

23. Datenträger nach einem der Ansprüche 12-22, dadurch ge kennzeichnet, daß das Computerprogramm die synthetisierten akustischen Daten in akustische umwandelbare Daten und/oder Sprachsignale umwandelt.

24. Akustischer, optischer oder elektrischer Datenspeicher, der Audiosegmente enthält, die jeweils wenigstens einen Solo- Artikualtionsbereich aufweisen, um durch eine Konkatenation von verwendeten Teile der Audiosegmente unter Verwendung des Daten trägers nach Anspruch 12 synthetisierte akustische Daten zu erzeugen.

25. Datenspeicher nach Anspruch 24, dadurch gekennzeichnet, daß eine Gruppe der Audiosegmente Phone oder Teile von Phonen wiedergeben.

26. Datenspeicher nach Anspruch 24 oder 25, dadurch gekenn zeichnet, daß eine Gruppe der Audiosegmente Polyphone wiederge ben.

27. Datenspeicher nach einem der Ansprüche 24-26, dadurch gekennzeichnet, daß eine Gruppe von Audiosegmenten zur Verfü gung gestellt wird, deren verwendete Teile mit einem statischen Phon beginnen, wobei die statischen Phone Vokale, Diphtonge, Liquide, Frikative, Vibranten und Nasale umfassen.

28. Datenspeicher nach einem der Ansprüche 24-27, dadurch gekennzeichnet, daß Audiosegmente zur Verfügung gestellt wer den, die geeignet sind in akustische Signale umgewandelt zu werden.

29. Datenspeicher nach einem der Ansprüche 24-28, der zusätz lich Informationen enthält, um eine Variation der Frequenz, Dauer und Gesamtamplitude der verwendeten Teile einzelner Audiosegmente und deren Amplituden in verschiedenen Frequenzbe reichen in Abhängigkeit von Eigenschaften der zu synthetisie renden akustischen Daten durchzuführen.

30. Datenspeicher nach einem der Ansprüche 24-29, der zusätz lich Informationen enthält, die eine Variation Frequenz, Dauer und Gesamtamplitude der verwendeten Teile einzelner Audioseg mente und deren Amplituden in verschiedenen Frequenzbereichen in einem Bereich betreffen, in dem der Moment der Konkatenation liegt.

31. Datenspeicher nach einem der Ansprüche 24-30, der zusätz lich verkettet Audiosegmente zur Verfügung stellt, deren Moment der Konkatenation bei einer Nullstelle der verwendeten Teile des ersten und/oder zweiten Audiosegmentes liegt.

32. Datenspeicher nach einem der Ansprüche 24-31, der zusätz lich Informationen in Form von heuristischem Wissen enthält, die die Auswahl der einzelnen Audiosegmente, deren Variation sowie die Konkatenation der Audiosegmente betreffen.

33. Tonträger, der Daten enthält, die zumindest teilweise synthetisierte akustische Daten sind, die

- unter Verwendung eines Datenträgers nach einem der Ansprüche 12 bis 23, oder
- unter Verwendung eines Datenspeichers nach einem der Ansprü che 24 bis 32 erzeugt wurden, oder
- die Sprachsignale nach einem der Ansprüche 1 bis 11 sind.

34. Tonträger nach Anspruch 33, dadurch gekennzeichnet, daß die synthetisierten akustischen Daten synthetisierte Sprachda ten sind.