DE19837661A1 - Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten - Google Patents
Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter AudiodatenInfo
- Publication number
- DE19837661A1 DE19837661A1 DE1998137661 DE19837661A DE19837661A1 DE 19837661 A1 DE19837661 A1 DE 19837661A1 DE 1998137661 DE1998137661 DE 1998137661 DE 19837661 A DE19837661 A DE 19837661A DE 19837661 A1 DE19837661 A1 DE 19837661A1
- Authority
- DE
- Germany
- Prior art keywords
- audio segment
- audio
- concatenation
- synthesized
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Abstract
Die Erfindung ermöglicht es, beliebige akustische Daten durch eine Konkatenation einzelner Audiosegmente zu synthetisieren, wobei die Momente, zu denen die jeweilige Konkatenation zwei aufeinander folgender Audiosegmente erfolgt, in Abhängigkeit von Eigenschaften der Audiosegmente festgelegt werden. Auf diese Weise können synthetisierte akustische Daten erzeugt werden, die sich nach einer Umwandlung in akustische Signale nicht von entsprechenden natürlich erzeugenden akustischen Signalen unterscheiden. Insbesondere erlaubt es die Erfindung, synthetisierte Sprachdaten unter Berücksichtigung koartikulatorischer Effekte durch Konkatenation einzelner Sprachsegmente zu erzeugen. Die so zur Verfügung gestellten Sprachdaten können in Sprachsignale umgewandelt werden, die von einer natürlich gesprochenen Sprache nicht zu unterscheiden sind.
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur
Konkatenation von Audiosegmenten zur Erzeugung synthetisierter
akustischer Daten, insbesondere synthetisierter Sprache, gemäß
den Ansprüchen 1 und 16. Des weiteren betrifft die Erfindung
synthetisierte Sprachsignale gemäß Anspruch 32, die durch die
erfindungsgemäße koartikulationsgerechte Konkatenation von
Sprachsegmenten erzeugt wurden, sowie einen Datenträger gemäß
Anspruch 45, der ein Computerprogramm zur erfindungsgemäßen
Herstellung von synthetisierten akustischen Daten, insbesondere
synthetisierter Sprache, enthält.
Zusätzlich betrifft die Erfindung einen Datenspeicher gemäß
Anspruch 58, der Audiosegmente enthält, die zur erfindungsgemä
ßen koartikulationsgerechten Konkatenation geeignet sind, und
einen Tonträger nach Anspruch 67, der erfindungsgemäß syntheti
sierte akustische Daten enthält sowie einen Tonträger nach
Anspruch 69, der synthetisierte Sprachdaten gemäß Anspruch 32
enthält.
Es ist zu betonen, daß sowohl der im folgenden dargestellte
Stand der Technik als auch die vorliegenden Erfindung den
gesamten Bereich der Synthese von akustischen Daten durch
Konkatenation einzelner, auf beliebige Art und Weise erhaltene
Audiosegmente betrifft. Aber um die Diskussion des Standes der
Technik sowie die Beschreibung der vorliegenden Erfindung zu
vereinfachen, beziehen sich die folgenden Ausführungen speziell
auf synthetisierte Sprachdaten durch Konkatenation einzelner
Sprachsegmente.
In den letzten Jahren hat sich im Bereich der Sprachsynthese
der datenbasierte Ansatz gegenüber dem regelbasierten Ansatz
durchgesetzt und ist in verschiedenen Verfahren und Systemen
zur Sprachsynthese zu finden. Obwohl der regelbasierte Ansatz
prinzipiell eine bessere Sprachsynthese ermöglicht, ist es für
dessen Umsetzung notwendig, das gesamte zur Spracherzeugung
notwendige Wissen explizit zu formulieren, d. h. die zu synthe
tisierende Sprache formal zu modellieren. Da die bekannten
Sprachmodellierungen Vereinfachung der zu synthetisierenden
Sprache aufweisen, ist die Sprachqualität der so erzeugten
Sprache nicht ausreichend.
Daher wird in zunehmenden Maße eine datenbasierte Sprachsynthe
se durchgeführt, bei der aus einer einzelne Sprachsegmente
aufweisenden Datenbasis entsprechende Segmente ausgewählt und
miteinander verknüpft (konkateniert) werden. Die Sprachqualität
hängt hierbei in erster Linie von der Zahl und Art der verfüg
baren Sprachsegmente ab, denn es kann nur Sprache synthetisiert
werden, die durch Sprachsegmente in der Datenbasis wiedergeben
ist. Um die Zahl der vorzusehenden Sprachsegmente zu minimieren
und dennoch eine synthetisierte Sprache hoher Qualität zu
erzeugen, sind verschieden Verfahren bekannt, die eine Verknüp
fung (Konkatenation) der Sprachsegmente nach komplexen Regeln
durchführen.
Unter Verwendung solcher Verfahren bzw. entsprechender Vorrich
tungen kann ein Inventar, d. h. eine die Sprachsegmente umfas
sende Datenbasis, verwendet werden, das vollständig und
handhabbar ist. Ein Inventar ist vollständig, wenn damit jede
Lautfolge der zu synthetisierenden Sprache erzeugt werden kann,
und ist handhabbar, wenn die Zahl und Art der Daten des Inven
tars mit den technisch verfügbaren Mitteln in einer gewünschten
Weise verarbeitet werden kann. Darüber hinaus muß ein solches
Verfahren gewährleisten, daß die Konkatenation der einzelnen
Inventarelemente eine synthetisierte Sprache erzeugt, die sich
von einer natürlich gesprochenen Sprache möglichst wenig unter
scheidet. Hierfür muß eine synthetisierte Sprache flüssig sein
und die gleichen artikulatorischen Effekte einer natürlichen
Sprache aufweisen. Hier kommen den sogenannten koartikulatori
schen Effekten, d. h. der gegenseitigen Beeinflussung von
Sprachlauten, eine besondere Bedeutung zu. Daher sollten die
Inventarelemente so beschaffen sein, das sie die Koartikulation
einzelner aufeinanderfolgender Sprachlaute berücksichtigen. Des
weiteren sollte ein Verfahren zu Konkatenation der Inventarele
mente, die Elemente unter Berücksichtigung der Koartikulation
einzelner aufeinanderfolgender Sprachlaute sowie der übergeord
neten Koartikulation mehrerer aufeinanderfolgender Sprachlaute,
auch über Wort- und Satzgrenzen hinweg, verketten.
Vor der Darstellung des Standes der Technik werden im folgenden
einige zum besseren Verständnis notwendige Begriffe aus dem
Bereich der Sprachsynthese erläutert:
- - Ein Phonem ist die kleinste formal beschreibbare Lauteinheit, wobei i. allg. die formale Beschreibung durch Lautschriftzei chen erfolgt.
- - Ein Phon ist die kleinste Lauteinheit, die in Form eines Audiosegmentes speicherbar ist, und stellt die akustische Realisierung eines Phonems dar. Die Phone werden in statische und dynamische Phone unterteilt.
- - Zu den statischen Phonen zählen Vokale, Diphtonge, Nasale, Laterale, Vibranten und Frikative.
- - Zu den dynamischen Phonen zählen Plosive, Affrikate, Glottal stops und geschlagene Laute.
- - Die Koartikulation bezeichnet das Phänomen, daß ein Phon durch vorgelagerte und nachgelagerte Phone beeinflußt wird, wobei die Koartikulation zwischen unmittelbar benachbarten Phonen auftritt, aber sich auch über eine Folge mehrerer Phone erstrecken kann (Beispielsweise bei einer Lippenrundung).
Daher kann ein Phon in drei Bereiche unterteilt werden (siehe
auch Fig. 1b):
- - Der Anfangs-Koartikulationsbereich umfaßt den Bereich vom Beginn des Phons bis zum Ende der Koartikulation aufgrund eines vorgelagerten Phons.
- - Der Solo-Artikulationsbereich, ist der Bereich des Phons, der nicht durch ein vor- oder nachgelagertes Phon beeinflußt ist.
- - Der End-Koartikulationsbereich umfaßt den Bereich vom Beginn der Koartikulation aufgrund eines nachgelagerten Phons bis zum Ende des Phons.
- - Ein Polyphon ist eine Folge von Phonen.
- - Die Elemente eines Inventars sind in kodierter Form gespei cherte Audiosegmente, die Phone, Teile von Phonen oder Polypho ne wiedergeben. Zur besseren Verständnis des möglichen Aufbau eines Elementarelementes sei hier auf die Fig. 2a, die ein herkömmliches Audiosegment zeigt, und die Fig. 2b-2l verwie sen, in denen erfindungsgemäße Audiosegmente gezeigt sind. Er gänzend ist zu erwähnen, daß Audiosegmente auch aus kleineren oder größeren Audiosegmenten gebildet werden können, die in dem Inventar oder einer Datenbank enthalten sind. Des weiteren können Audiosegmente auch in einer transformierten Form (z. B. einer fouriertransformierten Form) in dem Inventar oder einer Datenbank vorliegen.
- - Unter Konkatenation versteht man das Aneinanderfügen zweier Inventarelemente.
- - Der Konkatenationsmoment ist der Zeitpunkt, zu dem zwei Audiodaten aneinandergefügt werden.
Die Konkatenation kann auf verschiedene Arten erfolgen, z. B.
mit einem Crossfade oder einem Hardfade (siehe auch Fig. 3a-
3d)
- - Bei einem Crossfade werden ein zeitlich hinterer Bereich eines ersten Inventarelementes sowie ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, und danach werden diese beiden Bereiche überlappend so addiert, daß maximal der zeitliche kürzer der beiden Bereichen von dem zeitlich längeren der beiden Bereiche vollständig überlappt wird.
- - Bei einem Hardfade wird ein zeitlich hinterer Bereich eines ersten Inventarelementes und ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, wobei diese beiden Inventarelemente so aneinandergefügt werden, daß sich der hintere Bereich des ersten Inventarelementes und der vorde re Bereich des zweiten Inventarelementes nicht überlappen.
Der Koartikulationsbereich macht sich vor allem dadurch bemerk
bar, daß eine Konkatenation darin mit Unstetigkeiten (z. B.
Spektralsprüngen) verbunden ist. Deswegen wird der Konkatenati
onsmoment vorzugsweise in der Umgebung der Grenze des Solo-
Artikulationsbereiches zum Koartikulationsbereich gewählt.
Im allgemeinen werden Inventarelemente durch die Aufnahme von
real gesprochener Sprache erzeugt. In Abhängigkeit des Trai
ningsgrades des inventaraufbauenden Sprechers, d. h. seiner
Fähigkeit die aufzunehmende Sprache zu kontrollieren (z. B. die
Tonhöhe der Sprache zu kontrollieren oder exakt auf einer
Tonhöhe zu sprechen), ist es möglich, gleiche oder ähnliche
Inventarelemente zu erzeugen, die verschobene Grenzen zwischen
den Solo-Artikulationsbereichen und Koartikulationsbereichen
haben. Dadurch ergeben sich wesentlich mehr Möglichkeiten, die
Konkatenationspunkte an verschiedenen Stellen zu plazieren. In
der Folge kann die Qualität einer zu synthetisierenden Sprache
deutlich verbessert werden.
Ergänzend sei zu erwähnen, daß streng genommen ein Hardfade
einen Grenzfall eines Crossfades darstellt, bei dem eine Über
lappung eines zeitlich hinteren Bereiches eines ersten Inventa
relementes und eines zeitlich vorderen Bereiches eines zweiten
Inventarelementes eine Länge Null hat. Dies erlaubt es in be
stimmten, z. B. äußerst zeitkritischen Anwendungen einen Cross
fade durch einen Hardfade zu ersetzen, wobei eine solche Vorge
hensweise genau abzuwägen ist, da diese zu deutlichen Quali
tätseinbußen bei der Konkatenation von Inventarelementen führt,
die eigentlich durch einen Crossfade zu konkatenieren sind.
- - Unter Prosodie versteht man die Veränderungen der Sprachfre quenz und des Sprachrhythmus, die bei gesprochenen Worten bzw. Sätzen auftreten. Die Berücksichtigung solcher prosodischer Informationen ist bei der Sprachsynthese notwendig, um eine natürliche Wort- bzw. Satzmelodie zu erzeugen.
Aus WO 95/30193 ist ein Verfahren und eine Vorrichtung zur
Umwandlung von Text in hörbare Sprachsignale unter Verwendung
eines neuronalen Netzwerkes bekannt. Hierfür wird der in Spra
che umzuwandelnde Text mit einer Konvertiereinheit in eine
Folge von Phonemen umgewandelt, wobei zusätzlich Informationen
über die syntaktischen Grenzen des Textes und die Betonung der
einzelnen syntaktischen Komponenten des Textes erzeugt werden.
Diese werden zusammen mit den Phonemen an eine Einrichtung
weitergeleitet, die regelbasiert die Dauer der Aussprache der
einzelnen Phoneme bestimmt. Ein Prozessor erzeugt aus jedem
einzelnen Phonem in Verbindung mit den entsprechenden syntakti
schen und zeitlichen Information eine geeignet Eingabe für das
neuronale Netzwerk, wobei diese Eingabe für das neuronale Netz
auch die entsprechenden prosodischen Informationen für die
gesamte Phonemfolge umfaßt. Das neuronale Netz wählt aus den
verfügbaren Audiosegmenten nun die aus, die die eingegebenen
Phoneme am besten wiedergeben, und verkettet diese Audiosegmen
te entsprechend. Bei dieser Verkettung werden die einzelnen
Audiosegmente in ihrer Dauer, Gesamtamplitude und Frequenz an
vor- und nachgelagerte Audiosegmente unter Berücksichtigung der
prosodischen Informationen der zu synthetisierenden Sprache
angepaßt und zeitlich aufeinanderfolgend miteinander verbunden.
Eine Veränderung einzelner Bereiche der Audiosegmente ist hier
nicht beschrieben.
Zur Erzeugung der für dieses Verfahren erforderlichen Audioseg
mente ist das neuronale Netzwerk zuerst zu trainieren, indem
natürlich gesprochene Sprache in Phone oder Phonfolgen unter
teilt wird und diesen Phonen oder Phonfolgen entsprechende
Phonem oder Phonemfolgen in Form von Audiosegmenten zugeordnet
werden. Da dieses Verfahren nur eine Veränderung von einzelnen
Audiosegmenten, aber keine Veränderung einzelner Bereiche eines
Audiosegmentes vorsieht, muß das neuronale Netzwerk mit mög
lichst vielen verschiedenen Phonen oder Phonfolgen trainiert
werden, um beliebige Texte in synthetisierte natürlich klingen
de Sprache umzuwandeln. Dies kann sich je nach Anwendungsfall
sehr aufwendig gestalten. Auf der anderen Seite kann ein unzu
reichender Trainingsprozeß des neuronalen Netzes die Qualität
der zu synthetisierenden Sprache negativ beeinflussen. Des
weiteren ist es bei dem hier beschriebene Verfahren nicht
möglich, den Konkatenationsmoment der einzelnen Audiosegmente
in Abhängigkeit vorgelagerter oder nachgelagerter Audiosegmente
zu bestimmen, um so eine koartikulationsgerechte Konkatenation
durchzuführen.
In US-5,524,172 ist eine Vorrichtung zur Erzeugung syntheti
sierter Sprache beschrieben, die das sogenannte Diphonverfahren
nutzt. Hier wird ein Text, der in synthetisierte Sprache umge
wandelt werden soll, in Phonemfolgen unterteilt, wobei jeder
Phonemfolge entsprechende prosodische Informationen zugeordnet
werden. Aus einer Datenbank, die Audiosegmente in Form von
Diphonen enthält, werden für jedes Phonem der Folge zwei das
Phonem wiedergebende Diphone ausgewählt und unter Berücksichti
gung der entsprechenden prosodischen Informationen konka
teniert. Bei der Konkatenation werden die beiden Diphone
jeweils mit Hilfe eines geeigneten Filters gewichtet und die
Dauer und Tonhöhe beider Diphone so verändert, daß bei der
Verkettung der Diphone eine synthetisierte Phonfolge erzeugt
wird, deren Dauer und Tonhöhe der Dauer und Tonhöhe der ge
wünschten Phonemfolge entspricht. Bei der Konkatenation werden
die einzelnen Diphone so addiert, daß sich ein zeitlich hinte
rer Bereich eines ersten Diphones und ein zeitlich vorderer
Bereich eines zweiten Diphones überlappen, wobei der Konkatena
tionsmoment generell im Bereich stationären Bereiche der ein
zelnen Diphone liegt (siehe Fig. 2a). Da eine Variation des
Konkatenationsmomentes unter Berücksichtigung der Koartikulati
on aufeinanderfolgender Audiosegmente (Diphone) hier nicht
vorgesehen ist, kann die Qualität (Natürlichkeit und Verständ
lichkeit) einer so synthetisierten Sprache negativ beeinflußt
werden.
Eine Weiterentwicklung des zuvor diskutierten Verfahrens ist in
EP-0,813,184 A1 zu finden. Auch hier wird ein in synthetisierte
Sprache umzuwandelnder Text in einzelne Phoneme oder Phonemfol
gen unterteilt und aus einer Datenbank entsprechende Audioseg
mente ausgewählt und konkateniert. Um eine Verbesserung der
synthetisierten Sprache zu erzielen, sind bei diesem Verfahren
zwei Ansätze, die sich vom bisher diskutierten Stand der Tech
nik unterscheiden, umgesetzt worden. Unter Verwendung eines
Glättungsfilters, der die tieferfrequenten harmonischen Fre
quenzanteile eines vorgelagerten und eines nachgelagerten
Audiosegmentes berücksichtigt, soll der Übergang von dem vorge
lagerten Audiosegment zu dem nachgelagerten Audiosegment opti
miert werden, indem ein zeitlich hinterer Bereich des
vorgelagerten Audiosegmentes und ein zeitlich vorderer Bereich
des nachgelagerten Audiosegmentes im Frequenzbereich aufeinan
der abgestimmt werden. Des weiteren stellt die Datenbank Audio
segmente zur Verfügung, die sich leicht unterscheiden, aber zur
Synthetisierung desselben Phonems geeignet sind. Auf diese
Weise soll die natürliche Variation der Sprache nachgebildet
werden, um eine höhere Qualität der synthetisierten Sprache zu
erreichen. Sowohl die Verwendung des Glättungsfilter als auch
die Auswahl aus einer Menge unterschiedlicher Audiosegmente zur
Realisierung eines Phonems erfordert bei einer Umsetzung dieses
Verfahrenes eine hohe Rechenleistung der verwendeten Systemkom
ponenten. Außerdem steigt der Umfang der Datenbank aufgrund der
erhöhten Zahl der vorgesehenen Audiosegmente. Des weiteren ist
auch bei diesem Verfahren eine koartikulationsabhängige Wahl
des Konkatenationsmomentes einzelner Audiosegmente nicht vorge
sehen, wodurch die Qualität der synthetisierten Sprache redu
ziert werden kann.
Zusammenfassend ist zu sagen, daß es der Stand der Technik zwar
erlaubt, beliebige Phonemfolgen zu synthetisieren, aber die so
synthetisierten Phonemfolgen haben keine authentische Sprach
qualität. Eine synthetisierte Phonemfolge hat eine authentische
Sprachqualität, wenn sie von der gleichen Phonemfolge, die von
einem realen Sprecher gesprochen wurde, durch einen Hörer nicht
unterschieden werden kann.
Es sind auch Verfahren bekannt, die ein Inventar benutzen, das
vollständige Worte und/oder Sätze in authentischer Sprachquali
tät als Inventarelemente enthält. Diese Elemente werden zur
Sprachsynthese in einer gewünschten Reihenfolge hintereinander
gesetzt, wobei die Möglichkeiten unterschiedliche Sprachsequen
zen in hohem Maße von dem Umfang eines solchen Inventars limi
tiert werden. Die Synthese beliebiger Phonemfolgen ist mit
diesen Verfahren nicht möglich.
Daher ist es eine Aufgabe der vorliegenden Erfindung ein Ver
fahren und eine entsprechende Vorrichtung zur Verfügung zu
stellen, die die Probleme des Standes der Technik beseitigen
und die Erzeugung synthetisierter akustischer Daten, insbeson
dere synthetisierter Sprachdaten, ermöglichen, die sich für
einen Hörer nicht von entsprechenden natürlichen akustischen
Daten, insbesondere natürlich gesprochener Sprache, unterschei
den. Die mit der Erfindung synthetisierten akustischen Daten,
insbesondere synthetisierte Sprachdaten sollten eine authenti
sche akustische Qualität, insbesondere eine authentische
Sprachqualität aufweisen.
Zu Lösung dieser Aufgabe sieht die Erfindung ein Verfahren
gemäß Anspruch 1 und eine Vorrichtung gemäß Anspruch 16 vor.
Dabei wird zur Erzeugung synthetisierter akustischer Daten, die
aus einer Folge von Lauteinheiten bestehen, durch Konkatenation
von Audiosegmenten der Moment der Konkatenation zweier Audio
segmente in Abhängigkeit von Eigenschaften der zu verknüpfenden
Audiosegmente, insbesondere der die beiden Audiosegmente be
treffenden Koartikulationseffekte bestimmt. Auf diese Weise
wird eine Sprachqualität erreicht, die mit dem Stand der Tech
nik nicht erzielbar ist. Dabei ist die erforderliche Rechenlei
stung nicht höher als beim Stand der Technik.
Eine weitere Aufgabe der Erfindung ist es, bei der Synthese
akustischer Daten die Variationen nachzubilden, die bei ent
sprechenden natürlichen akustischen Daten zu finden sind. Daher
sieht das erfindungsgemäße Verfahren Schritte zur unterschied
lichen Auswahl der Audiosegmente nach den Ansprüchen 2 oder 5
sowie unterschiedliche Arten der Konkatenation nach den Ansprü
chen 3 oder 4 vor. Ebenso stellt die erfindungsgemäße Vorrich
tung unterschiedliche Audiosegmente nach den Ansprüchen 16 oder 20
zur Verfügung und ermöglicht unterschiedliche Konkatenati
onsarten nach den Ansprüchen 18 oder 19, die in Abhängigkeit
von Eigenschaften der zu verkettenden Audiosegmente gewählt
werden. So wird ein höheres Maß an Natürlichkeit der syntheti
sierten akustischen Daten erzielt. Vorzugsweise werden die
Konkatenationen nach den Ansprüchen 3 oder 4 unter Verwendung
eines Crossfades oder eines Hardfades durchgeführt bzw. die
Einrichtungen nach den Ansprüchen 18 oder 19 sind zu Durchfüh
rung eines Crossfades oder Hardfades zu Konkatenation der
Audiosegmente geeignet.
Eine weitere Aufgabe der Erfindung ist es, die Konkatenation
der einzelnen Audiosegmente zu optimieren, um die Erzeugung der
synthetisierten akustischen Daten einfacher und schneller
durchzuführen. Zur Lösung dieser Aufgabe umfaßt das erfindungs
gemäße Verfahren Schritte nach den Ansprüchen 6, 7 oder 8, die
es ermöglichen die Zahl der zur Datensynthetisierung notwendi
gen Audiosegmente zu reduzieren. In ähnlicher Weise stellt die
erfindungsgemäße Vorrichtungen Einrichtungen nach den Ansprü
chen 22, 23 oder 24 zur Verfügung, die Audiosegmente vorsieht
oder erzeugt, die eine einfachere und schnellere Erzeugung
synthetisierter akustischer Daten erlauben. Auf diese Weise
kann auch mit Vorrichtungen, die eine geringere Rechenleistung
haben (z. B. Anrufbeantworter oder Autoleitsysteme), ein synthe
tisierter Sprache hoher Qualität erzeugt werden. Des weiteren
sinkt der zur Speicherung des Inventars notwendige Speicherbe
darf.
Eine andere Aufgabe der Erfindung ist es, bei der Erzeugung der
synthetisierten akustischen Daten akustische Phänomene nachzu
bilden, die sich aufgrund einer gegenseitigen Beeinflussung
einzelner Segmente entsprechender natürlicher akustischer Daten
ergeben. Daher sieht das erfindungsgemäße Verfahren Schritte
nach den Ansprüchen 9 oder 10 vor bzw. umfaßt die erfindungsge
mäße Vorrichtung Einrichtungen nach den Ansprüchen 25 oder 26,
die zur Nachbildung dieser Phänomene geeignet sind. Insbesonde
re ist hier vorgesehen, einzelne Audiosegmente bzw. einzelne
Bereiche der Audiosegmente in ihrer Frequenz, Dauer und Ampli
tude(n) zu variieren. Werden mit der Erfindung synthetisierte
Sprachdaten erzeugt, so werden zur Lösung dieser Aufgabe vor
zugsweise prosodische Informationen und/oder übergeordnete
Koartikulationseffekte berücksichtigt.
Des weiteren soll die Erfindung ein Verfahren bzw. eine Vor
richtung zur Verfügung stellen, die den Signalverlauf von
synthetisierten akustischen Daten verbessern. Zur Lösung dieser
Aufgabe sieht die Erfindung ein Verfahren nach Anspruch 11 bzw.
eine Vorrichtung nach Anspruch 27 vor, die es ermöglichen, den
Konkatenationsmoment an Nullstellen der einzelnen zu verknüp
fenden Audiosegmente zu legen.
Eine weitere andere Aufgabe der Erfindung ist es, die Auswahl
der Audiosegmente zur Erzeugung der synthetisierten akustischen
Daten zu Verbessern sowie deren Konkatenation effizienter zu
gestalten. Diese Aufgabe wird durch die Nutzung heuristischen
Wissens gelöst, das die Auswahl, Variation und Konkatenation
der Audiosegmente betrifft, wobei die Lösung dieser Aufgabe
durch einen erfindungsgemäßen Verfahrensschritt nach Anspruch
12 bzw. durch ein Merkmal der erfindungsgemäßen Vorrichtung
nach Anspruch 28 ermöglicht wird.
Außerdem soll Erfindung die Nutzung der erzeugten synthetisier
ten akustischen Daten möglich machen. Daher werden unter Ver
wendung des erfindungsgemäßen Verfahrens nach den Ansprüchen 13
oder 14 synthetisierte akustische Daten zur Verfügung gestellt,
die zur Weiterverarbeitung in nachgelagerten Schritten geeignet
sind, wobei diese Daten vorzugsweise in akustische Signale
umwandelbar oder auf einem Datenträger speicherbar sind. Ebenso
umfaßt die erfindungsgemäße Vorrichtung Einrichtungen nach den
Ansprüchen 29 oder 30, die erzeugte synthetisierte akustische
Daten zur Weiterverarbeitung vorbereiten, vorzugsweise zur
akustischen Wiedergabe oder datentechnischen Speicherung.
Ein weiteres Ziel dieser Erfindung ist es, synthetisierte
Sprachdaten zu erzeugen, die sich von entsprechenden natürli
chen Sprachdaten nicht unterscheiden. Diese Aufgabe wird durch
das erfindungsgemäße Verfahren dadurch gelöst, daß nach An
spruch 15 bei dessen Durchführung Audiosegmente genutzt werden,
die Phone oder Polyphone wiedergeben, und durch die erfindungs
gemäße Vorrichtung dadurch gelöst, daß diese Einrichtungen nach
Anspruch 31 umfaßt, die Audiosegmente in Form von Phonen oder
Polyphonen vorsehen und die zur Konkatenation dieser Audioseg
mente geeignet sind.
Eine andere Aufgabe der Erfindung ist es, synthetisierte
Sprachsignale zu Verfügung zu stellen, die sich von bekannten
synthetisierten Sprachsignalen dadurch unterscheiden, daß sie
sich in ihrer Natürlichkeit und Verständlichkeit nicht von
realer Sprache unterscheiden. Hierfür sieht Erfindung Sprachsi
gnale gemäß Anspruch 32 vor, die aus einer Folge von Phonen
bestehen und durch Konkatenation von Audiosegmenten erzeugt
werden, wobei der Moment der Konkatenation zweier Audiosegmente
in Abhängigkeit von Eigenschaften der zu verknüpfenden Audio
segmente, insbesondere der die beiden Audiosegmente betreffen
den Koartikulationseffekte, bestimmt wird.
Eine weitere Aufgabe der Erfindung ist es, synthetisierte
Sprachsignale bereitzustellen, die die Variationen und gegen
seitige Beeinflussungen wiedergeben, die bei entsprechenden
natürlichen Sprachsignalen zu finden sind. Daher stellt die
Erfindung auch synthetisierte Sprachsignale nach den Ansprüchen
33 bis 37 zur Verfügung. Ein andere weitere Aufgabe ist es,
Sprachsignale schneller zur Verfügung zu stellen bzw. Sprachsi
gnale, zur Verfügung zu stellen, die eine verringerte Anzahl
von Konkatenationsmomenten haben, um eine verbesserte Natür
lichkeit und Verständlichkeit dieser Sprachsignale zu erzielen.
Diese Aufgabe wird durch Sprachsignale gelöst, die Merkmale
nach den Ansprüchen 37, 38 oder 39 aufweisen.
Zusätzlich ist es eine Aufgabe der Erfindung, Sprachsignale
vorzusehen, die einen natürlichen Sprachfluß, Sprachmelodie und
Sprachrhythmus haben. Daher stellt die Erfindung auch Sprachsi
gnale zur Verfügung, die Merkmale der Ansprüche 40 und/oder 41
aufweisen. Vorzugsweise umfassen die synthetisierten Sprachsi
gnale solche Audiosegmente in Form von Phonen oder Phonfolgen,
die jeweils vor und/oder nach der Konkatenation in ihrer Ge
samtheit oder in einzelnen Bereichen in ihrer Frequenz, Dauer
und Amplitude variiert werden.
Des weiteren sollen erfindungsgemäße Sprachsignale einen ver
besserten Signalverlaufaufweisen. Zur Lösung dieser Aufgabe
stellt die Erfindung Sprachsignale nach Anspruch 42 zur Verfü
gung, die Konkatenationsmomente aufweisen, die an Nullstellen
der zu verknüpfenden Audiosegmente liegt.
Des weiteren sollen die erfindungsgemäßen Sprachsignale eine
allgemeine Nutzung und/oder Weiterverarbeitung durch bekannte
Verfahren oder Vorrichtungen, z. B. einem CD-Abspielgerät,
erlauben. Deshalb sieht die Erfindung Sprachsignale nach den
Ansprüchen 43 und/oder 44 vor, die vorzugsweise in akustische
Signale umwandelbar oder auf einem Datenträger speicherbar
sind.
Eine andere Aufgabe der Erfindung ist es synthetisierte akusti
sche Daten, insbesondere synthetisierte Sprachdaten, zu erzeu
gen, die sich von entsprechenden natürlichen akustischen Daten
nicht unterscheiden, wobei die Erzeugung dieser Daten unter
Verwendung bekannter Vorrichtungen, z. B. einem Personal Compu
ter oder einem computergesteuerten Musikinstrument, durchge
führt wird. Hierfür sieht die Erfindung einen Datenträger nach
Anspruch 45 vor, der ein Computerprogramm enthält, das Audio
segmente auswählt und durch Konkatenation zu synthetisierten
akustischen Daten verkettet, wobei der Moment der Konkatenation
zweier Audiosegmente in Abhängigkeit von Eigenschaften der zu
verknüpfenden Audiosegmente, insbesondere der die beiden Audio
segmente betreffenden Koartikulationseffekte, bestimmt wird.
Eine weitere Aufgabe der Erfindung ist es, bei der Synthese
akustischer Daten unter Verwendung des Datenträgers nach An
spruch 45 die Variationen nachzubilden, die bei entsprechenden
natürlichen akustischen Daten zu finden sind. Daher stellt die
Erfindung einen Datenträger zur Verfügung, der ein Computerpro
gramm enthält, das nach Ansprüchen 46 und/oder 49 in Abhängig
keit der zu erzeugenden Daten Audiosegmente unterschiedlich
auswählt bzw. das nach den Ansprüchen 47 und/oder 48 einzelne
Audiosegmente in Abhängigkeit von Eigenschaften der zu verket
tenden Audiosegmente unterschiedlich konkateniert.
Eine andere Aufgabe der Erfindung ist es, ein Computerprogramm
vorzusehen, das die Konkatenation einzelner Audiosegmente
optimiert, um die Erzeugung der synthetisierten akustischen
Daten einfacher und schneller durchzuführen. Diese Aufgabe wird
durch einen erfindungsgemäßen Datenträger gelöst, der ein
Computerprogramm enthält, das die Merkmale der Ansprüche 50
und/oder 51 aufweist.
Eine weitere andere Aufgabe der Erfindung ist es, mit Hilfe
eines Computerprogrammes bei der Erzeugung der synthetisierten
akustischen Daten die akustischen Phänomene nachzubilden, die
sich aufgrund einer gegenseitigen Beeinflussung einzelner
Segmente entsprechender natürlicher akustischer Daten ergeben.
Daher sieht die Erfindung einen Datenträger vor, der ein Compu
terprogramm mit den Merkmale der Ansprüche 51 und/oder 52
enthält. Vorzugsweise soll das Computerprogramm die Variation
der Frequenzen, Dauer und Amplituden einzelner Audiosegmente
bzw. einzelner Bereiche der Audiosegmente ermöglichen. Dient
das Computerprogramm zur Erzeugung synthetisierter Sprachdaten,
so werden zur Lösung dieser Aufgabe vorzugsweise prosodische
Informationen und/oder übergeordnete Koartikulationseffekte
berücksichtigt.
Außerdem soll die Erfindung ein Computerprogramm vorsehen, das
eine Verbesserung des Signalverlaufes von synthetisierten
akustischen Daten ermöglicht. Diese Aufgabe wird durch einen
erfindungsgemäßen Datenträger gelöst, der ein Computerprogramm
mit den Merkmalen des Anspruches 53 enthält.
Eine zusätzliche Aufgabe der Erfindung ist es, ein Computerpro
gramm zur Verfügung zu stellen, das es erlaubt, die syntheti
sierte akustische Daten, insbesondere synthetisierte Sprach
signale, zu erzeugen, wobei die Auswahl, Variation und Konka
tenation einzelner Audiosegmente nicht auf der Basis einer
formalen Modellierung durchgeführt wird. Zur Lösung stellt die
Erfindung einen Datenträger nach Anspruch 54 bereit, der unter
Verwendung eines darauf enthaltenen Computerprogrammes heuri
stisches Wissen implementiert, das die Auswahl, Variation
und/oder Konkatenation einzelner Audiosegmente betrifft. Auf
diese Weise ist es möglich mit zunehmender Dauer der Verwendung
des Computerprogrammes eine immer höhere Qualität, d. h. z. B.
Natürlichkeit, der synthetisierten akustischen Daten zu errei
chen.
Außerdem soll ein erfindungsgemäßes Computerprogramm die Nut
zung und/oder Weiterverarbeitung der erzeugten synthetisierten
akustischen Daten mit bekannten Vorrichtungen, z. B. einem
Tonbandgerät, möglich machen. Zur Lösung dieser Aufgabe umfaßt
die Erfindung einen Datenträger, der ein Computerprogramm nach
den Ansprüchen 55 und/oder 56 enthält, wobei das Computerpro
gramm vorzugsweise Daten erzeugt, die in akustische Signale
umwandelbar oder auf einem Datenträger speicherbar sind.
Darüber hinaus ist es eine Aufgabe der Erfindung mit Hilfe
eines Computerprogrammes synthetisierte Sprachdaten zu erzeu
gen, die sich von entsprechenden natürlichen Sprachdaten nicht
unterscheiden. Hierzu stellte die Erfindung einen Datenträger
nach Anspruch 57 bereit, der ein Computerprogramm enthält, das
Audiosegmente, die Phone oder Polyphone wiedergeben, zu synthe
tischen Sprachsignalen konkateniert.
Eine andere Aufgabe der Erfindung ist es, ein Audiosegmente
umfassendes Inventar und insbesondere ein Sprachsegmente umfas
sendes Inventar vorzusehen, mit dem synthetisierte akustische
Daten, insbesondere synthetisierte Sprachdaten, erzeugt werden
können, die sich von entsprechenden natürlichen akustischen
Daten nicht unterscheiden. Zur Lösung dieser Aufgabe sieht die
Erfindung einen Datenspeicher nach Anspruch 58 vor, der Audio
segmente enthält, die geeignet sind, um erfindungsgemäß zu
synthetisierten akustischen Daten konkateniert zu werden.
Vorzugsweise enthält ein solcher Datenträger Audiosegmente, die
nach Anspruch 59 Phone und/oder nach Anspruch 60 Polyphone
wiedergeben. Des weiteren ist zu bevorzugen, daß der Daten
träger Audiosegmente enthält, die die Merkmale der Anspruches
61 und/oder 62 aufweisen.
Eine weitere andere Aufgabe ist es, ein Inventar zur Verfügung
zu stellen, das die Erzeugung synthetisierter akustischer Daten
und insbesondere die Erzeugung synthetisierter Sprachdaten
erlaubt, die unter Berücksichtigung von akustischer Effekte
durchgeführt wird, die auf eine gegenseitige Beeinflussung der
verwendeten Audiosegmente zurückzuführen sind. Daher umfaßt der
Datenträger zusätzliche die Audiosegmente betreffende Informa
tionen nach den Ansprüchen 63 und/oder 64. Vorzugsweise betref
fen diese Informationen die Variation der Frequenzen, Dauer und
Amplituden einzelner Audiosegmente oder einzelner Bereiche von
Audiosegmenten. Werden Audiosegmente verwendet, die Phone
und/oder Polyphone wiedergeben, so sind diese Informationen
vorzugsweise prosodische Informationen und/oder übergeordnete
Koartikulationsphänomene betreffenden Informationen. Außerdem
soll ein Datenspeicher zur Verfügung gestellt werden, dessen
Inventar eine Verbesserung des Signalverlaufes synthetisierter
akustischer Daten ermöglicht. Diese Aufgabe wird durch Verwen
dung eines Datenträgers nach Anspruch 65 gelöst. Des weiteren
ist hierfür zu bevorzugen, daß diese Information zusätzlich
Merkmale des Anspruches 66 aufweisen, um durch die Nutzung
heuristischen Wissens, das die Auswahl, Variation und/oder
Konkatenation einzelner Audiosegmente betrifft, die Qualität
der erzeugten synthetisierten akustischen Daten und insbesonde
re der erzeugten synthetisierten Sprachdaten zu verbessern.
Schließlich ist es eine Aufgabe der Erfindung, erfindungsgemäße
synthetisierte akustische Daten, insbesondere synthetisierte
Sprachdaten, zur Verfügung zu stellen, die mit herkömmlichen
bekannten Vorrichtungen, beispielsweise einem Tonbandgerät oder
einer PC-Audiokarte, genutzt werden können. Diese Aufgabe wird
durch die Bereitstellung eine Tonträgers nach den Ansprüchen
67, 68 bzw. 69 gelöst.
Weitere Eigenschaften, Merkmale, Vorteile oder Abwandlungen der
Erfindung werden anhand der nachfolgenden Beschreibung erläu
tert. Dabei zeigt:
Fig. 1a Schematische Darstellung einer
erfindungsgemäßen Vorrichtung zur Erzeugung
synthetisierter akustischer Daten;
Fig. 1b Struktur eines Phons;
Fig. 2a Struktur eines herkömmlichen Audiosegmentes
nach dem Stand der Technik;
Fig. 2b Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Phon mit nachgelagerten Koartikualtions
bereichen wiedergibt;
Fig. 2c Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Phon mit vorgelagerten Koartikualtions
bereichen wiedergibt;
Fig. 2d Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Phon mit nachgelagerten Koartikualtions
bereichen wiedergibt und eventuell vom Konka
tenationsverfahren (z. B. Crossfade) benötigte
zusätzliche Bereiche enthält;
Fig. 2e Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Phon mit vorgelagerten Koartikualtions
bereichen wiedergibt und eventuell vom Konka
tenationsverfahren (z. B. Crossfade) benötigte
zusätzliche Bereiche enthält;
Fig. 2f Strukturen von erfindungsgemäßen Audiosegmenten,
das ein Polyphon mit jeweils nachgelagerten Ko
artikualtionsbereichen wiedergeben;
Fig. 2g Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Polyphon mit jeweils vorgelagerten Koar
tikualtionsbereichen wiedergibt;
Fig. 2h Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Polyphon mit jeweils nachgelagerten Ko
artikualtionsbereichen wiedergibt und eventuell
vom Konkatenationsverfahren (z. B. Crossfade) be
nötigte zusätzliche Bereiche enthält;
Fig. 2i Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Polyphon mit jeweils vorgelagerten Koar
tikualtionsbereichen wiedergibt und eventuell
vom Konkatenationsverfahren (z. B. Crossfade) be
nötigte zusätzliche Bereiche enthält;
Fig. 2j Strukturen von erfindungsgemäßen Audiosegmenten,
das einen Teil eines Phons oder Phone vom Anfang
einer Phonfolge wiedergeben;
Fig. 2k Struktur eines erfindungsgemäßen Audiosegmentes,
das Phone vom Ende einer Phonfolge wiedergibt;
Fig. 3a Konkatenation gemäß dem Stand der Technik am
Beispiel zweier Audiosegmente;
Fig. 3b Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit nachgelagerten Koartikulationsbe
reichen enthalten, mittels eines Crossfades
(Fig. 3bI) und eines Hardfades (Fig. 3bII), wo
bei das erste Phon vom Anfang einer Lauteinhei
tenfolge stammt;
Fig. 3c Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit nachgelagerten Koartikulationsbe
reichen enthalten, mittels eines Crossfades
(Fig. 3cI) und eines Hardfades (Fig. 3cII);
Fig. 3d Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit vorgelagerten Koartikulationsberei
chen enthalten, mittels eines Crossfades (Fig.
3dI) und eines Hardfades (Fig. 3dII);
Fig. 3e Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit nachgelagerten Koartikulationsbe
reichen enthalten, mittels eines Crossfades
(Fig. 3eI) und eines Hardfades (Fig. 3eII), wo
bei das erste Phon vom Ende einer Lauteinheiten
folge stammt; und
Fig. 4 Schematische Darstellung der Schritte eines
erfindungsgemäßen Verfahrens zur Erzeugung
synthetisierter akustischer Daten.
Die im folgenden benutzten Bezugszeichen beziehen sich auf die
Fig. 1 und die im folgenden für die verschiedenen Verfahrens
schritte benutzten Nummern beziehen sich auf die Fig. 4.
Um mit Hilfe der Erfindung beispielsweise einen Text in synthe
tisierte Sprache umzuwandeln, ist es notwendig in einem vorge
lagerten Schritt diesen Text in eine Folge von Phonemen unter
Verwendung bekannter Verfahren oder Vorrichtungen zu untertei
len. Vorzugsweise sind auch dem Text entsprechende prosodische
Informationen zu erzeugen. Die Phonemfolge sowie die prosodi
schen Informationen dienen als Eingabegrößen für das erfin
dungsgemäße Verfahren bzw. die erfindungsgemäße Vorrichtung.
Die zu synthetisierenden Phoneme werden einer Eingabeeinheit
101 der Vorrichtung 1 zur Erzeugung synthetisierter Sprachdaten
zugeführt und in einer ersten Speichereinheit 103 abgelegt
(siehe Fig. 1). Mit Hilfe einer Auswahleinrichtung 103 werden
aus einem Audiosegmente (Elemente) enthaltenden Inventar, das
in einer Datenbank 107 gespeichert ist, die Audiosegmente
ausgewählt, die Phone oder Teile von Phonen wiedergeben, die
den einzelnen eingegebenen Phonemen oder Teilen davon entspre
chen und in einer Reihenfolge, die der Reihenfolge der eingege
benen Phoneme entspricht, in einer zweiten Speichereinheit 104
gespeichert . Falls das Inventar Polyphone wiedergebende Audio
segmente enthält, so wählt die Auswahleinrichtung 103 vorzugs
weise die Audiosegmente aus, die die längsten Polyphone wieder
geben, die einer Folge von Phonemen aus der eingegebenen Pho
nemfolge entsprechen.
Stellt die Datenbank 107 ein Inventar mit Audiosegmenten unter
schiedlicher Arten zur Verfügung, so wählt die Auswahleinrich
tung 103 vorzugsweise die längsten Audiosegmente aus, die den
Phonemfolgen oder Teilen davon entsprechen, um die eingegebene
Phonemfolge und/oder eine Folge von Phonemen aus einer minima
len Anzahl von Audiosegmenten zu synthetisieren. Hierbei ist es
vorteilhaft, verkettete Phone als Inventarelemente zu verwen
den, die aus einem zeitlich vorgelagerten statischen Phon und
einem zeitlich nachgelagerten dynamischen Phon bestehen. So
entstehen Inventarelemente, die aufgrund der Einbettung der
dynamischen Phone immer mit einem statischen Phon beginnen.
Dadurch vereinfacht und vereinheitlicht sich das Vorgehen bei
Konkatenationen solcher Inventarelemente, da hierfür nur Cross
fades benötigt werden.
Um eine koartikulationsgerechte Konkatenation der zu verketten
den Audiosegmente zu erzielen, werden mit Hilfe einer Konka
tenationseinrichtung 111 die Konkatenationsmomente zweier
aufeinanderfolgender Audiosegmente wie folgt festgelegt
- - Soll ein Audiosegment zu Synthetisierung des Anfanges der eingegebenen Phonemfolge (Schritt 1) verwendet werden, so ist aus dem Inventar ein Audiosegment zu wählen, das einen Wortan fang wiedergibt und mit einem zeitlich nachgelagerten Audioseg ment zu verketten (siehe Fig. 3b und Schritt 3 in Fig. 4).
- - Bei der Konkatenation eines zweiten Audiosegmentes an ein zeitlich vorgelagertes erstes Audiosegment ist zu unterschei den, ob das zweite Audiosegment mit einem statischen Phon oder einem dynamischen Phon beginnt, um die Wahl des Momentes der Konkatenation entsprechend zu treffen (Schritt 6).
- - Beginnt das zweite Audiosegment mit einem statischen Phon, wird die Konkatenation in Form eines Crossfades durchgeführt, wobei der Moment der Konkatenation im zeitlich hinteren Bereich des ersten Audiosegmentes und im zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird, wodurch sich diese beiden Bereiche bei der Konkatenation überlappen oder wenigstens unmittelbar aneinandergrenzen (siehe Fig. 3c und 3d, Konka tenation mittels Crossfade).
- - Beginnt das zweite Audiosegment mit einem dynamischen Phon, wird die Konkatenation in Form eines Hardfades durchgeführt, wobei der Moment der Konkatenation zeitlich unmittelbar hinter der zeitlich hinteren Bereich des ersten Audiosegmentes und zeitlich unmittelbar vor dem zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird (siehe Fig. 3c und 3d, Konkatenation mittels Hardfade).
Auf diese Weise können aus diesen ursprünglich verfügbaren
Audiosegmenten, die Phone oder Polyphone wiedergeben, neue
Polyphone wiedergebende Audiosegmente erzeugt werden, die mit
einem statischen Phon beginnen. Dies erreicht man, indem Audio
segmente, die mit einem dynamischen Phon beginnen, zeitlich
nachgelagert mit Audiosegmenten, die mit einem statischen Phon
beginnen, verkettet werden. Dies vergrößert zwar die Zahl der
Audiosegmente bzw. den Umfang des Inventars, kann aber bei der
Erzeugung synthetisierter Sprachdaten einen rechentechnischen
Vorteil darstellen, da weniger einzelne Konkatenationen zur
Erzeugung einer Phonemfolge erforderliche sind und Konkate
nationen nur noch in Form eines Crossfades durchgeführt werden
müssen. Vorzugsweise werden die so erzeugten neuen verketteten
Audiosegmente der Datenbank 107 oder einer anderen Speicherein
heit 113 zugeführt.
Ein weiterer Vorteil dieser Verkettung der ursprüngliche Audio
segmente zu neuen längeren Audiosegmenten ergibt sich, wenn
sich beispielsweise eine Folge von Phonemen in der eingegebenen
Phonemfolge häufig wiederholt. Dann kann auf eines der neuen
entsprechend verketteten Audiosegmente zurückgegriffen werden
und es ist nicht notwendig, bei jedem Auftreten dieser Folge
von Phonemen eine erneute Konkatenation der ursprünglich vor
handenen Audiosegmente durchzuführen. Vorzugsweise sind bei der
Speicherung solcher verketteten Audiosegmente auch übergreifen
de Koartikulationseffekte zu erfassen bzw. spezifische Koarti
kulationseffekte in Form zusätzlicher Daten dem gespeicherten
verketteten Audiosegment zuzuordnen.
Soll ein Audiosegment zu Synthetisierung des Endes der eingege
benen Phonemfolge verwendet werden, so ist aus dem Inventar ein
Audiosegment zu wählen, das ein Wortende wiedergibt und mit
einem zeitlich vorgelagertes Audiossegment zu verketten (siehe
Fig. 3e und Schritt 8 in Fig. 4).
Die einzelnen Audiosegmente werden in der Datenbank 107 kodiert
gespeichert, wobei die kodierte Form der Audiosegmente neben
der Wellenform des jeweiligen Audiosegmentes angibt, welche(s)
Phon(e) das jeweilige Audiosegment wiedergibt, welche Art der
Konkatenation (z. B. Hardfade, linearer oder exponentieller
Crossfade) mit welchem zeitlich nachfolgenden Audiosegment
durchzuführen ist und zu welchem Moment die Konkatenation mit
welchem zeitlich nachfolgenden Audiosegment stattfindet. Vor
zugsweise enthält die kodierte Form der Audiosegmente auch
Informationen bezüglich der Prosodie und übergeordneten Koarti
kulationen, die bei einer Synthetisierung der gesamten vom
Sprecher aufgenommene Phonemfolge und/oder Folgen von Phonem
verwendet werden, um eine zusätzliche Verbesserung der Sprach
qualität zu erzielen.
Bei der Wahl der Audiosegmente zur Synthetisierung der eingege
benen Phonemfolge werden als zeitlich nachgelagerte Audioseg
mente solche gewählt, die den Eigenschaften der jeweils
zeitlich vorgelagerten Audiosegmente, d. h. Konkatenationsart
und Konkatenationsmoment, entsprechen. Nachdem die der Phonem
folge entsprechenden Audiosegmente aus der Datenbank 107 ge
wählt wurden, erfolgt die Verkettung zweier aufeinanderfol
gender Audiosegmente mit Hilfe der Konkatenationseinrichtung
111 folgendermaßen. Es wird die Wellenform, die Konkatenations
art und der Konkatenationsmoment des ersten Audiosegmentes und
des zweiten Audiosegmentes aus der Datenbank (Fig. 3a und
Schritt 10 und 11) geladen. Vorzugsweise werden bei der oben
erwähnten Wahl der Audiosegmente solche Audiosegmente gewählt,
die hinsichtlich ihrer Konkatenationsart und ihres Konkatenati
onsmoment zu einander passen. In diesem Fall ist das Laden der
Informationen bezüglich der Konkatenationsart und des Konka
tenationsmomentes des zweiten Audiosegmentes ist nicht mehr
notwendig.
Zur Konkatenation der beiden Audiosegmente werden die Wellen
form des ersten Audiosegmentes in einem zeitlich hinteren
Bereich und die Wellenform des zweiten Audiosegmentes in einem
zeitlich vorderen Bereich jeweils mit einer geeigneten Gewich
tungsfunktion multipliziert (siehe Fig. 3a, Schritt 12 und
13). Die Längen des zeitlich hinteren Bereiches des ersten
Audiosegmentes und des zeitlich vorderen Bereiches des zweiten
Audiosegmentes ergeben sich aus der Konkatenationsart und
zeitlichen Lage des Konkatenationsmomentes, wobei diese Längen
auch in der kodierten Form der Audiosegmente in der Datenbank
gespeichert werden können.
Sind die beiden Audiosegmente mit einem Crossfade zu verketten,
werden diese entsprechend dem jeweiligen Konkatenationsmoment
überlappend addiert (siehe Fig. 3c und 3d, Schritt 15).
Vorzugsweise ist hierbei ein linearer symmetrischer Crossfade
zu verwenden, es kann aber auch jede andere Art eines Crossfa
des eingesetzt werden. Ist eine Konkatenation in Form eines
Hardfades durchzuführen, werden die beiden Audiosegmente nicht
überlappend hintereinander verbunden (siehe Fig. 3c und 3d,
Schritt 15). Wie in Fig. 3d zu sehen ist, werden hierbei die
beiden Audiosegmente zeitlich unmittelbar hintereinander ange
ordnet. Um die so erzeugten synthetisierten Sprachdaten weiter
verarbeiten zu können, werden diese vorzugsweise in einer
dritten Speichereinheit 115 abgelegt.
Für die weitere Verkettung mit nachfolgenden Audiosegmenten
werden die bisher verketteten Audiosegmente als erstes Audio
segment betrachtet (Schritt 16) und der oben beschriebenen
Verkettungsprozeß solange wiederholt, bis die gesamte Phonem
folge synthetisiert wurde.
Zur Verbesserung der Qualität der synthetisierten Sprachdaten
sind vorzugsweise auch die prosodischen Informationen, die
zusätzlich zu der Phonemfolge eingegeben werden, bei der Ver
kettung der Audiosegmente zu berücksichtigen. Mit Hilfe bekann
ter Verfahren kann die Frequenz, Dauer und Amplitude der
Audiosegmente vor und/oder nach deren Konkatenation so verän
dert werden, daß die synthetisierten Sprachdaten eine natürli
che Wort- und/oder Satzmelodie aufweisen (Schritte 14, 17 oder
18). Hierbei ist es zu bevorzugen, Konkatenationsmomente an
Nullstellen der Audiosegmente zu wählen.
Um die Übergänge zwischen zwei aufeinander folgenden Audioseg
menten zu optimieren, ist zusätzlich die Anpassung der Frequen
zen, Dauer und Gesamtamplituden sowie von Amplituden in
verschiedenen Frequenzbereichen der beiden Audiosegmente im
Bereich des Konkatenationsmomentes vorgesehen. Des weiteren
erlaubt es die Erfindung, auch übergeordnete akustische Phäno
mene einer realen Sprache, wie z. B. übergeordnete Koartikulati
onseffekte oder Sprachstil (u. a. Flüstern, Betonung,
Gesangsstimme oder Falsett) bei der Synthetisierung der Phonem
folgen zu berücksichtigen. Hierfür werden Informationen, die
solche übergeordnete Phänomene betreffen, zusätzlich in kodier
ter Form mit den entsprechenden Audiosegmenten gespeichert, um
so bei der Auswahl der Audiosegmente nur solche zu wählen, die
den übergeordneten Koartikulationseigenschaften der zeitlich
vor- und/oder nachgelagerten Audiosegmente entsprechen.
Die so erzeugten synthetisierten Sprachdaten haben vorzugsweise
eine Form, die es unter Verwendung einer Ausgabeeinheit 117
erlaubt, die Sprachdaten in akustische Sprachsignale umzuwan
deln und die Sprachdaten und/oder Sprachsignale auf einem
akustischen, optischen oder elektrischen Datenträger zu spei
chern (Schritt 19).
Mit dieser Erfindung ist es erstmals möglich synthetisierte
Sprachsignale durch eine koartikulationsgerechte Konkatenation
einzelner Audiosegmente zu erzeugen, da der Moment der Konka
tenation in Abhängigkeit der jeweils zu verkettenden Audioseg
mente gewählt wird. Auf diese Weise kann eine synthetisierte
Sprache erzeugt werden, die vom einer natürlichen Sprache nicht
mehr zu unterscheiden ist. Im Gegensatz zu bekannten Verfahren
oder Vorrichtungen werden die hier verwendeten Audiosegmente
nicht durch ein Einsprechen ganzer Worte erzeugt, um eine
authentische Sprachqualität zu gewährleisten. Daher ist es mit
dieser Erfindung möglich, synthetisierte Sprache beliebigen
Inhalts in der Qualität einer real gesprochenen Sprache zu
erzeugen.
Obwohl diese Erfindung am Beispiel der Sprachsynthese beschrie
ben wurde, ist die Erfindung nicht auf den Bereich der synthe
tisierten Sprache beschränkt, sondern kann zu Synthetisierung
beliebiger akustischer Daten verwendet werden. Daher ist diese
Erfindung auch für eine Erzeugung und/oder Bereitstellung von
synthetisierten Sprachdaten und/oder Sprachsignale für beliebi
ge Sprachen oder Dialekte sowie zur Synthese von Musik einsetz
bar.
Claims (69)
1. Verfahren zur Erzeugung synthetisierter akustischer Daten,
die aus einer Folge von Lauteinheiten bestehen, durch Konka
tenation von Audiosegmenten, mit folgenden Schritten:
- - Auswahl von wenigstens zwei Audiosegmenten, die Lauteinheiten wiedergeben, aus einer Datenbank zu synthetisierender akusti scher Daten, dadurch gekennzeichnet, daß
- - jedes Audiosegment wenigstens einen Solo-Artikulationsbereich aufweist, und
- - der Moment der Konkatenation eines Anfangs eines verwendeten Teiles eines zweiten Audiosegmentes mit dem Ende eines verwen deten Teiles eines ersten Audiosegment in Abhängigkeit von Eigenschaften des verwendeten Teiles des zweiten Audiosegmentes in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem verwendeten Teil des zweiten Audiosegmentes beginnt und nach dem zeitlich ersten verwendeten Solo-Artikulationsbereich des verwendeten Teiles des zweiten Audiosegmentes endet.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß für
die Erzeugung der synthetisierten akustischen Daten, die einer
ersten Lauteinheit am Anfang der Lauteinheitenfolge entspre
chen, ein solches Audiosegment ausgewählt wird, dessen zeitlich
vorderer Bereich des verwendeten Teiles des Audiosegmentes die
Eigenschaften des Anfangs der Lauteinheitenfolge aufweist.
3. Verfahren nach einem der Ansprüche 1 oder 2, dadurch gekenn
zeichnet, daß der Moment der Konkatenation des zweiten Audio
segmentes mit dem ersten Audiosegment so gewählt wird, daß er
in der Umgebung der Grenzen des ersten verwendeten Solo-Artiku
lationsbereiches des verwendeten Teiles des zweiten Audioseg
mentes liegt, wenn der verwendete Teil des zweiten Audiosegmen
tes mit einer statischen Lauteinheit beginnt, wobei ein
zeitlich hinterer Bereich des verwendeten Teiles des ersten
Audiosegmentes und ein zeitlich vorderer Bereich des verwende
ten Teiles des zweiten Audiosegmentes gewichtet und danach
beide Bereiche addiert werden (Crossfade), wobei die Länge
eines Überlappungsbereiches der beiden Bereiche in Abhängigkeit
der zu synthetisierenden akustischen Daten bestimmt wird.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekenn
zeichnet, daß der Moment der Konkatenation des zweiten Audio
segmentes mit dem ersten Audiosegment so gewählt wird, daß er
zeitlich unmittelbar vor dem verwendeten Teil des zweiten
Audiosegmentes liegt, wenn der verwendete Teil des zweiten
Audiosegmentes mit einer dynamischen Lauteinheit beginnt, wobei
ein zeitlich hinterer Bereich des verwendeten Teiles des ersten
Audiosegmentes und ein zeitlich vorderer Bereich des verwende
ten Teiles des zweiten Audiosegmentes gewichtet werden
(Hardfade).
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekenn
zeichnet, daß für die Erzeugung der synthetisierten akustischen
Daten, die einer letzten Lauteinheit am Ende der Lauteinheiten
folge entsprechen, ein solches Audiosegment ausgewählt wird,
dessen zeitlich hinterer Bereich des verwendeten Teiles des
Audiosegmentes die Eigenschaften des Endes der Lauteinheiten
folge aufweist.
6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß
weitere Audiosegmente dadurch gebildet werden, indem Audioseg
mente, deren verwendeter Teil mit einer dynamischen Lauteinheit
beginnt, oder eine Folge von Audiosegmenten, deren verwendete
Teile mit dynamischen Lauteinheiten beginnen, mit wenigstens
einem zeitlich vorgelagerten Audiosegment, dessen verwendeter
Teil mit einer statischen Lauteinheit beginnt, verkettet wer
den.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekenn
zeichnet, daß die zu synthetisierenden Sprachdaten in Gruppen
von aufeinanderfolgenden Lauteinheiten zusammengefaßt werden,
die jeweils durch ein einzelnes Audiosegment beschrieben wer
den.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekenn
zeichnet, daß bei der Konkatenation eines zweiten Audiosegmen
tes mit einem ersten Audiosegment aus der Datenbank für das
zweite Audiosegment ein Audiosegment gewählt wird, das die
meisten aufeinanderfolgenden Lauteinheiten der zu synthetisier
enden Daten wiedergibt, um bei der Erzeugung der synthetisier
ten Daten die minimale Anzahl von Audiosegmenten zu verwenden.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekenn
zeichnet, daß eine Variation der Frequenz, der Dauer und der
Gesamtamplitude der verwendeten Teile einzelner Audiosegmente
sowie deren Amplitude in verschiedenen Frequenzbereichen in
Abhängigkeit von Eigenschaften der Lauteinheitenfolge durchge
führt wird.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekenn
zeichnet, daß eine Variation der Frequenz, der Dauer und der
Gesamtamplitude der verwendeten Teile einzelner Audiosegmente
sowie deren Amplitude in verschiedenen Frequenzbereichen in
einem Bereich durchgeführt wird, in dem der Moment der Konka
tenation liegt.
11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch ge
kennzeichnet, daß der Moment der Konkatenation bei einer Null
stelle in den verwendeten Teilen des ersten und/oder des
zweiten Audiosegmentes gewählt wird.
12. Verfahren nach einem der Ansprüche 1 bis 11, dadurch ge
kennzeichnet, daß die Auswahl der verwendeten Teile einzelner
Audiosegmente, deren Variation sowie deren Konkatenation zu
sätzlich unter Verwendung heuristischen Wissens durchgeführt
wird, das durch ein zusätzlich durchgeführtes heuristisches
Verfahren gewonnen wird.
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch ge
kennzeichnet, daß eine Umwandlung der synthetisierten akusti
schen Daten in akustische Signale durchgeführt wird.
14. Verfahren nach einem der Ansprüche 1 bis 13, dadurch ge
kennzeichnet, daß die synthetisierten akustischen Daten auf
einem Datenträger gespeichert werden.
15. Verfahren einem der Ansprüche 1 bis 14, dadurch gekenn
zeichnet, daß
- - die zu synthetisierenden akustischen Daten Sprachdaten und die Lauteinheiten Phone sind,
- - die statischen Lauteinheiten Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfassen, und
- - die dynamischen Lauteinheiten Plosive, Affrikate, Glottal stops und geschlagenen Laute umfassen.
16. Vorrichtung zur Erzeugung synthetisierter akustischer
Daten, die aus einer Folge von Lauteinheiten bestehen, durch
Konkatenation von Audiosegmenten, mit:
- - einer Datenbank, in der die Audiosegmente der zu synthetisie render Daten gespeichert sind,
- - einer Einrichtung zur Auswahl von wenigstens zwei die Lau teinheiten wiedergebenden Audiosegmenten aus der Datenbank, und
- - einer Einrichtung zur Konkatenation der Audiosegmente, da durch gekennzeichnet, daß
- - die Datenbank Audiosegmente enthält, die wenigstens einen Solo-Artikulationsbereich aufweisen, und
- - die Konkatenationseinrichtung geeignet ist, den Moment der Konkatenation eines Anfangs eines verwendeten Teils eines zweiten Audiosegmentes mit dem Ende eines verwendeten Teils eines ersten Audiosegmentes in Abhängigkeit von Eigenschaften des verwendeten Teils des zweiten Audiosegmentes in einen Bereich zu legen, der zeitlich unmittelbar vor dem verwendeten Teil des zweiten Audiosegmentes beginnt und nach dem zeitlich ersten verwendeten Solo-Artikulationsbereich des verwendeten Teils des zweiten Audiosegmentes endet.
17. Vorrichtung nach Anspruch 16, dadurch gekennzeichnet, daß
die Datenbank Audiosegmente enthält, deren verwendete Teile am
Anfang einer Lauteinheitenfolge auftretende Lauteinheiten
wiedergeben.
18. Vorrichtung nach einem der Ansprüche 16 oder 17, dadurch
gekennzeichnet, daß die Konkatenationseinrichtung zusätzlich
umfaßt:
- - Einrichtungen zur Konkatenation eines ersten Audiosegmentes mit einem zweiten Audiosegment, dessen verwendeter Teil mit einer statischen Lauteinheit beginnt, im Bereich der Grenzen des ersten verwendeten Solo-Artikulationsbereiches des verwen deten Teils des zweiten Audiosegmentes,
- - Einrichtungen zur Gewichtung eines zeitlich hinteren Berei ches des verwendeten Teils des ersten Audiosegmentes und eines zeitlich vorderen Bereiches des verwendeten Teils des zweiten Audiosegmentes, und
- - Einrichtungen zur Addition der beiden Bereiche.
19. Vorrichtung nach einem der Ansprüche 16 bis 18, dadurch
gekennzeichnet, daß die Konkatenationseinrichtung zusätzlich
umfaßt
- - Einrichtungen zur Konkatenation eines ersten Audiosegmentes mit einem zweiten Audiosegment, dessen verwendeter Teil mit einer dynamischen Lauteinheit beginnt, zeitlich unmittelbar vor dem verwendeten Teil des zweiten Audiosegmentes, und
- - Einrichtungen zur Gewichtung eines zeitlich hinteren Berei ches des verwendeten Teil des ersten Audiosegmentes und eines zeitlich vorderen Bereiches des verwendeten Teil des zweiten Audiosegmentes.
20. Vorrichtung nach einem der Ansprüche 16 bis 19, dadurch
gekennzeichnet, daß die Datenbank Audiosegmente enthält, deren
verwendete Teile am Ende einer Lauteinheitenfolge auftretende
Lauteinheiten wiedergeben.
21. Vorrichtung nach einem der Ansprüche 16 bis 20, dadurch
gekennzeichnet, daß die Datenbank eine Gruppe von Audiosegmen
ten enthält, deren verwendete Teile mit einer statischen Lau
teinheit beginnen.
22. Vorrichtung nach einem der Ansprüche 16 bis 21, dadurch
gekennzeichnet, daß die Konkatenationseinrichtung zusätzlich
umfaßt:
- - eine Einrichtung zur Erzeugung weiterer Audiosegmente durch Konkatenation von Audiosegmenten, deren verwendete Teile mit einer statischen Lauteinheit beginnen, mit zeitlich nachgela gerten Audiosegmenten, deren verwendete Teile mit einer dynami schen Lauteinheit beginnen, und
- - eine Einrichtung, die die weiteren Audiosegmente der Daten bank oder der Auswahleinrichtung zuführt.
23. Vorrichtung nach einem der Ansprüche 16 bis 22, dadurch
gekennzeichnet, daß die Datenbank eine Gruppe von Audiosegmen
ten enthält, die jeweils eine Folge von Lauteinheiten wiederge
ben.
24. Vorrichtung nach einem der Ansprüche 16 bis 23, dadurch
gekennzeichnet, daß die Auswahleinrichtung geeignet ist, bei
der Auswahl der Audiosegmente aus der Datenbank, die Audioseg
mente auszuwählen, die die meisten aufeinanderfolgenden Lau
teinheiten der zu synthetisierenden Daten wiedergeben, um bei
der Erzeugung der synthetisierten Daten die minimal Anzahl von
Audiosegmenten zu verwenden.
25. Vorrichtung nach einem der Ansprüche 16 bis 24, dadurch
gekennzeichnet, daß die Konkatenationseinrichtung zusätzlich
eine Einrichtung zur Variation der Frequenz, der Dauer und der
Gesamtamplitude der verwendeten Teile einzelner Audiosegmente
sowie deren Amplitude in verschiedenen Frequenzbereichen in
Abhängigkeit von Eigenschaften der Lauteinheitenfolge umfaßt.
26. Vorrichtung nach einem der Ansprüche 16 bis 25, dadurch
gekennzeichnet, daß die Konkatenationseinrichtung zusätzlich
eine Einrichtung zur Variation der Frequenz, der Dauer und der
Gesamtamplitude der verwendeten Teile einzelner Audiosegmente
sowie deren Amplitude in verschiedenen Frequenzbereichen in
einem Bereich durchgeführt wird, in dem der Moment der Konka
tenation liegt, umfaßt.
27. Vorrichtung nach einem der Ansprüche 16 bis 26, dadurch
gekennzeichnet, daß die Konkatenationseinrichtung zusätzlich
eine Einrichtung zur Auswahl des Momentes der Konkatenation bei
einer Nullstelle in den verwendeten Teilen des ersten und/oder
des zweiten Audiosegmentes aufweist.
28. Vorrichtung nach einem der Ansprüche 16 bis 27, dadurch
gekennzeichnet, daß die Auswahleinrichtung zusätzlich eine
Einrichtung zur Implementation heuristischen Wissens umfaßt,
das die Auswahl der einzelnen Audiosegmente, deren Variation
sowie die Konkatenation der Audiosegmente betrifft.
29. Vorrichtung nach einem der Ansprüche 16 bis 28, dadurch
gekennzeichnet, daß zusätzlich Einrichtungen zur Umwandlung der
synthetisierten akustischen Daten in akustische Signale vorge
sehen sind.
30. Vorrichtung nach einem der Ansprüche 16 bis 29, dadurch
gekennzeichnet, daß zusätzlich Einrichtungen zur Speicherung
der synthetisierten akustischen Daten auf einem Datenträger
vorgesehen sind.
31. Vorrichtung nach einem der Ansprüche 16 bis 30, dadurch
gekennzeichnet, daß
- - die Datenbank Audiosegmente enthält, die jeweils wenigstens
einen Teil eines Phons wiedergeben, wobei eine statische Lau
teinheit Vokale, Diphtonge, Liquide, Vibranten, Frikative und
Nasale umfaßt und
eine dynamische Lauteinheit Plosive, Affrikate, Glottalstops und geschlagene Laute umfaßt, und - - die Konkatenationseinrichtung geeignet ist, die Audiosegmente zu synthetisierten Sprachdaten zu verketten.
32. Synthetisierte Sprachsignale, die aus einer Folge von
Phonen bestehen, wobei die Sprachsignale erzeugt werden, indem:
- - wenigstens zwei die Phone wiedergebende Audiosegmente aus einer Datenbank ausgewählt werden, und
- - die Audiosegmente durch eine Konkatenation verkettet werden, wobei
- - jedes Audiosegment wenigstens einen Solo-Artikulationsbereich aufweist, und
- - der Moment der Konkatenation des Anfangs eines verwendeten Teiles eines zweiten Audiosegmentes mit dem Ende eines verwen deten Teiles eines ersten Audiosegmentes in Abhängigkeit von Eigenschaften des verwendeten Teiles des zweiten Audiosegmentes in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem verwendeten Teil des zweiten Audiosegmentes beginnt und nach dem zeitlich ersten verwendeten Solo-Artikulationsbereich des verwendeten Teiles des zweiten Audiosegmentes endet.
33. Synthetisierte Sprachsignale nach Anspruch 32, dadurch
gekennzeichnet, daß das erste Phon in der Phonfolge durch ein
Audiosegment erzeugt wird, dessen verwendeter Teil einen zeit
lich vorderen Bereich hat, der die Eigenschaften des Anfangs
der Phonfolge aufweist.
34. Synthetisierte Sprachsignale nach einem der Ansprüche 32
oder 33, dadurch gekennzeichnet, daß die Sprachsignale erzeugt
werden, indem
- - das erste Audiosegment und das zweite Audiosegment zu einem Moment konkateniert werden, der in der Umgebung der Grenzen des ersten verwendeten Solo-Artikulationsbereiches des verwendeten Teiles des zweiten Audiosegmentes liegt, wenn der verwendete Teil des zweite Audiosegment mit einem statischen Phon beginnt, wobei ein statischer Phon ein Vokal, ein Diphtong, ein Liquid, ein Frikativ, ein Vibrant oder ein Nasal sein kann, und
- - ein zeitlich hinterer Bereich des verwendeten Teiles des ersten Audiosegmentes und ein zeitlich vorderer Bereich des verwendeten Teiles des zweiten Audiosegmentes gewichtet und beide Bereiche addiert werden (Crossfade).
35. Synthetisierte Sprachsignale nach einem der Ansprüche 32
bis 34, dadurch gekennzeichnet, daß die Sprachsignale erzeugt
werden, indem
- - das erste Audiosegment und das zweite Audiosegment zu einem Moment konkateniert werden, der zeitlich unmittelbar vor dem verwendeten Teil des zweiten Audiosegmentes liegt, wenn der verwendete Teil des zweiten Audiosegmentes mit einem dynami schen Phon beginnt, wobei ein dynamischer Phon ein Plosiv, ein Affrikat, ein Glottalstop oder ein geschlagener Laut sein kann, und
- - ein zeitlich hinterer Bereich des verwendeten Teiles des ersten Audiosegmentes und ein zeitlich vorderer Bereich des verwendeten Teiles des zweiten Audiosegmentes gewichtet werden (Hardfade).
36. Synthetisierte Sprachsignale nach einem der Ansprüche 32
bis 35, dadurch gekennzeichnet, daß das letzte Phon in der
Phonfolge durch ein Audiosegment erzeugt wird, dessen verwende
ter Teil einen zeitlich hinteren Bereich hat, der die Eigen
schaften des Endes der Phonfolge aufweist.
37. Synthetisierte Sprachsignale nach Anspruch 36, dadurch
gekennzeichnet, daß die Sprachsignale durch eine Konkatenation
eines ersten Audiosegmentes mit einem zweiten Audiosegment
erzeugt werden, wobei der verwendete Teil des zweiten Audioseg
mentes einen mit einem statischen Phon beginnenden und zeitlich
vorgelagerten Bereich und wenigstens einen dem verwendeten Teil
zeitlich nachgelagerten Bereich umfaßt, der mit einem dynami
schen Phon beginnt.
38. Synthetisierte Sprachsignale nach einem der Ansprüche 32
bis 36, dadurch gekennzeichnet, daß die Sprachsignale durch
Konkatenation von Audiosegmenten erzeugt werden, die Polyphone
wiedergeben.
39. Synthetisierte Sprachsignale nach einem der Ansprüche 32
bis 36, dadurch gekennzeichnet, daß zur Erzeugung der Sprachsi
gnale aus der Datenbank die Audiosegmente ausgewählt werden,
die die meisten zusammenhängenden Phone der Folge der Phone
wiedergeben, um bei der Erzeugung der Sprachsignale die minimal
Anzahl von Audiosegmenten zu verwenden.
40. Synthetisierte Sprachsignale nach einem der Ansprüche 32
bis 39, dadurch gekennzeichnet, daß die Sprachsignale durch
Konkatenation der verwendeten Teile von Audiosegmenten erzeugt
werden, deren Frequenz, Dauer und Gesamtamplitude sowie deren
Amplituden in verschiedenen Frequenzbereichen in Abhängigkeit
von Eigenschaften der Phonfolge variiert werden.
41. Synthetisierte Sprachsignale einem der Ansprüche 32 bis 40,
dadurch gekennzeichnet, daß die Sprachsignale durch Konkatena
tion von Audiosegmenten erzeugt werden, deren Frequenz, Dauer,
Gesamtamplitude und deren Amplituden in verschiedenen Frequenz
bereichen der jeweils verwendeten Teile der Audiosegmente in
einem Bereich variiert werden, in dem der Moment der Konkatena
tion liegt.
42. Synthetisierte Sprachsignale einem der Ansprüche 32 bis 41,
dadurch gekennzeichnet, daß der Moment der Konkatenation bei
einer Nullstelle in den verwendeten Teilen des ersten und/oder
des zweiten Audiosegmentes liegt.
43. Synthetisierte Sprachsignale nach einem der Ansprüche 32
bis 42, dadurch gekennzeichnet, daß die Sprachsignale geeignet
sind, in akustische Signale umgewandelt zu werden.
44. Synthetisierte Sprachsignale nach den Ansprüchen 32 bis 43,
dadurch gekennzeichnet, daß die Sprachsignale geeignet sind,
auf einem Datenträger gespeichert zu werden.
45. Datenträger, der ein Computerprogramm zur Erzeugung von
synthetisierten akustischen Daten, die aus einer Folge von
Lauteinheiten bestehen, durch Konkatenation von Audiosegmenten
enthält, wobei das Computerprogramm folgende Schritte ausführt:
- - Auswahl von wenigstens zwei die Lauteinheiten wiedergebenden Audiosegmenten aus einer Datenbank zu synthetisierender akusti scher Daten, und
- - Konkatenation der Audiosegmente, wobei
- - jedes Audiosegment wenigstens einen Solo-Koartikulationsbe reich aufweist, und
- - der Moment der Konkatenation des Anfangs eines verwendeten Teiles eines zweiten Audiosegmentes mit dem Ende eines verwen deten Teiles eines ersten Audiosegmentes in Abhängigkeit von Eigenschaften des verwendeten Teiles des zweiten Audiosegmentes in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem verwendeten Teil des zweiten Audiosegmentes beginnt und nach dem zeitlich ersten verwendeten Solo-Koartikulationbereich des verwendeten Teiles des zweiten Audiosegmentes endet.
46. Datenträger nach Anspruch 45, dadurch gekennzeichnet, daß
das Computerprogramm zur Erzeugung der synthetisierten akusti
schen Daten, die einer ersten Lauteinheit am Anfang der Lau
teinheitenfolge entsprechen, ein solches Audiosegment auswählt,
dessen verwendeter Teil einen zeitlich vorderen Bereich hat,
der die Eigenschaften des Anfangs der Lauteinheitenfolge auf
weist.
47. Datenträger nach einem der Ansprüche 45 oder 46, dadurch
gekennzeichnet, daß das Computerprogramm den Moment der Konka
tenation des zweiten Audiosegmentes mit dem ersten Audiosegment
so wählt, daß er in der Umgebung der Grenzen des ersten verwen
deten Solo-Artikulationsbereiches des verwendeten Teiles des
zweiten Audiosegmentes liegt, wenn der verwendete Teil des
zweiten Audiosegmentes mit einer statischen Lauteinheit be
ginnt, und einen zeitlich hinteren Bereich des verwendeten
Teiles des ersten Audiosegmentes und einen zeitlich vorderen
Bereich des verwendeten Teiles des zweiten Audiosegmentes
wichtet und beide Bereiche addiert.
48. Datenträger nach einem der Ansprüche 45 bis 47, dadurch
gekennzeichnet, daß das Computerprogramm den Moment der Konka
tenation des zweiten Audiosegmentes mit dem ersten Audiosegment
so wählt, daß er zeitlich unmittelbar vor dem verwendeten Teil
des zweiten Audiosegmentes liegt, wenn der verwendete Teil des
zweiten Audiosegmentes mit einer dynamischen Lauteinheit be
ginnt, und einen zeitlich hinteren Bereich des verwendeten
Teiles des ersten Audiosegmentes und einen zeitlich vorderen
Bereich des verwendeten Teiles des zweiten Audiosegmentes
wichtet.
49. Datenträger nach einem der Ansprüche 45 bis 48, dadurch
gekennzeichnet, daß das Computerprogramm zur Erzeugung der
synthetisierten akustischen Daten, die einer letzten Lautein
heit am Ende der Lauteinheitenfolge entsprechen, ein solches
Audiosegment auswählt, dessen verwendeter Teil einen zeitlich
hinteren Bereich hat, der die Eigenschaften des Endes der
Lauteinheitenfolge aufweist.
50. Datenträger nach einem der Ansprüche 45 bis 49, dadurch
gekennzeichnet, daß das Computerprogramm bei der Konkatenation
eines zweiten Audiosegmentes mit einem ersten Audiosegment aus
der Datenbank für das zweite Audiosegment ein Audiosegment
wählt, das die meisten aufeinanderfolgenden Lauteinheiten der
zu synthetisierenden Daten wiedergibt, um bei der Erzeugung der
synthetisierten Daten die minimal Anzahl von Audiosegmenten zu
verwenden.
51. Datenträger nach einem der Ansprüche 45 bis 50, dadurch
gekennzeichnet, daß das Computerprogramm eine Variation der
Frequenz, Dauer und Gesamtamplitude der verwendeten Teile
einzelner Audiosegmente und deren Amplituden in verschiedenen
Frequenzbereichen in Abhängigkeit von Eigenschaften der Lau
teinheitenfolge durchführt.
52. Datenträger nach einem der Ansprüche 45 bis 51, dadurch
gekennzeichnet, daß das Computerprogramm eine Variation der
Frequenz, Dauer und Gesamtamplitude der verwendeten Teile
einzelner Audiosegmente und deren Amplituden in verschiedenen
Frequenzbereichen in einem Bereich durchführt, in dem der
Moment der Konkatenation liegt.
53. Datenträger nach einem der Ansprüche 45 bis 52, dadurch
gekennzeichnet, daß Computerprogramm den Moment der Konkatena
tion bei einer Nullstelle in den verwendeten Teilen des ersten
und/oder des zweiten Audiosegmentes festlegt.
54. Datenträger nach einem der Ansprüche 45 bis 53, dadurch
gekennzeichnet, daß das Computerprogramm eine Implementation
von heuristischem Wissen durchführt, das die Auswahl der ein
zelnen Audiosegmente, deren Variation sowie die Konkatenation
der Audiosegmente betrifft.
55. Datenträger nach einem der Ansprüche 45 bis 54, dadurch
gekennzeichnet, daß das Computerprogramm die synthetisierten
akustischen Daten in akustische umwandelbare Daten umwandelt.
56. Datenträger nach einem der Ansprüche 45 bis 55, dadurch
gekennzeichnet, daß das Computerprogramm die synthetisierten
akustischen Daten auf einem Datenträger speichert.
57. Datenträger nach einem der Ansprüche 45 bis 56, dadurch
gekennzeichnet, daß das Computerprogramm zur Erzeugung synthe
tisierter Sprachdaten geeignet ist, wobei die Lauteinheiten
Phone sind, die statischen Lauteinheiten Vokale, Diphtonge,
Liquide, Vibranten, Frikative und Nasale und die dynamischen
Lauteinheiten Plosive, Affrikate, Glottalstops und geschlagene
Laute umfassen.
58. Akustischer, optischer oder elektrischer Datenspeicher, der
Audiosegmente enthält, die jeweils wenigstens einen Solo-
Artikualtionsbereich aufweisen, um durch eine Konkatenation von
verwendeten Teile der Audiosegmente unter Verwendung des Ver
fahrens nach Anspruch 1 oder der Vorrichtung nach Anspruch 16
oder des Datenträgers nach Anspruch 45 synthetisierte akusti
sche Daten zu erzeugen.
59. Datenspeicher nach Anspruch 58, dadurch gekennzeichnet, daß
eine Gruppe der Audiosegmente Phone oder Teile von Phonen
wiedergeben.
60. Datenspeicher nach einem der Ansprüche 58 oder 59, dadurch
gekennzeichnet, daß eine Gruppe der Audiosegmente Polyphone
wiedergeben.
61. Datenspeicher nach einem der Ansprüche 58 bis 60, dadurch
gekennzeichnet, daß eine Gruppe von Audiosegmenten zur Verfü
gung gestellt wird, deren verwendete Teile mit einem statischen
Phon beginnen, wobei die statischen Phone Vokale, Diphtonge,
Liquide, Frikative, Vibranten und Nasale umfassen.
62. Datenspeicher nach einem der Ansprüche 58 bis 61, dadurch
gekennzeichnet, daß Audiosegmente zur Verfügung gestellt wer
den, die geeignet sind in akustische Signale umgewandelt zu
werden.
63. Datenspeicher nach einem der Ansprüche 58 bis 62, der
zusätzlich Informationen enthält, um eine Variation der Fre
quenz, Dauer und Gesamtamplitude der verwendeten Teile einzel
ner Audiosegmente und deren Amplituden in verschiedenen
Frequenzbereichen in Abhängigkeit von Eigenschaften der zu
synthetisierenden akustischen Daten durchzuführen.
64. Datenspeicher nach einem der Ansprüche 58 bis 63, der
zusätzlich Informationen enthält, die eine Variation Frequenz,
Dauer und Gesamtamplitude der verwendeten Teile einzelner
Audiosegmente und deren Amplituden in verschiedenen Frequenzbe
reichen in einem Bereich betreffen, in dem der Moment der
Konkatenation liegt.
65. Datenspeicher nach einem der Ansprüche 58 bis 64, der
zusätzlich verkettet Audiosegmente zur Verfügung stellt, deren
Moment der Konkatenation bei einer Nullstelle der verwendeten
Teile des ersten und/oder zweiten Audiosegmentes liegt.
66. Datenspeicher nach einem der Ansprüche 58 bis 65, der
zusätzlich Informationen in Form von heuristischem Wissen
enthält, die die Auswahl der einzelnen Audiosegmente, deren
Variation sowie die Konkatenation der Audiosegmente betreffen.
67. Tonträger, der Daten enthält, die zumindest teilweise
synthetisierte akustische Daten sind, die
- - mit dem Verfahren nach Anspruch 1, oder
- - mit der Vorrichtung nach Anspruch 16, oder
- - unter Verwendung des Datenträgers nach Anspruch 45, oder
- - unter Verwendung des Datenspeichers nach Anspruch 58 erzeugt wurden.
68. Tonträger nach Anspruch 67, dadurch gekennzeichnet, daß die
synthetisierten akustischen Daten synthetisierte Sprachdaten
sind.
69. Tonträger, der Daten enthält, die zumindest teilweise
synthetisierte akustische Daten sind, die synthetisierte
Sprachsignale nach Anspruch 32 sind.
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19861167A DE19861167A1 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
DE1998137661 DE19837661C2 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
AT99942891T ATE243876T1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
CA002340073A CA2340073A1 (en) | 1998-08-19 | 1999-08-19 | Method and device for the concatenation of audiosegments, taking into account coarticulation |
AU56231/99A AU5623199A (en) | 1998-08-19 | 1999-08-19 | Method and device for the concatenation of audiosegments, taking into account coarticulation |
US09/763,149 US7047194B1 (en) | 1998-08-19 | 1999-08-19 | Method and device for co-articulated concatenation of audio segments |
EP99942891A EP1105867B1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
DE59906115T DE59906115D1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
PCT/EP1999/006081 WO2000011647A1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19861167A DE19861167A1 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
DE1998137661 DE19837661C2 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19837661A1 true DE19837661A1 (de) | 2000-02-24 |
DE19837661C2 DE19837661C2 (de) | 2000-10-05 |
Family
ID=26048268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1998137661 Expired - Lifetime DE19837661C2 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19837661C2 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145723A (zh) * | 2019-12-31 | 2020-05-12 | 广州酷狗计算机科技有限公司 | 转换音频的方法、装置、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
US5524172A (en) * | 1988-09-02 | 1996-06-04 | Represented By The Ministry Of Posts Telecommunications And Space Centre National D'etudes Des Telecommunicationss | Processing device for speech synthesis by addition of overlapping wave forms |
EP0813184A1 (de) * | 1996-06-10 | 1997-12-17 | Faculté Polytechnique de Mons | Verfahren zur Tonsynthese |
-
1998
- 1998-08-19 DE DE1998137661 patent/DE19837661C2/de not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5524172A (en) * | 1988-09-02 | 1996-06-04 | Represented By The Ministry Of Posts Telecommunications And Space Centre National D'etudes Des Telecommunicationss | Processing device for speech synthesis by addition of overlapping wave forms |
WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
EP0813184A1 (de) * | 1996-06-10 | 1997-12-17 | Faculté Polytechnique de Mons | Verfahren zur Tonsynthese |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145723A (zh) * | 2019-12-31 | 2020-05-12 | 广州酷狗计算机科技有限公司 | 转换音频的方法、装置、设备以及存储介质 |
CN111145723B (zh) * | 2019-12-31 | 2023-11-17 | 广州酷狗计算机科技有限公司 | 转换音频的方法、装置、设备以及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
DE19837661C2 (de) | 2000-10-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE69909716T2 (de) | Formant Sprachsynthetisierer unter Verwendung von Verkettung von Halbsilben mit unabhängiger Überblendung im Filterkoeffizienten- und Quellenbereich | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE2740520A1 (de) | Verfahren und anordnung zur synthese von sprache | |
DE60126575T2 (de) | Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens | |
DE19610019C2 (de) | Digitales Sprachsyntheseverfahren | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE2551632C2 (de) | Verfahren zum Zusammensetzen von Sprachnachrichten | |
DE2212472A1 (de) | Verfahren und Anordnung zur Sprachsynthese gedruckter Nachrichtentexte | |
DE69627865T2 (de) | Sprachsynthesizer mit einer datenbank für akustische elemente | |
DE1965480A1 (de) | Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache | |
DE60205421T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese | |
EP1110203B1 (de) | Vorrichtung und verfahren zur digitalen sprachbearbeitung | |
DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals | |
EP1344211B1 (de) | Vorrichtung und verfahren zur differenzierten sprachausgabe | |
DE19837661C2 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten | |
DE60303688T2 (de) | Sprachsynthese durch verkettung von sprachsignalformen | |
DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese | |
EP0058130A2 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
DE3232835C2 (de) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
AH | Division in |
Ref document number: 19861167 Country of ref document: DE |
|
AH | Division in |
Ref document number: 19861167 Country of ref document: DE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: BUSKIES, CHRISTOPH, 22769 HAMBURG, DE |
|
R085 | Willingness to licence withdrawn | ||
R085 | Willingness to licence withdrawn | ||
R085 | Willingness to licence withdrawn | ||
R085 | Willingness to licence withdrawn | ||
R071 | Expiry of right |