DE19837661C2 - Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten - Google Patents
Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von AudiosegmentenInfo
- Publication number
- DE19837661C2 DE19837661C2 DE1998137661 DE19837661A DE19837661C2 DE 19837661 C2 DE19837661 C2 DE 19837661C2 DE 1998137661 DE1998137661 DE 1998137661 DE 19837661 A DE19837661 A DE 19837661A DE 19837661 C2 DE19837661 C2 DE 19837661C2
- Authority
- DE
- Germany
- Prior art keywords
- audio segment
- audio
- concatenation
- audio segments
- area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims description 49
- 238000011144 upstream manufacturing Methods 0.000 claims description 30
- 230000003068 static effect Effects 0.000 claims description 16
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 239000007788 liquid Substances 0.000 claims 2
- 230000015572 biosynthetic process Effects 0.000 description 19
- 238000003786 synthesis reaction Methods 0.000 description 19
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000003860 storage Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000013459 approach Methods 0.000 description 4
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000009499 grossing Methods 0.000 description 2
- 230000005574 cross-species transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 239000011269 tar Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
- Electrically Operated Instructional Devices (AREA)
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung
zur Konkatenation von Audiosegmenten zur Erzeugung synthe
tisierter akustischer Daten, insbesondere synthetisierter
Sprache.
Es ist zu betonen, daß sowohl der im folgenden dargestellte
Stand der Technik als auch die vorliegenden Erfindung den
gesamten Bereich der Synthese von akustischen Daten durch
Konkatenation einzelner, auf beliebige Art und Weise erhal
tene Audiosegmente betrifft. Aber um die Diskussion des
Standes der Technik sowie die Beschreibung der vorliegenden
Erfindung zu vereinfachen, beziehen sich die folgenden Aus
führungen speziell auf synthetisierte Sprachdaten durch
Konkatenation einzelner Sprachsegmente.
In den letzten Jahren hat sich im Bereich der Sprachsynthese
der datenbasierte Ansatz gegenüber dem regelbasierten Ansatz
durchgesetzt und ist in verschiedenen Verfahren und Systemen
zur Sprachsynthese zu finden. Obwohl der regelbasierte Ansatz
prinzipiell eine bessere Sprachsynthese ermöglicht, ist es für
dessen Umsetzung notwendig, das gesamte zur Spracherzeugung
notwendige Wissen explizit zu formulieren, d. h. die zu synthe
tisierende Sprache formal zu modellieren. Da die bekannten
Sprachmodellierungen Vereinfachung der zu synthetisierenden
Sprache aufweisen, ist die Sprachqualität der so erzeugten
Sprache nicht ausreichend.
Daher wird in zunehmenden Maße eine datenbasierte Sprachsynthe
se durchgeführt, bei der aus einer einzelne Sprachsegmente
aufweisenden Datenbasis entsprechende Segmente ausgewählt und
miteinander verknüpft (konkateniert) werden. Die Sprachqualität
hängt hierbei in erster Linie von der Zahl und Art der verfüg
baren Sprachsegmente ab, denn es kann nur Sprache synthetisiert
werden, die durch Sprachsegmente in der Datenbasis wiedergeben
ist. Um die Zahl der vorzusehenden Sprachsegmente zu minimieren
und dennoch eine synthetisierte Sprache hoher Qualität zu
erzeugen, sind verschieden Verfahren bekannt, die eine Verknüp
fung (Konkatenation) der Sprachsegmente nach komplexen Regeln
durchführen.
Unter Verwendung solcher Verfahren bzw. entsprechender Vorrich
tungen kann ein Inventar, d. h. eine die Sprachsegmente umfas
sende Datenbasis, verwendet werden, das vollständig und
handhabbar ist. Ein Inventar ist vollständig, wenn damit jede
Lautfolge der zu synthetisierenden Sprache erzeugt werden kann,
und ist handhabbar, wenn die Zahl und Art der Daten des Inven
tars mit den technisch verfügbaren Mitteln in einer gewünschten
Weise verarbeitet werden kann. Darüber hinaus muß ein solches
Verfahren gewährleisten, daß die Konkatenation der einzelnen
Inventarelemente eine synthetisierte Sprache erzeugt, die sich
von einer natürlich gesprochenen Sprache möglichst wenig unter
scheidet. Hierfür muß eine synthetisierte Sprache flüssig sein
und die gleichen artikulatorischen Effekte einer natürlichen
Sprache aufweisen. Hier kommen den sogenannten koartikulatori
schen Effekten, d. h. der gegenseitigen Beeinflussung von
Sprachlauten, eine besondere Bedeutung zu. Daher sollten die
Inventarelemente so beschaffen sein, das sie die Koartikulation
einzelner aufeinanderfolgender Sprachlaute berücksichtigen. Des
weiteren sollte ein Verfahren zu Konkatenation der Inventarele
mente, die Elemente unter Berücksichtigung der Koartikulation
einzelner aufeinanderfolgender Sprachlaute sowie der übergeord
neten Koartikulation mehrerer aufeinanderfolgender Sprachlaute,
auch über Wort- und Satzgrenzen hinweg, verketten.
Vor der Darstellung des Standes der Technik werden im folgenden
einige zum besseren Verständnis notwendige Begriffe aus dem
Bereich der Sprachsynthese erläutert:
- - Ein Phonem ist die kleinste formal beschreibbare Lauteinheit, wobei i. allg. die formale Beschreibung durch Lautschriftzei chen erfolgt.
- - Ein Phon ist die kleinste Lauteinheit, die in Form eines Audiosegmentes speicherbar ist, und stellt die akustische Realisierung eines Phonems dar. Die Phone werden in statische und dynamische Phone unterteilt.
- - Zu den statischen Phonen zählen Vokale, Diphtonge, Nasale, Laterale, Vibranten und Frikative.
- - Zu den dynamischen Phonen zählen Plosive, Affrikate, Glottal stops und geschlagene Laute.
- - Die Koartikulation bezeichnet das Phänomen, daß ein Phon durch vorgelagerte und nachgelagerte Phone beeinflußt wird, wobei die Koartikulation zwischen unmittelbar benachbarten Phonen auftritt, aber sich auch über eine Folge mehrerer Phone erstrecken kann (Beispielsweise bei einer Lippenrundung).
Daher kann ein Phon in drei Bereiche unterteilt werden (siehe
auch Fig. 1b):
- - Der Anfangs-Koartikulationsbereich umfaßt den Bereich vom Beginn des Phons bis zum Ende der Koartikulation aufgrund eines vorgelagerten Phons.
- - Der Solo-Artikulationsbereich, ist der Bereich des Phons, der nicht durch ein vor- oder nachgelagertes Phon beeinflußt ist.
- - Der End-Koartikulationsbereich umfaßt den Bereich vom Beginn der Koartikulation aufgrund eines nachgelagerten Phons bis zum Ende des Phons.
- - Ein Polyphon ist eine Folge von Phonen.
- - Die Elemente eines Inventars sind in kodierter Form gespei cherte Audiosegmente, die Phone, Teile von Phonen oder Polypho ne wiedergeben. Zur besseren Verständnis des möglichen Aufbau eines Elementarelementes sei hier auf die Fig. 2a, die ein herkömmliches Audiosegment zeigt, und die Fig. 2b-2l verwie sen, in denen erfindungsgemäße Audiosegmente gezeigt sind. Er gänzend ist zu erwähnen, daß Audiosegmente auch aus kleineren oder größeren Audiosegmenten gebildet werden können, die in dem Inventar oder einer Datenbank enthalten sind. Des weiteren können Audiosegmente auch in einer transformierten Form (z. B. einer fouriertransformierten Form) in dem Inventar oder einer Datenbank vorliegen.
- - Unter Konkatenation versteht man das Aneinanderfügen zweier Inventarelemente.
- - Der Konkatenationsmoment ist der Zeitpunkt, zu dem zwei Audiodaten aneinandergefügt werden.
Die Konkatenation kann auf verschiedene Arten erfolgen, z. B.
mit einem Crossfade oder einem Hardfade (siehe auch
Fig. 3a-3d):
- - Bei einem Crossfade werden ein zeitlich hinterer Bereich eines ersten Inventarelementes sowie ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, und danach werden diese beiden Bereiche überlappend so addiert, daß maximal der zeitliche kürzer der beiden Bereichen von dem zeitlich längeren der beiden Bereiche vollständig überlappt wird.
- - Bei einem Hardfade wird ein zeitlich hinterer Bereich eines ersten Inventarelementes und ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, wobei diese beiden Inventarelemente so aneinandergefügt werden, daß sich der hintere Bereich des ersten Inventarelementes und der vorde re Bereich des zweiten Inventarelementes nicht überlappen.
Der Koartikulationsbereich macht sich vor allem dadurch bemerk
bar, daß eine Konkatenation darin mit Unstetigkeiten (z. B.
Spektralsprüngen) verbunden ist. Deswegen wird der Konkatenati
onsmoment vorzugsweise in der Umgebung der Grenze des Solo-
Artikulationsbereiches zum Koartikulationsbereich gewählt.
Im allgemeinen werden Inventarelemente durch die Aufnahme von
real gesprochener Sprache erzeugt. In Abhängigkeit des Trai
ningsgrades des inventaraufbauenden Sprechers, d. h. seiner
Fähigkeit die aufzunehmende Sprache zu kontrollieren (z. B. die
Tonhöhe der Sprache zu kontrollieren oder exakt auf einer
Tonhöhe zu sprechen), ist es möglich, gleiche oder ähnliche
Inventarelemente zu erzeugen, die verschobene Grenzen zwischen
den Solo-Artikulationsbereichen und Koartikulationsbereichen
haben. Dadurch ergeben sich wesentlich mehr Möglichkeiten, die
Konkatenationspunkte an verschiedenen Stellen zu plazieren. In
der Folge kann die Qualität einer zu synthetisierenden Sprache
deutlich verbessert werden.
Ergänzend sei zu erwähnen, daß streng genommen ein Hardfade
einen Grenzfall eines Crossfades darstellt, bei dem eine Über
lappung eines zeitlich hinteren Bereiches eines ersten Inventa
relementes und eines zeitlich vorderen Bereiches eines zweiten
Inventarelementes eine Länge Null hat. Dies erlaubt es in be
stimmten, z. B. äußerst zeitkritischen Anwendungen einen Cross
fade durch einen Hardfade zu ersetzen, wobei eine solche Vorge
hensweise genau abzuwägen ist, da diese zu deutlichen Quali
tätseinbußen bei der Konkatenation von Inventarelementen führt,
die eigentlich durch einen Crossfade zu konkatenieren sind.
- - Unter Prosodie versteht man die Veränderungen der Sprachfre quenz und des Sprachrhythmus, die bei gesprochenen Worten bzw. Sätzen auftreten. Die Berücksichtigung solcher prosodischer Informationen ist bei der Sprachsynthese notwendig, um eine natürliche Wort- bzw. Satzmelodie zu erzeugen.
Aus WO 95/30193 A1 ist ein Verfahren und eine Vorrichtung zur
Umwandlung von Text in hörbare Sprachsignale unter Verwendung
eines neuronalen Netzwerkes bekannt. Hierfür wird der in Spra
che umzuwandelnde Text mit einer Konvertiereinheit in eine
Folge von Phonemen umgewandelt, wobei zusätzlich Informationen
über die syntaktischen Grenzen des Textes und die Betonung der
einzelnen syntaktischen Komponenten des Textes erzeugt werden.
Diese werden zusammen mit den Phonemen an eine Einrichtung
weitergeleitet, die regelbasiert die Dauer der Aussprache der
einzelnen Phoneme bestimmt. Ein Prozessor erzeugt aus jedem
einzelnen Phonem in Verbindung mit den entsprechenden syntakti
schen und zeitlichen Information eine geeignete Eingabe für das
neuronale Netzwerk, wobei diese Eingabe für das neuronale Netz
auch die entsprechenden prosodischen Informationen für die
gesamte Phonemfolge umfaßt. Das neuronale Netz wählt aus den
verfügbaren Audiosegmenten nun die aus, die die eingegebenen
Phoneme am besten wiedergeben, und verkettet diese Audiosegmen
te entsprechend. Bei dieser Verkettung werden die einzelnen
Audiosegmente in ihrer Dauer, Gesamtamplitude und Frequenz an
vor- und nachgelagerte Audiosegmente unter Berücksichtigung der
prosodischen Informationen der zu synthetisierenden Sprache
angepaßt und zeitlich aufeinanderfolgend miteinander verbunden.
Eine Veränderung einzelner Bereiche der Audiosegmente ist hier
nicht beschrieben.
Zur Erzeugung der für dieses Verfahren erforderlichen Audioseg
mente ist das neuronale Netzwerk zuerst zu trainieren, indem
natürlich gesprochene Sprache in Phone oder Phonfolgen unter
teilt wird und diesen Phonen oder Phonfolgen entsprechende
Phoneme oder Phonemfolgen in Form von Audiosegmenten zugeordnet
werden. Da dieses Verfahren nur eine Veränderung von einzelnen
Audiosegmenten, aber keine Veränderung einzelner Bereiche eines
Audiosegmentes vorsieht, muß das neuronale Netzwerk mit mög
lichst vielen verschiedenen Phonen oder Phonfolgen trainiert
werden, um beliebige Texte in synthetisierte natürlich klingen
de Sprache umzuwandeln. Dies kann sich je nach Anwendungsfall
sehr aufwendig gestalten. Auf der anderen Seite kann ein unzu
reichender Trainingsprozeß des neuronalen Netzes die Qualität
der zu synthetisierenden Sprache negativ beeinflussen. Des
weiteren ist es bei dem hier beschriebene Verfahren nicht
möglich, den Konkatenationsmoment der einzelnen Audiosegmente
in Abhängigkeit vorgelagerter oder nachgelagerter Audiosegmente
zu bestimmen, um so eine koartikulationsgerechte Konkatenation
durchzuführen.
In US-5 524 172 ist eine Vorrichtung zur Erzeugung syntheti
sierter Sprache beschrieben, die das sogenannte Diphonverfahren
nutzt. Hier wird ein Text, der in synthetisierte Sprache umge
wandelt werden soll, in Phonemfolgen unterteilt, wobei jeder
Phonemfolge entsprechende prosodische Informationen zugeordnet
werden. Aus einer Datenbank, die Audiosegmente in Form von
Diphonen enthält, werden für jedes Phonem der Folge zwei das
Phonem wiedergebende Diphone ausgewählt und unter Berücksichti
gung der entsprechenden prosodischen Informationen konka
teniert. Bei der Konkatenation werden die beiden Diphone
jeweils mit Hilfe eines geeigneten Filters gewichtet und die
Dauer und Tonhöhe beider Diphone so verändert, daß bei der
Verkettung der Diphone eine synthetisierte Phonfolge erzeugt
wird, deren Dauer und Tonhöhe der Dauer und Tonhöhe der ge
wünschten Phonemfolge entspricht. Bei der Konkatenation werden
die einzelnen Diphone so addiert, daß sich ein zeitlich hinte
rer Bereich eines ersten Diphones und ein zeitlich vorderer
Bereich eines zweiten Diphones überlappen, wobei der Konkatena
tionsmoment generell im Bereich der stationären Bereiche der ein
zelnen Diphone liegt (siehe Fig. 2a). Da eine Variation des
Konkatenationsmomentes unter Berücksichtigung der Koartikulati
on aufeinanderfolgender Audiosegmente (Diphone) hier nicht
vorgesehen ist, kann die Qualität (Natürlichkeit und Verständ
lichkeit) einer so synthetisierten Sprache negativ beeinflußt
werden.
Eine Weiterentwicklung des zuvor diskutierten Verfahrens ist in
EP-0 813 184 A1 zu finden. Auch hier wird ein in synthetisierte
Sprache umzuwandelnder Text in einzelne Phoneme oder Phonemfol
gen unterteilt und aus einer Datenbank entsprechende Audioseg
mente ausgewählt und konkateniert. Um eine Verbesserung der
synthetisierten Sprache zu erzielen, sind bei diesem Ver
fahren zwei Ansätze, die sich vom bisher diskutierten Stand
der Technik unterscheiden, umgesetzt worden. Unter Verwen
dung eines Glättungsfilters, der die tieferfrequenten har
monischen Frequenzanteile eines vorgelagerten und eines
nachgelagerten Audiosegments berücksichtigt, soll der Über
gang von dem vorgelagerten Audiosegment zu dem nachgelager
ten Audiosegment optimiert werden, indem ein zeitlich hin
terer Bereich des vorgelagerten Audiosegments und ein zeit
lich vorderer Bereich des nachgelagerten Audiosegments im
Frequenzbereich aufeinander abgestimmt werden. Des weiteren
stellt die Datenbank Audiosegmente zur Verfügung, die sich
leicht unterscheiden, aber zur Synthetisierung desselben
Phonems geeignet sind. Auf diese Weise soll die natürliche
Variation der Sprache nachgebildet, werden, um eine höhere
Qualität der synthetisierten Sprache zu erreichen. Sowohl
die Verwendung des Glättungsfilter als auch die Auswahl aus
einer Menge unterschiedlicher Audiosegmente zur Realisie
rung eines Phonems erfordert bei einer Umsetzung dieses
Verfahrenes eine hohe Rechenleistung der verwendeten Sy
stemkomponenten. Außerdem steigt der Umfang der Datenbank
aufgrund der erhöhten Zahl der vorgesehenen Audiosegmente.
Des weiteren ist auch bei diesem Verfahren eine koartiku
lationsabhängige Wahl des Konkatenationsmoments einzelner
Audiosegmente nicht vorgesehen, wodurch die Qualität der
synthetisierten Sprache reduziert werden kann.
DE 693 18 209 T2 beschäftigt sich mit Formantsynthese. Gemäß
diesem Dokument werden zwei mehrstimmige Laute unter Ver
wendung eines Interpolationsmechanismus miteinander verbun
den, der auf ein letztes Phonem eines vorgelagerten Lauts
und auf ein erstes Phonem eines nachgelagerten Lauts ange
wendet wird, wobei die zwei Phoneme der beiden Laute gleich
sind und bei den verbundenen Lauten zu einem Phonem überla
gert werden. Bei der Überlagerung werden die die zwei Pho
neme beschreibenden Kurven jeweils mit einer Gewichtungs
funktion gewichtet. Die Gewichtungsfunktion wird bei jedem
Phonem in einem Bereich angewendet, der unmittelbar nach
dem Beginn des Phonems beginnt und unmittelbar vor dem Ende
des Phonems endet. Somit entsprechen bei der hier beschrie
benen Konkatenation von Lauten die verwendeten Bereiche der
Phoneme, die den Übergang zwischen den Lauten bilden, im
wesentlichen den jeweiligen gesamten Phonemen. Das heißt,
daß die zur Konkatenation verwendeten Teile der Phoneme
stets alle drei Bereiche, nämlich den jeweiligen Anfangs
koartikulationsbereich, Soloartikulationsbereich und Endko
artikulationsbereich umfassen. Mithin lehrt D1 eine Verfah
rensweise wie die Übergänge zwischen zwei Lauten zu glätten
sind.
Des weiteren wird gemäß diesem Dokument der Moment der Kon
katenation zweier Laute so festgelegt, daß sich das letzte
Phonem in dem vorgelagerten Laut und das erste Phonem in
dem nachgelagerten Laut vollständig überlappen.
Grundsätzlich ist festzustellen, daß DE 689 15 353 T2 eine
Verbesserung der Tonqualität erreichen will indem eine Vor
gehensweise angegeben wird, wie der Übergang zwischen zwei
benachbarten Abtastwerten zu gestalten ist. Dies ist ins
besondere bei niedrigen Abtastraten relevant.
Bei der in diesem Dokument beschriebenen Sprachsynthese
werden Wellenformen verwendet, die zu konkatenierende Laute
wiedergeben. Bei Wellenformen für vorgelagerte Laute wird
jeweils ein entsprechender Endabtastwert und ein zugeordne
ter Nulldurchgangspunkt bestimmt, während bei Wellenformen
für nachgelagerte Laute jeweils ein erster oberer Abtast
wert und ein zugeordneter Nulldurchgangspunkt bestimmt
wird. In Abhängigkeit dieser bestimmten Abtastwerte und der
zugeordneten Nulldurchgangspunkte werden Laute auf maximal
vier verschiedene Arten miteinander verbunden. Die Anzahl
der Verbindungsarten wird auf zwei reduziert, wenn die Wel
lenformen unter Verwendung des Nyquist-Theorems erzeugt
werden. In DE 689 15 353 T2 ist beschrieben, daß sich der
verwendete Bereich der Wellenformen zwischen dem letzten
Abtastwert der vorgelagerten Wellenform und dem ersten Ab
tastwert der nachgelagerten Wellenform erstreckt. Eine Va
riation der Dauer der verwendeten Bereiche in Abhängigkeit
der zu konkatenierenden Wellenformen, wie dies bei der Er
findung der Fall ist, ist in D1 nicht beschrieben.
Zusammenfassend ist zu sagen, daß es der Stand der Technik
zwar erlaubt, beliebige Phonemfolgen zu synthetisieren,
aber die so synthetisierten Phonemfolgen haben keine au
thentische Sprachqualität. Eine synthetisierte Phonemfolge
hat eine authentische Sprachqualität, wenn sie von der
gleichen Phonemfolge, die von einem realen Sprecher gespro
chen wurde, durch einen Hörer nicht unterschieden werden
kann.
Es sind auch Verfahren bekannt, die ein Inventar benutzen,
das vollständige Worte und/oder Sätze in authentischer
Sprachqualität als Inventarelemente enthält. Diese Elemente
werden zur Sprachsynthese in einer gewünschten Reihenfolge
hintereinander gesetzt, wobei die Möglichkeiten unter
schiedliche Sprachsequenzen in hohem Maße von dem Umfang
eines solchen Inventars limitiert werden. Die Synthese be
liebiger Phonemfolgen ist mit diesen Verfahren nicht mög
lich.
Daher ist es eine Aufgabe der vorliegenden Erfindung ein
Verfahren und eine entsprechende Vorrichtung zur Verfügung
zu stellen, die die Probleme des Standes der Technik besei
tigen und die Erzeugung synthetisierter akustischer Daten,
insbesondere synthetisierter Sprachdaten, ermöglichen, die
sich für einen Hörer nicht von entsprechenden natürlichen
akustischen Daten, insbesondere natürlich gesprochener
Sprache, unterscheiden. Die mit der Erfindung synthetisier
ten akustischen Daten, insbesondere synthetisierte Sprach
daten sollen eine authentische akustische Qualität, insbe
sondere eine authentische Sprachqualität aufweisen.
Zu Lösung dieser Aufgabe sieht die Erfindung ein Verfahren
gemäß Anspruch 1 und eine Vorrichtung gemäß Anspruch 14
vor. So
mit ermöglicht es die Erfindung, synthetisierte akustische
Daten zu erzeugen, die aus einer Folge von Lauteinheiten
bestehen, indem bei der Konkatenation von Audiosegmenten
der Moment der Konkatenation zweier Audiosegmente in Abhän
gigkeit von Eigenschaften der zu verknüpfenden Audioseg
mente, insbesondere der die beiden Audiosegmente betref
fenden Koartikulationseffekte bestimmt. Auf diese Weise
wird eine Sprachqualität erreicht, die mit dem Stand der
Technik nicht erzielbar ist. Dabei ist die erforderliche
Rechenleistung nicht höher als beim Stand der Technik.
Um bei der Synthese akustischer Daten die Variationen nach
zubilden, die bei entsprechenden natürlichen akustischen
Daten zu finden sind, sieht die Erfindung eine unterschied
liche Auswahl der Audiosegmente sowie unterschiedliche Ar
ten der koartikulationsgerechten Konkatenation vor. So wird
ein höheres Maß an Natürlichkeit der synthetisierten aku
stischen Daten erzielt, wenn ein zeitlich nachgelagertes
Audiosegment, dessen Anfang eine statische Lauteinheit wie
dergibt, mit einem zeitlich vorgelagerten Audiosegment mit
tels eines Crossfades verbunden wird, bzw. wenn ein zeit
lich nachgelagertes Audiosegment, dessen Anfang eine dyna
mische Lauteinheit wiedergibt, mit einem zeitlich vorgela
gerten Audiosegment mittels eines Hardfades verbunden wird.
Des weiteren ist es vorteilhaft den Anfang der zu erzeugen
den synthetisierten akustischen Daten unter Verwendung ei
nes den Anfang wiedergebenden Audiosegments bzw. das Ende
der zu erzeugenden synthetisierten akustischen Daten unter
Verwendung eines das Ende wiedergebenden Audiosegments zu
erzeugen.
Um die Erzeugung der synthetisierten akustischen Daten ein
facher und schneller durchzuführen, ermöglicht es die Er
findung die Zahl der zur Datensynthetisierung notwendigen
Audiosegmente zu reduzieren, indem Audiosegmente verwendet
werden, die immer mit einer dynamischen Lauteinheit begin
nen, wodurch alle Konkatenationen dieser Audiosegmente mit
tels eines Hardfades durchgeführt werden können. Hierfür
werden zeitlich nachgelagerte Audiosegmente mit zeitlich
vorgelagerten Audiosegmenten verbunden, deren Anfänge je
weils eine dynamische Lauteinheit wiedergeben. Auf diese
Weise können auch mit geringer Rechenleistung (z. B. bei An
rufbeantwortern oder Autoleitsystemen) erfindungsgemäß syn
thetisierte akustische Daten hoher Qualität erzeugt werden.
Des weiteren sinkt der zur Speicherung des Inventars not
wendige Speicherbedarf.
Außerdem sieht die Erfindung vor, akustische Phänomene
nachzubilden, die sich aufgrund einer gegenseitigen Beein
flussung einzelner Segmente entsprechender natürlicher aku
stischer Daten ergeben. Insbesondere ist hier vorgesehen,
einzelne Audiosegmente bzw. einzelne Bereiche der Audioseg
mente in ihrer Frequenz, Dauer und Amplitude(n) zu variie
ren. Werden mit der Erfindung synthetisierte Sprachdaten
erzeugt, so werden zur Lösung dieser Aufgabe vorzugsweise
prosodische Informationen und/oder übergeordnete Koartiku
lationseffekte berücksichtigt.
Der Signalverlauf von synthetisierten akustischen Daten
kann zusätzlich verbessert werden, wenn der Konkatenations
moment an Nullstellen der einzelnen zu verknüpfenden Audio
segmente gelegt wird.
Darüber hinaus ermöglicht es Erfindung, die Auswahl der Au
diosegmente zur Erzeugung der synthetisierten akustischen
Daten zu verbessern sowie deren Konkatenation effizienter
zu gestalten, indem heuristisches Wissen verwendet wird,
das die Auswahl, Variation und Konkatenation der Audioseg
mente betrifft.
Um synthetisierte akustische Daten zu erzeugen, die Sprach
daten sind, die sich von entsprechenden natürlichen Sprach
daten nicht unterscheiden, werden vorzugsweise Audiosegmen
te genutzt werden, die Phone oder Polyphone wiedergeben.
Außerdem erlaubt die Erfindung die Nutzung der erzeugten
synthetisierten akustischen Daten, indem diese Daten in
akustische Signale und/oder Sprachsignale umwandelbar und/
oder auf einem Datenträger speicherbar sind.
Weitere Eigenschaften, Merkmale, Vorteile oder Abwandlungen der
Erfindung werden anhand der nachfolgenden Beschreibung erläu
tert. Dabei zeigt:
Fig. 1a: Schematische Darstellung einer
erfindungsgemäßen Vorrichtung zur Erzeugung
synthetisierter akustischer Daten;
Fig. 1b: Struktur eines Phons;
Fig. 2a: Struktur eines herkömmlichen Audiosegmentes
nach dem Stand der Technik;
Fig. 2b: Struktur eines Audiosegmentes,
das ein Phon mit nachgelagerten Koartikulations
bereichen wiedergibt;
Fig. 2c: Struktur eines Audiosegmentes,
das ein Phon mit vorgelagerten Koartikulations
bereichen wiedergibt;
Fig. 2d: Struktur eines Audiosegmentes,
das ein Phon mit nachgelagerten Koartikulations
bereichen wiedergibt und eventuell vom Konka
tenationsverfahren (z. B. Crossfade) benötigte
zusätzliche Bereiche enthält;
Fig. 2e: Struktur eines Audiosegmentes,
das ein Phon mit vorgelagerten Koartikulations
bereichen wiedergibt und eventuell vom Konka
tenationsverfahren (z. B. Crossfade) benötigte
zusätzliche Bereiche enthält;
Fig. 2f: Strukturen eines Audiosegmentes,
das ein Polyphon mit jeweils nachgelagerten Ko
artikualtionsbereichen wiedergeben;
Fig. 2g: Struktur eines Audiosegmentes,
das ein Polyphon mit jeweils vorgelagerten Koar
tikualtionsbereichen wiedergibt;
Fig. 2h: Struktur eines Audiosegmentes,
das ein Polyphon mit jeweils nachgelagerten Ko
artikualtionsbereichen wiedergibt und eventuell
vom Konkatenationsverfahren (z. B. Crossfade) be
nötigte zusätzliche Bereiche enthält;
Fig. 2i: Struktur eines Audiosegmentes,
das ein Polyphon mit jeweils vorgelagerten Koar
tikualtionsbereichen wiedergibt und eventuell
vom Konkatenationsverfahren (z. B. Crossfade) be
nötigte zusätzliche Bereiche enthält;
Fig. 2j: Strukturen von Audiosegmenten,
das einen Teil eines Phons oder Phone vom Anfang
einer Phonfolge wiedergeben;
Fig. 2k: Struktur eines Audiosegmentes,
das Phone vom Ende einer Phonfolge wiedergibt;
Fig. 3a: Konkatenation gemäß dem Stand der Technik am
Beispiel zweier Audiosegmente;
Fig. 3b: Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit nachgelagerten Koartikulationsbe
reichen enthalten, mittels eines Crossfades
(Fig. 3bI) und eines Hardfades (Fig. 3bII), wo
bei das erste Phon vom Anfang einer Lauteinhei
tenfolge stammt;
Fig. 3c: Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit nachgelagerten Koartikulationsbe
reichen enthalten, mittels eines Crossfades
(Fig. 3cI) und eines Hardfades (Fig. 3cII);
Fig. 3d: Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit vorgelagerten Koartikulationsberei
chen enthalten, mittels eines Crossfades (Fig.
3dI) und eines Hardfades (Fig. 3dII);
Fig. 3e: Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit nachgelagerten Koartikulationsbe
reichen enthalten, mittels eines Crossfades
(Fig. 3eI) und eines Hardfades (Fig. 3eII), wo
bei das erste Phon vom Ende einer Lauteinheiten
folge stammt; und
Fig. 4: Schematische Darstellung der Schritte eines
erfindungsgemäßen Verfahrens zur Erzeugung
synthetisierter akustischer Daten.
Die im folgenden benutzten Bezugszeichen beziehen sich auf die
Fig. 1 und die im folgenden für die verschiedenen Verfahrens
schritte benutzten Nummern beziehen sich auf die Fig. 4.
Um mit Hilfe der Erfindung beispielsweise einen Text in synthe
tisierte Sprache umzuwandeln, ist es notwendig in einem vorge
lagerten Schritt diesen Text in eine Folge von Phonemen unter
Verwendung bekannter Verfahren oder Vorrichtungen zu untertei
len. Vorzugsweise sind auch dem Text entsprechende prosodische
Informationen zu erzeugen. Die Phonemfolge sowie die prosodi
schen Informationen dienen als Eingabegrößen für das erfin
dungsgemäße Verfahren bzw. die erfindungsgemäße Vorrichtung.
Die zu synthetisierenden Phoneme werden einer Eingabeeinheit
101 der Vorrichtung 1 zur Erzeugung synthetisierter Sprachdaten
zugeführt und in einer ersten Speichereinheit 103 abgelegt
(siehe Fig. 1). Mit Hilfe einer Auswahleinrichtung 105 werden
aus einem Audiosegmente (Elemente) enthaltenden Inventar, das
in einer Datenbank 107 gespeichert ist, die Audiosegmente
ausgewählt, die Phone oder Teile von Phonen wiedergeben, die
den einzelnen eingegebenen Phonemen oder Teilen davon entspre
chen und in einer Reihenfolge, die der Reihenfolge der eingege
benen Phoneme entspricht, in einer zweiten Speichereinheit 104
gespeichert. Falls das Inventar Polyphone wiedergebende Audio
segmente enthält, so wählt die Auswahleinrichtung 105 vorzugs
weise die Audiosegmente aus, die die längsten Polyphone wieder
geben, die einer Folge von Phonemen aus der eingegebenen Pho
nemfolge entsprechen.
Stellt die Datenbank 107 ein Inventar mit Audiosegmenten unter
schiedlicher Arten zur Verfügung, so wählt die Auswahleinrich
tung 105 vorzugsweise die längsten Audiosegmente aus, die den
Phonemfolgen oder Teilen davon entsprechen, um die eingegebene
Phonemfolge und/oder eine Folge von Phonemen aus einer minima
len Anzahl von Audiosegmenten zu synthetisieren. Hierbei ist es
vorteilhaft, verkettete Phone als Inventarelemente zu verwen
den, die aus einem zeitlich vorgelagerten statischen Phon und
einem zeitlich nachgelagerten dynamischen Phon bestehen. So
entstehen Inventarelemente, die aufgrund der Einbettung der
dynamischen Phone immer mit einem statischen Phon beginnen.
Dadurch vereinfacht und vereinheitlicht sich das Vorgehen bei
Konkatenationen solcher Inventarelemente, da hierfür nur Cross
fades benötigt werden.
Um eine koartikulationsgerechte Konkatenation der zu verketten
den Audiosegmente zu erzielen, werden mit Hilfe einer Konka
tenationseinrichtung 111 die Konkatenationsmomente zweier
aufeinanderfolgender Audiosegmente wie folgt festgelegt:
- - Soll ein Audiosegment zu Synthetisierung des Anfanges der eingegebenen Phonemfolge (Schritt 1) verwendet werden, so ist aus dem Inventar ein Audiosegment zu wählen, das einen Wortan fang wiedergibt und mit einem zeitlich nachgelagerten Audioseg ment zu verketten (siehe Fig. 3b und Schritt 3 in Fig. 4).
- - Bei der Konkatenation eines zweiten Audiosegmentes an ein zeitlich vorgelagertes erstes Audiosegment ist zu unterschei den, ob das zweite Audiosegment mit einem statischen Phon oder einem dynamischen Phon beginnt, um die Wahl des Momentes der Konkatenation entsprechend zu treffen (Schritt 6).
- - Beginnt das zweite Audiosegment mit einem statischen Phon, wird die Konkatenation in Form eines Crossfades durchgeführt, wobei der Moment der Konkatenation im zeitlich hinteren Bereich des ersten Audiosegmentes und im zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird, wodurch sich diese beiden Bereiche bei der Konkatenation überlappen oder wenigstens unmittelbar aneinandergrenzen (siehe Fig. 3c und 3d, Konka tenation mittels Crossfade).
- - Beginnt das zweite Audiosegment mit einem dynamischen Phon, wird die Konkatenation in Form eines Hardfades durchgeführt, wobei der Moment der Konkatenation zeitlich unmittelbar hinter der zeitlich hinteren Bereich des ersten Audiosegmentes und zeitlich unmittelbar vor dem zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird (siehe Fig. 3c und 3d, Konkatenation mittels Hardfade).
Auf diese Weise können aus diesen ursprünglich verfügbaren
Audiosegmenten, die Phone oder Polyphone wiedergeben, neue
Polyphone wiedergebende Audiosegmente erzeugt werden, die mit
einem statischen Phon beginnen. Dies erreicht man, indem Audio
segmente, die mit einem dynamischen Phon beginnen, zeitlich
nachgelagert mit Audiosegmenten, die mit einem statischen Phon
beginnen, verkettet werden. Dies vergrößert zwar die Zahl der
Audiosegmente bzw. den Umfang des Inventars, kann aber bei der
Erzeugung synthetisierter Sprachdaten einen rechentechnischen
Vorteil darstellen, da weniger einzelne Konkatenationen zur
Erzeugung einer Phonemfolge erforderliche sind und Konkate
nationen nur noch in Form eines Crossfades durchgeführt werden
müssen. Vorzugsweise werden die so erzeugten neuen verketteten
Audiosegmente der Datenbank 107 oder einer anderen Speicherein
heit 113 zugeführt.
Ein weiterer Vorteil dieser Verkettung der ursprüngliche Audio
segmente zu neuen längeren Audiosegmenten ergibt sich, wenn
sich beispielsweise eine Folge von Phonemen in der eingegebenen
Phonemfolge häufig wiederholt. Dann kann auf eines der neuen
entsprechend verketteten Audiosegmente zurückgegriffen werden
und es ist nicht notwendig, bei jedem Auftreten dieser Folge
von Phonemen eine erneute Konkatenation der ursprünglich vor
handenen Audiosegmente durchzuführen. Vorzugsweise sind bei der
Speicherung solcher verketteten Audiosegmente auch übergreifen
de Koartikulationseffekte zu erfassen bzw. spezifische Koarti
kulationseffekte in Form zusätzlicher Daten dem gespeicherten
verketteten Audiosegment zuzuordnen.
Soll ein Audiosegment zu Synthetisierung des Endes der eingege
benen Phonemfolge verwendet werden, so ist aus dem Inventar ein
Audiosegment zu wählen, das ein Wortende wiedergibt und mit
einem zeitlich vorgelagertes Audiosegment zu verketten (siehe
Fig. 3e und Schritt 8 in Fig. 4).
Die einzelnen Audiosegmente werden in der Datenbank 107 kodiert
gespeichert, wobei die kodierte Form der Audiosegmente neben
der Wellenform des jeweiligen Audiosegmentes angibt, welche(s)
Phon(e) das jeweilige Audiosegment wiedergibt, welche Art der
Konkatenation (z. B. Hardfade, linearer oder exponentieller
Crossfade) mit welchem zeitlich nachfolgenden Audiosegment
durchzuführen ist und zu welchem Moment die Konkatenation mit
welchem zeitlich nachfolgenden Audiosegment stattfindet. Vor
zugsweise enthält die kodierte Form der Audiosegmente auch
Informationen bezüglich der Prosodie und übergeordneten Koarti
kulationen, die bei einer Synthetisierung der gesamten vom
Sprecher aufgenommene Phonemfolge und/oder Folgen von Phonem
verwendet werden, um eine zusätzliche Verbesserung der Sprach
qualität zu erzielen.
Bei der Wahl der Audiosegmente zur Synthetisierung der eingege
benen Phonemfolge werden als zeitlich nachgelagerte Audioseg
mente solche gewählt, die den Eigenschaften der jeweils
zeitlich vorgelagerten Audiosegmente, d. h. Konkatenationsart
und Konkatenationsmoment, entsprechen. Nachdem die der Phonem
folge entsprechenden Audiosegmente aus der Datenbank 107 ge
wählt wurden, erfolgt die Verkettung zweier aufeinanderfol
gender Audiosegmente mit Hilfe der Konkatenationseinrichtung
111 folgendermaßen. Es wird die Wellenform, die Konkatenations
art und der Konkatenationsmoment des ersten Audiosegmentes und
des zweiten Audiosegmentes aus der Datenbank (Fig. 3a und
Schritt 10 und 11) geladen. Vorzugsweise werden bei der oben
erwähnten Wahl der Audiosegmente solche Audiosegmente gewählt,
die hinsichtlich ihrer Konkatenationsart und ihres Konkatenati
onsmoment zu einander passen. In diesem Fall ist das Laden der
Informationen bezüglich der Konkatenationsart und des Konka
tenationsmomentes des zweiten Audiosegmentes ist nicht mehr
notwendig.
Zur Konkatenation der beiden Audiosegmente werden die Wellen
form des ersten Audiosegmentes in einem zeitlich hinteren
Bereich und die Wellenform des zweiten Audiosegmentes in einem
zeitlich vorderen Bereich jeweils mit einer geeigneten Gewich
tungsfunktion multipliziert (siehe Fig. 3a, Schritt 12 und
13). Die Längen des zeitlich hinteren Bereiches des ersten
Audiosegmentes und des zeitlich vorderen Bereiches des zweiten
Audiosegmentes ergeben sich aus der Konkatenationsart und
zeitlichen Lage des Konkatenationsmomentes, wobei diese Längen
auch in der kodierten Form der Audiosegmente in der Datenbank
gespeichert werden können.
Sind die beiden Audiosegmente mit einem Crossfade zu verketten,
werden diese entsprechend dem jeweiligen Konkatenationsmoment
überlappend addiert (siehe Fig. 3c und 3d, Schritt 15).
Vorzugsweise ist hierbei ein linearer symmetrischer Crossfade
zu verwenden, es kann aber auch jede andere Art eines Crossfa
des eingesetzt werden. Ist eine Konkatenation in Form eines
Hardfades durchzuführen, werden die beiden Audiosegmente nicht
überlappend hintereinander verbunden (siehe Fig. 3c und 3d,
Schritt 15). Wie in Fig. 3d zu sehen ist, werden hierbei die
beiden Audiosegmente zeitlich unmittelbar hintereinander ange
ordnet. Um die so erzeugten synthetisierten Sprachdaten weiter
verarbeiten zu können, werden diese vorzugsweise in einer
dritten Speichereinheit 115 abgelegt.
Für die weitere Verkettung mit nachfolgenden Audiosegmenten
werden die bisher verketteten Audiosegmente als erstes Audio
segment betrachtet (Schritt 16) und der oben beschriebenen
Verkettungsprozeß solange wiederholt, bis die gesamte Phonem
folge synthetisiert wurde.
Zur Verbesserung der Qualität der synthetisierten Sprachdaten
sind vorzugsweise auch die prosodischen Informationen, die
zusätzlich zu der Phonemfolge eingegeben werden, bei der Ver
kettung der Audiosegmente zu berücksichtigen. Mit Hilfe bekann
ter Verfahren kann die Frequenz, Dauer und Amplitude der
Audiosegmente vor und/oder nach deren Konkatenation so verän
dert werden, daß die synthetisierten Sprachdaten eine natürli
che Wort- und/oder Satzmelodie aufweisen (Schritte 14, 17 oder
18). Hierbei ist es zu bevorzugen, Konkatenationsmomente an
Nullstellen der Audiosegmente zu wählen.
Um die Übergänge zwischen zwei aufeinander folgenden Audioseg
menten zu optimieren, ist zusätzlich die Anpassung der Frequen
zen, Dauer und Gesamtamplituden sowie von Amplituden in
verschiedenen Frequenzbereichen der beiden Audiosegmente im
Bereich des Konkatenationsmomentes vorgesehen. Des weiteren
erlaubt es die Erfindung, auch übergeordnete akustische Phäno
mene einer realen Sprache, wie z. B. übergeordnete Koartikulati
onseffekte oder Sprachstil (u. a. Flüstern, Betonung,
Gesangsstimme oder Falsett) bei der Synthetisierung der Phonem
folgen zu berücksichtigen. Hierfür werden Informationen, die
solche übergeordnete Phänomene betreffen, zusätzlich in kodier
ter Form mit den entsprechenden Audiosegmenten gespeichert, um
so bei der Auswahl der Audiosegmente nur solche zu wählen, die
den übergeordneten Koartikulationseigenschaften der zeitlich
vor- und/oder nachgelagerten Audiosegmente entsprechen.
Die so erzeugten synthetisierten Sprachdaten haben vorzugsweise
eine Form, die es unter Verwendung einer Ausgabeeinheit 117
erlaubt, die Sprachdaten in akustische Sprachsignale umzuwan
deln und die Sprachdaten und/oder Sprachsignale auf einem
akustischen, optischen oder elektrischen Datenträger zu spei
chern (Schritt 19).
Mit dieser Erfindung ist es erstmals möglich synthetisierte
Sprachsignale durch eine koartikulationsgerechte Konkatenation
einzelner Audiosegmente zu erzeugen, da der Moment der Konka
tenation in Abhängigkeit der jeweils zu verkettenden Audioseg
mente gewählt wird. Auf diese Weise kann eine synthetisierte
Sprache erzeugt werden, die vom einer natürlichen Sprache nicht
mehr zu unterscheiden ist. Im Gegensatz zu bekannten Verfahren
oder Vorrichtungen werden die hier verwendeten Audiosegmente
nicht durch ein Einsprechen ganzer Worte erzeugt, um eine
authentische Sprachqualität zu gewährleisten. Daher ist es mit
dieser Erfindung möglich, synthetisierte Sprache beliebigen
Inhalts in der Qualität einer real gesprochenen Sprache zu
erzeugen.
Obwohl diese Erfindung am Beispiel der Sprachsynthese beschrie
ben wurde, ist die Erfindung nicht auf den Bereich der synthe
tisierten Sprache beschränkt, sondern kann zu Synthetisierung
beliebiger akustischer Daten verwendet werden. Daher ist diese
Erfindung auch für eine Erzeugung und/oder Bereitstellung von
synthetisierten Sprachdaten und/oder Sprachsignale für beliebi
ge Sprachen oder Dialekte sowie zur Synthese von Musik einsetz
bar.
Claims (27)
1. Verfahren zur koartikulationsgerechten Konkatenation von
Audiosegmenten, um synthetisierte akustische Daten zu erzeugen,
die eine Folge konkatenierter Lauteinheiten wiedergeben, mit
folgenden Schritten:
- - Auswahl von wenigstens zwei Audiosegmenten, die jeweils eine Lauteinheit oder einen Teil der Folge konkatenierter Lautein heiten wiedergeben, wobei jedes Audiosegment wenigstens einen Soloartikulationsbereich aufweist,
- - Festlegen eines zu verwendenden Teils eines zeitlich vorgela gerten Audiosegments,
- - Festlegen eines zu verwendenden Teils eines zeitlich nachge lagerten Audiosegments, der zeitlich unmittelbar vor dem zu verwendenden Teil des zeitlich nachgelagerten Audiosegments beginnt und mit dem zuerst verwendeten Soloartikulationsbereich des zeitlich nachgelagerten Audiosegments endet,
- - wobei die Dauer der zu verwendenden Teile in Abhängigkeit der vor- und nachgelagerten Audiosegmente bestimmt wird, und
- - Konkatenieren des festgelegten Teils des zeitlich vorgelager ten Audiosegments mit dem festgelegten Teils des zeitlich nachgelagerten Audiosegments, indem der Moment der Konkatenati on in Abhängigkeit von Eigenschaften des verwendeten Teiles des zeitlich nachgelagerten Audiosegments in dessen festgelegten Teil gelegt wird.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
- - der Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der Grenzen des zuerst zu verwendenden Soloartikulationsbereichs des zeitlich nachgelagerten Audioseg ments liegt, wenn dessen Anfang eine statische Lauteinheit wiedergibt, und
- - ein zeitlich hinterer Bereich des zu verwendenden Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Teiles des zeitlich nachgelagerten Audiosegments gewichtet und addiert werden (Crossfade), wobei die Länge eines Überlappungsbereichs der beiden Bereiche in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt wird.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß
- - der Moment der Konkatenation in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem zu verwendenden Teil des zeitlich nachgelagerten Audiosegments liegt, wenn dessen Anfang eine dynamische Lauteinheit wiedergibt, und
- - ein zeitlich hinterer Bereich des zu verwendenden Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des zu verwendenden Teiles des zeitlich nachgelagerten Audiosegments gewichtet und nicht überlappend verbunden werden (Hardfade).
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekenn
zeichnet, daß
für eine Lauteinheit oder einen Teil der Folge konkatenierter
Lauteinheiten am Anfang der konkatenierten Lauteinheitenfolge
ein Bereich eines Audiosegmentes ausgewählt wird, so daß der
Anfang des Bereiches die Eigenschaften des Anfangs der konka
tenierten Lauteinheitenfolge wiedergibt.
5. Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekenn
zeichnet, daß für eine Lauteinheit oder einen Teil der Folge
konkatenierter Lauteinheiten am Ende der konkatenierten
Lauteinheitenfolge ein Bereich eines Audiosegmentes ausgewählt
wird, so daß das Ende des Bereiches die Eigenschaften des Endes
der konkatenierten Lauteinheitenfolge wiedergibt.
6. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß
die zu synthetisierenden Sprachdaten in Gruppen zusammengefaßt
werden, die jeweils durch ein einzelnes Audiosegment beschrie
ben werden.
7. Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekenn
zeichnet, daß
für das zeitlich nachgelagerte Audiosegment ein Audiosegment
gewählt wird, das die größte Anzahl aufeinanderfolgender konka
tenierter Lauteinheiten der Lauteinheitenfolge wiedergibt, um
bei der Erzeugung der synthetisierten akustischen Daten die
kleinste Anzahl von Audiosegmenten zu verwenden.
8. Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekenn
zeichnet, daß
eine Variation der Frequenz, der Dauer und der Gesamtamplitude
der verwendeten Teile einzelner Audiosegmente sowie deren
Amplitude in verschiedenen Frequenzbereichen in Abhängigkeit
von akustischen Eigenschaften der konkatenierten Lauteinheiten
folge durchgeführt wird.
9. Verfahren nach einem der Ansprüche 1 bis 8, dadurch gekenn
zeichnet, daß
eine Variation der Frequenz, der Dauer und der Gesamtamplitude
der verwendeten Teile einzelner Audiosegmente sowie deren
Amplitude in verschiedenen Frequenzbereichen in einem Bereich
durchgeführt wird, in dem der Moment der Konkatenation liegt.
10. Verfahren nach einem der Ansprüche 1 bis 9, dadurch gekenn
zeichnet, daß
der Moment der Konkatenation bei einer Nullstelle in den zu
verwendenden Teilen des zeitlich vorgelagerten und/oder des
zeitlich nachgelagerten Audiosegments gelegt wird.
11. Verfahren nach einem der Ansprüche 1 bis 10, dadurch ge
kennzeichnet, daß
die Auswahl der verwendeten Teile einzelner Audiosegmente,
deren Variation sowie deren Konkatenation zusätzlich unter
Verwendung heuristischen Wissens durchgeführt wird, das durch
ein zusätzlich durchgeführtes heuristisches Verfahren gewonnen
wird.
12. Verfahren einem der Ansprüche 1 bis 11, dadurch gekenn
zeichnet, daß
- - die zu synthetisierenden akustischen Daten Sprachdaten, die Lauteinheiten Phone und/oder Polyphone sind,
- - die statischen Lauteinheiten Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfassen, und
- - die dynamischen Lauteinheiten Plosive, Affrikate, Glottal stops und geschlagenen Laute umfassen.
13. Verfahren nach einem der Ansprüche 1 bis 12, dadurch ge
kennzeichnet, daß
eine Umwandlung der synthetisierten akustischen Daten in aku
stische Signale und/oder Sprachsignale durchgeführt wird.
14. Vorrichtung (1) zur koartikulationsgerechten Konkatenation
von Audiosegmenten, um synthetisierte akustische Daten zu
erzeugen, die eine Folge konkatenierter Lauteinheiten wiederge
ben, mit:
- - einer Datenbank (107), in der Audiosegmente gespeichert sind, die jeweils eine Lauteinheit oder einen Teil der Folge konka tenierter Lauteinheiten wiedergeben,
- - einer Einrichtung (105) zur Auswahl von wenigstens zwei Audiosegmenten aus der Datenbank (107), und
- - einer Einrichtung (111) zur Konkatenation der Audiosegmente, dadurch gekennzeichnet, daß die Konkatenationseinrichtung (111) geeignet ist,
- - einen zu verwendenden Teils eines zeitlich vorgelagerten Audiosegments in einem Bereich an dessen Ende zu definieren,
- - einen zu verwendenden Teils eines zeitlich nachgelagerten Audiosegments in einem Bereich zu definieren, der mit dem zeitlich nachgelagerten Audiosegment beginnt und zeitlich nach einem in dem zeitlich nachgelagerten Audiosegment zuerst auf tretenden Soloartikulationsbereich endet,
- - die Dauer der verwendeten Bereiche in Abhängigkeit der vor- und nachgelagerten Audiosegmente zu bestimmen, und
- - den verwendeten Teil des zeitlich vorgelagerten Audiosegments mit dem verwendeten Teil des zeitlich nachgelagerten Audioseg ments durch Definition des Moment der Konkatenation in Abhän gigkeit von Eigenschaften des verwendeten Teiles des zeitlich nachgelagerten Audiosegments in einem Bereich zu konkatenieren, der zeitlich unmittelbar vor dem verwendeten Teil des zeitlich nachgelagerten Audiosegments beginnt und mit dem zuerst auftre tenden Soloartikulationsbereich des zeitlich nachgelagerten Audiosegments endet.
15. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß
die Konkatenationseinrichtung (111) umfaßt:
- - Einrichtungen zur Konkatenation des zeitlich vorgelagerten Audiosegments mit dem zeitlich nachgelagerten Audiosegment, dessen Anfang eine statische Lauteinheit wiedergibt, im Bereich der Grenzen des zuerst auftretetenden Soloartikulationsbereichs des verwendeten Teils des zeitlich nachgelagerten Audio segments,
- - Einrichtungen zur Gewichtung eines zeitlich hinteren Berei ches des verwendeten Teils des zeitlich vorgelagerten Audio segments und eines zeitlich vorderen Bereiches des verwendeten Teils des zeitlich nachgelagerten Audiosegments, und
- - Einrichtungen zur Addition der beiden Bereiche in einem von den zu konkatenierenden Audiosegmenten abhängenden Überlap pungsbereich.
16. Vorrichtung nach Anspruch 14, dadurch gekennzeichnet, daß
die Konkatenationseinrichtung (111) umfaßt:
- - Einrichtungen zur Konkatenation des zeitlich vorgelagerten Audiosegments mit dem zeitlich nachgelagerten Audiosegment, dessen Anfang eine dynamische Lauteinheit wiedergibt, zeitlich unmittelbar vor dem verwendeten Teil des zeitlich nachgelager ten Audiosegments,
- - Einrichtungen zur Gewichtung eines zeitlich hinteren Berei ches des verwendeten Teils des zeitlich vorgelagerten Audio segments und eines zeitlich vorderen Bereiches des verwendeten Teil des zeitlich nachgelagerten Audiosegments, und
- - Einrichtungen zur nicht überlappenden Verbindung der Audio segmente.
17. Vorrichtung nach einem der Ansprüche 14 bis 16, dadurch
gekennzeichnet, daß
die Datenbank (107) Audiosegmente enthält, deren Anfang eine
Lauteinheit oder einen Teil der konkatenierten Lauteinheitenfol
ge am Anfang der konkatenierten Lauteinheitenfolge wiedergibt.
18. Vorrichtung nach einem der Ansprüche 14 bis 17, dadurch
gekennzeichnet, daß
die Datenbank (107) Audiosegmente enthält, deren Ende eine
Lauteinheit oder einen Teil der konkatenierten Lauteinheiten
folge am Ende der konkatenierten Lauteinheitenfolge wiedergibt.
19. Vorrichtung nach einem der Ansprüche 14 bis 18, dadurch
gekennzeichnet, daß
die Datenbank (117) eine Gruppe von Audiosegmenten enthält,
deren Anfänge jeweils nur eine statische Lauteinheiten wieder
geben.
20. Vorrichtung nach einem der Ansprüche 14 bis 19, dadurch
gekennzeichnet, daß die Konkatenationseinrichtung (111) umfaßt:
- - Einrichtungen zur Erzeugung weiterer Audiosegmente durch Konkatenation von Audiosegmenten, deren Anfänge jeweils eine statische Lauteinheit wiedergeben, jeweils mit einem zeitlich nachgelagerten Audiosegment, dessen Anfang eine dynamische Lauteinheit wiedergibt, und
- - eine Einrichtung, die die weiteren Audiosegmente der Daten bank (107) oder der Auswahleinrichtung (105) zuführt.
21. Vorrichtung nach einem der Ansprüche 14 bis 20, dadurch
gekennzeichnet, daß
die Auswahleinrichtung (105) geeignet ist, bei der Auswahl der
Audiosegmente aus der Datenbank (107), die Audiosegmente auszu
wählen, die jeweils die meisten aufeinanderfolgenden konka
tenierten Lauteinheiten der konkatenierten Lauteinheitenfolge
wiedergeben.
22. Vorrichtung nach einem der Ansprüche 14 bis 21, dadurch
gekennzeichnet, daß
die Konkatenationseinrichtung (111) Einrichtungen zur Variation
der Frequenz, der Dauer und der Gesamtamplitude der verwendeten
Teile einzelner Audiosegmente sowie deren Amplitude in ver
schiedenen Frequenzbereichen in Abhängigkeit von Eigenschaften
der konkatenierten Lauteinheitenfolge aufweist.
23. Vorrichtung nach einem der Ansprüche 14 bis 22, dadurch
gekennzeichnet, daß
die Konkatenationseinrichtung (111) Einrichtungen zur Variation
der Frequenz, der Dauer und der Gesamtamplitude der verwendeten
Teile einzelner Audiosegmente sowie deren Amplitude in ver
schiedenen Frequenzbereichen in einem den Moment der Konkatena
tion umfassenden Bereich aufweist.
24. Vorrichtung nach einem der Ansprüche 14 bis 23, dadurch
gekennzeichnet, daß
die Konkatenationseinrichtung (111) Einrichtungen zur Auswahl
des Momentes der Konkatenation bei einer Nullstelle in den
verwendeten Teilen des zeitlich vorgelagerten und/oder des
zeitlich nachgelagerten Audiosegments aufweist.
25. Vorrichtung nach einem der Ansprüche 14 bis 24, dadurch
gekennzeichnet, daß
die Auswahleinrichtung (105) Einrichtungen zur Implementation
heuristischen Wissens umfaßt, das die Auswahl der einzelnen
Audiosegmente, deren Variation sowie die Konkatenation der
Audiosegmente betrifft.
26. Vorrichtung nach einem der Ansprüche 14 bis 25, dadurch
gekennzeichnet, daß
- - die Datenbank (107) Audiosegmente enthält, die jeweils wenig stens einen Teil eines Phons, ein Phon oder Polyphone wiederge ben, wobei eine statische Lauteinheit Vokale, Diphtonge, Liquide, Vibranten, Frikative und Nasale umfaßt und eine dynamische Lauteinheit Plosive, Affrikate, Glottalstops und geschlagene Laute umfaßt, und
- - die Konkatenationseinrichtung (111) geeignet ist, um durch Konkatenation von Audiosegmenten synthetisierte Sprachdaten zu erzeugen.
27. Vorrichtung nach einem der Ansprüche 14 bis 26, dadurch
gekennzeichnet, daß
Einrichtungen (117) zur Umwandlung der synthetisierten akusti
schen Daten in akustische Signale und/oder Sprachsignale vor
handen sind.
Priority Applications (9)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19861167A DE19861167A1 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
DE1998137661 DE19837661C2 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
AT99942891T ATE243876T1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
CA002340073A CA2340073A1 (en) | 1998-08-19 | 1999-08-19 | Method and device for the concatenation of audiosegments, taking into account coarticulation |
PCT/EP1999/006081 WO2000011647A1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
EP99942891A EP1105867B1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
DE59906115T DE59906115D1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
US09/763,149 US7047194B1 (en) | 1998-08-19 | 1999-08-19 | Method and device for co-articulated concatenation of audio segments |
AU56231/99A AU5623199A (en) | 1998-08-19 | 1999-08-19 | Method and device for the concatenation of audiosegments, taking into account coarticulation |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19861167A DE19861167A1 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
DE1998137661 DE19837661C2 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
Publications (2)
Publication Number | Publication Date |
---|---|
DE19837661A1 DE19837661A1 (de) | 2000-02-24 |
DE19837661C2 true DE19837661C2 (de) | 2000-10-05 |
Family
ID=26048268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1998137661 Expired - Lifetime DE19837661C2 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19837661C2 (de) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111145723B (zh) * | 2019-12-31 | 2023-11-17 | 广州酷狗计算机科技有限公司 | 转换音频的方法、装置、设备以及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
US5524172A (en) * | 1988-09-02 | 1996-06-04 | Represented By The Ministry Of Posts Telecommunications And Space Centre National D'etudes Des Telecommunicationss | Processing device for speech synthesis by addition of overlapping wave forms |
EP0813184A1 (de) * | 1996-06-10 | 1997-12-17 | Faculté Polytechnique de Mons | Verfahren zur Tonsynthese |
-
1998
- 1998-08-19 DE DE1998137661 patent/DE19837661C2/de not_active Expired - Lifetime
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5524172A (en) * | 1988-09-02 | 1996-06-04 | Represented By The Ministry Of Posts Telecommunications And Space Centre National D'etudes Des Telecommunicationss | Processing device for speech synthesis by addition of overlapping wave forms |
WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
EP0813184A1 (de) * | 1996-06-10 | 1997-12-17 | Faculté Polytechnique de Mons | Verfahren zur Tonsynthese |
Also Published As
Publication number | Publication date |
---|---|
DE19837661A1 (de) | 2000-02-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE69615832T2 (de) | Sprachsynthese mit wellenformen | |
DE69521955T2 (de) | Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen | |
DE69718284T2 (de) | Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz | |
DE60126575T2 (de) | Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens | |
DE2115258C3 (de) | Verfahren und Anordnung zur Sprachsynthese aus Darstellungen von individuell gesprochenen Wörtern | |
DE69719270T2 (de) | Sprachsynthese unter Verwendung von Hilfsinformationen | |
DE60035001T2 (de) | Sprachsynthese mit Prosodie-Mustern | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE69506037T2 (de) | Audioausgabeeinheit und Methode | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE2740520A1 (de) | Verfahren und anordnung zur synthese von sprache | |
EP1105867B1 (de) | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten | |
DE69231266T2 (de) | Verfahren und Gerät zur Manipulation der Dauer eines physikalischen Audiosignals und eine Darstellung eines solchen physikalischen Audiosignals enthaltendes Speichermedium | |
DE2920298A1 (de) | Binaere interpolatorschaltung fuer ein elektronisches musikinstrument | |
DE1965480A1 (de) | Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache | |
DE69722585T2 (de) | Synthese von wellenformen | |
DE69318209T2 (de) | Verfahren und Anordnung zur Sprachsynthese | |
DE69717933T2 (de) | Verfahren zur Änderung der Grundfrequenz einer V(okal)-K(onsonant)-V(okal) Phonemketten-Wellenform und Vorrichtung zur Klangsynthese aus einer Folge von VKV Phonemketten-Wellenformen | |
DE68915353T2 (de) | Einrichtung zur Sprachsynthese. | |
DE1811040C3 (de) | Anordnung zum Synthetisieren von Sprachsignalen | |
WO2001031434A2 (de) | Verfahren zum bestimmen des zeitlichen verlaufs einer grundfrequenz einer zu synthetisierenden sprachausgabe | |
DE19837661C2 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten | |
EP1110203B1 (de) | Vorrichtung und verfahren zur digitalen sprachbearbeitung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
AH | Division in |
Ref document number: 19861167 Country of ref document: DE |
|
AH | Division in |
Ref document number: 19861167 Country of ref document: DE |
|
D2 | Grant after examination | ||
8364 | No opposition during term of opposition | ||
8320 | Willingness to grant licences declared (paragraph 23) | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: BUSKIES, CHRISTOPH, 22769 HAMBURG, DE |
|
R085 | Willingness to licence withdrawn | ||
R085 | Willingness to licence withdrawn | ||
R085 | Willingness to licence withdrawn | ||
R085 | Willingness to licence withdrawn | ||
R071 | Expiry of right |