DE19861167A1 - Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten - Google Patents
Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter AudiodatenInfo
- Publication number
- DE19861167A1 DE19861167A1 DE19861167A DE19861167A DE19861167A1 DE 19861167 A1 DE19861167 A1 DE 19861167A1 DE 19861167 A DE19861167 A DE 19861167A DE 19861167 A DE19861167 A DE 19861167A DE 19861167 A1 DE19861167 A1 DE 19861167A1
- Authority
- DE
- Germany
- Prior art keywords
- audio
- audio segment
- audio segments
- concatenation
- segments
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title abstract description 37
- 238000004590 computer program Methods 0.000 claims abstract description 15
- 238000011144 upstream manufacturing Methods 0.000 claims description 31
- 230000003068 static effect Effects 0.000 claims description 18
- 239000007788 liquid Substances 0.000 claims description 4
- 238000013500 data storage Methods 0.000 claims description 2
- 230000003287 optical effect Effects 0.000 claims description 2
- 230000015572 biosynthetic process Effects 0.000 description 21
- 238000003786 synthesis reaction Methods 0.000 description 21
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000013459 approach Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- MQJKPEGWNLWLTK-UHFFFAOYSA-N Dapsone Chemical compound C1=CC(N)=CC=C1S(=O)(=O)C1=CC=C(N)C=C1 MQJKPEGWNLWLTK-UHFFFAOYSA-N 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 239000000969 carrier Substances 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 230000005574 cross-species transmission Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005304 joining Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
- 239000011269 tar Substances 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
- G10L13/07—Concatenation rules
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
- Telephone Function (AREA)
- Stereo-Broadcasting Methods (AREA)
- Circuits Of Receivers In General (AREA)
- Reverberation, Karaoke And Other Acoustics (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Photoreceptors In Electrophotography (AREA)
Abstract
Die Erfindung ermöglicht es, beliebige akustische Daten durch eine Konkatenation einzelner Audiosegmente zu synthetisieren, wobei die Momente, zu denen die jeweiligen Konkatenation zweier aufeinander folgender Audiosegmente erfolgt, in Abhängigkeit von Eigenschaften der Audiosegmente festgelegt werden. Auf diese Weise können synthetisierte akustische Daten erzeugt werden, die sich nach einer Umwandlung in akustische Signale nicht von entsprechenden natürlich erzeugten akustischen Signalen unterscheiden. Insbesondere erlaubt es die Erfindung, synthetisierte Sprachdaten unter Berücksichtigung koartikulatorischer Effekte durch Konkatenation einzelner Sprachsegmente zu erzeugen. Die so zur Verfügung gestellten Sprachdaten können in Sprachsignale umgewandelt werden, die von einer natürlich gesprochenen Sprache nicht zu unterscheiden sind.
Description
Die Erfindung betrifft synthetisierte Sprachsignale, die durch
die erfindungsgemäße koartikulationsgerechte Konkatenation von
Sprachsegmenten erzeugt wurden, sowie einen Datenträger, der
ein Computerprogramm zur erfindungsgemäßen Herstellung von
synthetisierten akustischen Daten, insbesondere synthetisierter
Sprache, enthält.
Zusätzlich betrifft die Erfindung einen Datenspeicher, der
Audiosegmente enthält, die zur erfindungsgemäßen koartikulati
onsgerechten Konkatenation geeignet sind, und einen Tonträger,
der erfindungsgemäß synthetisierte akustische Daten enthält.
Es ist zu betonen, daß sowohl der im folgenden dargestellte
Stand der Technik als auch die vorliegenden Erfindung den
gesamten Bereich der Synthese von akustischen Daten durch
Konkatenation einzelner, auf beliebige Art und Weise erhaltene
Audiosegmente betrifft. Aber um die Diskussion des Standes der
Technik sowie die Beschreibung der vorliegenden Erfindung zu
vereinfachen, beziehen sich die folgenden Ausführungen speziell
auf synthetisierte Sprachdaten durch Konkatenation einzelner
Sprachsegmente.
In den letzten Jahren hat sich im Bereich der Sprachsynthese
der datenbasierte Ansatz gegenüber dem regelbasierten Ansatz
durchgesetzt und ist in verschiedenen Verfahren und Systemen
zur Sprachsynthese zu finden. Obwohl der regelbasierte Ansatz
prinzipiell eine bessere Sprachsynthese ermöglicht, ist es für
dessen Umsetzung notwendig, das gesamte zur Spracherzeugung
notwendige Wissen explizit zu formulieren, d. h. die zu synthe
tisierende Sprache formal zu modellieren. Da die bekannten
Sprachmodellierungen Vereinfachung der zu synthetisierenden
Sprache aufweisen, ist die Sprachqualität der so erzeugten
Sprache nicht ausreichend.
Daher wird in zunehmenden Maße eine datenbasierte Sprachsynthe
se durchgeführt, bei der aus einer einzelne Sprachsegmente
aufweisenden Datenbasis entsprechende Segmente ausgewählt und
miteinander verknüpft (konkateniert) werden. Die Sprachqualität
hängt hierbei in erster Linie von der Zahl und Art der verfüg
baren Sprachsegmente ab, denn es kann nur Sprache synthetisiert
werden, die durch Sprachsegmente in der Datenbasis wiedergeben
ist. Um die Zahl der vorzusehenden Sprachsegmente zu minimieren
und dennoch eine synthetisierte Sprache hoher Qualität zu er
zeugen, sind verschieden Verfahren bekannt, die eine Verknüp
fung (Konkatenation) der Sprachsegmente nach komplexen Regeln
durchführen.
Unter Verwendung solcher Verfahren bzw. entsprechender Vorrich
tungen kann ein Inventar, d. h. eine die Sprachsegmente umfas
sende Datenbasis, verwendet werden, das vollständig und
handhabbar ist. Ein Inventar ist vollständig, wenn damit jede
Lautfolge der zu synthetisierenden Sprache erzeugt werden kann,
und ist handhabbar, wenn die Zahl und Art der Daten des Inven
tars mit den technisch verfügbaren Mitteln in einer gewünschten
Weise verarbeitet werden kann. Darüber hinaus muß ein solches
Verfahren gewährleisten, daß die Konkatenation der einzelnen
Inventarelemente eine synthetisierte Sprache erzeugt, die sich
von einer natürlich gesprochenen Sprache möglichst wenig unter
scheidet. Hierfür muß eine synthetisierte Sprache flüssig sein
und die gleichen artikulatorischen Effekte einer natürlichen
Sprache aufweisen. Hier kommen den sogenannten koartikulatori
schen Effekten, d. h. der gegenseitigen Beeinflussung von
Sprachlauten, eine besondere Bedeutung zu. Daher sollten die
Inventarelemente so beschaffen sein, das sie die Koartikulation
einzelner aufeinanderfolgender Sprachlaute berücksichtigen. Des
weiteren sollte ein Verfahren zu Konkatenation der Inventarele
mente, die Elemente unter Berücksichtigung der Koartikulation
einzelner aufeinanderfolgender Sprachlaute sowie der übergeord
neten Koartikulation mehrerer aufeinanderfolgender Sprachlaute,
auch über Wort- und Satzgrenzen hinweg, verketten.
Vor der Darstellung des Standes der Technik werden im folgenden
einige zum besseren Verständnis notwendige Begriffe aus dem
Bereich der Sprachsynthese erläutert:
- - Ein Phonem ist die kleinste formal beschreibbare Lauteinheit, wobei i. allg. die formale Beschreibung durch Lautschriftzei chen erfolgt.
- - Ein Phon ist die kleinste Lauteinheit, die in Form eines Audiosegmentes speicherbar ist, und stellt die akustische Realisierung eines Phonems dar. Die Phone werden in statische und dynamische Phone unterteilt.
- - Zu den statischen Phonen zählen Vokale, Diphtonge, Nasale, Laterale, Vibranten und Frikative.
- - Zu den dynamischen Phonen zählen Plosive, Affrikate, Glottal stops und geschlagene Laute.
- - Die Koartikulation bezeichnet das Phänomen, daß ein Phon
durch vorgelagerte und nachgelagerte Phone beeinflußt wird,
wobei die Koartikulation zwischen unmittelbar benachbarten
Phonen auftritt, aber sich auch über eine Folge mehrerer Phone
erstrecken kann (Beispielsweise bei einer Lippenrundung).
Daher kann ein Phon in drei Bereiche unterteilt werden (siehe auch Fig. 1b): - - Der Anfangs-Koartikulationsbereich umfaßt den Bereich vom Beginn des Phons bis zum Ende der Koartikulation aufgrund eines vorgelagerten Phons.
- - Der Solo-Artikulationsbereich, ist der Bereich des Phons, der nicht durch ein vor- oder nachgelagertes Phon beeinflußt ist.
- - Der End-Koartikulationsbereich umfaßt den Bereich vom Beginn der Koartikulation aufgrund eines nachgelagerten Phons bis zum Ende des Phons.
- - Ein Polyphon ist eine Folge von Phonen.
- - Die Elemente eines Inventars sind in kodierter Form gespei cherte Audiosegmente, die Phone, Teile von Phonen oder Polypho ne wiedergeben. Zur besseren Verständnis des möglichen Aufbau eines Elementarelementes sei hier auf die Fig. 2a, die ein herkömmliches Audiosegment zeigt, und die Fig. 2b-2l verwie sen, in denen erfindungsgemäße Audiosegmente gezeigt sind. Er gänzend ist zu erwähnen, daß Audiosegmente auch aus kleineren oder größeren Audiosegmenten gebildet werden können, die in dem Inventar oder einer Datenbank enthalten sind. Des weiteren können Audiosegmente auch in einer transformierten Form (z. B. einer fouriertransformierten Form) in dem Inventar oder einer Datenbank vorliegen.
- - Unter Konkatenation versteht man das Aneinanderfügen zweier Inventarelemente.
- - Der Konkatenationsmoment ist der Zeitpunkt, zu dem zwei Audiodaten aneinandergefügt werden.
Die Konkatenation kann auf verschiedene Arten erfolgen, z. B.
mit einem Crossfade oder einem Hardfade (siehe auch Fig. 3a-
3d):
- - Bei einem Crossfade werden ein zeitlich hinterer Bereich eines ersten Inventarelementes sowie ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, und danach werden diese beiden Bereiche überlappend so addiert, daß maximal der zeitliche kürzer der beiden Bereichen von dem zeitlich längeren der beiden Bereiche vollständig überlappt wird.
- - Bei einem Hardfade wird ein zeitlich hinterer Bereich eines ersten Inventarelementes und ein zeitlich vorderer Bereich eines zweiten Inventarelementes geeignet gewichtet, wobei diese beiden Inventarelemente so aneinandergefügt werden, daß sich der hintere Bereich des ersten Inventarelementes und der vorde re Bereich des zweiten Inventarelementes nicht überlappen.
Der Koartikulationsbereich macht sich vor allem dadurch bemerk
bar, daß eine Konkatenation darin mit Unstetigkeiten (z. B.
Spektralsprüngen) verbunden ist. Deswegen wird der Konkatenati
onsmoment vorzugsweise in der Umgebung der Grenze des Solo-
Artikulationsbereiches zum Koartikulationsbereich gewählt.
Im allgemeinen werden Inventarelemente durch die Aufnahme von
real gesprochener Sprache erzeugt. In Abhängigkeit des Trai
ningsgrades des inventaraufbauenden Sprechers, d. h. seiner
Fähigkeit die aufzunehmende Sprache zu kontrollieren (z. B. die
Tonhöhe der Sprache zu kontrollieren oder exakt auf einer
Tonhöhe zu sprechen), ist es möglich, gleiche oder ähnliche
Inventarelemente zu erzeugen, die verschobene Grenzen zwischen
den Solo-Artikulationsbereichen und Koartikulationsbereichen
haben. Dadurch ergeben sich wesentlich mehr Möglichkeiten, die
Konkatenationspunkte an verschiedenen Stellen zu plazieren. In
der Folge kann die Qualität einer zu synthetisierenden Sprache
deutlich verbessert werden.
Ergänzend sei zu erwähnen, daß streng genommen ein Hardfade
einen Grenzfall eines Crossfades darstellt, bei dem eine Über
lappung eines zeitlich hinteren Bereiches eines ersten Inventa
relementes und eines zeitlich vorderen Bereiches eines zweiten
Inventarelementes eine Länge Null hat. Dies erlaubt es in be
stimmten, z. B. äußerst zeitkritischen Anwendungen einen Cross
fade durch einen Hardfade zu ersetzen, wobei eine solche Vorge
hensweise genau abzuwägen ist, da diese zu deutlichen Quali
tätseinbußen bei der Konkatenation von Inventarelementen führt,
die eigentlich durch einen Crossfade zu konkatenieren sind.
- - Unter Prosodie versteht man die Veränderungen der Sprachfre quenz und des Sprachrhythmus, die bei gesprochenen Worten bzw. Sätzen auftreten. Die Berücksichtigung solcher prosodischer Informationen ist bei der Sprachsynthese notwendig, um eine natürliche Wort- bzw. Satzmelodie zu erzeugen.
Aus WO 95/30193 ist ein Verfahren und eine Vorrichtung zur
Umwandlung von Text in hörbare Sprachsignale unter Verwendung
eines neuronalen Netzwerkes bekannt. Hierfür wird der in Spra
che umzuwandelnde Text mit einer Konvertiereinheit in eine
Folge von Phonemen umgewandelt, wobei zusätzlich Informationen
über die syntaktischen Grenzen des Textes und die Betonung der
einzelnen syntaktischen Komponenten des Textes erzeugt werden.
Diese werden zusammen mit den Phonemen an eine Einrichtung
weitergeleitet, die regelbasiert die Dauer der Aussprache der
einzelnen Phoneme bestimmt. Ein Prozessor erzeugt aus jedem
einzelnen Phonem in Verbindung mit den entsprechenden syntakti
schen und zeitlichen Information eine geeignet Eingabe für das
neuronale Netzwerk, wobei diese Eingabe für das neuronale Netz
auch die entsprechenden prosodischen Informationen für die
gesamte Phonemfolge umfaßt. Das neuronale Netz wählt aus den
verfügbaren Audiosegmenten nun die aus, die die eingegebenen
Phoneme am besten wiedergeben, und verkettet diese Audiosegmen
te entsprechend. Bei dieser Verkettung werden die einzelnen
Audiosegmente in ihrer Dauer, Gesamtamplitude und Frequenz an
vor- und nachgelagerte Audiosegmente unter Berücksichtigung der
prosodischen Informationen der zu synthetisierenden Sprache
angepaßt und zeitlich aufeinanderfolgend miteinander verbunden.
Eine Veränderung einzelner Bereiche der Audiosegmente ist hier
nicht beschrieben.
Zur Erzeugung der für dieses Verfahren erforderlichen Audioseg
mente ist das neuronale Netzwerk zuerst zu trainieren, indem
natürlich gesprochene Sprache in Phone oder Phonfolgen unter
teilt wird und diesen Phonen oder Phonfolgen entsprechende
Phonem oder Phonemfolgen in Form von Audiosegmenten zugeordnet
werden. Da dieses Verfahren nur eine Veränderung von einzelnen
Audiosegmenten, aber keine Veränderung einzelner Bereiche eines
Audiosegmentes vorsieht, muß das neuronale Netzwerk mit mög
lichst vielen verschiedenen Phonen oder Phonfolgen trainiert
werden, um beliebige Texte in synthetisierte natürlich klingen
de Sprache umzuwandeln. Dies kann sich je nach Anwendungsfall
sehr aufwendig gestalten. Auf der anderen Seite kann ein unzu
reichender Trainingsprozeß des neuronalen Netzes die Qualität
der zu synthetisierenden Sprache negativ beeinflussen. Des
weiteren ist es bei dem hier beschriebene Verfahren nicht
möglich, den Konkatenationsmoment der einzelnen Audiosegmente
in Abhängigkeit vorgelagerter oder nachgelagerter Audiosegmente
zu bestimmen, um so eine koartikulationsgerechte Konkatenation
durchzuführen.
In US-5,524,172 ist eine Vorrichtung zur Erzeugung syntheti
sierter Sprache beschrieben, die das sogenannte Diphonverfahren
nutzt. Hier wird ein Text, der in synthetisierte Sprache umge
wandelt werden soll, in Phonemfolgen unterteilt, wobei jeder
Phonemfolge entsprechende prosodische Informationen zugeordnet
werden. Aus einer Datenbank, die Audiosegmente in Form von
Diphonen enthält, werden für jedes Phonem der Folge zwei das
Phonem wiedergebende Diphone ausgewählt und unter Berücksichti
gung der entsprechenden prosodischen Informationen konka
teniert. Bei der Konkatenation werden die beiden Diphone
jeweils mit Hilfe eines geeigneten Filters gewichtet und die
Dauer und Tonhöhe beider Diphone so verändert, daß bei der
Verkettung der Diphone eine synthetisierte Phonfolge erzeugt
wird, deren Dauer und Tonhöhe der Dauer und Tonhöhe der ge
wünschten Phonemfolge entspricht. Bei der Konkatenation werden
die einzelnen Diphone so addiert, daß sich ein zeitlich hinte
rer Bereich eines ersten Diphones und ein zeitlich vorderer
Bereich eines zweiten Diphones überlappen, wobei der Konkatena
tionsmoment generell im Bereich stationären Bereiche der ein
zelnen Diphone liegt (siehe Fig. 2a). Da eine Variation des
Konkatenationsmomentes unter Berücksichtigung der Koartikulati
on aufeinanderfolgender Audiosegmente (Diphone) hier nicht
vorgesehen ist, kann die Qualität (Natürlichkeit und Verständ
lichkeit) einer so synthetisierten Sprache negativ beeinflußt
werden.
Eine Weiterentwicklung des zuvor diskutierten Verfahrens ist in
EP-0,813,184 A1 zu finden. Auch hier wird ein in synthetisierte
Sprache umzuwandelnder Text in einzelne Phoneme oder Phonemfol
gen unterteilt und aus einer Datenbank entsprechende Audioseg
mente ausgewählt und konkateniert. Um eine Verbesserung der
synthetisierten Sprache zu erzielen, sind bei diesem Verfahren
zwei Ansätze, die sich vom bisher diskutierten Stand der Tech
nik unterscheiden, umgesetzt worden. Unter Verwendung eines
Glättungsfilters, der die tieferfrequenten harmonischen Fre
quenzanteile eines vorgelagerten und eines nachgelagerten
Audiosegments berücksichtigt, soll der Übergang von dem vorge
lagerten Audiosegment zu dem nachgelagerten Audiosegment opti
miert werden, indem ein zeitlich hinterer Bereich des
vorgelagerten Audiosegments und ein zeitlich vorderer Bereich
des nachgelagerten Audiosegments im Frequenzbereich aufeinander
abgestimmt werden. Des weiteren stellt die Datenbank Audioseg
mente zur Verfügung, die sich leicht unterscheiden, aber zur
Synthetisierung desselben Phonems geeignet sind. Auf diese
Weise soll die natürliche Variation der Sprache nachgebildet
werden, um eine höhere Qualität der synthetisierten Sprache zu
erreichen. Sowohl, die Verwendung des Glättungsfilter als auch
die Auswahl aus einer Menge unterschiedlicher Audiosegmente zur
Realisierung eines Phonems erfordert bei einer Umsetzung dieses
Verfahrenes eine hohe Rechenleistung der verwendeten Systemkom
ponenten. Außerdem steigt der Umfang der Datenbank aufgrund der
erhöhten Zahl der vorgesehenen Audiosegmente. Des weiteren ist
auch bei diesem Verfahren eine koartikulationsabhängige Wahl
des Konkatenationsmoments einzelner Audiosegmente nicht vorge
sehen, wodurch die Qualität der synthetisierten Sprache redu
ziert werden kann.
DE 693 18 209 T2 beschäftigt sich mit Formatsynthese. Gemäß
diesem Dokument werden zwei mehrstimmige Laute unter Verwendung
eines Interpolationsmechanismus miteinander verbunden, der auf
ein letztes Phonem eines vorgelagerten Lauts und auf ein erstes
Phonem eines nachgelagerten Lauts angewendet wird, wobei die
zwei Phoneme der beiden Laute gleich sind und bei den verbunde
nen Lauten zu einem Phonem überlagert werden. Bei der Überlage
rung werden die die zwei Phoneme beschreibenden Kurven jeweils
mit einer Gewichtungsfunktion gewichtet. Die Gewichtungsfunkti
on wird bei jedem Phonem in einem Bereich angewendet, der
unmittelbar nach dem Beginn des Phonems beginnt und unmittelbar
vor dem Ende des Phonems endet. Somit entsprechen bei der hier
beschriebenen Konkatenation von Lauten die verwendeten Bereiche
der Phoneme, die den Übergang zwischen den Lauten bilden, im
wesentlichen den jeweiligen gesamten Phonemen. Das heißt, daß
die zur Konkatenation verwendeten Teile der Phoneme stets alle
drei Bereiche, nämlich den jeweiligen Anfangskoartikulations
bereich, Soloartikulationsbereich und Endkoartikulationsbereich
umfassen. Mithin lehrt D1 eine Verfahrensweise wie die Übergän
ge zwischen zwei Lauten zu glätten sind.
Des weiteren wird gemäß diesem Dokument der Moment der Konka
tenation zweier Laute so festgelegt, daß sich das letzte Phonem
in dem vorgelagerten Laut und das erste Phonem in dem nachgela
gerten Laut vollständig überlappen.
Grundsätzlich ist festzustellen, daß DE 689 15 353 T2 eine
Verbesserung der Tonqualität erreichen will indem eine Vorge
hensweise angegeben wird, wie der Übergang zwischen zwei be
nachbarten Abtastwerten zu gestalten ist. Dies ist
insbesondere bei niedrigen Abtastraten relevant.
Bei der in diesem Dokument beschriebenen Sprachsynthese werden
Wellenformen verwendet, die zu konkatenierende Laute wiederge
ben. Bei Wellenformen für vorgelagerte Laute wird jeweils ein
entsprechender Endabtastwert und ein zugeordneter Nulldurch
gangspunkt bestimmt, während bei Wellenformen für nachgelagerte
Laute jeweils ein erster oberer Abtastwert und ein zugeordneter
Nulldurchgangspunkt bestimmt wird. In Abhängigkeit dieser
bestimmten Abtastwerte und der zugeordneten Nulldurchgangspunk
te werden Laute auf maximal vier verschiedene Arten miteinander
verbunden. Die Anzahl der Verbindungsarten wird auf zwei redu
ziert, wenn die Wellenformen unter Verwendung des Nyquist-Theo
rems erzeugt werden. In DE 689 15 353 T2 ist beschrieben, daß
sich der verwendete Bereich der Wellenformen zwischen dem
letzten Abtastwert der vorgelagerten Wellenform und dem ersten
Abtastwert der nachgelagerten Wellenform erstreckt. Eine Varia
tion der Dauer der verwendeten Bereiche in Abhängigkeit der zu
konkatenierenden Wellenformen, wie dies bei der Erfindung der
Fall ist, ist in D1 nicht beschrieben.
Zusammenfassend ist zu sagen, daß es der Stand der Technik zwar
erlaubt, beliebige Phonemfolgen zu synthetisieren, aber die so
synthetisierten Phonemfolgen haben keine authentische Sprach
qualität. Eine synthetisierte Phonemfolge hat eine authentische
Sprachqualität, wenn sie von der gleichen Phonemfolge, die von
einem realen Sprecher gesprochen wurde, durch einen Hörer nicht
unterschieden werden kann.
Es sind auch Verfahren bekannt, die ein Inventar benutzen, das
vollständige Worte und/oder Sätze in authentischer Sprachquali
tät als Inventarelemente enthält. Diese Elemente werden zur
Sprachsynthese in einer gewünschten Reihenfolge hintereinander
gesetzt, wobei die Möglichkeiten unterschiedliche Sprachsequen
zen in hohem Maße von dem Umfang eines solchen Inventars limi
tiert werden. Die Synthese beliebiger Phonemfolgen ist mit die
sen Verfahren nicht möglich.
Daher ist es eine Aufgabe der vorliegenden Erfindung ein Ver
fahren und eine entsprechende Vorrichtung zur Verfügung zu
stellen, die die Probleme des Standes der Technik beseitigen
und die Erzeugung synthetisierter akustischer Daten, insbeson
dere synthetisierter Sprachdaten, ermöglichen, die sich für
einen Hörer nicht von entsprechenden natürlichen akustischen
Daten, insbesondere natürlich gesprochener Sprache, unterschei
den. Die mit der Erfindung synthetisierten akustischen Daten,
insbesondere synthetisierte Sprachdaten sollen eine authenti
sche akustische Qualität, insbesondere eine authentische
Sprachqualität aufweisen.
Zur Lösung dieser Aufgabe sieht die Erfindung synthetisierte
Sprachsignale gemäß Anspruch 1, einen Datenträger gemäß An
spruch 12, einen Datenspeicher gemäß Anspruch 24, sowie einen
Tonträger gemäß Anspruch 33 vor. Somit ermöglicht es die Erfin
dung, synthetisierte akustische Daten zu erzeugen, die aus
einer Folge von Lauteinheiten bestehen, indem bei der Konka
tenation von Audiosegmenten der Moment der Konkatenation zweier
Audiosegmente in Abhängigkeit von Eigenschaften der zu verknüp
fenden Audiosegmente, insbesondere der die beiden Audiosegmente
betreffenden Koartikulationseffekte bestimmt. Auf diese Weise
wird eine Sprachqualität erreicht, die mit dem Stand der Tech
nik nicht erzielbar ist. Dabei ist die erforderliche Rechenlei
stung nicht höher als beim Stand der Technik.
Um bei der Synthese akustischer Daten die Variationen nachzu
bilden, die bei entsprechenden natürlichen akustischen Daten zu
finden sind, sieht die Erfindung eine unterschiedliche Auswahl
der Audiosegmente sowie unterschiedliche Arten der koartikula
tionsgerechten Konkatenation vor. So wird ein höheres Maß an
Natürlichkeit der synthetisierten akustischen Daten erzielt,
wenn ein zeitlich nachgelagertes Audiosegment, dessen Anfang
eine statische Lauteinheit wiedergibt, mit einem zeitlich
vorgelagerten Audiosegment mittels eines Crossfades verbunden
wird, bzw. wenn ein zeitlich nachgelagertes Audiosegment,
dessen Anfang eine dynamische Lauteinheit wiedergibt, mit einem
zeitlich vorgelagerten Audiosegment mittels eines Hardfades
verbunden wird. Des weiteren ist es vorteilhaft den Anfang der
zu erzeugenden synthetisierten akustischen Daten unter Verwen
dung eines den Anfang wiedergebenden Audiosegments bzw. das
Ende der zu erzeugenden synthetisierten akustischen Daten unter
Verwendung eines das Ende wiedergebenden Audiosegments zu
erzeugen.
Um die Erzeugung der synthetisierten akustischen Daten einfa
cher und schneller durchzuführen, ermöglicht es die Erfindung
die Zahl der zur Datensynthetisierung notwendigen Audiosegmente
zu reduzieren, indem Audiosegmente verwendet werden, die immer
mit einer dynamischen Lauteinheit beginnen, wodurch alle Konka
tenationen dieser Audiosegmente mittels eines Hardfades durch
geführt werden können. Hierfür werden zeitlich nachgelagerte
Audiosegmente mit zeitlich vorgelagerten Audiosegmenten verbun
den, deren Anfänge jeweils eine dynamische Lauteinheit wieder
geben. Auf diese Weise können auch mit geringer Rechenleistung
(z. B. bei Anrufbeantwortern oder Autoleitsystemen) erfindungs
gemäß synthetisierte akustische Daten hoher Qualität erzeugt
werden. Des weiteren sinkt der zur Speicherung des Inventars
notwendige Speicherbedarf.
Außerdem sieht die Erfindung vor, akustische Phänomene nach
zubilden, die sich aufgrund einer gegenseitigen Beeinflussung
einzelner Segmente entsprechender natürlicher akustischer Daten
ergeben. Insbesondere ist hier vorgesehen, einzelne Audioseg
mente bzw. einzelne Bereiche der Audiosegmente in ihrer Fre
quenz, Dauer und Amplitude(n) zu variieren. Werden mit der Er
findung synthetisierte Sprachdaten erzeugt, so werden zur
Lösung dieser Aufgabe vorzugsweise prosodische Informationen
und/oder übergeordnete Koartikulationseffekte berücksichtigt.
Der Signalverlauf von synthetisierten akustischen Daten kann
zusätzlich verbessert werden, wenn der Konkatenationsmoment an
Nullstellen der einzelnen zu verknüpfenden Audiosegmente gelegt
wird.
Darüber hinaus ermöglicht es Erfindung, die Auswahl der Audio
segmente zur Erzeugung der synthetisierten akustischen Daten zu
verbessern sowie deren Konkatenation effizienter zu gestalten,
indem heuristisches Wissen verwendet wird, das die Auswahl, Va
riation und Konkatenation der Audiosegmente betrifft.
Um synthetisierte akustische Daten zu erzeugen, die Sprachdaten
sind, die sich von entsprechenden natürlichen Sprachdaten nicht
unterscheiden, werden vorzugsweise Audiosegmente genutzt wer
den, die Phone oder Polyphone wiedergeben.
Außerdem erlaubt die Erfindung die Nutzung der erzeugten syn
thetisierten akustischen Daten, indem diese Daten in akustische
Signale und/oder Sprachsignale umwandelbar und/ oder auf einem
Datenträger speicherbar sind.
Des weiteren kann die Erfindung verwendet werden, um syntheti
sierte Sprachsignale zu Verfügung zu stellen, die sich von be
kannten synthetisierten Sprachsignalen dadurch unterscheiden,
daß sie sich in ihrer Natürlichkeit und Verständlichkeit nicht
von realer Sprache unterscheiden. Hierfür werden Audiosegmente
koartikulationsgerecht konkateniert, die jeweils Phone und/oder
Polyphone der zu synthetisierenden Sprache wiedergeben, indem
die zu verwendenden Teile der Audiosegmente sowie der Moment
der Konkatenation dieser Teile erfindungsgemäß wie in Anspruch
28 definiert bestimmt werden.
Eine zusätzliche Verbesserung der synthetisierten Sprache kann
erreicht werden, wenn ein zeitlich nachgelagertes Audiosegment,
dessen Anfang ein statisches Phon wiedergibt, mit einem zeit
lich vorgelagerten Audiosegment mittels eines Crossfades ver
bunden wird, bzw. wenn ein zeitlich nachgelagertes
Audiosegment, dessen Anfang ein dynamisches Phon wiedergibt,
mit einem zeitlich vorgelagerten Audiosegment mittels eines
Hardfades verbunden wird. Hierbei umfassen statische Phone
Vokale, Diphtonge, Liquide, Frikative, Vibranten und Nasale
bzw. dynamische Phone Plosive, Affrikate, Glottalstops und
geschlagene Laute.
Da sich die Anfangs- und Endbetonungen von Lauten bei natürli
cher Sprache von vergleichbaren, aber eingebetteten Lauten un
terscheiden ist es zu bevorzugen, entsprechend Audiosegmente zu
verwenden, deren Anfänge jeweils den Anfang bzw. deren Enden
jeweils das Ende von zu synthetisierender Sprache wiedergeben.
Besonders bei Erzeugung synthetisierter Sprache ist eine
schnelle und effiziente Vorgehensweise wünschenswert. Hierfür
ist es zu bevorzugen, erfindungsgemäße koartikualtionsgerechte
Konkatenationen immer mittels Hardfades durchzuführen, wobei
nur Audiosegmente verwendet werden, deren Anfänge jeweils immer
ein dynamisches Phon wiedergeben. Derartige Audiosegmente
können mit der Erfindung durch koartikulationsgerechte Konka
tenation entsprechender Audiosegmente zuvor erzeugt werden.
Des weiteren stellt die Erfindung Sprachsignale bereit, die
einen natürlichen Sprachfluß, Sprachmelodie und Sprachrhythmus
haben, indem Audiosegmente in Form von Phonen oder Phonfolgen
jeweils vor und/oder nach der Konkatenation in ihrer Gesamtheit
oder in einzelnen Bereichen in ihrer Frequenz, Dauer und Ampli
tude variiert werden. Besonders vorteilhaft ist es diese Varia
tion in Bereichen durchzuführen, in denen die entsprechenden
Momente der Konkatenationen liegen.
Ein zusätzlich verbesserter Signalverlauf kann erreicht werden,
wenn die Konkatenationsmomente an Nullstellen der zu verknüp
fenden Audiosegmente liegen.
Um eine einfache Nutzung und/oder Weiterverarbeitung der erfin
dungsgemäßen Sprachsignale durch bekannte Verfahren oder Vor
richtungen, z. B. einem CD-Abspielgerät, zu erlauben, ist es be
sonders zu bevorzugen, daß die Sprachsignale in akustische Si
gnale umwandelbar oder auf einem Datenträger speicherbar sind.
Um die Erfindung auch bei bekannten Vorrichtungen, z. B. einem
Personal Computer oder einem computergesteuerten Musikinstru
ment, anzuwenden, ist ein Datenträger vorgesehen, der ein
Computerprogramm enthält, der die Durchführung des erfindungs
gemäßen Verfahrens bzw. die Steuerung der erfindungsgemäßen
Vorrichtung sowie deren verschiedenen Ausführungsformen ermög
licht. Des weiteren erlaubt der erfindungsgemäße Datenträger
auch die Erzeugung von Sprachsignalen, die koartikulationsge
rechte Konkatenationen aufweisen.
Um ein Audiosegmente umfassendes Inventar zur Verfügung zu
stellen, mit dem synthetisierte akustische Daten, insbesondere
synthetisierte Sprachdaten, erzeugt werden können, die sich von
entsprechenden natürlichen akustischen Daten nicht unterschei
den, sieht die Erfindung einen Datenspeicher vor, der Audioseg
mente enthält, die geeignet sind, um erfindungsgemäß zu synthe
tisierten akustischen Daten konkateniert zu werden. Vorzugswei
se enthält ein solcher Datenträger Audiosegmente, zur Durchfüh
rung des erfindungsgemäßen Verfahrens, zur Anwendung bei der
erfindungsgemäßen Vorrichtung oder dem erfindungsgemäßen Daten
träger geeignet sind. Alternativ kann der Datenträger auch
erfindungsgemäße Sprachsignale umfassen.
Darüber hinaus ermöglicht es die Erfindung, erfindungsgemäße
synthetisierte akustische Daten, insbesondere synthetisierte
Sprachdaten, zur Verfügung zu stellen, die mit herkömmlichen
bekannten Vorrichtungen, beispielsweise einem Tonbandgerät oder
einer PC-Audiokarte, genutzt werden können. Hierfür ist ein
Tonträger vorgesehen, der Daten aufweist, die zumindest teil
weise mit dem erfindungsgemäßen Verfahren oder der erfindungs
gemäßen Vorrichtung bzw. unter Verwendung des erfindungsgemäßen
Datenträgers oder des erfindungsgemäßen Datenspeichers erzeugt
wurden. Der Tonträger kann auch Daten enthalten, die erfin
dungsgemäß koartikulationsgerecht konkatenierte Sprachsignale
sind.
Weitere Eigenschaften, Merkmale, Vorteile oder Abwandlungen der
Erfindung werden anhand der nachfolgenden Beschreibung erläu
tert. Dabei zeigt:
Fig. 1a: Schematische Darstellung einer
Vorrichtung zur Erzeugung erfindungsgemäßer
synthetisierter akustischer Daten;
Fig. 1b: Struktur eines Phons;
Fig. 2a: Struktur eines herkömmlichen Audiosegmentes
nach dem Stand der Technik;
Fig. 2b: Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Phon mit nachgelagerten Koartikualtions
bereichen wiedergibt;
Fig. 2c: Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Phon mit vorgelagerten Koartikualtions
bereichen wiedergibt;
Fig. 2d: Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Phon mit nachgelagerten Koartikualtions
bereichen wiedergibt und eventuell vom Konka
tenationsverfahren (z. B. Crossfade) benötigte
zusätzliche Bereiche enthält;
Fig. 2e: Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Phon mit vorgelagerten Koartikualtions
bereichen wiedergibt und eventuell vom Konka
tenationsverfahren (z. B. Crossfade) benötigte
zusätzliche Bereiche enthält;
Fig. 2f: Strukturen von erfindungsgemäßen Audiosegmenten,
das ein Polyphon mit jeweils nachgelagerten
Koartikualtionsbereichen wiedergeben;
Fig. 2g: Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Polyphon mit jeweils vorgelagerten Koar
tikualtionsbereichen wiedergibt;
Fig. 2h: Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Polyphon mit jeweils nachgelagerten
Koartikualtionsbereichen wiedergibt und eventu
ell vom Konkatenationsverfahren (z. B. Crossfade)
benötigte zusätzliche Bereiche enthält;
Fig. 2i: Struktur eines erfindungsgemäßen Audiosegmentes,
das ein Polyphon mit jeweils vorgelagerten Koar
tikualtionsbereichen wiedergibt und eventuell
vom Konkatenationsverfahren (z. B. Crossfade) be
nötigte zusätzliche Bereiche enthält;
Fig. 2j: Strukturen von erfindungsgemäßen Audiosegmenten,
das einen Teil eines Phons oder Phone vom Anfang
einer Phonfolge wiedergeben;
Fig. 2k: Struktur eines erfindungsgemäßen Audiosegmentes,
das Phone vom Ende einer Phonfolge wiedergibt;
Fig. 3a: Konkatenation gemäß dem Stand der Technik am
Beispiel zweier Audiosegmente;
Fig. 3b: Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit nachgelagerten Koartikulationsbe
reichen enthalten, mittels eines Crossfades
(Fig. 3bI) und eines Hardfades (Fig. 3bII), wo
bei das erste Phon vom Anfang einer Lauteinhei
tenfolge stammt;
Fig. 3c: Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit nachgelagerten Koartikulationsbe
reichen enthalten, mittels eines Crossfades
(Fig. 3cI) und eines Hardfades (Fig. 3cII);
Fig. 3d: Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit vorgelagerten Koartikulationsberei
chen enthalten, mittels eines Crossfades (Fig.
3dI) und eines Hardfades (Fig. 3dII);
Fig. 3e: Konkatenation gemäß dem erfindungsgemäßen Ver
fahren am Beispiel zweier Audiosegmente, die je
ein Phon mit nachgelagerten Koartikulationsbe
reichen enthalten, mittels eines Crossfades
(Fig. 3e1) und eines Hardfades (Fig. 3eII), wo
bei das erste Phon vom Ende einer Lauteinheiten
folge stammt; und
Fig. 4: Schematische Darstellung der Schritte eines
erfindungsgemäßen Verfahrens zur Erzeugung
synthetisierter akustischer Daten.
Die im folgenden benutzten Bezugszeichen beziehen sich auf die
Fig. 1 und die im folgenden für die verschiedenen Verfahrens
schritte benutzten Nummern beziehen sich auf die Fig. 4.
Um mit Hilfe der Erfindung beispielsweise einen Text in synthe
tisierte Sprache umzuwandeln, ist es notwendig in einem vorge
lagerten Schritt diesen Text in eine Folge von Phonemen unter
Verwendung bekannter Verfahren oder Vorrichtungen zu untertei
len. Vorzugsweise sind auch dem Text entsprechende prosodische
Informationen zu erzeugen. Die Phonemfolge sowie die prosodi
schen Informationen dienen als Eingabegrößen für das erfin
dungsgemäße Verfahren bzw. die erfindungsgemäße Vorrichtung.
Die zu synthetisierenden Phoneme werden einer Eingabeeinheit
101 der Vorrichtung 1 zur Erzeugung synthetisierter Sprachdaten
zugeführt und in einer ersten Speichereinheit 103 abgelegt
(siehe Fig. 1). Mit Hilfe einer Auswahleinrichtung 103 werden
aus einem Audiosegmente (Elemente) enthaltenden Inventar, das
in einer Datenbank 107 gespeichert ist, die Audiosegmente
ausgewählt, die Phone oder Teile von Phonen wiedergeben, die
den einzelnen eingegebenen Phonemen oder Teilen davon entspre
chen und in einer Reihenfolge, die der Reihenfolge der eingege
benen Phoneme entspricht, in einer zweiten Speichereinheit 104
gespeichert. Falls das Inventar Polyphone wiedergebende Audio
segmente enthält, so wählt die Auswahleinrichtung 103 vorzugs
weise die Audiosegmente aus, die die längsten Polyphone wieder
geben, die einer Folge von Phonemen aus der eingegebenen Pho
nemfolge entsprechen.
Stellt die Datenbank 107 ein Inventar mit Audiosegmenten unter
schiedlicher Arten zur Verfügung, so wählt die Auswahleinrich
tung 103 vorzugsweise die längsten Audiosegmente aus, die den
Phonemfolgen oder Teilen davon entsprechen, um die eingegebene
Phonemfolge und/oder eine Folge von Phonemen aus einer minima
len Anzahl von Audiosegmenten zu synthetisieren. Hierbei ist es
vorteilhaft, verkettete Phone als Inventarelemente zu verwen
den, die aus einem zeitlich vorgelagerten statischen Phon und
einem zeitlich nachgelagerten dynamischen Phon bestehen. So
entstehen Inventarelemente, die aufgrund der Einbettung der
dynamischen Phone immer mit einem statischen Phon beginnen.
Dadurch vereinfacht und vereinheitlicht sich das Vorgehen bei
Konkatenationen solcher Inventarelemente, da hierfür nur Cross
fades benötigt werden.
Um eine koartikulationsgerechte Konkatenation der zu verketten
den Audiosegmente zu erzielen, werden mit Hilfe einer Konka
tenationseinrichtung 111 die Konkatenationsmomente zweier
aufeinanderfolgender Audiosegmente wie folgt festgelegt:
- - Soll ein Audiosegment zu Synthetisierung des Anfanges der eingegebenen Phonemfolge (Schritt 1) verwendet werden, so ist aus dem Inventar ein Audiosegment zu wählen, das einen Wortan fang wiedergibt und mit einem zeitlich nachgelagerten Audioseg ment zu verketten (siehe Fig. 3b und Schritt 3 in Fig. 4).
- - Bei der Konkatenation eines zweiten Audiosegmentes an ein zeitlich vorgelagertes erstes Audiosegment ist zu unterschei den, ob das zweite Audiosegment mit einem statischen Phon oder einem dynamischen Phon beginnt, um die Wahl des Momentes der Konkatenation entsprechend zu treffen (Schritt 6).
- - Beginnt das zweite Audiosegment mit einem statischen Phon, wird die Konkatenation in Form eines Crossfades durchgeführt, wobei der Moment der Konkatenation im zeitlich hinteren Bereich des ersten Audiosegmentes und im zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird, wodurch sich diese beiden Bereiche bei der Konkatenation überlappen oder wenigstens unmittelbar aneinandergrenzen (siehe Fig. 3c und 3d, Konka tenation mittels Crossfade).
- - Beginnt das zweite Audiosegment mit einem dynamischen Phon, wird die Konkatenation in Form eines Hardfades durchgeführt, wobei der Moment der Konkatenation zeitlich unmittelbar hinter der zeitlich hinteren Bereich des ersten Audiosegmentes und zeitlich unmittelbar vor dem zeitlich vorderen Bereich des zweiten Audiosegmentes gelegt wird (siehe Fig. 3c und 3d, Konkatenation mittels Hardfade).
Auf diese Weise können aus diesen ursprünglich verfügbaren
Audiosegmenten, die Phone oder Polyphone wiedergeben, neue
Polyphone wiedergebende Audiosegmente erzeugt werden, die mit
einem statischen Phon beginnen. Dies erreicht man, indem Audio
segmente, die mit einem dynamischen Phon beginnen, zeitlich
nachgelagert mit Audiosegmenten, die mit einem statischen Phon
beginnen, verkettet werden. Dies vergrößert zwar die Zahl der
Audiosegmente bzw. den Umfang des Inventars, kann aber bei der
Erzeugung synthetisierter Sprachdaten einen rechentechnischen
Vorteil darstellen, da weniger einzelne Konkatenationen zur
Erzeugung einer Phonemfolge erforderliche sind und Konkate
nationen nur noch in Form eines Crossfades durchgeführt werden
müssen. Vorzugsweise werden die so erzeugten neuen verketteten
Audiosegmente der Datenbank 107 oder einer anderen Speicherein
heit 113 zugeführt.
Ein weiterer Vorteil dieser Verkettung der ursprüngliche Audio
segmente zu neuen längeren Audiosegmenten ergibt sich, wenn
sich beispielsweise eine Folge von Phonemen in der eingegebenen
Phonemfolge häufig wiederholt. Dann kann auf eines der neuen
entsprechend verketteten Audiosegmente zurückgegriffen werden
und es ist nicht notwendig, bei jedem Auftreten dieser Folge
von Phonemen eine erneute Konkatenation der ursprünglich vor
handenen Audiosegmente durchzuführen. Vorzugsweise sind bei der
Speicherung solcher verketteten Audiosegmente auch übergreifen
de Koartikulationseffekte zu erfassen bzw. spezifische Koarti
kulationseffekte in Form zusätzlicher Daten dem gespeicherten
verketteten Audiosegment zuzuordnen.
Soll ein Audiosegment zu Synthetisierung des Endes der eingege
benen Phonemfolge verwendet werden, so ist aus dem Inventar ein
Audiosegment zu wählen, das ein Wortende wiedergibt und mit
einem zeitlich vorgelagertes Audiossegment zu verketten (siehe
Fig. 3e und Schritt 8 in Fig. 4).
Die einzelnen Audiosegmente werden in der Datenbank 107 kodiert
gespeichert, wobei die kodierte Form der Audiosegmente neben
der Wellenform des jeweiligen Audiosegmentes angibt, welche(s)
Phon(e) das jeweilige Audiosegment wiedergibt, welche Art der
Konkatenation (z. B. Hardfade, linearer oder exponentieller
Crossfade) mit welchem zeitlich nachfolgenden Audiosegment
durchzuführen ist und zu welchem Moment die Konkatenation mit
welchem zeitlich nachfolgenden Audiosegment stattfindet. Vor
zugsweise enthält die kodierte Form der Audiosegmente auch
Informationen bezüglich der Prosodie und übergeordneten Koarti
kulationen, die bei einer Synthetisierung der gesamten vom
Sprecher aufgenommene Phonemfolge und/oder Folgen von Phonem
verwendet werden, um eine zusätzliche Verbesserung der Sprach
qualität zu erzielen.
Bei der Wahl der Audiosegmente zur Synthetisierung der eingege
benen Phonemfolge werden als zeitlich nachgelagerte Audioseg
mente solche gewählt, die den Eigenschaften der jeweils
zeitlich vorgelagerten Audiosegmente, d. h. Konkatenationsart
und Konkatenationsmoment, entsprechen. Nachdem die der Phonem
folge entsprechenden Audiosegmente aus der Datenbank 107 ge
wählt wurden, erfolgt die Verkettung zweier aufeinanderfol
gender Audiosegmente mit Hilfe der Konkatenationseinrichtung
111 folgendermaßen. Es wird die Wellenform, die Konkatenations
art und der Konkatenationsmoment des ersten Audiosegmentes und
des zweiten Audiosegmentes aus der Datenbank (Fig. 3a und
Schritt 10 und 11) geladen. Vorzugsweise werden bei der oben
erwähnten Wahl der Audiosegmente solche Audiosegmente gewählt,
die hinsichtlich ihrer Konkatenationsart und ihres Konkatenati
onsmoment zu einander passen. In diesem Fall ist das Laden der
Informationen bezüglich der Konkatenationsart und des Konka
tenationsmomentes des zweiten Audiosegmentes ist nicht mehr
notwendig.
Zur Konkatenation der beiden Audiosegmente werden die Wellen
form des ersten Audiosegmentes in einem zeitlich hinteren
Bereich und die Wellenform des zweiten Audiosegmentes in einem
zeitlich vorderen Bereich jeweils mit einer geeigneten Gewich
tungsfunktion multipliziert (siehe Fig. 3a, Schritt 12 und
13). Die Längen des zeitlich hinteren Bereiches des ersten
Audiosegmentes und des zeitlich vorderen Bereiches des zweiten
Audiosegmentes ergeben sich aus der Konkatenationsart und
zeitlichen Lage des Konkatenationsmomentes, wobei diese Längen
auch in der kodierten Form der Audiosegmente in der Datenbank
gespeichert werden können.
Sind die beiden Audiosegmente mit einem Crossfade zu verketten,
werden diese entsprechend dem jeweiligen Konkatenationsmoment
überlappend addiert (siehe Fig. 3c und 3d, Schritt 15).
Vorzugsweise ist hierbei ein linearer symmetrischer Crossfade
zu verwenden, es kann aber auch jede andere Art eines Crossfa
des eingesetzt werden. Ist eine Konkatenation in Form eines
Hardfades durchzuführen, werden die beiden Audiosegmente nicht
überlappend hintereinander verbunden (siehe Fig. 3c und 3d,
Schritt 15). Wie in Fig. 3d zu sehen ist, werden hierbei die
beiden Audiosegmente zeitlich unmittelbar hintereinander ange
ordnet. Um die so erzeugten synthetisierten Sprachdaten weiter
verarbeiten zu können, werden diese vorzugsweise in einer
dritten Speichereinheit 115 abgelegt.
Für die weitere Verkettung mit nachfolgenden Audiosegmenten
werden die bisher verketteten Audiosegmente als erstes Audio
segment betrachtet (Schritt 16) und der oben beschriebenen
Verkettungsprozeß solange wiederholt, bis die gesamte Phonem
folge synthetisiert wurde.
Zur Verbesserung der Qualität der synthetisierten Sprachdaten
sind vorzugsweise auch die prosodischen Informationen, die
zusätzlich zu der Phonemfolge eingegeben werden, bei der Ver
kettung der Audiosegmente zu berücksichtigen. Mit Hilfe bekann
ter Verfahren kann die Frequenz, Dauer und Amplitude der
Audiosegmente vor und/oder nach deren Konkatenation so verän
dert werden, daß die synthetisierten Sprachdaten eine natürli
che Wort- und/oder Satzmelodie aufweisen (Schritte 14, 17 oder
18). Hierbei ist es zu bevorzugen, Konkatenationsmomente an
Nullstellen der Audiosegmente zu wählen.
Um die Übergänge zwischen zwei aufeinander folgenden Audioseg
menten zu optimieren, ist zusätzlich die Anpassung der Frequen
zen, Dauer und Gesamtamplituden sowie von Amplituden in
verschiedenen Frequenzbereichen der beiden Audiosegmente im
Bereich des Konkatenationsmomentes vorgesehen. Des weiteren
erlaubt es die Erfindung, auch übergeordnete akustische Phäno
mene einer realen Sprache, wie z. B. übergeordnete Koartikulati
onseffekte oder Sprachstil (u. a. Flüstern, Betonung,
Gesangsstimme oder Falsett) bei der Synthetisierung der Phonem
folgen zu berücksichtigen. Hierfür werden Informationen, die
solche übergeordnete Phänomene betreffen, zusätzlich in kodier
ter Form mit den entsprechenden Audiosegmenten gespeichert, um
so bei der Auswahl der Audiosegmente nur solche zu wählen, die
den übergeordneten Koartikulationseigenschaften der zeitlich
vor- und/oder nachgelagerten Audiosegmente entsprechen.
Die so erzeugten synthetisierten Sprachdaten haben vorzugsweise
eine Form, die es unter Verwendung einer Ausgabeeinheit 117
erlaubt, die Sprachdaten in akustische Sprachsignale umzuwan
deln und die Sprachdaten und/oder Sprachsignale auf einem
akustischen, optischen oder elektrischen Datenträger zu spei
chern (Schritt 19).
Mit dieser Erfindung ist es erstmals möglich synthetisierte
Sprachsignale durch eine koartikulationsgerechte Konkatenation
einzelner Audiosegmente zu erzeugen, da der Moment der Konka
tenation in Abhängigkeit der jeweils zu verkettenden Audioseg-.
mente gewählt wird. Auf diese Weise kann eine synthetisierte
Sprache erzeugt werden, die von einer natürlichen Sprache nicht
mehr zu unterscheiden ist. Im Gegensatz zu bekannten Verfahren
oder Vorrichtungen werden die hier verwendeten Audiosegmente
nicht durch ein Einsprechen ganzer Worte erzeugt, um eine
authentische Sprachqualität zu gewährleisten. Daher ist es mit
dieser Erfindung möglich, synthetisierte Sprache beliebigen
Inhalts in der Qualität einer real gesprochenen Sprache zu
erzeugen.
Obwohl diese Erfindung am Beispiel der Sprachsynthese beschrie
ben wurde, ist die Erfindung nicht auf den Bereich der synthe
tisierten Sprache beschränkt, sondern kann zu Synthetisierung
beliebiger akustischer Daten verwendet werden. Daher ist diese
Erfindung auch für eine Erzeugung und/oder Bereitstellung von
synthetisierten Sprachdaten und/oder Sprachsignale für beliebi
ge Sprachen oder Dialekte sowie zur Synthese von Musik einsetz
bar.
Claims (34)
1. Synthetisierte Sprachsignale, die aus einer Folge von
Phonen und/oder Polyphonen bestehen, wobei die Sprachsignale
erzeugt werden, indem:
- - wenigstens zwei die Phone und/oder Polyphone wiedergebende Audiosegmente ausgewählt werden, und
- - die Audiosegmente durch eine koartikualtionsgerechte Konka tenation verkettet werden, wobei
- - ein zu verwendender Teil eines zeitlich vorgelagerten Audio segments festgelegt wird,
- - ein zu verwendender Teil eines zeitlich nachgelagerten Audio segments festgelegt wird, der zeitlich unmittelbar vor dem zu verwendenden Teil des zeitlich nachgelagerten Audiosegments beginnt und mit dem zuerst verwendeten Soloartikulationsbereich des zeitlich nachgelagerten Audosegments endet,
- - wobei die Dauer der zu verwendenden Teile in Abhängigkeit der Audiosegmente bestimmt wird, und
- - die verwendeten Teile der Audiosegmente koartikulationsge recht konkateniert werden, indem der Moment der Konkatenation in Abhängigkeit von Eigenschaften des verwendeten Teiles des zeitlich nachgelagerten Audiosegments in dessen festgelegten Teil gelegt wird.
2. Synthetisierte Sprachsignale nach Anspruch 1, dadurch
gekennzeichnet, daß die Sprachsignale erzeugt werden, indem
- - die Audiosegmente zu einem Moment konkateniert werden, der in der Umgebung der Grenzen des zuerst auftretenden Soloartikula tionsbereichs des verwendeten Teiles des zeitlich nachgelager ten Audiosegmentes liegt, wenn dessen Anfang mit einem statischen Phon beginnt, wobei ein statischer Phon ein Vokal, ein Diphtong, ein Liquid, ein Frikativ, ein Vibrant oder ein Nasal ist, und
- - ein zeitlich hinterer Bereich des verwendeten Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Teiles des zeitlich nachgelagerten Audiosegments gewichtet und beide Bereiche addiert werden (Crossfade), wobei die Länge eines Überlappungsbereichs in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt wird.
3. Synthetisierte Sprachsignale nach Anspruch 2, dadurch
gekennzeichnet, daß die Sprachsignale erzeugt werden, indem
- - die Audiosegmente zu einem Moment konkateniert werden, der zeitlich unmittelbar vor dem verwendeten Teil des zeitlich nachgelagerten Audiosegmentes liegt, wenn dessen Anfang mit einem dynamischen Phon beginnt, wobei ein dynamischer Phon ein Plosiv, ein Affrikat, ein Glottalstop oder ein geschlagener Laut ist, und
- - ein zeitlich hinterer Bereich des verwendeten Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Teiles des zeitlich nachgelagerten Audiosegments gewichtet werden und nicht überlappend verbunden werden (Hardfade).
4. Synthetisierte Sprachsignale nach einem der Ansprüche 1-3,
dadurch gekennzeichnet, daß das erste Phon oder Polyphon in der
Folge durch ein Audiosegment erzeugt wird, dessen Anfang die
Eigenschaften des Anfangs der Folge wiedergibt.
5. Synthetisierte Sprachsignale nach einem der Ansprüche 1-
4, dadurch gekennzeichnet, daß das letzte Phon oder Polyphon in
der Folge durch ein Audiosegment erzeugt wird, dessen Ende die
Eigenschaften des Endes der Folge wiedergibt.
6. Synthetisierte Sprachsignale nach einem der Ansprüche 1-5,
dadurch gekennzeichnet, daß die Sprachsignale erzeugt werden,
die mit einem dynamischen Phon beginnen, indem nachgelagerte
Audiosegmente mit vorgelagerten Audiosegmenten konkateniert
werden, deren Anfang ein statisches Phon wiedergibt.
7. Synthetisierte Sprachsignale nach einem der Ansprüche 1-6,
dadurch gekennzeichnet, daß die Audiosegmente ausgewählt wer
den, die die meisten Polyphone der Folge wiedergeben, um bei
der Erzeugung der Sprachsignale die minimale Anzahl von Audio
segmenten zu verwenden.
8. Synthetisierte Sprachsignale nach einem der Ansprüche 1-7,
dadurch gekennzeichnet, daß die Sprachsignale durch Konkatena
tion der verwendeten Teile von Audiosegmenten erzeugt werden,
deren Frequenz, Dauer und Gesamtamplitude sowie deren Amplitu
den in verschiedenen Frequenzbereichen in Abhängigkeit von
Eigenschaften der Folge von Phon und/oder Polyphonen variiert
werden.
9. Synthetisierte Sprachsignale nach einem der Ansprüche 1-8,
dadurch gekennzeichnet, daß die Sprachsignale durch Konkatena
tion von Audiosegmenten erzeugt werden, deren Frequenz, Dauer,
Gesamtamplitude und deren Amplituden in verschiedenen Frequenz
bereichen der jeweils verwendeten Teile der Audiosegmente in
einem Bereich variiert werden, in dem der Moment der Konkatena
tion liegt.
10. Synthetisierte Sprachsignale nach einem der Ansprüche 1-9,
dadurch gekennzeichnet, daß der Moment der Konkatenation bei
einer Nullstelle in den verwendeten Teilen des vorgelagerten
und/oder des nachgelagerten Audiosegmentes liegt.
11. Synthetisierte Sprachsignale nach einem der Ansprüche 1-
10, dadurch gekennzeichnet, daß die Sprachsignale geeignet
sind, in akustische Signale umgewandelt zu werden.
12. Datenträger, der ein Computerprogramm zur koartikulations
gerechten Konkatenation von Audiosegmenten enthält, um synthe
tisierte akustische Daten zu erzeugen, die eine Folge
konkatenierter Lauteinheiten wiedergeben, mit folgenden Schrit
ten:
- - Auswahl von wenigstens zwei Audiosegmenten, die jeweils eine Lauteinheit oder einen Teil der Folge konkatenierter Lautein heiten wiedergeben, wobei jedes Audiosegment wenigstens einen Soloartikulationsbereich aufweist, gekennzeichnet durch die Schritte:
- - Festlegen eines zu verwendenden Teils eines zeitlich vorgela gerten Audiosegments,
- - Festlegen eines zu verwendenden Teils eines zeitlich nachge lagerten Audiosegments, der zeitlich unmittelbar vor dem zu verwendenden Teil des zeitlich nachgelagerten Audiosegments beginnt und mit dem zuerst verwendeten Soloartikulationsbereich des zeitlich nachgelagerten Audiosegments endet,
- - wobei die Dauer der zu verwendenden Teile in Abhängigkeit der vor- und nachgelagerten Audiosegmente bestimmt wird, und
- - Konkatenieren des festgelegten Teils des zeitlich vorgelager ten Audiosegments mit dem festgelegten Teil des zeitlich nach gelagerten Audiosegments, indem der Moment der Konkatenation in Abhängigkeit von Eigenschaften des verwendeten Teiles des zeitlich nachgelagerten Audiosegments in dessen fesetgelegten Teil gelegt wird.
13. Datenträger nach Anspruch 12, dadurch gekennzeichnet, daß
das Computerprogramm den Moment der Konkatenation des zweiten
Audiosegmentes mit dem ersten Audiosegment so wählt, daß
- - der, Moment der Konkatenation in einen Bereich gelegt wird, der in der Umgebung der Grenzen des zuerst auftretenden Soloar tikulationsbereichs des zeitlich nachgelagerten Audiosegments liegt, wenn dessen Anfang eine statische Lauteinheit wieder gibt, und
- - ein zeitlich hinterer Bereich des verwendeten Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Teiles des zeitlich nachgelagerten Audiosegments gewichtet und addiert werden (Crossfade), wobei die Länge eines Überlappungsbereichs der beiden Bereiche in Abhängigkeit der zu konkatenierenden Audiosegmente bestimmt wird.
14. Datenträger nach Anspruch 12 dadurch gekennzeichnet, daß
das Computerprogramm den Moment der Konkatenation des zweiten
Audiosegmentes mit dem ersten Audiosegment so wählt, daß
- - der Moment der Konkatenation in einen Bereich gelegt wird, der zeitlich unmittelbar vor dem verwendeten Teil des zeitlich nachgelagerten Audiosegments liegt, wenn dessen Anfang eine dynamische Lauteinheit wiedergibt, und
- - ein zeitlich hinterer Bereich des verwendeten Teiles des zeitlich vorgelagerten Audiosegments und ein zeitlich vorderer Bereich des verwendeten Teiles des zeitlich nachgelagerten Audiosegments gewichtet und nicht überlappend verbunden werden (Hardfade).
15. Datenträger nach einem der Ansprüche 12-14, dadurch ge
kennzeichnet, daß das Computerprogramm für eine Lauteinheit
oder einen Teil der Folge konkatenierter Lauteinheiten am
Anfang der konkatenierten Lauteinheitenfolge ein Audiosegment
auswählt, dessen Anfang die Eigenschaften des Anfangs der
konkatenierten Lauteinheitenfolge wiedergibt.
16. Datenträger nach einem der Ansprüche 12-15, dadurch ge
kennzeichnet, daß das Computerprogramm für eine Lauteinheit
oder einen Teil der Folge konkatenierter Lauteinheiten am Ende
der konkatenierten Lauteinheitenfolge ein Audiosegment aus
wählt, dessen Ende die Eigenschaften des Endes der konkatenier
ten Lauteinheitenfolge wiedergibt.
17. Datenträger nach einem der Ansprüche 12-16, dadurch ge
kennzeichnet, daß das Computerprogramm eine Variation der
Frequenz, Dauer und Gesamtamplitude der verwendeten Teile
einzelner Audiosegmente und deren Amplituden in verschiedenen
Frequenzbereichen in Abhängigkeit von Eigenschaften der
Lauteinheitenfolge durchführt.
18. Datenträger nach einem der Ansprüche 12-17, dadurch ge
kennzeichnet, daß das Computerprogramm für das zeitliche nach
gelagerte Audiosegment ein Audiosegment wählt, das die größte
Anzahl aufeinanderfolgender konkatenierter Lauteinheiten der
Lauteinheitenfolge wiedergibt, um bei der Erzeugung der synthe
tisierten akustischen Daten die kleinste Anzahl von Audioseg
menten zu verwenden.
19. Datenträger nach einem der Ansprüche 12-18, dadurch ge
kennzeichnet, daß das Computerprogramm eine Variation der
Frequenz, Dauer und Gesamtamplitude der verwendeten Teile
einzelner Audiosegmente und deren Amplituden in verschiedenen
Frequenzbereichen in einem Bereich durchführt, in dem der
Moment der Konkatenation liegt.
20. Datenträger nach einem der Ansprüche 12-19, dadurch ge
kennzeichnet, daß Computerprogramm den Moment der Konkatenation
bei einer Nullstelle in den verwendeten Teilen des ersten
und/oder des zweiten Audiosegmentes festlegt.
21. Datenträger nach einem der Ansprüche 12-20, dadurch ge
kennzeichnet, daß das Computerprogramm eine Implementation von
heuristischem Wissen durchführt, das die Auswahl der einzelnen
Audiosegmente, deren Variation sowie die Konkatenation der
Audiosegmente betrifft.
22. Datenträger nach einem der Ansprüche 12-21, dadurch ge
kennzeichnet, daß das Computerprogramm zur Erzeugung syntheti
sierter Sprachdaten geeignet ist, wobei die Lauteinheiten Phone
sind, die statischen Lauteinheiten Vokale, Diphtonge, Liquide,
Vibranten, Frikative und Nasale und die dynamischen Lauteinhei
ten Plosive, Affrikate, Glottalstops und geschlagene Laute
umfassen.
23. Datenträger nach einem der Ansprüche 12-22, dadurch ge
kennzeichnet, daß das Computerprogramm die synthetisierten
akustischen Daten in akustische umwandelbare Daten und/oder
Sprachsignale umwandelt.
24. Akustischer, optischer oder elektrischer Datenspeicher,
der Audiosegmente enthält, die jeweils wenigstens einen Solo-
Artikualtionsbereich aufweisen, um durch eine Konkatenation von
verwendeten Teile der Audiosegmente unter Verwendung des Daten
trägers nach Anspruch 12 synthetisierte akustische Daten zu
erzeugen.
25. Datenspeicher nach Anspruch 24, dadurch gekennzeichnet,
daß eine Gruppe der Audiosegmente Phone oder Teile von Phonen
wiedergeben.
26. Datenspeicher nach Anspruch 24 oder 25, dadurch gekenn
zeichnet, daß eine Gruppe der Audiosegmente Polyphone wiederge
ben.
27. Datenspeicher nach einem der Ansprüche 24-26, dadurch
gekennzeichnet, daß eine Gruppe von Audiosegmenten zur Verfü
gung gestellt wird, deren verwendete Teile mit einem statischen
Phon beginnen, wobei die statischen Phone Vokale, Diphtonge,
Liquide, Frikative, Vibranten und Nasale umfassen.
28. Datenspeicher nach einem der Ansprüche 24-27, dadurch
gekennzeichnet, daß Audiosegmente zur Verfügung gestellt wer
den, die geeignet sind in akustische Signale umgewandelt zu
werden.
29. Datenspeicher nach einem der Ansprüche 24-28, der zusätz
lich Informationen enthält, um eine Variation der Frequenz,
Dauer und Gesamtamplitude der verwendeten Teile einzelner
Audiosegmente und deren Amplituden in verschiedenen Frequenzbe
reichen in Abhängigkeit von Eigenschaften der zu synthetisie
renden akustischen Daten durchzuführen.
30. Datenspeicher nach einem der Ansprüche 24-29, der zusätz
lich Informationen enthält, die eine Variation Frequenz, Dauer
und Gesamtamplitude der verwendeten Teile einzelner Audioseg
mente und deren Amplituden in verschiedenen Frequenzbereichen
in einem Bereich betreffen, in dem der Moment der Konkatenation
liegt.
31. Datenspeicher nach einem der Ansprüche 24-30, der zusätz
lich verkettet Audiosegmente zur Verfügung stellt, deren Moment
der Konkatenation bei einer Nullstelle der verwendeten Teile
des ersten und/oder zweiten Audiosegmentes liegt.
32. Datenspeicher nach einem der Ansprüche 24-31, der zusätz
lich Informationen in Form von heuristischem Wissen enthält,
die die Auswahl der einzelnen Audiosegmente, deren Variation
sowie die Konkatenation der Audiosegmente betreffen.
33. Tonträger, der Daten enthält, die zumindest teilweise
synthetisierte akustische Daten sind, die
- - unter Verwendung eines Datenträgers nach einem der Ansprüche 12 bis 23, oder
- - unter Verwendung eines Datenspeichers nach einem der Ansprü che 24 bis 32 erzeugt wurden, oder
- - die Sprachsignale nach einem der Ansprüche 1 bis 11 sind.
34. Tonträger nach Anspruch 33, dadurch gekennzeichnet, daß
die synthetisierten akustischen Daten synthetisierte Sprachda
ten sind.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1998137661 DE19837661C2 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1998137661 DE19837661C2 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19861167A1 true DE19861167A1 (de) | 2000-06-15 |
Family
ID=7878051
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19861167A Ceased DE19861167A1 (de) | 1998-08-19 | 1998-08-19 | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten |
DE59906115T Expired - Lifetime DE59906115D1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE59906115T Expired - Lifetime DE59906115D1 (de) | 1998-08-19 | 1999-08-19 | Verfahren und vorrichtungen zur koartikulationsgerechten konkatenation von audiosegmenten |
Country Status (7)
Country | Link |
---|---|
US (1) | US7047194B1 (de) |
EP (1) | EP1105867B1 (de) |
AT (1) | ATE243876T1 (de) |
AU (1) | AU5623199A (de) |
CA (1) | CA2340073A1 (de) |
DE (2) | DE19861167A1 (de) |
WO (1) | WO2000011647A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10042571A1 (de) * | 2000-08-22 | 2002-03-14 | Univ Dresden Tech | Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7369994B1 (en) | 1999-04-30 | 2008-05-06 | At&T Corp. | Methods and apparatus for rapid acoustic unit selection from a large speech corpus |
US7941481B1 (en) | 1999-10-22 | 2011-05-10 | Tellme Networks, Inc. | Updating an electronic phonebook over electronic communication networks |
US7308408B1 (en) * | 2000-07-24 | 2007-12-11 | Microsoft Corporation | Providing services for an information processing system using an audio interface |
JP3901475B2 (ja) * | 2001-07-02 | 2007-04-04 | 株式会社ケンウッド | 信号結合装置、信号結合方法及びプログラム |
US7379875B2 (en) * | 2003-10-24 | 2008-05-27 | Microsoft Corporation | Systems and methods for generating audio thumbnails |
DE102004044649B3 (de) * | 2004-09-15 | 2006-05-04 | Siemens Ag | Verfahren zur integrierten Sprachsynthese |
US20080154601A1 (en) * | 2004-09-29 | 2008-06-26 | Microsoft Corporation | Method and system for providing menu and other services for an information processing system using a telephone or other audio interface |
US8510113B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US8374868B2 (en) * | 2009-08-21 | 2013-02-12 | General Motors Llc | Method of recognizing speech |
WO2011025532A1 (en) * | 2009-08-24 | 2011-03-03 | NovaSpeech, LLC | System and method for speech synthesis using frequency splicing |
JP6047922B2 (ja) * | 2011-06-01 | 2016-12-21 | ヤマハ株式会社 | 音声合成装置および音声合成方法 |
US9368104B2 (en) * | 2012-04-30 | 2016-06-14 | Src, Inc. | System and method for synthesizing human speech using multiple speakers and context |
CN106471569B (zh) * | 2014-07-02 | 2020-04-28 | 雅马哈株式会社 | 语音合成设备、语音合成方法及其存储介质 |
JP6807033B2 (ja) * | 2015-11-09 | 2021-01-06 | ソニー株式会社 | デコード装置、デコード方法、およびプログラム |
CN111145723B (zh) * | 2019-12-31 | 2023-11-17 | 广州酷狗计算机科技有限公司 | 转换音频的方法、装置、设备以及存储介质 |
CN113066459B (zh) * | 2021-03-24 | 2023-05-30 | 平安科技(深圳)有限公司 | 基于旋律的歌曲信息合成方法、装置、设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0727397B2 (ja) | 1988-07-21 | 1995-03-29 | シャープ株式会社 | 音声合成装置 |
FR2636163B1 (fr) | 1988-09-02 | 1991-07-05 | Hamon Christian | Procede et dispositif de synthese de la parole par addition-recouvrement de formes d'onde |
SE469576B (sv) | 1992-03-17 | 1993-07-26 | Televerket | Foerfarande och anordning foer talsyntes |
US5463715A (en) * | 1992-12-30 | 1995-10-31 | Innovation Technologies | Method and apparatus for speech generation from phonetic codes |
WO1995030193A1 (en) * | 1994-04-28 | 1995-11-09 | Motorola Inc. | A method and apparatus for converting text into audible signals using a neural network |
BE1010336A3 (fr) | 1996-06-10 | 1998-06-02 | Faculte Polytechnique De Mons | Procede de synthese de son. |
-
1998
- 1998-08-19 DE DE19861167A patent/DE19861167A1/de not_active Ceased
-
1999
- 1999-08-19 CA CA002340073A patent/CA2340073A1/en not_active Abandoned
- 1999-08-19 WO PCT/EP1999/006081 patent/WO2000011647A1/de active IP Right Grant
- 1999-08-19 AT AT99942891T patent/ATE243876T1/de not_active IP Right Cessation
- 1999-08-19 DE DE59906115T patent/DE59906115D1/de not_active Expired - Lifetime
- 1999-08-19 EP EP99942891A patent/EP1105867B1/de not_active Expired - Lifetime
- 1999-08-19 US US09/763,149 patent/US7047194B1/en not_active Expired - Lifetime
- 1999-08-19 AU AU56231/99A patent/AU5623199A/en not_active Abandoned
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10042571A1 (de) * | 2000-08-22 | 2002-03-14 | Univ Dresden Tech | Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion |
DE10042571C2 (de) * | 2000-08-22 | 2003-02-06 | Univ Dresden Tech | Verfahren zur konkatenativen Sprachsynthese mittels graphenbasierter Bausteinauswahl mit variabler Bewertungsfunktion |
Also Published As
Publication number | Publication date |
---|---|
US7047194B1 (en) | 2006-05-16 |
CA2340073A1 (en) | 2000-03-02 |
ATE243876T1 (de) | 2003-07-15 |
AU5623199A (en) | 2000-03-14 |
WO2000011647A1 (de) | 2000-03-02 |
DE59906115D1 (de) | 2003-07-31 |
EP1105867B1 (de) | 2003-06-25 |
EP1105867A1 (de) | 2001-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69521955T2 (de) | Verfahren zur Sprachsynthese durch Verkettung und teilweise Überlappung von Wellenformen | |
DE60112512T2 (de) | Kodierung von Ausdruck in Sprachsynthese | |
DE4237563C2 (de) | Verfahren zum Synthetisieren von Sprache | |
DE69821673T2 (de) | Verfahren und Vorrichtung zum Editieren synthetischer Sprachnachrichten, sowie Speichermittel mit dem Verfahren | |
DE69718284T2 (de) | Sprachsynthesesystem und Wellenform-Datenbank mit verringerter Redundanz | |
DE60126575T2 (de) | Vorrichtung und Verfahren zur Synthese einer singenden Stimme und Programm zur Realisierung des Verfahrens | |
DE19861167A1 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten sowie Vorrichtungen zur Bereitstellung koartikulationsgerecht konkatenierter Audiodaten | |
DE69031165T2 (de) | System und methode zur text-sprache-umsetzung mit hilfe von kontextabhängigen vokalallophonen | |
DE2945413C1 (de) | Verfahren und Vorrichtung zur Synthetisierung von Sprache | |
DE19610019C2 (de) | Digitales Sprachsyntheseverfahren | |
DE2740520A1 (de) | Verfahren und anordnung zur synthese von sprache | |
DE60004420T2 (de) | Erkennung von Bereichen überlappender Elemente für ein konkatenatives Sprachsynthesesystem | |
DE2115258A1 (de) | Sprachsynthese durch Verkettung von in Formant Form codierten Wortern | |
DE69627865T2 (de) | Sprachsynthesizer mit einer datenbank für akustische elemente | |
DE1965480A1 (de) | Geraet fuer kuenstliche Erzeugung von Worten durch Umwandlung eines in Buchstaben gedruckten Textes in Aussprache | |
DE60205421T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese | |
DE69717377T2 (de) | Sprachgeschwindigkeitsumwandler | |
DE69723930T2 (de) | Verfahren und Vorrichtung zur Sprachsynthese und Programm enthaltender Datenträger dazu | |
EP1110203B1 (de) | Vorrichtung und verfahren zur digitalen sprachbearbeitung | |
EP0058130B1 (de) | Verfahren zur Synthese von Sprache mit unbegrenztem Wortschatz und Schaltungsanordnung zur Durchführung des Verfahrens | |
EP1344211B1 (de) | Vorrichtung und verfahren zur differenzierten sprachausgabe | |
DE60305944T2 (de) | Verfahren zur synthese eines stationären klangsignals | |
DE19837661C2 (de) | Verfahren und Vorrichtung zur koartikulationsgerechten Konkatenation von Audiosegmenten | |
DE60303688T2 (de) | Sprachsynthese durch verkettung von sprachsignalformen | |
DE4441906C2 (de) | Anordnung und Verfahren für Sprachsynthese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
AC | Divided out of |
Ref country code: DE Ref document number: 19837661 Format of ref document f/p: P |
|
OP8 | Request for examination as to paragraph 44 patent law | ||
AC | Divided out of |
Ref country code: DE Ref document number: 19837661 Format of ref document f/p: P |
|
8120 | Willingness to grant licences paragraph 23 | ||
8127 | New person/name/address of the applicant |
Owner name: BUSKIES, CHRISTOPH, 22559 HAMBURG, DE |
|
8131 | Rejection |