Verfahren und Vorrichtung zur Bereitstellung und Verwendung von Diphonen für
mehrsprachige Text-nach-Sprache-Systeme
BEREICH DER ERFINDUNG
-
Die Erfindung betrifft ein Verfahren zum Vorbereiten von Diphonen zur
Text-in-Sprache-Generierung durch selektives Aussprechen einer Menge selektierter
Diphone, Verarbeiten jedes solchen Diphons für dauernde Speicherung und Speichern jedes
verarbeiteten Diphons in einer einzeln adressierbaren Speicherstelle. Diphone haben sich
als hervorragendes Medium für die Sprachzerlegung und -darstellung erwiesen.
Beispielsweise lehren die Patente US 4.813.074 von Marcus und US 5.109.418 von Van Hemert,
beide von der vorliegenden Anmeldering, die Extraktion von Segmentgrenzen aus
gesprochenem Text. Diese Verfahren können ausgezeichnet zur Bildung eines Diphons aus einem
Paar aufeinanderfolgender segmentierter Elemente zuvor bestimmter Längen vor und nach
der Grenze verwendet werden. Eine Menge derartiger Diphone ermöglicht ihrerseits,
Sprache in robuster Weise zu repräsentieren. Insbesondere anschließende Sprachwiedergabe ist
elementar, weil keine komplexen Regeln zur Realisierung der gemeinsamen Artikulierung
zwischen aneinander anschließenden Phonemen notwendig sind. Sobald sie generiert
worden sind, werden die Diphone in einem herkömmlichen Speicher für späteren Gebrauch
gespeichert. Die englische Sprache kann mit einem Repertoire von 1500 Diphonen ziemlich
gut repräsentiert werden. Die Druckschrift Proceedings of Speech '88, Seiten 55-59
offenbart ein mehrsprachiges Sprachsynthessystem, das in einem Text-in-Sprache-System
verwendet wird. Die Hardware-Realisierung nutzt zwei Diphon-Wörterbücher, die jeweils in 2
ROM's gespeichert worden sind. Der vorliegende Erfinder ist auf die Notwendigkeit
gestoßen, Sprache mehrsprachig darzustellen und hat insbesondere gefunden, das die notwendige
Speicherung auf 1500 Stellen für jede Sprache extrem aufwendig ist, insbesondere in einer
Umgebung, wo minimale Kosten Grundbedingung sind. Solche Umgebungen haben bisher
ohne Sprachwiedergabe gearbeitet oder mit nur einer einzigen Sprache, oder mit
Wiedergabeverfahren niedriger Qualität, bei denen Speicherkosten häufig unbedeutend sind.
ZUSAMMENFASSUNG DER ERFINDUNG
-
Der vorliegenden Erfindung liegt unter anderem als Aufgabe zugrunde, ein
Verfahren gemäß dem Oberbegriff zu verschaffen, das es ermöglicht, ein
Diphon-Repertoire für mehrsprachige Sprachwiedergabe zu erzeugen, das die
Speicherkapazitätsanforderungen mildert. Gemäß einem ihrer Aspekte ist die Erfindung jetzt gekennzeichnet durch
Zuweisen jedes Diphons innerhalb einer solchen von einer einzelnen Person gesprochenen
Menge auf Homophoniebasis an eine oder mehrere verschiedene Sprachen zum Verringern
der Speicheranforderungen durch Teilen selektiver Diphone innerhalb mehr als einer
Sprache. Sechs der europäischen Hauptsprachen können beispielsweise gemeinsam durch eine
Menge aus nur etwa 3000 Diphonen repräsentiert werden. Dies ist eine Verringerung um
einen Faktor drei gegenüber der sechsfachen Vergrößerung, die eine sechsfache
Wiederholung der 1500 Diphone jeder speziellen einzelnen Sprache erfordern würde. Der
Erfindung liegt der kombinierte Gedanke zugrunde, dass erstens viele Sprachen, insbesondere
europäische Sprachen, identische oder nahezu identische Kombinationen
aufeinanderfolgender Laute haben und zweitens, dass manche Personen imstande sind, solche
Kombinationen in einer Weise auszusprechen, die für mehrere spezielle Sprachen geeignet wäre,
selbst, wenn die betreffende Person die Sprache nicht beherrscht. Häufig sind solche
Personen mehrsprachig. Faktisch wäre es nur notwendig, eine einzelne Kombination von zwei
Lauten zur Zufriedenheit einer anderen Person, die die 'neue' Sprache beherrscht, korrekt
auszusprechen. Die mehr oder weniger identische Aussprache eines speziellen Diphons in
verschiedenen Sprachen braucht nicht auf Übereinstimmung in der Orthographie zu
beruhen. Andererseits braucht identische Orthographie nicht mit identischer Aussprache
einherzugehen.
-
Das Obige bedeutet, dass die wiederverwendbaren Diphone immer von der
gleichen Stimme erzeugt werden. Andererseits wäre es vollständig unakzeptabel, wenn
Sprache aus einer Sequenz von Diphonen konstruiert wird, die unterschiedlichen Ursprung
haben, da sie von mehreren Personen generiert worden sind. Die Speicherung selbst kann
software-gesteuert ergolgen: dies kann in Form von Sprachsegmenten geschehen, die durch
eine geeignete Wellenform repräsentiert werden, oder eher durch parametrisierte Daten.
Der Anwendungsbereich der Erfindung kann unterschiedlich sein, wie z. B.
Verkehrsinformationssysteme, öffentliche Transportabfragesysteme und verschiedene andere.
-
Vorteilhafterweise werden bestimmte Diphone mit
Verarbeitungskennzeichnern gespeichert, die Verarbeitungsoperationen an dem betreffenden Diphon innerhalb
sol
cher verschiedenen dieses Diphon teilenden Sprachen unterscheiden. Derartige zusätzliche
Verarbeitungskennzeichner erlauben es, die Speicheranforderungen weiter zu verringern.
Auf diese Weise können auch Diphone, die besonders begrenzte Unterschiede aufweisen,
unter verschiedenen Sprachen geteilt werden. Solche Unterschiede können die Dauer von
Vokalen, Aspiration oder Vokalqualität enthalten.
-
Die Erfindung bezieht sich auch auf ein Verfahren für Text-in-Sprache-
Transformieren und eine Einrichtung hierfür. Ein spezieller Vorteil der Erfindung ist die
einfache Weise, in der Exonyme in einen gesprochenen Text eingefügt werden können.
Dies kann beispielsweise erreicht werden, indem Sprachkennungen am Anfang und am
Ende des Exonyms eingefügt werden. Weitere vorteilhafte Aspekte der Erfindung werden
in den Unteransprüchen genannt.
KURZE BEZEICHNUNG DER ZEICHNUNG
-
Ausführungsbeispiele der Erfindung sind in der Zeichnung dargestellt und
werden im folgenden näher beschrieben. Es zeigen:
-
Fig. 1 einen Ablaufplan der Diphonvorbereitung;
-
Fig. 2 ein Gerät für die Text-in-Sprache-Transformation.
AUSFÜHRLICHE BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSFORMEN
-
Fig. 1 zeigt einen Ablaufplan der Diphonvorbereitung. In Block 20 bereiten
das System und Benutzer die Aufgabe vor. Geeignete Speicherungs- und
Verarbeitungsmöglichkeiten werden zugewiesen und eine Diphonliste wird aufgestellt. In Block 22 wird
das erste Diphon einer einzelnen Person angeboten, die alle Diphone der endgültigen
Menge ausspricht. Die Präsentation kann in visueller oder hörbarer Form erfolgen. In Block 24
wird das erste Diphon von der einzelnen Person ausgesprochen. In Block 26 wird der Laut
auf korrekte Aussprache überprüft. Dies kann in subjektiver Weise durch einen oder
mehrere Rezensenten erfolgen oder auch mit einer Art Maschinenvergleich mit Wiedergaben des
gleichen Diphons durch eine Standardstimme. Die Aussprache kann isoliert erfolgen, als
Sequenz bewusst identischer Diphone oder auf andere geeignete Weise. Bei
Mehrfachäußerungen kann von dem Rezensenten die 'beste' gewählt werden. Wenn die Aussprache als
ungenügend betrachtet wird, geht das System zurück zu Block 24 und fordert eine andere
Aussprache des gleichen Diphons an. Der Dialog kann durch visuelle oder hörbare Stimuli
in einer für Mensch-Maschine-Dialoge im Allgemeinen bekannten Weise unterstützt
werden. Der Einfachheit halber ist dies nicht weiter ausgeführt worden.
-
Wenn die Aussprache als genügend betrachtet wird, wird in Block 28 der
Laut verarbeitet, z. B. im Zeitbereich beschnitten, hinsichtlich des Volumens standardisiert,
gefiltert, nötigenfalls in eine Parametermenge transformiert und in herkömmlicher Weise
gespeichert. Für die endgültige Speicherung muss dieser Speicher direkten Zugriff haben,
aber zu diesem Zeitpunkt ist das noch nicht notwendig. In diesem Fall muss eine
Diphonkennung hinzugefügt werden. In Block 30 detektiert das System, ob es fertig ist. Falls nicht,
kehrt es für das nächste Diphon zum Block 22 zurück. Falls ja, werden in Block 32 die
Aktivitäten beendet, wie z. B. durch Ausgeben der Ergebnisse, d. h. jetzt eine kompakte Menge
aus Diphonen, die zum Ausgeben von Sprache in mehr als einer Sprache geeignet ist.
Ebenso kann die Ausgabe sich auf eine zunehmende Menge aus Diphonen beziehen, um
eine n-Sprachenmenge zu einer n+1-Sprachenmenge zu erweitern.
-
Für bestimmte Anwendungen können die gespeicherten Diphone
Verarbeitungskennzeichner haben, die Verarbeitungsoperationen an dem betreffenden Diphon
innerhalb solcher verschiedener, dieses Diphon teilenden Sprachen unterscheiden. Beispiele
hierfür sollen im Weiteren besprochen werden.
-
Fig. 2 ist ein Blockschaltbild eines Gerätes für die Text-in-Sprache-
Transformation. Block 48 repräsentiert die Speicherung der mehrsprachigen Menge,
beispielsweise in Halbleitertechnologie realisiert. In der Ausführungsform wird die
Einrichtung für vier verschiedene Sprachen verwendet, wie mit den Blöcken 40-46 symbolisiert
wird. Der Diphonblock 40 bezieht sich auf die Sprache A, Block 42 auf die Sprache B,
Block 44 auf die Sprache C und Block 46 bezieht sich auf die Sprache D. Bei der
prinzipiellen Speicherung bezieht sich daher der oberste Block auf die Sprachen A und B, der
zweite Block auf die Sprachen A, C, und D, und so weiter. In dem Beispiel bezieht sich nur
das zweitletzte Diphon auf die Sprache C, ein einziges Diphon bezieht sich auf alle vier
Sprachen und die anderen auf verschiedene andere Kombinationen. Die Verteilung hängt
von der Menge an Sprachen ab und kann in gewissem Maße frei gewählt werden. Im
Allgemeinen ist die Anzahl verschiedener Diphone eine Frage der Wahl. In verschiedenen
Fällen kann ein spezielles Diphon innerhalb mehrerer Sprachen erneut verwendet werden,
aber die Verwendung eines einmaligen Diphons für jede Sprache würde eine gewisse
Verbesserung geben. Das Gesamtergebnis ist eine Frage eines Kompromisses.
-
Block 56 repräsentiert die Eingabe einer Kette aus Diphoncodes. Diese
können mit einer Dauer, Aspiration, Prosodie oder einer anderen
Verarbeitungskennzeichnerangabe zusammenhängen, die für das gleiche Diphon nicht einmalig zu sein brauchen,
weder wenn es in verschiedenen Sprachen noch an unterschiedlichen Positionen in einem Satz
vorkommt. An sich ist Unterscheidung von Prosodie gegenüber der Position in einem Satz
in der früheren, nicht vorveröffentlichten europäischen Patentanmeldung EP-A-0774152
offenbart worden. Die obengenannte Offenlegung speichert jedoch gleichartige Sprach-
Items für eine einzige Sprache auf verschiedene Weise. Die vorliegende Erfindung arbeitet
anders herum, indem die Speicherung unter verschiedenen Sprachen geteilt wird. Ebenso
können Prosodiesteuersignale die Diphonkette begleiten. Die Leitung 52 überträgt den
Adressencode zur Speicherorganisation 48. Letzteres kann stellengebunden oder
inhaltadressiert sein, wie z. B. alphabetisch. Die Klammer 50 symbolisiert den
Auslesemechanismus des reinen Speichers. Block 58 ist der Ausgabemechanismus des Speichers, wie z. B.
ein Verstärker oder Halteschaltkreis, der von der Leitung 54 gesteuert wird, wie z. B. von
einem Synchronisationssignal. Block 60 bewirkt die Transformation des Diphons für
anschließende Wiedergabe, wie z. B. durch Fensterdarstellung in einer Sequenz aus Diphonen,
oder durch Übersetzen eines parametrisierten Diphons in den 'realen' Laut. Block 62 ist der
Audioausgabemechanismus, wie z. B. eine Kombination aus Ausgangsverstärker und
Lautsprecher. Das Item 64 symbolisiert die Audioausgabe, die persönlich oder eine allgemeine
Ansage sein kann. Falls notwendig, kann eine Sprecherverifikation verwendet werden, um
sicher zu sein, dass alle so ausgegebenen Diphone tatsächlich von einem einzigen Sprecher
stammen.
WEITERE BETRACHTUNGEN
-
Eine Bezugsschrift zur Wiedergabe von Sprache in einer Mehr-Sprachen-
Umgebung kann in R. Collier, Mutti-Language Intonation Synthesis, Journal of Phonetics
19 (1991), 61-73 gefunden werden.
-
Weiterhin hat die Verarbeitung der Diphone zwei Aspekte. Erstens gibt es
die Verarbeitung auf dem Niveau der Äußerung, d. h. die Diphone werden verkettet und
anschließend werden Sprachtonhöhe und Rhythmus hinzugefügt. Zweitens gibt es die
Verarbeitung auf dem Niveau des Diphons selbst, bevor es in eine Äußerung eingegeben wird.
Die letztgenannte Art der Verarbeitung sollte zu einer weiteren Verringerung der
Speicheranforderungen führen. Es folgen einige Beispiele:
-
1. Das englische Wort 'mean', das niederländische Wort 'Mien' (Mädchenname), und das
französische Wort 'mine' (mine, wie z. B. zur Kohleproduktion) teilen den Vokal, wobei der
einzige Unterschied für eine nahezu perfekte Aussprache seine Dauer ist, die im Englischen
am längsten und im Französischen am kürzesten ist. Der Leitgedanke ist daher, die gleiche
Kombination gespeicherter Diphone (mi + in) zu verwenden, aber die Speicherung des
ersten Diphons führt unterschiedliche Dauerangaben für jede jeweilige Sprache mit sich, die
im Bereich von 200-80 Millisekunden liegen können.
-
2. Selbst in der gleichen Sprache kann ein spezielles Diphon auf unterschiedliche Weise
wiederzugeben sein. Das englische Wort 'pin' hat beispielsweise Aspiration beim Laut 'p',
was das Wort 'spin' nicht hat. Das gleiche Diphon (pi) kann in anderen Sprachen verwendet
werden, entweder mit oder ohne Aspiration. Eine spezielle Weise, die
Speicheranforderungen zu reduzieren, ist, das Diphon als Wellenform mit Aspiration zu speichern und
Markierungsangaben am Anfang und am Ende des Aspirationslautes einzufügen.
Notwendigenfalls kann auf die Aspiration dann verzichtet sein. In beiden der obigen Fälle gelten die
Verarbeitungskennzeichner in unterschiedlicher Weise für den Zeitbereich.
-
3. Wenn die Diphone eher als parametrische Information gespeichert sind, kann die
Verarbeitung differentiell im Spektralbereich erfolgen. In dem niederländischen Wort 'idee'
(Idee) hat der zweite Vokal mehr oder weniger den Charakter eines Diphthong. Im
Französischen hat das Wort 'idee' diese Eigenschaft nicht. An sich kann das Ausleihen des
'Diphthong'-Charakters durch an sich bekannte Formantenmanipulation erfolgen. Die
niederländische Repräsentation des betreffenden Diphons kann jetzt mit einem
Verarbeitungskennzeichner assoziiert werden, der diese Manipulation steuert, wobei dadurch die Speicherung
nur eines Diphons notwendig ist. In ähnlicher Weise kann der Diphthongaspekt
unterschiedliche Intensitätsgradationen haben, wie z. B. im Fall bei 'dose' (englisch: Dosis),
'dozen' (niederländisch: Kartons), und 'dose' (französisch: Dosis). Es ist wohlbekannt, dass die
Anzahl relevanter Formanten klein ist, und ihre Frequenzen können als einzelnen Größe
gespeichert werden oder als Steigung zwischen zwei verschiedenen Größen. In dem LPC-
basierten Ansatz kann die spektrale Manipulation mit Manipulation im Zeitbereich
kombiniert werden.
-
4. Selbst ohne diese differenzierenden Verarbeitungoperationen bleibt der Ansatz der
Erfindung jedoch gültig, entweder mit einer geringfügig geringeren Lautqualität oder mit
einer etwas größeren Speicherung. Die folgenden Beispiele werden gegeben, wobei
phonetische Standardkonventionen verwendet worden sind. Der Einfachheit halber sind Wörter
verwendet worden, die in den verschiedenen Sprachen (nahezu) die gleiche
Textrepräsentation haben. Jedoch gilt das gleiche Prinzip der Wiederverwendbarkeit, wenn die Wörter
nur teilweise phonetisch übereinstimmen.
-
Im Obigen gibt # am Anfang bzw. Endes des betreffenden Wortes Lautlosigkeit an. In
beiden Sprachen ergibt die Kombination der Diphone 1+2+3+4+5 das Wort 'spIn'.
-
Die Sequenz 6+7+8 gibt das Wort 'phik' (peak, Pik) in englisch bzw. deutsch wieder.
-
Die Sequenz 9+10+11 gibt das Wort 'ide' (deutsch 'Idee', französisch 'idee') wieder, die
Sequenz 9+10+12 gibt das Wort 'idei' wieder (niederländisch 'idee', mit einem leichten
Diphthongaspekt).
-
Die Sequenz 13+14+15+16+17+18 gibt die Basis des niederländischen Wortes 'fataal'
(fatal), deutsch 'fatal' oder französisch 'fatal'. Für jede Sprache erhalten die beiden Vokale ihre
jeweilige Länge eingestellt. Falls notwendig, werden die beiden letzten Diphone nur für
deutsch mit einer etwas 'dünneren' Aussprache des "I" ein weiteres Mal gespeichert (mit
einem Sternchen * angedeutet), weil dies mit differenzierter Verarbeitung für diese Sprache
schwierig zu erreichen ist.