-
Die
Erfindung betrifft eine Einrichtung zum Erzeugen von Ansagen.
-
Eine
Vorrichtung dieser Art ist zum Beispiel für Informationssysteme erforderlich,
wie sie üblicherweise
für Telefonauskunft
oder auch Fahrplanauskunftssystemen verwendet werden. Ansagen können dabei
aus einem Basissatz, wie zum Beispiel „This is the telephone information
..., please wait", verschiedenen
Schlüsselwörtern, zum
Beispiel in der Form von verschiedenen Städtenamen, die in den Basissatz
an der Position der durch die Punkte gekennzeichneten Leerstelle
einsetzbar sind, bestehen. Die Basissätze und die benötigten Schlüsselwörter können beide
als natürliche
Spreche in einer Speichereinheit gespeichert werden. Dies ist ein komplizierter
Vorgang, der einen großen
Speicherplatz erfordert, falls zum Beispiel die Anzahl möglicher
Schlüsselwörter groß wäre. Darüber hinaus
ist es schwierig, die Schlüsselwörter so
auszusprechen, dass sie ohne Unstetigkeiten in den Basissatz eingefügt werden
können.
Wenn nämlich
ein spezielles Schlüsselwort
mit verschiedenen Basissätzen
kombiniert werden müsste
oder sogar an unterschiedlichen Positionen in einem einzigen Basissatz,
könnte
jedes solche Auftreten eine unterschiedliche Aussprache erfordern.
-
Die
US 3,928,722 offenbart eine
Vorrichtung zum Erzeugen der Audionachricht, die für ein Frage- und
Antwortsystem verwendet wird. Eine Audioantwortnachricht ist aus
einem festen Wort und einem variablen Wort zusammengesetzt. Das
variable Wort ist ein Wort mit variablen Informationen in Abhängigkeit
von der Position des variablen Worts in dem Antwortsatz. Zum Aufzeichnen
einer Probe der Audiosignalformen das festen Wortes und der Steuersignale, die
das feste Wort festlegen, ist ein Speicher niedriger Auslesegeschwindigkeit
vorgesehen. Die entsprechenden variablen Wörter werden in einem Hochgeschwindigkeits-Speicher
als Sprachelemente oder – segmente
aufgezeichnet, die jeweils eine Tonhöhenlänge im Wesentlichen gleich
jener der Stimme oder des Lauts des variablen Wortes haben. Zur
Zeit des Auslesens der Stimme oder des Lauts oder zur Zeit der Sprachsynthese,
wenn die Position der variablen Wörter in der/dem Antwortstimme
oder -laut sequentiell aus dem Niedergeschwindigkeits-Speicher ausgelesen
wird, wird eine Reihe der Sprachelemente oder -segmente aus dem
Speicher hoher Auslesegeschwindigkeit ausgelesen und zwischen die
Stimmen oder Laute fester Wörter
gesetzt, die aus dem Speicher niedriger Geschwindigkeit ausgelesen
werden. Das Erzeugen von Sprachnachrichten enthält ein selektives Umschalten
zwischen dem Auslesen aus dem Speicher niedriger Geschwindigkeit
und dem aus dem Speicher hoher Geschwindigkeit unter Berufung auf
ein Steuersignal von einer Signalverarbeitungseinheit und einer
Schaltung zum Kombinieren der von den obigen zwei Speichern ausgelesenen
Stimmen- oder Lautsignale, und ein Erzeugen der Stimme oder des
Lauts durch Umsetzen dieser kombinierten Signale. Die Vorrichtung
speichert auch Tonhöhenmuster-Steuerinformationen
für jedes
der in einem Hochgeschwindigkeitsspeicher aufgezeichneten variablen
Wörter
und verwendet diese Tonhöhenmuster-Steuerinformationen,
um die Tonhöhe
variabler Wörter
in Abhängigkeit
davon einzustellen, ob sich das variable Wort innerhalb eines Satzes
befindet. Dies kann Intonationsunstimmigkeiten zwischen dem variablen
Wort und dem Satz, in den es eingefügt wird, reduzieren.
-
Die
EP-A-0 405 029 offenbart ein System und ein Verfahren zum Kommunizieren
und zum Zusammensetzen von Nachrichten mittels einer in ein Mikrofon
gesprochenen Sprachfolge. In das Mikrofon gesprochene Wörter werden
analysiert, um ausgewählte
Wörter
zu erfassen und als Reaktion darauf Nachrichten definierende Signale
und/oder Nachrichtenübertragungs-Steuersignale
zu erzeugen. Deshalb sehen das offenbarte System und Verfahren eine
Einrichten zum Bewirken der Zusammensetzung und automatischen Übertragung
von Nachrichten, Nutzen einer ausgewählten Sprachfolge sowohl zum
Zusammensetzen als auch zum Steuern der Übertragung von Nachrichten
vor. Der Aufbau einer Nachricht kann aus sowohl digitalisierten
Sprachsignalen (erzeugt durch Digitalisieren der analogen Sprachsignale,
die erzeugt werden, wenn eine die Wörter der Nachricht definierende
Sprachfolge in das Mikrofon gesprochen wird) als auch digitalisierten künstlichen
Sprachsignalen zusammengesetzt werden. Die digitalisierten künstlichen
Sprachsignale werden aus einem Nachrichtenzusammensetzungsspeicher
erzeugt, der mehrere Nachrichten oder Teile von Nachrichten wie
beispielsweise digitale Sprachsignale von Wörtern, Ausdrücken, Sätzen, Abschnitten
oder Seiten von Wörter
definierenden alphanumerischen Zeichen oder andere Daten, die wiedergegeben
werden können,
enthält.
-
In
I. Witten, „Making
computers talk: an introduction to speech synthesis", 1986, Prentice
Hall, Englewood Cliffs, New Jersey, USA, Seiten 53-68, werden Grundüberlegungen
hinsichtlich der Sprachsynthese erläutert, speziell hinsichtlich
der zu verwendenden Parameter.
-
In
NHK Laboratories Note, Nr. 246, Januar 1980, Tokio, JP, Seiten 1-14,
Yasuhiro et al., „An
ex perimental speech synthesis system with pre-recorded words and
phrases for local weather reports", werden Aspekte der Spracherzeugung
betreffend ein Systems zur Erstellung lokaler Wetterberichte erläutert.
-
Es
ist eine Aufgabe der Erfindung, eine Vorrichtung zum Erzeugen von
Ansagen vorzusehen, welche die Erzeugung einer Vielzahl unterschiedlicher
Ansagen ohne das Erfordernis eines großen Speicherplatzbedarfs ermöglicht.
-
Demgemäß sieht
die Erfindung in einem Aspekt eine Vorrichtung zum Erzeugen von
Ansagen vor, mit einer Speichereinheit zum Speichern natürlicher
Sprachinformationen, einem Sprachgenerator, der ein Sprachmodell
basierend auf Sprachdaten des Sprechers der natürlichen Sprachinformationen
enthält,
zum Erzeugen künstlicher
Sprachinformationen, wobei die Vorrichtung angeordnet ist, um wenigstens einen
Basissatz bestehend aus wenigstens einem Sprachblock, der als natürliche Sprachinformationen in
der Speichereinheit gespeichert ist, und wenigstens einem Schlüsselwort,
das aus den künstlichen Sprachinformationen
gebildet wird, zu erzeugen.
-
Die
Erfindung basiert auf der Erkenntnis, dass häufig wiederkehrende Basissätze in der
Speichereinheit als natürliche
Sprachinformationen gespeichert werden können, während Ansagen, die häufig gewechselt
werden müssen,
mittels eines Sprachgenerators künstlich
erzeugt werden können. Die
durch den Sprachgenerator erzeugten künstlichen Sprachinformationen
können
in Dauer, Rhythmus, Betonung und Grundfrequenzverlauf exakt manipuliert
werden und lassen sich optimal in die natürlichen Sprachinformationen
einfügen.
Dies resultiert in einer erheblichen Reduktion des erforderlichen Speicherplatzes,
weil nur die Basissätze
als natürliche
Sprechinformationen gespeichert werden müssen, während die künstlichen Sprachinformationen mittels
der Eingabeeinheit individuell und aktuell eingegeben werden können. Ein
weiterer Vorteil besteht darin, dass die Anzahl von Wörtern, die
aus den künstlichen
Sprachinformationen gebildet werden, nicht beschränkt ist.
-
Ein
Ansagesystem, das zum Beispiel für
Telefonansagedienste, usw. verwendet werden kann, erhält man dadurch,
dass die Vorrichtung zum Erzeugen mindestens eines Basissatzes bestehend
aus Sprachblöcken,
die in der Speichereinheit als natürliche Sprachinformationen
gespeichert sind, und aus Schlüsselwörtern, die
aus den künstlichen
Sprachinformationen gebildet werden und die zwischen einzelne Sprachblöcke eingefügt werden
können,
konzipiert wird.
-
Eine
einfache Kombination der natürlichen und
der künstlichen
Sprachinformationen wird dadurch gewährleistet, dass die natürlichen
Sprachinformationen in der Speichereinheit in codierter Form gespeichert
sind, wobei die durch den Sprachgenerator erzeugten künstlichen
Sprachinformationen entsprechend dem Code der natürlichen
Sprachinformationen codiert sind.
-
Wenn
in der Speichereinheit Informationen über den Grundfrequenzverlauf
der natürlichen
Sprachinformationen gespeichert sind, können diese Informationen durch
den Sprachgenerator zum Erzeugen der in die natürlichen Sprachinformationen
einzufügenden
künstlichen
Sprachinformationen berücksichtigt
werden. Als Ergebnis kann der Grundfrequenzverlauf der künstlichen
Sprachinformationen so konzipiert werden, dass an den Übergängen zwischen
natürlichen
und künstlichen
Sprachinformationen keine Unstetigkeiten auftreten.
-
Die
zum Ausgeben der Ansagen erforderlichen Einrichtungen sind begrenzt,
wenn zum Ausgeben der Ansagen eine Ausgabeeinheit mit einem Ausgabespeicher
und einem Digital/Analog-Umsetzer vorgesehen ist.
-
Eine
einfache Ausgabesteuerung ist gewährleistet, wenn die Ausgabeeinheit
durch die Eingabeeinheit gesteuert werden kann.
-
Die
Verständlichkeit
und Natürlichkeit
der Ansagen wird wesentlich verbessert, wenn die natürlichen
Sprachinformationen von nur einem Sprecher stammen.
-
Die
Gesamtverständlichkeit
und die Natürlichkeit
der Ansagen werden weiter verbessert, wenn der Sprachgenerator ein
Sprachmodell enthält,
das auf den Sprachdaten des Sprechers der natürlichen Sprachinformationen
basiert. Der Eindruck eines Sprecherwechsels wird so vermieden.
-
KURZBESCHREIBUNG DER ZEICHNUNGEN
-
Weitere
Aspekte und Vorteile der Erfindung werden nachfolgend anhand der
in den Figuren gezeigten Ausführungsbeispiele
im detail beschrieben. Darin zeigen:
-
1 eine
Ausführungsbeispiel
einer Vorrichtung zum Erzeugen von Ansagen; und
-
2 ein
Beispiel für
die Zusammensetzung von Ansagen aus natürlichen und künstlichen
Sprachinformationen.
-
BESCHREIBUNG BEVORZUGTER
AUSFÜHRUNGSBEISPIELE
-
Die
Vorrichtung zum Erzeugen von Ansagen besteht, wie in 1 dargestellt,
grundsätzlich
aus einer Eingabeeinheit 1, einer Speichereinheit 2,
einem Sprachgenerator 3 sowie einem Multiplexer 4. Natürliche Sprachinformationen 11,
zum Beispiel in PCM-codierter Form, können in der Speichereinheit 2 gespeichert
werden, wobei die natürlichen
Sprachinformationen von einem Sprecher zum Beispiel mittels eines
Mikrofons eingegeben werden, das an die Eingabeeinheit 1 angeschlossen
werden kann. Zum Übertragen
solcher natürlicher
Sprache hat die Eingabeeinheit 1 einen analogen Audiokanal,
einen Analog/PCM-Umsetzer
und eine Aktivierungseinrichtung, die nicht gesondert dargestellt
sind, die die analoge Eingabe, das Umsetzen bzw. die Speicherung
in der Speichereinheit 2 ermöglichen. Darüber hinaus ist
eine Datenverwaltung für
die so aus natürlicher Sprache
aufgebaute Datenbasis in herkömmlicher Weise
vorgesehen, beispielsweise indem jede gespeicherte natürliche Spracheinheit
oder -nachricht eine geeignete Ziffer oder Kennzeichnung hat, um ein
einfaches Wiederfinden zu ermöglichen.
-
In
einem weiteren Ausführungsbeispiel
kann die natürliche
Sprache offline aufgezeichnet worden sein, sodass die Eingabeeinheit
keine Analog/PCM-Umsetzung benötigt,
sondern nur eine Wiedergewinnungssteuerung für die Speichereinheit 2.
-
Zusätzlich zur
obigen Erläuterung
arbeitet die Eingabeeinheit 1 zum Steuern des Sprachgenerators 3,
zum Beispiel indem sie eine vollständige alphanumerische Tastatur
und einen zugehörigen
Bildschirm aufweist, um Wortinformationen 12 dem Sprachgenerator 3 zuzuführen, wobei
das Wort durch Eintasten der einzelnen Zeichen gebildet wird. In
manchen Fällen
könnte
es günstig
sein, dass gewisse oder alle eingegebenen Wörter bereits als Zeichencodeketten
gespeichert sind, sodass nur eine Auswahl von der Eingabeeinheit 1 notwendig
wäre. Die
Speicherung als Zeichencodes benötigt
viel weniger Raum als eine Speicherung als Sequenz von PCM-Codes.
Nun erzeugt der Sprachgenerator 3 aus den Wortinformationen 12 künstliche
Sprachinformationen 14. Über den Multiplexer 4 werden
diese künstlichen
Sprachinformationen 14 mit den natürlichen Sprachinformationen 13 kombiniert,
um so die Ansagen zu bilden. Die Ansagen 15 werden über eine
Ausgabeeinheit 5 ausgegeben, die einen Ausgabespeicher 9,
einen Analog/Digital-Umsetzer 6, einen Verstärker 7 und
einen Lautsprecher 8 aufweist.
-
In
der Speichereinheit 2 sind ein oder mehrere so genannte
Basissätze
in codierter Form gespeichert. Derartige Basissätze bestehen aus einzelnen Sprachblöcken, wobei
zwischen einzelnen Sprachblöcken
so genannte Schlüsselwörter eingefügt werden
können.
Die Stellen zum Einfügen
werden durch geeignete Daten angegeben, zum Beispiel einen Merker.
Diese Merker, die auch zum Multiplexer 4 übertragen
werden, steuern dann das Umschalten des Multiplexers 4 von
der natürlichen
Sprache aus der Speichereinheit 2 zum Sprachgenerator 3.
Falls notwendig, kann ein solches Umschalten auch dem menschlichen
Operator zurücksignalisiert
werden, wie beispielsweise über
eine Bildschirmmeldung (Verbindung nicht dargestellt). Diese signalisiert
dem Operator, dass er das einzufügende
Wort eingeben muss. Am Ende des eingefügten Wortes kann der Operator
den Multiplexer 4 zur Speichereinheit 2 zurückschalten,
wie beispielsweise durch Betätigung der
Eingabetaste. Die Schlüsselwörter können zum Beispiel
Namen von Städten
oder auch Zahlen sein. Zum Beispiel enthält der Satz „Der Eilzug
von S1 nach S2 hat voraussichtlich S3 Minuten Verspätung" die einzelnen Sprachblöcke B1 „Der Eilzug
von", B2 „nach", B3 „hat voraussichtlich" und B4 „Minuten
Verspätung" sowie verschiedene
Städtenamen
als die Schlüsselwörter S1
und 32 und eine zahl als das Schlüsselwort S3. Eine Eingabe verschiedener Schlüsselwörter S1,
S2, S3 ermöglicht
die Erzeugung unterschiedlicher Ansagen 15.
-
Nachfolgend
wird der Vorgang zum Erzeugen von Ansagen 15 beschrieben. Über die
Eingabeeinheit 1, zum Beispiel eine Tastatur mit einem
Bildschirm, wird zunächst
ein gewünschter
Basissatz aus den in der Speichereinheit 2 gespeicherten
Basissätzen
ausgewählt.
Die Speichereinheit 2 speichert auch Informationen US1,
US2, US3 bezüglich
des Grundfrequenzverlaufs an den Grenzen der Sprachblöcke B1,
B2, B3, B4 und der Schlüsselwörter S1, S2,
S3. Über
die Eingabeeinheit 1 werden die Schlüsselwörter S1, S2, S3 in beliebig
codierter Form, zum Beispiel als normaler Text eingegeben. Die Schlüsselwörter S1,
S2, S3 werden als Wortinformationen 12 an den Sprachgenerator
weitergegeben, der aus den Schlüsselwörtern S1,
S2, S3 die künstlichen
Sprachinformationen 14 erzeugt Damit an den Übergängen zwischen
natürlicher
und künstlicher
Sprache Unstetigkeiten vermieden werden, wodurch schwer verständliche
und/oder unnatürliche Ansagen 15 bewirkt
würden,
werden die entsprechenden Parameter während der Erzeugung der künstlichen
Sprachinformationen 14 durch die Informationen US1, US2,
US3 an den Grundfrequenzverlauf der jeweiligen Sprachblöcke B1,
B2, B3, B4 angepasst. Dies verhindert eine Irritation des Zuhörers der
Ansagen infolge einer unnatürlichen
Betonung, wodurch auch die Akzeptanz der Ansagen verbessert wird.
Gesteuert durch die Informationen US1, US2, US3 betreffend den Tonhöhenverlauf,
erzeugt der Sprachgenerator 3 aus den Wortinformationen 12 die
künstlichen
Sprachinformationen 14 in codierter Form. Die künstlichen
Sprachinformationen 14 sowie die natürlichen Sprachinformationen 13 werden
dem Multiplexer 4 zugeführt,
der die aus den natürlichen Sprachinformationen
bestehenden Sprachblöcke
B1, B2, B3, B4, d.h. den Basissatz, und die aus den künstlichen
Sprachinformationen 14 bestehenden Schlüsselwörter S1, S2, S3 kombiniert,
um so die Ansagen zu bilden, wie in 2 im Detail
dargestellt. Die Darstellung der künstlichen Sprache ist eine
geeignete Sequenz von PCM-Codes. Als nächstes werden die Ansagen 15 in
den Ausgabespeicher 9 der Ausgabeeinheit 5 geschrieben.
Das Ausgangssignal 16 des Ausgabespeichers 9 ist
ein PCM-Signal, das durch den Digital/Analog-Umsetzer 8 zunächst in
ein analoges Signal 17 umgesetzt wird. Das Analogsignal 17 wird
durch den Verstärker 7 verstärkt, um
so als ein Ausgabesignal 18 an den Lautsprecher 8 übertragen
zu werden.
-
2 zeigt
ein Beispiel von Ansagen. Der obere Teil von 2 zeigt
einen Basissatz, der aus Sprachblöcken B1, B2, B3, B4 gebildet
ist und der durch Schlüsselwörter S1,
S2, S3 ergänzt
werden kann. Der untere Teil von 2 zeigt
den Grundfrequenzverlauf f als Funktion der Zeit t für den im
oberen Teil von 2 gezeigten Beispielsatz „ Der Eilzug von
Frankfurt nach Offenbach hat voraussichtlich 10 Minuten Verspätung".
-
Der
in 2 gezeigte Basissatz „Der Eilzug von S1 nach S2
hat voraussichtlich S3 Minuten Verspätung" enthält die Sprachblöcke B1,
B2, B3, B4, die als natürliche
Sprachinformationen 11 in der Speichereinheit 2 (1)
gespeichert sind. Die Schlüsselwörter Nürnberg,
Frankfurt = S1, Erlangen, Offenbach = S2 und 5, 10 = S3 werden nach
Bedarf in den Basissatz eingefügt.
Unterschiedliche Ansagen können
so erzeugt werden. An den Übergängen zwischen
den Sprachblöcken
B1, B2, B3, B4 und den Schlüsselwörtern S1,
S2, S3 sind zu jedem Basissatz in der Speichereinheit Informationen
US1, US2, US3 über
den Grundfrequenzverlauf gespeichert Dies wird in 2 mittels
Kreisen hervorgehoben. Einerseits wird ein unnatürlicher Eindruck der Ansagen vermieden,
und gleichzeitig ist die Verständlichkeit der
Ansage wesentlich besser als wenn sie vollständig künstlich erzeugt werden würde.
-
Der
Vorteil der Erfindung liegt einerseits im reduzierten Speicheraufwand,
da nur die die Basissätze
bildenden natürlichen
Sprachinformationen 11 gespeichert werden müssen. Außerdem können beliebige
Schlüsselwörter mit
Hilfe der Eingabeeinheit 1 „editiert" werden, wobei eine einfache Eingabe
lediglich über
eine Tastatur möglich
ist. So ist die Anzahl der Schlüsselwörter nicht
beschränkt.
Die künstlichen
Sprachinformationen 14 können bezüglich Dauer, Rhythmus, Betonung
und Grundfrequenzverlauf exakt manipuliert werden, wobei es möglich ist,
diese Manipulation mittels der Informationen US1, US2, US3 optimal
an die jeweiligen Basissätze
anzupassen. Die Gesamtverständlichkeit
und Natürlichkeit der
Ansagen 15 wird verbessert, wenn der Sprachgenerator 3 ein
Sprachmodell enthält,
das auf Sprachdaten des Sprechers der natürlichen Sprachinformationen 11 basiert.
Hierdurch wird auch der Eindruck eines Sprecherwechsels vermieden.