DE69233622T2

DE69233622T2 - Vorrichtung zur Erzeugung von Ansagen

Info

Publication number: DE69233622T2
Application number: DE69233622T
Authority: DE
Inventors: Hans Wilhelm c/o Philips Corp. I. P. 52088 Rühl; Peter c/o Philips Corp. I. P. GmbH 52088 Meyer
Original assignee: Nuance Communications Inc
Current assignee: Nuance Communications Inc
Priority date: 1991-11-19
Filing date: 1992-11-17
Publication date: 2007-03-01
Anticipated expiration: 2012-11-18
Also published as: EP0543459A3; DE69232964D1; EP1265225A1; EP0543459A2; EP0543459B1; DE69232964T2; DE4138016A1; DE69233622D1; US5621891A; EP1265226B1; JPH05232993A; EP1265226A1

Description

Die Erfindung betrifft eine Einrichtung zum Erzeugen von Ansagen.
Eine Vorrichtung dieser Art ist zum Beispiel für Informationssysteme erforderlich, wie sie üblicherweise für Telefonauskunft oder auch Fahrplanauskunftssystemen verwendet werden. Ansagen können dabei aus einem Basissatz, wie zum Beispiel „This is the telephone information ..., please wait", verschiedenen Schlüsselwörtern, zum Beispiel in der Form von verschiedenen Städtenamen, die in den Basissatz an der Position der durch die Punkte gekennzeichneten Leerstelle einsetzbar sind, bestehen. Die Basissätze und die benötigten Schlüsselwörter können beide als natürliche Spreche in einer Speichereinheit gespeichert werden. Dies ist ein komplizierter Vorgang, der einen großen Speicherplatz erfordert, falls zum Beispiel die Anzahl möglicher Schlüsselwörter groß wäre. Darüber hinaus ist es schwierig, die Schlüsselwörter so auszusprechen, dass sie ohne Unstetigkeiten in den Basissatz eingefügt werden können. Wenn nämlich ein spezielles Schlüsselwort mit verschiedenen Basissätzen kombiniert werden müsste oder sogar an unterschiedlichen Positionen in einem einzigen Basissatz, könnte jedes solche Auftreten eine unterschiedliche Aussprache erfordern.
Die US 3,928,722 offenbart eine Vorrichtung zum Erzeugen der Audionachricht, die für ein Frage- und Antwortsystem verwendet wird. Eine Audioantwortnachricht ist aus einem festen Wort und einem variablen Wort zusammengesetzt. Das variable Wort ist ein Wort mit variablen Informationen in Abhängigkeit von der Position des variablen Worts in dem Antwortsatz. Zum Aufzeichnen einer Probe der Audiosignalformen das festen Wortes und der Steuersignale, die das feste Wort festlegen, ist ein Speicher niedriger Auslesegeschwindigkeit vorgesehen. Die entsprechenden variablen Wörter werden in einem Hochgeschwindigkeits-Speicher als Sprachelemente oder – segmente aufgezeichnet, die jeweils eine Tonhöhenlänge im Wesentlichen gleich jener der Stimme oder des Lauts des variablen Wortes haben. Zur Zeit des Auslesens der Stimme oder des Lauts oder zur Zeit der Sprachsynthese, wenn die Position der variablen Wörter in der/dem Antwortstimme oder -laut sequentiell aus dem Niedergeschwindigkeits-Speicher ausgelesen wird, wird eine Reihe der Sprachelemente oder -segmente aus dem Speicher hoher Auslesegeschwindigkeit ausgelesen und zwischen die Stimmen oder Laute fester Wörter gesetzt, die aus dem Speicher niedriger Geschwindigkeit ausgelesen werden. Das Erzeugen von Sprachnachrichten enthält ein selektives Umschalten zwischen dem Auslesen aus dem Speicher niedriger Geschwindigkeit und dem aus dem Speicher hoher Geschwindigkeit unter Berufung auf ein Steuersignal von einer Signalverarbeitungseinheit und einer Schaltung zum Kombinieren der von den obigen zwei Speichern ausgelesenen Stimmen- oder Lautsignale, und ein Erzeugen der Stimme oder des Lauts durch Umsetzen dieser kombinierten Signale. Die Vorrichtung speichert auch Tonhöhenmuster-Steuerinformationen für jedes der in einem Hochgeschwindigkeitsspeicher aufgezeichneten variablen Wörter und verwendet diese Tonhöhenmuster-Steuerinformationen, um die Tonhöhe variabler Wörter in Abhängigkeit davon einzustellen, ob sich das variable Wort innerhalb eines Satzes befindet. Dies kann Intonationsunstimmigkeiten zwischen dem variablen Wort und dem Satz, in den es eingefügt wird, reduzieren.
Die EP-A-0 405 029 offenbart ein System und ein Verfahren zum Kommunizieren und zum Zusammensetzen von Nachrichten mittels einer in ein Mikrofon gesprochenen Sprachfolge. In das Mikrofon gesprochene Wörter werden analysiert, um ausgewählte Wörter zu erfassen und als Reaktion darauf Nachrichten definierende Signale und/oder Nachrichtenübertragungs-Steuersignale zu erzeugen. Deshalb sehen das offenbarte System und Verfahren eine Einrichten zum Bewirken der Zusammensetzung und automatischen Übertragung von Nachrichten, Nutzen einer ausgewählten Sprachfolge sowohl zum Zusammensetzen als auch zum Steuern der Übertragung von Nachrichten vor. Der Aufbau einer Nachricht kann aus sowohl digitalisierten Sprachsignalen (erzeugt durch Digitalisieren der analogen Sprachsignale, die erzeugt werden, wenn eine die Wörter der Nachricht definierende Sprachfolge in das Mikrofon gesprochen wird) als auch digitalisierten künstlichen Sprachsignalen zusammengesetzt werden. Die digitalisierten künstlichen Sprachsignale werden aus einem Nachrichtenzusammensetzungsspeicher erzeugt, der mehrere Nachrichten oder Teile von Nachrichten wie beispielsweise digitale Sprachsignale von Wörtern, Ausdrücken, Sätzen, Abschnitten oder Seiten von Wörter definierenden alphanumerischen Zeichen oder andere Daten, die wiedergegeben werden können, enthält.
In I. Witten, „Making computers talk: an introduction to speech synthesis", 1986, Prentice Hall, Englewood Cliffs, New Jersey, USA, Seiten 53-68, werden Grundüberlegungen hinsichtlich der Sprachsynthese erläutert, speziell hinsichtlich der zu verwendenden Parameter.
In NHK Laboratories Note, Nr. 246, Januar 1980, Tokio, JP, Seiten 1-14, Yasuhiro et al., „An ex perimental speech synthesis system with pre-recorded words and phrases for local weather reports", werden Aspekte der Spracherzeugung betreffend ein Systems zur Erstellung lokaler Wetterberichte erläutert.
Es ist eine Aufgabe der Erfindung, eine Vorrichtung zum Erzeugen von Ansagen vorzusehen, welche die Erzeugung einer Vielzahl unterschiedlicher Ansagen ohne das Erfordernis eines großen Speicherplatzbedarfs ermöglicht.
Demgemäß sieht die Erfindung in einem Aspekt eine Vorrichtung zum Erzeugen von Ansagen vor, mit einer Speichereinheit zum Speichern natürlicher Sprachinformationen, einem Sprachgenerator, der ein Sprachmodell basierend auf Sprachdaten des Sprechers der natürlichen Sprachinformationen enthält, zum Erzeugen künstlicher Sprachinformationen, wobei die Vorrichtung angeordnet ist, um wenigstens einen Basissatz bestehend aus wenigstens einem Sprachblock, der als natürliche Sprachinformationen in der Speichereinheit gespeichert ist, und wenigstens einem Schlüsselwort, das aus den künstlichen Sprachinformationen gebildet wird, zu erzeugen.
Die Erfindung basiert auf der Erkenntnis, dass häufig wiederkehrende Basissätze in der Speichereinheit als natürliche Sprachinformationen gespeichert werden können, während Ansagen, die häufig gewechselt werden müssen, mittels eines Sprachgenerators künstlich erzeugt werden können. Die durch den Sprachgenerator erzeugten künstlichen Sprachinformationen können in Dauer, Rhythmus, Betonung und Grundfrequenzverlauf exakt manipuliert werden und lassen sich optimal in die natürlichen Sprachinformationen einfügen. Dies resultiert in einer erheblichen Reduktion des erforderlichen Speicherplatzes, weil nur die Basissätze als natürliche Sprechinformationen gespeichert werden müssen, während die künstlichen Sprachinformationen mittels der Eingabeeinheit individuell und aktuell eingegeben werden können. Ein weiterer Vorteil besteht darin, dass die Anzahl von Wörtern, die aus den künstlichen Sprachinformationen gebildet werden, nicht beschränkt ist.
Ein Ansagesystem, das zum Beispiel für Telefonansagedienste, usw. verwendet werden kann, erhält man dadurch, dass die Vorrichtung zum Erzeugen mindestens eines Basissatzes bestehend aus Sprachblöcken, die in der Speichereinheit als natürliche Sprachinformationen gespeichert sind, und aus Schlüsselwörtern, die aus den künstlichen Sprachinformationen gebildet werden und die zwischen einzelne Sprachblöcke eingefügt werden können, konzipiert wird.
Eine einfache Kombination der natürlichen und der künstlichen Sprachinformationen wird dadurch gewährleistet, dass die natürlichen Sprachinformationen in der Speichereinheit in codierter Form gespeichert sind, wobei die durch den Sprachgenerator erzeugten künstlichen Sprachinformationen entsprechend dem Code der natürlichen Sprachinformationen codiert sind.
Wenn in der Speichereinheit Informationen über den Grundfrequenzverlauf der natürlichen Sprachinformationen gespeichert sind, können diese Informationen durch den Sprachgenerator zum Erzeugen der in die natürlichen Sprachinformationen einzufügenden künstlichen Sprachinformationen berücksichtigt werden. Als Ergebnis kann der Grundfrequenzverlauf der künstlichen Sprachinformationen so konzipiert werden, dass an den Übergängen zwischen natürlichen und künstlichen Sprachinformationen keine Unstetigkeiten auftreten.
Die zum Ausgeben der Ansagen erforderlichen Einrichtungen sind begrenzt, wenn zum Ausgeben der Ansagen eine Ausgabeeinheit mit einem Ausgabespeicher und einem Digital/Analog-Umsetzer vorgesehen ist.
Eine einfache Ausgabesteuerung ist gewährleistet, wenn die Ausgabeeinheit durch die Eingabeeinheit gesteuert werden kann.
Die Verständlichkeit und Natürlichkeit der Ansagen wird wesentlich verbessert, wenn die natürlichen Sprachinformationen von nur einem Sprecher stammen.
Die Gesamtverständlichkeit und die Natürlichkeit der Ansagen werden weiter verbessert, wenn der Sprachgenerator ein Sprachmodell enthält, das auf den Sprachdaten des Sprechers der natürlichen Sprachinformationen basiert. Der Eindruck eines Sprecherwechsels wird so vermieden.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Weitere Aspekte und Vorteile der Erfindung werden nachfolgend anhand der in den Figuren gezeigten Ausführungsbeispiele im detail beschrieben. Darin zeigen:
1 eine Ausführungsbeispiel einer Vorrichtung zum Erzeugen von Ansagen; und
2 ein Beispiel für die Zusammensetzung von Ansagen aus natürlichen und künstlichen Sprachinformationen.
BESCHREIBUNG BEVORZUGTER AUSFÜHRUNGSBEISPIELE
Die Vorrichtung zum Erzeugen von Ansagen besteht, wie in 1 dargestellt, grundsätzlich aus einer Eingabeeinheit 1, einer Speichereinheit 2, einem Sprachgenerator 3 sowie einem Multiplexer 4. Natürliche Sprachinformationen 11, zum Beispiel in PCM-codierter Form, können in der Speichereinheit 2 gespeichert werden, wobei die natürlichen Sprachinformationen von einem Sprecher zum Beispiel mittels eines Mikrofons eingegeben werden, das an die Eingabeeinheit 1 angeschlossen werden kann. Zum Übertragen solcher natürlicher Sprache hat die Eingabeeinheit 1 einen analogen Audiokanal, einen Analog/PCM-Umsetzer und eine Aktivierungseinrichtung, die nicht gesondert dargestellt sind, die die analoge Eingabe, das Umsetzen bzw. die Speicherung in der Speichereinheit 2 ermöglichen. Darüber hinaus ist eine Datenverwaltung für die so aus natürlicher Sprache aufgebaute Datenbasis in herkömmlicher Weise vorgesehen, beispielsweise indem jede gespeicherte natürliche Spracheinheit oder -nachricht eine geeignete Ziffer oder Kennzeichnung hat, um ein einfaches Wiederfinden zu ermöglichen.
In einem weiteren Ausführungsbeispiel kann die natürliche Sprache offline aufgezeichnet worden sein, sodass die Eingabeeinheit keine Analog/PCM-Umsetzung benötigt, sondern nur eine Wiedergewinnungssteuerung für die Speichereinheit 2.
Zusätzlich zur obigen Erläuterung arbeitet die Eingabeeinheit 1 zum Steuern des Sprachgenerators 3, zum Beispiel indem sie eine vollständige alphanumerische Tastatur und einen zugehörigen Bildschirm aufweist, um Wortinformationen 12 dem Sprachgenerator 3 zuzuführen, wobei das Wort durch Eintasten der einzelnen Zeichen gebildet wird. In manchen Fällen könnte es günstig sein, dass gewisse oder alle eingegebenen Wörter bereits als Zeichencodeketten gespeichert sind, sodass nur eine Auswahl von der Eingabeeinheit 1 notwendig wäre. Die Speicherung als Zeichencodes benötigt viel weniger Raum als eine Speicherung als Sequenz von PCM-Codes. Nun erzeugt der Sprachgenerator 3 aus den Wortinformationen 12 künstliche Sprachinformationen 14. Über den Multiplexer 4 werden diese künstlichen Sprachinformationen 14 mit den natürlichen Sprachinformationen 13 kombiniert, um so die Ansagen zu bilden. Die Ansagen 15 werden über eine Ausgabeeinheit 5 ausgegeben, die einen Ausgabespeicher 9, einen Analog/Digital-Umsetzer 6, einen Verstärker 7 und einen Lautsprecher 8 aufweist.
In der Speichereinheit 2 sind ein oder mehrere so genannte Basissätze in codierter Form gespeichert. Derartige Basissätze bestehen aus einzelnen Sprachblöcken, wobei zwischen einzelnen Sprachblöcken so genannte Schlüsselwörter eingefügt werden können. Die Stellen zum Einfügen werden durch geeignete Daten angegeben, zum Beispiel einen Merker. Diese Merker, die auch zum Multiplexer 4 übertragen werden, steuern dann das Umschalten des Multiplexers 4 von der natürlichen Sprache aus der Speichereinheit 2 zum Sprachgenerator 3. Falls notwendig, kann ein solches Umschalten auch dem menschlichen Operator zurücksignalisiert werden, wie beispielsweise über eine Bildschirmmeldung (Verbindung nicht dargestellt). Diese signalisiert dem Operator, dass er das einzufügende Wort eingeben muss. Am Ende des eingefügten Wortes kann der Operator den Multiplexer 4 zur Speichereinheit 2 zurückschalten, wie beispielsweise durch Betätigung der Eingabetaste. Die Schlüsselwörter können zum Beispiel Namen von Städten oder auch Zahlen sein. Zum Beispiel enthält der Satz „Der Eilzug von S1 nach S2 hat voraussichtlich S3 Minuten Verspätung" die einzelnen Sprachblöcke B1 „Der Eilzug von", B2 „nach", B3 „hat voraussichtlich" und B4 „Minuten Verspätung" sowie verschiedene Städtenamen als die Schlüsselwörter S1 und 32 und eine zahl als das Schlüsselwort S3. Eine Eingabe verschiedener Schlüsselwörter S1, S2, S3 ermöglicht die Erzeugung unterschiedlicher Ansagen 15.
Nachfolgend wird der Vorgang zum Erzeugen von Ansagen 15 beschrieben. Über die Eingabeeinheit 1, zum Beispiel eine Tastatur mit einem Bildschirm, wird zunächst ein gewünschter Basissatz aus den in der Speichereinheit 2 gespeicherten Basissätzen ausgewählt. Die Speichereinheit 2 speichert auch Informationen US1, US2, US3 bezüglich des Grundfrequenzverlaufs an den Grenzen der Sprachblöcke B1, B2, B3, B4 und der Schlüsselwörter S1, S2, S3. Über die Eingabeeinheit 1 werden die Schlüsselwörter S1, S2, S3 in beliebig codierter Form, zum Beispiel als normaler Text eingegeben. Die Schlüsselwörter S1, S2, S3 werden als Wortinformationen 12 an den Sprachgenerator weitergegeben, der aus den Schlüsselwörtern S1, S2, S3 die künstlichen Sprachinformationen 14 erzeugt Damit an den Übergängen zwischen natürlicher und künstlicher Sprache Unstetigkeiten vermieden werden, wodurch schwer verständliche und/oder unnatürliche Ansagen 15 bewirkt würden, werden die entsprechenden Parameter während der Erzeugung der künstlichen Sprachinformationen 14 durch die Informationen US1, US2, US3 an den Grundfrequenzverlauf der jeweiligen Sprachblöcke B1, B2, B3, B4 angepasst. Dies verhindert eine Irritation des Zuhörers der Ansagen infolge einer unnatürlichen Betonung, wodurch auch die Akzeptanz der Ansagen verbessert wird. Gesteuert durch die Informationen US1, US2, US3 betreffend den Tonhöhenverlauf, erzeugt der Sprachgenerator 3 aus den Wortinformationen 12 die künstlichen Sprachinformationen 14 in codierter Form. Die künstlichen Sprachinformationen 14 sowie die natürlichen Sprachinformationen 13 werden dem Multiplexer 4 zugeführt, der die aus den natürlichen Sprachinformationen bestehenden Sprachblöcke B1, B2, B3, B4, d.h. den Basissatz, und die aus den künstlichen Sprachinformationen 14 bestehenden Schlüsselwörter S1, S2, S3 kombiniert, um so die Ansagen zu bilden, wie in 2 im Detail dargestellt. Die Darstellung der künstlichen Sprache ist eine geeignete Sequenz von PCM-Codes. Als nächstes werden die Ansagen 15 in den Ausgabespeicher 9 der Ausgabeeinheit 5 geschrieben. Das Ausgangssignal 16 des Ausgabespeichers 9 ist ein PCM-Signal, das durch den Digital/Analog-Umsetzer 8 zunächst in ein analoges Signal 17 umgesetzt wird. Das Analogsignal 17 wird durch den Verstärker 7 verstärkt, um so als ein Ausgabesignal 18 an den Lautsprecher 8 übertragen zu werden.
2 zeigt ein Beispiel von Ansagen. Der obere Teil von 2 zeigt einen Basissatz, der aus Sprachblöcken B1, B2, B3, B4 gebildet ist und der durch Schlüsselwörter S1, S2, S3 ergänzt werden kann. Der untere Teil von 2 zeigt den Grundfrequenzverlauf f als Funktion der Zeit t für den im oberen Teil von 2 gezeigten Beispielsatz „ Der Eilzug von Frankfurt nach Offenbach hat voraussichtlich 10 Minuten Verspätung".
Der in 2 gezeigte Basissatz „Der Eilzug von S1 nach S2 hat voraussichtlich S3 Minuten Verspätung" enthält die Sprachblöcke B1, B2, B3, B4, die als natürliche Sprachinformationen 11 in der Speichereinheit 2 (1) gespeichert sind. Die Schlüsselwörter Nürnberg, Frankfurt = S1, Erlangen, Offenbach = S2 und 5, 10 = S3 werden nach Bedarf in den Basissatz eingefügt. Unterschiedliche Ansagen können so erzeugt werden. An den Übergängen zwischen den Sprachblöcken B1, B2, B3, B4 und den Schlüsselwörtern S1, S2, S3 sind zu jedem Basissatz in der Speichereinheit Informationen US1, US2, US3 über den Grundfrequenzverlauf gespeichert Dies wird in 2 mittels Kreisen hervorgehoben. Einerseits wird ein unnatürlicher Eindruck der Ansagen vermieden, und gleichzeitig ist die Verständlichkeit der Ansage wesentlich besser als wenn sie vollständig künstlich erzeugt werden würde.
Der Vorteil der Erfindung liegt einerseits im reduzierten Speicheraufwand, da nur die die Basissätze bildenden natürlichen Sprachinformationen 11 gespeichert werden müssen. Außerdem können beliebige Schlüsselwörter mit Hilfe der Eingabeeinheit 1 „editiert" werden, wobei eine einfache Eingabe lediglich über eine Tastatur möglich ist. So ist die Anzahl der Schlüsselwörter nicht beschränkt. Die künstlichen Sprachinformationen 14 können bezüglich Dauer, Rhythmus, Betonung und Grundfrequenzverlauf exakt manipuliert werden, wobei es möglich ist, diese Manipulation mittels der Informationen US1, US2, US3 optimal an die jeweiligen Basissätze anzupassen. Die Gesamtverständlichkeit und Natürlichkeit der Ansagen 15 wird verbessert, wenn der Sprachgenerator 3 ein Sprachmodell enthält, das auf Sprachdaten des Sprechers der natürlichen Sprachinformationen 11 basiert. Hierdurch wird auch der Eindruck eines Sprecherwechsels vermieden.

Claims

Vorrichtung zum Erzeugen von Ansagen (15), mit einer Speichereinheit (2) zum Speichern natürlicher Sprachinformationen, einem Sprachgenerator (3), der ein Sprachmodell basierend auf Sprachdaten des Sprechers der natürlichen Sprachinformationen enthält, zum Erzeugen künstlicher Sprachinformationen, wobei die Vorrichtung angeordnet ist, um wenigstens einen Basissatz bestehend aus wenigstens einem Sprachblock (B1, B2, B3, B4), der als natürliche Sprachinformationen in der Speichereinheit (2) gespeichert ist, und wenigstens einem Schlüsselwort (S1, S2, S3), das aus den künstlichen Sprachinformationen (14) gebildet wird, zu erzeugen.
Vorrichtung zum Erzeugen von Ansagen (15) nach Anspruch 1, dadurch gekennzeichnet, dass eine Eingabeeinheit (1) zum Präsentieren erster und zweiter Steuersignale vorgesehen ist, die Speichereinheit (2) zum wahlweisen Ausgeben der natürlichen Sprachinformation unter der Steuerung der ersten Steuersignale vorgesehen ist, der Sprachgenerator (3) zum Erzeugen künstlicher Sprachinformationen unter Steuerung der zweiten Steuersignale vorgesehen ist, und Multiplexereinrichtungen (4) zum Zusammensetzen der Ansagen durch zeitexklusives Verknüpfen der natürlichen Sprachinformationen und der künstlichen Sprachinformationen vorgesehen sind.
Vorrichtung nach einem der Ansprüche 1 oder 2, dadurch gekennzeichnet, dass die natürlichen Sprachinformation in der Speichereinheit (2) in codierter Form gespeichert sind, wobei die durch den Sprachgenerator (3) erzeugten künstlichen Sprachinformationen (14) in Übereinstimmung mit dem Code der natürlichen Sprachinformationen codiert werden.
Vorrichtung nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Speichereinheit (2) Informationen (US1, US2, US3) bezüglich der Grundfrequenzschwankung der natürlichen Sprachinformationen speichern, die vorgesehen sind, um zum Anpassen von Parametern der künstlichen Sprachinformationen benutzt zu werden, um Unstetigkeiten an den Übergängen zwischen natürlichen und künstlichen Sprachinformationen zu vermeiden.
Vorrichtung nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass für die Ausgabe der Ansagen (15) eine Ausgabeeinheit (5) vorgesehen ist, welche einen Ausgabespeicher (9) und einen Digital/Analog-Umsetzer (6) aufweist.
Vorrichtung nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Ausgabeeinheit (5) durch die Eingabeeinheit (1) gesteuert werden kann.
Vorrichtung nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass die natürlichen Sprachinformationen von nur einem Sprecher abgeleitet sind.
Vorrichtung nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass die natürlichen Sprachinformationen über ein Mikrofon (10) eingegeben werden können, das mit der Eingabeeinheit (1) verbunden werden kann.