DE10211777A1

DE10211777A1 - Erzeugung von Nachrichtentexten

Info

Publication number: DE10211777A1
Application number: DE10211777A
Authority: DE
Inventors: Matthias Pankert; Reimund Schmald; Jens Marschner
Original assignee: Philips Intellectual Property and Standards GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 2002-03-14
Filing date: 2002-03-14
Publication date: 2003-10-02
Also published as: EP1488412A1; WO2003077234A1; US20050256710A1; JP2005520194A; AU2003207917A1

Abstract

Die Erfindung bezieht sich auf ein Verfahren zum Erzeugen von Nachrichtentexten. Um die Erzeugung von Nachrichtentexten für einen Benutzer möglichst bequem und effizient auszugestalten, werden folgende Schritte vorgeschlagen: DOLLAR A - Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels grammatikbasierten Spracherkennungsprozeduren; DOLLAR A - Verarbeitung der Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren entweder parallel zur Verarbeitung mittels grammatikbasierter Spracherkennung oder nach Vorliegen eines Erkennungsergebnisses, das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugt wurde und eine vordefinierte Qualität nicht erreicht; DOLLAR A - Erzeugen eines Nachrichtentextes unter Verwendung der mittels der grammatikbasierten und/oder sprachmodellbasierten Spracherkennungsprozeduren erzeugten Erkennungsergebnisse.

Description

Die Erfindung betrifft ein Verfahren zum Erzeugen von Nachrichtentexten. Bei der Versendung von Nachrichtentexten über Telekommunikationssysteme, insbesondere von sogenannten SMS-Nachrichten (Short Message Service) werden Nachrichten über Kommunikationsnetzwerke, insbesondere über Mobilfunksysteme und/oder das Internet übertragen. Die Erzeugung von Nachrichtentexten mittels Tastatureingabe ist für einen Benutzer häufig unbequem, was besonders für Benutzer von Mobilfunkendgeräten mit kleiner Tastatur und regelmäßig mehrfach belegten Tasten gilt. Die Möglichkeit einer Spracheingabe und die Verwendung von Systemen mit automatischer Spracherkennung verschafft hier Abhilfe. In einem möglichen Szenario ruft ein Benutzer eines Mobilfunkendgeräts, der eine SMS-Nachricht erzeugen will, einen automatischen Telefon- Service an, der ein automatisches Dialogsystem mit Spracherkennung beinhaltet. Automatische Dialogsysteme sind für eine Vielzahl von Anwendungen bekannt. Danach läuft ein Dialog ab, in dem der Benutzer den Nachrichtentext eingibt und den Empfänger des Nachrichtentextes spezifiziert, so dass anschließend der Nachrichtentext an den Empfänger versendet werden kann.
Eine grundsätzliche Beschreibung von einem automatischen Dialogsystem lässt sich beispielsweise aus A. Kellner, B. Rüber, F. Seide und B. H. Tran, "PADIS-AN AUTOMATIC TELEPHONE SWITCHBOARD AND DIRECTORY INFORMATION SYSTEM", Speech Communication, vol. 23, Seiten 95-111, 1997 entnehmen. Hier werden über eine Schnittstelle zu einem Telefonnetz Sprachäußerungen eines Benutzers empfangen. Vom Dialogsystem wird als Reaktion auf eine Spracheingabe eine Systemantwort (Sprachausgabe) generiert, die an den Benutzer über die Schnittstelle und hier weiterhin über das Telefonnetz übertragen wird. Spracheingaben werden von einer auf Hidden Markov Modellen (HMM) basierenden Spracherkennungseinheit in einen Wortgraphen umgesetzt, der in komprimierter Form verschiedene Wortfolgen angibt, die als Erkennungsergebnis für die empfangene Sprachäußerung in Frage kommen.
Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Erzeugung von Nachrichtentexten anzugeben, das für einen Benutzer möglichst bequem und weiterhin effizient ist.
Die Aufgabe wird gelöst durch folgende Schritte:

- Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels grammatikbasierten Spracherkennungsprozeduren;
- Verarbeitung der Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren entweder parallel zur Verarbeitung mittels grammatikbasierter Spracherkennung oder nach Vorliegen eines Erkennungsergebnisses, das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugt wurde und eine vordefinierte Qualität nicht erreicht;
- Erzeugen eines Nachrichtentextes unter Verwendung der mittels der grammatikbasierten und/oder sprachmodellbasierten Spracherkennungsprozeduren erzeugten Erkennungsergebnisse.

Bei einem solchen Verfahren kann der Benutzer Nachrichtentexte bequem mittels Spracheingabe erzeugen. Die Umsetzung einer Spracheingabe in einen Nachrichtentext ist dabei sehr zuverlässig, was einerseits durch Wahl einer geeigneten Grammatik und andererseits durch Wahl eines an die jeweilige Anwendung oder Benutzer-Zielgruppe angepassten Sprachmodells sichergestellt wird, wobei das Sprachmodell üblicherweise auf N-Grammen basiert. Telefonnummern, Zeit- und Datumsangaben werden zuverlässig mittels der grammatikbasierten Spracherkennungsprozeduren erkannt. Bei freien formulierten Spracheingaben stellen die sprachmodellbasierten Spacherkennungsprozeduren sicher, dass ein Erkennungsergebnis mit möglichst hoher Zuverlässigkeit zur Verfügung steht. Der Rechenaufwand wird reduziert, indem die sprachmodellbasierten Erkennungsprozeduren nur dann auf die Spracheingabe angewendet werden, wenn das von den grammatikbasierten Spracherkennungsprozeduren gelieferte Erkennungsergebnis eine vordefinierte Qualität, d. h. insbesondere einen vorgegebenen Konfidenzmaßschwellwert nicht erreicht. Paralleles Verarbeiten einer Spracheingabe mittels grammatik- und sprachmodellbasierter Spracherkennung ist ein alternativer Ansatz und führt ebenso zu einem Höchstmaß an Zuverlässigkeit bei der Erkennung von Spracheingaben.
Für die sprachmodellbasierten Spracherkennungsprozeduren lassen sich insbesondere auch mehrere unterschiedliche Sprachmodelle einsetzen, die für unterschiedliche Anwendungen oder Zielgruppen generiert wurden. Dies lässt sich zur Verbesserung der Zuverlässigkeit bei der Erzeugung von Nachrichtentexten mittels Spracheingaben einsetzen.
In einer Ausgestaltung wird die Auswahl des jeweils geeignetsten Sprachmodells von dem Ergebnis der vorher durchgeführten grammatikbasierten Spracherkennungsprozeduren abhängig gemacht. Dabei wird ausgenutzt, dass selbst in einem nicht korrekten Erkennungsergebnis, das mittels der grammatikbasierten Spracherkennungsprozeduren ermittelt wurde, Information enthalten ist, die zur Auswahl eines geeigneten Sprachmodells ausgenutzt werden kann, z. B. einzelne Worte, die auf ein Thema oder eine Anwendung hinweisen.
Eine andere Ausgestaltung, bei der ebenfalls unterschiedliche Sprachmodelle eingesetzt werden, verzichtet auf die Auswertung des Ergebnisses einer grammatikbasierten Spracherkennung zur Auswahl des jeweils geeignetsten Sprachmodells und wendet die sprachmodellbasierten Spracherkennungsprozeduren mehrfach mit unterschiedlichen Sprachmodellen auf eine Spracheingabe an. Aus den sich ergebenden Erkennungsergebnisalternativen wird durch Vergleich der zugehörigen Konfidenzmaßwerte die Ergebnisalternative mit der größten Zuverlässigkeit als Erkennungsergebnis selektiert.
Die Aufgabe wird auch gelöst durch ein Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:

- Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels sprachmodellbasierten Spracherkennungsprozeduren zur Erzeugung eines Wortfolgenalternativen darstellenden Wortgraphen;
- Verarbeitung des Wortgraphen mittels eines Parsers;
- Erzeugen eines Nachrichtentextes unter Verwendung des vom Parser gelieferten Erkennungsergebnisses oder Auswahl einer Wortfolgenalternative aus dem Wortgraphen.

Des weiteren wird die Aufgabe gelöst durch ein Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:

- Verarbeitung einer Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren, wobei unterschiedliche Sprachmodelle zur Erzeugung einer entsprechenden Anzahl Erkennungsergebnisse eingesetzt werden;
- Bestimmung von Konfidenzmaßwerten für die Erkennungsergebnisse;
- Erzeugen eines Nachrichtentextes unter Verwendung des Erkennungsergebnisses mit dem besten Konfidenzmaßwert.

Die erfindungsgemäßen Verfahren zur Erzeugung von Nachrichtentexten werden insbesondere in einem automatischen Dialogsystem eingesetzt, das den erzeugten Nachrichtentext, beispielsweise eine SMS-Nachricht (Short Message Service) über ein Telekommunikationsnetzwerk an einen vorher ausgewählten Adressaten übermittelt. Die Spracheingabe kann beispielsweise mittels eines Mobiltelefons getätigt werden. Die Spracheingabe wird über das Telefonnetz an das automatische Dialogsystem (Telefonservice) übertragen, das die Spracheingabe in einen Nachrichtentext umsetzt, der wiederum beispielsweise an einem anderen Mobilfunkteilnehmer übertragen wird. Sowohl derjenige, der die eine Nachricht repräsentierende Spracheingabe generiert, als auch der Adressat der jeweiligen Nachricht können selbstverständlich auch einen Computer, der beispielsweise an das Internet angeschlossen ist, zum Verarbeiten der Spracheingabe bzw. zum Empfang des Nachrichtentextes verwenden.
Die Erfindung bezieht sich auch auf ein Computersystem und ein Computerprogramm zur Durchführung des erfindungsgemäßen Verfahrens sowie auf einen computerlesbaren Datenträger mit einem derartigen Computerprogramm.
Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnungen näher erläutert. Es zeigen:
Fig. 1 ein Telekommunikationssystem mit Systemkomponenten zum Generieren und Übertragen von Nachrichtentexten,
Fig. 2 ein Dialogsystem zum Einsatz bei der Erzeugung von Nachrichtentexten und
Fig. 3 bis 7 Flussdiagramme zur Erläuterung der erfindungsgemäßen Erzeugung von Nachrichtentexten und
Fig. 8 ein Blockschaltbild zu einer Dialogsystemvariante.
Bei dem in Fig. 1 dargestellten Telekommunikationssystem 100 ist ein Telekommunikationsnetzwerk 101 vorgesehen, das insbesondere ein oder mehrere Mobilfunknetze und/oder ein öffentliches Fernsprechfestnetz (PSTN, Public Switched Telephone Network) und/oder das Internet umfasst. In Fig. 1 sind beispielhaft Mobilfunksystemkomponenten dargestellt, d. h. eine an das Telekommunikationsnetzwerk 101 angeschlossene Mobilfunkbasisstation 102 und Mobilfunkendgeräte 103, die sich in der Empfangsreichweiter der Basisstation 102 befinden. Weiterhin sind beispielhaft zwei an das Telekommunikationsnetzwerk 101 gekoppelte Personalcomputer 104 und ein an das Telekommunikationsnetzwerk 101 gekoppeltes Telephonendgerät 106 dargestellt. Des weiteren zeigt Fig. 1 ein an das Telekommunikationsnetzwerk 101 angeschlossenes und auf einem Computersystem implementiertes Dialogsystem 105.
Fig. 2 zeigt ein Blockschaltbild zur Erläuterung der Systemfunktionen des Dialogsystems 105. Eine Schnittstelle 201 findet eine Signalaustausch mit dem Telekommunikationsnetzwerk 101 statt. Ein empfangenes Sprachsignal, das z. B. mittels eines Mikrophons eines Mobilfunkgerätes 103 oder des Personalcomputers 104 oder des Telephonendgeräts 106 empfangen und über das Telekommunikationsnetzwerk 101 an das Computersystem 105 übertragen wurde, wird nach Empfang über eine Schnittstelle 201 mittels einer Vorverarbeitungseinheit 202 einer Merkmalsextraktion unterworfen, bei der Merkmalsvektoren gebildet werden, die von Spracherkennungsprozeduren 203 in ein Spracherkennungsergebnis umgesetzt werden. Es sind sowohl grammatikbasierte Spracherkennungsprozeduren 204 als auch sprachmodellbasierte Spracherkennungsprozeduren 205 vorgesehen, wobei grammatikbasierte Spracherkennungsprozeduren beispielsweise aus dem eingangs genannten Artikel A. Kellner, B. Rüber, F. Seide und B. H. Tran, "PADIS-AN AUTOMATIC TELEPHONE SWITCHBOARD AND DIRECTORY INFORMATION SYSTEM", Speech Communication, vol. 23, Seiten 95-111, 1997 und sprachmodellbasierte Spracherkennungsprozeduren beispielsweise aus "THE PHILIPS RESEARCH SYSTEM FOR CONTINUOUS-SPEECH RECOGNITION" by V. Steinbiss et. al., Philips J. Res. 49 (1995) 317-352 grundsätzlich bekannt sind. Die Vorverarbeitungseinheit 202 kann in einer bevorzugten Ausführungsform auch integraler Bestandteil der Spracherkennungsprozeduren 203 sein. der Ein Block 206 fasst Steuerungsfunktionen bei der Verarbeitung von Sprachsignalen zusammen. In einem durch einen Block 207 dargestellten Datenspeicher sind anwendungsspezifische Daten abgelegt, die für den Betrieb des Dialogssystems erforderlich sind. Insbesondere sind diese Daten zur Führung eines Dialogs mit einem Benutzer und ein oder mehrere Grammatiken oder Teilgrammatiken und ein oder mehrere Sprachmodelle zur Durchführung der grammatikbasierten Spracherkennungsprozeduren 204 bzw. der sprachmodellbasierten Spracherkennungsprozeduren 205. In Abhängigkeit vom jeweiligen Spracherkennungsergebnis und ggf. einem vorherigen Dialogverlauf generiert die Steuereinheit 206 Systemausgaben, die über die Schnittstelle 201 und das Telekommunikationsnetzwerk 101 an den Benutzer, der die jeweilige Spracheingabe generiert hat, übertragen werden oder auch als Nachrichtentexte darstellende Signale an einen oder mehrer Benutzer, d. h. an deren Telekommunikationsendgeräte wie beispielsweise Mobilfunkendgeräte oder Personalcomputer, übertragen werden. Die Erzeugung von Systemausgaben, d. h. von Sprachsignalen oder Nachrichtentexten, ist durch einen Block 208 zusammengefasst.
Fig. 3 zeigt ein erstes Flussdiagramm zur Erläuterung einer Erzeugung von Nachrichtentexten gemäß der Erfindung. Block 301 fasst die Ausgabe einer Begrüßung durch das Dialogsystem 105 zusammen, das von einem Benutzer angerufen worden ist, um per Spracheingabe einen Nachrichtentext zu versenden. Bei der Begrüßung wird dem Benutzer z. B. mitgeteilt, dass er einen Telefonservice zur Generierung von Nachrichtentexten (insbesondere Kurznachrichten, SMS) angerufen hat. In einem Schritt 302 wird der Benutzer zur Eingabe einer Adresse (z. B. einer Telefonnummer oder einer Email Adresse) aufgefordert, an die ein noch einzugebender Nachrichtentext zu übermitteln ist. In Schritt 303 wird der Benutzer zur Eingabe eines Nachrichtentextes aufgefordert, worauf sich in Schritt 304 die Spracheingabe eines Nachrichtentextes durch den Benutzer anschließt. In Schritt 305 wird diese Spracheingabe unter Einsatz der Vorverarbeitung 202 und der Spracherkennungsprozeduren 203 in einen Nachrichtentext umgesetzt. Danach - ggf. nach einen sich noch anschließenden Verifikationsdialog am Ende des Schrittes 305 - wird in Schritt 306 auf der Basis des so erzeugten Nachrichtentextes und der eingegebenen Adresse eine Nachricht generiert, die von der Ausgabeeinheit 208 über die Schnittstelle 201 an das Telekommunikationsnetzwerk 101 abgegeben wird. In Abhängigkeit von der eingegebenen Adresse wird der Nachrichtentext an den ausgewählten Empfänger, z. B. ein Mobiltelefon 103 oder einen Personalcomputer 104, in einem Schritt 307 übertragen.
Bei dem Ausführungsbeispiel gemäß Fig. 4 wird der Verarbeitungsschritt 305 näher erläutert. Zunächst wird in einem Schritt 402 eine Verarbeitung mittels der grammatikbasierten Spracherkennungsprozeduren 204 für die gesamte Spracheingabe durchgeführt. Hierbei werden insbesondere häufig vorkommende Worte oder Wortfolgen, z. B. Telefonnummern, Zeitangaben oder Datumsangaben, mit hoher Zuverlässigkeit identifiziert und erkannt. In Schritt 402 wird außerdem für das von den grammatikbasierten Spracherkennungsprozeduren gelieferte Erkennungsergebnis ein Konfidenzmaßwert ermittelt, der in Schritt 403 mit einem Konfidenzmaßschwellwert verglichen wird. Erreicht der in Schritt 402 ermittelte Konfidenzmaßwert den vorgegebenen Konfidenzmaßschwellwert, d. h. liegt eine ausreichende Zuverlässigkeit des von der grammatikbasierten Spracherkennungsprozeduren gelieferten Erkennungsergebnisses vor, wird das in Schritt 402 erzeugte Erkennungsergebnis bzw. die darin enthaltenden Informationen zur Erzeugung eines Nachrichtentextes verwendet, wobei vordefinierte Nachrichtentexte verwendet werden, die variable Textbestandteile enthalten, die wiederum mittels des in Schritt 402 erzeugten Erkennungsergebnisses bestimmt werden. Das Ergebnis aus Schritt 402 besteht aus bezüglich der Grammatik gültigen Phrasen (Satzteilen) oder Sätzen mit zugehörigen Konfidenzwerten. In Schritt 404 wird nach bestmöglicher Übereinstimmung dieser Phrasen mit vorformulierten Sätzen gesucht. Diese vorformulierten Sätze können Variablen enthalten (z. B. Datum, Telefonnummer), die gegebenenfalls durch erkannte Phrasen ausgefüllt werden.
Ergibt der in Schritt 403 durchgeführte Vergleich, dass der vorgegebene Konfidenzmaßschwellwert nicht erreicht wird (nicht ausreichende Zuverlässigkeit des Erkennungsergebnisses der grammatikbasierten Spracherkennungsprozeduren), werden die sprachmodellbasierten Spracherkennungsprozeduren 205 auf die Spracheingabe bzw. die von der Vorverarbeitungseinheit 202 erzeugten Merkmalsvektoren angewendet (Schritt 405).
An den Schritt 404 bzw. den Schritt 405 schließt sich ein optionaler Schritt 406 an, in dem der Benutzer zur Verifikation des in Schritt 404 bzw. 405 erzeugten Nachrichtentextes aufgefordert wird. Dabei wird - bevor der Nachrichtentext an den Empfänger abgesandt wird - der erzeugte Nachrichtentext dem Benutzer beispielsweise mittels Sprachsynthese zur Verifikation präsentiert (vorgelesen), oder der erzeugte Nachrichtentext wird dem Benutzer textuell zur Verifikation präsentiert (auf einem Gerätedisplay angezeigt).
Falls der Benutzer in Schritt 406 die Verifikation verweigert, werden an den Benutzer Nachrichtentextalternativen ausgegeben, die durch Verwendung von Erkennungsergebnisalternativen der grammatikbasierten Spracherkennungsprozedierungen bzw. sprachmodellbasierten Spracherkennungsprozeduren erzeugt werden. Wird in Schritt 406 ein an den Benutzer ausgegebener Nachrichtentext von diesem verifiziert, werden die Schritte 306 und 307 gemäß Fig. 3 durchgeführt. Falls kein Verifikationsdialog gemäß Schritt 406 vorgesehen ist, schließen sich die Schritte 306 und 307 unmittelbar an Schritt 404 bzw. Schritt 405 an.
Bei dem Ausführungsbeispiel gemäß Fig. 5 werden in einem Schritt 501 die grammatikbasierten Spracherkennungsprozeduren lediglich auf eine oder mehrere Teile der Spracheingabe getrennt angewendet, anstatt diese auf die gesamte Spracheingabe anzuwenden (Schritt 402 in Fig. 4). Die ermittelten Spracherkennungsergebnisse, die in Schritt 501 bestimmt werden, werden in Schritt 502 mit vordefinierten Mustern von Nachrichtentexten verglichen. Schritt 503 repräsentiert die Abfrage, ob in Schritt 502 ein korrespondierendes Nachrichtentextmuster gefunden werden konnte. Wurde ein solches gefunden, schließen sich wie bei dem Ausführungsbeispiel gemäß Fig. 4 die Schritte 403, 404 und 406 an. Wird kein korrespondierendes Nachrichtentextmuster gefunden, werden auf die Spracheingabe die sprachmodellbasierten Spracherkennungsprozeduren (Schritt 405) angewendet, wonach sich ggf. noch in Schritt 406 ein optionaler Verifikationsdialog wie in dem Ausführungsbeispiel gemäß Fig. 4 anschließen kann.
Das Ausführungsbeispiel gemäß Fig. 6 zeigt eine Variante des Ausführungsbeispiels gemäß Fig. 4, bei dem das Ergebnis der grammatikbasierten Spracherkennungsprozeduren in Schritt 402 dazu verwendet wird, ein Sprachmodell für die sprachmodellbasierten Spracherkennungsprozeduren auszuwählen. Beispielsweise werden hier bestimmte Schlüsselworte, die auf ein bestimmtes Themengebiet hinweisen, zur Selektion des Sprachmodells in Schritt 601 ausgewertet.
Anstelle der sprachmodellbasierten Spracherkennungsprozeduren mit festem Sprachmodell (Schritt 405) werden nun sprachmodellbasierte Spracherkennungsprozeduren mit dem in Schritt 601 ausgewählten und damit variablen Sprachmodell in einem Schritt 405 auf die Spracheingabe angewendet, wenn in Schritt 403 sich ergeben hat, dass der Konfidenzmaßschwellwert nicht erreicht wurde.
Bei dem Ausführungsbeispiel gemäß Fig. 7 werden die von der Vorverarbeitung in Schritt 401 gelieferten Merkmale für die Spracheingabe in einem Schritt 701 parallel mittels der grammatikbasierten Spracherkennungsprozeduren 204 und der sprachmodellbasierten Spracherkennungsprozeduren 205 verarbeitet. Für das Erkennungsergebnis der grammatikbasierten Spracherkennung wird ein erster Konfidenzwert, und für das Ergebnis der sprachmodellbasierten Spracherkennung ein zweiter Konfidenzwert bestimmt, die in einem Schritt 702 miteinander verglichen werden. Ist der erste Konfidenzmaßwert größer als der zweite Konfidenzmaßwert, schließen sich wie in den vorherigen Ausführungsbeispielen die Schritte 404 und 406 an. Ist der erste Konfidenzmaßwert nicht größer als der zweite Konfidenzmaßwert, d. h. sind die Ergebnisse der grammatikbasierten Spracherkennungsprozeduren nicht zuverlässiger als das Ergebnis der sprachmodellbasierten Spracherkennungsprozeduren, so wird das Erkennungsergebnis der sprachmodellbasierten Spracherkennungsprozeduren zur Erzzeugung des Nachrichtentextes verwendet. Es schließt sich ggf noch der optionale Verifikationsdialog des Schrittes 406 an.
Eine weitere Implementierungsvariante des Dialogsystems nach Fig. 2 zeigt Fig. 8. Die Schnittstelle 201, die Steuereinheit 206, die Datenbank 207 und die Ausgabeeinheit 208 sind auch bei dieser Ausführungsform vorhanden. Die Steuereinheit 206 und die Datenbank 207 wirken auf die Verarbeitung mittels Spracherkennungsprozeduren 802 ein, die einen N-Gramm-Spracherkenner 803, einen Parser 804 und eine Nachverarbeitungseinheit 805 umfasst. Mittels des zur Durchführung von Merkmalsextraktion und sprachmodellbasierten Spracherkennungsprozeduren ausgebildeten N-Gramm-Spracherkenners 803 wird aus einem über die Schnittstelle 201 empfangenen Sprachsignals ein Wortgraph erzeugt. Dieser wird anschließend mittels einer Grammatik mit dem Parser 804 geparst, d. h. es werden grammatikbasierte Spracherkennungsprozeduren durchführt. Das so erzeugte Erkennungsergebnis wird an die Ausgabeeinheit 208 weitergegeben, wenn das erzeugte Erkennungsergebnis zufriedenstellend ist. Falls die grammatikbasierte Verarbeitung in Block 804 zu keinem zufriedenstellenden Ergebnis führt, wird in einer durch einen Block 805 dargestellten Nachverarbeitungseinheit auf der Basis des vom N-Gramm- Spracherkenner 803 erzeugten Wortgraphen die beste aus diesem ableitbare Wortfolgenalternative als Erkennungsergebnis, d. h. als Nachrichtentext, ermittelt und an die Ausgabeeinheit 208 weitergegeben, die den erzeugten Nachrichtentext an den jeweiligen Adressaten ausgibt.

Claims

1. Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:

- Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels grammatikbasierten Spracherkennungsprozeduren;

- Verarbeitung der Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren entweder parallel zur Verarbeitung mittels grammatikbasierter Spracherkennung oder nach Vorliegen eines Erkennungsergebnisses, das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugt wurde und eine vordefinierte Qualität nicht erreicht;

- Erzeugen eines Nachrichtentextes unter Verwendung der mittels der grammatikbasierten und/oder sprachmodellbasierten Spracherkennungsprozeduren erzeugten Erkennungsergebnisse.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Verarbeitung der Spracheingabe mittels der sprachmodellbasierten Spracherkennungsprozeduren dann erfolgt, wenn das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugte Erkennungsergebnis einen vorgebbaren Konfidenzmaßschwellwert nicht erreicht.

3. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
dass in Abhängigkeit von den Ergebnissen der grammatikbasierten Spracherkennung eine Auswahl eines Sprachmodells aus einer Menge von Sprachmodellen vorgesehen ist und
dass das ausgewählte Sprachmodell bei der Verarbeitung mittels der sprachmodellbasierten Spracherkennungsprozeduren eingesetzt wird.

4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der erzeugte Nachrichtentext dem Absender mittels Sprachsynthese oder visuell zur Verifikation präsentiert wird, bevor er an den Empfänger abgesandt wird.

5. Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:

- Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels sprachmodellbasierten Spracherkennungsprozeduren zur Erzeugung eines Wortfolgenalternativen darstellenden Wortgraphen;

- Verarbeitung des Wortgraphen mittels eines Parsers;

- Erzeugen eines Nachrichtentextes unter Verwendung des vom Parser gelieferten Erkennungsergebnisses oder Auswahl einer Wortfolgenalternative aus dem Wortgraphen.

6. Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:

- Verarbeitung einer Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren, wobei unterschiedliche Sprachmodelle zur Erzeugung einer entsprechenden Anzahl Erkennungsergebnisse eingesetzt werden;

- Bestimmung von Konfidenzmaßwerten für die Erkennungsergebnisse;

- Erzeugen eines Nachrichtentextes unter Verwendung des Erkennungsergebnisses mit dem besten Konfidenzmaßwert.

7. Verwendung des Verfahrens nach einem der Ansprüche 1 bis 6 beim Betrieb eines automatischen Dialogsystems, das den erzeugten Nachrichtentext über ein Telekommunikationsnetzwerk übermittelt.

8. Computersystem mit
Mitteln zur Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels grammatikbasierten Spracherkennungsprozeduren;
Mitteln zur Verarbeitung der Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren entweder parallel zur Verarbeitung mittels grammatikbasierter Spracherkennung oder nach Vorliegen eines Erkennungsergebnisses, das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugt wurde und eine vordefinierte Qualität nicht erreicht;
Mitteln zum Erzeugen eines Nachrichtentextes unter Verwendung der mittels der grammatikbasierten und/oder sprachmodellbasierten Spracherkennungsprozeduren erzeugten Erkennungsergebnisse.

9. Computerprogramm zur Durchführung des Verfahren nach einem der Ansprüche 1 bis 6.

10. Computerlesbarer Datenspeicher, auf dem ein Computerprogramm gemäß Anspruch 9 gespeichert ist.