DE10211777A1 - Erzeugung von Nachrichtentexten - Google Patents

Erzeugung von Nachrichtentexten

Info

Publication number
DE10211777A1
DE10211777A1 DE10211777A DE10211777A DE10211777A1 DE 10211777 A1 DE10211777 A1 DE 10211777A1 DE 10211777 A DE10211777 A DE 10211777A DE 10211777 A DE10211777 A DE 10211777A DE 10211777 A1 DE10211777 A1 DE 10211777A1
Authority
DE
Germany
Prior art keywords
speech recognition
grammar
based speech
processing
procedures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10211777A
Other languages
English (en)
Inventor
Matthias Pankert
Reimund Schmald
Jens Marschner
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE10211777A priority Critical patent/DE10211777A1/de
Priority to EP03704919A priority patent/EP1488412A1/de
Priority to US10/507,194 priority patent/US20050256710A1/en
Priority to JP2003575370A priority patent/JP2005520194A/ja
Priority to AU2003207917A priority patent/AU2003207917A1/en
Priority to PCT/IB2003/000890 priority patent/WO2003077234A1/en
Publication of DE10211777A1 publication Critical patent/DE10211777A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules

Abstract

Die Erfindung bezieht sich auf ein Verfahren zum Erzeugen von Nachrichtentexten. Um die Erzeugung von Nachrichtentexten für einen Benutzer möglichst bequem und effizient auszugestalten, werden folgende Schritte vorgeschlagen: DOLLAR A - Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels grammatikbasierten Spracherkennungsprozeduren; DOLLAR A - Verarbeitung der Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren entweder parallel zur Verarbeitung mittels grammatikbasierter Spracherkennung oder nach Vorliegen eines Erkennungsergebnisses, das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugt wurde und eine vordefinierte Qualität nicht erreicht; DOLLAR A - Erzeugen eines Nachrichtentextes unter Verwendung der mittels der grammatikbasierten und/oder sprachmodellbasierten Spracherkennungsprozeduren erzeugten Erkennungsergebnisse.

Description

  • Die Erfindung betrifft ein Verfahren zum Erzeugen von Nachrichtentexten. Bei der Versendung von Nachrichtentexten über Telekommunikationssysteme, insbesondere von sogenannten SMS-Nachrichten (Short Message Service) werden Nachrichten über Kommunikationsnetzwerke, insbesondere über Mobilfunksysteme und/oder das Internet übertragen. Die Erzeugung von Nachrichtentexten mittels Tastatureingabe ist für einen Benutzer häufig unbequem, was besonders für Benutzer von Mobilfunkendgeräten mit kleiner Tastatur und regelmäßig mehrfach belegten Tasten gilt. Die Möglichkeit einer Spracheingabe und die Verwendung von Systemen mit automatischer Spracherkennung verschafft hier Abhilfe. In einem möglichen Szenario ruft ein Benutzer eines Mobilfunkendgeräts, der eine SMS-Nachricht erzeugen will, einen automatischen Telefon- Service an, der ein automatisches Dialogsystem mit Spracherkennung beinhaltet. Automatische Dialogsysteme sind für eine Vielzahl von Anwendungen bekannt. Danach läuft ein Dialog ab, in dem der Benutzer den Nachrichtentext eingibt und den Empfänger des Nachrichtentextes spezifiziert, so dass anschließend der Nachrichtentext an den Empfänger versendet werden kann.
  • Eine grundsätzliche Beschreibung von einem automatischen Dialogsystem lässt sich beispielsweise aus A. Kellner, B. Rüber, F. Seide und B. H. Tran, "PADIS-AN AUTOMATIC TELEPHONE SWITCHBOARD AND DIRECTORY INFORMATION SYSTEM", Speech Communication, vol. 23, Seiten 95-111, 1997 entnehmen. Hier werden über eine Schnittstelle zu einem Telefonnetz Sprachäußerungen eines Benutzers empfangen. Vom Dialogsystem wird als Reaktion auf eine Spracheingabe eine Systemantwort (Sprachausgabe) generiert, die an den Benutzer über die Schnittstelle und hier weiterhin über das Telefonnetz übertragen wird. Spracheingaben werden von einer auf Hidden Markov Modellen (HMM) basierenden Spracherkennungseinheit in einen Wortgraphen umgesetzt, der in komprimierter Form verschiedene Wortfolgen angibt, die als Erkennungsergebnis für die empfangene Sprachäußerung in Frage kommen.
  • Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zur Erzeugung von Nachrichtentexten anzugeben, das für einen Benutzer möglichst bequem und weiterhin effizient ist.
  • Die Aufgabe wird gelöst durch folgende Schritte:
    • - Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels grammatikbasierten Spracherkennungsprozeduren;
    • - Verarbeitung der Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren entweder parallel zur Verarbeitung mittels grammatikbasierter Spracherkennung oder nach Vorliegen eines Erkennungsergebnisses, das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugt wurde und eine vordefinierte Qualität nicht erreicht;
    • - Erzeugen eines Nachrichtentextes unter Verwendung der mittels der grammatikbasierten und/oder sprachmodellbasierten Spracherkennungsprozeduren erzeugten Erkennungsergebnisse.
  • Bei einem solchen Verfahren kann der Benutzer Nachrichtentexte bequem mittels Spracheingabe erzeugen. Die Umsetzung einer Spracheingabe in einen Nachrichtentext ist dabei sehr zuverlässig, was einerseits durch Wahl einer geeigneten Grammatik und andererseits durch Wahl eines an die jeweilige Anwendung oder Benutzer-Zielgruppe angepassten Sprachmodells sichergestellt wird, wobei das Sprachmodell üblicherweise auf N-Grammen basiert. Telefonnummern, Zeit- und Datumsangaben werden zuverlässig mittels der grammatikbasierten Spracherkennungsprozeduren erkannt. Bei freien formulierten Spracheingaben stellen die sprachmodellbasierten Spacherkennungsprozeduren sicher, dass ein Erkennungsergebnis mit möglichst hoher Zuverlässigkeit zur Verfügung steht. Der Rechenaufwand wird reduziert, indem die sprachmodellbasierten Erkennungsprozeduren nur dann auf die Spracheingabe angewendet werden, wenn das von den grammatikbasierten Spracherkennungsprozeduren gelieferte Erkennungsergebnis eine vordefinierte Qualität, d. h. insbesondere einen vorgegebenen Konfidenzmaßschwellwert nicht erreicht. Paralleles Verarbeiten einer Spracheingabe mittels grammatik- und sprachmodellbasierter Spracherkennung ist ein alternativer Ansatz und führt ebenso zu einem Höchstmaß an Zuverlässigkeit bei der Erkennung von Spracheingaben.
  • Für die sprachmodellbasierten Spracherkennungsprozeduren lassen sich insbesondere auch mehrere unterschiedliche Sprachmodelle einsetzen, die für unterschiedliche Anwendungen oder Zielgruppen generiert wurden. Dies lässt sich zur Verbesserung der Zuverlässigkeit bei der Erzeugung von Nachrichtentexten mittels Spracheingaben einsetzen.
  • In einer Ausgestaltung wird die Auswahl des jeweils geeignetsten Sprachmodells von dem Ergebnis der vorher durchgeführten grammatikbasierten Spracherkennungsprozeduren abhängig gemacht. Dabei wird ausgenutzt, dass selbst in einem nicht korrekten Erkennungsergebnis, das mittels der grammatikbasierten Spracherkennungsprozeduren ermittelt wurde, Information enthalten ist, die zur Auswahl eines geeigneten Sprachmodells ausgenutzt werden kann, z. B. einzelne Worte, die auf ein Thema oder eine Anwendung hinweisen.
  • Eine andere Ausgestaltung, bei der ebenfalls unterschiedliche Sprachmodelle eingesetzt werden, verzichtet auf die Auswertung des Ergebnisses einer grammatikbasierten Spracherkennung zur Auswahl des jeweils geeignetsten Sprachmodells und wendet die sprachmodellbasierten Spracherkennungsprozeduren mehrfach mit unterschiedlichen Sprachmodellen auf eine Spracheingabe an. Aus den sich ergebenden Erkennungsergebnisalternativen wird durch Vergleich der zugehörigen Konfidenzmaßwerte die Ergebnisalternative mit der größten Zuverlässigkeit als Erkennungsergebnis selektiert.
  • Die Aufgabe wird auch gelöst durch ein Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:
    • - Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels sprachmodellbasierten Spracherkennungsprozeduren zur Erzeugung eines Wortfolgenalternativen darstellenden Wortgraphen;
    • - Verarbeitung des Wortgraphen mittels eines Parsers;
    • - Erzeugen eines Nachrichtentextes unter Verwendung des vom Parser gelieferten Erkennungsergebnisses oder Auswahl einer Wortfolgenalternative aus dem Wortgraphen.
  • Des weiteren wird die Aufgabe gelöst durch ein Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:
    • - Verarbeitung einer Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren, wobei unterschiedliche Sprachmodelle zur Erzeugung einer entsprechenden Anzahl Erkennungsergebnisse eingesetzt werden;
    • - Bestimmung von Konfidenzmaßwerten für die Erkennungsergebnisse;
    • - Erzeugen eines Nachrichtentextes unter Verwendung des Erkennungsergebnisses mit dem besten Konfidenzmaßwert.
  • Die erfindungsgemäßen Verfahren zur Erzeugung von Nachrichtentexten werden insbesondere in einem automatischen Dialogsystem eingesetzt, das den erzeugten Nachrichtentext, beispielsweise eine SMS-Nachricht (Short Message Service) über ein Telekommunikationsnetzwerk an einen vorher ausgewählten Adressaten übermittelt. Die Spracheingabe kann beispielsweise mittels eines Mobiltelefons getätigt werden. Die Spracheingabe wird über das Telefonnetz an das automatische Dialogsystem (Telefonservice) übertragen, das die Spracheingabe in einen Nachrichtentext umsetzt, der wiederum beispielsweise an einem anderen Mobilfunkteilnehmer übertragen wird. Sowohl derjenige, der die eine Nachricht repräsentierende Spracheingabe generiert, als auch der Adressat der jeweiligen Nachricht können selbstverständlich auch einen Computer, der beispielsweise an das Internet angeschlossen ist, zum Verarbeiten der Spracheingabe bzw. zum Empfang des Nachrichtentextes verwenden.
  • Die Erfindung bezieht sich auch auf ein Computersystem und ein Computerprogramm zur Durchführung des erfindungsgemäßen Verfahrens sowie auf einen computerlesbaren Datenträger mit einem derartigen Computerprogramm.
  • Ausführungsbeispiele der Erfindung werden nachstehend anhand der Zeichnungen näher erläutert. Es zeigen:
  • Fig. 1 ein Telekommunikationssystem mit Systemkomponenten zum Generieren und Übertragen von Nachrichtentexten,
  • Fig. 2 ein Dialogsystem zum Einsatz bei der Erzeugung von Nachrichtentexten und
  • Fig. 3 bis 7 Flussdiagramme zur Erläuterung der erfindungsgemäßen Erzeugung von Nachrichtentexten und
  • Fig. 8 ein Blockschaltbild zu einer Dialogsystemvariante.
  • Bei dem in Fig. 1 dargestellten Telekommunikationssystem 100 ist ein Telekommunikationsnetzwerk 101 vorgesehen, das insbesondere ein oder mehrere Mobilfunknetze und/oder ein öffentliches Fernsprechfestnetz (PSTN, Public Switched Telephone Network) und/oder das Internet umfasst. In Fig. 1 sind beispielhaft Mobilfunksystemkomponenten dargestellt, d. h. eine an das Telekommunikationsnetzwerk 101 angeschlossene Mobilfunkbasisstation 102 und Mobilfunkendgeräte 103, die sich in der Empfangsreichweiter der Basisstation 102 befinden. Weiterhin sind beispielhaft zwei an das Telekommunikationsnetzwerk 101 gekoppelte Personalcomputer 104 und ein an das Telekommunikationsnetzwerk 101 gekoppeltes Telephonendgerät 106 dargestellt. Des weiteren zeigt Fig. 1 ein an das Telekommunikationsnetzwerk 101 angeschlossenes und auf einem Computersystem implementiertes Dialogsystem 105.
  • Fig. 2 zeigt ein Blockschaltbild zur Erläuterung der Systemfunktionen des Dialogsystems 105. Eine Schnittstelle 201 findet eine Signalaustausch mit dem Telekommunikationsnetzwerk 101 statt. Ein empfangenes Sprachsignal, das z. B. mittels eines Mikrophons eines Mobilfunkgerätes 103 oder des Personalcomputers 104 oder des Telephonendgeräts 106 empfangen und über das Telekommunikationsnetzwerk 101 an das Computersystem 105 übertragen wurde, wird nach Empfang über eine Schnittstelle 201 mittels einer Vorverarbeitungseinheit 202 einer Merkmalsextraktion unterworfen, bei der Merkmalsvektoren gebildet werden, die von Spracherkennungsprozeduren 203 in ein Spracherkennungsergebnis umgesetzt werden. Es sind sowohl grammatikbasierte Spracherkennungsprozeduren 204 als auch sprachmodellbasierte Spracherkennungsprozeduren 205 vorgesehen, wobei grammatikbasierte Spracherkennungsprozeduren beispielsweise aus dem eingangs genannten Artikel A. Kellner, B. Rüber, F. Seide und B. H. Tran, "PADIS-AN AUTOMATIC TELEPHONE SWITCHBOARD AND DIRECTORY INFORMATION SYSTEM", Speech Communication, vol. 23, Seiten 95-111, 1997 und sprachmodellbasierte Spracherkennungsprozeduren beispielsweise aus "THE PHILIPS RESEARCH SYSTEM FOR CONTINUOUS-SPEECH RECOGNITION" by V. Steinbiss et. al., Philips J. Res. 49 (1995) 317-352 grundsätzlich bekannt sind. Die Vorverarbeitungseinheit 202 kann in einer bevorzugten Ausführungsform auch integraler Bestandteil der Spracherkennungsprozeduren 203 sein. der Ein Block 206 fasst Steuerungsfunktionen bei der Verarbeitung von Sprachsignalen zusammen. In einem durch einen Block 207 dargestellten Datenspeicher sind anwendungsspezifische Daten abgelegt, die für den Betrieb des Dialogssystems erforderlich sind. Insbesondere sind diese Daten zur Führung eines Dialogs mit einem Benutzer und ein oder mehrere Grammatiken oder Teilgrammatiken und ein oder mehrere Sprachmodelle zur Durchführung der grammatikbasierten Spracherkennungsprozeduren 204 bzw. der sprachmodellbasierten Spracherkennungsprozeduren 205. In Abhängigkeit vom jeweiligen Spracherkennungsergebnis und ggf. einem vorherigen Dialogverlauf generiert die Steuereinheit 206 Systemausgaben, die über die Schnittstelle 201 und das Telekommunikationsnetzwerk 101 an den Benutzer, der die jeweilige Spracheingabe generiert hat, übertragen werden oder auch als Nachrichtentexte darstellende Signale an einen oder mehrer Benutzer, d. h. an deren Telekommunikationsendgeräte wie beispielsweise Mobilfunkendgeräte oder Personalcomputer, übertragen werden. Die Erzeugung von Systemausgaben, d. h. von Sprachsignalen oder Nachrichtentexten, ist durch einen Block 208 zusammengefasst.
  • Fig. 3 zeigt ein erstes Flussdiagramm zur Erläuterung einer Erzeugung von Nachrichtentexten gemäß der Erfindung. Block 301 fasst die Ausgabe einer Begrüßung durch das Dialogsystem 105 zusammen, das von einem Benutzer angerufen worden ist, um per Spracheingabe einen Nachrichtentext zu versenden. Bei der Begrüßung wird dem Benutzer z. B. mitgeteilt, dass er einen Telefonservice zur Generierung von Nachrichtentexten (insbesondere Kurznachrichten, SMS) angerufen hat. In einem Schritt 302 wird der Benutzer zur Eingabe einer Adresse (z. B. einer Telefonnummer oder einer Email Adresse) aufgefordert, an die ein noch einzugebender Nachrichtentext zu übermitteln ist. In Schritt 303 wird der Benutzer zur Eingabe eines Nachrichtentextes aufgefordert, worauf sich in Schritt 304 die Spracheingabe eines Nachrichtentextes durch den Benutzer anschließt. In Schritt 305 wird diese Spracheingabe unter Einsatz der Vorverarbeitung 202 und der Spracherkennungsprozeduren 203 in einen Nachrichtentext umgesetzt. Danach - ggf. nach einen sich noch anschließenden Verifikationsdialog am Ende des Schrittes 305 - wird in Schritt 306 auf der Basis des so erzeugten Nachrichtentextes und der eingegebenen Adresse eine Nachricht generiert, die von der Ausgabeeinheit 208 über die Schnittstelle 201 an das Telekommunikationsnetzwerk 101 abgegeben wird. In Abhängigkeit von der eingegebenen Adresse wird der Nachrichtentext an den ausgewählten Empfänger, z. B. ein Mobiltelefon 103 oder einen Personalcomputer 104, in einem Schritt 307 übertragen.
  • Bei dem Ausführungsbeispiel gemäß Fig. 4 wird der Verarbeitungsschritt 305 näher erläutert. Zunächst wird in einem Schritt 402 eine Verarbeitung mittels der grammatikbasierten Spracherkennungsprozeduren 204 für die gesamte Spracheingabe durchgeführt. Hierbei werden insbesondere häufig vorkommende Worte oder Wortfolgen, z. B. Telefonnummern, Zeitangaben oder Datumsangaben, mit hoher Zuverlässigkeit identifiziert und erkannt. In Schritt 402 wird außerdem für das von den grammatikbasierten Spracherkennungsprozeduren gelieferte Erkennungsergebnis ein Konfidenzmaßwert ermittelt, der in Schritt 403 mit einem Konfidenzmaßschwellwert verglichen wird. Erreicht der in Schritt 402 ermittelte Konfidenzmaßwert den vorgegebenen Konfidenzmaßschwellwert, d. h. liegt eine ausreichende Zuverlässigkeit des von der grammatikbasierten Spracherkennungsprozeduren gelieferten Erkennungsergebnisses vor, wird das in Schritt 402 erzeugte Erkennungsergebnis bzw. die darin enthaltenden Informationen zur Erzeugung eines Nachrichtentextes verwendet, wobei vordefinierte Nachrichtentexte verwendet werden, die variable Textbestandteile enthalten, die wiederum mittels des in Schritt 402 erzeugten Erkennungsergebnisses bestimmt werden. Das Ergebnis aus Schritt 402 besteht aus bezüglich der Grammatik gültigen Phrasen (Satzteilen) oder Sätzen mit zugehörigen Konfidenzwerten. In Schritt 404 wird nach bestmöglicher Übereinstimmung dieser Phrasen mit vorformulierten Sätzen gesucht. Diese vorformulierten Sätze können Variablen enthalten (z. B. Datum, Telefonnummer), die gegebenenfalls durch erkannte Phrasen ausgefüllt werden.
  • Ergibt der in Schritt 403 durchgeführte Vergleich, dass der vorgegebene Konfidenzmaßschwellwert nicht erreicht wird (nicht ausreichende Zuverlässigkeit des Erkennungsergebnisses der grammatikbasierten Spracherkennungsprozeduren), werden die sprachmodellbasierten Spracherkennungsprozeduren 205 auf die Spracheingabe bzw. die von der Vorverarbeitungseinheit 202 erzeugten Merkmalsvektoren angewendet (Schritt 405).
  • An den Schritt 404 bzw. den Schritt 405 schließt sich ein optionaler Schritt 406 an, in dem der Benutzer zur Verifikation des in Schritt 404 bzw. 405 erzeugten Nachrichtentextes aufgefordert wird. Dabei wird - bevor der Nachrichtentext an den Empfänger abgesandt wird - der erzeugte Nachrichtentext dem Benutzer beispielsweise mittels Sprachsynthese zur Verifikation präsentiert (vorgelesen), oder der erzeugte Nachrichtentext wird dem Benutzer textuell zur Verifikation präsentiert (auf einem Gerätedisplay angezeigt).
  • Falls der Benutzer in Schritt 406 die Verifikation verweigert, werden an den Benutzer Nachrichtentextalternativen ausgegeben, die durch Verwendung von Erkennungsergebnisalternativen der grammatikbasierten Spracherkennungsprozedierungen bzw. sprachmodellbasierten Spracherkennungsprozeduren erzeugt werden. Wird in Schritt 406 ein an den Benutzer ausgegebener Nachrichtentext von diesem verifiziert, werden die Schritte 306 und 307 gemäß Fig. 3 durchgeführt. Falls kein Verifikationsdialog gemäß Schritt 406 vorgesehen ist, schließen sich die Schritte 306 und 307 unmittelbar an Schritt 404 bzw. Schritt 405 an.
  • Bei dem Ausführungsbeispiel gemäß Fig. 5 werden in einem Schritt 501 die grammatikbasierten Spracherkennungsprozeduren lediglich auf eine oder mehrere Teile der Spracheingabe getrennt angewendet, anstatt diese auf die gesamte Spracheingabe anzuwenden (Schritt 402 in Fig. 4). Die ermittelten Spracherkennungsergebnisse, die in Schritt 501 bestimmt werden, werden in Schritt 502 mit vordefinierten Mustern von Nachrichtentexten verglichen. Schritt 503 repräsentiert die Abfrage, ob in Schritt 502 ein korrespondierendes Nachrichtentextmuster gefunden werden konnte. Wurde ein solches gefunden, schließen sich wie bei dem Ausführungsbeispiel gemäß Fig. 4 die Schritte 403, 404 und 406 an. Wird kein korrespondierendes Nachrichtentextmuster gefunden, werden auf die Spracheingabe die sprachmodellbasierten Spracherkennungsprozeduren (Schritt 405) angewendet, wonach sich ggf. noch in Schritt 406 ein optionaler Verifikationsdialog wie in dem Ausführungsbeispiel gemäß Fig. 4 anschließen kann.
  • Das Ausführungsbeispiel gemäß Fig. 6 zeigt eine Variante des Ausführungsbeispiels gemäß Fig. 4, bei dem das Ergebnis der grammatikbasierten Spracherkennungsprozeduren in Schritt 402 dazu verwendet wird, ein Sprachmodell für die sprachmodellbasierten Spracherkennungsprozeduren auszuwählen. Beispielsweise werden hier bestimmte Schlüsselworte, die auf ein bestimmtes Themengebiet hinweisen, zur Selektion des Sprachmodells in Schritt 601 ausgewertet.
  • Anstelle der sprachmodellbasierten Spracherkennungsprozeduren mit festem Sprachmodell (Schritt 405) werden nun sprachmodellbasierte Spracherkennungsprozeduren mit dem in Schritt 601 ausgewählten und damit variablen Sprachmodell in einem Schritt 405 auf die Spracheingabe angewendet, wenn in Schritt 403 sich ergeben hat, dass der Konfidenzmaßschwellwert nicht erreicht wurde.
  • Bei dem Ausführungsbeispiel gemäß Fig. 7 werden die von der Vorverarbeitung in Schritt 401 gelieferten Merkmale für die Spracheingabe in einem Schritt 701 parallel mittels der grammatikbasierten Spracherkennungsprozeduren 204 und der sprachmodellbasierten Spracherkennungsprozeduren 205 verarbeitet. Für das Erkennungsergebnis der grammatikbasierten Spracherkennung wird ein erster Konfidenzwert, und für das Ergebnis der sprachmodellbasierten Spracherkennung ein zweiter Konfidenzwert bestimmt, die in einem Schritt 702 miteinander verglichen werden. Ist der erste Konfidenzmaßwert größer als der zweite Konfidenzmaßwert, schließen sich wie in den vorherigen Ausführungsbeispielen die Schritte 404 und 406 an. Ist der erste Konfidenzmaßwert nicht größer als der zweite Konfidenzmaßwert, d. h. sind die Ergebnisse der grammatikbasierten Spracherkennungsprozeduren nicht zuverlässiger als das Ergebnis der sprachmodellbasierten Spracherkennungsprozeduren, so wird das Erkennungsergebnis der sprachmodellbasierten Spracherkennungsprozeduren zur Erzzeugung des Nachrichtentextes verwendet. Es schließt sich ggf noch der optionale Verifikationsdialog des Schrittes 406 an.
  • Eine weitere Implementierungsvariante des Dialogsystems nach Fig. 2 zeigt Fig. 8. Die Schnittstelle 201, die Steuereinheit 206, die Datenbank 207 und die Ausgabeeinheit 208 sind auch bei dieser Ausführungsform vorhanden. Die Steuereinheit 206 und die Datenbank 207 wirken auf die Verarbeitung mittels Spracherkennungsprozeduren 802 ein, die einen N-Gramm-Spracherkenner 803, einen Parser 804 und eine Nachverarbeitungseinheit 805 umfasst. Mittels des zur Durchführung von Merkmalsextraktion und sprachmodellbasierten Spracherkennungsprozeduren ausgebildeten N-Gramm-Spracherkenners 803 wird aus einem über die Schnittstelle 201 empfangenen Sprachsignals ein Wortgraph erzeugt. Dieser wird anschließend mittels einer Grammatik mit dem Parser 804 geparst, d. h. es werden grammatikbasierte Spracherkennungsprozeduren durchführt. Das so erzeugte Erkennungsergebnis wird an die Ausgabeeinheit 208 weitergegeben, wenn das erzeugte Erkennungsergebnis zufriedenstellend ist. Falls die grammatikbasierte Verarbeitung in Block 804 zu keinem zufriedenstellenden Ergebnis führt, wird in einer durch einen Block 805 dargestellten Nachverarbeitungseinheit auf der Basis des vom N-Gramm- Spracherkenner 803 erzeugten Wortgraphen die beste aus diesem ableitbare Wortfolgenalternative als Erkennungsergebnis, d. h. als Nachrichtentext, ermittelt und an die Ausgabeeinheit 208 weitergegeben, die den erzeugten Nachrichtentext an den jeweiligen Adressaten ausgibt.

Claims (10)

1. Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:
- Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels grammatikbasierten Spracherkennungsprozeduren;
- Verarbeitung der Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren entweder parallel zur Verarbeitung mittels grammatikbasierter Spracherkennung oder nach Vorliegen eines Erkennungsergebnisses, das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugt wurde und eine vordefinierte Qualität nicht erreicht;
- Erzeugen eines Nachrichtentextes unter Verwendung der mittels der grammatikbasierten und/oder sprachmodellbasierten Spracherkennungsprozeduren erzeugten Erkennungsergebnisse.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die Verarbeitung der Spracheingabe mittels der sprachmodellbasierten Spracherkennungsprozeduren dann erfolgt, wenn das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugte Erkennungsergebnis einen vorgebbaren Konfidenzmaßschwellwert nicht erreicht.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet,
dass in Abhängigkeit von den Ergebnissen der grammatikbasierten Spracherkennung eine Auswahl eines Sprachmodells aus einer Menge von Sprachmodellen vorgesehen ist und
dass das ausgewählte Sprachmodell bei der Verarbeitung mittels der sprachmodellbasierten Spracherkennungsprozeduren eingesetzt wird.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der erzeugte Nachrichtentext dem Absender mittels Sprachsynthese oder visuell zur Verifikation präsentiert wird, bevor er an den Empfänger abgesandt wird.
5. Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:
- Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels sprachmodellbasierten Spracherkennungsprozeduren zur Erzeugung eines Wortfolgenalternativen darstellenden Wortgraphen;
- Verarbeitung des Wortgraphen mittels eines Parsers;
- Erzeugen eines Nachrichtentextes unter Verwendung des vom Parser gelieferten Erkennungsergebnisses oder Auswahl einer Wortfolgenalternative aus dem Wortgraphen.
6. Verfahren zum Erzeugen von Nachrichtentexten mit folgenden Schritten:
- Verarbeitung einer Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren, wobei unterschiedliche Sprachmodelle zur Erzeugung einer entsprechenden Anzahl Erkennungsergebnisse eingesetzt werden;
- Bestimmung von Konfidenzmaßwerten für die Erkennungsergebnisse;
- Erzeugen eines Nachrichtentextes unter Verwendung des Erkennungsergebnisses mit dem besten Konfidenzmaßwert.
7. Verwendung des Verfahrens nach einem der Ansprüche 1 bis 6 beim Betrieb eines automatischen Dialogsystems, das den erzeugten Nachrichtentext über ein Telekommunikationsnetzwerk übermittelt.
8. Computersystem mit
Mitteln zur Verarbeitung einer Spracheingabe mit Nachrichtenelementen mittels grammatikbasierten Spracherkennungsprozeduren;
Mitteln zur Verarbeitung der Spracheingabe mittels sprachmodellbasierten Spracherkennungsprozeduren entweder parallel zur Verarbeitung mittels grammatikbasierter Spracherkennung oder nach Vorliegen eines Erkennungsergebnisses, das mittels der grammatikbasierten Spracherkennungsprozeduren erzeugt wurde und eine vordefinierte Qualität nicht erreicht;
Mitteln zum Erzeugen eines Nachrichtentextes unter Verwendung der mittels der grammatikbasierten und/oder sprachmodellbasierten Spracherkennungsprozeduren erzeugten Erkennungsergebnisse.
9. Computerprogramm zur Durchführung des Verfahren nach einem der Ansprüche 1 bis 6.
10. Computerlesbarer Datenspeicher, auf dem ein Computerprogramm gemäß Anspruch 9 gespeichert ist.
DE10211777A 2002-03-14 2002-03-14 Erzeugung von Nachrichtentexten Withdrawn DE10211777A1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE10211777A DE10211777A1 (de) 2002-03-14 2002-03-14 Erzeugung von Nachrichtentexten
EP03704919A EP1488412A1 (de) 2002-03-14 2003-03-10 Erzeugung von textnachrichten
US10/507,194 US20050256710A1 (en) 2002-03-14 2003-03-10 Text message generation
JP2003575370A JP2005520194A (ja) 2002-03-14 2003-03-10 テキストメッセージの生成
AU2003207917A AU2003207917A1 (en) 2002-03-14 2003-03-10 Text message generation
PCT/IB2003/000890 WO2003077234A1 (en) 2002-03-14 2003-03-10 Text message generation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10211777A DE10211777A1 (de) 2002-03-14 2002-03-14 Erzeugung von Nachrichtentexten

Publications (1)

Publication Number Publication Date
DE10211777A1 true DE10211777A1 (de) 2003-10-02

Family

ID=27797850

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10211777A Withdrawn DE10211777A1 (de) 2002-03-14 2002-03-14 Erzeugung von Nachrichtentexten

Country Status (6)

Country Link
US (1) US20050256710A1 (de)
EP (1) EP1488412A1 (de)
JP (1) JP2005520194A (de)
AU (1) AU2003207917A1 (de)
DE (1) DE10211777A1 (de)
WO (1) WO2003077234A1 (de)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7583974B2 (en) * 2004-05-27 2009-09-01 Alcatel-Lucent Usa Inc. SMS messaging with speech-to-text and text-to-speech conversion
EP1879000A1 (de) * 2006-07-10 2008-01-16 Harman Becker Automotive Systems GmbH Uebertragung von textnachrichten durch navigationssystemen
US8396713B2 (en) * 2007-04-30 2013-03-12 Nuance Communications, Inc. Method and system for using a statistical language model and an action classifier in parallel with grammar for better handling of out-of-grammar utterances
WO2009012031A1 (en) * 2007-07-18 2009-01-22 Gm Global Technology Operations, Inc. Electronic messaging system and method for a vehicle
US9123339B1 (en) 2010-11-23 2015-09-01 Google Inc. Speech recognition using repeated utterances
US20120259633A1 (en) * 2011-04-07 2012-10-11 Microsoft Corporation Audio-interactive message exchange
KR20130005160A (ko) * 2011-07-05 2013-01-15 한국전자통신연구원 음성인식기능을 이용한 메세지 서비스 방법
EP3089159B1 (de) 2015-04-28 2019-08-28 Google LLC Korrekturspracherkennung mittels selektivem re-speak

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6073098A (en) * 1997-11-21 2000-06-06 At&T Corporation Method and apparatus for generating deterministic approximate weighted finite-state automata
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
EP1079615A3 (de) * 1999-08-26 2002-09-25 Matsushita Electric Industrial Co., Ltd. System zur Identifizierung und Anpassung des Profiles eines Fernsehbenutzer mittels Sprachtechnologie
EP1236198B1 (de) * 1999-12-02 2006-03-01 Thomson Licensing Spracherkennung mit einem komplementären sprachmodel für typischen fehlern im sprachdialog

Also Published As

Publication number Publication date
EP1488412A1 (de) 2004-12-22
WO2003077234A1 (en) 2003-09-18
US20050256710A1 (en) 2005-11-17
JP2005520194A (ja) 2005-07-07
AU2003207917A1 (en) 2003-09-22

Similar Documents

Publication Publication Date Title
EP1466317B1 (de) Betriebsverfahren eines automatischen spracherkenners zur sprecherunabhängigen spracherkennung von worten aus verschiedenen sprachen und automatischer spracherkenner
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
EP1113420B1 (de) Verfahren zur Spracherkennung und Kontrolle einer Sprachsyntheseneinheit oder Kommunikationssystem
EP0644680B1 (de) Verfahren und Vorrichtung zum Erstellen und Bearbeiten von Textdokumenten
EP1256936B1 (de) Verfahren zum Training oder zur Adaption eines Spracherkenners
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
EP1324314B1 (de) Spracherkennungssystem und Verfahren zum Betrieb eines solchen
EP1273003B1 (de) Verfahren und vorrichtung zum bestimmen prosodischer markierungen
EP1590797B1 (de) Kommunikationssystem, kommunikationsendeinrichtung und vorrichtung zum erkennen fehlerbehafteter text-nachrichten
DE10211777A1 (de) Erzeugung von Nachrichtentexten
DE60020504T2 (de) Anpassung eines spracherkenners an korrigierte texte
EP0987682A2 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
EP1282897A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
WO1999014740A1 (de) Verfahren zur bestimmung einer wahrscheinlichkeit für das auftreten einer folge von mindestens zwei wörtern bei einer spracherkennung
DE19851287A1 (de) Datenverarbeitungssystem oder Kommunikationsendgerät mit einer Einrichtung zur Erkennugn gesprochener Sprache und Verfahren zur Erkennung bestimmter akustischer Objekte
EP1169841B1 (de) Erstellen eines referenzmodell-verzeichnisses für ein sprachgesteuertes kommunikationsgerät
DE4243181A1 (de)
EP1352388B1 (de) Verfahren und anordnung zur spracherkennung für ein kleingerät
DE69910412T2 (de) Sprachgesteuerte navigation für einen elektronischen post leser
EP1179818B1 (de) Automatische Erkennung von Unternehmensnamen in sprachlichen Äusserungen
EP1251491B1 (de) Verfahren zum Ermitteln von Datenbankeinträgen durch Spracheingabe
DE19840890A1 (de) Verfahren zum akustischen Ausgeben von Text und Sprachausgabesystem
EP1240775A2 (de) Kommunikationssystem und verfahren zum bereitstellen eines internet-zugangs über ein telefon
DE10003529A1 (de) Verfahren und Vorrichtung zum Erstellen einer Textdatei mittels Spracherkennung
EP1302928A1 (de) Verfahren zur Spracherkennung, insbesondere von Namen, und Spracherkenner

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee