DE10208295A1 - Verfahren zum Betrieb eines Sprach-Dialogsystems - Google Patents

Verfahren zum Betrieb eines Sprach-Dialogsystems

Info

Publication number
DE10208295A1
DE10208295A1 DE10208295A DE10208295A DE10208295A1 DE 10208295 A1 DE10208295 A1 DE 10208295A1 DE 10208295 A DE10208295 A DE 10208295A DE 10208295 A DE10208295 A DE 10208295A DE 10208295 A1 DE10208295 A1 DE 10208295A1
Authority
DE
Germany
Prior art keywords
user
data
voice
transmission type
dialog system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10208295A
Other languages
English (en)
Inventor
Goekhan Dincer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE10208295A priority Critical patent/DE10208295A1/de
Priority to JP2003572279A priority patent/JP2005518765A/ja
Priority to PCT/IB2003/000643 priority patent/WO2003073734A1/en
Priority to US10/505,501 priority patent/US20050114139A1/en
Priority to AU2003206036A priority patent/AU2003206036A1/en
Priority to EP03702919A priority patent/EP1481536A1/de
Publication of DE10208295A1 publication Critical patent/DE10208295A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4931Directory assistance systems

Abstract

Es wird ein Verfahren zum Betrieb eines Sprach-Dialogsystems beschrieben, welches mit einem Nutzer unter Verwendung einer Spracherkennungseinrichtung und einer Sprachausgabeeinrichtung kommuniziert, wobei das Sprach-Dialogsystem Daten an den Nutzer übermittelt, die das Sprach-Dialogsystem aufgrund des Dialogs für den Nutzer ermittelt und/oder erzeugt hat. Erfindungsgemäß formatiert das Sprach-Dialogsystem nach Empfang eines Übertragungsart-Auswahlbefehls des Nutzers die Daten in einem für die ausgewählte Übertragungsart geeigneten Datenformat und versendet die Daten über eine für diese Übertragungsart geeignete Schnittstelle. Darüber hinaus wird ein entsprechendes Sprach-Dialogsystem beschrieben.

Description

  • Die Erfindung betrifft ein Verfahren zum Betrieb eines Sprach-Dialogsystems, welches mit einem Nutzer unter Verwendung einer Spracherkennungseinrichtung und einer Sprachausgabeeinrichtung kommuniziert, wobei das Sprach-Dialogsystem aufgrund des Dialogs für den Nutzer ermittelte und/oder erzeugte Daten an den Nutzer übermittelt. Darüber hinaus betrifft die Erfindung ein entsprechendes automatisches Sprach- Dialogsystem und ein Computerprogramm mit Programmcodemitteln, um das Verfahren auszuführen.
  • Sprach-Dialogsysteme, die mit einem Nutzer unter Verwendung einer Spracherkennungs- und einer Sprachausgabeeinrichtung kommunizieren, sind bereits seit längerem bekannt. Es handelt sich hierbei um sprachgesteuerte, automatische Systeme, die oft auch als Voice-Portale oder Sprachapplikationen bezeichnet werden. Ein solches Sprach-Dialogsysteme kann spezielle Terminals aufweisen, an denen sich der Nutzer befinden muss, um mit dem Sprach-Dialogsystem kommunizieren zu können, wie beispielsweise ein stationäres Auskunftssystem in einem Flughafen oder dergleichen. Häufig handelt es sich jedoch um Sprach-Dialogsysteme mit einem Anschluss an ein öffentliches Kommunikationsnetz o. Ä., so dass die Sprach-Dialogsysteme zum Beispiel mittels eines normalen Telefons, eines Mobilfunkgeräts oder eines PCs mit Telefoniefunktion etc. genutzt werden können. Ein Beispiel für solche Sprach-Dialogsysteme sind automatische Anrufbeantwortungs- und Auskunftssysteme, wie sie inzwischen beispielsweise von einigen größeren Firmen, Organisationen und Ämtern verwendet werden, um einen Anrufer möglichst schnell und komfortabel mit der gewünschten Information zu versorgen oder mit einer Stelle zu verbinden, welche für die speziellen Wünsche des Anrufers zuständig ist. Weitere Beispiele hierfür sind die automatische Telefonauskunft, wie sie bereits von einigen Telefongesellschaften eingesetzt wird, eine automatische Fahrplan- bzw. Flugplanauskunft oder ein Informationsdienst mit allgemeinen Veranstaltungshinweisen, beispielsweise mit Kino- und Theaterprogrammen, für eine bestimmte Region. Einige der Sprach-Dialogsysteme bieten über das reine Angebot, Informationen für den Nutzer bereit zu halten oder zu suchen und bei Bedarf an den Nutzer zu übermitteln, auch zusätzliche Dienste wie beispielsweise einen Reservierungsdienst für Sitzplätze im Zug oder Flugzeug oder Hotelzimmer, einen Bezahlservice oder einen Warenbestellservice. Ebenso sind natürlich auch Kombinationen der verschiedensten Auskunfts- und Dienstsysteme möglich, beispielsweise ein komplexes Sprach-Dialogsystem, bei dem der Nutzer sich zunächst entscheiden muss, welchen Dienst er in Anspruch nehmen möchte und dann an den gewünschten Dienst weitervermittelt wird. Im Prinzip können folglich - ähnlich wie beispielsweise im Internet - dem Benutzer beliebige Dienste über ein solches Sprach- Dialogsystem angeboten werden. Bei einem Sprach-Dialogsystem besteht jedoch der Vorteil, dass der Benutzer lediglich ein normales Telefon bzw. ein Mobilfunkgerät benötigt, um die Dienste zu nutzen. Andererseits hat eine solches Sprach-Dialogsystems damit jedoch den Nachteil, dass die aufgrund des Dialogs mit dem Nutzer für den Nutzer ermittelten oder erzeugten Daten, d. h. ein Ergebnis oder Zwischenergebnis des Dialogs - beispielsweise bei einem Auskunftssystem die gewünschten Informationen oder bei einem Reservierungssystem eine Reservierungsbestätigung - nur innerhalb des Dialogs mittels der Sprachausgabeeinrichtung auf akustischem Wege an den Nutzer ausgegeben werden. Der Benutzer muss sich dann die ausgegebenen Informationen, beispielsweise eine bei einer Auskunft abgefragte Telefonnummer, entweder merken oder schnellstmöglich mitschreiben, um diese Informationen später verwenden zu können. Bei Diensten, bei denen gegebenenfalls rechtlich verbindliche Geschäfte abgeschlossen werden, wie beispielsweise bei Reservierungsdiensten oder elektronischen Warenhäusern, liegt dem Nutzer dabei keinerlei schriftliche Bestätigung vor, die in Problemfällen z. B. als Beweis dienen könnte.
  • Es ist Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren zum Betrieb eines Dialogsystems bzw. ein entsprechendes Dialogsystem anzugeben, bei dem diese Nachteile vermieden werden.
  • Diese Aufgabe wird durch ein Verfahren der eingangs genannten Art gelöst, welches dadurch gekennzeichnet ist, dass das Sprach-Dialogsystem nach Empfang eines Übertragungsart-Auswahlbefehls des Nutzers die an den Nutzer zu übermittelnden Daten in einem für die ausgewählte Übertragungsart geeigneten Datenformat formatiert und über eine für diese Übertragung geeignete Schnittstelle versendet.
  • Der Nutzer hat so die Wahl, durch Eingabe des Übertragungsart-Auswahlbefehls die Daten beliebig in einer anderen Übertragungsart als durch eine Sprachausgabe, beispielsweise per Fax, als E-Mail, als SMS oder über einen anderen Kurznachrichtendienst, versenden zu lassen. Die Übertragung in der anderen Übertragungsart kann dabei zusätzlich oder alternativ zur Sprachausgabe erfolgen. Damit ist für den Nutzer die Möglichkeit gegeben, die für ihn relevanten Daten in einer Form zu erhalten, bei der er nicht mehr mitschreiben muss bzw. bei der er einen schriftlichen Nachweis erhält. So kann sich der Nutzer zum Beispiel vorteilhafterweise bei einer erfindungsgemäßen Telefonauskunft die gefundene Telefonnummer direkt per SMS auf sein Mobilfunkgerät senden lassen, so dass er diese Nummer gegebenenfalls unmittelbar in das elektronische Telefonbuch des Mobilfunkgeräts übernehmen und/oder die Nummer sofort anwählen kann.
  • Ein erfindungsgemäßes automatisches Sprach-Dialogsystem muss dementsprechend neben einer Spracherkennungseinrichtung und einer Sprachausgabeeinrichtung zur Kommunikation mit dem Nutzer sowie Mitteln, um in Abhängigkeit von dem Dialog mit dem Nutzer bestimmte Daten für den Nutzer zu ermitteln und/oder zu erzeugen und an den Nutzer zu übermitteln, zumindest eine Formatierungseinrichtung aufweisen, um die Daten zusätzlich oder alternativ zur Sprachausgabe in einem für eine weitere Übertragungsart geeigneten Datenformat zu formatieren. Außerdem benötigt das Sprach-Dialogsystem eine Kontrolleinrichtung zum Empfang eines Übertragungsart- Auswahlbefehls des Nutzers über die Spracherkennungseinrichtung zur Auswahl einer Übertragungsart und zum Steuern des Sprach-Dialogsystems derart, dass in Abhängigkeit von dem Übertragungsart-Auswahlbefehl die Daten entsprechend der ausgewählten Übertragungsart mittels der passenden Formatierungseinrichtung formatiert und über eine geeignete Schnittstelle versandt werden.
  • Die abhängigen Ansprüche enthalten jeweils besonders vorteilhafte Ausgestaltungen und Weiterbildungen der Erfindung.
  • Das Sprach-Dialogsystem kann als Schnittstellen zur Übermittlung der Daten an den Nutzer entweder separate Schnittstellen für die einzelnen Übertragungsarten, beispielsweise einen Telefonanschluss und einen davon getrennten Internetanschluss etc., aufweisen. Es kann aber auch eine Multifunktionsschnittstelle genutzt werden, die entsprechend von einer Steuereinrichtung angesteuert wird und dafür sorgt, dass die Daten über den für die Übertragungsart richtigen Kanal und unter Verwendung des richtigen Protokolls abgesandt wird. Dabei kann ein beliebiges, für die Übertragungsart geeignetes standardisiertes Protokoll verwendet werden, welches vom betreffenden Netz bzw. dem empfangenden Gerät unterstützt wird. Beispiele hierfür sind die Standards H.323 oder T1 zur Übermittlung von Daten über das Internet oder der Telekommunikationsstandard SS7 bzw. C7.
  • Der Übertragungsart-Auswahlbefehl wird innerhalb des Dialogs übermittelt, d. h. durch eine Spracheingabe des Nutzers. Dazu kann das Dialogsystem zuvor eine entsprechende Eingabeaufforderung, d. h. einen sogenannten "Prompt", an den Nutzer ausgeben, mit dem beispielsweise der Nutzer gefragt wird, auf welche Art bestimmte Daten übermittelt werden sollen. Ein Beispiel für einen solchen Prompt bei der Ausgabe einer gefundenen Telefonnummer ist "Soll ich die Nummer ansagen oder wünschen Sie eine Übertragung per E-Mail, SMS oder Fax?".
  • Es ist aber auch möglich, dass der Nutzer von sich aus - das heißt ungefragt - einen Übertragungsart-Auswahlbefehl gibt, der vom Sprach-Dialogsystem verstanden wird. Dieser Übertragungsart-Auswahlbefehl kann bei einer entsprechend leistungsfähigen Spracherkennungseinrichtung auch aus einem kontinuierlichen Satz oder einer Satzfolge ggf unter Zuhilfenahme des aus dem gesamten bisherigen Dialog gegebenen Kontextes ermittelt werden. So könnte der Nutzer beispielsweise folgende Anweisung geben: "Ich bitte um Reservierung und Fax-Bestätigung". Dabei müssen die Spracherkennungseinrichtung und/oder die Datenübermittlungskontrolleinrichtung entsprechend ausgebildet sein, um bestimmte Schlüsselwörter innerhalb eines kontinuierlichen Textes, bei dem vorgenannten Beispiel das Wort "Fax-Bestätigung", zu erkennen und zu verarbeiten.
  • Bei einem Ausführungsbeispiel besteht außerdem die Möglichkeit, dass der Übertragungsart-Auswahlbefehl mehrere Übertragungsarten angibt. Dabei kann der Nutzer beispielsweise auswählen, dass die gewünschte Information sowohl per SMS auf das gerade vom Nutzer zur Führung des Dialogs benutzte Mobilfunkgerät und zusätzlich an sein Faxgerät übersandt und dort ausgedruckt wird. Das Sprach-Dialogsystem versendet dann parallel oder nacheinander die Daten auf jede der angegebenen Übertragungsarten.
  • Sofern bei einer ausgewählten Übertragungsart eine Übermittlung der Daten in verschiedenen Datenformaten möglich ist, werden vorzugsweise in Abhängigkeit von einem vom Nutzer angegebenen Datenformat die Daten formatiert und versendet. Die Möglichkeit einer Versendung der Daten in verschiedenen Datenformaten bei einer Übertragungsart besteht u. a. bei einer Übersendung als Anhang einer E-Mail. In diesem Fall könnten die Daten beispielsweise als Textverarbeitungsdatei, als Tabellenkalkulationsdatei oder als Datei einer bestimmten Datenbank übermittelt werden. Sofern der Nutzer kein Datenformat von sich aus auswählt, gibt das Sprach-Dialogsystem an den Nutzer ein Prompt zur Eingabe eines Datenformat-Auswahlbefehls aus.
  • Das Sprach-Dialogsystem muss außer der Übertragungsart auch noch die Adresse kennen, an die die Daten gemäß der ausgewählten Übertragungsart zu übermitteln sind, d. h. beispielsweise die Teilnehmernummer des Anschlusses, an dem das jeweilige empfangende Endgerät erreichbar ist.
  • Diese Information kann das Sprach-Dialogsystem dadurch erhalten, dass der Nutzer an das Sprach-Dialogsystem explizit einen Adressbefehl übermittelt. Bei diesem Adressbefehl kann es sich entweder um eine vollständige Adresse, beispielsweise die Angabe der Faxnummer oder der E-Mail-Adresse, handeln. Es kann sich jedoch auch um eine Angabe handeln, anhand derer das Sprach-Dialogsystem unter Nutzung von zusätzlicher Adressinformation die vollständige Adresse erst ermittelt. Ein Beispiel für einen solchen "unvollständigen" Adressbefehl ist die Anweisung "Übersenden auf mein Mobilfunkgerät". Die benötigten zusätzlichen Adressinformationen - in diesem Beispiel die Rufnummer des Mobilfunkgeräts des Nutzers - kann das Sprach-Dialogsystem unter anderem durch Nutzung von herkömmlichen Anruferidentifikationsverfahren ermitteln. Ein Beispiel hierfür ist das CLI-Verfahren (Calling Line Identification).
  • Bei einem weiteren bevorzugten Ausführungsbeispiel sind in einem Speicher, auf den das Sprach-Dialogsystem Zugriff hat, Nutzerprofile für verschiedene Nutzer hinterlegt. In einem solchen Nutzerprofil befinden sich die benötigten Adressinformationen des jeweiligen Nutzers, so dass der Nutzer lediglich das Gerät bzw. die Übertragungsart angeben muss. Dabei können im Nutzerprofil auch mehrere Fax- oder Telefonnummern oder E-Mail-Adressen für einen Nutzer hinterlegt und z. B. mit bestimmten Schlüsselwörtern verknüpft sein. Der Nutzer muss dann nur die betreffenden Schlüsselwörter in seinem Adressbefehl angeben, beispielsweise "Fax Büro" oder "Fax Zuhause". Ein solcher Service ist insbesondere dann einfach realisierbar, wenn der Nutzer dem Sprach- Dialogsystem durch eine frühere Nutzung des Sprach-Dialogsystems oder durch eine explizite Initialisierungsprozedur bekannt ist und zu Beginn des Dialogs, beispielsweise durch eine Übermittlung der Anrufernummer, identifiziert wird.
  • Sofern es für das Sprach-Dialogsystem aus dem Kontext klar ist, dass ohnehin nur eine Adresse infrage kommt, ist die Abfrage eines speziellen Adressbefehls nicht erforderlich. Beispielsweise kann sich bei einem Nutzer, für den lediglich ein Faxgerät und eine E- Mail-Adresse innerhalb eines Nutzerprofils eingetragen sind, bereits durch die Auswahl der Übertragungsart "Fax" oder "E-Mail" ergeben, an welche Adresse die Daten zu versenden sind.
  • Ebenso kann das Sprach-Dialogsystem - sofern der Nutzer von einem Mobilfunkgerät aus das Sprach-Dialogsystem anruft und falls die Teilnehmernummer des Mobilfunkgeräts ermittelt wurde - bei Auswahl der Übertragungsart "SMS" (bzw. einem anderen Mobilfunk-Kurznachrichtendienst) die Nachricht auch sofort auf das betreffende Mobilfunkgerät senden. Diese Vorgehensweise bietet sich insbesondere bei einem relativ einfach aufgebauten Ausführungsbeispiel des erfindungsgemäßen Sprach-Dialogsystems an, bei dem neben der Sprachausgabeeinrichtung nur eine zusätzliche Formatierungseinrichtung für SMS bzw. einen entsprechenden Kurznachrichtendienst vorhanden ist und der Nutzer nur die Wahl hat, zusätzlich oder alternativ zur akustischen Ausgabe die Daten als Kurznachricht auf das von ihm während des Dialogs verwendete Endgerät gesendet zu bekommen. Ein derartiges, mit relativ geringem Aufwand realisierbares erfindungsgemäßes Sprach-Dialogsystem eignet sich beispielsweise für eine automatische Telefonauskunft, bei der eine aufwendige schriftliche Bestätigung nicht notwendig ist, es aber für den Nutzer sehr praktisch ist, die erfragten Telefonnummern direkt in speicherfähiger Form auf dem jeweiligen Endgerät zu erhalten.
  • Das Sprach-Dialogsystem kann zu wesentlichen Teilen kostengünstig in Form von geeigneter Software auf einem Server, welcher über geeignete Schnittstellen an die öffentlichen Kommunikationsnetze angeschlossen ist, realisiert werden. Dabei handelt es sich vorzugsweise sowohl bei der Spracherkennungseinrichtung als auch bei den Formatierungseinrichtungen und bei der Kontrolleinrichtung um entsprechende Softwaremodule. Die Sprachausgabeeinrichtung kann ebenfalls in Form eines Softwaremoduls, beispielsweise eines Text-To-Speech-Systems (TTS-System) aufgebaut sein. Zusätzlich kann die Sprachausgabeeinrichtung aber auch einen sogenannten "Prompt- Player" aufweisen, welcher dem Nutzer bestimmte Abfragen oder ständig wiederkehrende Ansagen als fertige Sound-Dateien vorspielt.
  • Die verschiedenen Softwaremodule können dabei im Übrigen statt auf einem einzelnen Rechner auch auf verschiedenen, untereinander vernetzten Rechnern installiert sein. So kann beispielsweise ein Rechner, welcher die Schnittstellen zur Verbindung mit den öffentlichen Kommunikationsnetzen aufweist, die Kontrolleinrichtung - insbesondere ein Dialogkontrollmodul - die Sprachausgabeeinrichtung und die notwendigen Datenbanken und Formatierungseinrichtungen aufweisen. Die relativ rechenintensive automatische Spracherkennung kann bei Bedarf durch ein Spracherkennungsmodul durchgeführt werden, welches auf einem zweiten, besonders leistungsstarken Rechner installiert ist.
  • Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand eines Ausführungsbeispiels näher erläutert. Es zeigen:
  • Fig. 1 eine schematische Blockdarstellung eines erfindungsgemäßen Sprach- Dialogsystems,
  • Fig. 2 ein Flussdiagramm für einen möglichen Dialogablauf bei Nutzung des Sprach- Dialogsystems zur Reservierung eines Dienstes mit anschließender Bestätigung. Bei Fig. 1 handelt es sich um eine relativ grobe schematische Darstellung, welche lediglich die für die Erfindung wesentlichen Komponenten des erfindungsgemäßen Sprach-Dialogsystems 1 darstellt. Das Sprach-Dialogsystem 1 weist hier eine multifunktionale Schnittstelle 4 auf, welche den Anschluss an die öffentlichen Kommunikationsnetze bildet und welche erlaubt, dass das Sprach-Dialogsystem 1 von einem Nutzer mittels eines Telefons bzw. Mobilfunkgeräts 15 über die üblichen Mobilfunknetze bzw. Festnetze kontaktiert werden kann. Außerdem enthält diese multifunktionale Schnittstelle 4 auch die Möglichkeit, eine SMS auf ein Mobilfunkgerät 15 des Benutzers zu senden sowie über weitere ausgehende Kanäle ein Fax an ein Faxgerät 16 des Nutzers oder eine E-Mail an eine Mailbox 17 des Benutzers zu versenden.
  • Die vom Nutzer über das Mobilfunkgerät 15 und über die Schnittstelle 4 an das Sprach- Dialogsystem 1 übermittelten eingehenden Sprachdaten SDI werden zunächst an eine Spracherkennungseinrichtung 3 weitergeleitet, welche die Sprachdaten SDI zur Erkennung bearbeitet.
  • Die in der Spracherkennungseinrichtung 3 erkannten Informationen für das Sprach- Dialogsystem wie Befehle, Suchanfragen des Nutzers etc. werden an ein Dialogkontrollmodul 6 einer zentralen Kontrolleinheit 5 weitergeleitet. Dieses Dialogkontrollmodul 6 steuert den Ablauf des eigentlichen Dialogs mit dem Nutzer.
  • Die Steuerung erfolgt dabei anhand einer Dialogbeschreibung, die in einer sogenannten "Dialogbeschreibungssprache" im System, hier im Speicher 7, hinterlegt ist. Es kann sich dabei um eine beliebige Dialogbeschreibungssprache handeln. Übliche Sprachen sind beispielsweise verfahrensorientierte Programmiersprachen wie "C" oder "C++" oder sogenannte "Hybridsprachen", welche deklarativ und verfahrensorientiert sind wie beispielsweise "Voice XMIL" oder "PSPHDLL". Hierbei handelt es sich um ähnlich aufgebaute Sprachen wie die in der Regel zur Beschreibung von Internetseiten verwendete Sprache HTML. Darüber hinaus kann es sich aber beispielsweise auch um rein grafische Dialogbeschreibungssprachen handeln, in denen die einzelnen Positionen innerhalb des Dialogablaufs, beispielsweise eine Verzweigungsstelle oder der Aufruf einer bestimmten Datenbank in Form eines grafischen Blocks und die Verbindung zwischen den Blocks durch Linien, dargestellt sind.
  • Das Dialogkontrollmodul sorgt dafür, dass zu den entsprechenden Zeitpunkten an den Nutzer bestimmte Informationen, beispielsweise Eingabeaufforderungen oder Ähnliches, sogenannte "Prompts", ausgegeben werden, um so den Dialog zu führen. Diese Prompt- Ausgabe erfolgt über eine Sprachausgabeeinheit 2, beispielsweise ein TTS-Modul, welches maschinenlesbare Daten bzw. Texte in Sprachdaten umwandelt. Die ausgehenden Sprachdaten SDO werden dann wiederum zur Übermittlung an das Mobilfunkgerät 15 des Nutzers an die Schnittstelle 4 übergeben.
  • Zur Zustands- und Zugriffskontrolle sind die Spracherkennungseinrichtung 3, die Spracherzeugungseinrichtung 2 und die Schnittstelle 4 außerdem über entsprechende Steuerleitungen 12, 13, 14 oder einen Bus mit der zentralen Kontrolleinheit 5 verbunden.
  • Die zentrale Kontrolleinheit 5 kann je nach Aufgabe des Sprach-Dialogsystems 1 auf eine oder mehrere Datenbanken zugreifen, um hier die vom Nutzer gewünschten Informationen während des Dialogs zu ermitteln. Dabei kann es sich um eigene Datenbanken innerhalb des Sprach-Dialogsystems 1 handeln. Es kann sich aber auch um Fremddatenbanken von bestimmten Diensteanbietern o. Ä. handeln, auf die das Sprach- Dialogsystem 1 über das Internet oder andere Netzwerke zugreifen kann. Der Einfachheit halber ist in Fig. 1 nur eine interne Datenbank 8 symbolisch dargestellt.
  • Die für den Nutzer aus der Datenbank 8 ermittelten bzw. die während des Dialogs erzeugten Daten, wie beispielsweise eine schriftliche Bestätigung eines Reservierungsvorgangs o. Ä., können außer über die Sprachausgabeeinrichtung 2 auch über verschiedene andere Übertragungsarten, beispielsweise über Fax, als E-Mail oder als SMS übertragen werden. Hierzu weist das Sprach-Dialogsystem 1 erfindungsgemäß mehrere Formatierungseinrichtungen 9, 10, 11, d. h. Konvertierungseinrichtungen, auf, welche die von der zentralen Kontrolleinheit 5 kommenden, zu übermittelnden Daten in ein für die jeweilige Übertragungsart benötigtes Datenformat umsetzen.
  • Im einzelnen weist das in Fig. 1 dargestellte Sprach-Dialogsystem 1 eine erste Formatierungseinrichtung auf, welche die Daten D in ein Kurznachrichtenformat KD umsetzt, beispielsweise in ein SMS-Format. Des Weiteren weist das Sprach-Dialogsystem 1 eine Faxformatierungseinrichtung 10 auf, welche die Daten D in ein Faxdatenformat FD umschreibt. Schließlich weist das Sprach-Dialogsystem 1 eine E-Mail-Formatierungseinrichtung 11 auf, welche die Daten D in ein E-Mail-Format MD oder in ein Dateiformat umwandelt, welches an eine Standard-E-Mail angehängt werden kann. Dieses Anhängen an die Standard-E-Mail wird vorzugsweise bereits innerhalb der E-Mail-Formatierungseinrichtung 11 durchgeführt.
  • Die von den jeweiligen Formatierungseinrichtungen 9, 10, 11 kommenden Daten KD, FD, MD werden dann zu der Multifunktionsschnittstelle 4 geleitet und dort über den entsprechenden Ausgangskanal in der gewünschten Übertragungsart an ein Faxgerät 16, eine Mailbox des Nutzers 17 oder an das Mobilfunkgerät 15 des Nutzers übersendet.
  • Es wird an dieser Stelle ausdrücklich darauf hingewiesen, dass es sich bei dem in Fig. 1 dargestellten Aufbau lediglich um ein mögliches Beispiel handelt. Ein erfindungsgemäßes Sprach-Dialogsystem kann auch durch verschiedene andere Hardware- und/oder Software-Architekturen konkret realisiert werden. So können beispielsweise die verschiedenen Formatierungseinrichtungen auch direkt in die Schnittstelle integriert sein, oder das Sprach-Dialogsystem weist für jede Übertragungsart eine separate Schnittstelle auf, welche der jeweiligen Formatierungseinrichtung nachgeschaltet ist. Ebenso kann das Sprach-Dialogsystem noch zusätzliche, hier nicht dargestellte Komponenten, beispielsweise einen "Prompt-Player" o. Ä., aufweisen. Im Übrigen kann das Sprach-Dialogsystem auch noch weitere Formatierungseinrichtungen für andere als die bereits explizit genannten Übertragungsarten aufweisen.
  • Fig. 2 zeigt in einem Flussdiagramm den Dialogablauf bei einer möglichen Nutzung des Sprach-Dialogsystems.
  • Der Dialog beginnt mit einer Initialisierung, bei der der Nutzer vom Sprach-Dialogsystem begrüßt wird und sich gegebenenfalls durch Nennung seines Namens und eventuell eines Passwords identifizieren muss. In einer solchen Phase könnte beispielsweise auch eine Identifizierung des Anrufers mittels CLI o. Ä. durchgeführt werden.
  • Als nächstes hat der Nutzer die Möglichkeit, den gewünschten Dienst auszuwählen. Sofern es sich um ein Sprach-Dialogsystem handelt, welches nur eine Art von Dienst anbietet, kann dieser Schritt auch entfallen. Im vorliegenden Ausführungsbeispiel wird davon ausgegangen, dass der Nutzer ein Hotelzimmer reservieren möchte.
  • Hierzu gibt der Nutzer zunächst die benötigten Daten wie beispielsweise einen Namen bzw. eine Adresse des Hotels, die Art des Zimmers und das gewünschte Datum ein. Anschließend erfolgt durch das Sprach-Dialogsystem eine Datenbankabfrage, um die aktuellen Daten über den Belegungsstand des betreffenden Hotels zu erhalten. Es wird dann festgestellt, ob eine Reservierung möglich ist. Ist dies nicht der Fall, wird der Benutzer gefragt, ob er eine Alternative wünscht. Sofern er dies bejaht, macht das Sprach-Dialogsystem einen Vorschlag, den der Nutzer dann nur noch bestätigen muss, worauf anschließend wieder die Datenbankabfrage erfolgt und geklärt wird, ob eine Reservierung möglich ist. Sofern der Nutzer keinen Alternativvorschlag wünscht, wird er im nächsten Schritt gefragt, ob er einen weiteren Dienst benötigt. Wird dies bejaht, so beginnt der Dialog wieder am Punkt der Dienstauswahl, anderenfalls wird der Dialog beendet.
  • Wird festgestellt, dass eine Reservierung möglich ist, so wird in einem weiteren Schritt die Reservierung in der Datenbank durchgeführt und in einem darauffolgenden Schritt eine Reservierungs-ID vergeben, die angibt, unter welcher Nummer die Reservierung durchgeführt wurde. Anschließend wird der Nutzer gefragt, ob er eine zusätzliche Bestätigung haben möchte. Wenn der Nutzer dies verneint, erfolgt als nächstes die Anfrage des Dialogsystems, ob der Nutzer einen weiteren Dienst benötigt. Sofern er bejaht, beginnt der Ablauf wieder mit der Dienstauswahl, anderenfalls ist der Dialog beendet.
  • Wenn der Benutzer jedoch eine zusätzliche Bestätigung wünscht, so wird im nächsten Punkt die Übertragungsart ausgewählt, indem das Dialogsystem zunächst prüft, ob in der Antwort auf die Anfrage der zusätzlichen Bestätigung bereits ein Übertragungsart- Auswahlbefehl enthalten ist, beispielsweise wenn der Benutzer gleich geantwortet hat "Ja, per Fax", und ansonsten entsprechendes Prompt an den Nutzer ausgibt, womit dieser aufgefordert wird, einen Übertragungsart-Auswahlbefehl einzugeben.
  • Anschließend wird die Adresse bestimmt, an die die Bestätigung erfolgen soll. Beispielsweise wird bei Auswahl der Übertragungsart "Fax" der Nutzer nach der Faxnummer gefragt.
  • Im nächsten Schritt wird dann die schriftliche Bestätigung an das vom Nutzer angegebene Fax versendet. Nachdem diese schriftliche Bestätigung erfolgt ist, wird der Nutzer vom Dialogsystem gefragt, ob er einen weiteren Dienst benötigt. Bejaht er dies, so beginnt der Dialog erneut bei der Dienstauswahl. Anderenfalls wird der Dialog beendet.
  • Es ist klar, dass der dargestellte Ablauf in verschiedener Weise auch verändert werden kann, ohne dass die Erfindung in ihrem wesentlichen Kern davon berührt ist. So ist es beispielsweise ohne weiteres möglich, an beliebigen Stellen innerhalb des Dialogs zusätzlich Sprachausgaben zur Bestätigung vorzusehen. Insbesondere kann nach einer Auswahl der Übertragungsart und nach Angabe der Adresse, an welches Gerät bzw. an welche Teilnehmernummer die Daten gesendet werden sollen, die Bestätigung erfolgen: "Die gewünschte Information wird an Ihren Faxanschluss mit der Nummer "123456789" gesendet".
  • Die Erfindung ermöglicht auf einfachem Wege eine erheblich komfortablere Nutzung von Sprach-Dialogsystemen, da sich der Benutzer die vom Sprach-Dialogsystem erhaltenen Informationen nicht mehr merken bzw. aufschreiben muss. Darüber hinaus eröffnet die Erfindung weitere Anwendungsmöglichkeiten für Sprach-Dialogsysteme auch in den Bereichen, in denen beispielsweise aus rechtlichen Gründen eine schriftliche Bestätigung oder Ähnliches sinnvoll oder sogar notwendig ist.

Claims (10)

1. Verfahren zum Betrieb eines Sprach-Dialogsystems (1), welches mit einem Nutzer unter Verwendung einer Spracherkennungseinrichtung (2) und einer Sprachausgabeeinrichtung (3) kommuniziert, wobei das Sprach-Dialogsystem aufgrund des Dialogs für den Nutzer ermittelte und/oder erzeugte Daten (D) an den Nutzer übermittelt, dadurch gekennzeichnet, dass das Sprach-Dialogsystem nach Empfang eines Übertragungsart-Auswahlbefehls (AB) des Nutzers die an den Nutzer zu übermittelnden Daten (D) in einem für die ausgewählte Übertragungsart geeigneten Datenformat formatiert und über eine für diese Übertragungsart geeignete Schnittstelle (4) versendet.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Übertragungsart-Auswahlbefehl (AB) mehrere Übertragungsarten angibt und das Sprach-Dialogsystem (1) die Daten (D) auf jede der angegebenen Übertragungsarten versendet.
3. Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass bei einer ausgewählten Übertragungsart eine Übermittlung der Daten in verschiedenen Datenformaten möglich ist und das Sprach-Dialogsystem die Daten in Abhängigkeit von einem empfangenen Datenformat-Auswahlbefehl des Nutzers formatiert und versendet.
4. Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass der Nutzer an das Sprach-Dialogsystem einen Adressbefehl übermittelt, an welche Adresse die Daten gemäß der Übertragungsart zu übermitteln sind.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, dass das Sprach-Dialogsystem eine Adresse, an die die Daten gemäß der Übertragungsart zu übermitteln sind, auf Basis der gewählten Übertragungsart und/oder des Adressbefehls unter Verwendung zusätzlich ermittelter Adressinformationen bestimmt.
6. Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass die Adresse, an welche die Daten bei Auswahl einer bestimmten Übertragungsart zu übermitteln sind, und/oder die zusätzlichen Adressinformation in einem dem jeweiligen Nutzer zugeordneten Nutzerprofil des Sprach-Dialogsystems gespeichert sind.
7. Automatisches Sprach-Dialogsystem (1)
mit einer Spracherkennungseinrichtung (2) und einer Sprachausgabeeinrichtung (3) zur Kommunikation mit einem Nutzer
und mit Mitteln, um in Abhängigkeit von einem mit dem Nutzer geführten Dialog bestimmte Daten (D) für den Nutzer zu ermitteln und/oder zu erzeugen und an den Nutzer zu übermitteln,
gekennzeichnet durch zumindest eine zusätzliche Formatierungseinrichtung (9, 10, 11), um die Daten (D) zusätzlich oder alternativ zur Sprachausgabe in einem für eine weitere Übertragungsart geeigneten Datenformat zu formatieren,
und eine Kontrolleinrichtung (5) zum Empfang eines Übertragungsart-Auswahlbefehls (AB) des Nutzer über die Spracherkennungseinrichtung (3) zur Auswahl einer bestimmten Übertragungsart und zum Steuern des Sprach-Dialogsystems (1) derart, dass in Abhängigkeit von dem Übertragungsart-Auswahlbefehl (AB) die Daten (D) entsprechend der ausgewählten Übertragungsart mittels der passenden Formatierungseinrichtung (9, 10, 11) formatiert und über eine geeignete Schnittstelle (4) versandt werden.
8. Sprach-Dialogsystem nach Anspruch 7, gekennzeichnet durch eine Speichereinrichtung, um für verschiedene Nutzer die Adressen, an welche die Daten bei Auswahl einer bestimmten Übertragungsart zu übermitteln sind, und/oder hierfür benötigte Adressinformationen zu speichern.
9. Computerprogramm mit Programmcode-Mitteln, um alle Schritte eines Verfahrens nach einem der Ansprüche 1 bis 6 auszuführen, wenn das Programm auf einem Computer eines Sprach-Dialogsystems ausgeführt wird.
10. Computerprogramm mit Programmcode-Mitteln gemäß Anspruch 9, die auf einem computerlesbaren Datenträger abgespeichert sind.
DE10208295A 2002-02-26 2002-02-26 Verfahren zum Betrieb eines Sprach-Dialogsystems Withdrawn DE10208295A1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE10208295A DE10208295A1 (de) 2002-02-26 2002-02-26 Verfahren zum Betrieb eines Sprach-Dialogsystems
JP2003572279A JP2005518765A (ja) 2002-02-26 2003-02-21 音声対話システムを動作させる方法
PCT/IB2003/000643 WO2003073734A1 (en) 2002-02-26 2003-02-21 Method of operating a speech dialog system
US10/505,501 US20050114139A1 (en) 2002-02-26 2003-02-21 Method of operating a speech dialog system
AU2003206036A AU2003206036A1 (en) 2002-02-26 2003-02-21 Method of operating a speech dialog system
EP03702919A EP1481536A1 (de) 2002-02-26 2003-02-21 Verfahren zum betrieb eines sprachdialogsystems

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10208295A DE10208295A1 (de) 2002-02-26 2002-02-26 Verfahren zum Betrieb eines Sprach-Dialogsystems

Publications (1)

Publication Number Publication Date
DE10208295A1 true DE10208295A1 (de) 2003-09-04

Family

ID=27675003

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10208295A Withdrawn DE10208295A1 (de) 2002-02-26 2002-02-26 Verfahren zum Betrieb eines Sprach-Dialogsystems

Country Status (6)

Country Link
US (1) US20050114139A1 (de)
EP (1) EP1481536A1 (de)
JP (1) JP2005518765A (de)
AU (1) AU2003206036A1 (de)
DE (1) DE10208295A1 (de)
WO (1) WO2003073734A1 (de)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1704882A (zh) * 2004-05-26 2005-12-07 微软公司 使用键盘的亚洲语言输入
US20070043572A1 (en) * 2005-08-19 2007-02-22 Bodin William K Identifying an action in dependence upon synthesized data
US7958131B2 (en) * 2005-08-19 2011-06-07 International Business Machines Corporation Method for data management and data rendering for disparate data types
US8977636B2 (en) 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US8266220B2 (en) 2005-09-14 2012-09-11 International Business Machines Corporation Email management and rendering
US20070061712A1 (en) * 2005-09-14 2007-03-15 Bodin William K Management and rendering of calendar data
US20070061371A1 (en) * 2005-09-14 2007-03-15 Bodin William K Data customization for data of disparate data types
US8694319B2 (en) * 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
US8271107B2 (en) 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
US20070165538A1 (en) * 2006-01-13 2007-07-19 Bodin William K Schedule-based connectivity management
US20070192673A1 (en) * 2006-02-13 2007-08-16 Bodin William K Annotating an audio file with an audio hyperlink
US9135339B2 (en) * 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US20070192675A1 (en) * 2006-02-13 2007-08-16 Bodin William K Invoking an audio hyperlink embedded in a markup document
US9196241B2 (en) 2006-09-29 2015-11-24 International Business Machines Corporation Asynchronous communications using messages recorded on handheld devices
US9318100B2 (en) 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US8646702B2 (en) 2011-10-13 2014-02-11 Deere & Company Boom fold structure
US11082563B2 (en) * 2015-12-06 2021-08-03 Larry Drake Hansen Process allowing remote retrieval of contact information of others via telephone voicemail service product

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6625642B1 (en) * 1998-11-06 2003-09-23 J2 Global Communications System and process for transmitting electronic mail using a conventional facsimile device
US7110952B2 (en) * 1999-12-07 2006-09-19 Kursh Steven R Computer accounting method using natural language speech recognition

Also Published As

Publication number Publication date
US20050114139A1 (en) 2005-05-26
EP1481536A1 (de) 2004-12-01
AU2003206036A1 (en) 2003-09-09
WO2003073734A1 (en) 2003-09-04
JP2005518765A (ja) 2005-06-23

Similar Documents

Publication Publication Date Title
DE69839068T2 (de) System und Verfahren zur automatischen Verarbeitung von Anruf und Datenübertragung
DE10208295A1 (de) Verfahren zum Betrieb eines Sprach-Dialogsystems
DE69731907T2 (de) Sprachpost über Internet
DE69725761T2 (de) System und verfahren zur kodierung und zur aussendung von sprachdaten
DE4041273C1 (de)
DE102016102341A1 (de) System und verfahren zum themenbezogenen trennen bei instant messaging
DE102011118780A1 (de) Verfahren und system für das erzeugen einerzusammenarbeitszeitachse, die anwendungsartefakte im kontext illustriert
EP1282296A2 (de) Verfahren und Anordnung zum Aufbau einer Konferenzschaltung
EP1370995A1 (de) Verfahren und kommunikationssystem zur generierung von antwortmeldungen
EP1298901A2 (de) Vermittlungsverfahren zwischen Dialogsystemen
DE10118125A1 (de) Automatisches Auskunftssystem
DE10304229A1 (de) Kommunikationssystem, Kommunikationsendeinrichtung und Vorrichtung zum Erkennen fehlerbehafteter Text-Nachrichten
EP1016312B1 (de) Verfahren und anordnung für eine automatische übersetzung von nachrichten in einem kommunikationssystem
DE102009041847A1 (de) System und Verfahren zur Verwaltung von Konferenzverbindungen durch Verwendung von gefilterten Teilnehmerlisten
WO2003055158A1 (de) System zur umsetzung von textdaten in eine sprachausgabe
EP1982508B1 (de) Vorrichtung und verfahren zum bereitstellen einer voice browserfunktionalität.
DE102007027363A1 (de) Verfahren zum Betreiben eines Voice-Mail-Systems
EP1321851A2 (de) Verfahren zum Betrieb eines Sprach-Dialogsystems
EP2127273B1 (de) Verfahren zum abspielen einer sounddatei auf einem empfänger-mobiltelefon mittels eines sender-mobiltelefons sowie computerprogrammprodukt
DE60126487T2 (de) Verfahren und vorrichtung zum herstellen von verbindungen ohne verbreitung der rufnummer
EP1150479A2 (de) Verfahren zur interaktive Informationsabfrage mittels eines Mobiltelefons
EP1457029A1 (de) Verfahren zum austausch von informationen mittels sprache über ein paketorientiertes netzwerk
EP1116372A1 (de) Mitteilungszentrale und verfahren zur verbreitung von mitteilungen in telefonnetzen
DE10225597A1 (de) Verfahren zum Aufbau einer Sprachkommunikationsverbindung
DE102010001564B4 (de) Verfahren zur automatisierten konfigurierbaren akustischen Wiedergabe von über das Internet zugänglichen Textquellen

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee