DE10225597A1

DE10225597A1 - Verfahren zum Aufbau einer Sprachkommunikationsverbindung

Info

Publication number: DE10225597A1
Application number: DE10225597A
Authority: DE
Inventors: Matthias Dr.-Ing. Pankert
Original assignee: Philips Intellectual Property and Standards GmbH
Current assignee: Philips Intellectual Property and Standards GmbH
Priority date: 2002-06-07
Filing date: 2002-06-07
Publication date: 2004-01-08
Also published as: WO2003105452A1; AU2003232389A1

Abstract

Es wird ein Verfahren zum Aufbau einer Sprachkommunikations-Verbindung von einem Endgerät (1, 2, 3) zu einem Zielteilnehmergerät (4, 5, 6) innerhalb eines Kommunikationsnetzes (N) beschrieben, bei dem zunächst eine erste Sprachkommunikations-Verbindung (V¶1¶) zu einem Sprach-Dialogsystem (10) hergestellt wird, welches mit einem Nutzer des Endgeräts (1, 2, 3) unter Verwendung einer automatischen Spracherkennungseinrichtung (8) und einer Informationsausgabeeinrichtung (9) kommuniziert. Dabei wird anhand eines Dialogs zwischen dem Nutzer und dem Sprach-Dialogsystem (10) eine Teilnehmerkennung (K) des Zielteilnehmers ermittelt. Die ermittelte Teilnehmerkennung (K) wird zunächst an das Endgerät (1, 2, 3) übermittelt, und das Endgerät (1, 2, 3) baut unter Nutzung dieser Teilnehmerkennung (K) automatisch eine zweite Sprachkommunikations-Verbindung (V¶2¶) zu dem Zielteilnehmergerät (4, 5, 6) auf.

Description

Die Erfindung betrifft ein Verfahren zum Aufbau einer Sprachkommunikationsverbindung von einem Endgerät zu einem Zielteilnehmergerät innerhalb eines Kommunikationsnetzes, bei dem zunächst eine erste Sprachkommunikationsverbindung zu einem Sprach-Dialogsystem hergestellt wird, welches mit einem Nutzer des Endgeräts unter Verwendung einer automatischen Spracherkennungseinrichtung und einer Informationsausgabeeinrichtung kommuniziert, wobei anhand eines Dialogs zwischen dem Nutzer und dem Sprach-Dialogsystem eine Teilnehmerkennung des Zielteilnehmers ermittelt wird und dann eine zweite Sprachkommunikationsverbindung zwischen dem Endgerät und dem Zielteilnehmergerät unter Nutzung der ermittelten Teilnehmerkennung aufgebaut wird. Darüber hinaus betrifft die Erfindung ein automatisches Sprach-Dialogsystem, ein Endgerät sowie ein das Sprach-Dialogsystem und das Endgerät umfassendes System zum Aufbau einer Sprachkommunikationsverbindung gemäß dem genannten Verfahren.
In der klassischen Weise wird eine Sprachkommunikationsverbindung zwischen einem Endgerät, beispielsweise einem Festnetztelefon, einem Mobilfunkgerät oder einem sonstigen Gerät mit Telefonie-Funktion, wie einem entsprechend ausgestatteten PC, Laptop oder PDA (Personal Digital Assistant), zu einem Zielteilnehmergerät dadurch aufgebaut, dass der Benutzer manuell eine Teilnehmerkennung, z. B. eine Telefonnummer, des gewünschten Zielteilnehmergeräts eingibt. Weiterhin gibt es bereits seit längerem Endgeräte, bei denen die Möglichkeit besteht, aus einem im Gerät gespeicherten Telefonbuch mit Hilfe manueller Eingaben, z. B. der Eingabe bzw. Auswahl eines Namens, die gewünschte Teilnehmerkennung zu ermitteln. Das Endgerät wählt dann automatisch oder nach einer zusätzlichen Bestätigung das Zielteilnehmergerät mit der eingegebenen bzw. ermittelten Teilnehmerkennung an.
Eine relativ neuartige Alternative hierzu ist die sogenannte Sprachwahl, bei der anhand von Sprachbefehlen des Nutzers die Teilnehmerkennung ermittelt und damit die passende Verbindung aufgebaut wird. Die Teilnehmerkennung kann hierbei in der Weise ermittelt werden, dass der Nutzer die einzelnen Zeichen oder Worte der Teilnehmerkennung spricht und eine Spracherkennungseinrichtung die Zeichen bzw. Worte erkennt und zu der gewünschten Teilnehmerkennung zusammensetzt. In vielen Fällen ist es jedoch so, dass auch hier ein Speicher bzw. eine Datenbank mit einem „Telefonbuch" zur Verfügung steht und der Benutzer einfach den Namen und gegebenenfalls weitere Informationen wie Teile der Adresse des gewünschten Zielteilnehmers angibt und anhand dieser Information die richtige Teilnehmerkennung ermittelt wird. Eine solche Sprachwahl hat für den Benutzer viele Vorteile, insbesondere in Fällen, in denen der Benutzer gleichzeitig andere Aufgaben erledigt und hierfür beide Hände benötigt, beispielsweise als Fahrer eines Kraftfahrzeugs. Darüber hinaus ermöglicht eine Sprachwahl auch behinderten Personen, welche z. B. blind sind oder in ihren manuellen Fähigkeiten stark eingeschränkt sind, ohne fremde Hilfe ein entsprechendes Kommunikationsendgerät zu verwenden und beliebige andere Zielteilnehmer anzurufen. Darüber hinaus ist eine Sprachwahl außerordentlich komfortabel für den Nutzer.
Eine solche Sprachwahl wird in der Praxis derzeit auf zwei verschiedene Weisen realisiert.
Bei der ersten Methode handelt es sich um eine Sprachwahl im Kommunikationsendgerät selbst. Hierbei wird beispielsweise durch einen Knopfdruck oder durch ein Aktivierungswort eine Sprachwahlfunktion des Kommunikationsendgeräts aktiviert. Bei aktiver Sprachwahlfunktion kann der Nutzer einen Namen bzw. sonstige Informationen sprechen. Eine im Endgerät selbst angeordnete Spracherkennungseinrichtung versucht den Namen zu erkennen und einem Eintrag in einem im Endgerät gespeicherten Telefonbuch zuzuordnen. Gelingt es, den Namen zu erkennen und den Namen richtig zuzuordnen, wird die entsprechende Telefonnummer gewählt und damit die gewünschte Verbindung aufgebaut. Bei dieser Form der Sprachwahl wird die Namensliste, d. h. das Telefonbuch durch Aufsprechen und/oder durch Eingeben über die Tastatur im Endgerät erstellt und gepflegt. Eine solche endgerätbasierte Methode hat den Vorteil, das sie organisatorisch einfach ist, da alle erforderlichen Maßnahmen durch den Endgerätehersteller entschieden und ausgeführt werden können. Eine Mitwirkung durch einen Netzbetreiber, insbesondere eine Vermittlungsinfrastruktur ist nicht erforderlich. Problematisch bei dieser Methode ist jedoch, dass die Kommunikationsendgeräte aufgrund ihrer Größe und der erlaubten Herstellungskosten in der Regel eine recht begrenzte Rechenleistung und Speicherkapazität aufweisen. Aufgrund der begrenzten Ressourcen müssen daher relativ einfache Spracherkenner verwendet werden. Ein weiterer Nachteil einer endgerätbasierten Sprachwahl-Methode besteht darin, dass eine landessprachenspezifische Konfiguration des Endgeräts notwendig ist, was für Hersteller, Handel und Benutzer aufwändig ist.
Die genannten Nachteile können durch eine zweite Methode nach einem Verfahren der eingangs genannten Art gemindert bzw. teilweise sogar ganz vermieden werden. Dabei handelt es sich um eine netzwerkbasierte Methode der Sprachwahl, da hier innerhalb des Kommunikationsnetzes angeordnete Sprach-Dialogsysteme genutzt werden, um die Teilnehmerkennung zu ermitteln. Dialogsysteme, die mit einem Nutzer unter Verwendung von Spracherkennungs- und Informationsausgabeeinrichtungen kommunizieren, sind bereits seit längerem bekannt. Es handelt sich hierbei um sprachgesteuerte automatische Systeme, die oft auch als Voice-Portale bezeichnet werden. Ein Beispiel hierfür sind automatische Anrufbeantwortungs- und Auskunftssysteme, wie sie inzwischen beispielsweise von einigen größeren Firmen und Ämtern verwendet werden, um einen Anrufer möglichst schnell und komfortabel mit der gewünschten Information zu versorgen oder mit einer Stelle zu verbinden, welche für die speziellen Wünsche des Anrufers zuständig ist. Ein weiteres Beispiel hierfür ist eine automatische Telefonauskunft, wie sie bereits von einigen Telefongesellschaften eingesetzt wird. Bei den Sprach-Dialogsystemen kann es sich um Dialogsysteme handeln, welche allein über die Sprache mit dem Benutzer kommunizieren, d. h. dass alle Daten bzw. Befehle des Nutzers in Sprachform eingegeben werden und in einer Spracherkennungseinrichtung erkannt werden, so dass das System entsprechend darauf reagieren kann. Ebenso können alle Daten bzw. Eingabeaufforderungen des Systems an den Nutzer, d. h. alle Systemausgaben (Prompts), über eine geeignete Sprachausgabe, einen sogenannten Prompt-Generator, ausgegeben werden. Als Prompt-Generator können z. B. TTS-Konverter (Text to Speech) verwendet werden, oder es werden fertige gespeicherte Sounddateien ausgegeben. Es kann sich bei einem solchen Sprach-Dialogsystem auch um gemischte Dialogsysteme (multimodale Dialogsysteme) handeln, welche beispielsweise die Informationen vom System an den Nutzer über ein Display ausgeben, welches der Benutzer ja ebenfalls, ohne die Hände zu benutzen, ablesen kann, wobei auch teilweise Prompts als Sprachausgaben und teilweise über ein Display ausgegeben werden. Ebenso ist es auch möglich, dass zusätzlich Befehlseingaben durch Tastendrücke, beispielsweise bei üblichen Telefonen über sogenannte DTMF-Signale (Dual Tone Multi Frequency) vom System akzeptiert werden. Um mit dem Dialogsystem zu kommunizieren, muss vom Kommunikationsendgerät zunächst eine erste Sprachkommunikationsverbindung zu dem Sprach-Dialogsystem hergestellt werden. Steht diese erste Sprachkommunikationsverbindung, so kann der Teilnehmer wie bei der endgerätbasierten Methode den Namen eines gewünschten Teilnehmers eingeben. Das Dialogsystem kann dann anhand einer Namensliste, welche auch zur Spracherkennung herangezogen wird und in der die Zuordnung der Namen, deren Aussprachen sowie der zugehörigen Teilnehmerkennung vorgenommen wird, die gewünschte Teilnehmerkennung ermitteln. Eine solche Namensliste bzw. Telefonbuch kann benutzerspezifisch sein, d. h. es kann sich um ein persönliches Adressbuch handeln, welches einem bestimmten Nutzer zugeordnet ist. Es kann sich aber auch um ein allgemeines Telefonbuch handeln, entsprechend einem öffentlichen Telefonbuch bzw. einem Firmentelefonbuch. Es ist auch möglich, persönliche Namenseinträge mit einem allgemeinen Telefonbuch zu mischen. Das persönliche Adressbuch bzw. der persönliche Anteil des Adressbuchs kann dabei entweder durch einen Sprachdialog oder – sofern vom Sprach-Dialogsystem selber diese Möglichkeit vorgesehen ist – textuell, z. B. über das Internet, gepflegt werden. Sobald die Teilnehmerkennung ermittelt ist, wird dann innerhalb des Netzes automatisch die zweite Sprachkommunikations verbindung zwischen dem Endgerät und dem Zielteilnehmergerät aufgebaut, d. h. der Nutzer wird automatisch weitervermittelt. Ein solches Verfahren wird in der US 5,297,183 beschrieben, bei der ein Spracherkennungssystem die erkannte Teilnehmernummer an eine Mobilfunkvermittlungsstelle versendet und somit die Vermittlung des Teilnehmers an den Zielteilnehmer veranlasst. Diese netzwerkbasierte Methode hat den Vorteil, dass sie vielseitiger ist als die endgerätbasierte Methode. So können weitaus größere Telefonbücher angelegt werden, und es können Telefonbücher von mehreren Endgeräten aus genutzt werden. Außerdem können für den Benutzer transparent jederzeit Erweiterungen und Verbesserungen der Technologie vorgenommen werden. Des Weiteren können erheblich aufwändigere Spracherkenner verwendet werden, die auch in der Lage sind, unter extremen Bedingungen sicher eine Erkennung durchzuführen. Der Nachteil dieser Methode besteht darin, dass größere Anforderungen an die Infrastruktur des Kommunikationsnetzes gestellt werden. Insbesondere müssen die Netzwerkknoten die Vermittlung durchführen bzw. auslösen können. Dazu ist die Mitwirkung der Netzwerkbetreiber erforderlich. Oft ist das SS7-Protokoll und die damit verbundene aufwändige Infrastruktur erforderlich. Hinzu kommen die Nachteile, dass die Abrechnung mit dem Benutzer, das sogenannte „Billing", erheblich komplizierter wird, da bei einem weitergeleiteten Gespräch die Kosten dafür auf die Rechnung des Nutzers gebucht werden müssen. Hierzu ist in der Regel ein Tarifwechsel (Change of tarifs) notwendig, der relativ großen technischen Aufwand erfordert und vor allem für den Benutzer auf einer später erhaltenen Abrechnung relativ undurchsichtig ist.
Es ist daher Aufgabe der Erfindung, eine einfache und kostengünstige Alternative zu den genannten Verfahren zu schaffen, welche einerseits eine möglichst komfortable Dialogführung mit dem Nutzer, insbesondere eine gute Spracherkennung, gewährleistet, und bei der andererseits ein einfacher und für den Benutzer gut kontrollierbarer Verbindungsaufbau durchgeführt wird, ohne aufwändige Anforderungen an die Vermittlungsinfrastruktur im Netz.
Diese Aufgabe wird bei einem Verfahren der eingangs genannten Art dadurch gelöst, dass die ermittelte Teilnehmerkennung zunächst an das Kommunikationsendgerät übermittelt wird und das Kommunikationsendgerät unter Nutzung dieser Teilnehmerkennung automatisch die zweite Sprachkommunikationsverbindung aufbaut.
Durch das erfindungsgemäße Verfahren werden die Vorteile der beiden bekannten Methoden verbunden und gleichzeitig die jeweiligen Nachteile umgangen. Insbesondere erlaubt das erfindungsgemäße Verfahren einerseits eine sehr aufwändige Spracherkennung sowie die Benutzung von nahezu unbegrenzt großen Telefonbüchern. Dabei können auch allgemeine Telefonbücher verwendet werden, die regelmäßig ohne Zutun des Nutzers aktualisiert werden. Andererseits wird innerhalb des Netzes keine zusätzliche aufwändige Vermittlungsinfrastruktur benötigt. Da zwei separate Verbindungen – eine erste Sprachkommunikationsverbindung zum Sprach-Dialogsystem und eine davon getrennte zweite Sprachkommunikationsverbindung zwischen dem Kommunikationsendgerät des Nutzers und einem Zielteilnehmergerät – hergestellt werden, gibt es, anders als bei einer Verbindung im Netzwerk, keinen Tarifwechsel. Das Billing ist daher außerordentlich einfach und für den Anrufer transparent und verständlich.
Zur Durchführung des Verfahrens muss das automatische Sprach-Dialogsystem zumindest folgende Komponenten aufweisen:

– Anschlussmittel zum Aufbau einer Sprachkommunikations-Verbindung zu einem Endgerät,
– eine automatische Spracherkennungseinrichtung und eine Informationsausgabeeinrichtung, beispielsweise eine reine Sprachausgabe und/oder eine Einrichtung zur Ausgabe von maschinenlesbaren Daten beispielsweise für ein Display, z. B. eines Textes oder graphischer Daten, oder zur Steuerung einer lokalen Sprachausgabeeinrichtung des Endgeräts zur Führung des Dialogs mit einem Nutzer des Kommunikationsendgeräts,
– eine Dialog-Kontrolleinrichtung zur Steuerung des Dialogs zwischen dem Nutzer und dem Dialogsystem zur Ermittlung einer Teilnehmerkennung eines Zielteilnehmers,
– Mittel, um die Teilnehmerkennung in maschinenlesbarer Form an das Endgerät zu übermitteln.

Die Bezeichnung „in maschinenlesbarer Form" ist hierbei so zu verstehen, dass die Teilnehmerkennung nicht als Sprachausgabe übermittelt wird, sondern in einer Form, die vom Endgerät ohne Spracherkennung automatisch weiterverarbeitet und genutzt werden kann, um die zweite Sprachkommunikationsverbindung aufzubauen. Die Teilnehmerkennung kann darüber hinaus auch zusätzlich als Sprachausgabe erfolgen, damit der Nutzer kontrollieren kann, ob die richtige Teilnehmerkennung gewählt wird.
Ein geeignetes Endgerät zur Durchführung eines solchen Verfahrens benötigt ein Sprachbenutzer-Interface, welches üblicherweise eine Spracheingabeeinrichtung sowie eine Sprachausgabeeinrichtung und/oder ein Display aufweist. Außerdem muss es Mittel zum Aufbau einer ersten Sprachkommunikationsverbindung zu einem Sprach-Dialogsystem zur Führung des gewünschten Dialogs zur Ermittlung der Teilnehmerkennung aufweisen. Erfindungsgemäß muss es darüber hinaus Mittel aufweisen, um die ermittelte Teilnehmerkennung in maschinenlesbarer Form zu empfangen und automatisch eine zweite Sprachkommunikationsverbindung zu dem gewünschten Zielteilnehmer unter Nutzung der Teilnehmerkennung aufzubauen. Das heißt, das Endgerät muss eine entsprechende Einrichtung aufweisen, um das Zielteilnehmergerät mit der empfangene Teilnehmerkennung automatisch anzuwählen.
Ein System zur Durchführung des erfindungsgemäßen Verfahrens muss zumindest ein solches Sprach-Dialogsystem und eines der vorgenannten Endgeräte aufweisen, welche über ein Kommunikationsnetz untereinander verbindbar sind.
Bei dem Kommunikationsnetz kann es sich um ein beliebiges Kommunikationsnetz handeln. Insbesondere kann es sich auch um ein aus verschiedensten Einzelnetzen wie einem GSM-Netz, Festnetz, UMTS-Netz, Internet etc. zusammengesetztes Netz handeln. Wesentlich ist lediglich, dass eine Sprachkommunikations-Verbindung zwischen den betreffenden Geräten hergestellt werden kann. In Abhängigkeit von den jeweiligen Netzen, an die die Geräte angeschlossen sind, kann es sich auch um verschiedene Arten von Teilnehmerkennungen handeln, beispielsweise um eine Telefonnummer, eine URL oder einen sonstigen Adresscode.
Weitere vorteilhafte Ausgestaltungen und Weiterbildungen werden insbesondere in den abhängigen Ansprüchen angegeben.
Bei einer vorteilhaften Variante gibt das Endgerät nach Empfang der Teilnehmerkennung zunächst eine Bestätigungsanfrage an den Nutzer aus. Nur bei Empfang eines Bestätigungsbefehls vom Nutzer wird dann die zweite Sprachkommunikationsverbindung aufgebaut. Dies hat den Vorteil, dass der Nutzer eine erheblich bessere Kontrolle darüber hat, welche Verbindungen tatsächlich aufgebaut werden, was insofern wichtig ist, da jeder Verbindungsaufbau mit Kosten für den Nutzer verbunden ist.
Es ist prinzipiell möglich, dass die erste Sprachkommunikationsverbindung zum Dialogsystem erhalten bleibt, während die zweite Sprachkommunikationsverbindung zum Zielteilnehmergerät hergestellt wird. Hierzu ist es lediglich erforderlich, dass das Endgerät in der Lage ist, zwei Sprachkommunikations-Verbindungen parallel aufrecht zu erhalten. Vom Sprach-Dialogsystem können dann auf die gleiche Weise weitere Erkennungsvorgänge durchgeführt werden, z. B. kann eine weitere Teilnehmerkennung für einen anderen Zielteilnehmer gesucht und an das Endgerät übermittelt werden. Das Kommunikationsendgerät kann daraufhin weitere Verbindungen initiieren. Dies kann gleichzeitig (Dreierkonferenz) oder im Anschluss an die zweite Kommunikationsverbindung geschehen.
In den meisten Fällen wird das Endgerät jedoch nach einem Empfang der Teilnehmerkennung automatisch oder nach Empfang eines Verbindungsabbaubefehls des Nutzers die erste Sprachkommunikationsverbindung beenden. Hierbei ist es auch möglich, dass das Kommunikationsendgerät zunächst eine Verbindungsabbauabfrage an den Nutzer ausgibt, d. h. einen passenden Prompt, mit dem nachgefragt wird, ob die Verbindung zu dem Dialogsystem beendet werden soll. Dies ist kann beispielsweise vor der Anfrage geschehen, ob die zweite Sprachkommunikations-Verbindung aufgebaut werden soll.
Zur Übermittlung der Teilnehmerkennung an das Kommunikationsendgerät bestehen verschiedene Möglichkeiten. Im analogen Netz, im ISDN- oder im GSM-Netz erfolgt sinnvollerweise die Übersendung der Teilnehmerkennung in einer akustischen Form codiert über die jeweilige Sprachkommunikationsverbindung. Das heißt, es wird eine Codierung vorgenommen, mit der Daten über den Sprachkanal übertragen werden können. Ein Beispiel hierfür ist eine DTMF-Codierung.
Bei Netzen, welche gleichzeitig den Aufbau eines Sprachkanals und eines Datenkanals erlauben, wie beispielsweise in einem GPRS-Netz, kann auch ein zweiter Datenkanal aufgebaut und dazu verwendet werden, um die Teilnehmerkennung direkt als passende Daten zu versenden. Ebenso ist es bei einigen Netzen möglich, z. B. UMTS-Netzen oder bei einer Internet-Telefonie, d. h. bei einer IP-Verbindung, die Teilnehmerkennung direkt in der passenden Datenform zu senden, da bei diesen Netzen Daten- und Sprachpakete gemischt über einen Kanal übertragen werden können.
Unter Umständen kann es aber auch in solchen Netzen, in denen eine Datenübertragung in üblicher Datenformatierung möglich ist, günstiger sein, die Teilnehmerkennung zunächst in einer Form zu codieren, die über den Sprachkanal übertragbar ist. Dies gilt insbesondere dann, wenn durch den Aufbau eines Datenkanals, wie bei GPRS, zusätzliche Kosten entstehen.
Eine weitere Möglichkeit ist die Versendung der Teilnehmerkennung über einen Kurznachrichtendienst, beispielsweise SMS. Dies kann allerdings zu einer Verzögerung des Wählvorgangs führen, da Nachrichten innerhalb von Kurznachrichtendiensten nicht immer unmittelbar ausgeliefert werden.
Alternativ oder zusätzlich zur Sprachwahl über Namen mit zugeordneten Teilnehmerkennungen kann auch eine direkte Form der Sprachwahl gemäß Patentanspruch 5 zum Einsatz kommen. Hierbei spricht der Nutzer unmittelbar die gewünschte Teilnehmerkennung, beispielsweise die Telefonnummer oder URL, als Ziffern, natürliche Zahlen als Worte oder Buchstaben. Diese Spracheingabe wird vom Dialogsystem erkannt. Das Erkennungsergebnis wird dann in Form von maschinenlesbaren Daten, d. h. beispielsweise in Form einer Ziffern- oder Buchstabenfolge an das Kommunikationsendgerät des Nutzers zurückgesandt, welches wiederum wie gehabt unter Nutzung des Erkennungsergebnisses, d. h. der ermittelten Teilnehmerkennung, automatisch die zweite Sprachkommunikations-Verbindung aufbaut.
Bei einem besonders komfortablen Ausführungsbeispiel gemäß Patentanspruch 6 wird das Dialogsystem durch einen oder mehrere Operatoren beispielsweise in einem Call-Center unterstützt. Hierbei ist das Sprach-Dialogsystem so eingerichtet, dass die gewünschte Teilnehmerkennung in gewissen Fällen statt mit automatischer Spracherkennung durch menschliche Operateure ermittelt wird und in der üblichen Weise an das Endgerät zurückgesandt wird. Sinnvollerweise findet diese Weiterleitung an ein Call-Center nur statt, wenn entweder der Versuch, eine Teilnehmerkennung zu ermitteln, erfolglos war, oder wenn der Nutzer direkt von sich aus einen Weiterleitungsbefehl eingibt. Dadurch kann in einem „Premium-Service" auch eine Sprachwahl mit einer herkömmlichen Fernsprechauskunft verbunden werden.
Bei einer bevorzugten Variante der Erfindung ist das Kommunikationsendgerät selbst ebenfalls mit Spracherkennungsmitteln ausgestattet. Dadurch ergeben sich insbesondere folgende Möglichkeiten:
Zum einen können die Spracherkennungsmittel im Kommunikationsendgerät dazu dienen, dass mittels eines Sprachbefehls – eines Aktivierungsworts – das Endgerät zum Aufbau der ersten Sprachkommunikationsverbindung zu dem Sprach-Dialogsystem aktiviert wird. Eine oder mehrere darauffolgende Äußerungen des Nutzers werden dann der netzwerkbasierten Spracherkennungseinrichtung, d. h. dem Sprach-Dialogsystem, zugeführt, das dann gemäß dem erfindungsgemäßen Verfahren die Teilnehmerkennung ermittelt und an das Kommunikationsendgerät des Nutzers zurücksendet.
Bei einer weiteren Variante kann das Endgerät auch ein eigenes lokales Sprach-Dialogsystem aufweisen und so ein Vorab-Ermittlungsverfahren durchführert, um die gewünschte Teilnehmerkennung zu ermitteln. Das heißt, es werden die Äußerungen des Nutzers zunächst lokal verarbeitet. Erst nach einer erfolglosen Beendigung des Vorab-Ermittlungsverfahrens, beispielsweise weil die Teilnehmerkennung nicht gefunden wurde und/oder eine Erkennung von eingegebenen Sprachsignalen des Nutzers – gegebenenfalls auch teilweise – gescheitert ist, kann automatisch die erste Sprachkommunikationsverbindung zu dem an das Kommunikationsnetz angeschlossene Sprach-Dialogsystem aufgebaut werden. Das heißt, nur dann, wenn die lokale Verarbeitung zu keinem Ergebnis führt, können die entsprechenden Äußerungen im Netzwerk ein weiteres Mal mit vielfältigeren oder leistungsfähigeren Spracherkennungsmitteln verarbeitet werden bzw. es kann, wenn die Suche in einem lokalen Telefonbuch keinen Erfolg hatte, auf die umfangreicheren Telefonbücher des Sprach-Dialogsystems bzw. die im Netz zur Verfügung stehenden Datenbanken zurückgegriffen werden. Im Erfolgsfall wird dann, wie zuvor, eine Teilnehmerkennung an das Kommunikationsendgerät zurückgesandt.
Trotz der relativ vielen Vorteile, die das erfindungsgemäße Verfahren bietet, ist die Realisierung des Verfahrens außerordentlich einfach. Neben einem herkömmlichen Sprach-Dialogsystem im Netz, welches zusätzlich in der Lage sein muss, die Teilnehmerkennung in maschinenlesbarer Form zu versenden, müssen nur bestimmte Fähigkeiten im Kommunikationsendgerät selbst vorliegen. Diese Voraussetzungen können bei programmierbaren Endgeräten durch geeignete Software geschaffen werden. Sofern ein programmierbares Endgerät vorliegt, ist es insbesondere auch möglich, das Gerät durch Änderung der Software für eine Funktion zur Durchführung des erfindungsgemäßen Verfahrens nachzurüsten. Bei zukünftigen Geräten kann die Funktion auch bereits in der Firmware implementiert werden.
Eine relativ einfache Möglichkeit, ein entsprechendes Endgerät zu realisieren, besteht darin, dass im programmierbaren Endgerät, beispielsweise einem PC mit Telefonie-Funktion, einem PDA oder einem Mobilfunkgerät, ein multimodaler Browser implementiert wird. Hierbei bietet sich besonders bevorzugt die Nutzung eines multimodalen Browsers nach der SALT-Spezifikation (Speech Application Language Text) an. Dabei wird das „<salt:listen>" Tag so implementiert, dass die gesprochene Sprache an den netzwerkbasierten Spracherkenner übersandt wird, während das „call controll object" oder entsprechende „<smex> Messages" die lokalen Wählfunktionen des Endgeräts steuert.
Die Erfindung wird im Folgenden unter Hinweis auf die beigefügten Figuren anhand eines Ausführungsbeispiels noch einmal genauer erläutert. Es zeigen:

1 eine Prinzipskizze eines erfindungsgemäßen Systems nach dem Aufbau der ersten Sprachkommunikations-Verbindung,
2 eine Prinzipskizze des Systems gemäß 1 nach Beendigung der ersten Sprachkommunikations-Verbindung und Aufbau der zweiten Sprachkommunikations-Verbindung,
3 eine Darstellung des Ereignisablaufs.

Wie in 1 und 3 dargestellt, wird von einem Endgerät 2 über das Netzwerk N zunächst durch einen entsprechenden Ruf R₁ eine Verbindung V₁ zu einem Server 11 eines Sprach-Dialogsystems 10 hergestellt. Bei dem Endgerät 2 handelt es sich hier um ein Mobilfunkgerät 2. Alternativ können auch beliebige andere Kommunikationsendgeräte genutzt werden, wobei hier beispielhaft durch die gestrichelten Linien Verbindungsmöglichkeiten zu einem Festnetztelefon 1 bzw. zu einem multimodalen Terminal 3 dargestellt sind. Bei dem Kommunikationsendgerät kann es sich insbesondere auch um eine Kombination eines Mobiltelefons und einer Freisprecheinrichtung im Auto handeln.
Bei dem Netzwerk N kann es sich (ohne darauf beschränkt zu sein) um eine beliebige Kombination aus Telefonnetzen, Internet, GSM-, GPRS-, UMTS-Netzen und anderen Mobilfunknetzen handeln.
Der Netzwerkserver 11 ist mit entsprechender Software 7, 8, 9 ausgestattet, um als Sprach-Dialogsystem 10 seine Funktion auszuüben. Dargestellt sind hier nurandeutungsweise ein Spracherkennungsmodul 8, ein Sprachausgabemodul (Prompt-Generator) 9 sowie ein Kontrollmodul 7, welches das Spracherkennungsmodul 8 und das Sprachausgabemodul 9 ansteuert. Außerdem ist der Server 11 mit einer Liste 12 der möglichen Namen, deren Ausspracheregelung sowie für jeden Namen eine zugeordnete Teilnehmerkennung, beispielsweise eine Telefonnummer oder URL, konfiguriert. Es ist klar, dass der Server 11 darüber hinaus auch mit allen üblichen Hardware- und Softwarekomponenten ausgestattet ist, die normalerweise für den Betrieb eines solchen Servers 11, welcher als Sprach-Dialogsystem 10 dient, benötigt werden. Hierzu zählen insbesondere ein Betriebssystem sowie weitere Schnittstellen, beispielsweise zu fremden Datenbanken etc. Es wird ausdrücklich darauf hingewiesen, dass ein solches Sprach-Dialogsystem 10 nicht unbedingt auf einem einzelnen Netzwerkserver 11 implementiert sein muss, sondern auch über ein Netz verteilt sein kann, wobei verschiedene Rechner unterschiedlichste Aufgaben des gesamten Sprach-Dialogsystems wahrnehmen.
Der weitere Ablauf des Verfahrens ist in 3 dargestellt. Während die erste Sprachverbindung V₁ gehalten wird, werden eine oder mehrere Äußerungen des Nutzers über das Endgerät 1 zum Sprach-Dialogsystem 10 übermittelt. Diese Äußerungen werden vom Spracherkennungsmodul 8 erkannt und dem Kontrollmodul 7 zugeführt, welches den Dialog steuert und zu den passenden Zeitpunkten über den Prompt-Generator 9 den Nutzer zur Eingabe weiterer Äußerungen auffordert. Das heißt, die Kontrolleinheit 7 steuert den gesamten Dialog und sorgt dafür, dass aus der Liste 12 bzw. Datenbank anhand der vom Nutzer erhaltenen Informationen, beispielsweise dem Namen eines Teilnehmers, die zugehörige Teilnehmerkennung K ermittelt wird.
Diese Teilnehmerkennung K wird dann zunächst in einen DTMF-Code codiert (nicht dargestellt) und an das Mobilfunkgerät 2 des Nutzers gesandt.
Die zurückgesandte Kennung K wird dann innerhalb des Mobilfunkgeräts 2 von einem Kontrollmodul 13 übernommen. Dieses Kontrollmodul 13 sorgt dann dafür, dass in einem nächsten Schritt ein Ruf R₂ an das Endgerät 5 erfolgt, welches die betreffende Teilnehmerkennung K aufweist. Dadurch wird eine Verbindung V₂ über das Netzwerk N zu dem betreffenden Zielteilnehmerendgerät 5 durchgeführt. Dies ist noch einmal in 2 dargestellt. Auch bei dem Zielteilnehmergerät 4, 5, 6 kann es sich um ein beliebiges Kommunikationsendgerät handeln. Es kann sich aber auch um ein weiteres Dialogsystem oder ein ähnliches Gerät bzw. um ein weiteres Netz handeln.
Die Initialisierung des gesamten Vorgangs kann über ein spezielles, vom Nutzer zu sprechendes Kennwort erfolgen, welches von einem rudimentären Spracherkenner (nicht dargestellt) des Mobilfunkgeräts 2 erkannt und entsprechend im Endgerät 2 verarbeitet wird. Ebenso ist eine Initialisierung durch einen Tastendruck auf die Tastatur des Mobilfunkgeräts 2 möglich.

Claims

Verfahren zum Aufbau einer Sprachkommunikations-Verbindung von einem Endgerät (1, 2, 3) zu einem Zielteilnehmergerät (4, 5, 6) innerhalb eines Kommunikationsnetzes (N), bei dem zunächst eine erste Sprachkommunikations-Verbindung (V₁) zu einem Sprach-Dialogsystem (10) hergestellt wird, welches mit einem Nutzer des Endgeräts (1, 2, 3) unter Verwendung einer automatischen Spracherkennungseinrichtung (8) und einer Informationsausgabeeinrichtung (9) kommuniziert, wobei anhand eines Dialogs zwischen dem Nutzer und dem Sprach-Dialogsystem (10) eine Teilnehmerkennung (K) des Zielteilnehmers ermittelt wird und dann eine zweite Sprachkommunikations-Verbindung (V₂) zwischen dem Endgerät (1, 2, 3) und dem Zielteilnehmergerät (4, 5, 6) unter Nutzung der ermittelten Teilnehmerkennung (K) aufgebaut wird dadurch gekennzeichnet, dass die ermittelte Teilnehmerkennung (K) zunächst an das Endgerät (1, 2, 3) übermittelt wird und das Endgerät (1, 2, 3) unter Nutzung dieser Teilnehmerkennung (K) automatisch die zweite Sprachkommunikations-Verbindung (V₂) aufbaut.
Verfahren nach Anspruch 1, dadurch gekennzeichnet dass das Endgerät nach Empfang der Teilnehmerkennung eine Bestätigungsanfrage an den Nutzer ausgibt und nur bei Empfang eines Bestätigungsbefehls vom Nutzer die zweite Sprachkommunikations-Verbindung aufbaut.
Verfahren nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass das Endgerät nach einem Empfang der Teilnehmerkennung automatisch oder nach Empfang eines Verbindungsabbaubefehls des Nutzers die erste Sprachkommunikations-Verbindung beendet.
Verfahren nach einem der Ansprüche 1 bis 3, dadurch gekennzeichnet, dass die Teilnehmerkennung (K) in einer akustischen Form codiert über die erste Sprachkommunikations-Verbindung (V₁) an das Endgerät (1, 2, 3) übermittelt wird.
Verfahren nach einem der Ansprüche 1 bis 4, dadurch gekennzeichnet, dass der Nutzer innerhalb des Dialogs mit dem Sprach-Dialogsystem die Teilnehmerkennung in Sprachform an das-Sprach-Dialogsystem übermittelt, und die Spracherkennungseinrichtung des Sprach-Dialogsystems eine Erkennung der gesprochenen Teilnehmerkennung durchführt und das Erkennungsergebnis an das Endgerät zurück übermittelt.
Verfahren nach einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, dass bei einem erfolglosen Versuch, eine Teilnehmerkennung zu ermitteln, automatisch vom Sprach-Dialogsystem und/oder nach Empfang eines Weiterleitungsbefehls vom Nutzer eine weitere Sprachkommunikations-Verbindung zwischen dem Endgerät und einem Operator aufgebaut wird.
Verfahren nach einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, dass das Endgerät mittels eines Sprachbefehls zum Aufbau der ersten Sprachkommunikations-Verbindung aktiviert wird.
Verfahren nach einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, dass zunächst mit Hilfe eines im Endgerät integrierten, lokalen Sprach-Dialogsystems ein Vorab-Ermittlungsverfahren durchgeführt wird, um die gewünschte Teilnehmerkennung zu ermitteln, und erst nach einer erfolglosen Beendigung des Vorab-Ermittlungsverfahrens die erste Sprachkommunikations-Verbindung zu dem an das Kommunikationsnetz angeschlossenen Sprach-Dialogsystem aufgebaut wird.
Automatisches Sprach-Dialogsystem (10) für ein Verfahren nach einem der Ansprüche 1 bis 8, mit – Anschlussmitteln zum Aufbau einer Sprachkommunikations-Verbindung (V₁) zu einem Endgerät (1, 2, 3), – einer automatischen Spracherkennungseinrichtung (8) und einer Informationsausgabeeinrichtung (9) zur Führung eines Dialogs mit einem Nutzer des Endgeräts (1, 2, 3) – und einer Dialog-Kontrolleinrichtung (7) zur Steuerung des Dialogs zwischen dem Nutzer und dem Sprach-Dialogsystem (10) zur Ermittlung einer Teilnehmerkennung (K) eines Zielteilnehmers, gekennzeichnet durch, Mittel, um die Teilnehmerkennung (K) in maschinenlesbarer Form an das Endgerät (1, 2, 3) zu übermitteln.
Endgerät (1, 2, 3) für ein Verfahren nach einem der Ansprüche 1 bis 8, mit einem Sprach-Benutzerinterface und Mitteln zum Aufbau einer ersten Sprachkommunikations-Verbindung (V₁) zu einem Sprach-Dialogsystem (10) zur Führung eines Dialogs zwischen einem Nutzer des Endgeräts (1, 2, 3) und dem Sprach-Dialogsystem (l0) zur Ermittlung einer Teilnehmerkennung (K) eines Zielteilnehmers, gekennzeichnet durch Mittel (13) zum Empfang der ermittelten Teilnehmerkennung (K) in maschinenlesbarer Form und zum automatischen Aufbau einer zweiten Sprachkommunikations-Verbindung (V₂) zu dem Zielteilnehmergerät (4, 5, 6) unter Nutzung der Teilnehmerkennung (K).
System zum Aufbau einer Sprachkommunikations-Verbindung von einem Endgerät (1, 2, 3) zu einem Zielteilnehmergerät (4, 5, 6) innerhalb eines Kommunikationsnetzes (N) gemäß einem Verfahren nach einem der Ansprüche 1 bis 8, umfassend ein Sprach-Dialogsystem (10) nach Anspruch 9 und ein Endgerät (1, 2, 3) nach Anspruch l0, welche über ein Kommunikationsnetz untereinander verbunden sind.