-
Die Erfindung betrifft ein Verfahren
zum Aufbau einer Sprachkommunikationsverbindung von einem Endgerät zu einem
Zielteilnehmergerät
innerhalb eines Kommunikationsnetzes, bei dem zunächst eine
erste Sprachkommunikationsverbindung zu einem Sprach-Dialogsystem
hergestellt wird, welches mit einem Nutzer des Endgeräts unter
Verwendung einer automatischen Spracherkennungseinrichtung und einer
Informationsausgabeeinrichtung kommuniziert, wobei anhand eines
Dialogs zwischen dem Nutzer und dem Sprach-Dialogsystem eine Teilnehmerkennung
des Zielteilnehmers ermittelt wird und dann eine zweite Sprachkommunikationsverbindung
zwischen dem Endgerät
und dem Zielteilnehmergerät unter
Nutzung der ermittelten Teilnehmerkennung aufgebaut wird. Darüber hinaus
betrifft die Erfindung ein automatisches Sprach-Dialogsystem, ein Endgerät sowie
ein das Sprach-Dialogsystem und das Endgerät umfassendes System zum Aufbau
einer Sprachkommunikationsverbindung gemäß dem genannten Verfahren.
-
In der klassischen Weise wird eine
Sprachkommunikationsverbindung zwischen einem Endgerät, beispielsweise
einem Festnetztelefon, einem Mobilfunkgerät oder einem sonstigen Gerät mit Telefonie-Funktion,
wie einem entsprechend ausgestatteten PC, Laptop oder PDA (Personal
Digital Assistant), zu einem Zielteilnehmergerät dadurch aufgebaut, dass der
Benutzer manuell eine Teilnehmerkennung, z. B. eine Telefonnummer,
des gewünschten
Zielteilnehmergeräts
eingibt. Weiterhin gibt es bereits seit längerem Endgeräte, bei
denen die Möglichkeit
besteht, aus einem im Gerät
gespeicherten Telefonbuch mit Hilfe manueller Eingaben, z. B. der
Eingabe bzw. Auswahl eines Namens, die gewünschte Teilnehmerkennung zu
ermitteln. Das Endgerät
wählt dann
automatisch oder nach einer zusätzlichen
Bestätigung
das Zielteilnehmergerät
mit der eingegebenen bzw. ermittelten Teilnehmerkennung an.
-
Eine relativ neuartige Alternative
hierzu ist die sogenannte Sprachwahl, bei der anhand von Sprachbefehlen
des Nutzers die Teilnehmerkennung ermittelt und damit die passende
Verbindung aufgebaut wird. Die Teilnehmerkennung kann hierbei in
der Weise ermittelt werden, dass der Nutzer die einzelnen Zeichen
oder Worte der Teilnehmerkennung spricht und eine Spracherkennungseinrichtung
die Zeichen bzw. Worte erkennt und zu der gewünschten Teilnehmerkennung zusammensetzt.
In vielen Fällen ist
es jedoch so, dass auch hier ein Speicher bzw. eine Datenbank mit
einem „Telefonbuch" zur Verfügung steht
und der Benutzer einfach den Namen und gegebenenfalls weitere Informationen
wie Teile der Adresse des gewünschten
Zielteilnehmers angibt und anhand dieser Information die richtige
Teilnehmerkennung ermittelt wird. Eine solche Sprachwahl hat für den Benutzer
viele Vorteile, insbesondere in Fällen, in denen der Benutzer
gleichzeitig andere Aufgaben erledigt und hierfür beide Hände benötigt, beispielsweise als Fahrer
eines Kraftfahrzeugs. Darüber
hinaus ermöglicht
eine Sprachwahl auch behinderten Personen, welche z. B. blind sind
oder in ihren manuellen Fähigkeiten
stark eingeschränkt
sind, ohne fremde Hilfe ein entsprechendes Kommunikationsendgerät zu verwenden
und beliebige andere Zielteilnehmer anzurufen. Darüber hinaus
ist eine Sprachwahl außerordentlich
komfortabel für
den Nutzer.
-
Eine solche Sprachwahl wird in der
Praxis derzeit auf zwei verschiedene Weisen realisiert.
-
Bei der ersten Methode handelt es
sich um eine Sprachwahl im Kommunikationsendgerät selbst. Hierbei wird beispielsweise
durch einen Knopfdruck oder durch ein Aktivierungswort eine Sprachwahlfunktion
des Kommunikationsendgeräts
aktiviert. Bei aktiver Sprachwahlfunktion kann der Nutzer einen Namen
bzw. sonstige Informationen sprechen. Eine im Endgerät selbst
angeordnete Spracherkennungseinrichtung versucht den Namen zu erkennen
und einem Eintrag in einem im Endgerät gespeicherten Telefonbuch
zuzuordnen. Gelingt es, den Namen zu erkennen und den Namen richtig
zuzuordnen, wird die entsprechende Telefonnummer gewählt und
damit die gewünschte
Verbindung aufgebaut. Bei dieser Form der Sprachwahl wird die Namensliste,
d. h. das Telefonbuch durch Aufsprechen und/oder durch Eingeben über die
Tastatur im Endgerät
erstellt und gepflegt. Eine solche endgerätbasierte Methode hat den Vorteil,
das sie organisatorisch einfach ist, da alle erforderlichen Maßnahmen
durch den Endgerätehersteller
entschieden und ausgeführt
werden können. Eine
Mitwirkung durch einen Netzbetreiber, insbesondere eine Vermittlungsinfrastruktur
ist nicht erforderlich. Problematisch bei dieser Methode ist jedoch, dass
die Kommunikationsendgeräte
aufgrund ihrer Größe und der
erlaubten Herstellungskosten in der Regel eine recht begrenzte Rechenleistung
und Speicherkapazität
aufweisen. Aufgrund der begrenzten Ressourcen müssen daher relativ einfache
Spracherkenner verwendet werden. Ein weiterer Nachteil einer endgerätbasierten
Sprachwahl-Methode besteht darin, dass eine landessprachenspezifische Konfiguration
des Endgeräts
notwendig ist, was für Hersteller,
Handel und Benutzer aufwändig
ist.
-
Die genannten Nachteile können durch
eine zweite Methode nach einem Verfahren der eingangs genannten
Art gemindert bzw. teilweise sogar ganz vermieden werden. Dabei
handelt es sich um eine netzwerkbasierte Methode der Sprachwahl,
da hier innerhalb des Kommunikationsnetzes angeordnete Sprach-Dialogsysteme
genutzt werden, um die Teilnehmerkennung zu ermitteln. Dialogsysteme,
die mit einem Nutzer unter Verwendung von Spracherkennungs- und
Informationsausgabeeinrichtungen kommunizieren, sind bereits seit
längerem
bekannt. Es handelt sich hierbei um sprachgesteuerte automatische
Systeme, die oft auch als Voice-Portale bezeichnet werden. Ein Beispiel
hierfür
sind automatische Anrufbeantwortungs- und Auskunftssysteme, wie
sie inzwischen beispielsweise von einigen größeren Firmen und Ämtern verwendet
werden, um einen Anrufer möglichst
schnell und komfortabel mit der gewünschten Information zu versorgen
oder mit einer Stelle zu verbinden, welche für die speziellen Wünsche des
Anrufers zuständig
ist. Ein weiteres Beispiel hierfür
ist eine automatische Telefonauskunft, wie sie bereits von einigen
Telefongesellschaften eingesetzt wird. Bei den Sprach-Dialogsystemen
kann es sich um Dialogsysteme handeln, welche allein über die Sprache
mit dem Benutzer kommunizieren, d. h. dass alle Daten bzw. Befehle
des Nutzers in Sprachform eingegeben werden und in einer Spracherkennungseinrichtung
erkannt werden, so dass das System entsprechend darauf reagieren
kann. Ebenso können
alle Daten bzw. Eingabeaufforderungen des Systems an den Nutzer,
d. h. alle Systemausgaben (Prompts), über eine geeignete Sprachausgabe,
einen sogenannten Prompt-Generator, ausgegeben werden. Als Prompt-Generator
können
z. B. TTS-Konverter (Text to Speech) verwendet werden, oder es werden
fertige gespeicherte Sounddateien ausgegeben. Es kann sich bei einem
solchen Sprach-Dialogsystem
auch um gemischte Dialogsysteme (multimodale Dialogsysteme) handeln,
welche beispielsweise die Informationen vom System an den Nutzer über ein
Display ausgeben, welches der Benutzer ja ebenfalls, ohne die Hände zu benutzen,
ablesen kann, wobei auch teilweise Prompts als Sprachausgaben und
teilweise über
ein Display ausgegeben werden. Ebenso ist es auch möglich, dass zusätzlich Befehlseingaben
durch Tastendrücke,
beispielsweise bei üblichen
Telefonen über
sogenannte DTMF-Signale (Dual Tone Multi Frequency) vom System akzeptiert
werden. Um mit dem Dialogsystem zu kommunizieren, muss vom Kommunikationsendgerät zunächst eine
erste Sprachkommunikationsverbindung zu dem Sprach-Dialogsystem
hergestellt werden. Steht diese erste Sprachkommunikationsverbindung,
so kann der Teilnehmer wie bei der endgerätbasierten Methode den Namen
eines gewünschten
Teilnehmers eingeben. Das Dialogsystem kann dann anhand einer Namensliste,
welche auch zur Spracherkennung herangezogen wird und in der die
Zuordnung der Namen, deren Aussprachen sowie der zugehörigen Teilnehmerkennung
vorgenommen wird, die gewünschte
Teilnehmerkennung ermitteln. Eine solche Namensliste bzw. Telefonbuch
kann benutzerspezifisch sein, d. h. es kann sich um ein persönliches
Adressbuch handeln, welches einem bestimmten Nutzer zugeordnet ist.
Es kann sich aber auch um ein allgemeines Telefonbuch handeln, entsprechend
einem öffentlichen
Telefonbuch bzw. einem Firmentelefonbuch. Es ist auch möglich, persönliche Namenseinträge mit einem
allgemeinen Telefonbuch zu mischen. Das persönliche Adressbuch bzw. der
persönliche
Anteil des Adressbuchs kann dabei entweder durch einen Sprachdialog
oder – sofern
vom Sprach-Dialogsystem
selber diese Möglichkeit
vorgesehen ist – textuell,
z. B. über
das Internet, gepflegt werden. Sobald die Teilnehmerkennung ermittelt
ist, wird dann innerhalb des Netzes automatisch die zweite Sprachkommunikations verbindung zwischen
dem Endgerät
und dem Zielteilnehmergerät
aufgebaut, d. h. der Nutzer wird automatisch weitervermittelt. Ein
solches Verfahren wird in der
US 5,297,183 beschrieben,
bei der ein Spracherkennungssystem die erkannte Teilnehmernummer
an eine Mobilfunkvermittlungsstelle versendet und somit die Vermittlung
des Teilnehmers an den Zielteilnehmer veranlasst. Diese netzwerkbasierte
Methode hat den Vorteil, dass sie vielseitiger ist als die endgerätbasierte
Methode. So können
weitaus größere Telefonbücher angelegt
werden, und es können
Telefonbücher
von mehreren Endgeräten
aus genutzt werden. Außerdem
können
für den
Benutzer transparent jederzeit Erweiterungen und Verbesserungen
der Technologie vorgenommen werden. Des Weiteren können erheblich
aufwändigere
Spracherkenner verwendet werden, die auch in der Lage sind, unter
extremen Bedingungen sicher eine Erkennung durchzuführen. Der
Nachteil dieser Methode besteht darin, dass größere Anforderungen an die Infrastruktur
des Kommunikationsnetzes gestellt werden. Insbesondere müssen die
Netzwerkknoten die Vermittlung durchführen bzw. auslösen können. Dazu
ist die Mitwirkung der Netzwerkbetreiber erforderlich. Oft ist das
SS7-Protokoll und die damit verbundene aufwändige Infrastruktur erforderlich.
Hinzu kommen die Nachteile, dass die Abrechnung mit dem Benutzer, das
sogenannte „Billing", erheblich komplizierter wird,
da bei einem weitergeleiteten Gespräch die Kosten dafür auf die
Rechnung des Nutzers gebucht werden müssen. Hierzu ist in der Regel
ein Tarifwechsel (Change of tarifs) notwendig, der relativ großen technischen
Aufwand erfordert und vor allem für den Benutzer auf einer später erhaltenen
Abrechnung relativ undurchsichtig ist.
-
Es ist daher Aufgabe der Erfindung,
eine einfache und kostengünstige
Alternative zu den genannten Verfahren zu schaffen, welche einerseits
eine möglichst
komfortable Dialogführung
mit dem Nutzer, insbesondere eine gute Spracherkennung, gewährleistet,
und bei der andererseits ein einfacher und für den Benutzer gut kontrollierbarer
Verbindungsaufbau durchgeführt
wird, ohne aufwändige
Anforderungen an die Vermittlungsinfrastruktur im Netz.
-
Diese Aufgabe wird bei einem Verfahren
der eingangs genannten Art dadurch gelöst, dass die ermittelte Teilnehmerkennung
zunächst
an das Kommunikationsendgerät übermittelt
wird und das Kommunikationsendgerät unter Nutzung dieser Teilnehmerkennung
automatisch die zweite Sprachkommunikationsverbindung aufbaut.
-
Durch das erfindungsgemäße Verfahren werden
die Vorteile der beiden bekannten Methoden verbunden und gleichzeitig
die jeweiligen Nachteile umgangen. Insbesondere erlaubt das erfindungsgemäße Verfahren
einerseits eine sehr aufwändige Spracherkennung
sowie die Benutzung von nahezu unbegrenzt großen Telefonbüchern. Dabei
können auch
allgemeine Telefonbücher
verwendet werden, die regelmäßig ohne
Zutun des Nutzers aktualisiert werden. Andererseits wird innerhalb
des Netzes keine zusätzliche
aufwändige
Vermittlungsinfrastruktur benötigt.
Da zwei separate Verbindungen – eine
erste Sprachkommunikationsverbindung zum Sprach-Dialogsystem und
eine davon getrennte zweite Sprachkommunikationsverbindung zwischen
dem Kommunikationsendgerät
des Nutzers und einem Zielteilnehmergerät – hergestellt werden, gibt
es, anders als bei einer Verbindung im Netzwerk, keinen Tarifwechsel.
Das Billing ist daher außerordentlich
einfach und für
den Anrufer transparent und verständlich.
-
Zur Durchführung des Verfahrens muss das automatische
Sprach-Dialogsystem zumindest folgende Komponenten aufweisen:
- – Anschlussmittel
zum Aufbau einer Sprachkommunikations-Verbindung zu einem Endgerät,
- – eine
automatische Spracherkennungseinrichtung und eine Informationsausgabeeinrichtung, beispielsweise
eine reine Sprachausgabe und/oder eine Einrichtung zur Ausgabe von
maschinenlesbaren Daten beispielsweise für ein Display, z. B. eines
Textes oder graphischer Daten, oder zur Steuerung einer lokalen
Sprachausgabeeinrichtung des Endgeräts zur Führung des Dialogs mit einem
Nutzer des Kommunikationsendgeräts,
- – eine
Dialog-Kontrolleinrichtung zur Steuerung des Dialogs zwischen dem
Nutzer und dem Dialogsystem zur Ermittlung einer Teilnehmerkennung
eines Zielteilnehmers,
- – Mittel,
um die Teilnehmerkennung in maschinenlesbarer Form an das Endgerät zu übermitteln.
-
Die Bezeichnung „in maschinenlesbarer Form" ist hierbei so zu
verstehen, dass die Teilnehmerkennung nicht als Sprachausgabe übermittelt wird,
sondern in einer Form, die vom Endgerät ohne Spracherkennung automatisch
weiterverarbeitet und genutzt werden kann, um die zweite Sprachkommunikationsverbindung
aufzubauen. Die Teilnehmerkennung kann darüber hinaus auch zusätzlich als Sprachausgabe
erfolgen, damit der Nutzer kontrollieren kann, ob die richtige Teilnehmerkennung
gewählt wird.
-
Ein geeignetes Endgerät zur Durchführung eines
solchen Verfahrens benötigt
ein Sprachbenutzer-Interface, welches üblicherweise eine Spracheingabeeinrichtung
sowie eine Sprachausgabeeinrichtung und/oder ein Display aufweist.
Außerdem
muss es Mittel zum Aufbau einer ersten Sprachkommunikationsverbindung
zu einem Sprach-Dialogsystem zur Führung des gewünschten
Dialogs zur Ermittlung der Teilnehmerkennung aufweisen. Erfindungsgemäß muss es
darüber
hinaus Mittel aufweisen, um die ermittelte Teilnehmerkennung in
maschinenlesbarer Form zu empfangen und automatisch eine zweite
Sprachkommunikationsverbindung zu dem gewünschten Zielteilnehmer unter
Nutzung der Teilnehmerkennung aufzubauen. Das heißt, das
Endgerät
muss eine entsprechende Einrichtung aufweisen, um das Zielteilnehmergerät mit der
empfangene Teilnehmerkennung automatisch anzuwählen.
-
Ein System zur Durchführung des
erfindungsgemäßen Verfahrens
muss zumindest ein solches Sprach-Dialogsystem und eines der vorgenannten
Endgeräte
aufweisen, welche über
ein Kommunikationsnetz untereinander verbindbar sind.
-
Bei dem Kommunikationsnetz kann es
sich um ein beliebiges Kommunikationsnetz handeln. Insbesondere
kann es sich auch um ein aus verschiedensten Einzelnetzen wie einem
GSM-Netz, Festnetz, UMTS-Netz, Internet etc. zusammengesetztes Netz
handeln. Wesentlich ist lediglich, dass eine Sprachkommunikations-Verbindung
zwischen den betreffenden Geräten
hergestellt werden kann. In Abhängigkeit
von den jeweiligen Netzen, an die die Geräte angeschlossen sind, kann
es sich auch um verschiedene Arten von Teilnehmerkennungen handeln, beispielsweise
um eine Telefonnummer, eine URL oder einen sonstigen Adresscode.
-
Weitere vorteilhafte Ausgestaltungen
und Weiterbildungen werden insbesondere in den abhängigen Ansprüchen angegeben.
-
Bei einer vorteilhaften Variante
gibt das Endgerät
nach Empfang der Teilnehmerkennung zunächst eine Bestätigungsanfrage
an den Nutzer aus. Nur bei Empfang eines Bestätigungsbefehls vom Nutzer wird
dann die zweite Sprachkommunikationsverbindung aufgebaut. Dies hat
den Vorteil, dass der Nutzer eine erheblich bessere Kontrolle darüber hat, welche
Verbindungen tatsächlich
aufgebaut werden, was insofern wichtig ist, da jeder Verbindungsaufbau mit
Kosten für
den Nutzer verbunden ist.
-
Es ist prinzipiell möglich, dass
die erste Sprachkommunikationsverbindung zum Dialogsystem erhalten
bleibt, während
die zweite Sprachkommunikationsverbindung zum Zielteilnehmergerät hergestellt
wird. Hierzu ist es lediglich erforderlich, dass das Endgerät in der
Lage ist, zwei Sprachkommunikations-Verbindungen parallel aufrecht
zu erhalten. Vom Sprach-Dialogsystem können dann auf die gleiche Weise
weitere Erkennungsvorgänge
durchgeführt
werden, z. B. kann eine weitere Teilnehmerkennung für einen
anderen Zielteilnehmer gesucht und an das Endgerät übermittelt werden. Das Kommunikationsendgerät kann daraufhin
weitere Verbindungen initiieren. Dies kann gleichzeitig (Dreierkonferenz)
oder im Anschluss an die zweite Kommunikationsverbindung geschehen.
-
In den meisten Fällen wird das Endgerät jedoch
nach einem Empfang der Teilnehmerkennung automatisch oder nach Empfang
eines Verbindungsabbaubefehls des Nutzers die erste Sprachkommunikationsverbindung
beenden. Hierbei ist es auch möglich,
dass das Kommunikationsendgerät
zunächst eine
Verbindungsabbauabfrage an den Nutzer ausgibt, d. h. einen passenden
Prompt, mit dem nachgefragt wird, ob die Verbindung zu dem Dialogsystem beendet
werden soll. Dies ist kann beispielsweise vor der Anfrage geschehen,
ob die zweite Sprachkommunikations-Verbindung aufgebaut werden soll.
-
Zur Übermittlung der Teilnehmerkennung
an das Kommunikationsendgerät
bestehen verschiedene Möglichkeiten.
Im analogen Netz, im ISDN- oder im GSM-Netz erfolgt sinnvollerweise
die Übersendung
der Teilnehmerkennung in einer akustischen Form codiert über die
jeweilige Sprachkommunikationsverbindung. Das heißt, es wird
eine Codierung vorgenommen, mit der Daten über den Sprachkanal übertragen
werden können.
Ein Beispiel hierfür
ist eine DTMF-Codierung.
-
Bei Netzen, welche gleichzeitig den
Aufbau eines Sprachkanals und eines Datenkanals erlauben, wie beispielsweise
in einem GPRS-Netz, kann auch ein zweiter Datenkanal aufgebaut und
dazu verwendet werden, um die Teilnehmerkennung direkt als passende
Daten zu versenden. Ebenso ist es bei einigen Netzen möglich, z.
B. UMTS-Netzen oder bei einer Internet-Telefonie, d. h. bei einer
IP-Verbindung, die Teilnehmerkennung direkt in der passenden Datenform
zu senden, da bei diesen Netzen Daten- und Sprachpakete gemischt über einen
Kanal übertragen
werden können.
-
Unter Umständen kann es aber auch in solchen
Netzen, in denen eine Datenübertragung
in üblicher
Datenformatierung möglich
ist, günstiger
sein, die Teilnehmerkennung zunächst
in einer Form zu codieren, die über
den Sprachkanal übertragbar
ist. Dies gilt insbesondere dann, wenn durch den Aufbau eines Datenkanals,
wie bei GPRS, zusätzliche
Kosten entstehen.
-
Eine weitere Möglichkeit ist die Versendung der
Teilnehmerkennung über
einen Kurznachrichtendienst, beispielsweise SMS. Dies kann allerdings
zu einer Verzögerung
des Wählvorgangs
führen,
da Nachrichten innerhalb von Kurznachrichtendiensten nicht immer
unmittelbar ausgeliefert werden.
-
Alternativ oder zusätzlich zur
Sprachwahl über
Namen mit zugeordneten Teilnehmerkennungen kann auch eine direkte
Form der Sprachwahl gemäß Patentanspruch
5 zum Einsatz kommen. Hierbei spricht der Nutzer unmittelbar die
gewünschte Teilnehmerkennung,
beispielsweise die Telefonnummer oder URL, als Ziffern, natürliche Zahlen
als Worte oder Buchstaben. Diese Spracheingabe wird vom Dialogsystem
erkannt. Das Erkennungsergebnis wird dann in Form von maschinenlesbaren
Daten, d. h. beispielsweise in Form einer Ziffern- oder Buchstabenfolge
an das Kommunikationsendgerät
des Nutzers zurückgesandt,
welches wiederum wie gehabt unter Nutzung des Erkennungsergebnisses,
d. h. der ermittelten Teilnehmerkennung, automatisch die zweite
Sprachkommunikations-Verbindung aufbaut.
-
Bei einem besonders komfortablen
Ausführungsbeispiel
gemäß Patentanspruch
6 wird das Dialogsystem durch einen oder mehrere Operatoren beispielsweise
in einem Call-Center
unterstützt.
Hierbei ist das Sprach-Dialogsystem so eingerichtet, dass die gewünschte Teilnehmerkennung
in gewissen Fällen
statt mit automatischer Spracherkennung durch menschliche Operateure
ermittelt wird und in der üblichen
Weise an das Endgerät
zurückgesandt
wird. Sinnvollerweise findet diese Weiterleitung an ein Call-Center nur statt,
wenn entweder der Versuch, eine Teilnehmerkennung zu ermitteln,
erfolglos war, oder wenn der Nutzer direkt von sich aus einen Weiterleitungsbefehl
eingibt. Dadurch kann in einem „Premium-Service" auch eine Sprachwahl
mit einer herkömmlichen
Fernsprechauskunft verbunden werden.
-
Bei einer bevorzugten Variante der
Erfindung ist das Kommunikationsendgerät selbst ebenfalls mit Spracherkennungsmitteln
ausgestattet. Dadurch ergeben sich insbesondere folgende Möglichkeiten:
Zum
einen können
die Spracherkennungsmittel im Kommunikationsendgerät dazu dienen,
dass mittels eines Sprachbefehls – eines Aktivierungsworts – das Endgerät zum Aufbau
der ersten Sprachkommunikationsverbindung zu dem Sprach-Dialogsystem
aktiviert wird. Eine oder mehrere darauffolgende Äußerungen
des Nutzers werden dann der netzwerkbasierten Spracherkennungseinrichtung,
d. h. dem Sprach-Dialogsystem, zugeführt, das dann gemäß dem erfindungsgemäßen Verfahren
die Teilnehmerkennung ermittelt und an das Kommunikationsendgerät des Nutzers
zurücksendet.
-
Bei einer weiteren Variante kann
das Endgerät
auch ein eigenes lokales Sprach-Dialogsystem aufweisen
und so ein Vorab-Ermittlungsverfahren durchführert, um die gewünschte Teilnehmerkennung
zu ermitteln. Das heißt,
es werden die Äußerungen
des Nutzers zunächst
lokal verarbeitet. Erst nach einer erfolglosen Beendigung des Vorab-Ermittlungsverfahrens,
beispielsweise weil die Teilnehmerkennung nicht gefunden wurde und/oder
eine Erkennung von eingegebenen Sprachsignalen des Nutzers – gegebenenfalls
auch teilweise – gescheitert
ist, kann automatisch die erste Sprachkommunikationsverbindung zu
dem an das Kommunikationsnetz angeschlossene Sprach-Dialogsystem
aufgebaut werden. Das heißt,
nur dann, wenn die lokale Verarbeitung zu keinem Ergebnis führt, können die
entsprechenden Äußerungen
im Netzwerk ein weiteres Mal mit vielfältigeren oder leistungsfähigeren
Spracherkennungsmitteln verarbeitet werden bzw. es kann, wenn die Suche
in einem lokalen Telefonbuch keinen Erfolg hatte, auf die umfangreicheren
Telefonbücher
des Sprach-Dialogsystems bzw. die im Netz zur Verfügung stehenden
Datenbanken zurückgegriffen
werden. Im Erfolgsfall wird dann, wie zuvor, eine Teilnehmerkennung
an das Kommunikationsendgerät
zurückgesandt.
-
Trotz der relativ vielen Vorteile,
die das erfindungsgemäße Verfahren
bietet, ist die Realisierung des Verfahrens außerordentlich einfach. Neben
einem herkömmlichen
Sprach-Dialogsystem im Netz, welches zusätzlich in der Lage sein muss,
die Teilnehmerkennung in maschinenlesbarer Form zu versenden, müssen nur
bestimmte Fähigkeiten
im Kommunikationsendgerät
selbst vorliegen. Diese Voraussetzungen können bei programmierbaren Endgeräten durch
geeignete Software geschaffen werden. Sofern ein programmierbares
Endgerät
vorliegt, ist es insbesondere auch möglich, das Gerät durch Änderung
der Software für
eine Funktion zur Durchführung
des erfindungsgemäßen Verfahrens
nachzurüsten.
Bei zukünftigen
Geräten
kann die Funktion auch bereits in der Firmware implementiert werden.
-
Eine relativ einfache Möglichkeit,
ein entsprechendes Endgerät
zu realisieren, besteht darin, dass im programmierbaren Endgerät, beispielsweise einem
PC mit Telefonie-Funktion,
einem PDA oder einem Mobilfunkgerät, ein multimodaler Browser
implementiert wird. Hierbei bietet sich besonders bevorzugt die
Nutzung eines multimodalen Browsers nach der SALT-Spezifikation
(Speech Application Language Text) an. Dabei wird das „<salt:listen>" Tag so implementiert, dass die gesprochene
Sprache an den netzwerkbasierten Spracherkenner übersandt wird, während das „call controll
object" oder entsprechende „<smex> Messages" die lokalen Wählfunktionen des
Endgeräts
steuert.
-
Die Erfindung wird im Folgenden unter
Hinweis auf die beigefügten
Figuren anhand eines Ausführungsbeispiels
noch einmal genauer erläutert.
Es zeigen:
- 1 eine
Prinzipskizze eines erfindungsgemäßen Systems nach dem Aufbau
der ersten Sprachkommunikations-Verbindung,
- 2 eine Prinzipskizze
des Systems gemäß 1 nach Beendigung der ersten
Sprachkommunikations-Verbindung und Aufbau der zweiten Sprachkommunikations-Verbindung,
- 3 eine Darstellung
des Ereignisablaufs.
-
Wie in 1 und 3 dargestellt, wird von einem
Endgerät 2 über das
Netzwerk N zunächst durch
einen entsprechenden Ruf R1 eine Verbindung V1 zu einem Server 11 eines Sprach-Dialogsystems 10 hergestellt.
Bei dem Endgerät 2 handelt
es sich hier um ein Mobilfunkgerät 2.
Alternativ können
auch beliebige andere Kommunikationsendgeräte genutzt werden, wobei hier
beispielhaft durch die gestrichelten Linien Verbindungsmöglichkeiten
zu einem Festnetztelefon 1 bzw. zu einem multimodalen Terminal 3 dargestellt
sind. Bei dem Kommunikationsendgerät kann es sich insbesondere
auch um eine Kombination eines Mobiltelefons und einer Freisprecheinrichtung
im Auto handeln.
-
Bei dem Netzwerk N kann es sich (ohne
darauf beschränkt
zu sein) um eine beliebige Kombination aus Telefonnetzen, Internet,
GSM-, GPRS-, UMTS-Netzen und anderen Mobilfunknetzen handeln.
-
Der Netzwerkserver 11 ist
mit entsprechender Software 7, 8, 9 ausgestattet,
um als Sprach-Dialogsystem 10 seine Funktion auszuüben. Dargestellt
sind hier nurandeutungsweise ein Spracherkennungsmodul 8,
ein Sprachausgabemodul (Prompt-Generator) 9 sowie
ein Kontrollmodul 7, welches das Spracherkennungsmodul 8 und
das Sprachausgabemodul 9 ansteuert. Außerdem ist der Server 11 mit
einer Liste 12 der möglichen
Namen, deren Ausspracheregelung sowie für jeden Namen eine zugeordnete
Teilnehmerkennung, beispielsweise eine Telefonnummer oder URL, konfiguriert.
Es ist klar, dass der Server 11 darüber hinaus auch mit allen üblichen
Hardware- und Softwarekomponenten ausgestattet ist, die normalerweise
für den
Betrieb eines solchen Servers 11, welcher als Sprach-Dialogsystem 10 dient,
benötigt
werden. Hierzu zählen
insbesondere ein Betriebssystem sowie weitere Schnittstellen, beispielsweise
zu fremden Datenbanken etc. Es wird ausdrücklich darauf hingewiesen,
dass ein solches Sprach-Dialogsystem 10 nicht
unbedingt auf einem einzelnen Netzwerkserver 11 implementiert sein
muss, sondern auch über
ein Netz verteilt sein kann, wobei verschiedene Rechner unterschiedlichste
Aufgaben des gesamten Sprach-Dialogsystems wahrnehmen.
-
Der weitere Ablauf des Verfahrens
ist in 3 dargestellt.
Während
die erste Sprachverbindung V1 gehalten wird,
werden eine oder mehrere Äußerungen
des Nutzers über
das Endgerät 1 zum Sprach-Dialogsystem 10 übermittelt.
Diese Äußerungen
werden vom Spracherkennungsmodul 8 erkannt und dem Kontrollmodul 7 zugeführt, welches
den Dialog steuert und zu den passenden Zeitpunkten über den
Prompt-Generator 9 den
Nutzer zur Eingabe weiterer Äußerungen
auffordert. Das heißt,
die Kontrolleinheit 7 steuert den gesamten Dialog und sorgt
dafür,
dass aus der Liste 12 bzw. Datenbank anhand der vom Nutzer
erhaltenen Informationen, beispielsweise dem Namen eines Teilnehmers,
die zugehörige
Teilnehmerkennung K ermittelt wird.
-
Diese Teilnehmerkennung K wird dann
zunächst
in einen DTMF-Code codiert (nicht dargestellt) und an das Mobilfunkgerät 2 des
Nutzers gesandt.
-
Die zurückgesandte Kennung K wird dann
innerhalb des Mobilfunkgeräts 2 von
einem Kontrollmodul 13 übernommen.
Dieses Kontrollmodul 13 sorgt dann dafür, dass in einem nächsten Schritt
ein Ruf R2 an das Endgerät 5 erfolgt, welches
die betreffende Teilnehmerkennung K aufweist. Dadurch wird eine Verbindung
V2 über
das Netzwerk N zu dem betreffenden Zielteilnehmerendgerät 5 durchgeführt. Dies ist
noch einmal in 2 dargestellt.
Auch bei dem Zielteilnehmergerät 4, 5, 6 kann
es sich um ein beliebiges Kommunikationsendgerät handeln. Es kann sich aber
auch um ein weiteres Dialogsystem oder ein ähnliches Gerät bzw. um
ein weiteres Netz handeln.
-
Die Initialisierung des gesamten
Vorgangs kann über
ein spezielles, vom Nutzer zu sprechendes Kennwort erfolgen, welches
von einem rudimentären Spracherkenner
(nicht dargestellt) des Mobilfunkgeräts 2 erkannt und entsprechend
im Endgerät 2 verarbeitet
wird. Ebenso ist eine Initialisierung durch einen Tastendruck auf
die Tastatur des Mobilfunkgeräts 2 möglich.