-
Sowohl
in herkömmlichen
Telekommunikationsnetzen, die das Zeitmultiplexverfahren („time division
multiplexing" – TDM) verwenden,
als auch in neueren, paketbasierten Telekommunikationsnetzen (etwa
IP-Netzen) stehen den Teilnehmern zahlreiche Leistungsmerkmale zur
Verfügung.
Bei derartigen Leistungsmerkmalen und den damit in Zusammenhang
stehenden Diensten kann es sich unter anderem beispielsweise um
das Anbieten von automatischen Auswahlmenüs mit Sprachansagen und Sprachdialogen
handeln.
-
Beim
Stand der Technik wird die Steuerung der Dienste meist von einer
aus Sicht der Vermittlungsstelle externen Komponente übernommen.
Dabei handelt es sich um einen so genannten Applikationsserver,
dem alle für
die Definition der einzelnen Dienste erforderlichen Informationen
verfügbar
sind. Es liegt also die gesamte komplexe Intelligenz der angebotenen
Dienste auf diesen Applikationsservern, die zugleich alle Parameter
des erwünschten Dienstes überwachen
und steuern und dabei die Antworten der Teilnehmer auswerten.
-
Die
auf den Applikationsservern hinterlegten Definitionen der sprachgesteuerten
Dienste besitzen zumeist eine hohe Komplexität hinsichtlich der Ablauffolge
und sind zudem meist extrem umfangreich. Die Komplexität der Dienste
nimmt bei multinationalen Szenarien naturgemäß aufgrund der zahlreichen unterschiedlichen
Sprachen, die angeboten werden müssen,
noch weiter zu.
-
Aufgrund
der großen
Anzahl der für
die Dienste erforderlichen Dateien sind diese Dateien beim Stand
der Technik nicht auf den Applikationsservern selbst hinterlegt
sondern auf so genannten Media Servern oder einer den jeweiligen
Media Servern zugänglichen
Datenbasis. Der Applikationsserver fordert dann beim Bereitstellen
des Dienstes, d.h. z.B. beim Ausspielen der entsprechenden Audiodateien,
die für
die jeweilige Anwendung benötigten Sprachansagen
von einem dieser Media Server an. Diese Anforderung kann direkt
oder auch mittelbar über
eine Vermittlungsstelle erfolgen. Die Media Server selbst können sowohl
zentral im Netz als auch teilnehmernah installiert sein.
-
Die
Steuerung der Sprachansagen und Dialoge durch die Nutzer eines Dienstes
wird üblicherweise
durch die herkömmliche
DTMF-Schnittstelle („dual
tone multi frequency"-Schnittstelle)
vorgenommen. Modernere Arten derartiger sprachgeführter Dienste
verwenden jedoch zur einfacheren Navigation durch die Sprachdialoge
eine automatische Spracherkennung (ASR – „automatic speech recognition"). Damit wird die
Unterstützung
von sowohl DTMF-geeigneten, einem Auswahlmenü folgenden Dialogen als auch
von natürlichen
Sprachdialogen ermöglicht.
Bei einem solchen natürlichen
Sprachdialog werden offene Fragen verwendet und die Spracheingaben
frei formuliert. Die jeweiligen Folgefragen bestimmen sich hierbei
aus der Kombination von erkannten Schlüsselworten. Der Anwender erhält damit
den Eindruck der Kommunikation mit einem menschlichen Gesprächspartner.
-
Bei
einer derartigen Steuerung mit natürlichen Spracheingaben ist
allerdings eine zusätzliche Übertragung
von weiteren Parametern (beispielsweise von besagten Schlüsselwörtern) notwendig.
Da die DTMF-Schnittstelle für
eine solche Übertragung nicht
vorgesehen ist, wurden für
die Bedürfnisse
der Spracherkennung und der Sprachsynthese geeignete Steuerungsprotokolle
wie etwa MRCP V1 („media resource
control protocol version 1")
oder MRCP V2 („media
resource control protocol version 2") auf der Schnittstelle zwischen der
sprachverarbeitenden Komponente und der die Logik des Dialogs steuernden
Komponente eines Media Servers definiert. Mit Hilfe dieser Protokolle
ist es beispielsweise auch möglich,
die für
eine Spracherkennung notwendige aufwendigere Datenübertragung
zwischen den Media Servern und den Applikationsservern durchzuführen.
-
Bei
multinationalen Szenarien wird üblicherweise
zusätzlich
zu Beginn des Dienstes mittels eines Auswahldialogs die erforderliche
Sprache bestimmt. Eventuell in der Vermittlungsstelle des Telekommunikationsnetzes
vorliegende Daten über
den jeweiligen Teilnehmer (wie beispielsweise die bevorzugte Sprache
oder die Region, in der sich der Teilnehmer befindet) werden bei
dieser Auswahl jedoch nicht berücksichtigt.
-
Nachteilig
am Stand der Technik ist, dass bei einer Aktualisierung der Dienste
für alle
Media Server ein Ladevorgang durchgeführt werden muss. D.h. es muss
auf alle Media Server oder gegebenenfalls auf die entsprechenden,
den Media Servern zugehörigen Datenbasen
eine aktualisierte Version der entsprechenden Sprachdialoge aufgespielt
werden. Für
die Durchführung
eines solchen Ladevorgangs benötigen
die Media Server bzw. die den Media Servern zugehörigen externen
Datenbasen eine entsprechende Ladelogik sowie ein zusätzliches,
den Ladevorgang beschreibendes Protokoll-Interface (z.B. FTP – „File Transfer
Protocol") und insbesondere
einen entsprechenden Bedieneingriff durch Personal. Das Personal
ist im Allgemeinen jedoch nicht mit der Definition und Aktualisierung
von Diensten und Sprachdialogen vertraut.
-
Ein
weiteres Problem beim Stand der Technik ist die oben beschriebene
Komplexität
der Dienste. So wird bereits die Definition eines einfachen Dienstes
sehr unübersichtlich,
wenn dieser in mehreren Regionen auf zum Teil unterschiedliche Weise angeboten
werden muss. Ferner kann beispielsweise verlangt sein, dass für jede Region
jeweils mehrere unterschiedliche Sprachen angeboten werden sollen.
Bisher muss somit jeder dieser speziellen Fälle als ein einzelner, spezifischer
Dienst im Applikationsserver definiert sein. Für aufwändigere Dienste, die beispielsweise
längere
Dialogfolgen umfassen oder mehrstufig sind, verschärft sich
dieses Problem der Komplexität
naturgemäß zusätzlich.
-
Der
Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, das
sprachgeführte
Dienste in einem Telekommunikationssystem effizienter und einfacher
bereitstellen kann.
-
Ein
Vorteil der Erfindung ist die Tatsache, dass jeder Dienst nur einmal
global in einer Referenzsprache definiert wird. Bei einem multinationalen Netz
wird für
jede Region automatisch eine auf die Besonderheiten der Region abgestimmte
regionale Version des globalen Dienstes erzeugt. Durch das Verfahren
gemäß der Erfindung
ist ein neuer Dienst demnach prinzipiell bereits in allen Regionen
verfügbar,
wenn er einmal global definiert wurde.
-
Werden
geeignete Protokolle verwendet, so zeigt sich ein weiterer Vorteil
der Erfindung in der Tatsache, dass die bei einer Aktualisierung
eines Dienstes relevanten Daten auch über die Steuerschnittstellen
der Signalisierungsprotokolle übermittelt
werden können.
-
Ein
weiterer Vorteil der Erfindung ist die Nutzung der Informationen
der Vermittlungsstelle bei der Auswahl der zu verwendenden Sprache.
Diese Informationen enthalten Hinweise über die Region, in der der
Teilnehmer lokalisiert ist, und können daher bei der Auswahl
der Sprache vorteilhaft eingebunden werden. In Mobilfunkszenarien
können
diese Daten beispielsweise dem so genannten Home Location Register
(HLR) entstammen.
-
Die
Erfindung wird nun im Folgenden mit Hilfe der beigefügten Zeichnungen
detaillierter erläutert, wobei
-
1 die
Bereitstellung eines Dienstes in einem Telekommunikationsnetz gemäß dem Stand
der Technik zeigt, und
-
2 eine
Ausführungsform
des Verfahrens gemäß der vorliegenden
Erfindung zeigt.
-
1 zeigt
einen Aufbau zum Bereitstellen eines sprachgesteuerten Dienstes
in einem herkömmlichen
Telekommunikationsnetz gemäß dem Stand
der Technik. Dabei fordert ein Teilnehmer Tn über ein klassisches TDM- oder
IP-Netz einen sprachgesteuerten Dienst an. Diese Anforderung kann
explizit durch den Teilnehmer erfolgen (beispielsweise durch Anwahl
einer Service-Rufnummer) oder implizit durch Funktionen des Netzes
(z.B. eine Berechtigungsabfrage für Aktionen des Teilnehmers, ein
Sprachdialog bei besetztem Teilnehmer, eine geänderte Rufnummer, usw.).
-
Die
Signalisierungsdaten werden anschließend an eine Vermittlungsstelle
Vst übertragen,
die die Anforderung an einen Applikationsserver AS weiterleitet.
Dieser enthält
die Definitionen von in dem Telekommunikationsnetz angebotenen sprachgesteuerten
Diensten. Bei multinationalen Netzen, insbesondere für den Fall,
bei dem die Vermittlungsstelle ihre Dienste für mehrere nationale Netze anbietet, also
gleichzeitig mehrere logische Vermittlungsstellen mit unterschiedlichem
Systemverhalten umfasst, ist in den Applikationsservern demnach
auch für
jede Region eine eigene, spezifische Dienstdefinition abgelegt.
-
Im
nächsten
Schritt sendet Vermittlungsstelle Vst die von Applikationsserver
AS empfangenen Dienstanweisungen an einen Media Server MS, der die
geforderten Sprachnachrichten (oder Audiodateien) an Teilnehmer
Tn sendet bzw. Dialoge mit Teilnehmer Tn abwickelt. Die Reaktion
von Teilnehmer Tn wird zurück
zu Applikationsserver AS übertragen und
dort gemäß der Dienstdefinition
bearbeitet. Erfolgt die Steuerung durch Teilnehmer Tn mittels DTMF-Schnittstelle,
so werden diese Signale direkt zu Applikationsserver AS übertragen.
Soll die Steuerung jedoch mit Spracherkennung arbeiten, muss zusätzlich eine
Umsetzung der Sprache in Signale vorgenommen wer den, die über die
vorhandene Schnittstelle übermittelt
werden können.
Diese Umsetzung erfolgt aufgrund der besseren Bedingungen für eine hohe
Erkennungswahrscheinlichkeit vorzugsweise bereits dezentral in Media
Server MS.
-
Anschließend werden
gegebenenfalls bis zur Beendigung des Dialogs weitere Anweisungen
an Media Server MS gesendet bzw. Antworten von Teilnehmer Tn empfangen
und ausgewertet. Bei einer Aktualisierung der Dienste oder dem Hinzufügen eines
neuen Dienstes werden sowohl die Dienstdefinitionen in Applikationsserver
AS als auch die die entsprechenden Ansagen und Dialoge beschreibenden Daten
in allen Media Servern MS bzw. in den assoziierten Datenbasen (nicht
gezeigt) mittels eines Ladevorgangs erneuert.
-
In 2 ist
ein Ausführungsbeispiel
des Verfahrens gemäß der vorliegenden
Erfindung dargestellt. In diesem Beispiel verlangen zwei Teilnehmer TnA
und TnB aus zwei hinsichtlich der nationalen Sprachen unterschiedlichen
Regionen A und B einen sprachgesteuerten Dienst.
-
Die
jeweiligen Signalisierungsdaten werden von Vermittlungsstelle VSt
an eine globale Dienststeuerung DSt (entsprechend dem Applikationsserver
aus 1) weitergeleitet. Die globale Dienststeuerung
DSt ermittelt nun die gewünschte
Sprache für den
geforderten Dienst. Dies erfolgt zumeist mit Hilfe eines Anfangsdialogs,
der den Teilnehmern TnA und TnB alle angebotenen Sprachen zur Auswahl
stellt. Die Teilnehmer können
nun mittels beispielsweise DTMF-Steuerung oder Sprachsteuerung die
erwünschte
Sprache auswählen.
Ein zusätzlicher
Aspekt der Erfindung ist dabei die Möglichkeit der Zuhilfenahme
der Informationen, die Vermittlungsstelle VSt über die Teilnehmer TnA und
TnB besitzt, zur Ermittlung der gewünschten Sprache. Damit kann
die Sprachauswahl gegebenenfalls wegfallen oder auf eine Bestätigungsabfrage
reduziert werden. Da Vermittlungsstelle VSt Informationen darüber besitzt,
wo die Teilnehmer TnA und TnB lokalisiert sind (etwa über Country Code
oder Local Area Code von Teilnehmer TnA und TnB oder der Einträge im HLR), können diese
Informationen bereits die Auswahl der Sprache einschränken. Eine
in der Region des jeweiligen Teilnehmers häufig gesprochene Spräche wird dabei
beispielsweise zuoberst in die Auswahlliste aufgenommen werden.
Eine andere Möglichkeit
ist, die entsprechende Sprache direkt als Standardsprache einzustellen
und gegebenenfalls zusätzlich
einfach einen Menüpunkt
zum Ändern
der Sprache in den Dialog aufzunehmen.
-
Wurde
die von den Teilnehmern TnA und TnB gewünschte Sprache ausgewählt bzw.
bestätigt, gibt
die globale Dienststeuerung DSt die entsprechenden Dienstanweisungen
in der globalen Sprache weiter an den entsprechenden regionalen
Media Server MSA bzw. MSB. Die Media Server MSA und MSB enthalten
Transformationsvorschriften zum Umwandeln globaler Anweisungen in
ihre jeweiligen regionalen Formate. Nach der Übersetzung der Anweisungen
in das regionale Format ermitteln die Media Server MSA und MSB die
auf die Besonderheiten ihrer spezifischen Region abgestimmten Versionen
der Sprachdialoge und übermitteln
diese an die Teilnehmer TnA und TnB. Diese Sprachnachrichten sind
als Audiodateien oder Textdateien entweder auf den Media Servern
MSA und MSB selbst hinterlegt oder auf zugeordneten Datenbasen (nicht
gezeigt), auf die die Media Server MSA und MSB bei Bedarf zugreifen können.
-
Der
anschließende
Dialog erfolgt zwischen Teilnehmer TnA bzw. TnB, der globalen Dienststeuerung
DSt und den entsprechenden Media Servern MSA bzw. MSB weiterhin
gemäß dem oben
beschriebenen Verfahren: Dienststeuerung DSt gibt jeweils Dienstanweisungen
in der globalen Sprache an die entsprechenden Media Server MSA bzw.
MSB aus, die die Anweisungen gemäß der Transformationsvorschriften
in das regionale Format überführen und
die angeforderten Sprachnachrichten an Teilnehmer TnA bzw. TnB schicken.
-
Werden
die Antworten der Teilnehmer TnA und TnB per Sprache übermittelt,
so werden diese lokal, vorzugsweise direkt in den jeweiligen Media
Servern MSA und MSB ausgewertet. Dabei ergibt sich eine neutrale
Parameterform bzw. eine regionspezifische Spracheingabeninformation
(z.B. eine Folge von Schlüsselworten
mit zugehörigen
Erkennungswahrscheinlichkeiten). Anschließend werden diese Daten gemäß den Transformationsvorschriften
in das globale Format umgewandelt und an die globale Dienststeuerung
DSt gesendet.
-
Wird
ein Dienst aktualisiert oder neu hinzugefügt, ergibt sich aus der globalen
Definition und den regionalen Transformationsvorschriften direkt die
regionale Version des Dienstes. Veränderte oder auch neue Services
müssen
also nur einmal global definiert werden. Die regionalen Formate
werden durch die festgelegten Transformationen in den regionalen
Media Servern MSA bzw. MSB automatisch erzeugt.
-
Auch
die Erzeugung der Sprachnachrichten erfolgt dezentral. Die Media
Server MSA und MSB können
sich hierfür
aus einem Satz von vorgegebenen Audio- und Textdefinitionen bedienen,
die gemäß den transformierten
globalen Vorschriften zusammengesetzt werden. Somit ist ein Ladevorgang nur
noch dann notwendig, wenn gänzlich
neue Audiodateien hinzugefügt
werden müssen.
-
Verfahrensgemäß kann dieser
eine separate Ladeschnittstelle erfordernde Ladevorgang auch umgangen
werden, wenn z. B. unter Ausnutzung der Signalisierungsschnittstellen
und der Eigenschaften des Steuerungsprotokolls ausschließlich die
Deltadefinition der Dienste im Rahmen der Dienstsignalisierung zwischen
Applikationsserver und Media Server übertragen werden. Dies bringt
zusätzliche
Vorteile im Hinblick auf Aspekte der Sicherheit (Firewalls) sowie
der Instandhaltung. So ist in diesem Fall kein separater Arbeitsgang
für das
Bedien- und Wartungspersonal des Netzbetreibers nötig, um
die Dienste auf die Bedürfnisse
der Kunden anzupassen.
-
Textdateien
erlauben im Vergleich zu Sprachaufnahmen mit professionellen Sprechern
ein noch schnelleres Aktualisieren von Ansagen. Sie können in
das erfindungsgemäße Verfahren
einbezogen werden, wenn sie durch automatisches Übersetzen in die regional gewünschten
Sprachen überführt werden
und eine Nachschaltung einer geeigneten regionalsprachlichen TTS-Funktionseinrichtung („text-to-speech" – „Text zu Sprache") möglich ist.