DE102004061524A1

DE102004061524A1 - Verfahren zum flexiblen dezentralen Bereitstellen von mehrsprachigen Dialogen

Info

Publication number: DE102004061524A1
Application number: DE102004061524A
Authority: DE
Inventors: Detlev Freund; Norbert Dr. Löbig
Original assignee: Siemens AG
Current assignee: Nokia Solutions and Networks GmbH and Co KG
Priority date: 2004-12-21
Filing date: 2004-12-21
Publication date: 2006-07-20
Also published as: CN101112076A; WO2006067027A1; US20080114589A1; EP1832101A1

Abstract

Die vorliegende Erfindung beschreibt ein Verfahren zum effizienten und einfachen Bereitstellen sprachgeführter Dienste in einem Telekommunikationssystem. Dabei werden die Definitionen der jeweiligen Dienste jeweils ausschließlich in einer zentralen Dienststeuerung (DSt) global definiert und anschließend in regionalen Media Servern (MSA, MSB) gemäß vorgegebener Transformationsvorschriften in regionale Formate umgewandelt. Des Weiteren nutzt das Verfahren gemäß der vorliegenden Erfindung Informationen der Vermittlungsstelle (VSt) bei der Auswahl der erwünschten Sprache.

Description

Sowohl in herkömmlichen Telekommunikationsnetzen, die das Zeitmultiplexverfahren („time division multiplexing" – TDM) verwenden, als auch in neueren, paketbasierten Telekommunikationsnetzen (etwa IP-Netzen) stehen den Teilnehmern zahlreiche Leistungsmerkmale zur Verfügung. Bei derartigen Leistungsmerkmalen und den damit in Zusammenhang stehenden Diensten kann es sich unter anderem beispielsweise um das Anbieten von automatischen Auswahlmenüs mit Sprachansagen und Sprachdialogen handeln.

Beim Stand der Technik wird die Steuerung der Dienste meist von einer aus Sicht der Vermittlungsstelle externen Komponente übernommen. Dabei handelt es sich um einen so genannten Applikationsserver, dem alle für die Definition der einzelnen Dienste erforderlichen Informationen verfügbar sind. Es liegt also die gesamte komplexe Intelligenz der angebotenen Dienste auf diesen Applikationsservern, die zugleich alle Parameter des erwünschten Dienstes überwachen und steuern und dabei die Antworten der Teilnehmer auswerten.

Die auf den Applikationsservern hinterlegten Definitionen der sprachgesteuerten Dienste besitzen zumeist eine hohe Komplexität hinsichtlich der Ablauffolge und sind zudem meist extrem umfangreich. Die Komplexität der Dienste nimmt bei multinationalen Szenarien naturgemäß aufgrund der zahlreichen unterschiedlichen Sprachen, die angeboten werden müssen, noch weiter zu.

Aufgrund der großen Anzahl der für die Dienste erforderlichen Dateien sind diese Dateien beim Stand der Technik nicht auf den Applikationsservern selbst hinterlegt sondern auf so genannten Media Servern oder einer den jeweiligen Media Servern zugänglichen Datenbasis. Der Applikationsserver fordert dann beim Bereitstellen des Dienstes, d.h. z.B. beim Ausspielen der entsprechenden Audiodateien, die für die jeweilige Anwendung benötigten Sprachansagen von einem dieser Media Server an. Diese Anforderung kann direkt oder auch mittelbar über eine Vermittlungsstelle erfolgen. Die Media Server selbst können sowohl zentral im Netz als auch teilnehmernah installiert sein.

Die Steuerung der Sprachansagen und Dialoge durch die Nutzer eines Dienstes wird üblicherweise durch die herkömmliche DTMF-Schnittstelle („dual tone multi frequency"-Schnittstelle) vorgenommen. Modernere Arten derartiger sprachgeführter Dienste verwenden jedoch zur einfacheren Navigation durch die Sprachdialoge eine automatische Spracherkennung (ASR – „automatic speech recognition"). Damit wird die Unterstützung von sowohl DTMF-geeigneten, einem Auswahlmenü folgenden Dialogen als auch von natürlichen Sprachdialogen ermöglicht. Bei einem solchen natürlichen Sprachdialog werden offene Fragen verwendet und die Spracheingaben frei formuliert. Die jeweiligen Folgefragen bestimmen sich hierbei aus der Kombination von erkannten Schlüsselworten. Der Anwender erhält damit den Eindruck der Kommunikation mit einem menschlichen Gesprächspartner.

Bei einer derartigen Steuerung mit natürlichen Spracheingaben ist allerdings eine zusätzliche Übertragung von weiteren Parametern (beispielsweise von besagten Schlüsselwörtern) notwendig. Da die DTMF-Schnittstelle für eine solche Übertragung nicht vorgesehen ist, wurden für die Bedürfnisse der Spracherkennung und der Sprachsynthese geeignete Steuerungsprotokolle wie etwa MRCP V1 („media resource control protocol version 1") oder MRCP V2 („media resource control protocol version 2") auf der Schnittstelle zwischen der sprachverarbeitenden Komponente und der die Logik des Dialogs steuernden Komponente eines Media Servers definiert. Mit Hilfe dieser Protokolle ist es beispielsweise auch möglich, die für eine Spracherkennung notwendige aufwendigere Datenübertragung zwischen den Media Servern und den Applikationsservern durchzuführen.

Bei multinationalen Szenarien wird üblicherweise zusätzlich zu Beginn des Dienstes mittels eines Auswahldialogs die erforderliche Sprache bestimmt. Eventuell in der Vermittlungsstelle des Telekommunikationsnetzes vorliegende Daten über den jeweiligen Teilnehmer (wie beispielsweise die bevorzugte Sprache oder die Region, in der sich der Teilnehmer befindet) werden bei dieser Auswahl jedoch nicht berücksichtigt.

Nachteilig am Stand der Technik ist, dass bei einer Aktualisierung der Dienste für alle Media Server ein Ladevorgang durchgeführt werden muss. D.h. es muss auf alle Media Server oder gegebenenfalls auf die entsprechenden, den Media Servern zugehörigen Datenbasen eine aktualisierte Version der entsprechenden Sprachdialoge aufgespielt werden. Für die Durchführung eines solchen Ladevorgangs benötigen die Media Server bzw. die den Media Servern zugehörigen externen Datenbasen eine entsprechende Ladelogik sowie ein zusätzliches, den Ladevorgang beschreibendes Protokoll-Interface (z.B. FTP – „File Transfer Protocol") und insbesondere einen entsprechenden Bedieneingriff durch Personal. Das Personal ist im Allgemeinen jedoch nicht mit der Definition und Aktualisierung von Diensten und Sprachdialogen vertraut.

Ein weiteres Problem beim Stand der Technik ist die oben beschriebene Komplexität der Dienste. So wird bereits die Definition eines einfachen Dienstes sehr unübersichtlich, wenn dieser in mehreren Regionen auf zum Teil unterschiedliche Weise angeboten werden muss. Ferner kann beispielsweise verlangt sein, dass für jede Region jeweils mehrere unterschiedliche Sprachen angeboten werden sollen. Bisher muss somit jeder dieser speziellen Fälle als ein einzelner, spezifischer Dienst im Applikationsserver definiert sein. Für aufwändigere Dienste, die beispielsweise längere Dialogfolgen umfassen oder mehrstufig sind, verschärft sich dieses Problem der Komplexität naturgemäß zusätzlich.

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren anzugeben, das sprachgeführte Dienste in einem Telekommunikationssystem effizienter und einfacher bereitstellen kann.

Ein Vorteil der Erfindung ist die Tatsache, dass jeder Dienst nur einmal global in einer Referenzsprache definiert wird. Bei einem multinationalen Netz wird für jede Region automatisch eine auf die Besonderheiten der Region abgestimmte regionale Version des globalen Dienstes erzeugt. Durch das Verfahren gemäß der Erfindung ist ein neuer Dienst demnach prinzipiell bereits in allen Regionen verfügbar, wenn er einmal global definiert wurde.

Werden geeignete Protokolle verwendet, so zeigt sich ein weiterer Vorteil der Erfindung in der Tatsache, dass die bei einer Aktualisierung eines Dienstes relevanten Daten auch über die Steuerschnittstellen der Signalisierungsprotokolle übermittelt werden können.

Ein weiterer Vorteil der Erfindung ist die Nutzung der Informationen der Vermittlungsstelle bei der Auswahl der zu verwendenden Sprache. Diese Informationen enthalten Hinweise über die Region, in der der Teilnehmer lokalisiert ist, und können daher bei der Auswahl der Sprache vorteilhaft eingebunden werden. In Mobilfunkszenarien können diese Daten beispielsweise dem so genannten Home Location Register (HLR) entstammen.

Die Erfindung wird nun im Folgenden mit Hilfe der beigefügten Zeichnungen detaillierter erläutert, wobei
1 die Bereitstellung eines Dienstes in einem Telekommunikationsnetz gemäß dem Stand der Technik zeigt, und
2 eine Ausführungsform des Verfahrens gemäß der vorliegenden Erfindung zeigt.
1 zeigt einen Aufbau zum Bereitstellen eines sprachgesteuerten Dienstes in einem herkömmlichen Telekommunikationsnetz gemäß dem Stand der Technik. Dabei fordert ein Teilnehmer Tn über ein klassisches TDM- oder IP-Netz einen sprachgesteuerten Dienst an. Diese Anforderung kann explizit durch den Teilnehmer erfolgen (beispielsweise durch Anwahl einer Service-Rufnummer) oder implizit durch Funktionen des Netzes (z.B. eine Berechtigungsabfrage für Aktionen des Teilnehmers, ein Sprachdialog bei besetztem Teilnehmer, eine geänderte Rufnummer, usw.).
Die Signalisierungsdaten werden anschließend an eine Vermittlungsstelle Vst übertragen, die die Anforderung an einen Applikationsserver AS weiterleitet. Dieser enthält die Definitionen von in dem Telekommunikationsnetz angebotenen sprachgesteuerten Diensten. Bei multinationalen Netzen, insbesondere für den Fall, bei dem die Vermittlungsstelle ihre Dienste für mehrere nationale Netze anbietet, also gleichzeitig mehrere logische Vermittlungsstellen mit unterschiedlichem Systemverhalten umfasst, ist in den Applikationsservern demnach auch für jede Region eine eigene, spezifische Dienstdefinition abgelegt.
Im nächsten Schritt sendet Vermittlungsstelle Vst die von Applikationsserver AS empfangenen Dienstanweisungen an einen Media Server MS, der die geforderten Sprachnachrichten (oder Audiodateien) an Teilnehmer Tn sendet bzw. Dialoge mit Teilnehmer Tn abwickelt. Die Reaktion von Teilnehmer Tn wird zurück zu Applikationsserver AS übertragen und dort gemäß der Dienstdefinition bearbeitet. Erfolgt die Steuerung durch Teilnehmer Tn mittels DTMF-Schnittstelle, so werden diese Signale direkt zu Applikationsserver AS übertragen. Soll die Steuerung jedoch mit Spracherkennung arbeiten, muss zusätzlich eine Umsetzung der Sprache in Signale vorgenommen wer den, die über die vorhandene Schnittstelle übermittelt werden können. Diese Umsetzung erfolgt aufgrund der besseren Bedingungen für eine hohe Erkennungswahrscheinlichkeit vorzugsweise bereits dezentral in Media Server MS.
Anschließend werden gegebenenfalls bis zur Beendigung des Dialogs weitere Anweisungen an Media Server MS gesendet bzw. Antworten von Teilnehmer Tn empfangen und ausgewertet. Bei einer Aktualisierung der Dienste oder dem Hinzufügen eines neuen Dienstes werden sowohl die Dienstdefinitionen in Applikationsserver AS als auch die die entsprechenden Ansagen und Dialoge beschreibenden Daten in allen Media Servern MS bzw. in den assoziierten Datenbasen (nicht gezeigt) mittels eines Ladevorgangs erneuert.
In 2 ist ein Ausführungsbeispiel des Verfahrens gemäß der vorliegenden Erfindung dargestellt. In diesem Beispiel verlangen zwei Teilnehmer TnA und TnB aus zwei hinsichtlich der nationalen Sprachen unterschiedlichen Regionen A und B einen sprachgesteuerten Dienst.
Die jeweiligen Signalisierungsdaten werden von Vermittlungsstelle VSt an eine globale Dienststeuerung DSt (entsprechend dem Applikationsserver aus 1) weitergeleitet. Die globale Dienststeuerung DSt ermittelt nun die gewünschte Sprache für den geforderten Dienst. Dies erfolgt zumeist mit Hilfe eines Anfangsdialogs, der den Teilnehmern TnA und TnB alle angebotenen Sprachen zur Auswahl stellt. Die Teilnehmer können nun mittels beispielsweise DTMF-Steuerung oder Sprachsteuerung die erwünschte Sprache auswählen. Ein zusätzlicher Aspekt der Erfindung ist dabei die Möglichkeit der Zuhilfenahme der Informationen, die Vermittlungsstelle VSt über die Teilnehmer TnA und TnB besitzt, zur Ermittlung der gewünschten Sprache. Damit kann die Sprachauswahl gegebenenfalls wegfallen oder auf eine Bestätigungsabfrage reduziert werden. Da Vermittlungsstelle VSt Informationen darüber besitzt, wo die Teilnehmer TnA und TnB lokalisiert sind (etwa über Country Code oder Local Area Code von Teilnehmer TnA und TnB oder der Einträge im HLR), können diese Informationen bereits die Auswahl der Sprache einschränken. Eine in der Region des jeweiligen Teilnehmers häufig gesprochene Spräche wird dabei beispielsweise zuoberst in die Auswahlliste aufgenommen werden. Eine andere Möglichkeit ist, die entsprechende Sprache direkt als Standardsprache einzustellen und gegebenenfalls zusätzlich einfach einen Menüpunkt zum Ändern der Sprache in den Dialog aufzunehmen.
Wurde die von den Teilnehmern TnA und TnB gewünschte Sprache ausgewählt bzw. bestätigt, gibt die globale Dienststeuerung DSt die entsprechenden Dienstanweisungen in der globalen Sprache weiter an den entsprechenden regionalen Media Server MSA bzw. MSB. Die Media Server MSA und MSB enthalten Transformationsvorschriften zum Umwandeln globaler Anweisungen in ihre jeweiligen regionalen Formate. Nach der Übersetzung der Anweisungen in das regionale Format ermitteln die Media Server MSA und MSB die auf die Besonderheiten ihrer spezifischen Region abgestimmten Versionen der Sprachdialoge und übermitteln diese an die Teilnehmer TnA und TnB. Diese Sprachnachrichten sind als Audiodateien oder Textdateien entweder auf den Media Servern MSA und MSB selbst hinterlegt oder auf zugeordneten Datenbasen (nicht gezeigt), auf die die Media Server MSA und MSB bei Bedarf zugreifen können.
Der anschließende Dialog erfolgt zwischen Teilnehmer TnA bzw. TnB, der globalen Dienststeuerung DSt und den entsprechenden Media Servern MSA bzw. MSB weiterhin gemäß dem oben beschriebenen Verfahren: Dienststeuerung DSt gibt jeweils Dienstanweisungen in der globalen Sprache an die entsprechenden Media Server MSA bzw. MSB aus, die die Anweisungen gemäß der Transformationsvorschriften in das regionale Format überführen und die angeforderten Sprachnachrichten an Teilnehmer TnA bzw. TnB schicken.
Werden die Antworten der Teilnehmer TnA und TnB per Sprache übermittelt, so werden diese lokal, vorzugsweise direkt in den jeweiligen Media Servern MSA und MSB ausgewertet. Dabei ergibt sich eine neutrale Parameterform bzw. eine regionspezifische Spracheingabeninformation (z.B. eine Folge von Schlüsselworten mit zugehörigen Erkennungswahrscheinlichkeiten). Anschließend werden diese Daten gemäß den Transformationsvorschriften in das globale Format umgewandelt und an die globale Dienststeuerung DSt gesendet.
Wird ein Dienst aktualisiert oder neu hinzugefügt, ergibt sich aus der globalen Definition und den regionalen Transformationsvorschriften direkt die regionale Version des Dienstes. Veränderte oder auch neue Services müssen also nur einmal global definiert werden. Die regionalen Formate werden durch die festgelegten Transformationen in den regionalen Media Servern MSA bzw. MSB automatisch erzeugt.
Auch die Erzeugung der Sprachnachrichten erfolgt dezentral. Die Media Server MSA und MSB können sich hierfür aus einem Satz von vorgegebenen Audio- und Textdefinitionen bedienen, die gemäß den transformierten globalen Vorschriften zusammengesetzt werden. Somit ist ein Ladevorgang nur noch dann notwendig, wenn gänzlich neue Audiodateien hinzugefügt werden müssen.
Verfahrensgemäß kann dieser eine separate Ladeschnittstelle erfordernde Ladevorgang auch umgangen werden, wenn z. B. unter Ausnutzung der Signalisierungsschnittstellen und der Eigenschaften des Steuerungsprotokolls ausschließlich die Deltadefinition der Dienste im Rahmen der Dienstsignalisierung zwischen Applikationsserver und Media Server übertragen werden. Dies bringt zusätzliche Vorteile im Hinblick auf Aspekte der Sicherheit (Firewalls) sowie der Instandhaltung. So ist in diesem Fall kein separater Arbeitsgang für das Bedien- und Wartungspersonal des Netzbetreibers nötig, um die Dienste auf die Bedürfnisse der Kunden anzupassen.
Textdateien erlauben im Vergleich zu Sprachaufnahmen mit professionellen Sprechern ein noch schnelleres Aktualisieren von Ansagen. Sie können in das erfindungsgemäße Verfahren einbezogen werden, wenn sie durch automatisches Übersetzen in die regional gewünschten Sprachen überführt werden und eine Nachschaltung einer geeigneten regionalsprachlichen TTS-Funktionseinrichtung („text-to-speech" – „Text zu Sprache") möglich ist.

Claims

Verfahren zum Bereitstellen von sprachgeführten Diensten in einem multinationalen Telekommunikationssystem, dadurch gekennzeichnet, dass jeder Dienst in einer Referenzsprache global definiert wird und automatisch für jede Region aus dieser globalen Definition eine regionale Definition des Dienstes erzeugt wird.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Dienst Ansagen, Folgen von Ansagen, Toneingaben oder Spracheingaben umfasst.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das multinationale Telekommunikationssystem eine Vermittlungsstelle (VSt) ist, die Teilnehmeranschlüsse und Verbindungsleitungen in einer Mehrzahl von nationalen Telekommunikationsnetzen mit unterschiedlichen Landessprachen bedient.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Referenzsprache mit einer der zu bedienenden Landessprachen identisch ist.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die automatische Erzeugung der Definition des regionalen Dienstes dezentral in regionalen Media Servern (MSA, MSB) vorgenommen wird.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass regional eine Spracherkennung durchgeführt wird und pro Region mindestens eine Einrichtung zur Spracherkennung existiert.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die den Dienst beschreibenden und definierenden Eigenschaften u. a. Schlüsselworte, Schlüsselwortfolgen, Grammars, Erkennereinstellungen, Erkennerausgaben sowie Sprachdateien und Text sind.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die den Dienst beschreibenden und definierenden Eigenschaften im Rahmen der Signalisierung übertragen werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in der Referenzsprache vorliegende, über Sprachsynthese auszugebende Texte automatisch durch geeignete Übersetzungsfunktionen und regional relevante Sprachsynthesefunktionen auf regionale Sprachen konvertiert werden.
Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass für die Ermittlung der gewünschten Sprache Informationen der Datenbasis der Vermittlungsstelle (VSt) oder dieser im Rahmen der Verbindungsbearbeitung verfügbar gemachte Informationen einbezogen werden.