-
Gebiet der Erfindung
-
Die Erfindung bezieht sich auf ein
Sprachsteuersystem und ein -verfahren für ein Telekommunikaaionsnetzwerk,
wobei ein Netzwerkanwendungsserver auf der Grundlage eines Sprachbefehls
gesteuert wird.
-
Hintergrund
der Erfindung
-
Bei verbreiteten Spracherkennungssystemen
(DSR-Systemen) kann der Benutzer eine Anwendung auf der Grundlage
von gesprochenen Steuermitteilungen steuern, die einer automatischen
Spracherkennungseinrichtung (ASR-Einrichtung) oder einer -Maschine
zugeführt
werden. Die gesprochenen Steuermitteilungen werden von der ASR-Maschine
in Textbefehle umgewandelt, die an die auf einem zugehörigen Netzwerkanwendungsserver
(NAS) laufende Anwendung oder an einen Teilnehmeranschluss wie eine
Mobilstation (MS) gesendet werden, von denen die gesprochenen Steuermitteilungen
empfangen worden sind.
-
Die Grundfunktion eines verbreiteten
Spracherkennungssystems in dem Kontext von Mobilanwendungen ist
die Fähigkeit
einer Mobilstation, automatische Spracherkennungsmerkmale mit der
Hilfe einer Hochleistungs-ASR-Maschine oder eines ASR-Servers zur
Verfügung
zu stellen, die in dem Netzwerk bereitstehen. Daher ist die Grundfunktion der
Mobilstation die Übertragung
eines Eingangssprachbefehls an diese Netzwerk-ASR-Maschine, um die
Erkennungsaufgaben durchzuführen
und die Ergebnisse zurückzugeben.
Das Ergebnis kann ein erkanntes Word oder Befehl in Textformat sein.
Die Mobilstation kann dann den Text verwenden, um die notwendigen
Funktionen durchzuführen.
-
EP-A-382670 offenbart ein Beispiel
der Erzeugung von Anwendungen mit Sprachausgabe, die auf einer zustandsangesteuerten
Maschine basieren und typischerweise durch eine Berührungston-Telefontastatur gesteuert
werden.
-
Es ist eine weitere Funktion eines
derartigen Systems, die Mobilstation mit Zugang zu anderen Anwendungsservern,
d. h. Internet WWW (Weltweites Netzwerk), E-Mail, Voicemail bzw.
Sprachpost und dergleichen über
Sprachbefehle zur Verfügung
zu stellen. Daher ist der Benutzer mit einem derartigen Mobilstationstyp
in der Lage, sich mit diesen Anwendungsservern zu verbinden und
Sprachbefehle auszugeben.
-
Um dies zu erreichen, überträgt die Mobilstation
ein Sprachsignal (Audio) an die ASR-Maschine. Die ASR-Maschine wird
eine Spracherkennung durchführen,
um zugehörige
Textbefehle zu erlangen. Diese Textbefehle werden an die Mobilstation
zurückgegeben.
Die Mobilstation verwendet dann diese Textbefehle, um einen zugehörigen Netzwerkanwendungsserver
(NAS) zu steuern, der ein beliebiger Server in einem Datennetzwerk
wie das Internet sein kann, das verschiedenste Dienste wie WWW,
E-Mail-Leser, Voicemail usw. zur Verfügung stellt.
-
Da die ASR-Maschine normalerweise
auf einer Plattform läuft,
die auch andere Anwendungen laufen lassen kann oder andere Aufgaben
durchführen
kann, ist es möglich,
an die ASR-Maschine andere Funktionen zu transferieren, wie beispielsweise
Verarbeiten des erlangten Textbefehls, um die erforderliche Operation
zu ermitteln und den relevanten Server zu kontaktieren. Dann überträgt sie die
von dem kontaktierten Netzwerkanwendungsserver wiedergewonnenen
Informationen zurück
an die Mobilstation. Bei dieser Situation empfängt die Mobilstation eine Spracheingabe,
sendet sie an eine Netzwerk-ASR-Maschine, die Spracherkennung durchführt, führt notwendige
Funktionen auf der Grundlage der Sprachbefehle aus und sendet die
wiedergewonnenen Informationen oder Ergebnisse an die Mobilstation.
-
Nachfolgend werden Beispiele für die vorangehenden
Fälle beschrieben:
-
Beispiel 1:
-
Der Benutzer könnte sagen „John Smith anrufen". In diesem
Fall wandelt die ASR-Maschine die Sprache in Text um und gibt den
Text „John
Smith anrufen" an die Mobilstation zurück, wo die Anwendungssoftware in
der Mobilstation dann die Telefonnummer für John Smith wiedergewinnt
und eine Anrufoperation durchführt.
-
Beispiel 2:
-
Der Sprachbefehl bei der Mobilstation
könnte
sein „Rennsportinformationen".
In diesem. Fall wandelt die ASR-Maschine
die Sprache in Text um und gibt den Text „Rennsportinformationen" an
die Mobilstation zurück.
Folglich erkennt die Anwendungssoftware der Mobilstation, dass der
Benutzer einen Zugang zu dem Netzwerkserver wünscht, der Pferderennsportinformationen
zur Verfügung
stellt. Dementsprechend baut die Mobilstation eine Verbindung mit dem
relevanten Server auf, gewinnt die jüngsten Rennergebnisse und zeigt die
Ergebnisse auf einer Anzeige der Mobilstation an.
-
Beispiel 3:
-
Ein in die Mobilstation eingegebener
Sprachbefehl könnte
sein „E-Mail
lesen". In diesem Fall wandelt die ASR-Maschine die Sprache in Text um und
gibt den Text „E-Mail
lesen" an die Mobilstation zurück.
Folglich erkennt die Anwendungssoftware der Mobilstation, dass der
Benutzer einen Zugang zu dem Netzwerkserver wünscht, der einen Zugang zu
der E-Mailbox des Benutzers zur Verfügung stellt. In diesem Fall
sendet die Mobilstation an die ASR-Maschine einen Befehl, um mit
dem relevanten Έ-Mailanwendungsserver
eine Verbindung aufzubauen. Nun gibt die ASR-Maschine die erkannte
Sprache nicht zurück,
sondern verarbeitet die umgewandelte Sprache weiter. Für den Fall,
dass der Sprachbefehl „Mitteilung
1" war, empfängt
die ASR-Maschine die Sprache und übersetzt sie in einen Textbefehl „Mitteilung
1" und überträgt diesen
Textbefehl an den E-Mailanwendungsserver. Wiederum gibt der E-Mailanwendungsserver
den Text von Mitteilung 1 an die ASR-Maschine zurück. Dann
wird die ASR-Maschine diesen Text an die Mobilstation übertragen.
Der Dialog kann sich mit Mitteilung 2, 3 usw. fortsetzen, wobei
jeder Sprachbefehl von dem Benutzer von der ASR-Maschine behandelt
wird, bis der Benutzer einen Beendigungsbefehl ausgibt oder bis
von der Mobilstation eine Mitteilung zur Beendigung der Sitzung
empfangen wird.
-
Bei den vorangehenden Beispielen
1 und 2 besteht die einzige Funktion der ASR-Maschine darin, Sprache
in Text umzuwandeln und die Ergebnisse zur weiteren Verarbeitung
zurück
zu der Mobilstation zu senden. Daher wird der Netzwerkanwendungsserver
Befehle direkt von der Mobilstation empfangen. Jedoch verarbeitet
bei dem vorangehenden Beispiel 3 die ASR-Maschine selbst die umgewandelte
Sprache und greift direkt auf den relevanten Netzwerkanwendungsserver
zu, um die Ergebnisse von dem Netzwerkanwendungsserver zu empfangen
und die Ergebnisse zurück
an die Mobilstation zu leiten.
-
Folglich ist die Mobilstation oder
die ASR-Maschine gefordert, mit dem Netzwerkanwendungsserver zu
kommunizieren, um Benutzerbefehle an den Netzwerkanwendungsserver
auszugeben und von dem Netzwerkanwendungsserver Antworten zu empfangen.
-
Jedoch stellt sich in beiden Fällen das
folgende Problem. Es sei angenommen, dass die zu lesende E-Mailanwendung
Befehle wie A {Mitteilung 1, Mitteilung 2, ... Mitteilung N und
Beenden} auf dem Menü der höchsten Ebene
unterstützt.
Für den
Fall, dass der Benutzer bereits eine Mitteilung liest, sind die
Befehle in diesem Kontext B {Löschen,
Beenden, Nächste
Mitteilung}. Daher wird der Netzwerkanwendungsserver mit einer Fehlermeldung
antworten, wenn sich der Benutzer in dem Menü der höchsten Ebene befindet und einen anderen
Sprachbefehl als diejenigen aus der Befehlsgruppe A eingibt. Auch
wenn der Benutzer einen Sprachbefehl aus der Befehlsgruppe B ausgibt,
wird dieser Befehl immer noch ein fehlerhafter Befehl sein, da der Kontext
oder Zustand des Netzwerkanwendungsservers verschieden ist.
-
Außerdem könnten ebenso für den Kontext
irrelevante Befehle aufgrund von Rauschen und dergleichen in die
Mobilstation eingegeben werden. Alle diese Sprachsignale werden
von der ASR-Maschine in einen Text umgewandelt und an den Netzwerkanwendungsserver
gesendet, der mit Fehlermeldungen antworten wird.
-
Da derartige Szenarien häufig auftreten
können,
wird die Verarbeitung von gültigen
Befehlen durch den Netzwerkanwendungsserver verzögert sein, da wertvolle Netzwerkbandbreiten
und Anwendungsserver-Verarbeitungszeit zum Antworten auf derartige
ungültige
Befehle erforderlich ist.
-
Zudem führt das vorangehende Problem
zu einer Verzögerung
beim Ansprechen der ASR-Maschine auf eine Eingangssprachmitteilung,
da sie auf Antworten von dem Netzwerkanwendungsserver warten muss.
-
Dementsprechend wird die Gesamtantwortzeit
bei der Mobilstation derart erhöht
werden, das der Benutzer den Befehl wiederholen oder den Befehl ändern kann,
was die Verzögerungen
noch weiter erhöht
und zu einem schlechten Leistungsverhalten des Systems führt.
-
Zusammenfassung der Erfindung
-
Es ist eine Aufgabe der Erfindung
ein Sprachsteuersystem und ein -verfahren mit einer verkürzten Gesamtantwortzeit
zur Verfügung
zu stellen.
-
Diese Aufgabe wird durch ein Sprachsteuersystem
für ein
Telekommunikationsnetzwerk gelöst,
mit:
einer Ladeeinrichtung zum Laden von Zustandsdefinitionsinformationen
von einem Netzwerkanwendungsserver, wobei die Zustandsdefinitionsinformationen
alle möglichen
Zustände
des Netzwerkanwendungsservers definieren;
einer Bestimmungseinrichtung
zur Bestimmung einer Gruppe von gültigen Befehlen für den Netzwerkanwendungsserver auf
der Grundlage der Zustandsdefinitionsinformationen; und
einer
Prüfeinrichtung
zum Prüfen
einer Gültigkeit
eines Textbefehls, der durch Umwandeln eines Eingangssprachbefehls
erlangt wird, um zur Steuerung des Netzwerkanwendungsservers verwendet
zu werden, indem der Textbefehl mit der vorbestimmten Gruppe von
gültigen
Befehlen verglichen wird.
-
Zudem wird die vorangehende Aufgabe
durch ein Sprachsteuerverfahren für ein Telekommunikationsnetzwerk
gelöst,
mit den Schritten zum:
Laden von Zustandsdefinitionsinformationen
von einer Netzwerksanwendung, wobei die Zustandsdefinitionsinformationen
alle möglichen
Zustände
der Netzwerksanwendung definieren;
Bestimmen einer Gruppe von
gültigen
Befehlen für
die Netzwerksanwendung auf der Grundlage der Zustandsdefinitionsinformationen;
und
Prüfen
einer Gültigkeit
eines Textbefehls, der durch Umwandeln eines Sprachbefehls erlangt
wird, um zur Steuerung der Netzwerksanwendung verwendet zu werden,
indem der Textbefehl mit der bestimmten Gruppe von gültigen Befehlen
verglichen wird.
-
Dementsprechend kann, da eine Gruppe
von gültigen
Befehlen auf der Grundlage von von dem Netzwerkanwendungsserver
zur Verfügung
gestellten Zustandsdefinitionsinformationen bestimmt wird, die Gültigkeit
eines erlangten Textbefehls vor Übertragen
des Textbefehls an den Netzwerkanwendungsserver geprüft werden.
Folglich kann die Übertragung
von fehlerhaften Textmitteilungen verhindert werden, um zugehörige Verzögerungen
und eine Verschwendung von Verarbeitungszeit des Netzwerkanwendungsserver
zu verhindern.
-
Vorzugsweise kann die Ladeeinrichtung
dahingehend ausgestaltet sein, um Grammatik- und/oder Vokabelinformationen
zu laden, die eine Gesamtgruppe von von dem Netzwerkanwendungsserver
unterstützten gültigen Befehlen
spezifiziert, wobei die Bestimmungseinrichtung dahingehend ausgestaltet
sein kann, um die Gruppe von gültigen
Befehlen auf der Grundlage der Gesamtgruppe von gültigen Befehlen
und von in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformationen
zu bestimmen.
-
Dadurch kann das Sprachsteuersystem
mit den tatsächlichen
Zuständen
des Netzwerkanwendungsservers Schritt halten, indem. es sich auf
Zustandsübergangsregeln
bezieht, um die Gesamtgruppe von gültigen Befehlen auf diejenigen
Befehle zu beschränken,
die dem tatsächlichen
Zustand des Netzwerkanwendungsservers entsprechen.
-
Alternativ kann die Bestimmungseinrichtung
dahingehend ausgestaltet sein, um die Ladeeinrichtung zu veranlassen,
eine zustandsabhängige
Grammatik-Datei zu laden, die eine Gruppe von gültigen Befehlen für einen
spezifischen Zustand des Netzwerkanwendungsservers definiert, wenn
die Bestimmungseinrichtung auf der Grundlage von in den Zustandsdefinitionsinformationen
enthaltenen Zustandsübergangsinformationen einen
Zustandswechsel bestimmt.
-
Folglich wird nur die Gruppe von
auf einen besonderen Zustand des Netzwerkanwendungsservers anwendbaren
gültigen
Befehlen durch Bezugnahme auf die Zustandsübergangsinformationen geladen.
Dadurch kann die Genauigkeit verbessert werden und Netzwerkverbindungen
können
effektiver verwendet werden.
-
Vorzugsweise kann das Netzwerksteuersystem
eine Spracherkennungseinrichtung zur Umwandlung eines von einem
Teilnehmeranschluss empfangenen Eingangssprachbefehls in den Textbefehl
aufweisen, um dem Netzwerkanwendungsserver zugeführt zu werden. Folglich kann
ein zentrales Sprachsteuersystem in dem Netzwerk zur Verfügung gestellt
werden, auf das von individuellen Teilnehmeranschlüssen aus
zugegriffen werden kann.
-
Im Falle der Verwendung eines (nachfolgend
als WAP = Wireless Application Protocol bezeichneten) drahtlosen
Anwendungsprotokolls bei einem mobilen Netzwerk, kann das Sprachsteuersystem
bei einem (nachfolgend als WTA-Server = Wireless Telephony Application
server bezeichneten) drahtlosen Telefonieanwendungsserver eingebaut
sein, wobei der WTA-Server dahingehend ausgestaltet sein kann, um
von einer Netzwerkspracherkennungseinrichtung den Textbefehl zu
empfangen, um einen von einem Teilnehmeranschluss empfangenen Eingangssprachbefehl
in den Textbefehl umzuwandeln. Dadurch können vorhandene WTA-Anwendungen
mit einer optimierten Spracherkennung verbessert werden.
-
Als eine Alternative kann das Sprachsteuersystem
ein Teilnehmeranschluss sein, der eine Eingabeeinrichtung zum Eingeben
eines Sprachbefehls, eine Übertragungseinrichtung
zum Übertragen
des Sprachbefehls an eine Spracherkennungseinrichtung des Telekommunikationsnetzwerks,
und eine Empfangseinrichtung zum Empfang des Textbefehls von der
Spracherkennungseinrichtung aufweist, wobei die Übertragungseinrichtung dahingehend
ausgestaltet ist, um den empfangenen Textbefehl an den Netzwerkanwendungsserver
zu übertragen.
-
Folglich wird die Gültigkeitsüberprüfung des
empfangenen Textbefehls bei dem Teilnehmeranschluss durchgeführt, beispielsweise
der Mobilstation, bevor er an den Netzwerkanwendungsserver übertragen
wird. Daher kann die Verarbeitungszeit bei dem Netzwerkanwendungsserver
reduziert werden, da er nur gültige
Befehle empfangen wird.
-
Die Zustandsdefinitionsinformationen
können
eine Datendatei wie beispielsweise eine WML-Datei (Wireless Markup
Language file) oder eine HTML-Datei (Hyper Text Markup Language
file) sein. Diese Datendatei kann online an das Sprachsteuersystem
als ein Teil der von dem Netzwerkanwendungsserver gesandten Standardinformationen
gesendet werden.
-
Außerdem können die Zustandsdefinitionsinformationen
eine Ladeanweisung zum Laden der zustandsabhängigen Grammatik- und/oder Vokabular-Datei
enthalten. Dadurch kann das Sprachsteuersystem die Ladeanweisung
direkt zum Laden der spezifischen Gruppe von gültigen Befehlen für den Fall
verwenden, dass eine Änderung
des Zustands des Netzwerkanwendungsservers bestimmt wird.
-
Vorzugsweise können die Zustandsdefinitionsinformationen
von dem Netzwerkanwendungsserver bei einer Setup-Zeit des Servers
zur Verfügung
gestellt werden.
-
Zudem können die Zustandsdefinitionsinformationen
zusammen mit einem Befehlsgruppeninfo in einem Netzwerkserver gespeichert
werden, der auf der Hardware des Sprachsteuersystems läuft.
-
Vorzugsweise kann das Sprachsteuersystem
eine Vielzahl von anbieterspezifischen Spracherkennungseinrichtungen
umfassen, wobei entsprechende Parameter für die Vielzahl von anbieterspezifischen Spracherkennungseinrichtungen
in den Zustanddefinitionsinformationen definiert sind. Da durch kann
ein universelles Sprachsteuersystem erlangt werden, das auf einer
hardware- und software-unabhängigen
Plattform basiert. Folglich kann abhängig von dem Netzwerkanwendungsserver
eine erforderliche Audioverarbeitungshardware und eine anbieterspezifische
Spracherkennungseinrichtung ausgewählt werden.
-
Weitere bevorzugte Entwicklungen
der Erfindung sind in den abhängigen
Ansprüchen
definiert.
-
Kurze Beschreibung
der Zeichnung
-
Nachfolgend wird die Erfindung auf
der Grundlage eines bevorzugten Ausführungsbeispiels unter Bezugnahme
auf die beiliegende Zeichnung ausführlicher beschrieben. Es zeigen:
-
1 ein
Blockschaltbild eines Telekommunikationsnetzwerks mit einem Sprachsteuersystem
gemäß dem bevorzugten
Ausführungsbeispiel
der Erfindung;
-
2 ein
Flussdiagramm eines Sprachsteuerverfahrens gemäß dem bevorzugten Ausführungsbeispiel
der Erfindung; und
-
3 ein
Blockschaltbild eines Telekommunikationsnetzwerks mit einem Sprachsteuersystem
auf WAP-Grundlage gemäß dem bevorzugten
Ausführungsbeispiel
der Erfindung.
-
Beschreibung
des bevorzugten Ausführungsbeispiels
-
In 1 ist
ein Blockschaltbild eines Telekommunikationsnetzwerks mit dem Sprachsteuersystem
gemäß dem bevor zugten
Ausführungsbeispiel
der Erfindung dargestellt. Gemäß 1 steht eine Mobilstation (MS) 1 mit
einem Basisstations-Untersystem (BSS) 2 über Funk
in Verbindung, das über
ein mobiles Schaltzentrum (MSC) 3 mit einem Telekommunikationsnetzwerk 4 verbunden
ist. Das Telekommunikationsnetzwerk 4 kann ein Datennetzwerk
wie das Internet sein, das verschiedenste Dienste zur Verfügung stellt.
-
Zudem ist ein Netzwerkanwendungsserver
(NAS) 5 mit dem Netzwerk 4 verbunden, um einen
speziellen Dienst auf der Grundlage von entsprechenden Befehlen
zur Verfügung
zu stellen. Zusätzlich
steht eine automatische Spracherkennungseinrichtung (ASR-Einrichtung)
oder ASR-Maschine als eine zentrale Einrichtung zur Verfügung, um
eine Spracheingabe an Teilnehmeranschlüssen wie der Mobilstation 1 zu
ermöglichen.
-
Zum Verfeinern des Erkennungsprozesses
und Erreichen von Erkennungsraten mit höherer Genauigkeit, finden in
der ASR-Maschine 6 sprachspezifische Merkmale Anwendung.
Um eine hohe Genauigkeit der Spracherkennung zu erreichen, muss
die Anwendung auf einen erforderlichen Kontext feinabgestimmt werden.
Dies wird durch Spezifizieren eines Vokabulars für die Anwendung und in dem
Kontext der Anwendung gültige
Grammatiken vorgenommen. Das Vokabular ist grundsätzlich eine
Gruppe von von der ASR-Maschine 6 zu erkennenden Wörtern, beispielsweise
Wörter
wie Schließen,
Lesen, Mitteilung, Orange, Stift, Stuhl, Beenden, Öffnen usw.
Bei der ASR-Maschine 6 kann eine Einrichtung zum Spezifizieren
der Grammatik für
eine gegebene Anwendung zur Verfügung
gestellt sein. Dies könnte
durch eine regelbasierende Grammatik wie beispielsweise
allgemein
bekannter <Befehl> = [<Höflich>] <Aktion>
<Objekt> (und <Objekt>)*;
<Aktion> = Lesen | Nächster |
Löschen;
<Objekt> = Mitteilung | Gegenstand
<Höflich> = Bitte;
erzielt
werden.
-
Bei der vorangehenden regelbasierenden
Grammatik ist eine allgemein bekannte Regel, <Befehl>, spezifiziert, die von einem Benutzer
gesprochen werden kann. Die Regel ist eine Kombination von Unterregeln <Aktion>, <Objekt> und <Höflich>, wobei die eckigen
Klammern um <Höflich> eine Optionalität davon
anzeigen. Daher würde
die vorangehende Grammatik die folgenden Befehle unterstützen: „Mitteilung
lesen", „Bitte Gegenstand
und Mitteilung lesen" usw.
-
Bei befehlsbasierenden ASR-Anwendungen
werden regelbasierende Grammatiken verwendet, um alle gesprochene
Eingabe zu definieren, für
deren Behandlung die Anwendung programmiert ist. Die regelbasierende
Grammatik spezifiziert grundlegend alle gesprochenen Befehle (oder
Befehlssyntax), die von einer Anwendung unterstützt werden. Im Falle eines
E-Mail-Lesers enthält
die Grammatik-Datei alle Befehle, die die E-Mail-Anwendung akzeptieren
wird (z. B. Mitteilung 1, Mitteilung 2, ..., Mitteilung N, Beenden,
Löschen
und Nächste
Mitteilung).
-
Die ASR-Maschine 6 lädt im Allgemeinen
die zugehörige
Grammatik-Datei vor dem Starten der Spracherkennung. Einige Anwendungen
können
sogar mehrere Grammatik-Dateien aufweisen, um verschiedene Kontexte
einer Anwendung wie beispielsweise dem Netzwerkanwendungsserver 5 zu
definieren, wobei die ASR-Maschine 6 gefordert ist, die
kontextabhängige
Grammatik-Datei während
der Laufzeit zu laden.
-
Bei dem bevorzugten Ausführungsbeispiel
sind eine Grammatik-Datei, eine Vokabular-Datei und eine Anwendungszustandsdefinitionsdatei
(ASD-Datei) definiert. Daher erstellt jeder Netzwerkanwendungsserver 5 eine
ASD-Datei, eine Grammatik-Datei und/oder eine Vokabular-Datei. Die
Grammatik-Datei ist an die Anforderungen der ASR-Maschine 6 angepasst,
wobei ASR-Maschinen 6 unterschiedlicher Anbieter unterschiedliche
Grammatik-Dateiformate aufweisen können.
-
Die ASD-Datei ist eine Datei, die
alle möglichen
Zustände
der Anwendung beschreibt, und wie zwischen Zuständen gesprungen wird, sowie
die gültigen
Zustände
für jeden
Zustand beschreibt. Folglich stellt die ASD-Datei eine Einrichtung
zur Spezifizierung der kontextabhängigen Grammatik-Dateien und
auch einen Vokabular-Dateinamen zur Verfügung. Dies ist ein wichtiges
Merkmal, da eine gegebene Anwendung abhängig von dem Kontext verschiedene
Grammatiken und/oder Vokabularien verwenden kann. Wird diese Information
online auf die ASR-Maschine 6 geladen, kann die Spracherkennung
und die Gesamtantwortzeit aufgrund der kleinen Gruppe von gültigen Befehlen
und der resultierenden hohen Erkennungsgenauigkeit bemerkenswert
verbessert werden.
-
Für
den Fall, dass die ASD-Datei auf einer HTML (Hyper Text Markup Language) ähnlichen
Syntax basiert, könnte
sie wie folgt definiert sein:
wobei
eine <ASD>-Kennzeichnung die
Datei als einen Dateityp identifiziert, der die Zustandsdefinition
des Netzwerkanwendungsservers
5 zur Verfügung stellt,
eine <APP>-Kennzeichnung den Anwendungsnamen und
eine <STATE>-Kennzeichnung einen
gegebenen Zustand definiert, d. h. den Namen des Zustands, die gültigen Befehle
für diesen
Zustand, und mit jedem Befehl ist auch der nächste Zustand definiert, zu
dem die Anwendung springen muss. Eine derartige <STATE>-Kennzeichnung
ist für
jeden Zustand der Netzwerkanwendung definiert. Die <GRAMMAR>-Kennzeichnung stellt
eine Einrichtung zur Definition der Befehle und der Syntax der Befehle
zur Verfügung.
-
Gemäß der vorangehenden Datei muss
die Anwendung nach den Mitteilungen 1, 2, 3 ... N zu dem Zustand „Lesen"
springen. Die <DIGITS>-Kennzeichnung definiert
eine spezielle Grammatik. Bei dem gegenwärtigen Fall zeigt die <GRAMMAR>-Kennzeichnung, dass
die Ziffern 1, 2, 3, 4 oder 5 sein können. Nach dem Befehl „Beenden"
sollte die Anwen dung beendet werden (was als ein NULL-Zustand („") bezeichnet
wird). Es sei bemerkt, dass der Zustand in das „Hauptmenü" zu transferieren ist, wenn
bei dem „Lesen"-Zustand ein „Beenden"-Befehl
ausgegeben wird.
-
Unter Verwendung dieser Herangehensweise,
teilt die ASD-Datei
der ASR-Maschine 6 oder der Mobilstation 1 mit, welche
Befehle für
einen gegebenen Kontext gültig
sind. Damit die Mobilstation 1 oder die ASR-Maschine 6 mit
den Zuständen
des Netzanwendungsservers 5 Schritt halten kann, werden
auch in der ASD-Datei Zustandsübergangsregeln
zur Verfügung
gestellt. Bei Verwendung von anderen eine kontextabhängige Grammatik-Datei
enthaltenden Kennzeichnungen wäre
es möglich,
der ASR-Maschine 6 eine Anweisung zu geben, welche Grammatik-
oder Vokabular-Datei zu laden ist. Dadurch kann eine höhere Flexibilität zur Verfügung gestellt
und kann eine Erkennung genauer gemacht werden, da die ASR-Maschine 6 auf
den Kontext des Netzwerkanwendungsservers feinabgestimmt ist. Nachfolgend
ist ein Beispiel für
eine derartige Kennzeichnung dargestellt:
<STATE="Lesen" LOADGRAMMAR="URL=ftp://hs.gh.com/Reademail.gmr"
"LOADVOCABULRRY= „URL=ftp://hs.gh.com/Reademail.vcb"
COMMANDS="Nächster",
NEXTSTATE="Lesen", <PREV>, NEXTSTATE=„Lesen", <QUIT>, NEXTSTATE="Hauptmenü">;
-
2 zeigt
ein Flussdiagramm eines Beispiels für eine Spracherkennungsverarbeitung,
wie sie bei dem bevorzugten Ausführungsbeispiel
ausgeführt
wird.
-
Zu Beginn lädt die ASR-Maschine 6 eine
entsprechende ASD-Datei
von dem zu verbindenden Netzwerkanwendungsserver 5 (S101).
In der geladenen ASD-Datei wird die ASR-Maschine angewiesen, eine
zustandsabhängige
Grammatik-Datei zu laden, d. h „Read Email.gmr" wenn der
Netzwerkanwendungsserver 5 den Zustand „Lesen" eingibt. Alternativ
kann die ASR-Maschine 6 von dem Netzwerkanwendungsserver 5 eine allgemeine
Grammatik-Datei laden (S102).
-
Auf der Grundlage der Grammatik-Datei
werden dann für
eine Spracherkennung gültige
Textbefehle bestimmt (S103). Im Falle einer zustandsabhängigen Grammatik-Datei
werden die in der geladenen Grammatik-Datei definierten Befehle
als gültige
Befehle für
die Spracherkennung bestimmt. Im Falle einer allgemeinen Grammatik-Datei
werden die gültigen
Befehle von der allgemeinen Grammatik-Datei gemäß einer in der ASD-Datei zur
Verfügung
gestellten entsprechenden Information ausgewählt. Dementsprechend werden
nur die bestimmten gültigen
Befehle bei diesem Zustand zugelassen oder zumindest bis eine verschiedene
Grammatik-Datei geladen wird.
-
Danach wird ein Sprachbefehl von
der Mobilstation 1 empfangen (S104) und es wird
für den
empfangenen Sprachbefehl eine Spracherkennung durchgeführt (S105).
Der Textbefehl wird von der Spracherkennungsverarbeitung von dem
empfangenen Sprachbefehl abgeleitet und dann mit den bestimmten
gültigen Textbefehlen
geprüft
(S106).
-
Falls bei Schritt S107 ein
gültiger
Befehl bestimmt wird, wird der Textbefehl direkt dem Netzwerkanwendungsserver 5 oder
der Mobilstation 1 zugeführt (S108). Ansonsten
wird eine Fehlermeldung durchgeführt, um
die Mobilstation über
den fehlerhaften Sprachbefehl zu informieren (S109).
-
Danach bezieht sich die ASR-Maschine 6 auf
die in der ASD-Datei definierten Zustandsübergangsregeln und be stimmt,
ob der zugeführte
Befehl zu einem Zustandswechsel des Netzwerkanwendungsservers 5 führt (S110).
Wurde kein Zustandswechsel bestimmt, kehrt die Verarbeitung zu Schritt S104 zurück, um einen weiteren
Sprachbefehl zu empfangen und, wenn erforderlich, Spracherkennung
der anderen empfangenen Sprachbefehle durchzuführen.
-
Wurde ein Zustandswechsel bestimmt,
kehrt die Verarbeitung zu Schritt S103 zurück und die
ASR-Maschine 6 bezieht sich auf die ASD-Datei, um eine
neue Gruppe von gültigen
Textbefehlen zu bestimmen. Dies kann entweder durch Laden einer
neuen zustandsabhängigen
Grammatik-Datei
gemäß einer
von der ASD-Datei zur Verfügung
gestellten Anweisung erzielt werden, oder durch Auswählen von
neuen gültigen
Befehlen von der allgemeinen Grammatik-Datei auf der Grundlage einer
entsprechenden Information in der ASD-Datei. Nachfolgend wird bei
Schritt 104 ein neuer Sprachbefehl empfangen und die Spracherkennung wird
bei Schritt 105 fortgesetzt.
-
Es ist ein wichtiger Aspekt, dass
es für
DSR-Typ-Anwendungen notwendig ist ein Standardverfahren aufzuweisen,
das anwendungsspezifische Merkmale an die ASR-Maschine 6 weiterleitet,
da die ASR-Maschine 6 eine ASR-Quelle zum allgemeinen Zweck
ist und jede Netzwerkanwendung in der Lage sein sollte, die ASR-Merkmale
durch Herstellen von Zustandsdefinition und Grammatik-Dateien zu
verwenden. Daher kann gemäß dem bevorzugten
Ausführungsbeispiel
die ASR-Maschine 6 während
der Laufzeit eine neue Grammatik-Datei
laden. Dies bedeutet, dass die ASR-Maschine 6 angewiesen
sein kann, nur die auf einen bestimmten Zustand/ Kontext des Netzwerkanwendungsservers 5 anwendbaren
Grammatikregeln zu laden, indem sie sich auf die ASD-Datei bezieht.
Dies verbessert in hohem Maße
die Erkennungsgenauigkeit und Effizienz der Verwendung der Netzwerkver bindungen.
-
Eine Ausführung des Netzwerkanwendungsservers 5 und
seiner Benutzerschnittstelle kann abhängig von der verwendeten Software-
und Hardwareplattform variieren. Die meisten Netzwerkanwendungsserver 5 können eine
HTTP-Schnittstelle (d. h. HTML), eine WAP (Wireless Application
Protocol – WML) – Schnittstelle oder
eine eigene Anwendungsschnittstelle (API) zur Verfügung stellen.
Ist die ASD-Datei
entweder auf WML (Wireless Markup Language) oder HTML (Hyper Text
Markup Language) eingerichtet, kann sie als eine universelle Definitionsdatei
für Anwendungszustände oder
Sprachbefehle bei einem beliebigen Typ einer auf einem Netzwerkanwendungsserver 5 laufenden
Anwendung verwendet werden. Unter Verwendung dieser ASD-Information
wäre die
ASR-Maschine 6 in der Lage, eine interne Repräsentation
der relevanten Netzwerkanwendungsserver-Anwendung aufzubauen. Diese
Repräsentation
oder das Modell kann dann verwendet werden, um die ASR-Maschine 6 in
Synchronisation mit den Anwendungszuständen des Netzwerkanwendungsservers 5 zu
halten.
-
Daher wird jeder ein Spracherkennungsmerkmal
zur Verfügung
stellender Netzwerkanwendungsserver 5 seine sprachspezifische(n)
WML-Karte(n) oder den HTML-Ort aufweisen. Als ein Beispiel für einen
täglichen
Nachrichtendienst kann die Zustandsdefinitionsinformation URL (Uniform
Resource Locator) eine Datei sein, wie beispielsweise:
//services.internal.net/dailynews/speechsettings
-
Daher muss das Sprachsteuersystem,
sei es, dass es sich in der Mobilstation 1 oder in einem
Netzwerkserver befindet, diese Datei von der gegebenen URL laden.
-
Dann kann außerdem, wenn der Netzwerkanwendungsserver 5 gegenwärtig ein
Server mit HTTP- oder WAP-Ursprung ist, die von diesem Server gesendete
erste WML-Karte oder HTML-Seite die vorgenannte spezifische URL
unter einer speziellen Kennzeichnung umfassen. Dadurch kann die
Mobilstation 1 informiert werden, dass diese Anwendung
eine Sprachsteuerung unterstützt
und dass die Datei bei dieser URL geladen werden muss, um die Spracherkennungsfähigkeit
zur Verfügung
zu stellen.
-
Folglich könnten die ASD-Dateien online
an die ASR-Maschine 6 als
ein Teil der von dem Netzwerkanwendungsserver gesendeten Standard-HTML-/-WML-Skripten
gesendet werden. Die ASR-Maschine 6 würde diese Skripten automatisch
interpretieren und mit dem Netzwerkanwendungsserver 5 Schritt
halten, um die Sprachbefehle effektiv zu verarbeiten und Funktionen
durchzuführen,
wie beispielsweise online Laden von Grammatik-Dateien usw. In diesem
Fall würde
sich die ASR-Maschine 6 direkt auf die in der LOADGRAMMAR-Kennzeichnung
spezifizierte URL beziehen, um die zugehörige Grammatik-Datei zu lesen.
-
Für
andere nicht WML-/HTML-Anwendungen des Netzwerkanwendungsservers 5 werden
zum Zeitpunkt des Setups, d. h. offline, ASD-Dateien von dem Netzwerkanwendungsserver 5 an
die ASR-Maschine 6 zugeführt. Diese ASD-Dateien müssen im
Einklang mit der zuvor beschriebenen HTML-ähnlichen Spezifikation hergestellt
werden und werden zusammen mit einer Grammatik-Datei auf einem WWW-Server
(beispielsweise www.asr.com) gespeichert, der auf der Hardware der
ASR-Maschine 6 läuft.
-
Zu Beginn einer Interaktion zwischen
der ASR-Maschine 6 und dem Netzwerkanwendungsserver 5 lädt die ASR-Maschine 6 zuerst
die ASD-Datei von dem Server www.asr.com und bildet die/das interne
Zustandsrepräsentation/Mdell
der Anwendung des Netzwerkanwendungsservers 5. Danach kann
die ASR-Maschine mit den Zuständen
des Netzwerkanwendungsservers 5 Schritt halten und verarbeitet
Sprachbefehle effizient und führt
Funktionen wie beispielsweise ein Laden während der Laufzeit von Grammatik-Dateien
aus. In diesem Fall enthält
die LOADGRAMMAR-Kennzeichnung die gesamte URL, die auf www.asr.com
zeigt.
-
Ist die Anwendung des Netzwerkanwendungsservers 5 beispielsweise
ein „Voice-Mail-Server"
mit einem Gerätenamen
vmsvr, dann würde
beispielsweise dies folgende URL Verwendung finden:
„http://www.asr.com/vmsvr/Grammar/vmail.gmr"
-
Die vorangehenden Anwendungen lagen
der Verwendung einer einzelnen ASR-Maschine 6 in dem Netzwerk 4 zu
Grunde. Hierbei ist die ASR-Maschine 6 festgelegten Hardware-
und Softwareplattformen zu Grunde gelegt. Von der Blickrichtung
der Mobilstationsanwendung her betrachtet, behandelt diese universelle ASR-Maschine 6 die
ASR-Anforderungen und Antworten mit den entsprechenden Textbefehlen.
-
Für
den Fall jedoch, dass die ASR-Maschine 6 auf einer hardware-
und software-unabhängigen
Plattform wie beispielsweise Java mit dem JSAPI basiert (Java-Sprache
API, d. h. eine Standard-API, die zur Zeit in der Entwicklung ist
und eine gemeinsame API für
ASR-Maschinen von unterschiedlichen Anbietern zur Verfügung stellt),
können
die Funktionen der ASD-Datei noch weiter ausgedehnt werden. In diesem
Fall kann eine Flexibilität
der Auswahl einer erforderlichen Audioverarbeitungs-Hardware und
eine anbieterspezifische ASR-Maschine 6 in Abhängigkeit
von der Anwendung des Netzwerkanwendungsservers 5 zur Verfügung gestellt
werden. Das bedeutet, dass eine logische ASR-Maschine mit der anbieterspezifischen
physischen ASR-Maschine 6 auf
der Grundlage der Anwendungsanforderungen des Netzwerkanwendungsservers 5 derart
verbunden werden kann, dass sogar kundenspezifische Hardware zur
Audioverarbeitung Verwendung finden kann. Die entsprechenden optionalen
Parameter können
in der ASR-Datei unter Verwendung zusätzlicher Kennzeichnungen definiert
werden.
-
Nachfolgend wird ein Beispiel einer
Ausführung
der ASD-Datei bei
einer WAP-Anwendung beschrieben, die von Betreibern verwendet werden
kann, um ihre bestehenden Dienstleistungsangebote zu verbessern.
Bei den vorangehenden Beispielen wurde die ASD-Datei von dem ASR-Server
oder der -Maschine 6 verwendet, um eine kontextbasierende
Spracherkennung durchzuführen.
Bei diesem Beispiel, wie in 3 gezeigt,
wurde die ASD-Datei von einem verschiedenen Anwendungsserver verwendet,
d. h. dem WTA-Server (Wireless
Telephony Application-Server) 7 in dem WAP, um ähnliche
Aufgaben durchzuführen.
Bei diesem Fall wird die Verwendung von WAP-fähigen Mobiltelefonen oder Stationen 1 angenommen.
-
Die WAP-fähige Mobilstation 1 kann
den gesamten WAP-Stapel
installiert haben und betreibt die (nachfolgend als WAE = Wireless
Application Environment bezeichnete) drahtlose Anwendungsumgebung. Der
WTA-Server 7 verfügt über die
Fähigkeit,
die Dienste des Netzwerks 4 zu steuern, welches in diesem
Fall ein Standard-Mobilnetzwerk ist. Der WTA-Server 7 agiert
als ein prinzipieller Inhaltsgenerator. Der Inhalt kann an den Kunden
angepasst werden und zu dem Klienten heruntergeladen werden, welcher
eine Mobilstation 1 ist, auf der eine WAP-Software läuft. Der
WTA-Server 7 könnte
auch Anrufsteuerfunktionen wie beispielsweise Informieren der Mobilstation 1 durch WTA-Ereignisse über Details
hereinkommender Anrufe durchführen.
-
Zudem steht ein netzwerkbasierender
ASR-Server 6 zur Verfügung,
der einer Anwendung ermöglicht, um
auf der Grundlage von Parametern wie beispielsweise ID/Adresse der
Anwendung, MSISDN, Sprachcodiertyp, Grammatik-Datei-ID (zum Auswählen einer
geeigneten Grammatikregel) und anderen optionalen Parametern mit
dem Sprachserver zu verbinden. Außerdem kann der ASR-Server 6 über die
Fähigkeit
verfügen,
einen hinausgehenden Anruf zu einer gegebenen MSISDN-Nummer durchzuführen, wobei
der ASR-Server 6 die empfangene Audioeingabe mit einem
PCM, CEP oder anderen Format extrahiert, die Audioeingabe an eine
Spracherkennungsmaschine zuführt
und den erkannten Text erlangt, und den Text an die ID/Adresse der
anrufenden Anwendung sendet. Der WTA-Server 7 prüft dann
die Gültigkeit
des Textes und kann auch den ASR-Server 6 steuern, um Grammatik-Dateien
usw. zu laden.
-
Jeder Netzwerkanwendungsserver 5 mit
einer Sprachschnittstelle stellt dem WTA-Server 7 eine ASD-Datei
zusammen mit einem grundlegenden WML-Kartenstapel, d. h. WML-Dokument,
für diesen
Dienst zur Verfügung.
Der WTA-Server 7 lädt
die ASD-Datei und kann die an die Mobilstation 1 gesendete
WML auf der Grundlage der ASD-Datei-Einstellungen ändern. Auf
der Grundlage der ASD-Datei werden Audiofunktionen der Mobilstation 1 und
Einstellungen des ASR-Servers 6 in
Abhängigkeit
von dem Anwendungskontext gesteuert.
-
Bei diesem Beispiel kann die ASD-Datei
Attribute wie beispielsweise eine für eine aktuelle Anwendung zu
verwendende ASR-Maschine, einen von der ASR-Maschine unterstützten Codiertyp,
der bei der aktuellen sprachbefähig ten
Anwendung Verwendung findet, eine zu verwendende Default-Grammatik-Datei
(Dateiname), ein Default-Vokabular (Dateiname oder Wörter) und
Zustände
der aktuellen Anwendung , d. h. eine Menühierarchie definieren. Jedes
Menü stellt
Spezifikationen für
von dem Menü und
entsprechenden NEXT-Zuständen
unterstützte
Befehle, neue Grammatikregeln und Vokabularien, die zuvor eingestellte
Werte überschreiben
können,
und Parameter zur Verfügung,
die spezifizieren, ob die aktuelle Anwendung ein Mikrophon oder einen
Lautsprecher der Mobilstation 1 erfordert, der ein- oder
ausgeschaltet ist.
-
Nachfolgend wird die Operation des
WAP-basierenden Beispiels auf der Grundlage einer Wetterdienstanwendung
und einer Voicemail-Dienstanwendung beschrieben.
-
Wetterdienstanwendung:
-
Der Dienstanbieter (oder Betreiber)
stellt einen Wetterdienst für
seine mobilen Teilnehmer zur Verfügung und bietet den Dienst über eine
Sprachschnittstelle an. Der Betreiber hat den ASR-Server 6 in
seinem Netzwerk 4 installiert und beabsichtigt diesen ASR-Server
zusammen mit dem WTA-Server 7 zu verwenden, um den Wetterdienst
mit einer Sprachschnittstelle zur Verfügung zu stellen.
-
In diesem Fall aktiviert der Benutzer
der Mobilstation 1 ein Wettermenü, das bereits zur Verwendung der
Sprachschnittstelle ausgelegt ist. Diese Anforderung wird von der
WAE an den WTA-Server 7 gesendet. Dann sendet der WTA-Server 7 einen
Stapel von WML-Karten, die von dem entsprechenden Netzwerkanwendungsserver 5 im
voraus geladen wurden und sich auf den Wetterdienst beziehen, an
die Mobilstation 1. An dieser Stelle geht die WAE-Software
der Mobilstation 1 in eine Hör-Betriebsart über, um
einen ankommenden Anruf von dem ASR-Server 6 des Netzwerks 4 zu
beantworten. Danach sendet der WTA-Server 7 eine Anforderung
für eine
ASR-Sitzung an den ASR-Server 6, einschließlich eines
MSISDN, einer zugewiesenen Sitzungs-ID mit dem WTA-Server 7 und
auch einer ID einer zu verwendenden Grammatikregel. Der Grammatikregelname
wird aus der ASD-Datei abgeleitet, die zuvor von dem entsprechenden
Netzwerkanwendungsserver 5 für den Wetterdienst geladen
wurde.
-
Der ASR-Server 6 stellt
die erforderlichen Betriebsmittel sicher, d. h. die Herauswählanschlüsse und ASR-Sitzungen
auf dem Sprachgerät
sind verfügbar,
und sendet eine Bestätigung
an den WTA-Server 7. Nachfolgend ruft der ASR-Server 6 das
MSISDN an und das Netzwerk 4 sendet eine Anrufanzeige an
die Mobilstation 1. Die WAE-Software der Mobilstation 1 beantwortet
automatisch den Anruf und es wird eine Sprachverbindung zwischen
dem ASR-Server 6 und der Mobilstation 1 aufgebaut.
Tatsächlich
wird die vorgenannte Anrufsignalisierung zwischen der Mobilstation 1 und
dem ASR-Server 6 über
den WTA-Server 7 durchgeführt.
-
Gemäß der von dem WTA-Server 7 erlangten
anwendungsabhängigen
WML deaktiviert die Mobilstation 1 ihren Sprecher und sendet
alle über
sein Mikrophon empfangene Audioeingabe über die aufgebaute Sprachverbindung.
Die Audioeingabe kann von der WAE-Software gemäß einem erforderlichen Format,
d. h. PCM, CEP oder dergleichen codiert werden. Der ASR-Server 6 wandelt
die empfangene Audioeingabe in Text um und sendet den erlangten
Text an den WTA-Server 7.
-
Seitdem die Wettersitzung gestartet
wurde, hat der WTA-Server 7 die
entsprechende ASD-Datei geladen und befindet sich nun in einer Position,
um den empfangenen Text mit den gültigen kontextabhängigen Befehlen
zu vergleichen. Wurde ein gültiger
Befehl, beispieleweise „London
UK" empfangen, fordert der WTA-Server 7 die WML/HTML für London
UK von dem den Wetterdienst zur Verfügung stellenden Netzwerkanwendungsserver 5 an.
Der Netzwerkanwendungsserver 5 antwortet mit dem angeforderten
Wetterbericht für London
und der WTA-Server 7 führt
den WML-Kartenstapel
für das
Londonwetter der Mobilstation 1 zu. Für den Fall, dass Grammatikregeln
oder Vokabular in der Gruppe der WML-Karten geändert ist, enthält die ASD-Datei
eine entsprechende Information und der WTA-Server 7 sendet
die für
das Londonwetter zu verwendenden neuen Grammatikregeln oder das
Vokabular an den ASR-Server 6. Folglich ist der ASR-Server 6 dafür ausgelegt,
die für
die neuen WML-Karten erforderliche neue Grammatik oder das Vokabular
zu verwenden.
-
Danach wird der von dem ASR-Server 6 aus
den von der Mobilstation 1 empfangene Text an den WTA-Server 7 gesendet,
der seine Gültigkeit überprüft. Für den Fall,
dass ein gültiger
Befehl, d. h. „Heathrow", empfangen
wurde, fordert der WTA-Server 7 die Wetterinfo für London
Heathrow an und der Netzwerkanwendungsserver 5 antwortet
mit dem angeforderten Wetterbericht. Dann wird der WML-Kartenstapel
für das
Wetter von London Heathrow von dem WTA-Server 7 der Mobilstation 1 zugeführt.
-
Voicemail-Dienstanwendung:
-
In diesem Fall stellt der Dienstanbieter
(oder -betreiber) einen Voicemail-Dienst mit einer Sprachschnittstelle
für seine
mobilen Teilnehmer zur Verfügung.
-
Der den Voicemail-Dienst zur Verfügung stellende
Netzwerkanwendungsserver 5 sendet eine neue Voicemail-Mitteilung an
den WTA-Server 7. Dann sendet der WTA-Server 7 einen
Stapel von WML-Karten, der zuvor von dem Netzwerkanwendungsserver 5 geladen
wurde und sich auf den Voicemail-Dienst
bezieht, an die Mobilstation 1. An dieser Stelle geht die
WAE-Software der Mobilstation 1 in eine Hör-Betriebsart über, um einen
hereinkommenden Anruf von dem ASR-Server 6 des Netzwerks 4 zu
beantworten. Dann sendet die Mobilstation 1 an den WTA-Server
7 eine ASR-Anforderung, die anzeigt, dass der Benutzer die Sprachschnittstelle
zu dem Voicemail-Dienst hin betreiben will. An dieser Stelle weist
der WTA-Server 7 das Netzwerk 4 an, alle Anweisungen über hereinkommende
Anrufe an den WTA-Server 7 zu
senden.
-
Danach sendet der WTA-Server 7 eine
Anforderung für
eine ASR-Sitzung an den ASR-Server 6, einschließlich eines
MSISDN, einer zugewiesenen Sitzungs-ID mit dem WTA-Server 7 und
auch einer ID einer zu verwendenden Grammatikregel. Der Grammatikregelname
wird aus der zuvor von dem entsprechenden Netzwerkanwendungsserver 5 für den Voicemail-Dienst geladenen
ASD-Datei abgeleitet.
-
Der ASR-Server 6 stellt
die erforderlichen Betriebsmittel sicher, d. h. die Herauswählanschlüsse und ASR-Sitzungen
auf der Sprachmaschine sind verfügbar,
und sendet eine Bestätigung
an den WTA-Server 7. Nachfolgend ruft der ASR-Server 6 das
MSISDN an und das Netzwerk 4 sendet eine Anrufanzeige an
die Mobilstation 1. Die WAE-Software der Mobilstation 1 beantwortet
automatisch den Anruf und es wird eine Sprachverbindung zwischen
dem ASR-Server 6 und der Mobilstation 1 aufgebaut.
-
Gemäß der von dem WTA-Server 7 erlangten
anwendungsabhängigen
WML aktiviert die Mobilstation 1 sowohl ihren Lautsprecher
als auch ihr Mikrophon und sendet alle über sein Mikrophon empfangene
Audioeingabe über
die aufgebaute Sprachverbindung. Die Audioeingabe kann von der WAE-Software
gemäß einem erforderlichen
Format, d. h. PCM, CEP oder dergleichen codiert werden. Der ASR-Server 6 wandelt
die empfangene Audioeingabe in Text um.
-
Nun sendet der WTA-Server 7 einen
Befehl, um das gegebene MSISDN zu dem Netzwerkanwendungsserver 5 anzurufen,
der den Voicemail-Dienst zur Verfügung stellt, der dann das MSISDN
anruft. In diesem Fall wird ein Mehrparteienanruf eingerichtet,
da der ASR-Server 6 bei der Mobilstation 1 eine
Spracheingabe erfordert und der Netzwerkanwendungsserver 5 der
Mobilstation 1 Audio senden muss. Diese beiden Dienste
befinden sich in verschiedenen Geräten und können keine beliebige API (Application
Programming Interface) oder Verbindung miteinander haben. Da beide
Dienste auf die Mobilstation 1 zugreifen müssen, ist ein
Mehrparteienanruf erforderlich, der im folgenden erläutert wird.
-
Bei der Einrichtung eines Mehrparteienanrufs
empfängt
der WTA-Server 7 eine Anrufanzeige für das MSISDN und sendet eine
Anrufanzeige-Ereignismitteilung mit speziellen Parametern an die
Mobilstation 1, um ein Hinzufügen des Anrufs zu einem Mehrparteienanruf
anzuweisen. Die Mobilstation 1 sendet eine Anrufhaltemitteilung,
um das Netzwerk 4 anzuweisen, den Anruf 1 zu halten,
d. h. den Anruf von dem ASR-Server 6 an die Mobilstation 1.
Dann nimmt die Mobilstation 1 den Anruf 2 an,
d. h. den Anruf von dem Netzwerkanwendungsserver 5 an die
Mobilstation 1, und es wird eine Sprachverbindung aufgebaut.
Danach weist die Mobilstation 1 den Aufbau eines Mehrparteienanrufs
derart an, d. h. mit Anruf 1 und 2, dass nun sowohl der ASR-Server 6 als
auch der Netzwerkanwendungsserver 5 mit der Mobilstation 1 verbunden
sind.
-
Seitdem die Voicemail-Sitzung gestartet
wurde, hat der WTA-Server 7 die entsprechende ASD-Datei für Voicemail
geladen und befindet sich nun in einer Position, um den empfangenen
Text mit den gültigen
kontextabhängigen
Befehlen zu vergleichen. Wurde ein gültiger Befehl, d. h. „Anthony"
empfangen, fordert der WTA-Server 7 den den Voicemail-Dienst
zur Verfügung
stellenden Netzwerkanwendungsserver 5 auf, die Mitteilung „Anthony"
abzuspielen. Dementsprechend führt
der Netzwerkanwendungsserver 5 eine Wiedergabe der Mitteilung „Anthony"
durch.
-
Es ist zu verstehen, dass die vorangehende
Beschreibung und die beiliegende Zeichnung nur beabsichtigen die
Erfindung zu veranschaulichen. Insbesondere ist die Erfindung nicht
auf Spracherkennung oder Steuersysteme für Mobiltelefone beschränkt, sondern
kann auch in einem beliebigen Datennetzwerk Verwendung finden. Folglich
können
die Vorrichtung und das Verfahren gemäß der Erfindung innerhalb des
Geltungsbereichs der anhängenden
Ansprüche
variieren.
-
Es wird ein Sprachsteuersystem und
ein -verfahren beschrieben, bei denen von einem Netzwerkanwendungsserver
Zustandsdefinitionsinformationen geladen werden. Die Zustandsdefinitionsinformationen
definieren mögliche
Zustände
des Netzwerkanwendungsservers und werden zum Bestimmen einer Gruppe
von gültigen
Befehlen des Netzwerkanwendungsservers derart verwendet, dass eine
Gültigkeit
eines von einem Umwandeln eines Eingabesprachbefehls erlangten Textbefehls
durch Vergleichen des Textbefehls mit der bestimmten Gruppe von
gültigen
Befehlen geprüft
werden kann. Dadurch kann eine Übertragung
fehlerhafter Textbefehle an den Netzwerkanwendungsserver verhindert werden,
um die Gesamtverarbeifungszeit und Antwortverzögerungen zu reduzieren.