DE69814181T2

DE69814181T2 - Verfahren und vorrichtung zur konfiguration eines spracherkennungssystems

Info

Publication number: DE69814181T2
Application number: DE69814181T
Authority: DE
Inventors: Anthony Rodrigo
Original assignee: Nokia Oyj
Current assignee: Nokia Oyj
Priority date: 1998-09-22
Filing date: 1998-09-22
Publication date: 2004-03-04
Anticipated expiration: 2018-09-23
Also published as: ES2198758T3; DE69814181D1; JP4067276B2; US7212970B2; JP2002525689A; US20010047258A1; EP1116373B1; ATE239336T1; WO2000017854A1; AU1025399A; EP1116373A1

Description

Gebiet der Erfindung
Die Erfindung bezieht sich auf ein Sprachsteuersystem und ein -verfahren für ein Telekommunikaaionsnetzwerk, wobei ein Netzwerkanwendungsserver auf der Grundlage eines Sprachbefehls gesteuert wird.
Hintergrund der Erfindung
Bei verbreiteten Spracherkennungssystemen (DSR-Systemen) kann der Benutzer eine Anwendung auf der Grundlage von gesprochenen Steuermitteilungen steuern, die einer automatischen Spracherkennungseinrichtung (ASR-Einrichtung) oder einer -Maschine zugeführt werden. Die gesprochenen Steuermitteilungen werden von der ASR-Maschine in Textbefehle umgewandelt, die an die auf einem zugehörigen Netzwerkanwendungsserver (NAS) laufende Anwendung oder an einen Teilnehmeranschluss wie eine Mobilstation (MS) gesendet werden, von denen die gesprochenen Steuermitteilungen empfangen worden sind.
Die Grundfunktion eines verbreiteten Spracherkennungssystems in dem Kontext von Mobilanwendungen ist die Fähigkeit einer Mobilstation, automatische Spracherkennungsmerkmale mit der Hilfe einer Hochleistungs-ASR-Maschine oder eines ASR-Servers zur Verfügung zu stellen, die in dem Netzwerk bereitstehen. Daher ist die Grundfunktion der Mobilstation die Übertragung eines Eingangssprachbefehls an diese Netzwerk-ASR-Maschine, um die Erkennungsaufgaben durchzuführen und die Ergebnisse zurückzugeben. Das Ergebnis kann ein erkanntes Word oder Befehl in Textformat sein. Die Mobilstation kann dann den Text verwenden, um die notwendigen Funktionen durchzuführen.
EP-A-382670 offenbart ein Beispiel der Erzeugung von Anwendungen mit Sprachausgabe, die auf einer zustandsangesteuerten Maschine basieren und typischerweise durch eine Berührungston-Telefontastatur gesteuert werden.
Es ist eine weitere Funktion eines derartigen Systems, die Mobilstation mit Zugang zu anderen Anwendungsservern, d. h. Internet WWW (Weltweites Netzwerk), E-Mail, Voicemail bzw. Sprachpost und dergleichen über Sprachbefehle zur Verfügung zu stellen. Daher ist der Benutzer mit einem derartigen Mobilstationstyp in der Lage, sich mit diesen Anwendungsservern zu verbinden und Sprachbefehle auszugeben.
Um dies zu erreichen, überträgt die Mobilstation ein Sprachsignal (Audio) an die ASR-Maschine. Die ASR-Maschine wird eine Spracherkennung durchführen, um zugehörige Textbefehle zu erlangen. Diese Textbefehle werden an die Mobilstation zurückgegeben. Die Mobilstation verwendet dann diese Textbefehle, um einen zugehörigen Netzwerkanwendungsserver (NAS) zu steuern, der ein beliebiger Server in einem Datennetzwerk wie das Internet sein kann, das verschiedenste Dienste wie WWW, E-Mail-Leser, Voicemail usw. zur Verfügung stellt.
Da die ASR-Maschine normalerweise auf einer Plattform läuft, die auch andere Anwendungen laufen lassen kann oder andere Aufgaben durchführen kann, ist es möglich, an die ASR-Maschine andere Funktionen zu transferieren, wie beispielsweise Verarbeiten des erlangten Textbefehls, um die erforderliche Operation zu ermitteln und den relevanten Server zu kontaktieren. Dann überträgt sie die von dem kontaktierten Netzwerkanwendungsserver wiedergewonnenen Informationen zurück an die Mobilstation. Bei dieser Situation empfängt die Mobilstation eine Spracheingabe, sendet sie an eine Netzwerk-ASR-Maschine, die Spracherkennung durchführt, führt notwendige Funktionen auf der Grundlage der Sprachbefehle aus und sendet die wiedergewonnenen Informationen oder Ergebnisse an die Mobilstation.
Nachfolgend werden Beispiele für die vorangehenden Fälle beschrieben:
Beispiel 1:
Der Benutzer könnte sagen „John Smith anrufen". In diesem Fall wandelt die ASR-Maschine die Sprache in Text um und gibt den Text „John Smith anrufen" an die Mobilstation zurück, wo die Anwendungssoftware in der Mobilstation dann die Telefonnummer für John Smith wiedergewinnt und eine Anrufoperation durchführt.
Beispiel 2:
Der Sprachbefehl bei der Mobilstation könnte sein „Rennsportinformationen". In diesem. Fall wandelt die ASR-Maschine die Sprache in Text um und gibt den Text „Rennsportinformationen" an die Mobilstation zurück. Folglich erkennt die Anwendungssoftware der Mobilstation, dass der Benutzer einen Zugang zu dem Netzwerkserver wünscht, der Pferderennsportinformationen zur Verfügung stellt. Dementsprechend baut die Mobilstation eine Verbindung mit dem relevanten Server auf, gewinnt die jüngsten Rennergebnisse und zeigt die Ergebnisse auf einer Anzeige der Mobilstation an.
Beispiel 3:
Ein in die Mobilstation eingegebener Sprachbefehl könnte sein „E-Mail lesen". In diesem Fall wandelt die ASR-Maschine die Sprache in Text um und gibt den Text „E-Mail lesen" an die Mobilstation zurück. Folglich erkennt die Anwendungssoftware der Mobilstation, dass der Benutzer einen Zugang zu dem Netzwerkserver wünscht, der einen Zugang zu der E-Mailbox des Benutzers zur Verfügung stellt. In diesem Fall sendet die Mobilstation an die ASR-Maschine einen Befehl, um mit dem relevanten Έ-Mailanwendungsserver eine Verbindung aufzubauen. Nun gibt die ASR-Maschine die erkannte Sprache nicht zurück, sondern verarbeitet die umgewandelte Sprache weiter. Für den Fall, dass der Sprachbefehl „Mitteilung 1" war, empfängt die ASR-Maschine die Sprache und übersetzt sie in einen Textbefehl „Mitteilung 1" und überträgt diesen Textbefehl an den E-Mailanwendungsserver. Wiederum gibt der E-Mailanwendungsserver den Text von Mitteilung 1 an die ASR-Maschine zurück. Dann wird die ASR-Maschine diesen Text an die Mobilstation übertragen. Der Dialog kann sich mit Mitteilung 2, 3 usw. fortsetzen, wobei jeder Sprachbefehl von dem Benutzer von der ASR-Maschine behandelt wird, bis der Benutzer einen Beendigungsbefehl ausgibt oder bis von der Mobilstation eine Mitteilung zur Beendigung der Sitzung empfangen wird.
Bei den vorangehenden Beispielen 1 und 2 besteht die einzige Funktion der ASR-Maschine darin, Sprache in Text umzuwandeln und die Ergebnisse zur weiteren Verarbeitung zurück zu der Mobilstation zu senden. Daher wird der Netzwerkanwendungsserver Befehle direkt von der Mobilstation empfangen. Jedoch verarbeitet bei dem vorangehenden Beispiel 3 die ASR-Maschine selbst die umgewandelte Sprache und greift direkt auf den relevanten Netzwerkanwendungsserver zu, um die Ergebnisse von dem Netzwerkanwendungsserver zu empfangen und die Ergebnisse zurück an die Mobilstation zu leiten.
Folglich ist die Mobilstation oder die ASR-Maschine gefordert, mit dem Netzwerkanwendungsserver zu kommunizieren, um Benutzerbefehle an den Netzwerkanwendungsserver auszugeben und von dem Netzwerkanwendungsserver Antworten zu empfangen.
Jedoch stellt sich in beiden Fällen das folgende Problem. Es sei angenommen, dass die zu lesende E-Mailanwendung Befehle wie A {Mitteilung 1, Mitteilung 2, ... Mitteilung N und Beenden} auf dem Menü der höchsten Ebene unterstützt. Für den Fall, dass der Benutzer bereits eine Mitteilung liest, sind die Befehle in diesem Kontext B {Löschen, Beenden, Nächste Mitteilung}. Daher wird der Netzwerkanwendungsserver mit einer Fehlermeldung antworten, wenn sich der Benutzer in dem Menü der höchsten Ebene befindet und einen anderen Sprachbefehl als diejenigen aus der Befehlsgruppe A eingibt. Auch wenn der Benutzer einen Sprachbefehl aus der Befehlsgruppe B ausgibt, wird dieser Befehl immer noch ein fehlerhafter Befehl sein, da der Kontext oder Zustand des Netzwerkanwendungsservers verschieden ist.
Außerdem könnten ebenso für den Kontext irrelevante Befehle aufgrund von Rauschen und dergleichen in die Mobilstation eingegeben werden. Alle diese Sprachsignale werden von der ASR-Maschine in einen Text umgewandelt und an den Netzwerkanwendungsserver gesendet, der mit Fehlermeldungen antworten wird.
Da derartige Szenarien häufig auftreten können, wird die Verarbeitung von gültigen Befehlen durch den Netzwerkanwendungsserver verzögert sein, da wertvolle Netzwerkbandbreiten und Anwendungsserver-Verarbeitungszeit zum Antworten auf derartige ungültige Befehle erforderlich ist.
Zudem führt das vorangehende Problem zu einer Verzögerung beim Ansprechen der ASR-Maschine auf eine Eingangssprachmitteilung, da sie auf Antworten von dem Netzwerkanwendungsserver warten muss.
Dementsprechend wird die Gesamtantwortzeit bei der Mobilstation derart erhöht werden, das der Benutzer den Befehl wiederholen oder den Befehl ändern kann, was die Verzögerungen noch weiter erhöht und zu einem schlechten Leistungsverhalten des Systems führt.
Zusammenfassung der Erfindung
Es ist eine Aufgabe der Erfindung ein Sprachsteuersystem und ein -verfahren mit einer verkürzten Gesamtantwortzeit zur Verfügung zu stellen.
Diese Aufgabe wird durch ein Sprachsteuersystem für ein Telekommunikationsnetzwerk gelöst, mit:
einer Ladeeinrichtung zum Laden von Zustandsdefinitionsinformationen von einem Netzwerkanwendungsserver, wobei die Zustandsdefinitionsinformationen alle möglichen Zustände des Netzwerkanwendungsservers definieren;
einer Bestimmungseinrichtung zur Bestimmung einer Gruppe von gültigen Befehlen für den Netzwerkanwendungsserver auf der Grundlage der Zustandsdefinitionsinformationen; und
einer Prüfeinrichtung zum Prüfen einer Gültigkeit eines Textbefehls, der durch Umwandeln eines Eingangssprachbefehls erlangt wird, um zur Steuerung des Netzwerkanwendungsservers verwendet zu werden, indem der Textbefehl mit der vorbestimmten Gruppe von gültigen Befehlen verglichen wird.
Zudem wird die vorangehende Aufgabe durch ein Sprachsteuerverfahren für ein Telekommunikationsnetzwerk gelöst, mit den Schritten zum:
Laden von Zustandsdefinitionsinformationen von einer Netzwerksanwendung, wobei die Zustandsdefinitionsinformationen alle möglichen Zustände der Netzwerksanwendung definieren;
Bestimmen einer Gruppe von gültigen Befehlen für die Netzwerksanwendung auf der Grundlage der Zustandsdefinitionsinformationen; und
Prüfen einer Gültigkeit eines Textbefehls, der durch Umwandeln eines Sprachbefehls erlangt wird, um zur Steuerung der Netzwerksanwendung verwendet zu werden, indem der Textbefehl mit der bestimmten Gruppe von gültigen Befehlen verglichen wird.
Dementsprechend kann, da eine Gruppe von gültigen Befehlen auf der Grundlage von von dem Netzwerkanwendungsserver zur Verfügung gestellten Zustandsdefinitionsinformationen bestimmt wird, die Gültigkeit eines erlangten Textbefehls vor Übertragen des Textbefehls an den Netzwerkanwendungsserver geprüft werden. Folglich kann die Übertragung von fehlerhaften Textmitteilungen verhindert werden, um zugehörige Verzögerungen und eine Verschwendung von Verarbeitungszeit des Netzwerkanwendungsserver zu verhindern.
Vorzugsweise kann die Ladeeinrichtung dahingehend ausgestaltet sein, um Grammatik- und/oder Vokabelinformationen zu laden, die eine Gesamtgruppe von von dem Netzwerkanwendungsserver unterstützten gültigen Befehlen spezifiziert, wobei die Bestimmungseinrichtung dahingehend ausgestaltet sein kann, um die Gruppe von gültigen Befehlen auf der Grundlage der Gesamtgruppe von gültigen Befehlen und von in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformationen zu bestimmen.
Dadurch kann das Sprachsteuersystem mit den tatsächlichen Zuständen des Netzwerkanwendungsservers Schritt halten, indem. es sich auf Zustandsübergangsregeln bezieht, um die Gesamtgruppe von gültigen Befehlen auf diejenigen Befehle zu beschränken, die dem tatsächlichen Zustand des Netzwerkanwendungsservers entsprechen.
Alternativ kann die Bestimmungseinrichtung dahingehend ausgestaltet sein, um die Ladeeinrichtung zu veranlassen, eine zustandsabhängige Grammatik-Datei zu laden, die eine Gruppe von gültigen Befehlen für einen spezifischen Zustand des Netzwerkanwendungsservers definiert, wenn die Bestimmungseinrichtung auf der Grundlage von in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformationen einen Zustandswechsel bestimmt.
Folglich wird nur die Gruppe von auf einen besonderen Zustand des Netzwerkanwendungsservers anwendbaren gültigen Befehlen durch Bezugnahme auf die Zustandsübergangsinformationen geladen. Dadurch kann die Genauigkeit verbessert werden und Netzwerkverbindungen können effektiver verwendet werden.
Vorzugsweise kann das Netzwerksteuersystem eine Spracherkennungseinrichtung zur Umwandlung eines von einem Teilnehmeranschluss empfangenen Eingangssprachbefehls in den Textbefehl aufweisen, um dem Netzwerkanwendungsserver zugeführt zu werden. Folglich kann ein zentrales Sprachsteuersystem in dem Netzwerk zur Verfügung gestellt werden, auf das von individuellen Teilnehmeranschlüssen aus zugegriffen werden kann.
Im Falle der Verwendung eines (nachfolgend als WAP = Wireless Application Protocol bezeichneten) drahtlosen Anwendungsprotokolls bei einem mobilen Netzwerk, kann das Sprachsteuersystem bei einem (nachfolgend als WTA-Server = Wireless Telephony Application server bezeichneten) drahtlosen Telefonieanwendungsserver eingebaut sein, wobei der WTA-Server dahingehend ausgestaltet sein kann, um von einer Netzwerkspracherkennungseinrichtung den Textbefehl zu empfangen, um einen von einem Teilnehmeranschluss empfangenen Eingangssprachbefehl in den Textbefehl umzuwandeln. Dadurch können vorhandene WTA-Anwendungen mit einer optimierten Spracherkennung verbessert werden.
Als eine Alternative kann das Sprachsteuersystem ein Teilnehmeranschluss sein, der eine Eingabeeinrichtung zum Eingeben eines Sprachbefehls, eine Übertragungseinrichtung zum Übertragen des Sprachbefehls an eine Spracherkennungseinrichtung des Telekommunikationsnetzwerks, und eine Empfangseinrichtung zum Empfang des Textbefehls von der Spracherkennungseinrichtung aufweist, wobei die Übertragungseinrichtung dahingehend ausgestaltet ist, um den empfangenen Textbefehl an den Netzwerkanwendungsserver zu übertragen.
Folglich wird die Gültigkeitsüberprüfung des empfangenen Textbefehls bei dem Teilnehmeranschluss durchgeführt, beispielsweise der Mobilstation, bevor er an den Netzwerkanwendungsserver übertragen wird. Daher kann die Verarbeitungszeit bei dem Netzwerkanwendungsserver reduziert werden, da er nur gültige Befehle empfangen wird.
Die Zustandsdefinitionsinformationen können eine Datendatei wie beispielsweise eine WML-Datei (Wireless Markup Language file) oder eine HTML-Datei (Hyper Text Markup Language file) sein. Diese Datendatei kann online an das Sprachsteuersystem als ein Teil der von dem Netzwerkanwendungsserver gesandten Standardinformationen gesendet werden.
Außerdem können die Zustandsdefinitionsinformationen eine Ladeanweisung zum Laden der zustandsabhängigen Grammatik- und/oder Vokabular-Datei enthalten. Dadurch kann das Sprachsteuersystem die Ladeanweisung direkt zum Laden der spezifischen Gruppe von gültigen Befehlen für den Fall verwenden, dass eine Änderung des Zustands des Netzwerkanwendungsservers bestimmt wird.
Vorzugsweise können die Zustandsdefinitionsinformationen von dem Netzwerkanwendungsserver bei einer Setup-Zeit des Servers zur Verfügung gestellt werden.
Zudem können die Zustandsdefinitionsinformationen zusammen mit einem Befehlsgruppeninfo in einem Netzwerkserver gespeichert werden, der auf der Hardware des Sprachsteuersystems läuft.
Vorzugsweise kann das Sprachsteuersystem eine Vielzahl von anbieterspezifischen Spracherkennungseinrichtungen umfassen, wobei entsprechende Parameter für die Vielzahl von anbieterspezifischen Spracherkennungseinrichtungen in den Zustanddefinitionsinformationen definiert sind. Da durch kann ein universelles Sprachsteuersystem erlangt werden, das auf einer hardware- und software-unabhängigen Plattform basiert. Folglich kann abhängig von dem Netzwerkanwendungsserver eine erforderliche Audioverarbeitungshardware und eine anbieterspezifische Spracherkennungseinrichtung ausgewählt werden.
Weitere bevorzugte Entwicklungen der Erfindung sind in den abhängigen Ansprüchen definiert.
Kurze Beschreibung der Zeichnung
Nachfolgend wird die Erfindung auf der Grundlage eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf die beiliegende Zeichnung ausführlicher beschrieben. Es zeigen:
1 ein Blockschaltbild eines Telekommunikationsnetzwerks mit einem Sprachsteuersystem gemäß dem bevorzugten Ausführungsbeispiel der Erfindung;
2 ein Flussdiagramm eines Sprachsteuerverfahrens gemäß dem bevorzugten Ausführungsbeispiel der Erfindung; und
3 ein Blockschaltbild eines Telekommunikationsnetzwerks mit einem Sprachsteuersystem auf WAP-Grundlage gemäß dem bevorzugten Ausführungsbeispiel der Erfindung.
Beschreibung des bevorzugten Ausführungsbeispiels
In 1 ist ein Blockschaltbild eines Telekommunikationsnetzwerks mit dem Sprachsteuersystem gemäß dem bevor zugten Ausführungsbeispiel der Erfindung dargestellt. Gemäß 1 steht eine Mobilstation (MS) 1 mit einem Basisstations-Untersystem (BSS) 2 über Funk in Verbindung, das über ein mobiles Schaltzentrum (MSC) 3 mit einem Telekommunikationsnetzwerk 4 verbunden ist. Das Telekommunikationsnetzwerk 4 kann ein Datennetzwerk wie das Internet sein, das verschiedenste Dienste zur Verfügung stellt.
Zudem ist ein Netzwerkanwendungsserver (NAS) 5 mit dem Netzwerk 4 verbunden, um einen speziellen Dienst auf der Grundlage von entsprechenden Befehlen zur Verfügung zu stellen. Zusätzlich steht eine automatische Spracherkennungseinrichtung (ASR-Einrichtung) oder ASR-Maschine als eine zentrale Einrichtung zur Verfügung, um eine Spracheingabe an Teilnehmeranschlüssen wie der Mobilstation 1 zu ermöglichen.
Zum Verfeinern des Erkennungsprozesses und Erreichen von Erkennungsraten mit höherer Genauigkeit, finden in der ASR-Maschine 6 sprachspezifische Merkmale Anwendung. Um eine hohe Genauigkeit der Spracherkennung zu erreichen, muss die Anwendung auf einen erforderlichen Kontext feinabgestimmt werden. Dies wird durch Spezifizieren eines Vokabulars für die Anwendung und in dem Kontext der Anwendung gültige Grammatiken vorgenommen. Das Vokabular ist grundsätzlich eine Gruppe von von der ASR-Maschine 6 zu erkennenden Wörtern, beispielsweise Wörter wie Schließen, Lesen, Mitteilung, Orange, Stift, Stuhl, Beenden, Öffnen usw. Bei der ASR-Maschine 6 kann eine Einrichtung zum Spezifizieren der Grammatik für eine gegebene Anwendung zur Verfügung gestellt sein. Dies könnte durch eine regelbasierende Grammatik wie beispielsweise
allgemein bekannter <Befehl> = [<Höflich>] <Aktion>
<Objekt> (und <Objekt>)*;
<Aktion> = Lesen | Nächster | Löschen;
<Objekt> = Mitteilung | Gegenstand
<Höflich> = Bitte;
erzielt werden.
Bei der vorangehenden regelbasierenden Grammatik ist eine allgemein bekannte Regel, <Befehl>, spezifiziert, die von einem Benutzer gesprochen werden kann. Die Regel ist eine Kombination von Unterregeln <Aktion>, <Objekt> und <Höflich>, wobei die eckigen Klammern um <Höflich> eine Optionalität davon anzeigen. Daher würde die vorangehende Grammatik die folgenden Befehle unterstützen: „Mitteilung lesen", „Bitte Gegenstand und Mitteilung lesen" usw.
Bei befehlsbasierenden ASR-Anwendungen werden regelbasierende Grammatiken verwendet, um alle gesprochene Eingabe zu definieren, für deren Behandlung die Anwendung programmiert ist. Die regelbasierende Grammatik spezifiziert grundlegend alle gesprochenen Befehle (oder Befehlssyntax), die von einer Anwendung unterstützt werden. Im Falle eines E-Mail-Lesers enthält die Grammatik-Datei alle Befehle, die die E-Mail-Anwendung akzeptieren wird (z. B. Mitteilung 1, Mitteilung 2, ..., Mitteilung N, Beenden, Löschen und Nächste Mitteilung).
Die ASR-Maschine 6 lädt im Allgemeinen die zugehörige Grammatik-Datei vor dem Starten der Spracherkennung. Einige Anwendungen können sogar mehrere Grammatik-Dateien aufweisen, um verschiedene Kontexte einer Anwendung wie beispielsweise dem Netzwerkanwendungsserver 5 zu definieren, wobei die ASR-Maschine 6 gefordert ist, die kontextabhängige Grammatik-Datei während der Laufzeit zu laden.
Bei dem bevorzugten Ausführungsbeispiel sind eine Grammatik-Datei, eine Vokabular-Datei und eine Anwendungszustandsdefinitionsdatei (ASD-Datei) definiert. Daher erstellt jeder Netzwerkanwendungsserver 5 eine ASD-Datei, eine Grammatik-Datei und/oder eine Vokabular-Datei. Die Grammatik-Datei ist an die Anforderungen der ASR-Maschine 6 angepasst, wobei ASR-Maschinen 6 unterschiedlicher Anbieter unterschiedliche Grammatik-Dateiformate aufweisen können.
Die ASD-Datei ist eine Datei, die alle möglichen Zustände der Anwendung beschreibt, und wie zwischen Zuständen gesprungen wird, sowie die gültigen Zustände für jeden Zustand beschreibt. Folglich stellt die ASD-Datei eine Einrichtung zur Spezifizierung der kontextabhängigen Grammatik-Dateien und auch einen Vokabular-Dateinamen zur Verfügung. Dies ist ein wichtiges Merkmal, da eine gegebene Anwendung abhängig von dem Kontext verschiedene Grammatiken und/oder Vokabularien verwenden kann. Wird diese Information online auf die ASR-Maschine 6 geladen, kann die Spracherkennung und die Gesamtantwortzeit aufgrund der kleinen Gruppe von gültigen Befehlen und der resultierenden hohen Erkennungsgenauigkeit bemerkenswert verbessert werden.
Für den Fall, dass die ASD-Datei auf einer HTML (Hyper Text Markup Language) ähnlichen Syntax basiert, könnte sie wie folgt definiert sein:

wobei eine <ASD>-Kennzeichnung die Datei als einen Dateityp identifiziert, der die Zustandsdefinition des Netzwerkanwendungsservers 5 zur Verfügung stellt, eine <APP>-Kennzeichnung den Anwendungsnamen und eine <STATE>-Kennzeichnung einen gegebenen Zustand definiert, d. h. den Namen des Zustands, die gültigen Befehle für diesen Zustand, und mit jedem Befehl ist auch der nächste Zustand definiert, zu dem die Anwendung springen muss. Eine derartige <STATE>-Kennzeichnung ist für jeden Zustand der Netzwerkanwendung definiert. Die <GRAMMAR>-Kennzeichnung stellt eine Einrichtung zur Definition der Befehle und der Syntax der Befehle zur Verfügung.
Gemäß der vorangehenden Datei muss die Anwendung nach den Mitteilungen 1, 2, 3 ... N zu dem Zustand „Lesen" springen. Die <DIGITS>-Kennzeichnung definiert eine spezielle Grammatik. Bei dem gegenwärtigen Fall zeigt die <GRAMMAR>-Kennzeichnung, dass die Ziffern 1, 2, 3, 4 oder 5 sein können. Nach dem Befehl „Beenden" sollte die Anwen dung beendet werden (was als ein NULL-Zustand („") bezeichnet wird). Es sei bemerkt, dass der Zustand in das „Hauptmenü" zu transferieren ist, wenn bei dem „Lesen"-Zustand ein „Beenden"-Befehl ausgegeben wird.
Unter Verwendung dieser Herangehensweise, teilt die ASD-Datei der ASR-Maschine 6 oder der Mobilstation 1 mit, welche Befehle für einen gegebenen Kontext gültig sind. Damit die Mobilstation 1 oder die ASR-Maschine 6 mit den Zuständen des Netzanwendungsservers 5 Schritt halten kann, werden auch in der ASD-Datei Zustandsübergangsregeln zur Verfügung gestellt. Bei Verwendung von anderen eine kontextabhängige Grammatik-Datei enthaltenden Kennzeichnungen wäre es möglich, der ASR-Maschine 6 eine Anweisung zu geben, welche Grammatik- oder Vokabular-Datei zu laden ist. Dadurch kann eine höhere Flexibilität zur Verfügung gestellt und kann eine Erkennung genauer gemacht werden, da die ASR-Maschine 6 auf den Kontext des Netzwerkanwendungsservers feinabgestimmt ist. Nachfolgend ist ein Beispiel für eine derartige Kennzeichnung dargestellt:
<STATE="Lesen" LOADGRAMMAR="URL=ftp://hs.gh.com/Reademail.gmr" "LOADVOCABULRRY= „URL=ftp://hs.gh.com/Reademail.vcb"
COMMANDS="Nächster", NEXTSTATE="Lesen", <PREV>, NEXTSTATE=„Lesen", <QUIT>, NEXTSTATE="Hauptmenü">;
2 zeigt ein Flussdiagramm eines Beispiels für eine Spracherkennungsverarbeitung, wie sie bei dem bevorzugten Ausführungsbeispiel ausgeführt wird.
Zu Beginn lädt die ASR-Maschine 6 eine entsprechende ASD-Datei von dem zu verbindenden Netzwerkanwendungsserver 5 (S101). In der geladenen ASD-Datei wird die ASR-Maschine angewiesen, eine zustandsabhängige Grammatik-Datei zu laden, d. h „Read Email.gmr" wenn der Netzwerkanwendungsserver 5 den Zustand „Lesen" eingibt. Alternativ kann die ASR-Maschine 6 von dem Netzwerkanwendungsserver 5 eine allgemeine Grammatik-Datei laden (S102).
Auf der Grundlage der Grammatik-Datei werden dann für eine Spracherkennung gültige Textbefehle bestimmt (S103). Im Falle einer zustandsabhängigen Grammatik-Datei werden die in der geladenen Grammatik-Datei definierten Befehle als gültige Befehle für die Spracherkennung bestimmt. Im Falle einer allgemeinen Grammatik-Datei werden die gültigen Befehle von der allgemeinen Grammatik-Datei gemäß einer in der ASD-Datei zur Verfügung gestellten entsprechenden Information ausgewählt. Dementsprechend werden nur die bestimmten gültigen Befehle bei diesem Zustand zugelassen oder zumindest bis eine verschiedene Grammatik-Datei geladen wird.
Danach wird ein Sprachbefehl von der Mobilstation 1 empfangen (S104) und es wird für den empfangenen Sprachbefehl eine Spracherkennung durchgeführt (S105). Der Textbefehl wird von der Spracherkennungsverarbeitung von dem empfangenen Sprachbefehl abgeleitet und dann mit den bestimmten gültigen Textbefehlen geprüft (S106).
Falls bei Schritt S107 ein gültiger Befehl bestimmt wird, wird der Textbefehl direkt dem Netzwerkanwendungsserver 5 oder der Mobilstation 1 zugeführt (S108). Ansonsten wird eine Fehlermeldung durchgeführt, um die Mobilstation über den fehlerhaften Sprachbefehl zu informieren (S109).
Danach bezieht sich die ASR-Maschine 6 auf die in der ASD-Datei definierten Zustandsübergangsregeln und be stimmt, ob der zugeführte Befehl zu einem Zustandswechsel des Netzwerkanwendungsservers 5 führt (S110). Wurde kein Zustandswechsel bestimmt, kehrt die Verarbeitung zu Schritt S104 zurück, um einen weiteren Sprachbefehl zu empfangen und, wenn erforderlich, Spracherkennung der anderen empfangenen Sprachbefehle durchzuführen.
Wurde ein Zustandswechsel bestimmt, kehrt die Verarbeitung zu Schritt S103 zurück und die ASR-Maschine 6 bezieht sich auf die ASD-Datei, um eine neue Gruppe von gültigen Textbefehlen zu bestimmen. Dies kann entweder durch Laden einer neuen zustandsabhängigen Grammatik-Datei gemäß einer von der ASD-Datei zur Verfügung gestellten Anweisung erzielt werden, oder durch Auswählen von neuen gültigen Befehlen von der allgemeinen Grammatik-Datei auf der Grundlage einer entsprechenden Information in der ASD-Datei. Nachfolgend wird bei Schritt 104 ein neuer Sprachbefehl empfangen und die Spracherkennung wird bei Schritt 105 fortgesetzt.
Es ist ein wichtiger Aspekt, dass es für DSR-Typ-Anwendungen notwendig ist ein Standardverfahren aufzuweisen, das anwendungsspezifische Merkmale an die ASR-Maschine 6 weiterleitet, da die ASR-Maschine 6 eine ASR-Quelle zum allgemeinen Zweck ist und jede Netzwerkanwendung in der Lage sein sollte, die ASR-Merkmale durch Herstellen von Zustandsdefinition und Grammatik-Dateien zu verwenden. Daher kann gemäß dem bevorzugten Ausführungsbeispiel die ASR-Maschine 6 während der Laufzeit eine neue Grammatik-Datei laden. Dies bedeutet, dass die ASR-Maschine 6 angewiesen sein kann, nur die auf einen bestimmten Zustand/ Kontext des Netzwerkanwendungsservers 5 anwendbaren Grammatikregeln zu laden, indem sie sich auf die ASD-Datei bezieht. Dies verbessert in hohem Maße die Erkennungsgenauigkeit und Effizienz der Verwendung der Netzwerkver bindungen.
Eine Ausführung des Netzwerkanwendungsservers 5 und seiner Benutzerschnittstelle kann abhängig von der verwendeten Software- und Hardwareplattform variieren. Die meisten Netzwerkanwendungsserver 5 können eine HTTP-Schnittstelle (d. h. HTML), eine WAP (Wireless Application Protocol – WML) – Schnittstelle oder eine eigene Anwendungsschnittstelle (API) zur Verfügung stellen. Ist die ASD-Datei entweder auf WML (Wireless Markup Language) oder HTML (Hyper Text Markup Language) eingerichtet, kann sie als eine universelle Definitionsdatei für Anwendungszustände oder Sprachbefehle bei einem beliebigen Typ einer auf einem Netzwerkanwendungsserver 5 laufenden Anwendung verwendet werden. Unter Verwendung dieser ASD-Information wäre die ASR-Maschine 6 in der Lage, eine interne Repräsentation der relevanten Netzwerkanwendungsserver-Anwendung aufzubauen. Diese Repräsentation oder das Modell kann dann verwendet werden, um die ASR-Maschine 6 in Synchronisation mit den Anwendungszuständen des Netzwerkanwendungsservers 5 zu halten.
Daher wird jeder ein Spracherkennungsmerkmal zur Verfügung stellender Netzwerkanwendungsserver 5 seine sprachspezifische(n) WML-Karte(n) oder den HTML-Ort aufweisen. Als ein Beispiel für einen täglichen Nachrichtendienst kann die Zustandsdefinitionsinformation URL (Uniform Resource Locator) eine Datei sein, wie beispielsweise:
//services.internal.net/dailynews/speechsettings
Daher muss das Sprachsteuersystem, sei es, dass es sich in der Mobilstation 1 oder in einem Netzwerkserver befindet, diese Datei von der gegebenen URL laden.
Dann kann außerdem, wenn der Netzwerkanwendungsserver 5 gegenwärtig ein Server mit HTTP- oder WAP-Ursprung ist, die von diesem Server gesendete erste WML-Karte oder HTML-Seite die vorgenannte spezifische URL unter einer speziellen Kennzeichnung umfassen. Dadurch kann die Mobilstation 1 informiert werden, dass diese Anwendung eine Sprachsteuerung unterstützt und dass die Datei bei dieser URL geladen werden muss, um die Spracherkennungsfähigkeit zur Verfügung zu stellen.
Folglich könnten die ASD-Dateien online an die ASR-Maschine 6 als ein Teil der von dem Netzwerkanwendungsserver gesendeten Standard-HTML-/-WML-Skripten gesendet werden. Die ASR-Maschine 6 würde diese Skripten automatisch interpretieren und mit dem Netzwerkanwendungsserver 5 Schritt halten, um die Sprachbefehle effektiv zu verarbeiten und Funktionen durchzuführen, wie beispielsweise online Laden von Grammatik-Dateien usw. In diesem Fall würde sich die ASR-Maschine 6 direkt auf die in der LOADGRAMMAR-Kennzeichnung spezifizierte URL beziehen, um die zugehörige Grammatik-Datei zu lesen.
Für andere nicht WML-/HTML-Anwendungen des Netzwerkanwendungsservers 5 werden zum Zeitpunkt des Setups, d. h. offline, ASD-Dateien von dem Netzwerkanwendungsserver 5 an die ASR-Maschine 6 zugeführt. Diese ASD-Dateien müssen im Einklang mit der zuvor beschriebenen HTML-ähnlichen Spezifikation hergestellt werden und werden zusammen mit einer Grammatik-Datei auf einem WWW-Server (beispielsweise www.asr.com) gespeichert, der auf der Hardware der ASR-Maschine 6 läuft.
Zu Beginn einer Interaktion zwischen der ASR-Maschine 6 und dem Netzwerkanwendungsserver 5 lädt die ASR-Maschine 6 zuerst die ASD-Datei von dem Server www.asr.com und bildet die/das interne Zustandsrepräsentation/Mdell der Anwendung des Netzwerkanwendungsservers 5. Danach kann die ASR-Maschine mit den Zuständen des Netzwerkanwendungsservers 5 Schritt halten und verarbeitet Sprachbefehle effizient und führt Funktionen wie beispielsweise ein Laden während der Laufzeit von Grammatik-Dateien aus. In diesem Fall enthält die LOADGRAMMAR-Kennzeichnung die gesamte URL, die auf www.asr.com zeigt.
Ist die Anwendung des Netzwerkanwendungsservers 5 beispielsweise ein „Voice-Mail-Server" mit einem Gerätenamen vmsvr, dann würde beispielsweise dies folgende URL Verwendung finden:
„http://www.asr.com/vmsvr/Grammar/vmail.gmr"
Die vorangehenden Anwendungen lagen der Verwendung einer einzelnen ASR-Maschine 6 in dem Netzwerk 4 zu Grunde. Hierbei ist die ASR-Maschine 6 festgelegten Hardware- und Softwareplattformen zu Grunde gelegt. Von der Blickrichtung der Mobilstationsanwendung her betrachtet, behandelt diese universelle ASR-Maschine 6 die ASR-Anforderungen und Antworten mit den entsprechenden Textbefehlen.
Für den Fall jedoch, dass die ASR-Maschine 6 auf einer hardware- und software-unabhängigen Plattform wie beispielsweise Java mit dem JSAPI basiert (Java-Sprache API, d. h. eine Standard-API, die zur Zeit in der Entwicklung ist und eine gemeinsame API für ASR-Maschinen von unterschiedlichen Anbietern zur Verfügung stellt), können die Funktionen der ASD-Datei noch weiter ausgedehnt werden. In diesem Fall kann eine Flexibilität der Auswahl einer erforderlichen Audioverarbeitungs-Hardware und eine anbieterspezifische ASR-Maschine 6 in Abhängigkeit von der Anwendung des Netzwerkanwendungsservers 5 zur Verfügung gestellt werden. Das bedeutet, dass eine logische ASR-Maschine mit der anbieterspezifischen physischen ASR-Maschine 6 auf der Grundlage der Anwendungsanforderungen des Netzwerkanwendungsservers 5 derart verbunden werden kann, dass sogar kundenspezifische Hardware zur Audioverarbeitung Verwendung finden kann. Die entsprechenden optionalen Parameter können in der ASR-Datei unter Verwendung zusätzlicher Kennzeichnungen definiert werden.
Nachfolgend wird ein Beispiel einer Ausführung der ASD-Datei bei einer WAP-Anwendung beschrieben, die von Betreibern verwendet werden kann, um ihre bestehenden Dienstleistungsangebote zu verbessern. Bei den vorangehenden Beispielen wurde die ASD-Datei von dem ASR-Server oder der -Maschine 6 verwendet, um eine kontextbasierende Spracherkennung durchzuführen. Bei diesem Beispiel, wie in 3 gezeigt, wurde die ASD-Datei von einem verschiedenen Anwendungsserver verwendet, d. h. dem WTA-Server (Wireless Telephony Application-Server) 7 in dem WAP, um ähnliche Aufgaben durchzuführen. Bei diesem Fall wird die Verwendung von WAP-fähigen Mobiltelefonen oder Stationen 1 angenommen.
Die WAP-fähige Mobilstation 1 kann den gesamten WAP-Stapel installiert haben und betreibt die (nachfolgend als WAE = Wireless Application Environment bezeichnete) drahtlose Anwendungsumgebung. Der WTA-Server 7 verfügt über die Fähigkeit, die Dienste des Netzwerks 4 zu steuern, welches in diesem Fall ein Standard-Mobilnetzwerk ist. Der WTA-Server 7 agiert als ein prinzipieller Inhaltsgenerator. Der Inhalt kann an den Kunden angepasst werden und zu dem Klienten heruntergeladen werden, welcher eine Mobilstation 1 ist, auf der eine WAP-Software läuft. Der WTA-Server 7 könnte auch Anrufsteuerfunktionen wie beispielsweise Informieren der Mobilstation 1 durch WTA-Ereignisse über Details hereinkommender Anrufe durchführen.
Zudem steht ein netzwerkbasierender ASR-Server 6 zur Verfügung, der einer Anwendung ermöglicht, um auf der Grundlage von Parametern wie beispielsweise ID/Adresse der Anwendung, MSISDN, Sprachcodiertyp, Grammatik-Datei-ID (zum Auswählen einer geeigneten Grammatikregel) und anderen optionalen Parametern mit dem Sprachserver zu verbinden. Außerdem kann der ASR-Server 6 über die Fähigkeit verfügen, einen hinausgehenden Anruf zu einer gegebenen MSISDN-Nummer durchzuführen, wobei der ASR-Server 6 die empfangene Audioeingabe mit einem PCM, CEP oder anderen Format extrahiert, die Audioeingabe an eine Spracherkennungsmaschine zuführt und den erkannten Text erlangt, und den Text an die ID/Adresse der anrufenden Anwendung sendet. Der WTA-Server 7 prüft dann die Gültigkeit des Textes und kann auch den ASR-Server 6 steuern, um Grammatik-Dateien usw. zu laden.
Jeder Netzwerkanwendungsserver 5 mit einer Sprachschnittstelle stellt dem WTA-Server 7 eine ASD-Datei zusammen mit einem grundlegenden WML-Kartenstapel, d. h. WML-Dokument, für diesen Dienst zur Verfügung. Der WTA-Server 7 lädt die ASD-Datei und kann die an die Mobilstation 1 gesendete WML auf der Grundlage der ASD-Datei-Einstellungen ändern. Auf der Grundlage der ASD-Datei werden Audiofunktionen der Mobilstation 1 und Einstellungen des ASR-Servers 6 in Abhängigkeit von dem Anwendungskontext gesteuert.
Bei diesem Beispiel kann die ASD-Datei Attribute wie beispielsweise eine für eine aktuelle Anwendung zu verwendende ASR-Maschine, einen von der ASR-Maschine unterstützten Codiertyp, der bei der aktuellen sprachbefähig ten Anwendung Verwendung findet, eine zu verwendende Default-Grammatik-Datei (Dateiname), ein Default-Vokabular (Dateiname oder Wörter) und Zustände der aktuellen Anwendung , d. h. eine Menühierarchie definieren. Jedes Menü stellt Spezifikationen für von dem Menü und entsprechenden NEXT-Zuständen unterstützte Befehle, neue Grammatikregeln und Vokabularien, die zuvor eingestellte Werte überschreiben können, und Parameter zur Verfügung, die spezifizieren, ob die aktuelle Anwendung ein Mikrophon oder einen Lautsprecher der Mobilstation 1 erfordert, der ein- oder ausgeschaltet ist.
Nachfolgend wird die Operation des WAP-basierenden Beispiels auf der Grundlage einer Wetterdienstanwendung und einer Voicemail-Dienstanwendung beschrieben.
Wetterdienstanwendung:
Der Dienstanbieter (oder Betreiber) stellt einen Wetterdienst für seine mobilen Teilnehmer zur Verfügung und bietet den Dienst über eine Sprachschnittstelle an. Der Betreiber hat den ASR-Server 6 in seinem Netzwerk 4 installiert und beabsichtigt diesen ASR-Server zusammen mit dem WTA-Server 7 zu verwenden, um den Wetterdienst mit einer Sprachschnittstelle zur Verfügung zu stellen.
In diesem Fall aktiviert der Benutzer der Mobilstation 1 ein Wettermenü, das bereits zur Verwendung der Sprachschnittstelle ausgelegt ist. Diese Anforderung wird von der WAE an den WTA-Server 7 gesendet. Dann sendet der WTA-Server 7 einen Stapel von WML-Karten, die von dem entsprechenden Netzwerkanwendungsserver 5 im voraus geladen wurden und sich auf den Wetterdienst beziehen, an die Mobilstation 1. An dieser Stelle geht die WAE-Software der Mobilstation 1 in eine Hör-Betriebsart über, um einen ankommenden Anruf von dem ASR-Server 6 des Netzwerks 4 zu beantworten. Danach sendet der WTA-Server 7 eine Anforderung für eine ASR-Sitzung an den ASR-Server 6, einschließlich eines MSISDN, einer zugewiesenen Sitzungs-ID mit dem WTA-Server 7 und auch einer ID einer zu verwendenden Grammatikregel. Der Grammatikregelname wird aus der ASD-Datei abgeleitet, die zuvor von dem entsprechenden Netzwerkanwendungsserver 5 für den Wetterdienst geladen wurde.
Der ASR-Server 6 stellt die erforderlichen Betriebsmittel sicher, d. h. die Herauswählanschlüsse und ASR-Sitzungen auf dem Sprachgerät sind verfügbar, und sendet eine Bestätigung an den WTA-Server 7. Nachfolgend ruft der ASR-Server 6 das MSISDN an und das Netzwerk 4 sendet eine Anrufanzeige an die Mobilstation 1. Die WAE-Software der Mobilstation 1 beantwortet automatisch den Anruf und es wird eine Sprachverbindung zwischen dem ASR-Server 6 und der Mobilstation 1 aufgebaut. Tatsächlich wird die vorgenannte Anrufsignalisierung zwischen der Mobilstation 1 und dem ASR-Server 6 über den WTA-Server 7 durchgeführt.
Gemäß der von dem WTA-Server 7 erlangten anwendungsabhängigen WML deaktiviert die Mobilstation 1 ihren Sprecher und sendet alle über sein Mikrophon empfangene Audioeingabe über die aufgebaute Sprachverbindung. Die Audioeingabe kann von der WAE-Software gemäß einem erforderlichen Format, d. h. PCM, CEP oder dergleichen codiert werden. Der ASR-Server 6 wandelt die empfangene Audioeingabe in Text um und sendet den erlangten Text an den WTA-Server 7.
Seitdem die Wettersitzung gestartet wurde, hat der WTA-Server 7 die entsprechende ASD-Datei geladen und befindet sich nun in einer Position, um den empfangenen Text mit den gültigen kontextabhängigen Befehlen zu vergleichen. Wurde ein gültiger Befehl, beispieleweise „London UK" empfangen, fordert der WTA-Server 7 die WML/HTML für London UK von dem den Wetterdienst zur Verfügung stellenden Netzwerkanwendungsserver 5 an. Der Netzwerkanwendungsserver 5 antwortet mit dem angeforderten Wetterbericht für London und der WTA-Server 7 führt den WML-Kartenstapel für das Londonwetter der Mobilstation 1 zu. Für den Fall, dass Grammatikregeln oder Vokabular in der Gruppe der WML-Karten geändert ist, enthält die ASD-Datei eine entsprechende Information und der WTA-Server 7 sendet die für das Londonwetter zu verwendenden neuen Grammatikregeln oder das Vokabular an den ASR-Server 6. Folglich ist der ASR-Server 6 dafür ausgelegt, die für die neuen WML-Karten erforderliche neue Grammatik oder das Vokabular zu verwenden.
Danach wird der von dem ASR-Server 6 aus den von der Mobilstation 1 empfangene Text an den WTA-Server 7 gesendet, der seine Gültigkeit überprüft. Für den Fall, dass ein gültiger Befehl, d. h. „Heathrow", empfangen wurde, fordert der WTA-Server 7 die Wetterinfo für London Heathrow an und der Netzwerkanwendungsserver 5 antwortet mit dem angeforderten Wetterbericht. Dann wird der WML-Kartenstapel für das Wetter von London Heathrow von dem WTA-Server 7 der Mobilstation 1 zugeführt.
Voicemail-Dienstanwendung:
In diesem Fall stellt der Dienstanbieter (oder -betreiber) einen Voicemail-Dienst mit einer Sprachschnittstelle für seine mobilen Teilnehmer zur Verfügung.
Der den Voicemail-Dienst zur Verfügung stellende Netzwerkanwendungsserver 5 sendet eine neue Voicemail-Mitteilung an den WTA-Server 7. Dann sendet der WTA-Server 7 einen Stapel von WML-Karten, der zuvor von dem Netzwerkanwendungsserver 5 geladen wurde und sich auf den Voicemail-Dienst bezieht, an die Mobilstation 1. An dieser Stelle geht die WAE-Software der Mobilstation 1 in eine Hör-Betriebsart über, um einen hereinkommenden Anruf von dem ASR-Server 6 des Netzwerks 4 zu beantworten. Dann sendet die Mobilstation 1 an den WTA-Server 7 eine ASR-Anforderung, die anzeigt, dass der Benutzer die Sprachschnittstelle zu dem Voicemail-Dienst hin betreiben will. An dieser Stelle weist der WTA-Server 7 das Netzwerk 4 an, alle Anweisungen über hereinkommende Anrufe an den WTA-Server 7 zu senden.
Danach sendet der WTA-Server 7 eine Anforderung für eine ASR-Sitzung an den ASR-Server 6, einschließlich eines MSISDN, einer zugewiesenen Sitzungs-ID mit dem WTA-Server 7 und auch einer ID einer zu verwendenden Grammatikregel. Der Grammatikregelname wird aus der zuvor von dem entsprechenden Netzwerkanwendungsserver 5 für den Voicemail-Dienst geladenen ASD-Datei abgeleitet.
Der ASR-Server 6 stellt die erforderlichen Betriebsmittel sicher, d. h. die Herauswählanschlüsse und ASR-Sitzungen auf der Sprachmaschine sind verfügbar, und sendet eine Bestätigung an den WTA-Server 7. Nachfolgend ruft der ASR-Server 6 das MSISDN an und das Netzwerk 4 sendet eine Anrufanzeige an die Mobilstation 1. Die WAE-Software der Mobilstation 1 beantwortet automatisch den Anruf und es wird eine Sprachverbindung zwischen dem ASR-Server 6 und der Mobilstation 1 aufgebaut.
Gemäß der von dem WTA-Server 7 erlangten anwendungsabhängigen WML aktiviert die Mobilstation 1 sowohl ihren Lautsprecher als auch ihr Mikrophon und sendet alle über sein Mikrophon empfangene Audioeingabe über die aufgebaute Sprachverbindung. Die Audioeingabe kann von der WAE-Software gemäß einem erforderlichen Format, d. h. PCM, CEP oder dergleichen codiert werden. Der ASR-Server 6 wandelt die empfangene Audioeingabe in Text um.
Nun sendet der WTA-Server 7 einen Befehl, um das gegebene MSISDN zu dem Netzwerkanwendungsserver 5 anzurufen, der den Voicemail-Dienst zur Verfügung stellt, der dann das MSISDN anruft. In diesem Fall wird ein Mehrparteienanruf eingerichtet, da der ASR-Server 6 bei der Mobilstation 1 eine Spracheingabe erfordert und der Netzwerkanwendungsserver 5 der Mobilstation 1 Audio senden muss. Diese beiden Dienste befinden sich in verschiedenen Geräten und können keine beliebige API (Application Programming Interface) oder Verbindung miteinander haben. Da beide Dienste auf die Mobilstation 1 zugreifen müssen, ist ein Mehrparteienanruf erforderlich, der im folgenden erläutert wird.
Bei der Einrichtung eines Mehrparteienanrufs empfängt der WTA-Server 7 eine Anrufanzeige für das MSISDN und sendet eine Anrufanzeige-Ereignismitteilung mit speziellen Parametern an die Mobilstation 1, um ein Hinzufügen des Anrufs zu einem Mehrparteienanruf anzuweisen. Die Mobilstation 1 sendet eine Anrufhaltemitteilung, um das Netzwerk 4 anzuweisen, den Anruf 1 zu halten, d. h. den Anruf von dem ASR-Server 6 an die Mobilstation 1. Dann nimmt die Mobilstation 1 den Anruf 2 an, d. h. den Anruf von dem Netzwerkanwendungsserver 5 an die Mobilstation 1, und es wird eine Sprachverbindung aufgebaut. Danach weist die Mobilstation 1 den Aufbau eines Mehrparteienanrufs derart an, d. h. mit Anruf 1 und 2, dass nun sowohl der ASR-Server 6 als auch der Netzwerkanwendungsserver 5 mit der Mobilstation 1 verbunden sind.
Seitdem die Voicemail-Sitzung gestartet wurde, hat der WTA-Server 7 die entsprechende ASD-Datei für Voicemail geladen und befindet sich nun in einer Position, um den empfangenen Text mit den gültigen kontextabhängigen Befehlen zu vergleichen. Wurde ein gültiger Befehl, d. h. „Anthony" empfangen, fordert der WTA-Server 7 den den Voicemail-Dienst zur Verfügung stellenden Netzwerkanwendungsserver 5 auf, die Mitteilung „Anthony" abzuspielen. Dementsprechend führt der Netzwerkanwendungsserver 5 eine Wiedergabe der Mitteilung „Anthony" durch.
Es ist zu verstehen, dass die vorangehende Beschreibung und die beiliegende Zeichnung nur beabsichtigen die Erfindung zu veranschaulichen. Insbesondere ist die Erfindung nicht auf Spracherkennung oder Steuersysteme für Mobiltelefone beschränkt, sondern kann auch in einem beliebigen Datennetzwerk Verwendung finden. Folglich können die Vorrichtung und das Verfahren gemäß der Erfindung innerhalb des Geltungsbereichs der anhängenden Ansprüche variieren.
Es wird ein Sprachsteuersystem und ein -verfahren beschrieben, bei denen von einem Netzwerkanwendungsserver Zustandsdefinitionsinformationen geladen werden. Die Zustandsdefinitionsinformationen definieren mögliche Zustände des Netzwerkanwendungsservers und werden zum Bestimmen einer Gruppe von gültigen Befehlen des Netzwerkanwendungsservers derart verwendet, dass eine Gültigkeit eines von einem Umwandeln eines Eingabesprachbefehls erlangten Textbefehls durch Vergleichen des Textbefehls mit der bestimmten Gruppe von gültigen Befehlen geprüft werden kann. Dadurch kann eine Übertragung fehlerhafter Textbefehle an den Netzwerkanwendungsserver verhindert werden, um die Gesamtverarbeifungszeit und Antwortverzögerungen zu reduzieren.

Claims

Sprachsteuersystem für ein Telekommunikationsnetzwerk (4), mit: a) einer Ladeeinrichtung zum Laden von Zustandsdefinitionsinformationen von einem Netzwerksanwendungsserver (5), wobei die Zustandsdefinitionsinformationen alle möglichen Zustände des Netzwerksanwendungsservers (5) definieren; b) einer Bestimmungseinrichtung zur Bestimmung einer Gruppe von gültigen Befehlen für den Netzwerksanwendungsserver (5) auf der Grundlage der Zustandsdefinitionsinformationen; und c) einer Prüfeinrichtung zum Prüfen einer Gültigkeit eines Textbefehls, der durch Umwandeln eines Eingangssprachbefehls erlangt wird, um zur Steuerung des Netzwerksanwendungsservers (5) verwendet zu werden, indem der Textbefehl mit der vorbestimmten Gruppe von gültigen Befehlen verglichen wird.
System nach Anspruch 1, wobei die Ladeeinrichtung dahingehend ausgestaltet ist, um eine Grammatik- und/ oder Vokabelinformation zu laden, die eine gesamte Gruppe von gültigen Befehlen spezifiziert, die von dem Netzwerksanwendungsserver unterstützt werden, wobei die Bestimmungseinrichtung dahingehend ausgestaltet ist, um die Gruppe von gültigen Befehlen auf der Grundlage der gesamten Gruppe von gültigen Befehlen und einer in den Zu standsdefinitionsinformationen enthaltenen Zustandsübergangsinformation zu bestimmen.
System nach Anspruch 1, wobei die Bestimmungseinrichtung dahingehend ausgestaltet ist, um die Ladeeinrichtung zu veranlassen, eine zustandsabhängige Grammatikdatei zu laden, die eine Gruppe von gültigen Befehlen für einen spezifischen Zustand des Netzwerksanwendungsservers (5) definiert, wenn die Bestimmungseinrichtung auf der Grundlage einer in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformation eine Zustandsänderung bestimmt.
System nach einem der vorangehenden Ansprüche, wobei das Sprachsteuersystem eine Spracherkennungseinrichtung (6) zur Umwandlung eines von einem Teilnehmeranschluss (1) empfangenen Eingangssprachbefehls in den Textbefehl aufweist, um dem Netzwerksanwendungsserver (5) zugeführt zu werden.
System nach einem der Ansprüche 1 bis 3, wobei das Telekommunikationsnetzwerk (4) ein mobiles Netzwerk ist und das Sprachsteuersystem in einem drahtlosen Telefonanwendungs-Server (WTA-Server) (7) eingebunden ist, und wobei der WTA-Server (7) dahingehend ausgestaltet ist, um von einer Netzwerkspracherkennungseinrichtung (6) den Textbefehl zu empfangen, um einen von einem Teilnehmeranschluss (1) empfangenen Eingangssprachbefehl in den Textbefehl umzuwandeln.
System nach einem der Ansprüche 1 bis 3, wobei das Sprachsteuersystem einen Teilnehmeranschluss (1) umfasst, der eine Eingabeeinrichtung zum Eingeben eines Sprachbefehls, eine Übertragungseinrichtung zum Übertragen des Sprachbefehls an eine Spracherkennungseinrichtung (6) des Telekommunikationsnetzwerks (4), und eine Empfangseinrichtung zum Empfang des Textbefehls von der Spracherkennungseinrichtung (6) aufweist, wobei die Übertragungseinrichtung dahingehend ausgestaltet ist, um den empfangenen Textbefehl an den Netzwerkanwendungsserver (5) zu übertragen.
System nach Anspruch 3, wobei die Zustandsdefinitionsinformationen eine Ladeanweisung zum Laden der zustandsabhängigen Grammatikdatei enthalten.
System nach einem der vorangehenden Ansprüche, wobei die Zustandsdefinitionsinformationen eine Datendatei sind.
System nach Anspruch 8, wobei die Datendatei eine WML-Datei ist.
System nach Anspruch 8, wobei die Datendatei eine HTML-Datei ist.
System nach Anspruch 9 oder 10, wobei die Datendatei Online an das Sprachsteuersystem als ein Teil von von dem Netzwerkanwendungsserver (5) gesendeten Standardinformationen gesendet wird.
System nach Anspruch 1, wobei die Zustandsdefinitionsinformationen von dem Netzwerkanwendungsserver (5) bei einer Setup-Zeit zur Verfügung gestellt werden.
System nach Anspruch 4, wobei die Zustandsdefinitionsinformationen zusammen mit einer Befehlsgruppeninformation in einem Netzwerkserver gespeichert werden, der auf einer Hardware des Sprachsteuersystems läuft.
System nach Anspruch 4 oder 6, wobei das Sprachsteuersystem eine Vielzahl von käuferspezifischen Spracherkennungseinrichtungen aufweist, und wobei entsprechende Parameter der Vielzahl von käuferspezifischen Spracherkennungseinrichtungen in den Zustandsdefinitionsinformationen definiert sind.
Sprachsteuerverfahren für ein Telekommunikationsnetzwerk, mit den Schritten zum: a) Laden von Zustandsdefinitionsinformationen von einer Netzwerksanwendung, wobei die Zustandsdefinitionsinformationen alle möglichen Zustände der Netzwerksanwendung definieren; b) Bestimmen einer Gruppe von gültigen Befehlen für die Netzwerksanwendung auf der Grundlage der Zustandsdefinitionsinformationen; und c) Prüfen einer Gültigkeit eines Textbefehls, der durch Umwandeln eines Sprachbefehls erlangt wird, um zur Steuerung der Netzwerksanwendung verwendet zu werden, indem der Textbefehl mit der bestimmten Gruppe von gültigen Befehlen verglichen wird.
Verfahren nach Anspruch 15, zudem mit den Schritten zum Laden einer Grammatik- und/oder Vokabelinformation, die eine gesamte Gruppe von gültigen Befehlen für die Netzwerksanwendung spezifiziert, wobei der Bestimmungsschritt auf der Grundlage der gesamten Gruppe von gültigen Befehlen und einer in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformation durchgeführt wird.
Verfahren nach Anspruch 15, zudem mit dem Schritt zum Laden einer zustandsabhängigen Grammatikdatei, die eine Gruppe von gültigen Befehlen für einen spezifischen Zustand der Netzwerksanwendung definiert, wenn auf der Grundlage von in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformationen eine Zustandsänderung bestimmt wurde.