DE69814181T2 - Verfahren und vorrichtung zur konfiguration eines spracherkennungssystems - Google Patents

Verfahren und vorrichtung zur konfiguration eines spracherkennungssystems Download PDF

Info

Publication number
DE69814181T2
DE69814181T2 DE69814181T DE69814181T DE69814181T2 DE 69814181 T2 DE69814181 T2 DE 69814181T2 DE 69814181 T DE69814181 T DE 69814181T DE 69814181 T DE69814181 T DE 69814181T DE 69814181 T2 DE69814181 T2 DE 69814181T2
Authority
DE
Germany
Prior art keywords
network application
application server
server
state
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE69814181T
Other languages
English (en)
Other versions
DE69814181D1 (de
Inventor
Anthony Rodrigo
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nokia Oyj
Original Assignee
Nokia Oyj
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nokia Oyj filed Critical Nokia Oyj
Publication of DE69814181D1 publication Critical patent/DE69814181D1/de
Application granted granted Critical
Publication of DE69814181T2 publication Critical patent/DE69814181T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/75Indicating network or usage conditions on the user display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/04Protocols specially adapted for terminals or networks with limited capabilities; specially adapted for terminal portability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L9/00Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
    • H04L9/40Network security protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L69/00Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
    • H04L69/30Definitions, standards or architectural aspects of layered protocol stacks
    • H04L69/32Architecture of open systems interconnection [OSI] 7-layer type protocol stacks, e.g. the interfaces between the data link level and the physical level
    • H04L69/322Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions
    • H04L69/329Intralayer communication protocols among peer entities or protocol data unit [PDU] definitions in the application layer [OSI layer 7]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/18Information format or content conversion, e.g. adaptation by the network of the transmitted or received information for the purpose of wireless delivery to users or terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Exchange Systems With Centralized Control (AREA)
  • Computer And Data Communications (AREA)
  • Selective Calling Equipment (AREA)

Description

  • Gebiet der Erfindung
  • Die Erfindung bezieht sich auf ein Sprachsteuersystem und ein -verfahren für ein Telekommunikaaionsnetzwerk, wobei ein Netzwerkanwendungsserver auf der Grundlage eines Sprachbefehls gesteuert wird.
  • Hintergrund der Erfindung
  • Bei verbreiteten Spracherkennungssystemen (DSR-Systemen) kann der Benutzer eine Anwendung auf der Grundlage von gesprochenen Steuermitteilungen steuern, die einer automatischen Spracherkennungseinrichtung (ASR-Einrichtung) oder einer -Maschine zugeführt werden. Die gesprochenen Steuermitteilungen werden von der ASR-Maschine in Textbefehle umgewandelt, die an die auf einem zugehörigen Netzwerkanwendungsserver (NAS) laufende Anwendung oder an einen Teilnehmeranschluss wie eine Mobilstation (MS) gesendet werden, von denen die gesprochenen Steuermitteilungen empfangen worden sind.
  • Die Grundfunktion eines verbreiteten Spracherkennungssystems in dem Kontext von Mobilanwendungen ist die Fähigkeit einer Mobilstation, automatische Spracherkennungsmerkmale mit der Hilfe einer Hochleistungs-ASR-Maschine oder eines ASR-Servers zur Verfügung zu stellen, die in dem Netzwerk bereitstehen. Daher ist die Grundfunktion der Mobilstation die Übertragung eines Eingangssprachbefehls an diese Netzwerk-ASR-Maschine, um die Erkennungsaufgaben durchzuführen und die Ergebnisse zurückzugeben. Das Ergebnis kann ein erkanntes Word oder Befehl in Textformat sein. Die Mobilstation kann dann den Text verwenden, um die notwendigen Funktionen durchzuführen.
  • EP-A-382670 offenbart ein Beispiel der Erzeugung von Anwendungen mit Sprachausgabe, die auf einer zustandsangesteuerten Maschine basieren und typischerweise durch eine Berührungston-Telefontastatur gesteuert werden.
  • Es ist eine weitere Funktion eines derartigen Systems, die Mobilstation mit Zugang zu anderen Anwendungsservern, d. h. Internet WWW (Weltweites Netzwerk), E-Mail, Voicemail bzw. Sprachpost und dergleichen über Sprachbefehle zur Verfügung zu stellen. Daher ist der Benutzer mit einem derartigen Mobilstationstyp in der Lage, sich mit diesen Anwendungsservern zu verbinden und Sprachbefehle auszugeben.
  • Um dies zu erreichen, überträgt die Mobilstation ein Sprachsignal (Audio) an die ASR-Maschine. Die ASR-Maschine wird eine Spracherkennung durchführen, um zugehörige Textbefehle zu erlangen. Diese Textbefehle werden an die Mobilstation zurückgegeben. Die Mobilstation verwendet dann diese Textbefehle, um einen zugehörigen Netzwerkanwendungsserver (NAS) zu steuern, der ein beliebiger Server in einem Datennetzwerk wie das Internet sein kann, das verschiedenste Dienste wie WWW, E-Mail-Leser, Voicemail usw. zur Verfügung stellt.
  • Da die ASR-Maschine normalerweise auf einer Plattform läuft, die auch andere Anwendungen laufen lassen kann oder andere Aufgaben durchführen kann, ist es möglich, an die ASR-Maschine andere Funktionen zu transferieren, wie beispielsweise Verarbeiten des erlangten Textbefehls, um die erforderliche Operation zu ermitteln und den relevanten Server zu kontaktieren. Dann überträgt sie die von dem kontaktierten Netzwerkanwendungsserver wiedergewonnenen Informationen zurück an die Mobilstation. Bei dieser Situation empfängt die Mobilstation eine Spracheingabe, sendet sie an eine Netzwerk-ASR-Maschine, die Spracherkennung durchführt, führt notwendige Funktionen auf der Grundlage der Sprachbefehle aus und sendet die wiedergewonnenen Informationen oder Ergebnisse an die Mobilstation.
  • Nachfolgend werden Beispiele für die vorangehenden Fälle beschrieben:
  • Beispiel 1:
  • Der Benutzer könnte sagen „John Smith anrufen". In diesem Fall wandelt die ASR-Maschine die Sprache in Text um und gibt den Text „John Smith anrufen" an die Mobilstation zurück, wo die Anwendungssoftware in der Mobilstation dann die Telefonnummer für John Smith wiedergewinnt und eine Anrufoperation durchführt.
  • Beispiel 2:
  • Der Sprachbefehl bei der Mobilstation könnte sein „Rennsportinformationen". In diesem. Fall wandelt die ASR-Maschine die Sprache in Text um und gibt den Text „Rennsportinformationen" an die Mobilstation zurück. Folglich erkennt die Anwendungssoftware der Mobilstation, dass der Benutzer einen Zugang zu dem Netzwerkserver wünscht, der Pferderennsportinformationen zur Verfügung stellt. Dementsprechend baut die Mobilstation eine Verbindung mit dem relevanten Server auf, gewinnt die jüngsten Rennergebnisse und zeigt die Ergebnisse auf einer Anzeige der Mobilstation an.
  • Beispiel 3:
  • Ein in die Mobilstation eingegebener Sprachbefehl könnte sein „E-Mail lesen". In diesem Fall wandelt die ASR-Maschine die Sprache in Text um und gibt den Text „E-Mail lesen" an die Mobilstation zurück. Folglich erkennt die Anwendungssoftware der Mobilstation, dass der Benutzer einen Zugang zu dem Netzwerkserver wünscht, der einen Zugang zu der E-Mailbox des Benutzers zur Verfügung stellt. In diesem Fall sendet die Mobilstation an die ASR-Maschine einen Befehl, um mit dem relevanten Έ-Mailanwendungsserver eine Verbindung aufzubauen. Nun gibt die ASR-Maschine die erkannte Sprache nicht zurück, sondern verarbeitet die umgewandelte Sprache weiter. Für den Fall, dass der Sprachbefehl „Mitteilung 1" war, empfängt die ASR-Maschine die Sprache und übersetzt sie in einen Textbefehl „Mitteilung 1" und überträgt diesen Textbefehl an den E-Mailanwendungsserver. Wiederum gibt der E-Mailanwendungsserver den Text von Mitteilung 1 an die ASR-Maschine zurück. Dann wird die ASR-Maschine diesen Text an die Mobilstation übertragen. Der Dialog kann sich mit Mitteilung 2, 3 usw. fortsetzen, wobei jeder Sprachbefehl von dem Benutzer von der ASR-Maschine behandelt wird, bis der Benutzer einen Beendigungsbefehl ausgibt oder bis von der Mobilstation eine Mitteilung zur Beendigung der Sitzung empfangen wird.
  • Bei den vorangehenden Beispielen 1 und 2 besteht die einzige Funktion der ASR-Maschine darin, Sprache in Text umzuwandeln und die Ergebnisse zur weiteren Verarbeitung zurück zu der Mobilstation zu senden. Daher wird der Netzwerkanwendungsserver Befehle direkt von der Mobilstation empfangen. Jedoch verarbeitet bei dem vorangehenden Beispiel 3 die ASR-Maschine selbst die umgewandelte Sprache und greift direkt auf den relevanten Netzwerkanwendungsserver zu, um die Ergebnisse von dem Netzwerkanwendungsserver zu empfangen und die Ergebnisse zurück an die Mobilstation zu leiten.
  • Folglich ist die Mobilstation oder die ASR-Maschine gefordert, mit dem Netzwerkanwendungsserver zu kommunizieren, um Benutzerbefehle an den Netzwerkanwendungsserver auszugeben und von dem Netzwerkanwendungsserver Antworten zu empfangen.
  • Jedoch stellt sich in beiden Fällen das folgende Problem. Es sei angenommen, dass die zu lesende E-Mailanwendung Befehle wie A {Mitteilung 1, Mitteilung 2, ... Mitteilung N und Beenden} auf dem Menü der höchsten Ebene unterstützt. Für den Fall, dass der Benutzer bereits eine Mitteilung liest, sind die Befehle in diesem Kontext B {Löschen, Beenden, Nächste Mitteilung}. Daher wird der Netzwerkanwendungsserver mit einer Fehlermeldung antworten, wenn sich der Benutzer in dem Menü der höchsten Ebene befindet und einen anderen Sprachbefehl als diejenigen aus der Befehlsgruppe A eingibt. Auch wenn der Benutzer einen Sprachbefehl aus der Befehlsgruppe B ausgibt, wird dieser Befehl immer noch ein fehlerhafter Befehl sein, da der Kontext oder Zustand des Netzwerkanwendungsservers verschieden ist.
  • Außerdem könnten ebenso für den Kontext irrelevante Befehle aufgrund von Rauschen und dergleichen in die Mobilstation eingegeben werden. Alle diese Sprachsignale werden von der ASR-Maschine in einen Text umgewandelt und an den Netzwerkanwendungsserver gesendet, der mit Fehlermeldungen antworten wird.
  • Da derartige Szenarien häufig auftreten können, wird die Verarbeitung von gültigen Befehlen durch den Netzwerkanwendungsserver verzögert sein, da wertvolle Netzwerkbandbreiten und Anwendungsserver-Verarbeitungszeit zum Antworten auf derartige ungültige Befehle erforderlich ist.
  • Zudem führt das vorangehende Problem zu einer Verzögerung beim Ansprechen der ASR-Maschine auf eine Eingangssprachmitteilung, da sie auf Antworten von dem Netzwerkanwendungsserver warten muss.
  • Dementsprechend wird die Gesamtantwortzeit bei der Mobilstation derart erhöht werden, das der Benutzer den Befehl wiederholen oder den Befehl ändern kann, was die Verzögerungen noch weiter erhöht und zu einem schlechten Leistungsverhalten des Systems führt.
  • Zusammenfassung der Erfindung
  • Es ist eine Aufgabe der Erfindung ein Sprachsteuersystem und ein -verfahren mit einer verkürzten Gesamtantwortzeit zur Verfügung zu stellen.
  • Diese Aufgabe wird durch ein Sprachsteuersystem für ein Telekommunikationsnetzwerk gelöst, mit:
    einer Ladeeinrichtung zum Laden von Zustandsdefinitionsinformationen von einem Netzwerkanwendungsserver, wobei die Zustandsdefinitionsinformationen alle möglichen Zustände des Netzwerkanwendungsservers definieren;
    einer Bestimmungseinrichtung zur Bestimmung einer Gruppe von gültigen Befehlen für den Netzwerkanwendungsserver auf der Grundlage der Zustandsdefinitionsinformationen; und
    einer Prüfeinrichtung zum Prüfen einer Gültigkeit eines Textbefehls, der durch Umwandeln eines Eingangssprachbefehls erlangt wird, um zur Steuerung des Netzwerkanwendungsservers verwendet zu werden, indem der Textbefehl mit der vorbestimmten Gruppe von gültigen Befehlen verglichen wird.
  • Zudem wird die vorangehende Aufgabe durch ein Sprachsteuerverfahren für ein Telekommunikationsnetzwerk gelöst, mit den Schritten zum:
    Laden von Zustandsdefinitionsinformationen von einer Netzwerksanwendung, wobei die Zustandsdefinitionsinformationen alle möglichen Zustände der Netzwerksanwendung definieren;
    Bestimmen einer Gruppe von gültigen Befehlen für die Netzwerksanwendung auf der Grundlage der Zustandsdefinitionsinformationen; und
    Prüfen einer Gültigkeit eines Textbefehls, der durch Umwandeln eines Sprachbefehls erlangt wird, um zur Steuerung der Netzwerksanwendung verwendet zu werden, indem der Textbefehl mit der bestimmten Gruppe von gültigen Befehlen verglichen wird.
  • Dementsprechend kann, da eine Gruppe von gültigen Befehlen auf der Grundlage von von dem Netzwerkanwendungsserver zur Verfügung gestellten Zustandsdefinitionsinformationen bestimmt wird, die Gültigkeit eines erlangten Textbefehls vor Übertragen des Textbefehls an den Netzwerkanwendungsserver geprüft werden. Folglich kann die Übertragung von fehlerhaften Textmitteilungen verhindert werden, um zugehörige Verzögerungen und eine Verschwendung von Verarbeitungszeit des Netzwerkanwendungsserver zu verhindern.
  • Vorzugsweise kann die Ladeeinrichtung dahingehend ausgestaltet sein, um Grammatik- und/oder Vokabelinformationen zu laden, die eine Gesamtgruppe von von dem Netzwerkanwendungsserver unterstützten gültigen Befehlen spezifiziert, wobei die Bestimmungseinrichtung dahingehend ausgestaltet sein kann, um die Gruppe von gültigen Befehlen auf der Grundlage der Gesamtgruppe von gültigen Befehlen und von in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformationen zu bestimmen.
  • Dadurch kann das Sprachsteuersystem mit den tatsächlichen Zuständen des Netzwerkanwendungsservers Schritt halten, indem. es sich auf Zustandsübergangsregeln bezieht, um die Gesamtgruppe von gültigen Befehlen auf diejenigen Befehle zu beschränken, die dem tatsächlichen Zustand des Netzwerkanwendungsservers entsprechen.
  • Alternativ kann die Bestimmungseinrichtung dahingehend ausgestaltet sein, um die Ladeeinrichtung zu veranlassen, eine zustandsabhängige Grammatik-Datei zu laden, die eine Gruppe von gültigen Befehlen für einen spezifischen Zustand des Netzwerkanwendungsservers definiert, wenn die Bestimmungseinrichtung auf der Grundlage von in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformationen einen Zustandswechsel bestimmt.
  • Folglich wird nur die Gruppe von auf einen besonderen Zustand des Netzwerkanwendungsservers anwendbaren gültigen Befehlen durch Bezugnahme auf die Zustandsübergangsinformationen geladen. Dadurch kann die Genauigkeit verbessert werden und Netzwerkverbindungen können effektiver verwendet werden.
  • Vorzugsweise kann das Netzwerksteuersystem eine Spracherkennungseinrichtung zur Umwandlung eines von einem Teilnehmeranschluss empfangenen Eingangssprachbefehls in den Textbefehl aufweisen, um dem Netzwerkanwendungsserver zugeführt zu werden. Folglich kann ein zentrales Sprachsteuersystem in dem Netzwerk zur Verfügung gestellt werden, auf das von individuellen Teilnehmeranschlüssen aus zugegriffen werden kann.
  • Im Falle der Verwendung eines (nachfolgend als WAP = Wireless Application Protocol bezeichneten) drahtlosen Anwendungsprotokolls bei einem mobilen Netzwerk, kann das Sprachsteuersystem bei einem (nachfolgend als WTA-Server = Wireless Telephony Application server bezeichneten) drahtlosen Telefonieanwendungsserver eingebaut sein, wobei der WTA-Server dahingehend ausgestaltet sein kann, um von einer Netzwerkspracherkennungseinrichtung den Textbefehl zu empfangen, um einen von einem Teilnehmeranschluss empfangenen Eingangssprachbefehl in den Textbefehl umzuwandeln. Dadurch können vorhandene WTA-Anwendungen mit einer optimierten Spracherkennung verbessert werden.
  • Als eine Alternative kann das Sprachsteuersystem ein Teilnehmeranschluss sein, der eine Eingabeeinrichtung zum Eingeben eines Sprachbefehls, eine Übertragungseinrichtung zum Übertragen des Sprachbefehls an eine Spracherkennungseinrichtung des Telekommunikationsnetzwerks, und eine Empfangseinrichtung zum Empfang des Textbefehls von der Spracherkennungseinrichtung aufweist, wobei die Übertragungseinrichtung dahingehend ausgestaltet ist, um den empfangenen Textbefehl an den Netzwerkanwendungsserver zu übertragen.
  • Folglich wird die Gültigkeitsüberprüfung des empfangenen Textbefehls bei dem Teilnehmeranschluss durchgeführt, beispielsweise der Mobilstation, bevor er an den Netzwerkanwendungsserver übertragen wird. Daher kann die Verarbeitungszeit bei dem Netzwerkanwendungsserver reduziert werden, da er nur gültige Befehle empfangen wird.
  • Die Zustandsdefinitionsinformationen können eine Datendatei wie beispielsweise eine WML-Datei (Wireless Markup Language file) oder eine HTML-Datei (Hyper Text Markup Language file) sein. Diese Datendatei kann online an das Sprachsteuersystem als ein Teil der von dem Netzwerkanwendungsserver gesandten Standardinformationen gesendet werden.
  • Außerdem können die Zustandsdefinitionsinformationen eine Ladeanweisung zum Laden der zustandsabhängigen Grammatik- und/oder Vokabular-Datei enthalten. Dadurch kann das Sprachsteuersystem die Ladeanweisung direkt zum Laden der spezifischen Gruppe von gültigen Befehlen für den Fall verwenden, dass eine Änderung des Zustands des Netzwerkanwendungsservers bestimmt wird.
  • Vorzugsweise können die Zustandsdefinitionsinformationen von dem Netzwerkanwendungsserver bei einer Setup-Zeit des Servers zur Verfügung gestellt werden.
  • Zudem können die Zustandsdefinitionsinformationen zusammen mit einem Befehlsgruppeninfo in einem Netzwerkserver gespeichert werden, der auf der Hardware des Sprachsteuersystems läuft.
  • Vorzugsweise kann das Sprachsteuersystem eine Vielzahl von anbieterspezifischen Spracherkennungseinrichtungen umfassen, wobei entsprechende Parameter für die Vielzahl von anbieterspezifischen Spracherkennungseinrichtungen in den Zustanddefinitionsinformationen definiert sind. Da durch kann ein universelles Sprachsteuersystem erlangt werden, das auf einer hardware- und software-unabhängigen Plattform basiert. Folglich kann abhängig von dem Netzwerkanwendungsserver eine erforderliche Audioverarbeitungshardware und eine anbieterspezifische Spracherkennungseinrichtung ausgewählt werden.
  • Weitere bevorzugte Entwicklungen der Erfindung sind in den abhängigen Ansprüchen definiert.
  • Kurze Beschreibung der Zeichnung
  • Nachfolgend wird die Erfindung auf der Grundlage eines bevorzugten Ausführungsbeispiels unter Bezugnahme auf die beiliegende Zeichnung ausführlicher beschrieben. Es zeigen:
  • 1 ein Blockschaltbild eines Telekommunikationsnetzwerks mit einem Sprachsteuersystem gemäß dem bevorzugten Ausführungsbeispiel der Erfindung;
  • 2 ein Flussdiagramm eines Sprachsteuerverfahrens gemäß dem bevorzugten Ausführungsbeispiel der Erfindung; und
  • 3 ein Blockschaltbild eines Telekommunikationsnetzwerks mit einem Sprachsteuersystem auf WAP-Grundlage gemäß dem bevorzugten Ausführungsbeispiel der Erfindung.
  • Beschreibung des bevorzugten Ausführungsbeispiels
  • In 1 ist ein Blockschaltbild eines Telekommunikationsnetzwerks mit dem Sprachsteuersystem gemäß dem bevor zugten Ausführungsbeispiel der Erfindung dargestellt. Gemäß 1 steht eine Mobilstation (MS) 1 mit einem Basisstations-Untersystem (BSS) 2 über Funk in Verbindung, das über ein mobiles Schaltzentrum (MSC) 3 mit einem Telekommunikationsnetzwerk 4 verbunden ist. Das Telekommunikationsnetzwerk 4 kann ein Datennetzwerk wie das Internet sein, das verschiedenste Dienste zur Verfügung stellt.
  • Zudem ist ein Netzwerkanwendungsserver (NAS) 5 mit dem Netzwerk 4 verbunden, um einen speziellen Dienst auf der Grundlage von entsprechenden Befehlen zur Verfügung zu stellen. Zusätzlich steht eine automatische Spracherkennungseinrichtung (ASR-Einrichtung) oder ASR-Maschine als eine zentrale Einrichtung zur Verfügung, um eine Spracheingabe an Teilnehmeranschlüssen wie der Mobilstation 1 zu ermöglichen.
  • Zum Verfeinern des Erkennungsprozesses und Erreichen von Erkennungsraten mit höherer Genauigkeit, finden in der ASR-Maschine 6 sprachspezifische Merkmale Anwendung. Um eine hohe Genauigkeit der Spracherkennung zu erreichen, muss die Anwendung auf einen erforderlichen Kontext feinabgestimmt werden. Dies wird durch Spezifizieren eines Vokabulars für die Anwendung und in dem Kontext der Anwendung gültige Grammatiken vorgenommen. Das Vokabular ist grundsätzlich eine Gruppe von von der ASR-Maschine 6 zu erkennenden Wörtern, beispielsweise Wörter wie Schließen, Lesen, Mitteilung, Orange, Stift, Stuhl, Beenden, Öffnen usw. Bei der ASR-Maschine 6 kann eine Einrichtung zum Spezifizieren der Grammatik für eine gegebene Anwendung zur Verfügung gestellt sein. Dies könnte durch eine regelbasierende Grammatik wie beispielsweise
    allgemein bekannter <Befehl> = [<Höflich>] <Aktion>
    <Objekt> (und <Objekt>)*;
    <Aktion> = Lesen | Nächster | Löschen;
    <Objekt> = Mitteilung | Gegenstand
    <Höflich> = Bitte;
    erzielt werden.
  • Bei der vorangehenden regelbasierenden Grammatik ist eine allgemein bekannte Regel, <Befehl>, spezifiziert, die von einem Benutzer gesprochen werden kann. Die Regel ist eine Kombination von Unterregeln <Aktion>, <Objekt> und <Höflich>, wobei die eckigen Klammern um <Höflich> eine Optionalität davon anzeigen. Daher würde die vorangehende Grammatik die folgenden Befehle unterstützen: „Mitteilung lesen", „Bitte Gegenstand und Mitteilung lesen" usw.
  • Bei befehlsbasierenden ASR-Anwendungen werden regelbasierende Grammatiken verwendet, um alle gesprochene Eingabe zu definieren, für deren Behandlung die Anwendung programmiert ist. Die regelbasierende Grammatik spezifiziert grundlegend alle gesprochenen Befehle (oder Befehlssyntax), die von einer Anwendung unterstützt werden. Im Falle eines E-Mail-Lesers enthält die Grammatik-Datei alle Befehle, die die E-Mail-Anwendung akzeptieren wird (z. B. Mitteilung 1, Mitteilung 2, ..., Mitteilung N, Beenden, Löschen und Nächste Mitteilung).
  • Die ASR-Maschine 6 lädt im Allgemeinen die zugehörige Grammatik-Datei vor dem Starten der Spracherkennung. Einige Anwendungen können sogar mehrere Grammatik-Dateien aufweisen, um verschiedene Kontexte einer Anwendung wie beispielsweise dem Netzwerkanwendungsserver 5 zu definieren, wobei die ASR-Maschine 6 gefordert ist, die kontextabhängige Grammatik-Datei während der Laufzeit zu laden.
  • Bei dem bevorzugten Ausführungsbeispiel sind eine Grammatik-Datei, eine Vokabular-Datei und eine Anwendungszustandsdefinitionsdatei (ASD-Datei) definiert. Daher erstellt jeder Netzwerkanwendungsserver 5 eine ASD-Datei, eine Grammatik-Datei und/oder eine Vokabular-Datei. Die Grammatik-Datei ist an die Anforderungen der ASR-Maschine 6 angepasst, wobei ASR-Maschinen 6 unterschiedlicher Anbieter unterschiedliche Grammatik-Dateiformate aufweisen können.
  • Die ASD-Datei ist eine Datei, die alle möglichen Zustände der Anwendung beschreibt, und wie zwischen Zuständen gesprungen wird, sowie die gültigen Zustände für jeden Zustand beschreibt. Folglich stellt die ASD-Datei eine Einrichtung zur Spezifizierung der kontextabhängigen Grammatik-Dateien und auch einen Vokabular-Dateinamen zur Verfügung. Dies ist ein wichtiges Merkmal, da eine gegebene Anwendung abhängig von dem Kontext verschiedene Grammatiken und/oder Vokabularien verwenden kann. Wird diese Information online auf die ASR-Maschine 6 geladen, kann die Spracherkennung und die Gesamtantwortzeit aufgrund der kleinen Gruppe von gültigen Befehlen und der resultierenden hohen Erkennungsgenauigkeit bemerkenswert verbessert werden.
  • Für den Fall, dass die ASD-Datei auf einer HTML (Hyper Text Markup Language) ähnlichen Syntax basiert, könnte sie wie folgt definiert sein:
    Figure 00140001
    Figure 00150001
    wobei eine <ASD>-Kennzeichnung die Datei als einen Dateityp identifiziert, der die Zustandsdefinition des Netzwerkanwendungsservers 5 zur Verfügung stellt, eine <APP>-Kennzeichnung den Anwendungsnamen und eine <STATE>-Kennzeichnung einen gegebenen Zustand definiert, d. h. den Namen des Zustands, die gültigen Befehle für diesen Zustand, und mit jedem Befehl ist auch der nächste Zustand definiert, zu dem die Anwendung springen muss. Eine derartige <STATE>-Kennzeichnung ist für jeden Zustand der Netzwerkanwendung definiert. Die <GRAMMAR>-Kennzeichnung stellt eine Einrichtung zur Definition der Befehle und der Syntax der Befehle zur Verfügung.
  • Gemäß der vorangehenden Datei muss die Anwendung nach den Mitteilungen 1, 2, 3 ... N zu dem Zustand „Lesen" springen. Die <DIGITS>-Kennzeichnung definiert eine spezielle Grammatik. Bei dem gegenwärtigen Fall zeigt die <GRAMMAR>-Kennzeichnung, dass die Ziffern 1, 2, 3, 4 oder 5 sein können. Nach dem Befehl „Beenden" sollte die Anwen dung beendet werden (was als ein NULL-Zustand („") bezeichnet wird). Es sei bemerkt, dass der Zustand in das „Hauptmenü" zu transferieren ist, wenn bei dem „Lesen"-Zustand ein „Beenden"-Befehl ausgegeben wird.
  • Unter Verwendung dieser Herangehensweise, teilt die ASD-Datei der ASR-Maschine 6 oder der Mobilstation 1 mit, welche Befehle für einen gegebenen Kontext gültig sind. Damit die Mobilstation 1 oder die ASR-Maschine 6 mit den Zuständen des Netzanwendungsservers 5 Schritt halten kann, werden auch in der ASD-Datei Zustandsübergangsregeln zur Verfügung gestellt. Bei Verwendung von anderen eine kontextabhängige Grammatik-Datei enthaltenden Kennzeichnungen wäre es möglich, der ASR-Maschine 6 eine Anweisung zu geben, welche Grammatik- oder Vokabular-Datei zu laden ist. Dadurch kann eine höhere Flexibilität zur Verfügung gestellt und kann eine Erkennung genauer gemacht werden, da die ASR-Maschine 6 auf den Kontext des Netzwerkanwendungsservers feinabgestimmt ist. Nachfolgend ist ein Beispiel für eine derartige Kennzeichnung dargestellt:
    <STATE="Lesen" LOADGRAMMAR="URL=ftp://hs.gh.com/Reademail.gmr" "LOADVOCABULRRY= „URL=ftp://hs.gh.com/Reademail.vcb"
    COMMANDS="Nächster", NEXTSTATE="Lesen", <PREV>, NEXTSTATE=„Lesen", <QUIT>, NEXTSTATE="Hauptmenü">;
  • 2 zeigt ein Flussdiagramm eines Beispiels für eine Spracherkennungsverarbeitung, wie sie bei dem bevorzugten Ausführungsbeispiel ausgeführt wird.
  • Zu Beginn lädt die ASR-Maschine 6 eine entsprechende ASD-Datei von dem zu verbindenden Netzwerkanwendungsserver 5 (S101). In der geladenen ASD-Datei wird die ASR-Maschine angewiesen, eine zustandsabhängige Grammatik-Datei zu laden, d. h „Read Email.gmr" wenn der Netzwerkanwendungsserver 5 den Zustand „Lesen" eingibt. Alternativ kann die ASR-Maschine 6 von dem Netzwerkanwendungsserver 5 eine allgemeine Grammatik-Datei laden (S102).
  • Auf der Grundlage der Grammatik-Datei werden dann für eine Spracherkennung gültige Textbefehle bestimmt (S103). Im Falle einer zustandsabhängigen Grammatik-Datei werden die in der geladenen Grammatik-Datei definierten Befehle als gültige Befehle für die Spracherkennung bestimmt. Im Falle einer allgemeinen Grammatik-Datei werden die gültigen Befehle von der allgemeinen Grammatik-Datei gemäß einer in der ASD-Datei zur Verfügung gestellten entsprechenden Information ausgewählt. Dementsprechend werden nur die bestimmten gültigen Befehle bei diesem Zustand zugelassen oder zumindest bis eine verschiedene Grammatik-Datei geladen wird.
  • Danach wird ein Sprachbefehl von der Mobilstation 1 empfangen (S104) und es wird für den empfangenen Sprachbefehl eine Spracherkennung durchgeführt (S105). Der Textbefehl wird von der Spracherkennungsverarbeitung von dem empfangenen Sprachbefehl abgeleitet und dann mit den bestimmten gültigen Textbefehlen geprüft (S106).
  • Falls bei Schritt S107 ein gültiger Befehl bestimmt wird, wird der Textbefehl direkt dem Netzwerkanwendungsserver 5 oder der Mobilstation 1 zugeführt (S108). Ansonsten wird eine Fehlermeldung durchgeführt, um die Mobilstation über den fehlerhaften Sprachbefehl zu informieren (S109).
  • Danach bezieht sich die ASR-Maschine 6 auf die in der ASD-Datei definierten Zustandsübergangsregeln und be stimmt, ob der zugeführte Befehl zu einem Zustandswechsel des Netzwerkanwendungsservers 5 führt (S110). Wurde kein Zustandswechsel bestimmt, kehrt die Verarbeitung zu Schritt S104 zurück, um einen weiteren Sprachbefehl zu empfangen und, wenn erforderlich, Spracherkennung der anderen empfangenen Sprachbefehle durchzuführen.
  • Wurde ein Zustandswechsel bestimmt, kehrt die Verarbeitung zu Schritt S103 zurück und die ASR-Maschine 6 bezieht sich auf die ASD-Datei, um eine neue Gruppe von gültigen Textbefehlen zu bestimmen. Dies kann entweder durch Laden einer neuen zustandsabhängigen Grammatik-Datei gemäß einer von der ASD-Datei zur Verfügung gestellten Anweisung erzielt werden, oder durch Auswählen von neuen gültigen Befehlen von der allgemeinen Grammatik-Datei auf der Grundlage einer entsprechenden Information in der ASD-Datei. Nachfolgend wird bei Schritt 104 ein neuer Sprachbefehl empfangen und die Spracherkennung wird bei Schritt 105 fortgesetzt.
  • Es ist ein wichtiger Aspekt, dass es für DSR-Typ-Anwendungen notwendig ist ein Standardverfahren aufzuweisen, das anwendungsspezifische Merkmale an die ASR-Maschine 6 weiterleitet, da die ASR-Maschine 6 eine ASR-Quelle zum allgemeinen Zweck ist und jede Netzwerkanwendung in der Lage sein sollte, die ASR-Merkmale durch Herstellen von Zustandsdefinition und Grammatik-Dateien zu verwenden. Daher kann gemäß dem bevorzugten Ausführungsbeispiel die ASR-Maschine 6 während der Laufzeit eine neue Grammatik-Datei laden. Dies bedeutet, dass die ASR-Maschine 6 angewiesen sein kann, nur die auf einen bestimmten Zustand/ Kontext des Netzwerkanwendungsservers 5 anwendbaren Grammatikregeln zu laden, indem sie sich auf die ASD-Datei bezieht. Dies verbessert in hohem Maße die Erkennungsgenauigkeit und Effizienz der Verwendung der Netzwerkver bindungen.
  • Eine Ausführung des Netzwerkanwendungsservers 5 und seiner Benutzerschnittstelle kann abhängig von der verwendeten Software- und Hardwareplattform variieren. Die meisten Netzwerkanwendungsserver 5 können eine HTTP-Schnittstelle (d. h. HTML), eine WAP (Wireless Application Protocol – WML) – Schnittstelle oder eine eigene Anwendungsschnittstelle (API) zur Verfügung stellen. Ist die ASD-Datei entweder auf WML (Wireless Markup Language) oder HTML (Hyper Text Markup Language) eingerichtet, kann sie als eine universelle Definitionsdatei für Anwendungszustände oder Sprachbefehle bei einem beliebigen Typ einer auf einem Netzwerkanwendungsserver 5 laufenden Anwendung verwendet werden. Unter Verwendung dieser ASD-Information wäre die ASR-Maschine 6 in der Lage, eine interne Repräsentation der relevanten Netzwerkanwendungsserver-Anwendung aufzubauen. Diese Repräsentation oder das Modell kann dann verwendet werden, um die ASR-Maschine 6 in Synchronisation mit den Anwendungszuständen des Netzwerkanwendungsservers 5 zu halten.
  • Daher wird jeder ein Spracherkennungsmerkmal zur Verfügung stellender Netzwerkanwendungsserver 5 seine sprachspezifische(n) WML-Karte(n) oder den HTML-Ort aufweisen. Als ein Beispiel für einen täglichen Nachrichtendienst kann die Zustandsdefinitionsinformation URL (Uniform Resource Locator) eine Datei sein, wie beispielsweise:
    //services.internal.net/dailynews/speechsettings
  • Daher muss das Sprachsteuersystem, sei es, dass es sich in der Mobilstation 1 oder in einem Netzwerkserver befindet, diese Datei von der gegebenen URL laden.
  • Dann kann außerdem, wenn der Netzwerkanwendungsserver 5 gegenwärtig ein Server mit HTTP- oder WAP-Ursprung ist, die von diesem Server gesendete erste WML-Karte oder HTML-Seite die vorgenannte spezifische URL unter einer speziellen Kennzeichnung umfassen. Dadurch kann die Mobilstation 1 informiert werden, dass diese Anwendung eine Sprachsteuerung unterstützt und dass die Datei bei dieser URL geladen werden muss, um die Spracherkennungsfähigkeit zur Verfügung zu stellen.
  • Folglich könnten die ASD-Dateien online an die ASR-Maschine 6 als ein Teil der von dem Netzwerkanwendungsserver gesendeten Standard-HTML-/-WML-Skripten gesendet werden. Die ASR-Maschine 6 würde diese Skripten automatisch interpretieren und mit dem Netzwerkanwendungsserver 5 Schritt halten, um die Sprachbefehle effektiv zu verarbeiten und Funktionen durchzuführen, wie beispielsweise online Laden von Grammatik-Dateien usw. In diesem Fall würde sich die ASR-Maschine 6 direkt auf die in der LOADGRAMMAR-Kennzeichnung spezifizierte URL beziehen, um die zugehörige Grammatik-Datei zu lesen.
  • Für andere nicht WML-/HTML-Anwendungen des Netzwerkanwendungsservers 5 werden zum Zeitpunkt des Setups, d. h. offline, ASD-Dateien von dem Netzwerkanwendungsserver 5 an die ASR-Maschine 6 zugeführt. Diese ASD-Dateien müssen im Einklang mit der zuvor beschriebenen HTML-ähnlichen Spezifikation hergestellt werden und werden zusammen mit einer Grammatik-Datei auf einem WWW-Server (beispielsweise www.asr.com) gespeichert, der auf der Hardware der ASR-Maschine 6 läuft.
  • Zu Beginn einer Interaktion zwischen der ASR-Maschine 6 und dem Netzwerkanwendungsserver 5 lädt die ASR-Maschine 6 zuerst die ASD-Datei von dem Server www.asr.com und bildet die/das interne Zustandsrepräsentation/Mdell der Anwendung des Netzwerkanwendungsservers 5. Danach kann die ASR-Maschine mit den Zuständen des Netzwerkanwendungsservers 5 Schritt halten und verarbeitet Sprachbefehle effizient und führt Funktionen wie beispielsweise ein Laden während der Laufzeit von Grammatik-Dateien aus. In diesem Fall enthält die LOADGRAMMAR-Kennzeichnung die gesamte URL, die auf www.asr.com zeigt.
  • Ist die Anwendung des Netzwerkanwendungsservers 5 beispielsweise ein „Voice-Mail-Server" mit einem Gerätenamen vmsvr, dann würde beispielsweise dies folgende URL Verwendung finden:
    „http://www.asr.com/vmsvr/Grammar/vmail.gmr"
  • Die vorangehenden Anwendungen lagen der Verwendung einer einzelnen ASR-Maschine 6 in dem Netzwerk 4 zu Grunde. Hierbei ist die ASR-Maschine 6 festgelegten Hardware- und Softwareplattformen zu Grunde gelegt. Von der Blickrichtung der Mobilstationsanwendung her betrachtet, behandelt diese universelle ASR-Maschine 6 die ASR-Anforderungen und Antworten mit den entsprechenden Textbefehlen.
  • Für den Fall jedoch, dass die ASR-Maschine 6 auf einer hardware- und software-unabhängigen Plattform wie beispielsweise Java mit dem JSAPI basiert (Java-Sprache API, d. h. eine Standard-API, die zur Zeit in der Entwicklung ist und eine gemeinsame API für ASR-Maschinen von unterschiedlichen Anbietern zur Verfügung stellt), können die Funktionen der ASD-Datei noch weiter ausgedehnt werden. In diesem Fall kann eine Flexibilität der Auswahl einer erforderlichen Audioverarbeitungs-Hardware und eine anbieterspezifische ASR-Maschine 6 in Abhängigkeit von der Anwendung des Netzwerkanwendungsservers 5 zur Verfügung gestellt werden. Das bedeutet, dass eine logische ASR-Maschine mit der anbieterspezifischen physischen ASR-Maschine 6 auf der Grundlage der Anwendungsanforderungen des Netzwerkanwendungsservers 5 derart verbunden werden kann, dass sogar kundenspezifische Hardware zur Audioverarbeitung Verwendung finden kann. Die entsprechenden optionalen Parameter können in der ASR-Datei unter Verwendung zusätzlicher Kennzeichnungen definiert werden.
  • Nachfolgend wird ein Beispiel einer Ausführung der ASD-Datei bei einer WAP-Anwendung beschrieben, die von Betreibern verwendet werden kann, um ihre bestehenden Dienstleistungsangebote zu verbessern. Bei den vorangehenden Beispielen wurde die ASD-Datei von dem ASR-Server oder der -Maschine 6 verwendet, um eine kontextbasierende Spracherkennung durchzuführen. Bei diesem Beispiel, wie in 3 gezeigt, wurde die ASD-Datei von einem verschiedenen Anwendungsserver verwendet, d. h. dem WTA-Server (Wireless Telephony Application-Server) 7 in dem WAP, um ähnliche Aufgaben durchzuführen. Bei diesem Fall wird die Verwendung von WAP-fähigen Mobiltelefonen oder Stationen 1 angenommen.
  • Die WAP-fähige Mobilstation 1 kann den gesamten WAP-Stapel installiert haben und betreibt die (nachfolgend als WAE = Wireless Application Environment bezeichnete) drahtlose Anwendungsumgebung. Der WTA-Server 7 verfügt über die Fähigkeit, die Dienste des Netzwerks 4 zu steuern, welches in diesem Fall ein Standard-Mobilnetzwerk ist. Der WTA-Server 7 agiert als ein prinzipieller Inhaltsgenerator. Der Inhalt kann an den Kunden angepasst werden und zu dem Klienten heruntergeladen werden, welcher eine Mobilstation 1 ist, auf der eine WAP-Software läuft. Der WTA-Server 7 könnte auch Anrufsteuerfunktionen wie beispielsweise Informieren der Mobilstation 1 durch WTA-Ereignisse über Details hereinkommender Anrufe durchführen.
  • Zudem steht ein netzwerkbasierender ASR-Server 6 zur Verfügung, der einer Anwendung ermöglicht, um auf der Grundlage von Parametern wie beispielsweise ID/Adresse der Anwendung, MSISDN, Sprachcodiertyp, Grammatik-Datei-ID (zum Auswählen einer geeigneten Grammatikregel) und anderen optionalen Parametern mit dem Sprachserver zu verbinden. Außerdem kann der ASR-Server 6 über die Fähigkeit verfügen, einen hinausgehenden Anruf zu einer gegebenen MSISDN-Nummer durchzuführen, wobei der ASR-Server 6 die empfangene Audioeingabe mit einem PCM, CEP oder anderen Format extrahiert, die Audioeingabe an eine Spracherkennungsmaschine zuführt und den erkannten Text erlangt, und den Text an die ID/Adresse der anrufenden Anwendung sendet. Der WTA-Server 7 prüft dann die Gültigkeit des Textes und kann auch den ASR-Server 6 steuern, um Grammatik-Dateien usw. zu laden.
  • Jeder Netzwerkanwendungsserver 5 mit einer Sprachschnittstelle stellt dem WTA-Server 7 eine ASD-Datei zusammen mit einem grundlegenden WML-Kartenstapel, d. h. WML-Dokument, für diesen Dienst zur Verfügung. Der WTA-Server 7 lädt die ASD-Datei und kann die an die Mobilstation 1 gesendete WML auf der Grundlage der ASD-Datei-Einstellungen ändern. Auf der Grundlage der ASD-Datei werden Audiofunktionen der Mobilstation 1 und Einstellungen des ASR-Servers 6 in Abhängigkeit von dem Anwendungskontext gesteuert.
  • Bei diesem Beispiel kann die ASD-Datei Attribute wie beispielsweise eine für eine aktuelle Anwendung zu verwendende ASR-Maschine, einen von der ASR-Maschine unterstützten Codiertyp, der bei der aktuellen sprachbefähig ten Anwendung Verwendung findet, eine zu verwendende Default-Grammatik-Datei (Dateiname), ein Default-Vokabular (Dateiname oder Wörter) und Zustände der aktuellen Anwendung , d. h. eine Menühierarchie definieren. Jedes Menü stellt Spezifikationen für von dem Menü und entsprechenden NEXT-Zuständen unterstützte Befehle, neue Grammatikregeln und Vokabularien, die zuvor eingestellte Werte überschreiben können, und Parameter zur Verfügung, die spezifizieren, ob die aktuelle Anwendung ein Mikrophon oder einen Lautsprecher der Mobilstation 1 erfordert, der ein- oder ausgeschaltet ist.
  • Nachfolgend wird die Operation des WAP-basierenden Beispiels auf der Grundlage einer Wetterdienstanwendung und einer Voicemail-Dienstanwendung beschrieben.
  • Wetterdienstanwendung:
  • Der Dienstanbieter (oder Betreiber) stellt einen Wetterdienst für seine mobilen Teilnehmer zur Verfügung und bietet den Dienst über eine Sprachschnittstelle an. Der Betreiber hat den ASR-Server 6 in seinem Netzwerk 4 installiert und beabsichtigt diesen ASR-Server zusammen mit dem WTA-Server 7 zu verwenden, um den Wetterdienst mit einer Sprachschnittstelle zur Verfügung zu stellen.
  • In diesem Fall aktiviert der Benutzer der Mobilstation 1 ein Wettermenü, das bereits zur Verwendung der Sprachschnittstelle ausgelegt ist. Diese Anforderung wird von der WAE an den WTA-Server 7 gesendet. Dann sendet der WTA-Server 7 einen Stapel von WML-Karten, die von dem entsprechenden Netzwerkanwendungsserver 5 im voraus geladen wurden und sich auf den Wetterdienst beziehen, an die Mobilstation 1. An dieser Stelle geht die WAE-Software der Mobilstation 1 in eine Hör-Betriebsart über, um einen ankommenden Anruf von dem ASR-Server 6 des Netzwerks 4 zu beantworten. Danach sendet der WTA-Server 7 eine Anforderung für eine ASR-Sitzung an den ASR-Server 6, einschließlich eines MSISDN, einer zugewiesenen Sitzungs-ID mit dem WTA-Server 7 und auch einer ID einer zu verwendenden Grammatikregel. Der Grammatikregelname wird aus der ASD-Datei abgeleitet, die zuvor von dem entsprechenden Netzwerkanwendungsserver 5 für den Wetterdienst geladen wurde.
  • Der ASR-Server 6 stellt die erforderlichen Betriebsmittel sicher, d. h. die Herauswählanschlüsse und ASR-Sitzungen auf dem Sprachgerät sind verfügbar, und sendet eine Bestätigung an den WTA-Server 7. Nachfolgend ruft der ASR-Server 6 das MSISDN an und das Netzwerk 4 sendet eine Anrufanzeige an die Mobilstation 1. Die WAE-Software der Mobilstation 1 beantwortet automatisch den Anruf und es wird eine Sprachverbindung zwischen dem ASR-Server 6 und der Mobilstation 1 aufgebaut. Tatsächlich wird die vorgenannte Anrufsignalisierung zwischen der Mobilstation 1 und dem ASR-Server 6 über den WTA-Server 7 durchgeführt.
  • Gemäß der von dem WTA-Server 7 erlangten anwendungsabhängigen WML deaktiviert die Mobilstation 1 ihren Sprecher und sendet alle über sein Mikrophon empfangene Audioeingabe über die aufgebaute Sprachverbindung. Die Audioeingabe kann von der WAE-Software gemäß einem erforderlichen Format, d. h. PCM, CEP oder dergleichen codiert werden. Der ASR-Server 6 wandelt die empfangene Audioeingabe in Text um und sendet den erlangten Text an den WTA-Server 7.
  • Seitdem die Wettersitzung gestartet wurde, hat der WTA-Server 7 die entsprechende ASD-Datei geladen und befindet sich nun in einer Position, um den empfangenen Text mit den gültigen kontextabhängigen Befehlen zu vergleichen. Wurde ein gültiger Befehl, beispieleweise „London UK" empfangen, fordert der WTA-Server 7 die WML/HTML für London UK von dem den Wetterdienst zur Verfügung stellenden Netzwerkanwendungsserver 5 an. Der Netzwerkanwendungsserver 5 antwortet mit dem angeforderten Wetterbericht für London und der WTA-Server 7 führt den WML-Kartenstapel für das Londonwetter der Mobilstation 1 zu. Für den Fall, dass Grammatikregeln oder Vokabular in der Gruppe der WML-Karten geändert ist, enthält die ASD-Datei eine entsprechende Information und der WTA-Server 7 sendet die für das Londonwetter zu verwendenden neuen Grammatikregeln oder das Vokabular an den ASR-Server 6. Folglich ist der ASR-Server 6 dafür ausgelegt, die für die neuen WML-Karten erforderliche neue Grammatik oder das Vokabular zu verwenden.
  • Danach wird der von dem ASR-Server 6 aus den von der Mobilstation 1 empfangene Text an den WTA-Server 7 gesendet, der seine Gültigkeit überprüft. Für den Fall, dass ein gültiger Befehl, d. h. „Heathrow", empfangen wurde, fordert der WTA-Server 7 die Wetterinfo für London Heathrow an und der Netzwerkanwendungsserver 5 antwortet mit dem angeforderten Wetterbericht. Dann wird der WML-Kartenstapel für das Wetter von London Heathrow von dem WTA-Server 7 der Mobilstation 1 zugeführt.
  • Voicemail-Dienstanwendung:
  • In diesem Fall stellt der Dienstanbieter (oder -betreiber) einen Voicemail-Dienst mit einer Sprachschnittstelle für seine mobilen Teilnehmer zur Verfügung.
  • Der den Voicemail-Dienst zur Verfügung stellende Netzwerkanwendungsserver 5 sendet eine neue Voicemail-Mitteilung an den WTA-Server 7. Dann sendet der WTA-Server 7 einen Stapel von WML-Karten, der zuvor von dem Netzwerkanwendungsserver 5 geladen wurde und sich auf den Voicemail-Dienst bezieht, an die Mobilstation 1. An dieser Stelle geht die WAE-Software der Mobilstation 1 in eine Hör-Betriebsart über, um einen hereinkommenden Anruf von dem ASR-Server 6 des Netzwerks 4 zu beantworten. Dann sendet die Mobilstation 1 an den WTA-Server 7 eine ASR-Anforderung, die anzeigt, dass der Benutzer die Sprachschnittstelle zu dem Voicemail-Dienst hin betreiben will. An dieser Stelle weist der WTA-Server 7 das Netzwerk 4 an, alle Anweisungen über hereinkommende Anrufe an den WTA-Server 7 zu senden.
  • Danach sendet der WTA-Server 7 eine Anforderung für eine ASR-Sitzung an den ASR-Server 6, einschließlich eines MSISDN, einer zugewiesenen Sitzungs-ID mit dem WTA-Server 7 und auch einer ID einer zu verwendenden Grammatikregel. Der Grammatikregelname wird aus der zuvor von dem entsprechenden Netzwerkanwendungsserver 5 für den Voicemail-Dienst geladenen ASD-Datei abgeleitet.
  • Der ASR-Server 6 stellt die erforderlichen Betriebsmittel sicher, d. h. die Herauswählanschlüsse und ASR-Sitzungen auf der Sprachmaschine sind verfügbar, und sendet eine Bestätigung an den WTA-Server 7. Nachfolgend ruft der ASR-Server 6 das MSISDN an und das Netzwerk 4 sendet eine Anrufanzeige an die Mobilstation 1. Die WAE-Software der Mobilstation 1 beantwortet automatisch den Anruf und es wird eine Sprachverbindung zwischen dem ASR-Server 6 und der Mobilstation 1 aufgebaut.
  • Gemäß der von dem WTA-Server 7 erlangten anwendungsabhängigen WML aktiviert die Mobilstation 1 sowohl ihren Lautsprecher als auch ihr Mikrophon und sendet alle über sein Mikrophon empfangene Audioeingabe über die aufgebaute Sprachverbindung. Die Audioeingabe kann von der WAE-Software gemäß einem erforderlichen Format, d. h. PCM, CEP oder dergleichen codiert werden. Der ASR-Server 6 wandelt die empfangene Audioeingabe in Text um.
  • Nun sendet der WTA-Server 7 einen Befehl, um das gegebene MSISDN zu dem Netzwerkanwendungsserver 5 anzurufen, der den Voicemail-Dienst zur Verfügung stellt, der dann das MSISDN anruft. In diesem Fall wird ein Mehrparteienanruf eingerichtet, da der ASR-Server 6 bei der Mobilstation 1 eine Spracheingabe erfordert und der Netzwerkanwendungsserver 5 der Mobilstation 1 Audio senden muss. Diese beiden Dienste befinden sich in verschiedenen Geräten und können keine beliebige API (Application Programming Interface) oder Verbindung miteinander haben. Da beide Dienste auf die Mobilstation 1 zugreifen müssen, ist ein Mehrparteienanruf erforderlich, der im folgenden erläutert wird.
  • Bei der Einrichtung eines Mehrparteienanrufs empfängt der WTA-Server 7 eine Anrufanzeige für das MSISDN und sendet eine Anrufanzeige-Ereignismitteilung mit speziellen Parametern an die Mobilstation 1, um ein Hinzufügen des Anrufs zu einem Mehrparteienanruf anzuweisen. Die Mobilstation 1 sendet eine Anrufhaltemitteilung, um das Netzwerk 4 anzuweisen, den Anruf 1 zu halten, d. h. den Anruf von dem ASR-Server 6 an die Mobilstation 1. Dann nimmt die Mobilstation 1 den Anruf 2 an, d. h. den Anruf von dem Netzwerkanwendungsserver 5 an die Mobilstation 1, und es wird eine Sprachverbindung aufgebaut. Danach weist die Mobilstation 1 den Aufbau eines Mehrparteienanrufs derart an, d. h. mit Anruf 1 und 2, dass nun sowohl der ASR-Server 6 als auch der Netzwerkanwendungsserver 5 mit der Mobilstation 1 verbunden sind.
  • Seitdem die Voicemail-Sitzung gestartet wurde, hat der WTA-Server 7 die entsprechende ASD-Datei für Voicemail geladen und befindet sich nun in einer Position, um den empfangenen Text mit den gültigen kontextabhängigen Befehlen zu vergleichen. Wurde ein gültiger Befehl, d. h. „Anthony" empfangen, fordert der WTA-Server 7 den den Voicemail-Dienst zur Verfügung stellenden Netzwerkanwendungsserver 5 auf, die Mitteilung „Anthony" abzuspielen. Dementsprechend führt der Netzwerkanwendungsserver 5 eine Wiedergabe der Mitteilung „Anthony" durch.
  • Es ist zu verstehen, dass die vorangehende Beschreibung und die beiliegende Zeichnung nur beabsichtigen die Erfindung zu veranschaulichen. Insbesondere ist die Erfindung nicht auf Spracherkennung oder Steuersysteme für Mobiltelefone beschränkt, sondern kann auch in einem beliebigen Datennetzwerk Verwendung finden. Folglich können die Vorrichtung und das Verfahren gemäß der Erfindung innerhalb des Geltungsbereichs der anhängenden Ansprüche variieren.
  • Es wird ein Sprachsteuersystem und ein -verfahren beschrieben, bei denen von einem Netzwerkanwendungsserver Zustandsdefinitionsinformationen geladen werden. Die Zustandsdefinitionsinformationen definieren mögliche Zustände des Netzwerkanwendungsservers und werden zum Bestimmen einer Gruppe von gültigen Befehlen des Netzwerkanwendungsservers derart verwendet, dass eine Gültigkeit eines von einem Umwandeln eines Eingabesprachbefehls erlangten Textbefehls durch Vergleichen des Textbefehls mit der bestimmten Gruppe von gültigen Befehlen geprüft werden kann. Dadurch kann eine Übertragung fehlerhafter Textbefehle an den Netzwerkanwendungsserver verhindert werden, um die Gesamtverarbeifungszeit und Antwortverzögerungen zu reduzieren.

Claims (17)

  1. Sprachsteuersystem für ein Telekommunikationsnetzwerk (4), mit: a) einer Ladeeinrichtung zum Laden von Zustandsdefinitionsinformationen von einem Netzwerksanwendungsserver (5), wobei die Zustandsdefinitionsinformationen alle möglichen Zustände des Netzwerksanwendungsservers (5) definieren; b) einer Bestimmungseinrichtung zur Bestimmung einer Gruppe von gültigen Befehlen für den Netzwerksanwendungsserver (5) auf der Grundlage der Zustandsdefinitionsinformationen; und c) einer Prüfeinrichtung zum Prüfen einer Gültigkeit eines Textbefehls, der durch Umwandeln eines Eingangssprachbefehls erlangt wird, um zur Steuerung des Netzwerksanwendungsservers (5) verwendet zu werden, indem der Textbefehl mit der vorbestimmten Gruppe von gültigen Befehlen verglichen wird.
  2. System nach Anspruch 1, wobei die Ladeeinrichtung dahingehend ausgestaltet ist, um eine Grammatik- und/ oder Vokabelinformation zu laden, die eine gesamte Gruppe von gültigen Befehlen spezifiziert, die von dem Netzwerksanwendungsserver unterstützt werden, wobei die Bestimmungseinrichtung dahingehend ausgestaltet ist, um die Gruppe von gültigen Befehlen auf der Grundlage der gesamten Gruppe von gültigen Befehlen und einer in den Zu standsdefinitionsinformationen enthaltenen Zustandsübergangsinformation zu bestimmen.
  3. System nach Anspruch 1, wobei die Bestimmungseinrichtung dahingehend ausgestaltet ist, um die Ladeeinrichtung zu veranlassen, eine zustandsabhängige Grammatikdatei zu laden, die eine Gruppe von gültigen Befehlen für einen spezifischen Zustand des Netzwerksanwendungsservers (5) definiert, wenn die Bestimmungseinrichtung auf der Grundlage einer in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformation eine Zustandsänderung bestimmt.
  4. System nach einem der vorangehenden Ansprüche, wobei das Sprachsteuersystem eine Spracherkennungseinrichtung (6) zur Umwandlung eines von einem Teilnehmeranschluss (1) empfangenen Eingangssprachbefehls in den Textbefehl aufweist, um dem Netzwerksanwendungsserver (5) zugeführt zu werden.
  5. System nach einem der Ansprüche 1 bis 3, wobei das Telekommunikationsnetzwerk (4) ein mobiles Netzwerk ist und das Sprachsteuersystem in einem drahtlosen Telefonanwendungs-Server (WTA-Server) (7) eingebunden ist, und wobei der WTA-Server (7) dahingehend ausgestaltet ist, um von einer Netzwerkspracherkennungseinrichtung (6) den Textbefehl zu empfangen, um einen von einem Teilnehmeranschluss (1) empfangenen Eingangssprachbefehl in den Textbefehl umzuwandeln.
  6. System nach einem der Ansprüche 1 bis 3, wobei das Sprachsteuersystem einen Teilnehmeranschluss (1) umfasst, der eine Eingabeeinrichtung zum Eingeben eines Sprachbefehls, eine Übertragungseinrichtung zum Übertragen des Sprachbefehls an eine Spracherkennungseinrichtung (6) des Telekommunikationsnetzwerks (4), und eine Empfangseinrichtung zum Empfang des Textbefehls von der Spracherkennungseinrichtung (6) aufweist, wobei die Übertragungseinrichtung dahingehend ausgestaltet ist, um den empfangenen Textbefehl an den Netzwerkanwendungsserver (5) zu übertragen.
  7. System nach Anspruch 3, wobei die Zustandsdefinitionsinformationen eine Ladeanweisung zum Laden der zustandsabhängigen Grammatikdatei enthalten.
  8. System nach einem der vorangehenden Ansprüche, wobei die Zustandsdefinitionsinformationen eine Datendatei sind.
  9. System nach Anspruch 8, wobei die Datendatei eine WML-Datei ist.
  10. System nach Anspruch 8, wobei die Datendatei eine HTML-Datei ist.
  11. System nach Anspruch 9 oder 10, wobei die Datendatei Online an das Sprachsteuersystem als ein Teil von von dem Netzwerkanwendungsserver (5) gesendeten Standardinformationen gesendet wird.
  12. System nach Anspruch 1, wobei die Zustandsdefinitionsinformationen von dem Netzwerkanwendungsserver (5) bei einer Setup-Zeit zur Verfügung gestellt werden.
  13. System nach Anspruch 4, wobei die Zustandsdefinitionsinformationen zusammen mit einer Befehlsgruppeninformation in einem Netzwerkserver gespeichert werden, der auf einer Hardware des Sprachsteuersystems läuft.
  14. System nach Anspruch 4 oder 6, wobei das Sprachsteuersystem eine Vielzahl von käuferspezifischen Spracherkennungseinrichtungen aufweist, und wobei entsprechende Parameter der Vielzahl von käuferspezifischen Spracherkennungseinrichtungen in den Zustandsdefinitionsinformationen definiert sind.
  15. Sprachsteuerverfahren für ein Telekommunikationsnetzwerk, mit den Schritten zum: a) Laden von Zustandsdefinitionsinformationen von einer Netzwerksanwendung, wobei die Zustandsdefinitionsinformationen alle möglichen Zustände der Netzwerksanwendung definieren; b) Bestimmen einer Gruppe von gültigen Befehlen für die Netzwerksanwendung auf der Grundlage der Zustandsdefinitionsinformationen; und c) Prüfen einer Gültigkeit eines Textbefehls, der durch Umwandeln eines Sprachbefehls erlangt wird, um zur Steuerung der Netzwerksanwendung verwendet zu werden, indem der Textbefehl mit der bestimmten Gruppe von gültigen Befehlen verglichen wird.
  16. Verfahren nach Anspruch 15, zudem mit den Schritten zum Laden einer Grammatik- und/oder Vokabelinformation, die eine gesamte Gruppe von gültigen Befehlen für die Netzwerksanwendung spezifiziert, wobei der Bestimmungsschritt auf der Grundlage der gesamten Gruppe von gültigen Befehlen und einer in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformation durchgeführt wird.
  17. Verfahren nach Anspruch 15, zudem mit dem Schritt zum Laden einer zustandsabhängigen Grammatikdatei, die eine Gruppe von gültigen Befehlen für einen spezifischen Zustand der Netzwerksanwendung definiert, wenn auf der Grundlage von in den Zustandsdefinitionsinformationen enthaltenen Zustandsübergangsinformationen eine Zustandsänderung bestimmt wurde.
DE69814181T 1998-09-22 1998-09-22 Verfahren und vorrichtung zur konfiguration eines spracherkennungssystems Expired - Lifetime DE69814181T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP1998/006030 WO2000017854A1 (de) 1998-09-22 1998-09-22 Speech control system and method

Publications (2)

Publication Number Publication Date
DE69814181D1 DE69814181D1 (de) 2003-06-05
DE69814181T2 true DE69814181T2 (de) 2004-03-04

Family

ID=8167070

Family Applications (1)

Application Number Title Priority Date Filing Date
DE69814181T Expired - Lifetime DE69814181T2 (de) 1998-09-22 1998-09-22 Verfahren und vorrichtung zur konfiguration eines spracherkennungssystems

Country Status (8)

Country Link
US (1) US7212970B2 (de)
EP (1) EP1116373B1 (de)
JP (1) JP4067276B2 (de)
AT (1) ATE239336T1 (de)
AU (1) AU1025399A (de)
DE (1) DE69814181T2 (de)
ES (1) ES2198758T3 (de)
WO (1) WO2000017854A1 (de)

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6633846B1 (en) 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US9076448B2 (en) 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US7725307B2 (en) 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US6665640B1 (en) 1999-11-12 2003-12-16 Phoenix Solutions, Inc. Interactive speech based learning/training system formulating search queries based on natural language parsing of recognized user queries
EP1137242A1 (de) * 2000-03-24 2001-09-26 Alcatel Telekommunikationssystem,Terminal und Netzwerk zur Sprachbefehlung
FR2810823A1 (fr) * 2000-06-27 2001-12-28 Canecaude Emmanuel De Systeme et procede pour transmettre des informations selon un protocole pour des applications sans fil, et equipement de communication mobile adapte
GB2364480B (en) 2000-06-30 2004-07-14 Mitel Corp Method of using speech recognition to initiate a wireless application (WAP) session
US6925307B1 (en) * 2000-07-13 2005-08-02 Gtech Global Services Corporation Mixed-mode interaction
US7400712B2 (en) * 2001-01-18 2008-07-15 Lucent Technologies Inc. Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access
US7610547B2 (en) 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7472091B2 (en) 2001-10-03 2008-12-30 Accenture Global Services Gmbh Virtual customer database
US7640006B2 (en) 2001-10-03 2009-12-29 Accenture Global Services Gmbh Directory assistance with multi-modal messaging
US7254384B2 (en) 2001-10-03 2007-08-07 Accenture Global Services Gmbh Multi-modal messaging
JP2003114698A (ja) * 2001-10-03 2003-04-18 Denso Corp コマンド受付装置及びプログラム
US7233655B2 (en) 2001-10-03 2007-06-19 Accenture Global Services Gmbh Multi-modal callback
ATE335354T1 (de) * 2001-10-03 2006-08-15 Accenture Global Services Gmbh Mehrfachmodales nachrichtenübertragungsrückrufsystem mit dienstauthorisierer und virtueller kundendatenbank
US7441016B2 (en) 2001-10-03 2008-10-21 Accenture Global Services Gmbh Service authorizer
JP2003143256A (ja) * 2001-10-30 2003-05-16 Nec Corp 端末装置と通信制御方法
US7149287B1 (en) 2002-01-17 2006-12-12 Snowshore Networks, Inc. Universal voice browser framework
US7275217B2 (en) * 2002-09-09 2007-09-25 Vijay Anand Saraswat System and method for multi-modal browsing with integrated update feature
US7386443B1 (en) 2004-01-09 2008-06-10 At&T Corp. System and method for mobile automatic speech recognition
JP4789507B2 (ja) * 2005-05-24 2011-10-12 株式会社小松製作所 変速装置
US7698140B2 (en) * 2006-03-06 2010-04-13 Foneweb, Inc. Message transcription, voice query and query delivery system
US20080114604A1 (en) * 2006-11-15 2008-05-15 Motorola, Inc. Method and system for a user interface using higher order commands
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US8838457B2 (en) 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US8886540B2 (en) * 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US10056077B2 (en) 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US8032383B1 (en) * 2007-05-04 2011-10-04 Foneweb, Inc. Speech controlled services and devices using internet
US8019606B2 (en) * 2007-06-29 2011-09-13 Microsoft Corporation Identification and selection of a software application via speech
US8379801B2 (en) 2009-11-24 2013-02-19 Sorenson Communications, Inc. Methods and systems related to text caption error correction
US9159322B2 (en) 2011-10-18 2015-10-13 GM Global Technology Operations LLC Services identification and initiation for a speech-based interface to a mobile device
US9183835B2 (en) * 2011-10-18 2015-11-10 GM Global Technology Operations LLC Speech-based user interface for a mobile device
US9326088B2 (en) 2011-10-21 2016-04-26 GM Global Technology Operations LLC Mobile voice platform architecture with remote service interfaces
US20130103404A1 (en) * 2011-10-21 2013-04-25 GM Global Technology Operations LLC Mobile voice platform architecture
EP2798634A4 (de) * 2011-12-29 2015-08-19 Intel Corp Spracherkennung unter verwendung eines dynamischen satzes von grammatikelementen
EP2798632A4 (de) * 2011-12-29 2015-10-07 Intel Corp Direktzugriff auf grammatik
US9583100B2 (en) 2012-09-05 2017-02-28 GM Global Technology Operations LLC Centralized speech logger analysis
KR101284594B1 (ko) * 2012-10-26 2013-07-10 삼성전자주식회사 영상처리장치 및 그 제어방법, 영상처리 시스템
US9875494B2 (en) * 2013-04-16 2018-01-23 Sri International Using intents to analyze and personalize a user's dialog experience with a virtual personal assistant
US9530416B2 (en) 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US20160111090A1 (en) * 2014-10-16 2016-04-21 General Motors Llc Hybridized automatic speech recognition
CN107833576A (zh) * 2017-11-17 2018-03-23 哈尔滨工大服务机器人有限公司 一种具有中间服务器的语义处理方法及系统
US11562731B2 (en) 2020-08-19 2023-01-24 Sorenson Ip Holdings, Llc Word replacement in transcriptions

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054054A (en) * 1989-02-07 1991-10-01 International Business Machines Corporation Voice applications generator
US5251233A (en) 1990-12-20 1993-10-05 Motorola, Inc. Apparatus and method for equalizing a corrupted signal in a receiver
US5325402A (en) 1991-04-30 1994-06-28 Nec Corporation Method and arrangement for estimating data sequences transmsitted using Viterbi algorithm
US5303263A (en) 1991-06-25 1994-04-12 Oki Electric Industry Co., Ltd. Transmission channel characteristic equalizer
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5790598A (en) 1996-03-01 1998-08-04 Her Majesty The Queen In Right Of Canada Block decision feedback equalizer
US5867817A (en) * 1996-08-19 1999-02-02 Virtual Vision, Inc. Speech recognition manager
US6282511B1 (en) * 1996-12-04 2001-08-28 At&T Voiced interface with hyperlinked information
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
US6269336B1 (en) * 1998-07-24 2001-07-31 Motorola, Inc. Voice browser for interactive services and methods thereof
JP2000076040A (ja) * 1998-09-03 2000-03-14 Matsushita Electric Ind Co Ltd 音声入力ネットワーク端末装置

Also Published As

Publication number Publication date
ES2198758T3 (es) 2004-02-01
DE69814181D1 (de) 2003-06-05
JP4067276B2 (ja) 2008-03-26
US7212970B2 (en) 2007-05-01
JP2002525689A (ja) 2002-08-13
US20010047258A1 (en) 2001-11-29
EP1116373B1 (de) 2003-05-02
ATE239336T1 (de) 2003-05-15
WO2000017854A1 (de) 2000-03-30
AU1025399A (en) 2000-04-10
EP1116373A1 (de) 2001-07-18

Similar Documents

Publication Publication Date Title
DE69814181T2 (de) Verfahren und vorrichtung zur konfiguration eines spracherkennungssystems
DE69835718T2 (de) Verfahren und Gerät zur Sprachinteraktion über ein Netzwerk unter Verwendung von parametrierbaren Interaktionsdefinitionen
DE69832057T2 (de) Datendienst in einem mobilen kommunikationsnetz
DE69913953T2 (de) Verfahren und vorrichtung zur verarbeitung von elektronischen post
DE69636157T2 (de) Verfahren und System zum graphischen Anzeigen und zur Navigation durch ein interaktives Sprachantwortmenü
DE60214059T2 (de) Verfahren und Funkschnittstellenschicht bestehend aus einer Menge von Anwendungsprogrammierungsschnittstellen (APIs)
DE69213436T2 (de) Integriertes anwendunggesteuertes anrufverarbeitungs- und nachrichtensystem
DE60036012T2 (de) Methode und vorrichtung zur selektiven bereitstellung anwenderspezificher information zum ursprungsserver in wap anwendungen
DE602005002132T2 (de) System und verfahren zur fernüberwachung von geräten mit hilfe eines steuer-, einrichtungs-, funkkommunikationsmoduls und entsprechendes programm
DE60215990T2 (de) Dynamisches Dienstmerkmal in einem mobilen Kommunikationsgerät oder einer SIM-Karte zum Empfang und zur Ausführung von dynamischen Dienstskripten in Form kurzer Textnachrichten, beispielsweise SMS
DE102005063134A1 (de) Verfahren zur Einstellung eines Kommunikationsgeräts und Kommunikationsgerät davon
DE69927566T2 (de) Konfiguration von diensten eines intelligenten netzes
DE602005005814T2 (de) Vorrichtung und Verfahren zur Fernaktivierung/-deaktivierung von Diensten für Kommunikationsendgeräte über ein IP Netzwerk
DE60217740T2 (de) Verfahren zur Sprachauswahl und Mobilkommunikationssystem
DE10208295A1 (de) Verfahren zum Betrieb eines Sprach-Dialogsystems
EP1230780B1 (de) Anpassbare chipkarte
DE69533253T2 (de) Verfahren und System zur individuellen Anpassung von Kommunikationen über ein Netzwerk
DE60216483T2 (de) Übertragung einer MAP Nachricht von einer MSC zu einem SCP
WO2003055158A1 (de) System zur umsetzung von textdaten in eine sprachausgabe
DE60223120T2 (de) Verfahren zur realisierung von dynamischen lastausgleich von sprachdiensten in intelligenten netzen und aus diesem verfahren hervorgehendes netz
DE19834210A1 (de) Durchführung interaktiver Dienstdialoge in einem Telekommunikationsnetz
DE69833470T2 (de) Verfahren und Gerät zur Aktualisierung von Textdaten für eine elektrische Einrichtung
EP1150479A2 (de) Verfahren zur interaktive Informationsabfrage mittels eines Mobiltelefons
DE69928266T2 (de) Endgerät zur Ausführung von einer Endgerätsanwendung
DE10147503A1 (de) Verfahren zur Konfiguration eines Kommunikationsendgeräts

Legal Events

Date Code Title Description
8364 No opposition during term of opposition