DE60133529T2 - Sprachnavigation in Webanwendungen - Google Patents

Sprachnavigation in Webanwendungen Download PDF

Info

Publication number
DE60133529T2
DE60133529T2 DE60133529T DE60133529T DE60133529T2 DE 60133529 T2 DE60133529 T2 DE 60133529T2 DE 60133529 T DE60133529 T DE 60133529T DE 60133529 T DE60133529 T DE 60133529T DE 60133529 T2 DE60133529 T2 DE 60133529T2
Authority
DE
Germany
Prior art keywords
server
component
information
click
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60133529T
Other languages
English (en)
Other versions
DE60133529D1 (de
Inventor
Carsten Dr. Günther
Walter Hänel
Thomas Schäck
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nuance Communications Inc
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Application granted granted Critical
Publication of DE60133529D1 publication Critical patent/DE60133529D1/de
Publication of DE60133529T2 publication Critical patent/DE60133529T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition

Description

  • Die vorliegende Erfindung offenbart ein System und Verfahren zur Erfassung von Informationen durch Spracheingabe, insbesondere ein System und Verfahren zur kontextunabhängigen Navigation in Web-Anwendungen bzw. verwandten Web-Seiten unter Verwendung von Spracheingabe.
  • Gebiet der Erfindung
  • Die vorliegende Erfindung betrifft allgemein ein sprachgesteuertes System und Verfahren zur Erfassung von Informationen, die über ein Netzwerk, insbesondere über ein Intranet oder das Internet, zugänglich sind.
  • Beschreibung des verwandten Fachgebiets
  • Die Bedeutung von Hypertextsystemen nimmt in vielen Bereichen der Daten- und Kommunikationstechnologie rasch zu. Wichtige Beispiele, die bereits realisiert wurden, sind:
    Typische Hypertext-Unterstützungsfunktionen und Hypertextdokumentationen für Softwareanwendungen (zum Beispiel unter grafischen Betriebssystemen für Personal Computer), bei denen der Anwender normalerweise innerhalb einzelner Hypertextdokumente navigieren kann, die als Datendateien auf einem Einzelcomputer sowie im World Wide Web (WWW) gespeichert sind, bei dem es sich um ein weltweites Hypertextnetzwerk handelt, das auf dem Internet beruht und es dem Anwender ermöglicht, durch eine Vielzahl von miteinander verknüpften Hypertextdokumenten zu navigieren, die sich gegenseitig zitieren (d. h. einen gegenseitigen Verweis aufeinander haben) und die allgemein auf einer großen Anzahl von in einer großen Entfernung voneinander angeordneten Rechnern in dem Netzwerk gespeichert sind. Dabei enthalten Hypertextdokumente allgemein Informationen in Form von Text, digitalen Bildern bzw. Audio- oder Videodaten oder Kombinationen daraus.
  • Die Möglichkeit der Navigation stellt ein wesentliches und bezeichnendes Merkmal aller Hypertextsysteme dar. Ein Hypertextdokument enthält neben dem eigentlichen Text des Dokuments ebenfalls spezielle Zeichenfolgen, die ebenso ein Bestandteil des eigentlichen Texts sein können und die normalerweise als Verknüpfungen (links) bzw. Hyperlinks bezeichnet werden und den Zweck der Hypertextnavigation erfüllen. Normalerweise sind diese Zeichenfolgen besonders gekennzeichnet, zum Beispiel indem sie in einer unterschiedlichen Farbe angezeigt werden oder anderweitig hervorgehoben sind, um die speziellen Zeichenfolgen von dem normalen Text des Dokuments zu unterscheiden. Wenn ein Anwender eines Hypertextsystems eine derartige Verknüpfung normalerweise durch ein kurzes Anklicken mit der Maus oder einem anderen Zeigegerät anwählt, reagiert das Hypertextsystem auf diese Anweisung dadurch, dass es den Teil desselben Hypertextdokuments anzeigt, welcher der Zeichenfolge (bzw. der Verknüpfung) zugeordnet ist, oder das System zeigt ein unterschiedliches Hypertextdokument an. Andere mögliche Reaktionen auf das Auswählen der Verknüpfung bestehen im Öffnen einer Verbindung mit einem anderen Rechner, zum Beispiel mit einer mit dem Internet verbundenen Datenbank, im Starten eines anderen Anwendungsprogramms, im Öffnen einer anderen Datendatei, im Einleiten eines Datenverarbeitungsvorgangs oder in einer Kombination aus derartigen möglichen Reaktionen. Außerdem führen Hypertextsysteme normalerweise ebenfalls andere Anweisungen aus, die nicht den Zeichenfolgen (Verknüpfungen) in den Hypertextdokumenten zugeordnet sind, wie zum Beispiel das Durchblättern von Dokumenten, die bereits angezeigt werden, oder von Teilen von Dokumenten (zum Beispiel Seiten eines Dokuments), das Speichern von Hypertextseiten in so genannten "Hot-Lists" (Sammlungen von Lesezeichen auf einer Homepage), das Abrufen oder Durchblättern von in Hot-Lists gespeicherten Seiten, das Aktualisieren von Bildern usw. Diese Anweisungen werden normalerweise so eingegeben, wie es für grafische Benutzeroberflächen typisch ist, zum Beispiel mit der Maus oder einem anderen Zeigegerät. Es gibt eine Vielzahl von möglichen Anwendungen für hypertextbasierte Systeme, bei denen die herkömmliche Art der Eingabe von Anweisungen bzw. der Aktivierung von Verknüpfungen als störend, unerwünscht oder sogar unmöglich erachtet werden. Dies ist zum Beispiel der Fall, wenn der Anwender behindert ist, seine Hände mit der Durchführung von anderen Aufgaben beschäftigt sind, oder wenn die Umgebungsbedingungen den Einsatz herkömmlicher Eingabegeräte ausschließen. Hier steht die Spracherkennung als einfache, natürliche Art der Eingabe zur Verfügung, die vom Anwender weniger Fertigkeiten als andere Eingabemittel erfordert. Der Integration von herkömmlichen, akustischen Spracherkennungssystemen, d. h. von Systemen zur Erkennung von gesprochener Sprache, mit Hypertextsystemen, die auch als "Betrachter" ("viewer") bzw. "Browser"-Systeme bekannt sind, stehen technologische Schwierigkeiten gegenüber. Spracherkennungssysteme müssen nämlich in der Lage sein, jedes Wort, das als Verknüpfung in einem Hypertextdokument vorkommen kann, zu erkennen. Da praktisch jedes Wort im Text ebenso ein Hyperlink sein kann, wären äußerst umfangreiche Wörterbücher für diesen Zweck erforderlich, und diese umfangreichen Wörterbücher würden die Verarbeitungsgeschwindigkeit und die Erkennungsleistung dieses Systems in einem unvertretbaren Ausmaß verringern. Selbst wenn der Einsatz von äußerst umfangreichen Wörterbüchern möglich wäre, könnte die Prägung zahlreicher neuer Wörter und richtiger Namen nicht erkannt werden, wobei diese neuen Wörter für viele Hypertextanwendungen so typisch sind, insbesondere jedoch für Hypertextnetzwerke wie das World Wide Web.
  • Die US-Patentschrift 6 029 135 beschreibt ein Hypertextnavigationssystem für sprachgesteuerte Navigation, bei dem ein Wörterbuch bereitgestellt wird, das Wahrscheinlichkeitsmodelle für gesprochene Wörter enthält. Das Wörterbuch- und Wahrscheinlichkeitsmodell, das mit den gesprochenen Wörtern abzugleichende Phonemfolgen enthält, wird im System des Anwenders während des Zugriffs auf das Hypertextdokument in der Laufzeitversion erzeugt. Eine rechnerunabhängige ("off-line") Version stellt ein Wörterbuch- und Wahrscheinlichkeitsmodell bereit, das zum Beispiel von dem Autor des Hypertextdokuments erzeugt wird, auf dem Server gespeichert ist und zu dem System des Anwenders geleitet wird, wenn der Anwender auf das Dokument zugreift. Das Wörterbuch- und Wahrscheinlichkeitsmodell entspricht den Hypertextelementen, die sich im Hypertextdokument befinden, auf das der Anwender zugreift. Entsprechend wird das Wörterbuch- und Wahrscheinlichkeitsmodell verworfen, und es wird auf das nächste Wörterbuch- und Wahrscheinlichkeitsmodell, das als das nächste Hypertextdokument empfangen wird, zugegriffen. Ebenso wird die Speicherung von zuletzt benutzten bzw. wichtigen Wörterbüchern und Wahrscheinlichkeitsmodellen bereitgestellt.
  • WO 99/48088 beschreibt ein System und Verfahren zur Realisierung eines sprachgesteuerten Webbrowser-Programms, das auf einem tragbaren Rechner ausgeführt wird. Auf dem tragbaren Rechner wird ein Web-Dokument empfangen und verarbeitet, um dynamisch eine Sprachgrammatik zu erzeugen. Die Sprachgrammatik wird zur Erkennung von Sprachbefehlen auf dem tragbaren Rechner verwendet. Alternativ wird ein Web-Dokument auf einem Serverrechner vorkompiliert, um eine Sprachgrammatik zu erzeugen, und die Sprachgrammatik wird gemeinsam mit ihrem entsprechenden Web-Dokument an den tragbaren Rechner übertragen. Der tragbare Rechner stellt einem Anwender drei Mechanismen zur Navigation durch Web-Seiten unter Verwendung von Sprache bereit. In einem Mechanismus wird dem Hyperlinktext ein jedem Hyperlink entsprechender Indexwert angehängt und dem Anwender angezeigt. Der Anwender kann den Indexwert aussprechen, um den entsprechenden Hyperlink zu aktivieren. In einem zweiten Mechanismus kann der Anwender den Text des Hyperlinks aussprechen, um den Hyperlink zu aktivieren. In einem dritten Mechanismus ruft der Anwender einen Befehl auf, um ein Dialogfenster mit einer Liste mit Hyperlinks und ihren entsprechenden Indexwerten anzuzeigen. Der Anwender kann einen Indexwert oder einen Hyperlink aussprechen, um den Hyperlink zu aktivieren.
  • Ein Nachteil dieses Systems besteht darin, dass die Spracherkennung hauptsächlich auf die in dem Hypertextdokument verwendeten Hyperlinks beschränkt ist, auf das der Anwender zugreift. Andere Hyperlinks, die in dem Hypertextdokument, auf das zugegriffen wird, nicht sichtbar sind, können nicht erkannt werden. Des Weiteren kann das System nach dem Stand der Technik keine Ausfüllformulare bearbeiten.
  • Daher ist es eine Aufgabe der vorliegenden Erfindung, ein Hypertextnavigationssystem bereitzustellen, das die Vorteile eines Zeigen-und-Klicken-Hypertextnavigationssystems mit sprachgesteuerten Hypertextnavigationssystemen nach dem Stand der Technik vereint, indem deren Nachteile vermieden werden.
  • Diese Aufgabe wird durch die Merkmale der unabhängigen Ansprüche erreicht. In den Unteransprüchen sind weitere bevorzugte Ausführungsbeispiele dargelegt.
  • Die vorliegende Erfindung ermöglicht es Anwendern, in einer Web-Anwendung oder in Web-Seiten unter Verwendung einer Kombination aus dem Zusammenspiel von Zeigen und Klicken und dem Zusammenspiel von Spracheingabe und Sprachausgabe zu navigieren. An jedem Punkt des Dialogs kann der Anwender die gewöhnliche Zeigen-und-Klicken-Schnittstelle verwenden, um kontextabhängige Aktionen durchzuführen, bzw. Spracheingabe verwenden, um alternativ in dem allgemeinen Anwendungskontext zu navigieren und zu agieren. Die Spracheingabe verwendet eine Sprachnavigationskomponente, die eine Schnittstelle zu der installierten Erkennungs- bzw. Synthesemaschine bildet. Die Zeigen-und-Klicken- und die Sprachnavigationskomponente werden gemeinsam mit der Ausgangs-Webseite einer Webanwendung automatisch geladen. Grammatiken oder Sprachmodelle zur Erkennung eines Wortschatzes, der sich auf diese Web-Anwendung bezieht, werden gemeinsam mit der Sprachnavigationskomponente bereitgestellt. Die vorliegende Erfindung vereint die Vorteile einer kontextabhängigen Zeigen-und-Klicken-Schnittstelle mit denen einer kontextunabhängigen Spracheingabeschnittstelle. Es ist ein Ansatz, Webbrowser im Hinblick auf multimodale Schnittstellen zu verbessern.
  • Die vorliegende Erfindung wird unter Verwendung einer bevorzugten Ausführungsform mit Figuren ausführlicher beschrieben, wobei
  • 1 die Architektur darstellt, in der die vorliegende Erfindung vorzugsweise verwendet werden kann
  • 2 eine bevorzugte Ausführungsform der vorliegenden Erfindung darstellt, die in der Architektur gemäß 1 verwendet wird
  • 3 das erfindungsgemäße Verfahren gemäß 2 darstellt
  • 4 einen Ablaufplan mit den erfindungsgemäßen Schritten zur Ausführung der vorliegenden Erfindung darstellt
  • 5 eine bevorzugte Benutzerschnittstelle zur Aktivierung der erfindungsgemäßen Zeigen-und-Klicken- und Sprachnavigationskomponente (Applet) durch den Anwender darstellt.
  • 6 das Verhältnis zwischen den Schnittstellen zwischen der erfindungsgemäßen Sprachnavigationskomponente (Applet) und der Spracherkennungs- und Sprachsynthesekomponente darstellt
  • 7 die Verwendung der Wortschätze durch die erfindungsgemäße Sprachnavigationskomponente (Applet) darstellt
  • In 1 ist die Grundarchitektur gezeigt, in der die vorliegende Erfindung vorzugsweise umgesetzt werden kann. Bei der Grundarchitektur kann es sich um eine Client-Server-Architektur handeln. Clientseitig sind zumindest die folgenden Standardkomponenten installiert:
    Audioausgabegerät (z. B. Lautsprecher oder Kopfhörer) (2), Mikrofon (4), Webbrowser (z. B. Netscape (6))
    Spracherkennungs- und Sprachsynthesesystem (z. B. IBM Via Voice (8) und IBM Via Voice Outloud (10).
  • Der Kern des Spracherkennungssystems ist als Spracherkennungsmaschine bekannt. Die Spracherkennungsmaschine erkennt eine Spracheingabe und übersetzt sie in Text, die von einer Anwendung verstanden wird. Die Anwendung entscheidet, was mit dem erkannten Text zu geschehen hat. Anwendungen, die mit Sprache umgehen können, (18) greifen über eine Spracherkennungs-Anwendungsprogrammierschnittstelle (Application Programming Interface – API) auf die Sprachmaschine und auf diverse Sprachressourcen zu.
  • Die Sprachmaschine kann die folgenden Ressourcen zur Verarbeitung gesprochener Wörter verwenden:
    Ursprungssprache des Anwenders
    Grammatiken
  • Die Ursprungssprache ist die vom Sprecher verwendete Sprache.
  • Jede Sprache kann mehrere verschiedene Grammatiken beinhalten.
  • Eine Grammatik ist eine Reihe von Wortschätzen, Aussprachen und Wortverwendungsmodellen, die darauf ausgelegt sind, die Anwendung zu unterstützen. Die Sprachmaschine verwendet die Grammatik, um Sprache für die Anwendung zu decodieren. Die Anwendung legt die Reihe von aktiven Wörtern fest, indem sie eine oder mehrere Grammatiken aktiviert.
  • Serverseitig sind vorzugsweise die folgenden Standardkomponenten installiert:
    Webserver oder HTTP-Server (14)
    eine oder mehrere Web-Anwendungen oder Servlets (18)
    ein Anwendungs-Server oder/und eine Datenbank (16)
  • 2 stellt die Umsetzung der vorliegenden Erfindung in einer wie in 1 gezeigten Client-Server-Architektur dar. Das Spracherkennungs- und Synthesesystem ist für signierte Java-Applets verfügbar.
  • Die Hauptkomponente der vorliegenden Erfindung ist die Sprachnavigationskomponente (Applet). Die Sprachnavigationskomponente (Applet) (2) führt die folgenden Hauptschritte aus:
    • – Auffinden, Auswählen und Initialisieren einer Spracherkennungsmaschine und Sprachsynthesemaschine
    • – Definieren, Aktivieren und Deaktivieren von Decodierungsgrammatiken
    • – Verarbeiten der Erkennungsergebnisse (z. B. Starten einer HTTP-Anforderung, Auslösen von gesprochenen Wörtern, Wiedergabe von voraufgezeichneten Eingabeaufforderungen).
  • Es ist möglich, allgemeine Grammatiken oder Sprachmodelle zu verwenden, die clientseitig (60) verfügbar sind.
  • Normalerweise sind sie gemeinsam mit der allgemeinen Spracherkennungsmaschine (10) installiert. Des Weiteren ist es erforderlich, anwendungsabhängige oder so genannte informationsabhängige Grammatiken vom Server in den Client (60) hochzuladen. Diese Grammatiken legen den Erkennungswortschatz zur Navigation innerhalb von verwandten Web-Seiten oder zu einer Web-Anwendung gehörenden Web-Seiten oder verwandten Web-Anwendungen fest. Die Zeigen-und-Klicken-Navigationskomponente (Applet 4) stellt sichtbare und aktivierbare Menüpunkte oder ausfüllbare Felder dar. Dieses Verfahren ist anwenderunfreundlich bzw. hat kompliziert aufgebaute Benutzerschnittstellen zu Web-Anwendungen (Servlets- 80), da es viele Klicks erfordert, um sich durch eine Menüstruktur zu arbeiten bzw. in einen neuen Menükontext umzuschalten. Folglich ist es wesentlich anwenderfreundlicher, die allgemeinere, erfindungsgemäße Sprachnavigationskomponente (Applet) (2) zu verwenden. Mögliche Eingabewerte (gesprochene Wörter) zur Auswahl von Verknüpfungen oder Menüpunkten bzw. zum Ausfüllen von Formularen in einer sichtbaren Web-Seite oder in unsichtbaren Web-Seiten können durch Grammatiken definiert werden. Deshalb ist es nicht notwendig, gültige Eingabewerte auf sichtbare Verknüpfungen zu beschränken. Außerdem ist es ebenfalls möglich, Verknüpfungen, die nichts mit dem Kontext zu tun haben, bzw. allgemeinere Verknüpfungen als Kurzbefehle mit Sprache steuerbar zu machen, um eine zeitaufwändige Navigation durch Menüs zu vermeiden.
  • Eine weitere Komponente der vorliegenden Erfindung ist die wie in bestehenden Systemen nach dem Stand der Technik (Maussystemen) verwendete, herkömmliche Zeigen-und-Klicken-Navigationskomponente (Applet 4). Die Zeigen-und-Klicken-Navigationskomponente (Applet PACNA) gestattet es, neue Web-Seiten durch Zeigen auf und Anklicken von in HTML-Dokumenten angezeigten Hyperlinks zu laden.
  • Beide Komponenten (2; 4) sind ursprünglich auf dem Serversystem gespeichert, und vorzugsweise startet das Laden einer Ausgangs-Webseite (6) vom Server (40) auf den Client das automatische Laden beider Komponenten. Soweit die anwendungsabhängigen Grammatiken in separaten Applets oder Dateien auf dem Server (40) festgelegt sind, können sie in Verbindung mit der Ausgangs-Webseite (6) geladen werden, die Verknüpfungen (Verweisinformationen/URIs) zu der entsprechenden Anwendungsgrammatik enthalten. In einer anderen Ausführung können die Grammatiken Teil der Sprachnavigationskomponente (Applet) sein.
  • Die Zeigen-und-Klicken-Navigationskomponente (Applet 4) und die Sprachnavigationskomponente (Applet) (2) verarbeiten die entsprechende Anwendereingabe, um eine für das Laden einer neuen Web-Seite benötigte HTTP-Anforderung zu erzeugen.
  • Der Anwender kann alternativ zwischen den beiden Komponenten (2, 4) wählen, indem er vorzugsweise auf das entsprechende Appletsymbol klickt, das in der GUI auf der durch die Web-Anwendung (Servlet) bereitgestellten Client-Anzeige angezeigt wird.
  • Weitere serverseitige Standardkomponenten können ein Webserver (z. B. IBM HTTP-Server; 70), ein Anwendungsserver (z. B. IBM Websphere; 65) und eine Datenbank (90) sein. Der Webserver und der Webbrowser tauschen miteinander Daten aus, und auf dem Server (40) sind Servlets (80) und Applets (2, 4) gespeichert. Die Servlets werden serverseitig ausgeführt, und die Applets werden clientseitig ausgeführt.
  • Clientseitig muss eine virtuelle Java-Maschine (100) zur Verarbeitung der Java-Applets verfügbar sein.
  • 3 stellt den Grundaufbau der Sprachnavigationskomponente (Applet) gemäß 2 dar.
  • Die Sprachnavigationskomponente (Applet 2), die vom Server (40) auf den Client (60) geladen wurde, wendet das Spracherkennungssystem (10) des Client über die JVM (100) an. Sie wird mit den installierten Erkennungs- und Synthesesystemen verbunden, Grammatiken oder Sprachmodellen, auf welche die Webanwendungen zugreifen sollen (Servlets; 80), werden aktiviert oder geladen, und Eingabeaufforderungen werden wiedergegeben. Die Sprachnavigationskomponente (Applet 2) leitet die Audioeingabe an die Spracherkennungsmaschine (10) weiter, um sie im Hinblick auf aktivierte Grammatiken zu decodieren. Das Erkennungsergebnis enthält erkannte Wörter/Satzglieder und grammatikalische Anmerkungen. Die Sprachnavigationskomponente (Applet 2) legt die Verarbeitung des Erkennungsergebnisses fest. Relevante Informationen des Ergebnisses werden herausgezogen und an den Server (40) z. B. an ein Servlet gesendet. Der Server (40) kann die Anforderung weiter verarbeiten und gibt demzufolge zum Beispiel eine neue Web-Seite (6) als Reaktion darauf aus. Mögliche Reaktionen können das Ändern des Browser-Inhalts, das Starten einer HTTP- Anforderung für das Laden einer neuen Web-Seite, das Auslesen von Informationen aus dem Server und das Einleiten eines serverbasierten Schreibvorgangs sein. Die Verarbeitung des Erkennungsergebnisses kann entweder im Client (60) oder im Server (40) durchgeführt werden, oder die Verarbeitung kann teils auf den Client (60) und teils auf den Server (40) aufgeteilt werden. Die semantische Verarbeitung der Spracheingabe kann zum Beispiel zwischen dem Client (60) und dem Server (40) aufgeteilt werden. Eine mögliche Ausführung kann sein, dass die anfängliche Signalverarbeitung clientseitig durch ein Signalverarbeitungs-Applet durchgeführt wird, der Merkmalsvektor über das Netzwerk an den Server gesendet wird und die Spracherkennung serverseitig durchgeführt wird.
  • 4 beschreibt die erfindungsgemäßen Verarbeitungsschritte der sprachaktivierten Navigation gemäß der vorliegenden Erfindung in Form eines Ablaufplanes.
    • 1. Der Browser nimmt Kontakt mit dem Webserver auf und lädt eine Ausgangs-Webseite (2).
    • 2. Der Browser lädt die kombinierte Zeigen-und-Klicken-und-Sprachnavigationskomponente (Applet). Die Ausgangs-Webseite enthält Verweisinformationen/Verknüpfungen (URIs-) zu der Zeigen-und-Klicken-und-Sprachnavigationskomponente (Applet). Der Browser wertet die URIs aus und lädt die entsprechenden Komponenten (Applets) (4).
    • 3. Die Sprachnavigationskomponente (Applet) fordert die Erkennungs- und Synthesemaschinen an. Die virtuelle Java-Maschine verarbeitet beide Komponenten (Applets). Die Sprachnavigationskomponente (Applet) initialisiert die sprachgesteuerte Benutzerschnittstelle. Sie findet, wählt und erzeugt eine Spracherkennungsmaschine und eine Sprachsynthesemaschine. Die Spracherkennungsmaschine ist zuständig für die Verarbeitung von Audioeingabe in den Browser, während die Sprachsynthesemaschine gesprochene Wörter (6) erzeugt.
    • 4. Die Sprachkomponente (Applet) sendet die aktuellen Wortschätze an die Spracherkennungsmaschine (8). Die Erkennung von eingehender Sprache ist grammatikgesteuert. Die eigentlich gültige Grammatik ist in Applets festgelegt, die gemeinsam mit der Sprachnavigationskomponente (Applet) geladen werden. Die Grammatik enthält Wörter/Satzglieder, die mit im Browser-Fenster sichtbaren Wörtern/Satzgliedern übereinstimmen. Des Weiteren kann die Sprachnavigationskomponente (Applet) zusätzliche Wörter/Satzglieder aktivieren, die nicht mit Ausdrücken im Browser-Fenster übereinstimmen. Die vorliegende Erfindung gestattet es, Wörter/Satzglieder aus einem breiteren Kontext zu aktivieren, nämlich Wortsatzglieder zur Navigation innerhalb von verwandten Webseiten oder zu einer Web-Anwendung gehörenden Web-Seiten oder verwandten Web-Anwendungen zu aktivieren, z. B. allgemeine Navigationsbefehle, Hilfebefehle, zusätzliche Untermenüpunkte und so weiter (informationsabhängige Grammatiken). Dies ermöglicht direkte, sprachgesteuerte Sprünge in Untermenüs von Anwendungen und überwindet den beschwerlichen Ansatz des sich Durchklickens durch endlose Menülisten und Ankreuzfelder.
    • 5. Die Spracherkennungsmaschine lädt, kompiliert und aktiviert informations-/anwendungsabhängige Grammatiken (10). Die Erkennungsmaschine aktiviert die festgelegten Grammatiken. Es ist möglich, mehrere Grammatiken zur Erkennung eines breiten Sprachumfangs zu aktivieren. Der eigentlich gültige Erkennungswortschatz ist innerhalb der Grammatiken festgelegt (10).
    • 6. Die Synthesemaschine erzeugt Aussprachen für unbekannte Wörter (12). Eine Spracherkennungsmaschine bringt einen Grundwortschatz und zugehörige Aussprachen mit sich. Eine Anwendung kann jedoch auch unbekannte Wörter enthalten. Die Erkennungsmaschine sendet eine Anforderung an die Synthesemaschine, um fehlende Aussprachen zu erzeugen. Diese Wörter werden dann zu den tatsächlich aktivierten Wörtern hinzugefügt.
    • 7. Die Spracherkennungsmaschine decodiert die Audioeingabe im Hinblick auf die aktivierten Grammatiken (14). Eine eingehende Audioeingabe wird an die Spracherkennungsmaschine geleitet. Die Spracherkennungsmaschine decodiert im Hinblick auf die aktivierten Grammatiken.
    • 8. Die Spracherkennungsmaschine sendet erkannten Text an die Sprachnavigationskomponente (Applet) (16). Das Erkennungsergebnis enthält erkannte Wörter/Satzglieder und grammatikalische Anmerkungen. Grammatikalische Anmerkungen stellen Rückgabewerte erkannter grammatikalischer Satzglieder dar und ermöglichen eine flexible Verarbeitung von Erkennungsergebnissen. Falscherkennungen (z. B. unvollständige Satzglieder, niedriger Audioeingabepegel) müssen durch die Sprachnavigationskomponente (Applet) abgewickelt werden.
    • 9. Die Sprachnavigationskomponente (Applet) legt die Verarbeitung der Erkennungsergebnisse fest (18).
    • 10. Mögliche Reaktionen sind:
    • – eine gesprochene Antwort
    • – Änderung des Browser-Inhalts
    • – Starten einer HTTP-Anforderung für das Laden einer neuen Anwendung/eines neuen Applet oder einer neuen Web-Seite, das Aktualisieren des Inhaltsrahmens, das Auslesen von Informationen aus einem Server, das Einleiten eines serverbasierten Schreibvorgangs (20).
  • 5 stellt ein Beispiel einer Benutzerschnittstelle für die Zeigen-und-Klicken-Navigationskomponente (Applet) und die Sprachnavigationskomponente (Applet) dar, die vorzugsweise in der vorliegenden Erfindung verwendet werden.
  • Der Teil der Benutzerschnittstelle der Sprachnavigationskomponente (Applet) stellt mehrere Optionen (6) zur Aktivierung verschiedener Grammatiken dar. Die Option 0-3 gestattet es zum Beispiel, Grammatiken zu aktivieren, die darauf beschränkt sind, ausschließlich sichtbare Verknüpfungen zu erkennen, und Option 2-2 gestattet es, Grammatiken, informationsabhängige Grammatiken, zu aktivieren, was es ermöglicht, Verknüpfungen, die nichts mit dem Kontext zu tun haben, bzw. allgemeinere Verknüpfungen mit Sprache steuerbar zu machen, indem zeitaufwändige Navigationsvorgänge vermieden werden.
  • 6 stellt die Vorteile der vorliegenden Erfindung in Bezug auf eine Börsenmakleranwendung für den Erwerb von Aktien einer bestimmten Firma über das Internet dar. Beginnend auf der Homepage der Anwendung muss der Anwender von der Verknüpfung "Kunden Funktion" in das durch den Pfeil angegebene Dateneingabefeld klicken. Dann muss er durch Eintippen von Informationen die entsprechenden Daten in das Dateneingabefeld eingeben. Durch Verwendung der vorliegenden Erfindung kann der Anwender sprachgesteuert direkt von der Verknüpfung "Kunden Funktion" zu dem gewünschten Dateneingabefeld navigieren, und er kann das Dateneingabefeld ebenfalls durch Sprache ausfüllen, ohne irgendwelche Informationen einzutippen.
  • Dies wird durch eine Grammatik (Applet) realisiert, die allgemeine Navigationsbefehle, Hilfebefehle, zusätzliche Untermenüpunkte und so weiter erkennt, die in dieser Börsenmakleranwendung enthalten sind.
  • 7 stellt die Beziehung der Schnittstellen durch eine spezifische Realisierung der vorliegenden Erfindung in der Via Voice Spracherkennungsmaschine (8) und der Text/Sprachemaschine (10) von IBM dar.
  • Die Anwendungsprogrammierschnittstelle zu der IBM Via Voice Maschine ist SMAPI (12). Sie unterstützt:
    • – Überprüfen der API-Version
    • – Herstellen eines Datenbanksitzungsabfrage-Systemparameters
    • – Herstellen einer Erkennungssitzung
    • – Einrichten von Wortschätzen
    • – Setzen von Sprachmaschinenparametern
    • – Verarbeiten von Spracheingabe
    • – Hinzufügen von neuen Wörtern zum Benutzerwortschatz
    • – Verarbeitungsfehler
    • – Trennen von der Sprachmaschine
    • – Schließen einer Sprachsitzung
  • SMAPI (8) wird als DLL bereitgestellt, die eine Verknüpfung mit der Stimmnavigationskomponente (Applet) (14) haben kann.
  • Die Anwendungsprogrammierschnittstelle zu der Via Voice Text/Sprachemaschine (10) von IBM wird SAPI (16) genannt. Die Text/Sprachemaschine verwendet die folgenden Ressourcen für die Übersetzung von Text in synthetische Sprache:
    • – Benutzerwörterbücher
    • – spezielle Wörter
    • – Abkürzungen
    • – Stammwörter.
  • SAPI wird als DLL bereitgestellt, die eine Verknüpfung mit der Stimmnavigationskomponente (Applet) (14) haben kann.
  • Sofern die Stimmnavigationskomponente (Applet) in der Programmiersprache Java geschrieben wurde, ist eine zusätzliche Java-API zwischen SMAPI und SAPI (12, 16) und der Stimmnavigationskomponente (Applet) (14) angeordnet. Die Java-API kann ebenso als DLL bereitgestellt werden, die eine Verknüpfung mit der Stimmnavigationskomponente (Applet – nicht gezeigt) haben kann.
  • Ausführlichere Informationen über ViaVoice-Programmierschnittstellen von IBM sind zugänglich unter http://w3.speech.ibm.com/tkdoc/ViaVoice/proguide/pgmgui03.htm

Claims (9)

  1. Navigationssystem für ein Clientsystem zur Erfassung von durch Webanwendungen bereitgestellten Informationen, wobei das Clientsystem umfasst: eine auf dem Clientsystem (60) installierte Spracherkennungsmaschine (10), einen auf dem Clientsystem installierten Browser (12) zur Herstellung der Kommunikation mit einer Kommunikationskomponente auf einem Serversystem (70), der den Zugriff auf auf diesem Server gespeicherte Informationen (6) bereitstellt, eine Sprachnavigationskomponente (2), die so konfiguriert ist, dass sie der Spracherkennungsmaschine (10) über den Browser informationsabhängige Grammatiken basierend auf von dem Serversystem geladenen Ausgangsinformationen bereitstellt, und die die Ergebnisse des Spracherkennungssystems (10) verarbeitet, eine Zeigen-und-Klicken-Navigationskomponente zum Laden von Webseiten durch Zeigen auf und Anklicken von in HTML-Dokumenten angezeigten Hyperlinks, dadurch gekennzeichnet, dass die Sprachnavigationskomponente und die Zeigen-und-Klicken-Komponente eine gemeinsame Benutzerschnittstelle mit durch einen Benutzer auswählbaren Optionen haben, wobei die Benutzerschnittstelle für die Sprachnavigationskomponente Optionen zur Auswahl von auf dem Server gespeicherten, informationsabhängigen Grammatiken bietet.
  2. Navigationssystem gemäß Anspruch 1, bei dem die Sprachnavigation und die Zeigen-und-Klicken-Komponente gemeinsam mit einer Ausgangs-Webseite vom Server geladen werden.
  3. Navigationssystem gemäß Anspruch 1, bei dem die Spracherkennungsmaschine (10) ferner eine Sprachsynthesemaschine umfasst.
  4. Verfahren zur Navigation durch ein Clientsystem zur Erfassung von durch Webanwendungen bereitgestellten Informationen, wobei das Verfahren die folgenden Schritte umfasst: Installieren einer Spracherkennungsmaschine (10) auf dem Client-System (60), Herstellen der Kommunikation mit einer Kommunikationskomponente auf einem Serversystem (70), das so konfiguriert ist, dass es mit einem Browser auf auf diesem Server gespeicherte Informationen (6) zugreift, Bereitstellen einer Sprachnavigationskomponente (2), die so konfiguriert ist, dass sie der Spracherkennungsmaschine (10) über den Browser informationsabhängige Grammatiken basierend auf von dem Serversystem geladenen Ausgangsinformationen bereitstellt, und die die Ergebnisse des Spracherkennungssystems (10) verarbeitet, Bereitstellen einer Zeigen-und-Klicken-Navigationskomponente für das Laden von Webseiten durch Zeigen auf und Anklicken von in HTML-Dokumenten angezeigten Hyperlinks, gekennzeichnet durch die Schritte des Bereitstellens einer gemeinsamen Benutzerschnittstelle für die Sprachnavigation- und die Zeigen-und-Klicken-Komponente, Bietens von Optionen zur Auswahl von auf dem Server gespeicherten, informationsabhängigen Grammatiken in der Schnittstelle für die Navigationskomponente.
  5. Verfahren gemäß Anspruch 4, bei dem die Sprachnavigation und die Zeigen-und-Klicken-Komponente gemeinsam mit einer Ausgangs-Webseite von dem Server geladen werden.
  6. Verfahren gemäß Anspruch 4, bei dem die informationsabhängige Grammatik mögliche Eingabewerte zur Navigation innerhalb von verwandten Webseiten oder zu einer Webanwendung gehörenden Webseiten oder verwandten Webanwendungen festlegt.
  7. Verfahren gemäß Anspruch 5, bei dem die Ausgangs-Webseite einen Verweis auf die Sprachnavigationskomponente und die Zeigen-und-Klicken-Komponente, die auf dem Server gespeichert sind, umfasst.
  8. Verfahren gemäß Anspruch 5, bei dem das Laden der Ausgangs-Webseite von den folgenden weiteren Schritten begleitet ist: automatisches Identifizieren von Verweisinformationen auf informationsabhängige Grammatiken in der Ausgangs-Webseite, automatisches Laden der identifizierten informationsabhängigen Grammatik auf den Client, und Bereitstellen von Zugriff auf die informationsabhängige Grammatik für die Spracherkennungsmaschine durch die Sprachnavigationskomponente.
  9. Rechnerprogramm, das auf einem rechnerlesbaren Medium gespeichert ist und das Software zur Durchführung jedes einzelnen Schritts des Verfahrens gemäß einem der Ansprüche 4 bis 8, wenn das Programm auf einem Rechner ausgeführt wird, umfasst.
DE60133529T 2000-11-23 2001-10-13 Sprachnavigation in Webanwendungen Expired - Lifetime DE60133529T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP00125606 2000-11-23
EP00125606 2000-11-23

Publications (2)

Publication Number Publication Date
DE60133529D1 DE60133529D1 (de) 2008-05-21
DE60133529T2 true DE60133529T2 (de) 2009-06-10

Family

ID=8170455

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60133529T Expired - Lifetime DE60133529T2 (de) 2000-11-23 2001-10-13 Sprachnavigation in Webanwendungen

Country Status (3)

Country Link
US (1) US7146323B2 (de)
AT (1) ATE391986T1 (de)
DE (1) DE60133529T2 (de)

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7516190B2 (en) 2000-02-04 2009-04-07 Parus Holdings, Inc. Personal voice-based information retrieval system
US6721705B2 (en) 2000-02-04 2004-04-13 Webley Systems, Inc. Robust voice browser system and voice activated device controller
JP4004839B2 (ja) * 2002-04-15 2007-11-07 株式会社東芝 通信装置及びネットワークシステム
US6910911B2 (en) 2002-06-27 2005-06-28 Vocollect, Inc. Break-away electrical connector
US20040061717A1 (en) * 2002-09-30 2004-04-01 Menon Rama R. Mechanism for voice-enabling legacy internet content for use with multi-modal browsers
US7966188B2 (en) * 2003-05-20 2011-06-21 Nuance Communications, Inc. Method of enhancing voice interactions using visual messages
US8161116B2 (en) * 2003-05-23 2012-04-17 Kirusa, Inc. Method and system for communicating a data file over a network
WO2004109471A2 (en) * 2003-06-06 2004-12-16 The Trustees Of Columbia University In The City Of New York System and method for voice activating web pages
US20040260786A1 (en) * 2003-06-20 2004-12-23 Barile Steven E. Method and apparatus for caching multimedia content from the Internet on occasionally-connected devices
US20050010418A1 (en) * 2003-07-10 2005-01-13 Vocollect, Inc. Method and system for intelligent prompt control in a multimodal software application
US7555533B2 (en) * 2003-10-15 2009-06-30 Harman Becker Automotive Systems Gmbh System for communicating information from a server via a mobile communication device
US7660400B2 (en) * 2003-12-19 2010-02-09 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically building conversational systems
EP1555652B1 (de) * 2004-01-19 2007-11-14 Harman Becker Automotive Systems GmbH Betätigung eines Sprachdialogsystems
DE602004017955D1 (de) * 2004-01-29 2009-01-08 Daimler Ag Verfahren und System zur Sprachdialogschnittstelle
ATE400871T1 (de) 2004-01-29 2008-07-15 Harman Becker Automotive Sys Multimodale dateneingabe
EP1562180B1 (de) * 2004-02-06 2015-04-01 Nuance Communications, Inc. Sprachdialogsystem und Verfahren zum Steuern eines elektronischen Gerätes
US8768711B2 (en) * 2004-06-17 2014-07-01 Nuance Communications, Inc. Method and apparatus for voice-enabling an application
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US7650284B2 (en) * 2004-11-19 2010-01-19 Nuance Communications, Inc. Enabling voice click in a multimodal page
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US8977636B2 (en) * 2005-08-19 2015-03-10 International Business Machines Corporation Synthesizing aggregate data of disparate data types into data of a uniform data type
US8266220B2 (en) * 2005-09-14 2012-09-11 International Business Machines Corporation Email management and rendering
US8577682B2 (en) * 2005-10-27 2013-11-05 Nuance Communications, Inc. System and method to use text-to-speech to prompt whether text-to-speech output should be added during installation of a program on a computer system normally controlled through a user interactive display
US8694319B2 (en) 2005-11-03 2014-04-08 International Business Machines Corporation Dynamic prosody adjustment for voice-rendering synthesized data
US8271107B2 (en) * 2006-01-13 2012-09-18 International Business Machines Corporation Controlling audio operation for data management and data rendering
US9135339B2 (en) 2006-02-13 2015-09-15 International Business Machines Corporation Invoking an audio hyperlink
US20070192683A1 (en) * 2006-02-13 2007-08-16 Bodin William K Synthesizing the content of disparate data types
US20070192674A1 (en) * 2006-02-13 2007-08-16 Bodin William K Publishing content through RSS feeds
US7996754B2 (en) * 2006-02-13 2011-08-09 International Business Machines Corporation Consolidated content management
US7505978B2 (en) * 2006-02-13 2009-03-17 International Business Machines Corporation Aggregating content of disparate data types from disparate data sources for single point access
US9092542B2 (en) * 2006-03-09 2015-07-28 International Business Machines Corporation Podcasting content associated with a user account
US9361299B2 (en) * 2006-03-09 2016-06-07 International Business Machines Corporation RSS content administration for rendering RSS content on a digital audio player
US8849895B2 (en) * 2006-03-09 2014-09-30 International Business Machines Corporation Associating user selected content management directives with user selected ratings
US8286229B2 (en) * 2006-05-24 2012-10-09 International Business Machines Corporation Token-based content subscription
US20070277088A1 (en) * 2006-05-24 2007-11-29 Bodin William K Enhancing an existing web page
US7778980B2 (en) * 2006-05-24 2010-08-17 International Business Machines Corporation Providing disparate content as a playlist of media files
GB2440766B (en) * 2006-08-10 2011-02-16 Denso Corp Control system
US9196241B2 (en) * 2006-09-29 2015-11-24 International Business Machines Corporation Asynchronous communications using messages recorded on handheld devices
US7831432B2 (en) 2006-09-29 2010-11-09 International Business Machines Corporation Audio menus describing media contents of media players
US7742922B2 (en) * 2006-11-09 2010-06-22 Goller Michael D Speech interface for search engines
US9318100B2 (en) * 2007-01-03 2016-04-19 International Business Machines Corporation Supplementing audio recorded in a media file
US8219402B2 (en) 2007-01-03 2012-07-10 International Business Machines Corporation Asynchronous receipt of information from a user
USD626949S1 (en) 2008-02-20 2010-11-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US8386261B2 (en) 2008-11-14 2013-02-26 Vocollect Healthcare Systems, Inc. Training/coaching system for a voice-enabled work environment
US20110246187A1 (en) * 2008-12-16 2011-10-06 Koninklijke Philips Electronics N.V. Speech signal processing
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US8442826B2 (en) * 2009-06-10 2013-05-14 Microsoft Corporation Application-dependent information for recognition processing
US8996384B2 (en) * 2009-10-30 2015-03-31 Vocollect, Inc. Transforming components of a web page to voice prompts
US8150874B2 (en) * 2009-11-30 2012-04-03 Yahoo! Inc. System for integrating content from external corpora into primary search engine results
EP2339576B1 (de) 2009-12-23 2019-08-07 Google LLC Mehrmodulare Eingabe in eine elektronische Vorrichtung
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
US8868758B2 (en) * 2010-05-04 2014-10-21 Microsoft Corporation Provider connection framework
US8659397B2 (en) 2010-07-22 2014-02-25 Vocollect, Inc. Method and system for correctly identifying specific RFID tags
USD643400S1 (en) 2010-08-19 2011-08-16 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD643013S1 (en) 2010-08-20 2011-08-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US9600135B2 (en) 2010-09-10 2017-03-21 Vocollect, Inc. Multimodal user notification system to assist in data capture
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US9081550B2 (en) * 2011-02-18 2015-07-14 Nuance Communications, Inc. Adding speech capabilities to existing computer applications with complex graphical user interfaces
US10104230B2 (en) * 2011-02-25 2018-10-16 International Business Machines Corporation Systems and methods for availing multiple input channels in a voice application
US9368107B2 (en) * 2011-04-20 2016-06-14 Nuance Communications, Inc. Permitting automated speech command discovery via manual event to command mapping
US9400633B2 (en) * 2012-08-02 2016-07-26 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9781262B2 (en) 2012-08-02 2017-10-03 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9292252B2 (en) * 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9292253B2 (en) * 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US10157612B2 (en) * 2012-08-02 2018-12-18 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9218052B2 (en) 2013-03-14 2015-12-22 Samsung Electronics Co., Ltd. Framework for voice controlling applications
WO2014188512A1 (ja) * 2013-05-21 2014-11-27 三菱電機株式会社 音声認識装置、認識結果表示装置および表示方法
US10095471B2 (en) * 2013-09-20 2018-10-09 Oracle International Corporation Context aware voice interface for computing devices
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US10199041B2 (en) * 2014-12-30 2019-02-05 Honeywell International Inc. Speech recognition systems and methods for maintenance repair and overhaul
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
US11442991B2 (en) * 2018-09-21 2022-09-13 International Business Machines Corporation Using natural language to control structured web page data
US11620102B1 (en) * 2018-09-26 2023-04-04 Amazon Technologies, Inc. Voice navigation for network-connected device browsers

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
US5960399A (en) * 1996-12-24 1999-09-28 Gte Internetworking Incorporated Client/server speech processor/recognizer
US6188985B1 (en) * 1997-01-06 2001-02-13 Texas Instruments Incorporated Wireless voice-activated device for control of a processor-based host system
US5884266A (en) * 1997-04-02 1999-03-16 Motorola, Inc. Audio interface for document based information resource navigation and method therefor
WO1999048088A1 (en) 1998-03-20 1999-09-23 Inroad, Inc. Voice controlled web browser
US6493671B1 (en) * 1998-10-02 2002-12-10 Motorola, Inc. Markup language for interactive services to notify a user of an event and methods thereof
US6587822B2 (en) * 1998-10-06 2003-07-01 Lucent Technologies Inc. Web-based platform for interactive voice response (IVR)
US6636831B1 (en) * 1999-04-09 2003-10-21 Inroad, Inc. System and process for voice-controlled information retrieval
US6604075B1 (en) * 1999-05-20 2003-08-05 Lucent Technologies Inc. Web-based voice dialog interface
US6424945B1 (en) * 1999-12-15 2002-07-23 Nokia Corporation Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
FR2810125B1 (fr) 2000-06-08 2004-04-30 Interactive Speech Technologie Systeme de commande vocale d'une page stockee sur un serveur et telechargeable en vue de sa visualisation sur un dispositif client
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US7020841B2 (en) * 2001-06-07 2006-03-28 International Business Machines Corporation System and method for generating and presenting multi-modal applications from intent-based markup scripts
US6882974B2 (en) * 2002-02-15 2005-04-19 Sap Aktiengesellschaft Voice-control for a user interface

Also Published As

Publication number Publication date
ATE391986T1 (de) 2008-04-15
US20020062216A1 (en) 2002-05-23
DE60133529D1 (de) 2008-05-21
US7146323B2 (en) 2006-12-05

Similar Documents

Publication Publication Date Title
DE60133529T2 (de) Sprachnavigation in Webanwendungen
DE60318021T2 (de) Sprachgesteuerte dateneingabe
DE69922971T2 (de) Netzwerk-interaktive benutzerschnittstelle mittels spracherkennung und verarbeitung natürlicher sprache
DE60015531T2 (de) Client-server spracherkennungssystem
DE60125397T2 (de) Sprachunabhängige stimmbasierte benutzeroberfläche
DE4440598C1 (de) Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments
DE60012655T2 (de) Audiowiedergabe von einem geschriebenen Dokument aus mehreren Quellen
DE69834553T2 (de) Erweiterbares spracherkennungssystem mit einer audio-rückkopplung
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE69909806T2 (de) Graphische Benutzerschnittstelle zur Navigation in Grammatiken eines Spracherkennungssystems
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE69634239T2 (de) Erkennung kontinuierlich gesprochener Texte und Befehle
DE10125406A1 (de) Verfahren und Einrichtung zum Koppeln eines Visual Browsers mit einem Voice Browser
DE69632517T2 (de) Erkennung kontinuierlicher Sprache
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69814114T2 (de) Natürliche sprache verstehendes verfahren und verstehende vorrichung zur sprachsteuerung einer anwendung
DE69828141T2 (de) Verfahren und Vorrichtung zur Spracherkennung
US7640163B2 (en) Method and system for voice activating web pages
DE60207217T2 (de) Verfahren zum ermöglichen der sprachinteraktion mit einer internet-seite
DE60111481T2 (de) Handhabung benutzerspezifischer Wortschatzteile in Sprachendienstleistungssystemen
US20040025115A1 (en) Method, terminal, browser application, and mark-up language for multimodal interaction between a user and a terminal
WO2003054731A2 (de) Verfahren zur rechnergestützten transformation strukturierter dokumente
DE60123153T2 (de) Sprachgesteuertes Browsersystem
JPH11353150A (ja) 口頭の問合せを支援するためのマ―クアップ言語ペ―ジのエンハンスメント
DE102006006069A1 (de) Verteiltes Sprachverarbeitungssystem und Verfahren zur Ausgabe eines Zwischensignals davon

Legal Events

Date Code Title Description
8320 Willingness to grant licences declared (paragraph 23)
8321 Willingness to grant licences paragraph 23 withdrawn
8364 No opposition during term of opposition
8328 Change in the person/name/address of the agent

Representative=s name: VOSSIUS & PARTNER, 81675 MUENCHEN

8327 Change in the person/name/address of the patent owner

Owner name: NUANCE COMMUNICATIONS,INC., BURLINGTON, MASS., US