DE60133529T2

DE60133529T2 - Sprachnavigation in Webanwendungen

Info

Publication number: DE60133529T2
Application number: DE60133529T
Authority: DE
Inventors: Carsten Dr. Günther; Walter Hänel; Thomas Schäck
Original assignee: International Business Machines Corp
Current assignee: Nuance Communications Inc
Priority date: 2000-11-23
Filing date: 2001-10-13
Publication date: 2009-06-10
Anticipated expiration: 2021-10-14
Also published as: ATE391986T1; US20020062216A1; DE60133529D1; US7146323B2

Description

Die vorliegende Erfindung offenbart ein System und Verfahren zur Erfassung von Informationen durch Spracheingabe, insbesondere ein System und Verfahren zur kontextunabhängigen Navigation in Web-Anwendungen bzw. verwandten Web-Seiten unter Verwendung von Spracheingabe.
Gebiet der Erfindung
Die vorliegende Erfindung betrifft allgemein ein sprachgesteuertes System und Verfahren zur Erfassung von Informationen, die über ein Netzwerk, insbesondere über ein Intranet oder das Internet, zugänglich sind.
Beschreibung des verwandten Fachgebiets
Die Bedeutung von Hypertextsystemen nimmt in vielen Bereichen der Daten- und Kommunikationstechnologie rasch zu. Wichtige Beispiele, die bereits realisiert wurden, sind:
Typische Hypertext-Unterstützungsfunktionen und Hypertextdokumentationen für Softwareanwendungen (zum Beispiel unter grafischen Betriebssystemen für Personal Computer), bei denen der Anwender normalerweise innerhalb einzelner Hypertextdokumente navigieren kann, die als Datendateien auf einem Einzelcomputer sowie im World Wide Web (WWW) gespeichert sind, bei dem es sich um ein weltweites Hypertextnetzwerk handelt, das auf dem Internet beruht und es dem Anwender ermöglicht, durch eine Vielzahl von miteinander verknüpften Hypertextdokumenten zu navigieren, die sich gegenseitig zitieren (d. h. einen gegenseitigen Verweis aufeinander haben) und die allgemein auf einer großen Anzahl von in einer großen Entfernung voneinander angeordneten Rechnern in dem Netzwerk gespeichert sind. Dabei enthalten Hypertextdokumente allgemein Informationen in Form von Text, digitalen Bildern bzw. Audio- oder Videodaten oder Kombinationen daraus.
Die Möglichkeit der Navigation stellt ein wesentliches und bezeichnendes Merkmal aller Hypertextsysteme dar. Ein Hypertextdokument enthält neben dem eigentlichen Text des Dokuments ebenfalls spezielle Zeichenfolgen, die ebenso ein Bestandteil des eigentlichen Texts sein können und die normalerweise als Verknüpfungen (links) bzw. Hyperlinks bezeichnet werden und den Zweck der Hypertextnavigation erfüllen. Normalerweise sind diese Zeichenfolgen besonders gekennzeichnet, zum Beispiel indem sie in einer unterschiedlichen Farbe angezeigt werden oder anderweitig hervorgehoben sind, um die speziellen Zeichenfolgen von dem normalen Text des Dokuments zu unterscheiden. Wenn ein Anwender eines Hypertextsystems eine derartige Verknüpfung normalerweise durch ein kurzes Anklicken mit der Maus oder einem anderen Zeigegerät anwählt, reagiert das Hypertextsystem auf diese Anweisung dadurch, dass es den Teil desselben Hypertextdokuments anzeigt, welcher der Zeichenfolge (bzw. der Verknüpfung) zugeordnet ist, oder das System zeigt ein unterschiedliches Hypertextdokument an. Andere mögliche Reaktionen auf das Auswählen der Verknüpfung bestehen im Öffnen einer Verbindung mit einem anderen Rechner, zum Beispiel mit einer mit dem Internet verbundenen Datenbank, im Starten eines anderen Anwendungsprogramms, im Öffnen einer anderen Datendatei, im Einleiten eines Datenverarbeitungsvorgangs oder in einer Kombination aus derartigen möglichen Reaktionen. Außerdem führen Hypertextsysteme normalerweise ebenfalls andere Anweisungen aus, die nicht den Zeichenfolgen (Verknüpfungen) in den Hypertextdokumenten zugeordnet sind, wie zum Beispiel das Durchblättern von Dokumenten, die bereits angezeigt werden, oder von Teilen von Dokumenten (zum Beispiel Seiten eines Dokuments), das Speichern von Hypertextseiten in so genannten "Hot-Lists" (Sammlungen von Lesezeichen auf einer Homepage), das Abrufen oder Durchblättern von in Hot-Lists gespeicherten Seiten, das Aktualisieren von Bildern usw. Diese Anweisungen werden normalerweise so eingegeben, wie es für grafische Benutzeroberflächen typisch ist, zum Beispiel mit der Maus oder einem anderen Zeigegerät. Es gibt eine Vielzahl von möglichen Anwendungen für hypertextbasierte Systeme, bei denen die herkömmliche Art der Eingabe von Anweisungen bzw. der Aktivierung von Verknüpfungen als störend, unerwünscht oder sogar unmöglich erachtet werden. Dies ist zum Beispiel der Fall, wenn der Anwender behindert ist, seine Hände mit der Durchführung von anderen Aufgaben beschäftigt sind, oder wenn die Umgebungsbedingungen den Einsatz herkömmlicher Eingabegeräte ausschließen. Hier steht die Spracherkennung als einfache, natürliche Art der Eingabe zur Verfügung, die vom Anwender weniger Fertigkeiten als andere Eingabemittel erfordert. Der Integration von herkömmlichen, akustischen Spracherkennungssystemen, d. h. von Systemen zur Erkennung von gesprochener Sprache, mit Hypertextsystemen, die auch als "Betrachter" ("viewer") bzw. "Browser"-Systeme bekannt sind, stehen technologische Schwierigkeiten gegenüber. Spracherkennungssysteme müssen nämlich in der Lage sein, jedes Wort, das als Verknüpfung in einem Hypertextdokument vorkommen kann, zu erkennen. Da praktisch jedes Wort im Text ebenso ein Hyperlink sein kann, wären äußerst umfangreiche Wörterbücher für diesen Zweck erforderlich, und diese umfangreichen Wörterbücher würden die Verarbeitungsgeschwindigkeit und die Erkennungsleistung dieses Systems in einem unvertretbaren Ausmaß verringern. Selbst wenn der Einsatz von äußerst umfangreichen Wörterbüchern möglich wäre, könnte die Prägung zahlreicher neuer Wörter und richtiger Namen nicht erkannt werden, wobei diese neuen Wörter für viele Hypertextanwendungen so typisch sind, insbesondere jedoch für Hypertextnetzwerke wie das World Wide Web.
Die US-Patentschrift 6 029 135 beschreibt ein Hypertextnavigationssystem für sprachgesteuerte Navigation, bei dem ein Wörterbuch bereitgestellt wird, das Wahrscheinlichkeitsmodelle für gesprochene Wörter enthält. Das Wörterbuch- und Wahrscheinlichkeitsmodell, das mit den gesprochenen Wörtern abzugleichende Phonemfolgen enthält, wird im System des Anwenders während des Zugriffs auf das Hypertextdokument in der Laufzeitversion erzeugt. Eine rechnerunabhängige ("off-line") Version stellt ein Wörterbuch- und Wahrscheinlichkeitsmodell bereit, das zum Beispiel von dem Autor des Hypertextdokuments erzeugt wird, auf dem Server gespeichert ist und zu dem System des Anwenders geleitet wird, wenn der Anwender auf das Dokument zugreift. Das Wörterbuch- und Wahrscheinlichkeitsmodell entspricht den Hypertextelementen, die sich im Hypertextdokument befinden, auf das der Anwender zugreift. Entsprechend wird das Wörterbuch- und Wahrscheinlichkeitsmodell verworfen, und es wird auf das nächste Wörterbuch- und Wahrscheinlichkeitsmodell, das als das nächste Hypertextdokument empfangen wird, zugegriffen. Ebenso wird die Speicherung von zuletzt benutzten bzw. wichtigen Wörterbüchern und Wahrscheinlichkeitsmodellen bereitgestellt.
WO 99/48088 beschreibt ein System und Verfahren zur Realisierung eines sprachgesteuerten Webbrowser-Programms, das auf einem tragbaren Rechner ausgeführt wird. Auf dem tragbaren Rechner wird ein Web-Dokument empfangen und verarbeitet, um dynamisch eine Sprachgrammatik zu erzeugen. Die Sprachgrammatik wird zur Erkennung von Sprachbefehlen auf dem tragbaren Rechner verwendet. Alternativ wird ein Web-Dokument auf einem Serverrechner vorkompiliert, um eine Sprachgrammatik zu erzeugen, und die Sprachgrammatik wird gemeinsam mit ihrem entsprechenden Web-Dokument an den tragbaren Rechner übertragen. Der tragbare Rechner stellt einem Anwender drei Mechanismen zur Navigation durch Web-Seiten unter Verwendung von Sprache bereit. In einem Mechanismus wird dem Hyperlinktext ein jedem Hyperlink entsprechender Indexwert angehängt und dem Anwender angezeigt. Der Anwender kann den Indexwert aussprechen, um den entsprechenden Hyperlink zu aktivieren. In einem zweiten Mechanismus kann der Anwender den Text des Hyperlinks aussprechen, um den Hyperlink zu aktivieren. In einem dritten Mechanismus ruft der Anwender einen Befehl auf, um ein Dialogfenster mit einer Liste mit Hyperlinks und ihren entsprechenden Indexwerten anzuzeigen. Der Anwender kann einen Indexwert oder einen Hyperlink aussprechen, um den Hyperlink zu aktivieren.
Ein Nachteil dieses Systems besteht darin, dass die Spracherkennung hauptsächlich auf die in dem Hypertextdokument verwendeten Hyperlinks beschränkt ist, auf das der Anwender zugreift. Andere Hyperlinks, die in dem Hypertextdokument, auf das zugegriffen wird, nicht sichtbar sind, können nicht erkannt werden. Des Weiteren kann das System nach dem Stand der Technik keine Ausfüllformulare bearbeiten.
Daher ist es eine Aufgabe der vorliegenden Erfindung, ein Hypertextnavigationssystem bereitzustellen, das die Vorteile eines Zeigen-und-Klicken-Hypertextnavigationssystems mit sprachgesteuerten Hypertextnavigationssystemen nach dem Stand der Technik vereint, indem deren Nachteile vermieden werden.
Diese Aufgabe wird durch die Merkmale der unabhängigen Ansprüche erreicht. In den Unteransprüchen sind weitere bevorzugte Ausführungsbeispiele dargelegt.
Die vorliegende Erfindung ermöglicht es Anwendern, in einer Web-Anwendung oder in Web-Seiten unter Verwendung einer Kombination aus dem Zusammenspiel von Zeigen und Klicken und dem Zusammenspiel von Spracheingabe und Sprachausgabe zu navigieren. An jedem Punkt des Dialogs kann der Anwender die gewöhnliche Zeigen-und-Klicken-Schnittstelle verwenden, um kontextabhängige Aktionen durchzuführen, bzw. Spracheingabe verwenden, um alternativ in dem allgemeinen Anwendungskontext zu navigieren und zu agieren. Die Spracheingabe verwendet eine Sprachnavigationskomponente, die eine Schnittstelle zu der installierten Erkennungs- bzw. Synthesemaschine bildet. Die Zeigen-und-Klicken- und die Sprachnavigationskomponente werden gemeinsam mit der Ausgangs-Webseite einer Webanwendung automatisch geladen. Grammatiken oder Sprachmodelle zur Erkennung eines Wortschatzes, der sich auf diese Web-Anwendung bezieht, werden gemeinsam mit der Sprachnavigationskomponente bereitgestellt. Die vorliegende Erfindung vereint die Vorteile einer kontextabhängigen Zeigen-und-Klicken-Schnittstelle mit denen einer kontextunabhängigen Spracheingabeschnittstelle. Es ist ein Ansatz, Webbrowser im Hinblick auf multimodale Schnittstellen zu verbessern.
Die vorliegende Erfindung wird unter Verwendung einer bevorzugten Ausführungsform mit Figuren ausführlicher beschrieben, wobei
1 die Architektur darstellt, in der die vorliegende Erfindung vorzugsweise verwendet werden kann
2 eine bevorzugte Ausführungsform der vorliegenden Erfindung darstellt, die in der Architektur gemäß 1 verwendet wird
3 das erfindungsgemäße Verfahren gemäß 2 darstellt
4 einen Ablaufplan mit den erfindungsgemäßen Schritten zur Ausführung der vorliegenden Erfindung darstellt
5 eine bevorzugte Benutzerschnittstelle zur Aktivierung der erfindungsgemäßen Zeigen-und-Klicken- und Sprachnavigationskomponente (Applet) durch den Anwender darstellt.
6 das Verhältnis zwischen den Schnittstellen zwischen der erfindungsgemäßen Sprachnavigationskomponente (Applet) und der Spracherkennungs- und Sprachsynthesekomponente darstellt
7 die Verwendung der Wortschätze durch die erfindungsgemäße Sprachnavigationskomponente (Applet) darstellt
In 1 ist die Grundarchitektur gezeigt, in der die vorliegende Erfindung vorzugsweise umgesetzt werden kann. Bei der Grundarchitektur kann es sich um eine Client-Server-Architektur handeln. Clientseitig sind zumindest die folgenden Standardkomponenten installiert:
Audioausgabegerät (z. B. Lautsprecher oder Kopfhörer) (2), Mikrofon (4), Webbrowser (z. B. Netscape (6))
Spracherkennungs- und Sprachsynthesesystem (z. B. IBM Via Voice (8) und IBM Via Voice Outloud (10).
Der Kern des Spracherkennungssystems ist als Spracherkennungsmaschine bekannt. Die Spracherkennungsmaschine erkennt eine Spracheingabe und übersetzt sie in Text, die von einer Anwendung verstanden wird. Die Anwendung entscheidet, was mit dem erkannten Text zu geschehen hat. Anwendungen, die mit Sprache umgehen können, (18) greifen über eine Spracherkennungs-Anwendungsprogrammierschnittstelle (Application Programming Interface – API) auf die Sprachmaschine und auf diverse Sprachressourcen zu.
Die Sprachmaschine kann die folgenden Ressourcen zur Verarbeitung gesprochener Wörter verwenden:
Ursprungssprache des Anwenders
Grammatiken
Die Ursprungssprache ist die vom Sprecher verwendete Sprache.
Jede Sprache kann mehrere verschiedene Grammatiken beinhalten.
Eine Grammatik ist eine Reihe von Wortschätzen, Aussprachen und Wortverwendungsmodellen, die darauf ausgelegt sind, die Anwendung zu unterstützen. Die Sprachmaschine verwendet die Grammatik, um Sprache für die Anwendung zu decodieren. Die Anwendung legt die Reihe von aktiven Wörtern fest, indem sie eine oder mehrere Grammatiken aktiviert.
Serverseitig sind vorzugsweise die folgenden Standardkomponenten installiert:
Webserver oder HTTP-Server (14)
eine oder mehrere Web-Anwendungen oder Servlets (18)
ein Anwendungs-Server oder/und eine Datenbank (16)
2 stellt die Umsetzung der vorliegenden Erfindung in einer wie in 1 gezeigten Client-Server-Architektur dar. Das Spracherkennungs- und Synthesesystem ist für signierte Java-Applets verfügbar.
Die Hauptkomponente der vorliegenden Erfindung ist die Sprachnavigationskomponente (Applet). Die Sprachnavigationskomponente (Applet) (2) führt die folgenden Hauptschritte aus:

– Auffinden, Auswählen und Initialisieren einer Spracherkennungsmaschine und Sprachsynthesemaschine
– Definieren, Aktivieren und Deaktivieren von Decodierungsgrammatiken
– Verarbeiten der Erkennungsergebnisse (z. B. Starten einer HTTP-Anforderung, Auslösen von gesprochenen Wörtern, Wiedergabe von voraufgezeichneten Eingabeaufforderungen).

Es ist möglich, allgemeine Grammatiken oder Sprachmodelle zu verwenden, die clientseitig (60) verfügbar sind.
Normalerweise sind sie gemeinsam mit der allgemeinen Spracherkennungsmaschine (10) installiert. Des Weiteren ist es erforderlich, anwendungsabhängige oder so genannte informationsabhängige Grammatiken vom Server in den Client (60) hochzuladen. Diese Grammatiken legen den Erkennungswortschatz zur Navigation innerhalb von verwandten Web-Seiten oder zu einer Web-Anwendung gehörenden Web-Seiten oder verwandten Web-Anwendungen fest. Die Zeigen-und-Klicken-Navigationskomponente (Applet 4) stellt sichtbare und aktivierbare Menüpunkte oder ausfüllbare Felder dar. Dieses Verfahren ist anwenderunfreundlich bzw. hat kompliziert aufgebaute Benutzerschnittstellen zu Web-Anwendungen (Servlets- 80), da es viele Klicks erfordert, um sich durch eine Menüstruktur zu arbeiten bzw. in einen neuen Menükontext umzuschalten. Folglich ist es wesentlich anwenderfreundlicher, die allgemeinere, erfindungsgemäße Sprachnavigationskomponente (Applet) (2) zu verwenden. Mögliche Eingabewerte (gesprochene Wörter) zur Auswahl von Verknüpfungen oder Menüpunkten bzw. zum Ausfüllen von Formularen in einer sichtbaren Web-Seite oder in unsichtbaren Web-Seiten können durch Grammatiken definiert werden. Deshalb ist es nicht notwendig, gültige Eingabewerte auf sichtbare Verknüpfungen zu beschränken. Außerdem ist es ebenfalls möglich, Verknüpfungen, die nichts mit dem Kontext zu tun haben, bzw. allgemeinere Verknüpfungen als Kurzbefehle mit Sprache steuerbar zu machen, um eine zeitaufwändige Navigation durch Menüs zu vermeiden.
Eine weitere Komponente der vorliegenden Erfindung ist die wie in bestehenden Systemen nach dem Stand der Technik (Maussystemen) verwendete, herkömmliche Zeigen-und-Klicken-Navigationskomponente (Applet 4). Die Zeigen-und-Klicken-Navigationskomponente (Applet PACNA) gestattet es, neue Web-Seiten durch Zeigen auf und Anklicken von in HTML-Dokumenten angezeigten Hyperlinks zu laden.
Beide Komponenten (2; 4) sind ursprünglich auf dem Serversystem gespeichert, und vorzugsweise startet das Laden einer Ausgangs-Webseite (6) vom Server (40) auf den Client das automatische Laden beider Komponenten. Soweit die anwendungsabhängigen Grammatiken in separaten Applets oder Dateien auf dem Server (40) festgelegt sind, können sie in Verbindung mit der Ausgangs-Webseite (6) geladen werden, die Verknüpfungen (Verweisinformationen/URIs) zu der entsprechenden Anwendungsgrammatik enthalten. In einer anderen Ausführung können die Grammatiken Teil der Sprachnavigationskomponente (Applet) sein.
Die Zeigen-und-Klicken-Navigationskomponente (Applet 4) und die Sprachnavigationskomponente (Applet) (2) verarbeiten die entsprechende Anwendereingabe, um eine für das Laden einer neuen Web-Seite benötigte HTTP-Anforderung zu erzeugen.
Der Anwender kann alternativ zwischen den beiden Komponenten (2, 4) wählen, indem er vorzugsweise auf das entsprechende Appletsymbol klickt, das in der GUI auf der durch die Web-Anwendung (Servlet) bereitgestellten Client-Anzeige angezeigt wird.
Weitere serverseitige Standardkomponenten können ein Webserver (z. B. IBM HTTP-Server; 70), ein Anwendungsserver (z. B. IBM Websphere; 65) und eine Datenbank (90) sein. Der Webserver und der Webbrowser tauschen miteinander Daten aus, und auf dem Server (40) sind Servlets (80) und Applets (2, 4) gespeichert. Die Servlets werden serverseitig ausgeführt, und die Applets werden clientseitig ausgeführt.
Clientseitig muss eine virtuelle Java-Maschine (100) zur Verarbeitung der Java-Applets verfügbar sein.
3 stellt den Grundaufbau der Sprachnavigationskomponente (Applet) gemäß 2 dar.
Die Sprachnavigationskomponente (Applet 2), die vom Server (40) auf den Client (60) geladen wurde, wendet das Spracherkennungssystem (10) des Client über die JVM (100) an. Sie wird mit den installierten Erkennungs- und Synthesesystemen verbunden, Grammatiken oder Sprachmodellen, auf welche die Webanwendungen zugreifen sollen (Servlets; 80), werden aktiviert oder geladen, und Eingabeaufforderungen werden wiedergegeben. Die Sprachnavigationskomponente (Applet 2) leitet die Audioeingabe an die Spracherkennungsmaschine (10) weiter, um sie im Hinblick auf aktivierte Grammatiken zu decodieren. Das Erkennungsergebnis enthält erkannte Wörter/Satzglieder und grammatikalische Anmerkungen. Die Sprachnavigationskomponente (Applet 2) legt die Verarbeitung des Erkennungsergebnisses fest. Relevante Informationen des Ergebnisses werden herausgezogen und an den Server (40) z. B. an ein Servlet gesendet. Der Server (40) kann die Anforderung weiter verarbeiten und gibt demzufolge zum Beispiel eine neue Web-Seite (6) als Reaktion darauf aus. Mögliche Reaktionen können das Ändern des Browser-Inhalts, das Starten einer HTTP- Anforderung für das Laden einer neuen Web-Seite, das Auslesen von Informationen aus dem Server und das Einleiten eines serverbasierten Schreibvorgangs sein. Die Verarbeitung des Erkennungsergebnisses kann entweder im Client (60) oder im Server (40) durchgeführt werden, oder die Verarbeitung kann teils auf den Client (60) und teils auf den Server (40) aufgeteilt werden. Die semantische Verarbeitung der Spracheingabe kann zum Beispiel zwischen dem Client (60) und dem Server (40) aufgeteilt werden. Eine mögliche Ausführung kann sein, dass die anfängliche Signalverarbeitung clientseitig durch ein Signalverarbeitungs-Applet durchgeführt wird, der Merkmalsvektor über das Netzwerk an den Server gesendet wird und die Spracherkennung serverseitig durchgeführt wird.
4 beschreibt die erfindungsgemäßen Verarbeitungsschritte der sprachaktivierten Navigation gemäß der vorliegenden Erfindung in Form eines Ablaufplanes.

1. Der Browser nimmt Kontakt mit dem Webserver auf und lädt eine Ausgangs-Webseite (2).
2. Der Browser lädt die kombinierte Zeigen-und-Klicken-und-Sprachnavigationskomponente (Applet). Die Ausgangs-Webseite enthält Verweisinformationen/Verknüpfungen (URIs-) zu der Zeigen-und-Klicken-und-Sprachnavigationskomponente (Applet). Der Browser wertet die URIs aus und lädt die entsprechenden Komponenten (Applets) (4).
3. Die Sprachnavigationskomponente (Applet) fordert die Erkennungs- und Synthesemaschinen an. Die virtuelle Java-Maschine verarbeitet beide Komponenten (Applets). Die Sprachnavigationskomponente (Applet) initialisiert die sprachgesteuerte Benutzerschnittstelle. Sie findet, wählt und erzeugt eine Spracherkennungsmaschine und eine Sprachsynthesemaschine. Die Spracherkennungsmaschine ist zuständig für die Verarbeitung von Audioeingabe in den Browser, während die Sprachsynthesemaschine gesprochene Wörter (6) erzeugt.
4. Die Sprachkomponente (Applet) sendet die aktuellen Wortschätze an die Spracherkennungsmaschine (8). Die Erkennung von eingehender Sprache ist grammatikgesteuert. Die eigentlich gültige Grammatik ist in Applets festgelegt, die gemeinsam mit der Sprachnavigationskomponente (Applet) geladen werden. Die Grammatik enthält Wörter/Satzglieder, die mit im Browser-Fenster sichtbaren Wörtern/Satzgliedern übereinstimmen. Des Weiteren kann die Sprachnavigationskomponente (Applet) zusätzliche Wörter/Satzglieder aktivieren, die nicht mit Ausdrücken im Browser-Fenster übereinstimmen. Die vorliegende Erfindung gestattet es, Wörter/Satzglieder aus einem breiteren Kontext zu aktivieren, nämlich Wortsatzglieder zur Navigation innerhalb von verwandten Webseiten oder zu einer Web-Anwendung gehörenden Web-Seiten oder verwandten Web-Anwendungen zu aktivieren, z. B. allgemeine Navigationsbefehle, Hilfebefehle, zusätzliche Untermenüpunkte und so weiter (informationsabhängige Grammatiken). Dies ermöglicht direkte, sprachgesteuerte Sprünge in Untermenüs von Anwendungen und überwindet den beschwerlichen Ansatz des sich Durchklickens durch endlose Menülisten und Ankreuzfelder.
5. Die Spracherkennungsmaschine lädt, kompiliert und aktiviert informations-/anwendungsabhängige Grammatiken (10). Die Erkennungsmaschine aktiviert die festgelegten Grammatiken. Es ist möglich, mehrere Grammatiken zur Erkennung eines breiten Sprachumfangs zu aktivieren. Der eigentlich gültige Erkennungswortschatz ist innerhalb der Grammatiken festgelegt (10).
6. Die Synthesemaschine erzeugt Aussprachen für unbekannte Wörter (12). Eine Spracherkennungsmaschine bringt einen Grundwortschatz und zugehörige Aussprachen mit sich. Eine Anwendung kann jedoch auch unbekannte Wörter enthalten. Die Erkennungsmaschine sendet eine Anforderung an die Synthesemaschine, um fehlende Aussprachen zu erzeugen. Diese Wörter werden dann zu den tatsächlich aktivierten Wörtern hinzugefügt.
7. Die Spracherkennungsmaschine decodiert die Audioeingabe im Hinblick auf die aktivierten Grammatiken (14). Eine eingehende Audioeingabe wird an die Spracherkennungsmaschine geleitet. Die Spracherkennungsmaschine decodiert im Hinblick auf die aktivierten Grammatiken.
8. Die Spracherkennungsmaschine sendet erkannten Text an die Sprachnavigationskomponente (Applet) (16). Das Erkennungsergebnis enthält erkannte Wörter/Satzglieder und grammatikalische Anmerkungen. Grammatikalische Anmerkungen stellen Rückgabewerte erkannter grammatikalischer Satzglieder dar und ermöglichen eine flexible Verarbeitung von Erkennungsergebnissen. Falscherkennungen (z. B. unvollständige Satzglieder, niedriger Audioeingabepegel) müssen durch die Sprachnavigationskomponente (Applet) abgewickelt werden.
9. Die Sprachnavigationskomponente (Applet) legt die Verarbeitung der Erkennungsergebnisse fest (18).
10. Mögliche Reaktionen sind:
– eine gesprochene Antwort
– Änderung des Browser-Inhalts
– Starten einer HTTP-Anforderung für das Laden einer neuen Anwendung/eines neuen Applet oder einer neuen Web-Seite, das Aktualisieren des Inhaltsrahmens, das Auslesen von Informationen aus einem Server, das Einleiten eines serverbasierten Schreibvorgangs (20).

5 stellt ein Beispiel einer Benutzerschnittstelle für die Zeigen-und-Klicken-Navigationskomponente (Applet) und die Sprachnavigationskomponente (Applet) dar, die vorzugsweise in der vorliegenden Erfindung verwendet werden.
Der Teil der Benutzerschnittstelle der Sprachnavigationskomponente (Applet) stellt mehrere Optionen (6) zur Aktivierung verschiedener Grammatiken dar. Die Option 0-3 gestattet es zum Beispiel, Grammatiken zu aktivieren, die darauf beschränkt sind, ausschließlich sichtbare Verknüpfungen zu erkennen, und Option 2-2 gestattet es, Grammatiken, informationsabhängige Grammatiken, zu aktivieren, was es ermöglicht, Verknüpfungen, die nichts mit dem Kontext zu tun haben, bzw. allgemeinere Verknüpfungen mit Sprache steuerbar zu machen, indem zeitaufwändige Navigationsvorgänge vermieden werden.
6 stellt die Vorteile der vorliegenden Erfindung in Bezug auf eine Börsenmakleranwendung für den Erwerb von Aktien einer bestimmten Firma über das Internet dar. Beginnend auf der Homepage der Anwendung muss der Anwender von der Verknüpfung "Kunden Funktion" in das durch den Pfeil angegebene Dateneingabefeld klicken. Dann muss er durch Eintippen von Informationen die entsprechenden Daten in das Dateneingabefeld eingeben. Durch Verwendung der vorliegenden Erfindung kann der Anwender sprachgesteuert direkt von der Verknüpfung "Kunden Funktion" zu dem gewünschten Dateneingabefeld navigieren, und er kann das Dateneingabefeld ebenfalls durch Sprache ausfüllen, ohne irgendwelche Informationen einzutippen.
Dies wird durch eine Grammatik (Applet) realisiert, die allgemeine Navigationsbefehle, Hilfebefehle, zusätzliche Untermenüpunkte und so weiter erkennt, die in dieser Börsenmakleranwendung enthalten sind.
7 stellt die Beziehung der Schnittstellen durch eine spezifische Realisierung der vorliegenden Erfindung in der Via Voice Spracherkennungsmaschine (8) und der Text/Sprachemaschine (10) von IBM dar.
Die Anwendungsprogrammierschnittstelle zu der IBM Via Voice Maschine ist SMAPI (12). Sie unterstützt:

– Überprüfen der API-Version
– Herstellen eines Datenbanksitzungsabfrage-Systemparameters
– Herstellen einer Erkennungssitzung
– Einrichten von Wortschätzen
– Setzen von Sprachmaschinenparametern
– Verarbeiten von Spracheingabe
– Hinzufügen von neuen Wörtern zum Benutzerwortschatz
– Verarbeitungsfehler
– Trennen von der Sprachmaschine
– Schließen einer Sprachsitzung

SMAPI (8) wird als DLL bereitgestellt, die eine Verknüpfung mit der Stimmnavigationskomponente (Applet) (14) haben kann.
Die Anwendungsprogrammierschnittstelle zu der Via Voice Text/Sprachemaschine (10) von IBM wird SAPI (16) genannt. Die Text/Sprachemaschine verwendet die folgenden Ressourcen für die Übersetzung von Text in synthetische Sprache:

– Benutzerwörterbücher
– spezielle Wörter
– Abkürzungen
– Stammwörter.

SAPI wird als DLL bereitgestellt, die eine Verknüpfung mit der Stimmnavigationskomponente (Applet) (14) haben kann.
Sofern die Stimmnavigationskomponente (Applet) in der Programmiersprache Java geschrieben wurde, ist eine zusätzliche Java-API zwischen SMAPI und SAPI (12, 16) und der Stimmnavigationskomponente (Applet) (14) angeordnet. Die Java-API kann ebenso als DLL bereitgestellt werden, die eine Verknüpfung mit der Stimmnavigationskomponente (Applet – nicht gezeigt) haben kann.
Ausführlichere Informationen über ViaVoice-Programmierschnittstellen von IBM sind zugänglich unter http://w3.speech.ibm.com/tkdoc/ViaVoice/proguide/pgmgui03.htm

Claims

Navigationssystem für ein Clientsystem zur Erfassung von durch Webanwendungen bereitgestellten Informationen, wobei das Clientsystem umfasst: eine auf dem Clientsystem (60) installierte Spracherkennungsmaschine (10), einen auf dem Clientsystem installierten Browser (12) zur Herstellung der Kommunikation mit einer Kommunikationskomponente auf einem Serversystem (70), der den Zugriff auf auf diesem Server gespeicherte Informationen (6) bereitstellt, eine Sprachnavigationskomponente (2), die so konfiguriert ist, dass sie der Spracherkennungsmaschine (10) über den Browser informationsabhängige Grammatiken basierend auf von dem Serversystem geladenen Ausgangsinformationen bereitstellt, und die die Ergebnisse des Spracherkennungssystems (10) verarbeitet, eine Zeigen-und-Klicken-Navigationskomponente zum Laden von Webseiten durch Zeigen auf und Anklicken von in HTML-Dokumenten angezeigten Hyperlinks, dadurch gekennzeichnet, dass die Sprachnavigationskomponente und die Zeigen-und-Klicken-Komponente eine gemeinsame Benutzerschnittstelle mit durch einen Benutzer auswählbaren Optionen haben, wobei die Benutzerschnittstelle für die Sprachnavigationskomponente Optionen zur Auswahl von auf dem Server gespeicherten, informationsabhängigen Grammatiken bietet.
Navigationssystem gemäß Anspruch 1, bei dem die Sprachnavigation und die Zeigen-und-Klicken-Komponente gemeinsam mit einer Ausgangs-Webseite vom Server geladen werden.
Navigationssystem gemäß Anspruch 1, bei dem die Spracherkennungsmaschine (10) ferner eine Sprachsynthesemaschine umfasst.
Verfahren zur Navigation durch ein Clientsystem zur Erfassung von durch Webanwendungen bereitgestellten Informationen, wobei das Verfahren die folgenden Schritte umfasst: Installieren einer Spracherkennungsmaschine (10) auf dem Client-System (60), Herstellen der Kommunikation mit einer Kommunikationskomponente auf einem Serversystem (70), das so konfiguriert ist, dass es mit einem Browser auf auf diesem Server gespeicherte Informationen (6) zugreift, Bereitstellen einer Sprachnavigationskomponente (2), die so konfiguriert ist, dass sie der Spracherkennungsmaschine (10) über den Browser informationsabhängige Grammatiken basierend auf von dem Serversystem geladenen Ausgangsinformationen bereitstellt, und die die Ergebnisse des Spracherkennungssystems (10) verarbeitet, Bereitstellen einer Zeigen-und-Klicken-Navigationskomponente für das Laden von Webseiten durch Zeigen auf und Anklicken von in HTML-Dokumenten angezeigten Hyperlinks, gekennzeichnet durch die Schritte des Bereitstellens einer gemeinsamen Benutzerschnittstelle für die Sprachnavigation- und die Zeigen-und-Klicken-Komponente, Bietens von Optionen zur Auswahl von auf dem Server gespeicherten, informationsabhängigen Grammatiken in der Schnittstelle für die Navigationskomponente.
Verfahren gemäß Anspruch 4, bei dem die Sprachnavigation und die Zeigen-und-Klicken-Komponente gemeinsam mit einer Ausgangs-Webseite von dem Server geladen werden.
Verfahren gemäß Anspruch 4, bei dem die informationsabhängige Grammatik mögliche Eingabewerte zur Navigation innerhalb von verwandten Webseiten oder zu einer Webanwendung gehörenden Webseiten oder verwandten Webanwendungen festlegt.
Verfahren gemäß Anspruch 5, bei dem die Ausgangs-Webseite einen Verweis auf die Sprachnavigationskomponente und die Zeigen-und-Klicken-Komponente, die auf dem Server gespeichert sind, umfasst.
Verfahren gemäß Anspruch 5, bei dem das Laden der Ausgangs-Webseite von den folgenden weiteren Schritten begleitet ist: automatisches Identifizieren von Verweisinformationen auf informationsabhängige Grammatiken in der Ausgangs-Webseite, automatisches Laden der identifizierten informationsabhängigen Grammatik auf den Client, und Bereitstellen von Zugriff auf die informationsabhängige Grammatik für die Spracherkennungsmaschine durch die Sprachnavigationskomponente.
Rechnerprogramm, das auf einem rechnerlesbaren Medium gespeichert ist und das Software zur Durchführung jedes einzelnen Schritts des Verfahrens gemäß einem der Ansprüche 4 bis 8, wenn das Programm auf einem Rechner ausgeführt wird, umfasst.