-
Die
vorliegende Erfindung offenbart ein System und Verfahren zur Erfassung
von Informationen durch Spracheingabe, insbesondere ein System und Verfahren
zur kontextunabhängigen
Navigation in Web-Anwendungen bzw. verwandten Web-Seiten unter Verwendung
von Spracheingabe.
-
Gebiet der Erfindung
-
Die
vorliegende Erfindung betrifft allgemein ein sprachgesteuertes System
und Verfahren zur Erfassung von Informationen, die über ein
Netzwerk, insbesondere über
ein Intranet oder das Internet, zugänglich sind.
-
Beschreibung des verwandten
Fachgebiets
-
Die
Bedeutung von Hypertextsystemen nimmt in vielen Bereichen der Daten-
und Kommunikationstechnologie rasch zu. Wichtige Beispiele, die bereits
realisiert wurden, sind:
Typische Hypertext-Unterstützungsfunktionen
und Hypertextdokumentationen für
Softwareanwendungen (zum Beispiel unter grafischen Betriebssystemen
für Personal
Computer), bei denen der Anwender normalerweise innerhalb einzelner
Hypertextdokumente navigieren kann, die als Datendateien auf einem
Einzelcomputer sowie im World Wide Web (WWW) gespeichert sind, bei
dem es sich um ein weltweites Hypertextnetzwerk handelt, das auf
dem Internet beruht und es dem Anwender ermöglicht, durch eine Vielzahl
von miteinander verknüpften
Hypertextdokumenten zu navigieren, die sich gegenseitig zitieren
(d. h. einen gegenseitigen Verweis aufeinander haben) und die allgemein
auf einer großen
Anzahl von in einer großen
Entfernung voneinander angeordneten Rechnern in dem Netzwerk gespeichert sind.
Dabei enthalten Hypertextdokumente allgemein Informationen in Form
von Text, digitalen Bildern bzw. Audio- oder Videodaten oder Kombinationen
daraus.
-
Die
Möglichkeit
der Navigation stellt ein wesentliches und bezeichnendes Merkmal
aller Hypertextsysteme dar. Ein Hypertextdokument enthält neben
dem eigentlichen Text des Dokuments ebenfalls spezielle Zeichenfolgen,
die ebenso ein Bestandteil des eigentlichen Texts sein können und
die normalerweise als Verknüpfungen
(links) bzw. Hyperlinks bezeichnet werden und den Zweck der Hypertextnavigation
erfüllen.
Normalerweise sind diese Zeichenfolgen besonders gekennzeichnet,
zum Beispiel indem sie in einer unterschiedlichen Farbe angezeigt
werden oder anderweitig hervorgehoben sind, um die speziellen Zeichenfolgen
von dem normalen Text des Dokuments zu unterscheiden. Wenn ein Anwender eines
Hypertextsystems eine derartige Verknüpfung normalerweise durch ein
kurzes Anklicken mit der Maus oder einem anderen Zeigegerät anwählt, reagiert
das Hypertextsystem auf diese Anweisung dadurch, dass es den Teil
desselben Hypertextdokuments anzeigt, welcher der Zeichenfolge (bzw.
der Verknüpfung)
zugeordnet ist, oder das System zeigt ein unterschiedliches Hypertextdokument
an. Andere mögliche
Reaktionen auf das Auswählen
der Verknüpfung
bestehen im Öffnen
einer Verbindung mit einem anderen Rechner, zum Beispiel mit einer
mit dem Internet verbundenen Datenbank, im Starten eines anderen
Anwendungsprogramms, im Öffnen
einer anderen Datendatei, im Einleiten eines Datenverarbeitungsvorgangs
oder in einer Kombination aus derartigen möglichen Reaktionen. Außerdem führen Hypertextsysteme
normalerweise ebenfalls andere Anweisungen aus, die nicht den Zeichenfolgen
(Verknüpfungen)
in den Hypertextdokumenten zugeordnet sind, wie zum Beispiel das
Durchblättern
von Dokumenten, die bereits angezeigt werden, oder von Teilen von
Dokumenten (zum Beispiel Seiten eines Dokuments), das Speichern
von Hypertextseiten in so genannten "Hot-Lists" (Sammlungen von Lesezeichen auf einer
Homepage), das Abrufen oder Durchblättern von in Hot-Lists gespeicherten
Seiten, das Aktualisieren von Bildern usw. Diese Anweisungen werden
normalerweise so eingegeben, wie es für grafische Benutzeroberflächen typisch
ist, zum Beispiel mit der Maus oder einem anderen Zeigegerät. Es gibt
eine Vielzahl von möglichen
Anwendungen für
hypertextbasierte Systeme, bei denen die herkömmliche Art der Eingabe von
Anweisungen bzw. der Aktivierung von Verknüpfungen als störend, unerwünscht oder
sogar unmöglich
erachtet werden. Dies ist zum Beispiel der Fall, wenn der Anwender
behindert ist, seine Hände
mit der Durchführung
von anderen Aufgaben beschäftigt
sind, oder wenn die Umgebungsbedingungen den Einsatz herkömmlicher
Eingabegeräte
ausschließen.
Hier steht die Spracherkennung als einfache, natürliche Art der Eingabe zur Verfügung, die
vom Anwender weniger Fertigkeiten als andere Eingabemittel erfordert.
Der Integration von herkömmlichen,
akustischen Spracherkennungssystemen, d. h. von Systemen zur Erkennung von
gesprochener Sprache, mit Hypertextsystemen, die auch als "Betrachter" ("viewer") bzw. "Browser"-Systeme bekannt
sind, stehen technologische Schwierigkeiten gegenüber. Spracherkennungssysteme
müssen
nämlich
in der Lage sein, jedes Wort, das als Verknüpfung in einem Hypertextdokument vorkommen kann,
zu erkennen. Da praktisch jedes Wort im Text ebenso ein Hyperlink
sein kann, wären äußerst umfangreiche
Wörterbücher für diesen Zweck
erforderlich, und diese umfangreichen Wörterbücher würden die Verarbeitungsgeschwindigkeit und
die Erkennungsleistung dieses Systems in einem unvertretbaren Ausmaß verringern.
Selbst wenn der Einsatz von äußerst umfangreichen
Wörterbüchern möglich wäre, könnte die
Prägung
zahlreicher neuer Wörter
und richtiger Namen nicht erkannt werden, wobei diese neuen Wörter für viele
Hypertextanwendungen so typisch sind, insbesondere jedoch für Hypertextnetzwerke
wie das World Wide Web.
-
Die
US-Patentschrift 6 029 135 beschreibt ein
Hypertextnavigationssystem für
sprachgesteuerte Navigation, bei dem ein Wörterbuch bereitgestellt wird,
das Wahrscheinlichkeitsmodelle für
gesprochene Wörter
enthält.
Das Wörterbuch-
und Wahrscheinlichkeitsmodell, das mit den gesprochenen Wörtern abzugleichende
Phonemfolgen enthält,
wird im System des Anwenders während
des Zugriffs auf das Hypertextdokument in der Laufzeitversion erzeugt. Eine
rechnerunabhängige
("off-line") Version stellt ein
Wörterbuch- und Wahrscheinlichkeitsmodell
bereit, das zum Beispiel von dem Autor des Hypertextdokuments erzeugt
wird, auf dem Server gespeichert ist und zu dem System des Anwenders
geleitet wird, wenn der Anwender auf das Dokument zugreift. Das Wörterbuch- und Wahrscheinlichkeitsmodell
entspricht den Hypertextelementen, die sich im Hypertextdokument
befinden, auf das der Anwender zugreift. Entsprechend wird das Wörterbuch-
und Wahrscheinlichkeitsmodell verworfen, und es wird auf das nächste Wörterbuch-
und Wahrscheinlichkeitsmodell, das als das nächste Hypertextdokument empfangen
wird, zugegriffen. Ebenso wird die Speicherung von zuletzt benutzten
bzw. wichtigen Wörterbüchern und
Wahrscheinlichkeitsmodellen bereitgestellt.
-
WO 99/48088 beschreibt
ein System und Verfahren zur Realisierung eines sprachgesteuerten Webbrowser-Programms,
das auf einem tragbaren Rechner ausgeführt wird. Auf dem tragbaren
Rechner wird ein Web-Dokument empfangen und verarbeitet, um dynamisch
eine Sprachgrammatik zu erzeugen. Die Sprachgrammatik wird zur Erkennung von
Sprachbefehlen auf dem tragbaren Rechner verwendet. Alternativ wird
ein Web-Dokument auf einem Serverrechner vorkompiliert, um eine
Sprachgrammatik zu erzeugen, und die Sprachgrammatik wird gemeinsam
mit ihrem entsprechenden Web-Dokument an den tragbaren Rechner übertragen.
Der tragbare Rechner stellt einem Anwender drei Mechanismen zur
Navigation durch Web-Seiten unter Verwendung von Sprache bereit.
In einem Mechanismus wird dem Hyperlinktext ein jedem Hyperlink
entsprechender Indexwert angehängt
und dem Anwender angezeigt. Der Anwender kann den Indexwert aussprechen,
um den entsprechenden Hyperlink zu aktivieren. In einem zweiten
Mechanismus kann der Anwender den Text des Hyperlinks aussprechen,
um den Hyperlink zu aktivieren. In einem dritten Mechanismus ruft
der Anwender einen Befehl auf, um ein Dialogfenster mit einer Liste
mit Hyperlinks und ihren entsprechenden Indexwerten anzuzeigen.
Der Anwender kann einen Indexwert oder einen Hyperlink aussprechen,
um den Hyperlink zu aktivieren.
-
Ein
Nachteil dieses Systems besteht darin, dass die Spracherkennung
hauptsächlich
auf die in dem Hypertextdokument verwendeten Hyperlinks beschränkt ist,
auf das der Anwender zugreift. Andere Hyperlinks, die in dem Hypertextdokument,
auf das zugegriffen wird, nicht sichtbar sind, können nicht erkannt werden.
Des Weiteren kann das System nach dem Stand der Technik keine Ausfüllformulare bearbeiten.
-
Daher
ist es eine Aufgabe der vorliegenden Erfindung, ein Hypertextnavigationssystem
bereitzustellen, das die Vorteile eines Zeigen-und-Klicken-Hypertextnavigationssystems
mit sprachgesteuerten Hypertextnavigationssystemen nach dem Stand
der Technik vereint, indem deren Nachteile vermieden werden.
-
Diese
Aufgabe wird durch die Merkmale der unabhängigen Ansprüche erreicht.
In den Unteransprüchen
sind weitere bevorzugte Ausführungsbeispiele
dargelegt.
-
Die
vorliegende Erfindung ermöglicht
es Anwendern, in einer Web-Anwendung oder in Web-Seiten unter Verwendung
einer Kombination aus dem Zusammenspiel von Zeigen und Klicken und
dem Zusammenspiel von Spracheingabe und Sprachausgabe zu navigieren.
An jedem Punkt des Dialogs kann der Anwender die gewöhnliche
Zeigen-und-Klicken-Schnittstelle verwenden, um kontextabhängige Aktionen
durchzuführen,
bzw. Spracheingabe verwenden, um alternativ in dem allgemeinen Anwendungskontext
zu navigieren und zu agieren. Die Spracheingabe verwendet eine Sprachnavigationskomponente,
die eine Schnittstelle zu der installierten Erkennungs- bzw. Synthesemaschine
bildet. Die Zeigen-und-Klicken- und die Sprachnavigationskomponente
werden gemeinsam mit der Ausgangs-Webseite einer Webanwendung automatisch
geladen. Grammatiken oder Sprachmodelle zur Erkennung eines Wortschatzes,
der sich auf diese Web-Anwendung bezieht, werden gemeinsam mit der
Sprachnavigationskomponente bereitgestellt. Die vorliegende Erfindung
vereint die Vorteile einer kontextabhängigen Zeigen-und-Klicken-Schnittstelle
mit denen einer kontextunabhängigen
Spracheingabeschnittstelle. Es ist ein Ansatz, Webbrowser im Hinblick
auf multimodale Schnittstellen zu verbessern.
-
Die
vorliegende Erfindung wird unter Verwendung einer bevorzugten Ausführungsform
mit Figuren ausführlicher
beschrieben, wobei
-
1 die
Architektur darstellt, in der die vorliegende Erfindung vorzugsweise
verwendet werden kann
-
2 eine
bevorzugte Ausführungsform
der vorliegenden Erfindung darstellt, die in der Architektur gemäß 1 verwendet
wird
-
3 das
erfindungsgemäße Verfahren
gemäß 2 darstellt
-
4 einen
Ablaufplan mit den erfindungsgemäßen Schritten
zur Ausführung
der vorliegenden Erfindung darstellt
-
5 eine
bevorzugte Benutzerschnittstelle zur Aktivierung der erfindungsgemäßen Zeigen-und-Klicken-
und Sprachnavigationskomponente (Applet) durch den Anwender darstellt.
-
6 das
Verhältnis
zwischen den Schnittstellen zwischen der erfindungsgemäßen Sprachnavigationskomponente
(Applet) und der Spracherkennungs- und Sprachsynthesekomponente
darstellt
-
7 die
Verwendung der Wortschätze durch
die erfindungsgemäße Sprachnavigationskomponente
(Applet) darstellt
-
In 1 ist
die Grundarchitektur gezeigt, in der die vorliegende Erfindung vorzugsweise
umgesetzt werden kann. Bei der Grundarchitektur kann es sich um
eine Client-Server-Architektur
handeln. Clientseitig sind zumindest die folgenden Standardkomponenten
installiert:
Audioausgabegerät (z. B. Lautsprecher oder
Kopfhörer)
(2), Mikrofon (4), Webbrowser (z. B. Netscape (6))
Spracherkennungs-
und Sprachsynthesesystem (z. B. IBM Via Voice (8) und IBM
Via Voice Outloud (10).
-
Der
Kern des Spracherkennungssystems ist als Spracherkennungsmaschine
bekannt. Die Spracherkennungsmaschine erkennt eine Spracheingabe und übersetzt
sie in Text, die von einer Anwendung verstanden wird. Die Anwendung
entscheidet, was mit dem erkannten Text zu geschehen hat. Anwendungen,
die mit Sprache umgehen können,
(18) greifen über
eine Spracherkennungs-Anwendungsprogrammierschnittstelle (Application
Programming Interface – API)
auf die Sprachmaschine und auf diverse Sprachressourcen zu.
-
Die
Sprachmaschine kann die folgenden Ressourcen zur Verarbeitung gesprochener
Wörter verwenden:
Ursprungssprache
des Anwenders
Grammatiken
-
Die
Ursprungssprache ist die vom Sprecher verwendete Sprache.
-
Jede
Sprache kann mehrere verschiedene Grammatiken beinhalten.
-
Eine
Grammatik ist eine Reihe von Wortschätzen, Aussprachen und Wortverwendungsmodellen,
die darauf ausgelegt sind, die Anwendung zu unterstützen. Die
Sprachmaschine verwendet die Grammatik, um Sprache für die Anwendung
zu decodieren. Die Anwendung legt die Reihe von aktiven Wörtern fest,
indem sie eine oder mehrere Grammatiken aktiviert.
-
Serverseitig
sind vorzugsweise die folgenden Standardkomponenten installiert:
Webserver
oder HTTP-Server (14)
eine oder mehrere Web-Anwendungen
oder Servlets (18)
ein Anwendungs-Server oder/und
eine Datenbank (16)
-
2 stellt
die Umsetzung der vorliegenden Erfindung in einer wie in 1 gezeigten
Client-Server-Architektur dar. Das Spracherkennungs- und Synthesesystem
ist für
signierte Java-Applets
verfügbar.
-
Die
Hauptkomponente der vorliegenden Erfindung ist die Sprachnavigationskomponente
(Applet). Die Sprachnavigationskomponente (Applet) (2) führt die
folgenden Hauptschritte aus:
- – Auffinden,
Auswählen
und Initialisieren einer Spracherkennungsmaschine und Sprachsynthesemaschine
- – Definieren,
Aktivieren und Deaktivieren von Decodierungsgrammatiken
- – Verarbeiten
der Erkennungsergebnisse (z. B. Starten einer HTTP-Anforderung,
Auslösen
von gesprochenen Wörtern,
Wiedergabe von voraufgezeichneten Eingabeaufforderungen).
-
Es
ist möglich,
allgemeine Grammatiken oder Sprachmodelle zu verwenden, die clientseitig (60)
verfügbar
sind.
-
Normalerweise
sind sie gemeinsam mit der allgemeinen Spracherkennungsmaschine
(10) installiert. Des Weiteren ist es erforderlich, anwendungsabhängige oder
so genannte informationsabhängige Grammatiken
vom Server in den Client (60) hochzuladen. Diese Grammatiken
legen den Erkennungswortschatz zur Navigation innerhalb von verwandten Web-Seiten
oder zu einer Web-Anwendung gehörenden
Web-Seiten oder verwandten Web-Anwendungen fest. Die Zeigen-und-Klicken-Navigationskomponente
(Applet 4) stellt sichtbare und aktivierbare Menüpunkte oder
ausfüllbare
Felder dar. Dieses Verfahren ist anwenderunfreundlich bzw. hat kompliziert aufgebaute
Benutzerschnittstellen zu Web-Anwendungen (Servlets- 80),
da es viele Klicks erfordert, um sich durch eine Menüstruktur
zu arbeiten bzw. in einen neuen Menükontext umzuschalten. Folglich
ist es wesentlich anwenderfreundlicher, die allgemeinere, erfindungsgemäße Sprachnavigationskomponente
(Applet) (2) zu verwenden. Mögliche Eingabewerte (gesprochene
Wörter)
zur Auswahl von Verknüpfungen
oder Menüpunkten
bzw. zum Ausfüllen
von Formularen in einer sichtbaren Web-Seite oder in unsichtbaren
Web-Seiten können
durch Grammatiken definiert werden. Deshalb ist es nicht notwendig,
gültige
Eingabewerte auf sichtbare Verknüpfungen
zu beschränken.
Außerdem
ist es ebenfalls möglich, Verknüpfungen,
die nichts mit dem Kontext zu tun haben, bzw. allgemeinere Verknüpfungen
als Kurzbefehle mit Sprache steuerbar zu machen, um eine zeitaufwändige Navigation
durch Menüs
zu vermeiden.
-
Eine
weitere Komponente der vorliegenden Erfindung ist die wie in bestehenden
Systemen nach dem Stand der Technik (Maussystemen) verwendete, herkömmliche
Zeigen-und-Klicken-Navigationskomponente
(Applet 4). Die Zeigen-und-Klicken-Navigationskomponente (Applet PACNA)
gestattet es, neue Web-Seiten
durch Zeigen auf und Anklicken von in HTML-Dokumenten angezeigten
Hyperlinks zu laden.
-
Beide
Komponenten (2; 4) sind ursprünglich auf dem Serversystem
gespeichert, und vorzugsweise startet das Laden einer Ausgangs-Webseite
(6) vom Server (40) auf den Client das automatische
Laden beider Komponenten. Soweit die anwendungsabhängigen Grammatiken
in separaten Applets oder Dateien auf dem Server (40) festgelegt
sind, können sie
in Verbindung mit der Ausgangs-Webseite (6) geladen werden,
die Verknüpfungen
(Verweisinformationen/URIs) zu der entsprechenden Anwendungsgrammatik
enthalten. In einer anderen Ausführung können die
Grammatiken Teil der Sprachnavigationskomponente (Applet) sein.
-
Die
Zeigen-und-Klicken-Navigationskomponente (Applet 4) und
die Sprachnavigationskomponente (Applet) (2) verarbeiten
die entsprechende Anwendereingabe, um eine für das Laden einer neuen Web-Seite
benötigte
HTTP-Anforderung zu erzeugen.
-
Der
Anwender kann alternativ zwischen den beiden Komponenten (2, 4)
wählen,
indem er vorzugsweise auf das entsprechende Appletsymbol klickt,
das in der GUI auf der durch die Web-Anwendung (Servlet) bereitgestellten
Client-Anzeige angezeigt wird.
-
Weitere
serverseitige Standardkomponenten können ein Webserver (z. B. IBM
HTTP-Server; 70), ein Anwendungsserver (z. B. IBM Websphere; 65) und
eine Datenbank (90) sein. Der Webserver und der Webbrowser
tauschen miteinander Daten aus, und auf dem Server (40)
sind Servlets (80) und Applets (2, 4)
gespeichert. Die Servlets werden serverseitig ausgeführt, und
die Applets werden clientseitig ausgeführt.
-
Clientseitig
muss eine virtuelle Java-Maschine (100) zur Verarbeitung
der Java-Applets verfügbar sein.
-
3 stellt
den Grundaufbau der Sprachnavigationskomponente (Applet) gemäß 2 dar.
-
Die
Sprachnavigationskomponente (Applet 2), die vom Server
(40) auf den Client (60) geladen wurde, wendet
das Spracherkennungssystem (10) des Client über die
JVM (100) an. Sie wird mit den installierten Erkennungs-
und Synthesesystemen verbunden, Grammatiken oder Sprachmodellen,
auf welche die Webanwendungen zugreifen sollen (Servlets; 80),
werden aktiviert oder geladen, und Eingabeaufforderungen werden
wiedergegeben. Die Sprachnavigationskomponente (Applet 2)
leitet die Audioeingabe an die Spracherkennungsmaschine (10) weiter,
um sie im Hinblick auf aktivierte Grammatiken zu decodieren. Das
Erkennungsergebnis enthält
erkannte Wörter/Satzglieder
und grammatikalische Anmerkungen. Die Sprachnavigationskomponente
(Applet 2) legt die Verarbeitung des Erkennungsergebnisses
fest. Relevante Informationen des Ergebnisses werden herausgezogen
und an den Server (40) z. B. an ein Servlet gesendet. Der
Server (40) kann die Anforderung weiter verarbeiten und
gibt demzufolge zum Beispiel eine neue Web-Seite (6) als
Reaktion darauf aus. Mögliche
Reaktionen können
das Ändern
des Browser-Inhalts, das Starten einer HTTP- Anforderung für das Laden einer neuen Web-Seite,
das Auslesen von Informationen aus dem Server und das Einleiten
eines serverbasierten Schreibvorgangs sein. Die Verarbeitung des
Erkennungsergebnisses kann entweder im Client (60) oder im
Server (40) durchgeführt
werden, oder die Verarbeitung kann teils auf den Client (60)
und teils auf den Server (40) aufgeteilt werden. Die semantische
Verarbeitung der Spracheingabe kann zum Beispiel zwischen dem Client
(60) und dem Server (40) aufgeteilt werden. Eine
mögliche
Ausführung
kann sein, dass die anfängliche
Signalverarbeitung clientseitig durch ein Signalverarbeitungs-Applet
durchgeführt
wird, der Merkmalsvektor über
das Netzwerk an den Server gesendet wird und die Spracherkennung
serverseitig durchgeführt
wird.
-
4 beschreibt
die erfindungsgemäßen Verarbeitungsschritte
der sprachaktivierten Navigation gemäß der vorliegenden Erfindung
in Form eines Ablaufplanes.
- 1. Der Browser
nimmt Kontakt mit dem Webserver auf und lädt eine Ausgangs-Webseite (2).
- 2. Der Browser lädt
die kombinierte Zeigen-und-Klicken-und-Sprachnavigationskomponente (Applet).
Die Ausgangs-Webseite enthält Verweisinformationen/Verknüpfungen
(URIs-) zu der Zeigen-und-Klicken-und-Sprachnavigationskomponente
(Applet). Der Browser wertet die URIs aus und lädt die entsprechenden Komponenten
(Applets) (4).
- 3. Die Sprachnavigationskomponente (Applet) fordert die Erkennungs-
und Synthesemaschinen an. Die virtuelle Java-Maschine verarbeitet beide Komponenten
(Applets). Die Sprachnavigationskomponente (Applet) initialisiert
die sprachgesteuerte Benutzerschnittstelle. Sie findet, wählt und
erzeugt eine Spracherkennungsmaschine und eine Sprachsynthesemaschine.
Die Spracherkennungsmaschine ist zuständig für die Verarbeitung von Audioeingabe
in den Browser, während
die Sprachsynthesemaschine gesprochene Wörter (6) erzeugt.
- 4. Die Sprachkomponente (Applet) sendet die aktuellen Wortschätze an die
Spracherkennungsmaschine (8). Die Erkennung von eingehender Sprache
ist grammatikgesteuert. Die eigentlich gültige Grammatik ist in Applets
festgelegt, die gemeinsam mit der Sprachnavigationskomponente (Applet)
geladen werden. Die Grammatik enthält Wörter/Satzglieder, die mit im
Browser-Fenster sichtbaren Wörtern/Satzgliedern übereinstimmen. Des
Weiteren kann die Sprachnavigationskomponente (Applet) zusätzliche
Wörter/Satzglieder
aktivieren, die nicht mit Ausdrücken
im Browser-Fenster übereinstimmen.
Die vorliegende Erfindung gestattet es, Wörter/Satzglieder aus einem
breiteren Kontext zu aktivieren, nämlich Wortsatzglieder zur Navigation
innerhalb von verwandten Webseiten oder zu einer Web-Anwendung gehörenden Web-Seiten
oder verwandten Web-Anwendungen zu aktivieren, z. B. allgemeine
Navigationsbefehle, Hilfebefehle, zusätzliche Untermenüpunkte und
so weiter (informationsabhängige
Grammatiken). Dies ermöglicht
direkte, sprachgesteuerte Sprünge
in Untermenüs
von Anwendungen und überwindet
den beschwerlichen Ansatz des sich Durchklickens durch endlose Menülisten und
Ankreuzfelder.
- 5. Die Spracherkennungsmaschine lädt, kompiliert und aktiviert informations-/anwendungsabhängige Grammatiken
(10).
Die Erkennungsmaschine aktiviert die festgelegten
Grammatiken. Es ist möglich,
mehrere Grammatiken zur Erkennung eines breiten Sprachumfangs zu
aktivieren. Der eigentlich gültige
Erkennungswortschatz ist innerhalb der Grammatiken festgelegt (10).
- 6. Die Synthesemaschine erzeugt Aussprachen für unbekannte
Wörter
(12). Eine Spracherkennungsmaschine bringt einen Grundwortschatz und
zugehörige
Aussprachen mit sich. Eine Anwendung kann jedoch auch unbekannte
Wörter enthalten.
Die Erkennungsmaschine sendet eine Anforderung an die Synthesemaschine,
um fehlende Aussprachen zu erzeugen. Diese Wörter werden dann zu den tatsächlich aktivierten
Wörtern
hinzugefügt.
- 7. Die Spracherkennungsmaschine decodiert die Audioeingabe im
Hinblick auf die aktivierten Grammatiken (14). Eine eingehende
Audioeingabe wird an die Spracherkennungsmaschine geleitet. Die
Spracherkennungsmaschine decodiert im Hinblick auf die aktivierten
Grammatiken.
- 8. Die Spracherkennungsmaschine sendet erkannten Text an die
Sprachnavigationskomponente (Applet) (16).
Das Erkennungsergebnis
enthält
erkannte Wörter/Satzglieder
und grammatikalische Anmerkungen. Grammatikalische Anmerkungen stellen Rückgabewerte
erkannter grammatikalischer Satzglieder dar und ermöglichen
eine flexible Verarbeitung von Erkennungsergebnissen. Falscherkennungen
(z. B. unvollständige
Satzglieder, niedriger Audioeingabepegel) müssen durch die Sprachnavigationskomponente
(Applet) abgewickelt werden.
- 9. Die Sprachnavigationskomponente (Applet) legt die Verarbeitung
der Erkennungsergebnisse fest (18).
- 10. Mögliche
Reaktionen sind:
- – eine
gesprochene Antwort
- – Änderung
des Browser-Inhalts
- – Starten
einer HTTP-Anforderung für
das Laden einer neuen Anwendung/eines neuen Applet oder einer neuen
Web-Seite, das Aktualisieren des Inhaltsrahmens, das Auslesen von
Informationen aus einem Server, das Einleiten eines serverbasierten
Schreibvorgangs (20).
-
5 stellt
ein Beispiel einer Benutzerschnittstelle für die Zeigen-und-Klicken-Navigationskomponente
(Applet) und die Sprachnavigationskomponente (Applet) dar, die vorzugsweise
in der vorliegenden Erfindung verwendet werden.
-
Der
Teil der Benutzerschnittstelle der Sprachnavigationskomponente (Applet)
stellt mehrere Optionen (6) zur Aktivierung verschiedener
Grammatiken dar. Die Option 0-3 gestattet es zum Beispiel, Grammatiken
zu aktivieren, die darauf beschränkt
sind, ausschließlich
sichtbare Verknüpfungen
zu erkennen, und Option 2-2 gestattet es, Grammatiken, informationsabhängige Grammatiken,
zu aktivieren, was es ermöglicht,
Verknüpfungen,
die nichts mit dem Kontext zu tun haben, bzw. allgemeinere Verknüpfungen
mit Sprache steuerbar zu machen, indem zeitaufwändige Navigationsvorgänge vermieden
werden.
-
6 stellt
die Vorteile der vorliegenden Erfindung in Bezug auf eine Börsenmakleranwendung für den Erwerb
von Aktien einer bestimmten Firma über das Internet dar. Beginnend
auf der Homepage der Anwendung muss der Anwender von der Verknüpfung "Kunden Funktion" in das durch den
Pfeil angegebene Dateneingabefeld klicken. Dann muss er durch Eintippen
von Informationen die entsprechenden Daten in das Dateneingabefeld
eingeben. Durch Verwendung der vorliegenden Erfindung kann der Anwender
sprachgesteuert direkt von der Verknüpfung "Kunden Funktion" zu dem gewünschten Dateneingabefeld navigieren,
und er kann das Dateneingabefeld ebenfalls durch Sprache ausfüllen, ohne
irgendwelche Informationen einzutippen.
-
Dies
wird durch eine Grammatik (Applet) realisiert, die allgemeine Navigationsbefehle,
Hilfebefehle, zusätzliche
Untermenüpunkte
und so weiter erkennt, die in dieser Börsenmakleranwendung enthalten
sind.
-
7 stellt
die Beziehung der Schnittstellen durch eine spezifische Realisierung
der vorliegenden Erfindung in der Via Voice Spracherkennungsmaschine
(8) und der Text/Sprachemaschine (10) von IBM
dar.
-
Die
Anwendungsprogrammierschnittstelle zu der IBM Via Voice Maschine
ist SMAPI (12). Sie unterstützt:
- – Überprüfen der
API-Version
- – Herstellen
eines Datenbanksitzungsabfrage-Systemparameters
- – Herstellen
einer Erkennungssitzung
- – Einrichten
von Wortschätzen
- – Setzen
von Sprachmaschinenparametern
- – Verarbeiten
von Spracheingabe
- – Hinzufügen von
neuen Wörtern
zum Benutzerwortschatz
- – Verarbeitungsfehler
- – Trennen
von der Sprachmaschine
- – Schließen einer
Sprachsitzung
-
SMAPI
(8) wird als DLL bereitgestellt, die eine Verknüpfung mit
der Stimmnavigationskomponente (Applet) (14) haben kann.
-
Die
Anwendungsprogrammierschnittstelle zu der Via Voice Text/Sprachemaschine
(10) von IBM wird SAPI (16) genannt. Die Text/Sprachemaschine verwendet
die folgenden Ressourcen für
die Übersetzung
von Text in synthetische Sprache:
- – Benutzerwörterbücher
- – spezielle
Wörter
- – Abkürzungen
- – Stammwörter.
-
SAPI
wird als DLL bereitgestellt, die eine Verknüpfung mit der Stimmnavigationskomponente (Applet)
(14) haben kann.
-
Sofern
die Stimmnavigationskomponente (Applet) in der Programmiersprache
Java geschrieben wurde, ist eine zusätzliche Java-API zwischen SMAPI
und SAPI (12, 16) und der Stimmnavigationskomponente
(Applet) (14) angeordnet. Die Java-API kann ebenso als DLL bereitgestellt
werden, die eine Verknüpfung
mit der Stimmnavigationskomponente (Applet – nicht gezeigt) haben kann.
-
Ausführlichere
Informationen über
ViaVoice-Programmierschnittstellen
von IBM sind zugänglich
unter http://w3.speech.ibm.com/tkdoc/ViaVoice/proguide/pgmgui03.htm