DE19707973A1

DE19707973A1 - Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet

Info

Publication number: DE19707973A1
Application number: DE19707973A
Authority: DE
Inventors: Tobias Ruland
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 1997-02-27
Filing date: 1997-02-27
Publication date: 1998-05-20

Description

Möchte ein Benutzer Informationen abrufen oder Dienste in Anspruch nehmen, die ihm über ein vernetztes System wie z. B. das Internet angeboten werden, so benutzt er dazu vorgegebene Abrufprogramme (Browser). Bei der Bedienung solch eines Browsers stehen dem Benutzer momentan hauptsächlich manuelle Eingabemöglichkeiten, wie z. B. über Tastatur, per Mausklick oder mittels Touchscreen, zur Verfügung. Wünschenswert wäre eine Bedienung, die es dem Benutzer ermöglicht, mit natürlicher Sprache seinen Bedienwunsch, bspw. zum Navigieren in dem abrufbaren Dienst, zu äußern.

Aus [1] ist bekannt, vorgegebene Teile der Software, z. B. Menüs oder Applikationen, mit gesprochener Sprache zu steuern.

Nachteilig bei den heutzutage durchgeführten Verfahren ist die Tatsache, daß die Leistung von Spracherkennern bei weitem nicht ausreicht, um eine große Teilmenge natürlicher Sprache mit hinreichender Genauigkeit und annehmbarem Laufzeitverhalten zu erkennen. Andererseits können Spracherkenner heutiger Technik schon sehr zuverlässig Äußerungen begrenzter Anwendungsdomänen verarbeiten. Unter Anwendungsdomäne werden in diesem Zusammenhang ein für eine vorgegebene Anwendung begrenzter Wortschatz und eine festgelegte Menge möglicher Sätze verstanden.

Die Aufgabe des erfindungsgemäßen Verfahrens besteht darin, in Form gesprochener Sprache mit einem über ein vernetztes System zugänglichen Diensteanbieter gemäß einer vorgegebenen Anwendungsdomäne zu interagieren.

Diese Aufgabe wird gemäß den Merkmalen des Patentanspruchs 1 gelöst.

Das erfindungsgemäße Verfahren ermöglicht es dem jeweiligen Diensteanbieter, den Spracherkenner des Benutzer der Anwendungsdomäne des Diensteanbieters entsprechend zu parametrisieren. Der Rechner des Benutzers enthält somit den zur Interaktion mit natürlich gesprochener Sprache notwendigen Spracherkenner. Solch ein Spracherkenner ist z. B. aus [2] bekannt. Um mit so einem Spracherkenner gesprochene Sprache analysieren zu können, sind Parameter zur Durchführung des Spracherkennungsprozesses für den Spracherkenner notwendig. Diese Parameter werden von dem Diensteanbieter zum lokalen Benutzer über das vernetzte System übertragen. Hierzu kann beispielsweise der im Internet verfügbare Java-Protokoll-Stack verwendet werden. Ein Programm, das die erwähnten Parameter zur Durchführung des Spracherkennungsprozesses entweder enthält oder vom Diensteanbieter abruft, wird demnach zum Rechner des lokalen Benutzers übertragen und teilt dort die Parameter dem Spracherkenner mit. Jetzt kann der Benutzer über ein Kommunikationsendgerät eine Spracheingabe durchführen, die von dem Spracherkenner analysiert wird anhand der soeben übertragenen Parameter. Entspricht die vom Benutzer durchgeführte Spracheingabe einer zulässig vom Diensteanbieter definierten Spracheingabe, so wird von dem Programm automatisch über das vernetzte System beim Diensteanbieter eine vorgegebene Aktion durchgeführt.

Eine vorteilhafte Verwendung des erfindungsgemäßen Verfahrens besteht darin, daß eine Bank als Diensteanbieter es dem Benutzer ermöglicht, Bankgeschäfte durch sprachgesteuerte Eingaben durchzuführen.

Weiterhin kann das erfindungsgemäße Verfahren dazu verwendet werden, einem Benutzer in einem Kfz über eine mobile Anbindung zu dem vernetzten System via Spracheingabe von einem Diensteanbieter, der beispielsweise ein öffentlicher Verkehrsverbund ist, die nächste Parkmöglichkeit ausgehend von seiner momentanen Position abzufragen.

Auch kann das erfindungsgemäße Verfahren dazu verwendet werden, daß ein Benutzer bei einem Verlag, der über ein Sortiment aus mehreren Zeitschriften verfügt, über Spracheingabe zunächst eine entsprechende Zeitschrift auswählt und danach wieder über Spracheingabe in dieser Zeitschrift ein bestimmtes Thema wählt. Dieses Beispiel zeigt, daß es möglich ist, eine erste Auswahl abhängig von einer ersten Anwendungsdomäne und eine zweite Auswahl abhängig von einer zweiten Anwendungsdomäne durchzuführen. In diesem Fall wird nach der ersten Auswahl unsichtbar für den Benutzer ein für die zweite Anwendungsdomäne passendes Programm mit Parametern zur Durchführung des Spracherkennungsprozesses der zweiten Anwendungsdomäne zu dem Spracherkenner auf den Rechner des Benutzers übertragen.

Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich aus den abhängigen Ansprüchen.

Die Erfindung wird anhand folgender Fig. näher erläutert.

Es zeigen

Fig. 1 ein Blockdiagramm, das die Schritte des erfindungs gemäßen Verfahrens darstellt;

Fig. 2 eine Skizze, die den Ablauf des erfindungsgemäßen Verfahrens darstellt.

In Fig. 1 sind die Schritte des erfindungsgemäßen Verfahrens dargestellt. In Schritt 1a werden der Rechner des Benutzers und der auf diesem Rechner vorhandene Spracherkenner initialisiert. Damit dem Benutzer die Möglichkeit zur Verfügung gestellt wird, über ein vernetztes System bei einem Diensteanbieter mittels einer Spracheingabe eine Aktion auszulösen, wird in Schritt 1b ein Programm vom Diensteanbieter zum Benutzer am lokalen Rechner übertragen. Dieses Programm enthält die für den Spracherkenner notwendigen Parameter zur Durchführung des Spracherkennungsprozesses bezogen auf die jeweilige Anwendungsdomäne oder es ruft die entsprechenden Parameter selbständig ab. Nun kann der Benutzer im Schritt 1c gemäß der vom Diensteanbieter festgelegten Anwendungsdomäne und dem damit vom Spracherkenner zur Verfügung stehenden Wortschatz plus Sprachmodell, eine sprachgesteuerte Eingabe vornehmen und so diese vom Spracherkenner richtig analysiert und umgesetzt wird, eine Aktion beim Diensteanbieter gemäß dem vordefinierten Kommando aus der Anwendungsdomäne durchführen.

Es ist vorteilhaft, das erfindungsgemäße Verfahren im Internet anzuwenden, da dort eine plattformübergreifende Umgebung vorhanden ist und weiterhin das Internet eine beispielhafte Realisierung des genannten vernetzten Systems darstellt.

Anwendungsbeispiele für das erfindungsgemäße Verfahren sind die sprachgesteuerte Abwicklung von Bankgeschäften, wobei in diesem Fall der Diensteanbieter eine Bank ist, die Benutzung von sprachgesteuerter Eingabe zur Verkehrslenkung, hier ist der Diensteanbieter beispielsweise ein Verkehrsverbund, oder die sprachgesteuerte Eingabe zur Navigation durch Verzeichnisstrukturen bei einem Diensteanbieter, beispielhaft sei hier ein Verlag erwähnt, der vielerlei Zeitschriften über ein vernetztes System publiziert, wobei jede Zeitschrift mehrere Themengebiete hat. Auf diese Art und Weise lassen sich mit der Erfindung Internet-Dialogsysteme realisieren.

In Fig. 2 ist beispielhaft eine mögliche Realisierung des Ablaufs des erfindungsgemäßen Verfahrens dargestellt. Der Benutzer arbeitet lokal auf einem Rechner R1, der über einen Browser BRW und einen Spracherkenner SPE verfügt. Im folgenden wird als ein vernetztes System VS beispielhaft vom Internet ausgegangen, wobei das erfindungsgemäße Verfahren ausdrücklich nicht auf das Internet beschränkt ist. Der Browser BRW ermöglicht dem Benutzer das Navigieren durch das vernetzte System VS (Internet). Der Spracherkenner SPE ist eine Standardkomponente [2], die an den Browser angeschlossen werden kann (z. B. als Netscape Plug-In beim Browser "Netscape-Navigator"), verfügt aber noch nicht über die notwendigen Parameter, die zur Durchführung des durch die Anwendungsdomäne vorgegebenen Spracherkennungsprozesses notwendig sind. Ferner steht dem Benutzer auf dem lokalen Rechner R1 noch ein Kommunikationsendgerät KEG, das hier beispielhaft als ein Mikrophon ausgeführt ist, zur Verfügung. Über das vernetzte System VS (Internet) wird in Fig. 2 beispielhaft ein Diensteanbieter auf einem Rechner R2 erreicht. Auf dem Rechner R2 ist ein Informationsspeicher IS vorhanden, der die Parameter zur Durchführung des Spracherkennungsprozesses enthält. Dieser Informationsspeicher IS besteht im einzelnen aus

- einem Lexikon, das alle in der Domäne zu erkennenden Wörter, ggf. mit ihrer phonetischen Umschrift, umfaßt,
- dem sogenannten Sprachmodell, das die in der vorgegebenen Anwendungsdomäne zu erkennen Äußerungen exakt oder approximativ beschreibt,
- weiteren Erkennerparametern, wie beispielsweise die maximale Dauer der Sprachaufnahme, und
- dem Programm, das auf Anforderung zum Rechner R1 übertragen wird, um dort den Spracherkennungsprozeß zu ermöglichen.

Im Schritt 2a wählt der Benutzer auf dem lokalen Rechner R1 mittels dem dort vorhandenen Browser BRW via Internet einen entsprechenden Dienstanbieter (Provider) auf einem Rechner R2 aus. In dem hier angegebenen Beispiel verfügt der Provider auf dem Rechner R2 über den Dienst der sprachgesteuerten Eingabe und übermittelt auf den Aufruf in Schritt 2a hin seine vorgegebenen Parameter zur Durchführung des Spracherkennungsprozesses zu dem Spracherkenner SPE im Rechner R1 (Schritt 2b). Nun hat der Benutzer die Möglichkeit, ein Kommando über das Kommunikationsendgerät KEG an den Spracherkenner SPE im Schritt 2c abzugeben. Der Spracherkenner analysiert das Sprachmuster mittels der vom Provider übertragenen Parameter und löst, so er ein definiertes erkennbares Sprachmuster gefunden hat, eine Aktion mittels dem zuvor übertragenen Programm auf dem Rechner R2 des Providers aus (Schritt 2d).

Hierbei sei angemerkt, daß die Anweisung, daß als nächstes gesprochene Sprache folgt, sowohl manuell, beispielsweise über eine Mauseingabe, oder automatisch, beispielsweise über Sprachsteuerung (Lautstärke), erfolgen kann.

Weiterhin sei angemerkt, daß die beiden Rechner R1 und R2 aus Fig. 2 auch identisch sein können, also die beschriebenen Operationen auf ein und demselben Rechner durchgeführt werden können.

Im Rahmen dieses Dokuments wurden folgende Veröffentlichungen zitiert: [1] z. B. eine der folgenden Produkte, Informationen sind unter den entsprechenden Internet-Adressen verfügbar:

Microsoft Whisper:

http://www.microsoft.com/research/srg/whisper.htm

IBM Voice Type:

http://wwww.software.ibm.com/is/voicetype/

Apple Plaintalk:

http://macos.apple.com/macos/smart/multimedia/speechrecogover.html

[2] Schukat-Talamazzini: Automatische Spracherkennung, Vieweg Verlag, 1995.

Claims

1. Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet,

a) bei dem ein erster Rechner mit einem Spracherkenner ausgeführt ist,
b) bei dem ein zweiter Rechner dem ersten Rechner ein Programm, das Parameter zur Durchführung eines Spracherkennungsprozesses enthält, übermittelt,
c) bei dem durch einen Benutzer auf dem ersten Rechner die sprachgesteuerte Eingabe durchgeführt wird und mit dem Spracherkenner, dessen für die Spracherkennung notwendige Parameter durch die übermittelten Parameter zur Durchführung des Spracherkennungsprozesses festgelegt werden, eine Aktion auf dem zweiten Rechner ausgelöst wird.

2. Verfahren nach Anspruch 1, bei dem die Parameter zur Durchführung des Spracherkennungsprozesses auf eine vorgebbare Anwendungsdomäne bezogen sind.

3. Verfahren nach Anspruch 1 oder 2, bei dem das vernetzte System durch das Internet dargestellt wird und der erste Rechner mit einem Abrufprogramm (Browser) für das Internet ausgeführt ist.

4. Verfahren nach Anspruch 3, bei dem ein Diensteanbieter (Provider) des Internet für eine durch ihn vorgebbare Anwendungsdomäne Parameter zur Durchführung des Spracherkennungsprozesses festlegt.

5. Verfahren nach Anspruch 4, bei dem ein Benutzer an dem ersten Rechner Bankgeschäfte durch sprachgesteuerte Eingabe durchführt.

6. Verfahren nach Anspruch 4, bei dem ein Benutzer an dem ersten Rechner unterwegs im Kfz mittels sprachgesteuerter Eingabe eine nächste Parkmöglichkeit oder eine Maßnahme zur Verkehrslenkung abfragt.

7. Verfahren nach Anspruch 4, bei dem ein Benutzer sich bei einem Diensteanbieter mit Zeitschriften durch sprachgesteuerte Eingabe eine Zeitschrift aussucht und weiter mittels sprachgesteuerter Eingabe in dieser Zeitschrift ein Thema auswählt.

8. Verfahren nach einem der vorherigen Ansprüche, bei dem der erste und der zweite Rechner identisch sind.