DE19707973A1 - Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet - Google Patents

Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet

Info

Publication number
DE19707973A1
DE19707973A1 DE19707973A DE19707973A DE19707973A1 DE 19707973 A1 DE19707973 A1 DE 19707973A1 DE 19707973 A DE19707973 A DE 19707973A DE 19707973 A DE19707973 A DE 19707973A DE 19707973 A1 DE19707973 A1 DE 19707973A1
Authority
DE
Germany
Prior art keywords
computer
voice
user
speech
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19707973A
Other languages
English (en)
Inventor
Tobias Ruland
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19707973A priority Critical patent/DE19707973A1/de
Publication of DE19707973A1 publication Critical patent/DE19707973A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

Möchte ein Benutzer Informationen abrufen oder Dienste in Anspruch nehmen, die ihm über ein vernetztes System wie z. B. das Internet angeboten werden, so benutzt er dazu vorgegebene Abrufprogramme (Browser). Bei der Bedienung solch eines Browsers stehen dem Benutzer momentan hauptsächlich manuelle Eingabemöglichkeiten, wie z. B. über Tastatur, per Mausklick oder mittels Touchscreen, zur Verfügung. Wünschenswert wäre eine Bedienung, die es dem Benutzer ermöglicht, mit natürlicher Sprache seinen Bedienwunsch, bspw. zum Navigieren in dem abrufbaren Dienst, zu äußern.
Aus [1] ist bekannt, vorgegebene Teile der Software, z. B. Menüs oder Applikationen, mit gesprochener Sprache zu steuern.
Nachteilig bei den heutzutage durchgeführten Verfahren ist die Tatsache, daß die Leistung von Spracherkennern bei weitem nicht ausreicht, um eine große Teilmenge natürlicher Sprache mit hinreichender Genauigkeit und annehmbarem Laufzeitverhalten zu erkennen. Andererseits können Spracherkenner heutiger Technik schon sehr zuverlässig Äußerungen begrenzter Anwendungsdomänen verarbeiten. Unter Anwendungsdomäne werden in diesem Zusammenhang ein für eine vorgegebene Anwendung begrenzter Wortschatz und eine festgelegte Menge möglicher Sätze verstanden.
Die Aufgabe des erfindungsgemäßen Verfahrens besteht darin, in Form gesprochener Sprache mit einem über ein vernetztes System zugänglichen Diensteanbieter gemäß einer vorgegebenen Anwendungsdomäne zu interagieren.
Diese Aufgabe wird gemäß den Merkmalen des Patentanspruchs 1 gelöst.
Das erfindungsgemäße Verfahren ermöglicht es dem jeweiligen Diensteanbieter, den Spracherkenner des Benutzer der Anwendungsdomäne des Diensteanbieters entsprechend zu parametrisieren. Der Rechner des Benutzers enthält somit den zur Interaktion mit natürlich gesprochener Sprache notwendigen Spracherkenner. Solch ein Spracherkenner ist z. B. aus [2] bekannt. Um mit so einem Spracherkenner gesprochene Sprache analysieren zu können, sind Parameter zur Durchführung des Spracherkennungsprozesses für den Spracherkenner notwendig. Diese Parameter werden von dem Diensteanbieter zum lokalen Benutzer über das vernetzte System übertragen. Hierzu kann beispielsweise der im Internet verfügbare Java-Protokoll-Stack verwendet werden. Ein Programm, das die erwähnten Parameter zur Durchführung des Spracherkennungsprozesses entweder enthält oder vom Diensteanbieter abruft, wird demnach zum Rechner des lokalen Benutzers übertragen und teilt dort die Parameter dem Spracherkenner mit. Jetzt kann der Benutzer über ein Kommunikationsendgerät eine Spracheingabe durchführen, die von dem Spracherkenner analysiert wird anhand der soeben übertragenen Parameter. Entspricht die vom Benutzer durchgeführte Spracheingabe einer zulässig vom Diensteanbieter definierten Spracheingabe, so wird von dem Programm automatisch über das vernetzte System beim Diensteanbieter eine vorgegebene Aktion durchgeführt.
Eine vorteilhafte Verwendung des erfindungsgemäßen Verfahrens besteht darin, daß eine Bank als Diensteanbieter es dem Benutzer ermöglicht, Bankgeschäfte durch sprachgesteuerte Eingaben durchzuführen.
Weiterhin kann das erfindungsgemäße Verfahren dazu verwendet werden, einem Benutzer in einem Kfz über eine mobile Anbindung zu dem vernetzten System via Spracheingabe von einem Diensteanbieter, der beispielsweise ein öffentlicher Verkehrsverbund ist, die nächste Parkmöglichkeit ausgehend von seiner momentanen Position abzufragen.
Auch kann das erfindungsgemäße Verfahren dazu verwendet werden, daß ein Benutzer bei einem Verlag, der über ein Sortiment aus mehreren Zeitschriften verfügt, über Spracheingabe zunächst eine entsprechende Zeitschrift auswählt und danach wieder über Spracheingabe in dieser Zeitschrift ein bestimmtes Thema wählt. Dieses Beispiel zeigt, daß es möglich ist, eine erste Auswahl abhängig von einer ersten Anwendungsdomäne und eine zweite Auswahl abhängig von einer zweiten Anwendungsdomäne durchzuführen. In diesem Fall wird nach der ersten Auswahl unsichtbar für den Benutzer ein für die zweite Anwendungsdomäne passendes Programm mit Parametern zur Durchführung des Spracherkennungsprozesses der zweiten Anwendungsdomäne zu dem Spracherkenner auf den Rechner des Benutzers übertragen.
Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich aus den abhängigen Ansprüchen.
Die Erfindung wird anhand folgender Fig. näher erläutert.
Es zeigen
Fig. 1 ein Blockdiagramm, das die Schritte des erfindungs­ gemäßen Verfahrens darstellt;
Fig. 2 eine Skizze, die den Ablauf des erfindungsgemäßen Verfahrens darstellt.
In Fig. 1 sind die Schritte des erfindungsgemäßen Verfahrens dargestellt. In Schritt 1a werden der Rechner des Benutzers und der auf diesem Rechner vorhandene Spracherkenner initialisiert. Damit dem Benutzer die Möglichkeit zur Verfügung gestellt wird, über ein vernetztes System bei einem Diensteanbieter mittels einer Spracheingabe eine Aktion auszulösen, wird in Schritt 1b ein Programm vom Diensteanbieter zum Benutzer am lokalen Rechner übertragen. Dieses Programm enthält die für den Spracherkenner notwendigen Parameter zur Durchführung des Spracherkennungsprozesses bezogen auf die jeweilige Anwendungsdomäne oder es ruft die entsprechenden Parameter selbständig ab. Nun kann der Benutzer im Schritt 1c gemäß der vom Diensteanbieter festgelegten Anwendungsdomäne und dem damit vom Spracherkenner zur Verfügung stehenden Wortschatz plus Sprachmodell, eine sprachgesteuerte Eingabe vornehmen und so diese vom Spracherkenner richtig analysiert und umgesetzt wird, eine Aktion beim Diensteanbieter gemäß dem vordefinierten Kommando aus der Anwendungsdomäne durchführen.
Es ist vorteilhaft, das erfindungsgemäße Verfahren im Internet anzuwenden, da dort eine plattformübergreifende Umgebung vorhanden ist und weiterhin das Internet eine beispielhafte Realisierung des genannten vernetzten Systems darstellt.
Anwendungsbeispiele für das erfindungsgemäße Verfahren sind die sprachgesteuerte Abwicklung von Bankgeschäften, wobei in diesem Fall der Diensteanbieter eine Bank ist, die Benutzung von sprachgesteuerter Eingabe zur Verkehrslenkung, hier ist der Diensteanbieter beispielsweise ein Verkehrsverbund, oder die sprachgesteuerte Eingabe zur Navigation durch Verzeichnisstrukturen bei einem Diensteanbieter, beispielhaft sei hier ein Verlag erwähnt, der vielerlei Zeitschriften über ein vernetztes System publiziert, wobei jede Zeitschrift mehrere Themengebiete hat. Auf diese Art und Weise lassen sich mit der Erfindung Internet-Dialogsysteme realisieren.
In Fig. 2 ist beispielhaft eine mögliche Realisierung des Ablaufs des erfindungsgemäßen Verfahrens dargestellt. Der Benutzer arbeitet lokal auf einem Rechner R1, der über einen Browser BRW und einen Spracherkenner SPE verfügt. Im folgenden wird als ein vernetztes System VS beispielhaft vom Internet ausgegangen, wobei das erfindungsgemäße Verfahren ausdrücklich nicht auf das Internet beschränkt ist. Der Browser BRW ermöglicht dem Benutzer das Navigieren durch das vernetzte System VS (Internet). Der Spracherkenner SPE ist eine Standardkomponente [2], die an den Browser angeschlossen werden kann (z. B. als Netscape Plug-In beim Browser "Netscape-Navigator"), verfügt aber noch nicht über die notwendigen Parameter, die zur Durchführung des durch die Anwendungsdomäne vorgegebenen Spracherkennungsprozesses notwendig sind. Ferner steht dem Benutzer auf dem lokalen Rechner R1 noch ein Kommunikationsendgerät KEG, das hier beispielhaft als ein Mikrophon ausgeführt ist, zur Verfügung. Über das vernetzte System VS (Internet) wird in Fig. 2 beispielhaft ein Diensteanbieter auf einem Rechner R2 erreicht. Auf dem Rechner R2 ist ein Informationsspeicher IS vorhanden, der die Parameter zur Durchführung des Spracherkennungsprozesses enthält. Dieser Informationsspeicher IS besteht im einzelnen aus
  • - einem Lexikon, das alle in der Domäne zu erkennenden Wörter, ggf. mit ihrer phonetischen Umschrift, umfaßt,
  • - dem sogenannten Sprachmodell, das die in der vorgegebenen Anwendungsdomäne zu erkennen Äußerungen exakt oder approximativ beschreibt,
  • - weiteren Erkennerparametern, wie beispielsweise die maximale Dauer der Sprachaufnahme, und
  • - dem Programm, das auf Anforderung zum Rechner R1 übertragen wird, um dort den Spracherkennungsprozeß zu ermöglichen.
Im Schritt 2a wählt der Benutzer auf dem lokalen Rechner R1 mittels dem dort vorhandenen Browser BRW via Internet einen entsprechenden Dienstanbieter (Provider) auf einem Rechner R2 aus. In dem hier angegebenen Beispiel verfügt der Provider auf dem Rechner R2 über den Dienst der sprachgesteuerten Eingabe und übermittelt auf den Aufruf in Schritt 2a hin seine vorgegebenen Parameter zur Durchführung des Spracherkennungsprozesses zu dem Spracherkenner SPE im Rechner R1 (Schritt 2b). Nun hat der Benutzer die Möglichkeit, ein Kommando über das Kommunikationsendgerät KEG an den Spracherkenner SPE im Schritt 2c abzugeben. Der Spracherkenner analysiert das Sprachmuster mittels der vom Provider übertragenen Parameter und löst, so er ein definiertes erkennbares Sprachmuster gefunden hat, eine Aktion mittels dem zuvor übertragenen Programm auf dem Rechner R2 des Providers aus (Schritt 2d).
Hierbei sei angemerkt, daß die Anweisung, daß als nächstes gesprochene Sprache folgt, sowohl manuell, beispielsweise über eine Mauseingabe, oder automatisch, beispielsweise über Sprachsteuerung (Lautstärke), erfolgen kann.
Weiterhin sei angemerkt, daß die beiden Rechner R1 und R2 aus Fig. 2 auch identisch sein können, also die beschriebenen Operationen auf ein und demselben Rechner durchgeführt werden können.
Im Rahmen dieses Dokuments wurden folgende Veröffentlichungen zitiert: [1] z. B. eine der folgenden Produkte, Informationen sind unter den entsprechenden Internet-Adressen verfügbar:
Microsoft Whisper:
http://www.microsoft.com/research/srg/whisper.htm
IBM Voice Type:
http://wwww.software.ibm.com/is/voicetype/
Apple Plaintalk:
http://macos.apple.com/macos/smart/multimedia/speechrecogover.html
[2] Schukat-Talamazzini: Automatische Spracherkennung, Vieweg Verlag, 1995.

Claims (8)

1. Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet,
  • a) bei dem ein erster Rechner mit einem Spracherkenner ausgeführt ist,
  • b) bei dem ein zweiter Rechner dem ersten Rechner ein Programm, das Parameter zur Durchführung eines Spracherkennungsprozesses enthält, übermittelt,
  • c) bei dem durch einen Benutzer auf dem ersten Rechner die sprachgesteuerte Eingabe durchgeführt wird und mit dem Spracherkenner, dessen für die Spracherkennung notwendige Parameter durch die übermittelten Parameter zur Durchführung des Spracherkennungsprozesses festgelegt werden, eine Aktion auf dem zweiten Rechner ausgelöst wird.
2. Verfahren nach Anspruch 1, bei dem die Parameter zur Durchführung des Spracherkennungsprozesses auf eine vorgebbare Anwendungsdomäne bezogen sind.
3. Verfahren nach Anspruch 1 oder 2, bei dem das vernetzte System durch das Internet dargestellt wird und der erste Rechner mit einem Abrufprogramm (Browser) für das Internet ausgeführt ist.
4. Verfahren nach Anspruch 3, bei dem ein Diensteanbieter (Provider) des Internet für eine durch ihn vorgebbare Anwendungsdomäne Parameter zur Durchführung des Spracherkennungsprozesses festlegt.
5. Verfahren nach Anspruch 4, bei dem ein Benutzer an dem ersten Rechner Bankgeschäfte durch sprachgesteuerte Eingabe durchführt.
6. Verfahren nach Anspruch 4, bei dem ein Benutzer an dem ersten Rechner unterwegs im Kfz mittels sprachgesteuerter Eingabe eine nächste Parkmöglichkeit oder eine Maßnahme zur Verkehrslenkung abfragt.
7. Verfahren nach Anspruch 4, bei dem ein Benutzer sich bei einem Diensteanbieter mit Zeitschriften durch sprachgesteuerte Eingabe eine Zeitschrift aussucht und weiter mittels sprachgesteuerter Eingabe in dieser Zeitschrift ein Thema auswählt.
8. Verfahren nach einem der vorherigen Ansprüche, bei dem der erste und der zweite Rechner identisch sind.
DE19707973A 1997-02-27 1997-02-27 Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet Withdrawn DE19707973A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19707973A DE19707973A1 (de) 1997-02-27 1997-02-27 Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19707973A DE19707973A1 (de) 1997-02-27 1997-02-27 Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet

Publications (1)

Publication Number Publication Date
DE19707973A1 true DE19707973A1 (de) 1998-05-20

Family

ID=7821728

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19707973A Withdrawn DE19707973A1 (de) 1997-02-27 1997-02-27 Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet

Country Status (1)

Country Link
DE (1) DE19707973A1 (de)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10043271A1 (de) * 2000-09-02 2002-10-02 Deutsche Telekom Ag Doppelt klassifiziertes Name-Dailling
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE4440598C1 (de) * 1994-11-14 1996-05-23 Siemens Ag Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JP 08-223309 A (mit Zitat aus "Patent Abstracts of Japan" und Derwent-World Patent Index") *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19918382B4 (de) * 1999-04-22 2004-02-05 Siemens Ag Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät
DE10043271A1 (de) * 2000-09-02 2002-10-02 Deutsche Telekom Ag Doppelt klassifiziertes Name-Dailling

Similar Documents

Publication Publication Date Title
DE60133529T2 (de) Sprachnavigation in Webanwendungen
DE60015531T2 (de) Client-server spracherkennungssystem
DE69829604T2 (de) System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz
DE69822296T2 (de) Mustererkennungsregistrierung in einem verteilten system
DE60016722T2 (de) Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars
DE69835718T2 (de) Verfahren und Gerät zur Sprachinteraktion über ein Netzwerk unter Verwendung von parametrierbaren Interaktionsdefinitionen
DE60005326T2 (de) Erkennungseinheiten mit komplementären sprachmodellen
DE19847419A1 (de) Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung
EP3095114B1 (de) Verfahren und system zur erzeugung eines steuerungsbefehls
DE10110977C1 (de) Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem
EP1361737A1 (de) Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen
DE60214850T2 (de) Für eine benutzergruppe spezifisches musterverarbeitungssystem
EP0987682A2 (de) Verfahren zur Adaption von linguistischen Sprachmodellen
DE69333762T2 (de) Spracherkennungssystem
DE102005030967B4 (de) Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen
WO2001086634A1 (de) Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems
DE102004010406B3 (de) Informations- oder Unterhaltungssystem eines Kraftfahrzeuges und Verfahren zur Auswahl eines Listeneintrags
EP1168302B1 (de) Spracherkennungssytem mit einem aktiven Bereitschaftszustand
EP1321851B1 (de) Verfahren und System zum Nutzen von vom Nutzer frei zu wählenden Markierungsnamen als Einsprungposition in die Menustruktur eines Sprach-Dialogsystems
DE102015212650B4 (de) Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe
DE19707973A1 (de) Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet
EP1659571A2 (de) Sprachdialogsystem und Verfahren zum Betreiben
EP3115886A1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
EP3735688B1 (de) Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung
EP1704561A1 (de) Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung

Legal Events

Date Code Title Description
OAV Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1
OP8 Request for examination as to paragraph 44 patent law
8130 Withdrawal