DE19707973A1 - Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet - Google Patents
Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem InternetInfo
- Publication number
- DE19707973A1 DE19707973A1 DE19707973A DE19707973A DE19707973A1 DE 19707973 A1 DE19707973 A1 DE 19707973A1 DE 19707973 A DE19707973 A DE 19707973A DE 19707973 A DE19707973 A DE 19707973A DE 19707973 A1 DE19707973 A1 DE 19707973A1
- Authority
- DE
- Germany
- Prior art keywords
- computer
- voice
- user
- speech
- speech recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000001960 triggered effect Effects 0.000 claims abstract 2
- 238000004891 communication Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000029305 taxis Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Möchte ein Benutzer Informationen abrufen oder Dienste in
Anspruch nehmen, die ihm über ein vernetztes System wie z. B.
das Internet angeboten werden, so benutzt er dazu vorgegebene
Abrufprogramme (Browser). Bei der Bedienung solch eines
Browsers stehen dem Benutzer momentan hauptsächlich manuelle
Eingabemöglichkeiten, wie z. B. über Tastatur, per Mausklick
oder mittels Touchscreen, zur Verfügung. Wünschenswert wäre
eine Bedienung, die es dem Benutzer ermöglicht, mit
natürlicher Sprache seinen Bedienwunsch, bspw. zum Navigieren
in dem abrufbaren Dienst, zu äußern.
Aus [1] ist bekannt, vorgegebene Teile der Software, z. B.
Menüs oder Applikationen, mit gesprochener Sprache zu
steuern.
Nachteilig bei den heutzutage durchgeführten Verfahren ist
die Tatsache, daß die Leistung von Spracherkennern bei weitem
nicht ausreicht, um eine große Teilmenge natürlicher Sprache
mit hinreichender Genauigkeit und annehmbarem
Laufzeitverhalten zu erkennen. Andererseits können
Spracherkenner heutiger Technik schon sehr zuverlässig
Äußerungen begrenzter Anwendungsdomänen verarbeiten. Unter
Anwendungsdomäne werden in diesem Zusammenhang ein für eine
vorgegebene Anwendung begrenzter Wortschatz und eine
festgelegte Menge möglicher Sätze verstanden.
Die Aufgabe des erfindungsgemäßen Verfahrens besteht darin,
in Form gesprochener Sprache mit einem über ein vernetztes
System zugänglichen Diensteanbieter gemäß einer vorgegebenen
Anwendungsdomäne zu interagieren.
Diese Aufgabe wird gemäß den Merkmalen des Patentanspruchs 1
gelöst.
Das erfindungsgemäße Verfahren ermöglicht es dem jeweiligen
Diensteanbieter, den Spracherkenner des Benutzer der
Anwendungsdomäne des Diensteanbieters entsprechend zu
parametrisieren. Der Rechner des Benutzers enthält somit den
zur Interaktion mit natürlich gesprochener Sprache
notwendigen Spracherkenner. Solch ein Spracherkenner ist z. B.
aus [2] bekannt. Um mit so einem Spracherkenner gesprochene
Sprache analysieren zu können, sind Parameter zur
Durchführung des Spracherkennungsprozesses für den
Spracherkenner notwendig. Diese Parameter werden von dem
Diensteanbieter zum lokalen Benutzer über das vernetzte
System übertragen. Hierzu kann beispielsweise der im Internet
verfügbare Java-Protokoll-Stack verwendet werden. Ein
Programm, das die erwähnten Parameter zur Durchführung des
Spracherkennungsprozesses entweder enthält oder vom
Diensteanbieter abruft, wird demnach zum Rechner des lokalen
Benutzers übertragen und teilt dort die Parameter dem
Spracherkenner mit. Jetzt kann der Benutzer über ein
Kommunikationsendgerät eine Spracheingabe durchführen, die
von dem Spracherkenner analysiert wird anhand der soeben
übertragenen Parameter. Entspricht die vom Benutzer
durchgeführte Spracheingabe einer zulässig vom
Diensteanbieter definierten Spracheingabe, so wird von dem
Programm automatisch über das vernetzte System beim
Diensteanbieter eine vorgegebene Aktion durchgeführt.
Eine vorteilhafte Verwendung des erfindungsgemäßen Verfahrens
besteht darin, daß eine Bank als Diensteanbieter es dem
Benutzer ermöglicht, Bankgeschäfte durch sprachgesteuerte
Eingaben durchzuführen.
Weiterhin kann das erfindungsgemäße Verfahren dazu verwendet
werden, einem Benutzer in einem Kfz über eine mobile
Anbindung zu dem vernetzten System via Spracheingabe von
einem Diensteanbieter, der beispielsweise ein öffentlicher
Verkehrsverbund ist, die nächste Parkmöglichkeit ausgehend
von seiner momentanen Position abzufragen.
Auch kann das erfindungsgemäße Verfahren dazu verwendet
werden, daß ein Benutzer bei einem Verlag, der über ein
Sortiment aus mehreren Zeitschriften verfügt, über
Spracheingabe zunächst eine entsprechende Zeitschrift
auswählt und danach wieder über Spracheingabe in dieser
Zeitschrift ein bestimmtes Thema wählt. Dieses Beispiel
zeigt, daß es möglich ist, eine erste Auswahl abhängig von
einer ersten Anwendungsdomäne und eine zweite Auswahl
abhängig von einer zweiten Anwendungsdomäne durchzuführen. In
diesem Fall wird nach der ersten Auswahl unsichtbar für den
Benutzer ein für die zweite Anwendungsdomäne passendes
Programm mit Parametern zur Durchführung des
Spracherkennungsprozesses der zweiten Anwendungsdomäne zu dem
Spracherkenner auf den Rechner des Benutzers übertragen.
Weiterbildungen des erfindungsgemäßen Verfahrens ergeben sich
aus den abhängigen Ansprüchen.
Die Erfindung wird anhand folgender Fig. näher erläutert.
Es zeigen
Fig. 1 ein Blockdiagramm, das die Schritte des erfindungs
gemäßen Verfahrens darstellt;
Fig. 2 eine Skizze, die den Ablauf des erfindungsgemäßen
Verfahrens darstellt.
In Fig. 1 sind die Schritte des erfindungsgemäßen Verfahrens
dargestellt. In Schritt 1a werden der Rechner des Benutzers
und der auf diesem Rechner vorhandene Spracherkenner
initialisiert. Damit dem Benutzer die Möglichkeit zur
Verfügung gestellt wird, über ein vernetztes System bei einem
Diensteanbieter mittels einer Spracheingabe eine Aktion
auszulösen, wird in Schritt 1b ein Programm vom
Diensteanbieter zum Benutzer am lokalen Rechner übertragen.
Dieses Programm enthält die für den Spracherkenner
notwendigen Parameter zur Durchführung des
Spracherkennungsprozesses bezogen auf die jeweilige
Anwendungsdomäne oder es ruft die entsprechenden Parameter
selbständig ab. Nun kann der Benutzer im Schritt 1c gemäß der
vom Diensteanbieter festgelegten Anwendungsdomäne und dem
damit vom Spracherkenner zur Verfügung stehenden Wortschatz
plus Sprachmodell, eine sprachgesteuerte Eingabe vornehmen
und so diese vom Spracherkenner richtig analysiert und
umgesetzt wird, eine Aktion beim Diensteanbieter gemäß dem
vordefinierten Kommando aus der Anwendungsdomäne durchführen.
Es ist vorteilhaft, das erfindungsgemäße Verfahren im
Internet anzuwenden, da dort eine plattformübergreifende
Umgebung vorhanden ist und weiterhin das Internet eine
beispielhafte Realisierung des genannten vernetzten Systems
darstellt.
Anwendungsbeispiele für das erfindungsgemäße Verfahren sind
die sprachgesteuerte Abwicklung von Bankgeschäften, wobei in
diesem Fall der Diensteanbieter eine Bank ist, die Benutzung
von sprachgesteuerter Eingabe zur Verkehrslenkung, hier ist
der Diensteanbieter beispielsweise ein Verkehrsverbund, oder
die sprachgesteuerte Eingabe zur Navigation durch
Verzeichnisstrukturen bei einem Diensteanbieter, beispielhaft
sei hier ein Verlag erwähnt, der vielerlei Zeitschriften über
ein vernetztes System publiziert, wobei jede Zeitschrift
mehrere Themengebiete hat. Auf diese Art und Weise lassen
sich mit der Erfindung Internet-Dialogsysteme realisieren.
In Fig. 2 ist beispielhaft eine mögliche Realisierung des
Ablaufs des erfindungsgemäßen Verfahrens dargestellt. Der
Benutzer arbeitet lokal auf einem Rechner R1, der über einen
Browser BRW und einen Spracherkenner SPE verfügt. Im
folgenden wird als ein vernetztes System VS beispielhaft vom
Internet ausgegangen, wobei das erfindungsgemäße Verfahren
ausdrücklich nicht auf das Internet beschränkt ist. Der
Browser BRW ermöglicht dem Benutzer das Navigieren durch das
vernetzte System VS (Internet). Der Spracherkenner SPE ist
eine Standardkomponente [2], die an den Browser angeschlossen
werden kann (z. B. als Netscape Plug-In beim Browser
"Netscape-Navigator"), verfügt aber noch nicht über die
notwendigen Parameter, die zur Durchführung des durch die
Anwendungsdomäne vorgegebenen Spracherkennungsprozesses
notwendig sind. Ferner steht dem Benutzer auf dem lokalen
Rechner R1 noch ein Kommunikationsendgerät KEG, das hier
beispielhaft als ein Mikrophon ausgeführt ist, zur Verfügung.
Über das vernetzte System VS (Internet) wird in Fig. 2
beispielhaft ein Diensteanbieter auf einem Rechner R2
erreicht. Auf dem Rechner R2 ist ein Informationsspeicher IS
vorhanden, der die Parameter zur Durchführung des
Spracherkennungsprozesses enthält. Dieser
Informationsspeicher IS besteht im einzelnen aus
- - einem Lexikon, das alle in der Domäne zu erkennenden Wörter, ggf. mit ihrer phonetischen Umschrift, umfaßt,
- - dem sogenannten Sprachmodell, das die in der vorgegebenen Anwendungsdomäne zu erkennen Äußerungen exakt oder approximativ beschreibt,
- - weiteren Erkennerparametern, wie beispielsweise die maximale Dauer der Sprachaufnahme, und
- - dem Programm, das auf Anforderung zum Rechner R1 übertragen wird, um dort den Spracherkennungsprozeß zu ermöglichen.
Im Schritt 2a wählt der Benutzer auf dem lokalen Rechner R1
mittels dem dort vorhandenen Browser BRW via Internet einen
entsprechenden Dienstanbieter (Provider) auf einem Rechner R2
aus. In dem hier angegebenen Beispiel verfügt der Provider
auf dem Rechner R2 über den Dienst der sprachgesteuerten
Eingabe und übermittelt auf den Aufruf in Schritt 2a hin
seine vorgegebenen Parameter zur Durchführung des
Spracherkennungsprozesses zu dem Spracherkenner SPE im
Rechner R1 (Schritt 2b). Nun hat der Benutzer die
Möglichkeit, ein Kommando über das Kommunikationsendgerät KEG
an den Spracherkenner SPE im Schritt 2c abzugeben. Der
Spracherkenner analysiert das Sprachmuster mittels der vom
Provider übertragenen Parameter und löst, so er ein
definiertes erkennbares Sprachmuster gefunden hat, eine
Aktion mittels dem zuvor übertragenen Programm auf dem
Rechner R2 des Providers aus (Schritt 2d).
Hierbei sei angemerkt, daß die Anweisung, daß als nächstes
gesprochene Sprache folgt, sowohl manuell, beispielsweise
über eine Mauseingabe, oder automatisch, beispielsweise über
Sprachsteuerung (Lautstärke), erfolgen kann.
Weiterhin sei angemerkt, daß die beiden Rechner R1 und R2 aus
Fig. 2 auch identisch sein können, also die beschriebenen
Operationen auf ein und demselben Rechner durchgeführt werden
können.
Im Rahmen dieses Dokuments wurden folgende Veröffentlichungen
zitiert:
[1] z. B. eine der folgenden Produkte, Informationen sind
unter den entsprechenden Internet-Adressen verfügbar:
Microsoft Whisper:
http://www.microsoft.com/research/srg/whisper.htm
IBM Voice Type:
http://wwww.software.ibm.com/is/voicetype/
Apple Plaintalk:
http://macos.apple.com/macos/smart/multimedia/speechrecogover.html
[2] Schukat-Talamazzini: Automatische Spracherkennung,
Vieweg Verlag, 1995.
Claims (8)
1. Verfahren zur sprachgesteuerten Eingabe auf einem Rechner
in einem vernetzten System, insbesondere dem Internet,
- a) bei dem ein erster Rechner mit einem Spracherkenner ausgeführt ist,
- b) bei dem ein zweiter Rechner dem ersten Rechner ein Programm, das Parameter zur Durchführung eines Spracherkennungsprozesses enthält, übermittelt,
- c) bei dem durch einen Benutzer auf dem ersten Rechner die sprachgesteuerte Eingabe durchgeführt wird und mit dem Spracherkenner, dessen für die Spracherkennung notwendige Parameter durch die übermittelten Parameter zur Durchführung des Spracherkennungsprozesses festgelegt werden, eine Aktion auf dem zweiten Rechner ausgelöst wird.
2. Verfahren nach Anspruch 1,
bei dem die Parameter zur Durchführung des
Spracherkennungsprozesses auf eine vorgebbare
Anwendungsdomäne bezogen sind.
3. Verfahren nach Anspruch 1 oder 2,
bei dem das vernetzte System durch das Internet
dargestellt wird und der erste Rechner mit einem
Abrufprogramm (Browser) für das Internet ausgeführt ist.
4. Verfahren nach Anspruch 3,
bei dem ein Diensteanbieter (Provider) des Internet für
eine durch ihn vorgebbare Anwendungsdomäne Parameter zur
Durchführung des Spracherkennungsprozesses festlegt.
5. Verfahren nach Anspruch 4,
bei dem ein Benutzer an dem ersten Rechner Bankgeschäfte
durch sprachgesteuerte Eingabe durchführt.
6. Verfahren nach Anspruch 4,
bei dem ein Benutzer an dem ersten Rechner unterwegs im
Kfz mittels sprachgesteuerter Eingabe eine nächste
Parkmöglichkeit oder eine Maßnahme zur Verkehrslenkung
abfragt.
7. Verfahren nach Anspruch 4,
bei dem ein Benutzer sich bei einem Diensteanbieter mit
Zeitschriften durch sprachgesteuerte Eingabe eine
Zeitschrift aussucht und weiter mittels sprachgesteuerter
Eingabe in dieser Zeitschrift ein Thema auswählt.
8. Verfahren nach einem der vorherigen Ansprüche,
bei dem der erste und der zweite Rechner identisch sind.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19707973A DE19707973A1 (de) | 1997-02-27 | 1997-02-27 | Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE19707973A DE19707973A1 (de) | 1997-02-27 | 1997-02-27 | Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19707973A1 true DE19707973A1 (de) | 1998-05-20 |
Family
ID=7821728
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE19707973A Withdrawn DE19707973A1 (de) | 1997-02-27 | 1997-02-27 | Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19707973A1 (de) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10043271A1 (de) * | 2000-09-02 | 2002-10-02 | Deutsche Telekom Ag | Doppelt klassifiziertes Name-Dailling |
DE19918382B4 (de) * | 1999-04-22 | 2004-02-05 | Siemens Ag | Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
-
1997
- 1997-02-27 DE DE19707973A patent/DE19707973A1/de not_active Withdrawn
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4440598C1 (de) * | 1994-11-14 | 1996-05-23 | Siemens Ag | Durch gesprochene Worte steuerbares Hypertext-Navigationssystem, Hypertext-Dokument für dieses Navigationssystem und Verfahren zur Erzeugung eines derartigen Dokuments |
Non-Patent Citations (1)
Title |
---|
JP 08-223309 A (mit Zitat aus "Patent Abstracts of Japan" und Derwent-World Patent Index") * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE19918382B4 (de) * | 1999-04-22 | 2004-02-05 | Siemens Ag | Erstellen eines Referenzmodell-Verzeichnisses für ein sprachgesteuertes Kommunikationsgerät |
DE10043271A1 (de) * | 2000-09-02 | 2002-10-02 | Deutsche Telekom Ag | Doppelt klassifiziertes Name-Dailling |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60133529T2 (de) | Sprachnavigation in Webanwendungen | |
DE60015531T2 (de) | Client-server spracherkennungssystem | |
DE69829604T2 (de) | System und Verfahren zur distalen automatischen Spracherkennung über ein paket-orientiertes Datennetz | |
DE69822296T2 (de) | Mustererkennungsregistrierung in einem verteilten system | |
DE60016722T2 (de) | Spracherkennung in zwei Durchgängen mit Restriktion des aktiven Vokabulars | |
DE69835718T2 (de) | Verfahren und Gerät zur Sprachinteraktion über ein Netzwerk unter Verwendung von parametrierbaren Interaktionsdefinitionen | |
DE60005326T2 (de) | Erkennungseinheiten mit komplementären sprachmodellen | |
DE19847419A1 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äußerung | |
EP3095114B1 (de) | Verfahren und system zur erzeugung eines steuerungsbefehls | |
DE10110977C1 (de) | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem | |
EP1361737A1 (de) | Verfahren und System zur Verarbeitung von Sprachdaten und Klassifizierung von Gesprächen | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
EP0987682A2 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE69333762T2 (de) | Spracherkennungssystem | |
DE102005030967B4 (de) | Verfahren und Vorrichtung zur Interaktion mit einem Spracherkennungssystem zur Auswahl von Elementen aus Listen | |
WO2001086634A1 (de) | Verfahren zum erzeugen einer sprachdatenbank für einen zielwortschatz zum trainieren eines spracherkennungssystems | |
DE102004010406B3 (de) | Informations- oder Unterhaltungssystem eines Kraftfahrzeuges und Verfahren zur Auswahl eines Listeneintrags | |
EP1168302B1 (de) | Spracherkennungssytem mit einem aktiven Bereitschaftszustand | |
EP1321851B1 (de) | Verfahren und System zum Nutzen von vom Nutzer frei zu wählenden Markierungsnamen als Einsprungposition in die Menustruktur eines Sprach-Dialogsystems | |
DE102015212650B4 (de) | Verfahren und System zum rechnergestützten Verarbeiten einer Spracheingabe | |
DE19707973A1 (de) | Verfahren zur sprachgesteuerten Eingabe auf einem Rechner in einem vernetzten System, insbesondere dem Internet | |
EP1659571A2 (de) | Sprachdialogsystem und Verfahren zum Betreiben | |
EP3115886A1 (de) | Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem | |
EP3735688B1 (de) | Verfahren, vorrichtung und computerlesbares speichermedium mit instruktionen zum verarbeiten einer spracheingabe, kraftfahrzeug und nutzerendgerät mit einer sprachverarbeitung | |
EP1704561A1 (de) | Verfahren und vorrichtung zur bearbeitung eines sprachsignals für die robuste spracherkennung |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OAV | Applicant agreed to the publication of the unexamined application as to paragraph 31 lit. 2 z1 | ||
OP8 | Request for examination as to paragraph 44 patent law | ||
8130 | Withdrawal |