DE19963142A1 - Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems - Google Patents
Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines KiosksystemsInfo
- Publication number
- DE19963142A1 DE19963142A1 DE1999163142 DE19963142A DE19963142A1 DE 19963142 A1 DE19963142 A1 DE 19963142A1 DE 1999163142 DE1999163142 DE 1999163142 DE 19963142 A DE19963142 A DE 19963142A DE 19963142 A1 DE19963142 A1 DE 19963142A1
- Authority
- DE
- Germany
- Prior art keywords
- voice
- speech recognition
- speech
- unit
- computer unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
Abstract
Die Erfindung bezieht sich auf ein Verfahren zur Umwandlung von Spracheingaben in Programmbefehle und/oder zur Umwandlung von Programmbefehlen in Sprachausgabe. DOLLAR A Um ein Verfahren und eine Vorrichtung zu schaffen, die bei z. B. Kiosksystemen eine zuverlässige automatische Umsetzung von Sprache in Tastaturbefehle, Programmbefehle, Mausbewegungen und/oder Text sicherstellt, effizient und robust auch bei Störungen durch Hintergrundgeräusche funktioniert und eine verläßliche Identifikation des Sprechers/-in ermöglicht sowie eine zuverlässige Umwandlung von Programmbefehlen in Sprachausgabe sicherstellt, wandelt insbesondere eine Rechnereinheit mit einer Spracherkennungseinheit und einer Spracherzeugungseinheit Bedienkommandos in Programmbefehle und/oder Programmbefehle in Sprachausgaben mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung um, die in Form digitaler Werte über das Mikrofon eingegeben und/oder einem Lautsprecher ausgegeben werden.
Description
Die Erfindung bezieht sich auf ein Verfahren zur Umwandlung
von Spracheingaben in Programmbefehle und/oder zur
Umwandlung von Programmbefehlen in Sprachausgabe sowie auf
eine Vorrichtung zur Durchführung des Verfahrens.
Es ist bekannt, dass zur Bedienung von Kiosksystemen entweder
eine Tastatur und/oder ein Touch-Screen benutzt wird.
Tastaturen als Bedienelement für Kiosksysteme sind seit der
Einführung von Kiosksystemen Anfang der 90er-Jahre bekannt.
Touch-Screen's werden seit ihrer Verfügbarkeit in den
benötigten Abmessungen und Auflösungen seit ca. 1995
eingesetzt und verwendet.
Die Mausbewegungen werden durch Bewegungen des Zeigefingers
auf dem Bildschirm erzeugt, und die Auslösung eines
Menüpunktes oder Programmbefehls erfolgt durch Tippen mit dem
Zeigefinger auf die entsprechende Bildschirmposition.
Kiosksysteme werden an allgemein zugänglichen Orten aufge
stellt, um Informationen für eine breite Öffentlichkeit
anbieten zu können. Man muß davon ausgehen, daß die Benutzer
keine Erfahrung mit Computer haben. Deshalb ist eine leicht
verständliche und einfach zu bedienende Benutzerschnittstelle
notwendig. Dabei sollten auch körperliche Unterschiede
beachtet werden. Man kann auch bemerken, daß eine einfache
Benutzeroberfläche die Akzeptanz und Bedienungsfreundlichkeit
eines Kiosksystem positiv beeinflußt. Ein Computerlaie sollte
nicht mit einer komplizierten Tastatur oder der Benutzung
einer Maus konfrontiert werden. Deshalb sind die meisten
Kiosksysteme mit einem sogenannten Touch-Screen
(berührungsempfindlicher Monitor) oder mit einer einfach zu
bedienenden Tastatur, die robust gebaut ist, ausgestattet.
Die automatische Spracherkennung kann sowohl zur Umsetzung
gesprochener Sprache in Tastaturbefehle und/oder
Mausbewegungen und Texten, als auch zur Verifikation der
Identität eines Benutzers eingesetzt werden, und damit die
Benutzerakzeptanz eines Kiosksystems wesentlich erhöhen.
Bisher war ein Einsatz der automatischen Spracherkennung nicht
möglich, da die bisherigen Lösungen bei Hintergrundgeräuschen
nicht mehr funktionieren und zudem ein Training erfordern und
damit für einen Einsatz in der Öffentlichkeit ungeeignet sind.
Seit ca. 1950 laufen verschiedene Forschungsvorhaben
hinsichtlich Spracherkennungstechniken. Wobei seit 1980 die
Erkennungsmöglichkeiten durch die Entwicklung von
statistischen Verfahren, wie z. B. dem Hiddden-Markow-
Modell (HMM) deutlich verbessert wurden.
Aus der Literatur (Schukat-Talamazzini, E. G. (1995),
Automatische Spracherkennung, Grundlagen, statistische Modelle
und effiziente Algorithmen, Vieweg-Verlag, Braunschweig) ist
bereits bekannt, daß Verfahren der Spracherkennung entweder
auf dem Vergleich zwischen abgespeicherten Referenzmustern und
der unbekannten Äußerung beruhen oder auf der Beschreibung
einzelner Wörter des Vokabulars mittels stochastischer
Modelle. Dabei wird eine Äußerung, bestehend aus digitalen
Abtastwerten, zunächst in eine Folge von Sprachblöcken
vorgegebener Dauer zerlegt, und dann für jeden Sprachblock ein
Satz von Merkmalsgrößen berechnet. Jeder Satz ergibt einen
sogenannten Merkmalsvektor. Die statistischen Eigenschaften
der Merkmalsgrößen werden in dem modellbasierenden Ansatz
durch Verteilungsdichtefunktionen mit entsprechenden
Mittelwerten und Varianzen erfasst. Diese Mittelwerte und
Varianzen müssen zunächst in einer Trainingsphase anhand einer
Vielzahl von repräsentativen Trainingsäußerungen bestimmt
werden, um einen Referenzsatz (ein Modell) zu gewinnen. Zur
Erkennung einer unbekannten Äußerung werden dann für die
Modelle, die die Wörter des Vokabulars repräsentieren, jeweils
Wahrscheinlichkeiten berechnet.
Diese statistischen Verfahren wurden durch die Einbeziehung
und Kombination mit Methoden neuronaler Netzwerktechnologien
erweitert.
Allen diesen Verfahren und Vorrichtungen ist gemeinsam, dass
diese auf einem Host-PC direkt ablaufen müssen, somit diesen
stark belasten und die Handhabung dadurch komplizieren, daß
oftmals hohe Wartezeiten bis zum Abschluss des Erkennungs
vorgangs bestehen. Sie benötigen sehr große Ressourcen an CPU-
Leistung und Speicher und sind bei der Sprecheridentifizierung
unzuverlässig.
Der Einsatz von Kiosksystemen stößt auf Schwierigkeiten, da
die Bedienung dieser Systeme für den Normalbürger zu kompliziert
und fehleranfällig ist.
Der Einsatz von Kiosksystemen im Bereich des Handels ist
heute mehr denn je umstritten.
Die derzeit auf dem Markt erhältlichen Kiosksysteme basieren
entweder auf mechanischen Eingabegeräten, bei denen eine Taste
gedrückt oder auf einen Touch-Screen bei dem der Bildschirm
berührt werden muss, um z. B. einen Befehl auszulösen, oder
eine Mausbewegung zu emulieren.
Dies hat den Nachteil, das der Umgang mit diesen Kiosksystemen
gelernt werden muss. Der Umgang mit Rechnern bleibt dadurch
weiten Teilen der Bevölkerung verschlossen, bzw. die
Benutzerakzeptanz sinkt.
Weiterhin sind diese Bedieneinheiten, die durch Schalter,
Taster, Tastatur oder Touch-Screen realisiert werden, im
Gegensatz zur automatischen Sprachein- und Sprachausgabe
(gemäß der vorliegenden Erfindung) erheblich fehleranfälliger,
störanfälliger und aufwendiger (in der Handhabung)
hinsichtlich der Datenein- oder Ausgabe. Darüber hinaus sind
bei solchen Systemen immer entsprechende Fähigkeiten und
Kenntnisse bezüglich der Funktionsweise und Bedienung (z. B.
bei der Tastatur) erforderlich, was oft zu Fehleingaben und
einem erhöhten Zeitaufwand führt.
Die Aufgabe der vorliegenden Erfindung besteht nun darin, ein
Verfahren und eine Vorrichtung zu schaffen, die bei z. B.
Kiosksystemen eine zuverlässige automatische Umsetzung von
Sprache in Tastaturbefehle, Programmbefehle, Mausbewegungen und
/oder Text sicherstellt, effizient und robust auch bei
Störungen durch Hintergrundgeräusche funktioniert und eine
verläßliche Identifikation des Sprechers/-in ermöglicht,
sowie eine zuverlässige Umwandlung von Programmbefehlen in
Sprachausgabe sicherstellt.
Zur Lösung dieser Aufgabe wird vorgeschlagen, daß insbesondere
eine Rechnereinheit mit einer Spracherkennungseinheit und
einer Spracherzeugungseinheit Bedienkommandos in
Programmbefehle und/oder Programmbefehle in Sprachausgaben
mittels automatischer Spracherkennung/
Sprecheridentifizierung und/oder Spracherzeugung umgewandelt
und in Form digitaler Werte über das Mikrofon eingegeben und
/oder einem Lautsprecher ausgeben werden.
Die vorstehenden Ausführungen werden anhand der folgenden
Zeichnung näher erläutert.
Dabei zeigt:
Fig. 1 ein Kiosksystem (1), welches eine Rechnereinheit (2)
enthält. Diese Rechnereinheit (2) dient zur Umwandlung von
Spracheingaben in Programmbefehle und/oder zur Umwandlung
von Programmbefehlen in Sprachausgabe. Die in dieser
Rechnereinheit (2) enthaltene Spracherkennungseinheit (3),
Spracherzeugungseinheit (4) und die
Sprecheridentifizierungseinheit (5) beinhalten wiederum einen
Taktgenerator (6), einen CPU (Central-Processor-Unit) (7),
einen Befehlsspeicher und/oder Datenspeicher (8), ein
Mikrophon (9), ein weiteres Mikrophon (9a), einen
Lautsprecher (10) und eine Analogein- und -ausgangsschaltung
(11).
Zur Umsetzung der Sprachkommandos bzw. Sprachtexte in
Tastatur- und/oder Mausbefehle wird mittels automatischer
Spracherkennung und Sprecheridentifizierung ein Sprachsignal
mit einer vorgegebenen Taktrate, z. B. 100 us, digitalisiert.
Das Sprachsignal wird verändert und/oder transformiert, und/
oder vorgeschaltete Algorithmen zur Merkmalsextraktion (wie
digitale Filter) werden verwendet. Den GP's (genetischen
Programmen) wird zusätzlich und/oder ausschließlich dieses
Signal zugeführt. Das digitale Signal kann verändert und/oder
transformiert werden, indem die Phonem- und/oder Wort-
Identifikation auf der Basis von neuronalen Netzwerken (NN)
erfolgt, und das Klassifikationsergebnis einem NN in Form von
digitalen Werten zugeführt wird. Die Phonem- oder Wort-
Identifikation können auch auf der Basis von Fuzzy-Logik (FL)
erfolgen. Dabei wird dann das Klassifikationsergebnis einer
FL-Funktion in Form von digitalen Werten zugeführt. Zur
Identifikation des Sprechers/der Sprecherin wird das Klassifi
kationsergebnis von GP's (genetischen Programmen) aus dem
Sprachsignal verwendet.
Der Spracherkennungseinheit (3) werden die typischen
Hintergrundgeräusche der Sprachdatensammlung beim Training
beigemischt. Dadurch antizipiert der Erkenner die
Hintergrundgeräusche während des Erkennungsprozesses.
Alternativ besteht die Spracherkennungseinheit (3) in Form
einer Zusatzhardware, die den Erkennungsprozess wesentlich
beschleunigt sowie gegen Hintergrundgeräusche unempfindlicher
macht.
Darüberhinaus können die aktuellen Hintergrundgeräusche in den
Betriebspausen erfaßt und gespeichert werden. Die
Spracherkennungseinheit (3) wird dann damit trainiert und die
Hintergrundgeräusche während des Erkennungsprozesses
antizipiert.
Weiterhin kann die Hintergrundgeräuscherfassung durch die
Anbringung von mindestens einem weiteren Mikrofon (9a) in
genügendem Abstand zum eigentlichen zur Kommunikation mit dem
Benutzer angebrachten Mikrofon (9) erfolgen. Damit wird
ermöglicht, daß dem Erkenner die Sprachdaten separat zur
Filterung zugeführt werden.
Die durch eine automatische Spracherkennung/
Sprecheridentifizierung und/oder Spracherzeugung
umgewandelten digitalen Werte können z. B. für eine
sprachgesteuerte Bedienung eines Kiosksystems (1) eingesetzt
werden. Hierbei wird dann per Spracheingabe die Menüauswahl
getroffen und die weiteren erforderlichen Eingaben per Sprache
getätigt.
Über die an dieses Kiosksystem (1) angeschlossene Mikrophon-
Lautsprecher-Kombination können mittels Sprachausgabe
Kommandos oder Daten zur Information und Verifikation der
Spracheingaben an den Benutzer zurückgegeben werden.
Hierzu werden nachstehende Beispiele erläutert:
Gemäß der erfindungsgemäßen Vorrichtung ist es möglich, ein
Terminal zu schaffen, das mittels der Spracherkennungseinheit
(3) und Spracherzeugungseinheit (4) Sprachkommandos in
Tastatur- und/oder Mausbefehle umwandelt, welches die
sprachgesteuerte Bedienung eines solchen ermöglicht.
Gemäß der erfindungsgemäßen Vorrichtung ist es möglich, ein
POS-(Point-of-Sales)System zu schaffen, das mittels der
Spracherkennungseinheit (3) und Spracherzeugungseinheit (4)
Sprachkommandos in Tastatur- und/oder Mausbefehle umwandelt,
welches die sprachgesteuerte Bedienung eines solchen
ermöglicht.
Gemäß der erfindungsgemäßen Vorrichtung ist es möglich, ein
POI-(Point-of-Information)System zu schaffen, das mittels der
Spracherkennungseinheit (3) und Spracherzeugungseinheit (4)
Sprachkommandos in Tastatur- und/oder Mausbefehle umwandelt,
welches die sprachgesteuerte Bedienung eines solchen
ermöglicht.
Nach der erfindungsgemäßen Vorrichtung ist es möglich, ein
Internetzugangsterminal zu schaffen, das mittels der Sprach
erkennungseinheit (3) und Spracherzeugungseinheit (4)
Sprachkommandos in Tastatur- und/oder Mausbefehle umwandelt,
und damit den Zugang zum Internet und die sprachgesteuerte
Bedienung eines Web-Browsers ermöglicht.
Gemäß der erfindungsgemäßen Vorrichtung ist es ebenso möglich,
daß das Kiosksystem (1) durch die Rechnereinheit mit der
Spracherkennungseinheit (3) Sprachkommandos in Tastatur- und
/oder Mausbefehle umwandelt, welche die sprachgesteuerte
Bedienung eines Internet-Shopping-Centers ermöglicht.
Nach der erfindungsgemäßen Vorrichtung kann das Kiosksystem
(1) durch die Rechnereinheit mit der Spracherkennungseinheit
(3) Sprachkommandos umwandeln, die die sprachgesteuerte
Bedienung eines Verkaufsautomaten ermöglicht. Dadurch entfällt
die Bedienung von Tasten oder Schaltern.
Weiterhin wird mittels der erfindungsgemäßen Vorrichtung auch
die sprachgesteuerte Bedienung eines Ticketsystems ermöglicht.
Weitere Bespiele sind die sprachgesteuerte Bedienung eines
Warenpräsentationssystems, die sprachgesteuerte Bedienung
eines Städteinformationssystems oder die sprachgesteuerte
Bedienung eines Fahrplanauskunftssystems.
Ebenso kann die Bedienung eines Transaktionsterminals mittels
akustischer Bedienung erfolgen.
In gleicher Weise können auch Kommunikationsterminals bedient
werden.
Letztlich kann auch bei allen Anwendungen, bei denen eine
Bedienung der mechanischen Bedienelemente zu aufwendig oder zu
umständlich ist, die Vorrichtung Einsatz finden.
Vorteil dieser Erfindung ist es, ein Verfahren und eine
Vorrichtung anbieten zu können, die eine zuverlässige, robuste
automatische Sprachbedienung ermöglicht, und die bisher
übliche umständliche, mechanische Bedienung eines Kiosksystems
durch die Sprachbedienung ablöst. Dadurch wird die Bedienung
stark vereinfacht und die Akzeptanz vieler Anwendungen für
Kiosksysteme sehr erhöht.
Der Aufwand für die Bedienung wird sehr verringert, und es
ergeben sich daraus große Einsparpotentiale für den Handel und
den Vertrieb, da dadurch viele Verkaufs- und
Informationsinteraktionen standardisiert und automatisiert
werden können.
Claims (16)
1. Verfahren zur Umwandlung von Spracheingaben in Programmbefehle
und/oder zur Umwandlung von Programmbefehlen in
Sprachausgabe,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) für z. B. ein
Kiosksystem (1) mit einer Spracherkennungseinheit (3) und
einer Spracherzeugungseinheit (4) Bedienkommandos in
Programmbefehle und/oder Programmbefehle in Sprachausgaben
mittels automatischer Spracherkennung/
Sprecheridentifizierung und/oder Spracherzeugung umgewandelt
und in Form digitaler Werte über das Mikrofon (9) eingegeben
und/oder einem Lautsprecher (10) ausgeben werden.
2. Verfahren nach Anspruch 1,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mit einer
Spracherkennungseinheit (3) die typischen Hintergrundgeräusche
der Sprachdatensammlung beim Training beigemischt werden und
der Erkenner die Hintergrundgeräusche während des
Erkennungsprozesses antizipiert.
3. Verfahren nach mindestens den Ansprüchen 1 bis 2,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2), die eine
Spracherkennungseinheit (3) enthält, die die aktuellen
Hintergrundgeräusche in den Betriebspausen erfaßt, damit
trainiert wird und die Hintergrundgeräusche während des
Erkennungsprozesses antizipiert.
4. Verfahren nach mindestens den Ansprüchen 1 bis 3,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mit einer Sprach
erkennungseinheit (3) zusätzlich über eine Hintergrund
geräuschunterdrückung verfügt.
5. Vorrichtung nach mindestens einem der Ansprüchen 1 bis 4,
dadurch gekennzeichnet,
daß die Hintergrundgeräuschunterdrückung durch das Anbringen
von mindestens einem weiteren Mikrofon (9a) in genügendem
Abstand zum eigentlichen zur Kommunikation mit dem Benutzer
angebrachten Mikrofon (9) erfolgt und somit separat dem
Erkenner zur Filterung zugeführt wird.
6. Vorrichtung nach mindestens einem der Ansprüche 1 bis 5,
dadurch gekennzeichnet,
daß die Rechnereinheit (2) eine Spracherkennungseinheit (3),
eine Sprecheridentifizierungseinheit (5) und eine
Spracherzeugungseinheit (4) beinhaltet, wobei diese aus einem
Taktgenerator (6), CPU (Central-Processor-Unit) (7),
Befehlsspeicher und/oder Datenspeicher (8), Mikrophon (9),
einem weiteren Mikrophon (9a), einem Lautsprecher (10) und
Analogein- und -ausgangsschaltung (11) besteht.
7. Vorrichtung nach mindestens einem der Ansprüche 1 bis 6,
dadurch gekennzeichnet,
daß die Rechnereinheit (2) zusätzlich zur Beschleunigung und
Verbesserung der Sprachkennung und/oder -ausgabe mit einer
Coprozessoreinheit auf Basis neuronaler Technologie
ausgerüstet ist.
8. Vorrichtung nach mindestens einem der Ansprüche 1 bis 7,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mittels automatischer
Spracherkennung/Sprecheridentifizierung und/oder
Spracherzeugung durch die umgewandelten digitalen Werte die
sprachgesteuerte Bedienung eines Kiosksystems (1) ermöglicht.
9. Vorrichtung nach mindestens einem der Ansprüche 1 bis 8,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mittels automatischer
Spracherkennung/Sprecheridentifizierung und/oder
Spracherzeugung durch die umgewandelten digitalen Werte die
sprachgesteuerte Bedienung eines Terminals ermöglicht.
10. Vorrichtung nach mindestens einem der Ansprüche 1 bis 9,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mittels automatischer
Spracherkennung/Sprecheridentifizierung und/oder
Spracherzeugung durch die umgewandelten digitalen Werte die
sprachgesteuerte Bedienung eines POI-Systems(Point-of-
Information) ermöglicht.
11. Vorrichtung nach mindestens einem der Ansprüche 1 bis 10,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mittels automatischer
Spracherkennung/Sprecheridentifizierung und/oder
Spracherzeugung durch die umgewandelten digitalen Werte die
sprachgesteuerte Bedienung eines POS-Systems (Point-of-Sales)
ermöglicht.
12. Vorrichtung nach mindestens einem der Ansprüche 1 bis 11,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mittels automatischer
Spracherkennung/Sprecheridentifizierung und/oder
Spracherzeugung durch die umgewandelten digitalen Werte die
sprachgesteuerte Bedienung eines Internetzugangs-Terminals
ermöglicht.
13. Vorrichtung nach mindestens einem der Ansprüche 1 bis 12,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mittels automatischer
Spracherkennung/Sprecheridentifizierung und/oder
Spracherzeugung durch die umgewandelten digitalen Werte die
sprachgesteuerte Bedienung eines Verkaufsautomaten ermöglicht.
14. Vorrichtung nach mindestens einem der Ansprüche 1 bis 13,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mittels automatischer
Spracherkennung/Sprecheridentifizierung und/oder
Spracherzeugung durch die umgewandelten digitalen Werte die
sprachgesteuerte Bedienung eines Fahrplanauskunftssystems
ermöglicht.
15. Vorrichtung nach mindestens einem der Ansprüche 1 bis 14,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mittels automatischer
Spracherkennung/Sprecheridentifizierung und/oder
Spracherzeugung durch die umgewandelten digitalen Werte die
sprachgesteuerte Bedienung eines Städteinformationssystems
ermöglicht.
16. Vorrichtung nach mindestens einem der Ansprüche 1 bis 15,
dadurch gekennzeichnet,
daß insbesondere eine Rechnereinheit (2) mittels automatischer
Spracherkennung/Sprecheridentifizierung und/oder
Spracherzeugung durch die umgewandelten digitalen Werte die
sprachgesteuerte Bedienung eines Warenpräsentationssystems
ermöglicht.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999163142 DE19963142A1 (de) | 1999-12-24 | 1999-12-24 | Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE1999163142 DE19963142A1 (de) | 1999-12-24 | 1999-12-24 | Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems |
Publications (1)
Publication Number | Publication Date |
---|---|
DE19963142A1 true DE19963142A1 (de) | 2001-06-28 |
Family
ID=7934599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE1999163142 Withdrawn DE19963142A1 (de) | 1999-12-24 | 1999-12-24 | Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE19963142A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008055469A1 (de) | 2008-12-02 | 2010-06-10 | Schröder, Angelika | Anordnung und Verfahren zur Ausgabe von Sprachbedienbefehlen für die Bedienung gebäudetechnischer Anlagen |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4029697A1 (de) * | 1989-12-29 | 1991-07-04 | Pioneer Electronic Corp | Sprachgesteuertes fernbedienungssystem |
DE4309985A1 (de) * | 1993-03-29 | 1994-10-06 | Sel Alcatel Ag | Geräuschreduktion zur Spracherkennung |
DE19811879C1 (de) * | 1998-03-18 | 1999-05-12 | Siemens Ag | Einrichtung und Verfahren zum Erkennen von Sprache |
WO2000030052A1 (en) * | 1998-11-16 | 2000-05-25 | Buy-Tel Innovations Limited | A transaction processing system with voice recognition and verification |
DE19818608C2 (de) * | 1998-04-20 | 2000-06-15 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur Sprachdetektion und Geräuschparameterschätzung |
GB2346001A (en) * | 1999-01-22 | 2000-07-26 | Motorola Inc | Communication device and method for screening speech recognizer input |
-
1999
- 1999-12-24 DE DE1999163142 patent/DE19963142A1/de not_active Withdrawn
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE4029697A1 (de) * | 1989-12-29 | 1991-07-04 | Pioneer Electronic Corp | Sprachgesteuertes fernbedienungssystem |
DE4309985A1 (de) * | 1993-03-29 | 1994-10-06 | Sel Alcatel Ag | Geräuschreduktion zur Spracherkennung |
DE19811879C1 (de) * | 1998-03-18 | 1999-05-12 | Siemens Ag | Einrichtung und Verfahren zum Erkennen von Sprache |
DE19818608C2 (de) * | 1998-04-20 | 2000-06-15 | Deutsche Telekom Ag | Verfahren und Vorrichtung zur Sprachdetektion und Geräuschparameterschätzung |
WO2000030052A1 (en) * | 1998-11-16 | 2000-05-25 | Buy-Tel Innovations Limited | A transaction processing system with voice recognition and verification |
GB2346001A (en) * | 1999-01-22 | 2000-07-26 | Motorola Inc | Communication device and method for screening speech recognizer input |
Non-Patent Citations (1)
Title |
---|
JP 08076794 A.,In: Patent Abstracts of Japan * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102008055469A1 (de) | 2008-12-02 | 2010-06-10 | Schröder, Angelika | Anordnung und Verfahren zur Ausgabe von Sprachbedienbefehlen für die Bedienung gebäudetechnischer Anlagen |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE102020205786B4 (de) | Spracherkennung unter verwendung von nlu (natural language understanding)-bezogenem wissen über tiefe vorwärtsgerichtete neuronale netze | |
EP2176858B1 (de) | Verfahren zur spracherkennung | |
DE60125696T2 (de) | Universelle Fernsteuerung geeignet zum Empfang von Spracheingaben | |
DE69834553T2 (de) | Erweiterbares spracherkennungssystem mit einer audio-rückkopplung | |
DE19825205C2 (de) | Verfahren, Vorrichtung und Erzeugnis zum Generieren von postlexikalischen Aussprachen aus lexikalischen Aussprachen mit einem neuronalen Netz | |
DE60313706T2 (de) | Spracherkennungs- und -antwortsystem, Spracherkennungs- und -antwortprogramm und zugehöriges Aufzeichnungsmedium | |
DE202017106303U1 (de) | Bestimmen phonetischer Beziehungen | |
DE3337353A1 (de) | Sprachanalysator auf der grundlage eines verborgenen markov-modells | |
EP0994461A2 (de) | Verfahren zur automatischen Erkennung einer buchstabierten sprachlichen Äusserung | |
DE112013007617T5 (de) | Spracherkennungsvorrichtung und Spracherkennungsverfahren | |
DE60133537T2 (de) | Automatisches umtrainieren eines spracherkennungssystems | |
DE60214850T2 (de) | Für eine benutzergruppe spezifisches musterverarbeitungssystem | |
DE10110977C1 (de) | Bereitstellen von Hilfe-Informationen in einem Sprachdialogsystem | |
DE69333762T2 (de) | Spracherkennungssystem | |
DE19842151A1 (de) | Verfahren zur Adaption von linguistischen Sprachmodellen | |
DE112015003357B4 (de) | Verfahren und System zum Erkennen einer eine Wortabfolge enthaltenden Sprachansage | |
DE60014583T2 (de) | Verfahren und vorrichtung zur integritätsprüfung von benutzeroberflächen sprachgesteuerter geräte | |
DE19963142A1 (de) | Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems | |
DE102015221304A1 (de) | Verfahren und Vorrichtung zur Verbesserung der Erkennungsgenauigkeit bei der handschriftlichen Eingabe von alphanumerischen Zeichen und Gesten | |
EP0813734A1 (de) | Verfahren zur erkennung mindestens eines definierten, durch hidden-markov-modelle modellierten musters in einem zeitvarianten messignal, welches von mindestens einem störsignal überlagert wird | |
EP1220201B1 (de) | Verfahren und System zur automatischen Aktionssteuerung bei Vorträgen | |
WO2001013215A1 (de) | Vorrichtung zur umwandlung von sprachkommandos und/oder sprachtexte in tastatur- und/oder mausbewegungen und/oder texte | |
DE19938535A1 (de) | Vorrichtung zur Umwandlung von Sprachkommandos und/oder Sprachtexte in Tastatur- und/oder Mausbewegungen und/oder Texte | |
EP1064639B1 (de) | Gerät zur wiedergabe von informationen bzw. zur ausführung von funktionen | |
CN110910904A (zh) | 一种建立语音情感识别模型的方法及语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OM8 | Search report available as to paragraph 43 lit. 1 sentence 1 patent law | ||
8139 | Disposal/non-payment of the annual fee |