DE19963142A1

DE19963142A1 - Verfahren und Vorrichtung zur sprachgesteuerten Bedienung eines Kiosksystems

Info

Publication number: DE19963142A1
Application number: DE1999163142
Authority: DE
Inventors: Christoph Bueltemann; Heribert Leisner; Detlef Zuendorf
Original assignee: Individual
Current assignee: Individual
Priority date: 1999-12-24
Filing date: 1999-12-24
Publication date: 2001-06-28

Abstract

Die Erfindung bezieht sich auf ein Verfahren zur Umwandlung von Spracheingaben in Programmbefehle und/oder zur Umwandlung von Programmbefehlen in Sprachausgabe. DOLLAR A Um ein Verfahren und eine Vorrichtung zu schaffen, die bei z. B. Kiosksystemen eine zuverlässige automatische Umsetzung von Sprache in Tastaturbefehle, Programmbefehle, Mausbewegungen und/oder Text sicherstellt, effizient und robust auch bei Störungen durch Hintergrundgeräusche funktioniert und eine verläßliche Identifikation des Sprechers/-in ermöglicht sowie eine zuverlässige Umwandlung von Programmbefehlen in Sprachausgabe sicherstellt, wandelt insbesondere eine Rechnereinheit mit einer Spracherkennungseinheit und einer Spracherzeugungseinheit Bedienkommandos in Programmbefehle und/oder Programmbefehle in Sprachausgaben mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung um, die in Form digitaler Werte über das Mikrofon eingegeben und/oder einem Lautsprecher ausgegeben werden.

Description

Die Erfindung bezieht sich auf ein Verfahren zur Umwandlung von Spracheingaben in Programmbefehle und/oder zur Umwandlung von Programmbefehlen in Sprachausgabe sowie auf eine Vorrichtung zur Durchführung des Verfahrens.

Es ist bekannt, dass zur Bedienung von Kiosksystemen entweder eine Tastatur und/oder ein Touch-Screen benutzt wird.

Tastaturen als Bedienelement für Kiosksysteme sind seit der Einführung von Kiosksystemen Anfang der 90er-Jahre bekannt. Touch-Screen's werden seit ihrer Verfügbarkeit in den benötigten Abmessungen und Auflösungen seit ca. 1995 eingesetzt und verwendet.

Die Mausbewegungen werden durch Bewegungen des Zeigefingers auf dem Bildschirm erzeugt, und die Auslösung eines Menüpunktes oder Programmbefehls erfolgt durch Tippen mit dem Zeigefinger auf die entsprechende Bildschirmposition.

Kiosksysteme werden an allgemein zugänglichen Orten aufge stellt, um Informationen für eine breite Öffentlichkeit anbieten zu können. Man muß davon ausgehen, daß die Benutzer keine Erfahrung mit Computer haben. Deshalb ist eine leicht verständliche und einfach zu bedienende Benutzerschnittstelle notwendig. Dabei sollten auch körperliche Unterschiede beachtet werden. Man kann auch bemerken, daß eine einfache Benutzeroberfläche die Akzeptanz und Bedienungsfreundlichkeit eines Kiosksystem positiv beeinflußt. Ein Computerlaie sollte nicht mit einer komplizierten Tastatur oder der Benutzung einer Maus konfrontiert werden. Deshalb sind die meisten Kiosksysteme mit einem sogenannten Touch-Screen (berührungsempfindlicher Monitor) oder mit einer einfach zu bedienenden Tastatur, die robust gebaut ist, ausgestattet.

Die automatische Spracherkennung kann sowohl zur Umsetzung gesprochener Sprache in Tastaturbefehle und/oder Mausbewegungen und Texten, als auch zur Verifikation der Identität eines Benutzers eingesetzt werden, und damit die Benutzerakzeptanz eines Kiosksystems wesentlich erhöhen.

Bisher war ein Einsatz der automatischen Spracherkennung nicht möglich, da die bisherigen Lösungen bei Hintergrundgeräuschen nicht mehr funktionieren und zudem ein Training erfordern und damit für einen Einsatz in der Öffentlichkeit ungeeignet sind.

Seit ca. 1950 laufen verschiedene Forschungsvorhaben hinsichtlich Spracherkennungstechniken. Wobei seit 1980 die Erkennungsmöglichkeiten durch die Entwicklung von statistischen Verfahren, wie z. B. dem Hiddden-Markow- Modell (HMM) deutlich verbessert wurden.

Aus der Literatur (Schukat-Talamazzini, E. G. (1995), Automatische Spracherkennung, Grundlagen, statistische Modelle und effiziente Algorithmen, Vieweg-Verlag, Braunschweig) ist bereits bekannt, daß Verfahren der Spracherkennung entweder auf dem Vergleich zwischen abgespeicherten Referenzmustern und der unbekannten Äußerung beruhen oder auf der Beschreibung einzelner Wörter des Vokabulars mittels stochastischer Modelle. Dabei wird eine Äußerung, bestehend aus digitalen Abtastwerten, zunächst in eine Folge von Sprachblöcken vorgegebener Dauer zerlegt, und dann für jeden Sprachblock ein Satz von Merkmalsgrößen berechnet. Jeder Satz ergibt einen sogenannten Merkmalsvektor. Die statistischen Eigenschaften der Merkmalsgrößen werden in dem modellbasierenden Ansatz durch Verteilungsdichtefunktionen mit entsprechenden Mittelwerten und Varianzen erfasst. Diese Mittelwerte und Varianzen müssen zunächst in einer Trainingsphase anhand einer Vielzahl von repräsentativen Trainingsäußerungen bestimmt werden, um einen Referenzsatz (ein Modell) zu gewinnen. Zur Erkennung einer unbekannten Äußerung werden dann für die Modelle, die die Wörter des Vokabulars repräsentieren, jeweils Wahrscheinlichkeiten berechnet.

Diese statistischen Verfahren wurden durch die Einbeziehung und Kombination mit Methoden neuronaler Netzwerktechnologien erweitert.

Allen diesen Verfahren und Vorrichtungen ist gemeinsam, dass diese auf einem Host-PC direkt ablaufen müssen, somit diesen stark belasten und die Handhabung dadurch komplizieren, daß oftmals hohe Wartezeiten bis zum Abschluss des Erkennungs vorgangs bestehen. Sie benötigen sehr große Ressourcen an CPU- Leistung und Speicher und sind bei der Sprecheridentifizierung unzuverlässig.

Der Einsatz von Kiosksystemen stößt auf Schwierigkeiten, da die Bedienung dieser Systeme für den Normalbürger zu kompliziert und fehleranfällig ist.

Der Einsatz von Kiosksystemen im Bereich des Handels ist heute mehr denn je umstritten.

Die derzeit auf dem Markt erhältlichen Kiosksysteme basieren entweder auf mechanischen Eingabegeräten, bei denen eine Taste gedrückt oder auf einen Touch-Screen bei dem der Bildschirm berührt werden muss, um z. B. einen Befehl auszulösen, oder eine Mausbewegung zu emulieren.

Dies hat den Nachteil, das der Umgang mit diesen Kiosksystemen gelernt werden muss. Der Umgang mit Rechnern bleibt dadurch weiten Teilen der Bevölkerung verschlossen, bzw. die Benutzerakzeptanz sinkt.

Weiterhin sind diese Bedieneinheiten, die durch Schalter, Taster, Tastatur oder Touch-Screen realisiert werden, im Gegensatz zur automatischen Sprachein- und Sprachausgabe (gemäß der vorliegenden Erfindung) erheblich fehleranfälliger, störanfälliger und aufwendiger (in der Handhabung) hinsichtlich der Datenein- oder Ausgabe. Darüber hinaus sind bei solchen Systemen immer entsprechende Fähigkeiten und Kenntnisse bezüglich der Funktionsweise und Bedienung (z. B. bei der Tastatur) erforderlich, was oft zu Fehleingaben und einem erhöhten Zeitaufwand führt.

Die Aufgabe der vorliegenden Erfindung besteht nun darin, ein Verfahren und eine Vorrichtung zu schaffen, die bei z. B. Kiosksystemen eine zuverlässige automatische Umsetzung von Sprache in Tastaturbefehle, Programmbefehle, Mausbewegungen und /oder Text sicherstellt, effizient und robust auch bei Störungen durch Hintergrundgeräusche funktioniert und eine verläßliche Identifikation des Sprechers/-in ermöglicht, sowie eine zuverlässige Umwandlung von Programmbefehlen in Sprachausgabe sicherstellt.

Zur Lösung dieser Aufgabe wird vorgeschlagen, daß insbesondere eine Rechnereinheit mit einer Spracherkennungseinheit und einer Spracherzeugungseinheit Bedienkommandos in Programmbefehle und/oder Programmbefehle in Sprachausgaben mittels automatischer Spracherkennung/ Sprecheridentifizierung und/oder Spracherzeugung umgewandelt und in Form digitaler Werte über das Mikrofon eingegeben und /oder einem Lautsprecher ausgeben werden.

Die vorstehenden Ausführungen werden anhand der folgenden Zeichnung näher erläutert.

Dabei zeigt:

Fig. 1 ein Kiosksystem (1), welches eine Rechnereinheit (2) enthält. Diese Rechnereinheit (2) dient zur Umwandlung von Spracheingaben in Programmbefehle und/oder zur Umwandlung von Programmbefehlen in Sprachausgabe. Die in dieser Rechnereinheit (2) enthaltene Spracherkennungseinheit (3), Spracherzeugungseinheit (4) und die Sprecheridentifizierungseinheit (5) beinhalten wiederum einen Taktgenerator (6), einen CPU (Central-Processor-Unit) (7), einen Befehlsspeicher und/oder Datenspeicher (8), ein Mikrophon (9), ein weiteres Mikrophon (9a), einen Lautsprecher (10) und eine Analogein- und -ausgangsschaltung (11).

Zur Umsetzung der Sprachkommandos bzw. Sprachtexte in Tastatur- und/oder Mausbefehle wird mittels automatischer Spracherkennung und Sprecheridentifizierung ein Sprachsignal mit einer vorgegebenen Taktrate, z. B. 100 us, digitalisiert. Das Sprachsignal wird verändert und/oder transformiert, und/ oder vorgeschaltete Algorithmen zur Merkmalsextraktion (wie digitale Filter) werden verwendet. Den GP's (genetischen Programmen) wird zusätzlich und/oder ausschließlich dieses Signal zugeführt. Das digitale Signal kann verändert und/oder transformiert werden, indem die Phonem- und/oder Wort- Identifikation auf der Basis von neuronalen Netzwerken (NN) erfolgt, und das Klassifikationsergebnis einem NN in Form von digitalen Werten zugeführt wird. Die Phonem- oder Wort- Identifikation können auch auf der Basis von Fuzzy-Logik (FL) erfolgen. Dabei wird dann das Klassifikationsergebnis einer FL-Funktion in Form von digitalen Werten zugeführt. Zur Identifikation des Sprechers/der Sprecherin wird das Klassifi kationsergebnis von GP's (genetischen Programmen) aus dem Sprachsignal verwendet.

Der Spracherkennungseinheit (3) werden die typischen Hintergrundgeräusche der Sprachdatensammlung beim Training beigemischt. Dadurch antizipiert der Erkenner die Hintergrundgeräusche während des Erkennungsprozesses.

Alternativ besteht die Spracherkennungseinheit (3) in Form einer Zusatzhardware, die den Erkennungsprozess wesentlich beschleunigt sowie gegen Hintergrundgeräusche unempfindlicher macht.

Darüberhinaus können die aktuellen Hintergrundgeräusche in den Betriebspausen erfaßt und gespeichert werden. Die Spracherkennungseinheit (3) wird dann damit trainiert und die Hintergrundgeräusche während des Erkennungsprozesses antizipiert.

Weiterhin kann die Hintergrundgeräuscherfassung durch die Anbringung von mindestens einem weiteren Mikrofon (9a) in genügendem Abstand zum eigentlichen zur Kommunikation mit dem Benutzer angebrachten Mikrofon (9) erfolgen. Damit wird ermöglicht, daß dem Erkenner die Sprachdaten separat zur Filterung zugeführt werden.

Die durch eine automatische Spracherkennung/ Sprecheridentifizierung und/oder Spracherzeugung umgewandelten digitalen Werte können z. B. für eine sprachgesteuerte Bedienung eines Kiosksystems (1) eingesetzt werden. Hierbei wird dann per Spracheingabe die Menüauswahl getroffen und die weiteren erforderlichen Eingaben per Sprache getätigt.

Über die an dieses Kiosksystem (1) angeschlossene Mikrophon- Lautsprecher-Kombination können mittels Sprachausgabe Kommandos oder Daten zur Information und Verifikation der Spracheingaben an den Benutzer zurückgegeben werden.

Hierzu werden nachstehende Beispiele erläutert:

Beispiel 1

Gemäß der erfindungsgemäßen Vorrichtung ist es möglich, ein Terminal zu schaffen, das mittels der Spracherkennungseinheit (3) und Spracherzeugungseinheit (4) Sprachkommandos in Tastatur- und/oder Mausbefehle umwandelt, welches die sprachgesteuerte Bedienung eines solchen ermöglicht.

Beispiel 2

Gemäß der erfindungsgemäßen Vorrichtung ist es möglich, ein POS-(Point-of-Sales)System zu schaffen, das mittels der Spracherkennungseinheit (3) und Spracherzeugungseinheit (4) Sprachkommandos in Tastatur- und/oder Mausbefehle umwandelt, welches die sprachgesteuerte Bedienung eines solchen ermöglicht.

Beispiel 3

Gemäß der erfindungsgemäßen Vorrichtung ist es möglich, ein POI-(Point-of-Information)System zu schaffen, das mittels der Spracherkennungseinheit (3) und Spracherzeugungseinheit (4) Sprachkommandos in Tastatur- und/oder Mausbefehle umwandelt, welches die sprachgesteuerte Bedienung eines solchen ermöglicht.

Beispiel 4

Nach der erfindungsgemäßen Vorrichtung ist es möglich, ein Internetzugangsterminal zu schaffen, das mittels der Sprach erkennungseinheit (3) und Spracherzeugungseinheit (4) Sprachkommandos in Tastatur- und/oder Mausbefehle umwandelt, und damit den Zugang zum Internet und die sprachgesteuerte Bedienung eines Web-Browsers ermöglicht.

Beispiel 5

Gemäß der erfindungsgemäßen Vorrichtung ist es ebenso möglich, daß das Kiosksystem (1) durch die Rechnereinheit mit der Spracherkennungseinheit (3) Sprachkommandos in Tastatur- und /oder Mausbefehle umwandelt, welche die sprachgesteuerte Bedienung eines Internet-Shopping-Centers ermöglicht.

Beispiel 6

Nach der erfindungsgemäßen Vorrichtung kann das Kiosksystem (1) durch die Rechnereinheit mit der Spracherkennungseinheit (3) Sprachkommandos umwandeln, die die sprachgesteuerte Bedienung eines Verkaufsautomaten ermöglicht. Dadurch entfällt die Bedienung von Tasten oder Schaltern.

Weiterhin wird mittels der erfindungsgemäßen Vorrichtung auch die sprachgesteuerte Bedienung eines Ticketsystems ermöglicht.

Weitere Bespiele sind die sprachgesteuerte Bedienung eines Warenpräsentationssystems, die sprachgesteuerte Bedienung eines Städteinformationssystems oder die sprachgesteuerte Bedienung eines Fahrplanauskunftssystems.

Ebenso kann die Bedienung eines Transaktionsterminals mittels akustischer Bedienung erfolgen.

In gleicher Weise können auch Kommunikationsterminals bedient werden.

Letztlich kann auch bei allen Anwendungen, bei denen eine Bedienung der mechanischen Bedienelemente zu aufwendig oder zu umständlich ist, die Vorrichtung Einsatz finden.

Vorteil dieser Erfindung ist es, ein Verfahren und eine Vorrichtung anbieten zu können, die eine zuverlässige, robuste automatische Sprachbedienung ermöglicht, und die bisher übliche umständliche, mechanische Bedienung eines Kiosksystems durch die Sprachbedienung ablöst. Dadurch wird die Bedienung stark vereinfacht und die Akzeptanz vieler Anwendungen für Kiosksysteme sehr erhöht.

Der Aufwand für die Bedienung wird sehr verringert, und es ergeben sich daraus große Einsparpotentiale für den Handel und den Vertrieb, da dadurch viele Verkaufs- und Informationsinteraktionen standardisiert und automatisiert werden können.

Claims

1. Verfahren zur Umwandlung von Spracheingaben in Programmbefehle und/oder zur Umwandlung von Programmbefehlen in Sprachausgabe, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) für z. B. ein Kiosksystem (1) mit einer Spracherkennungseinheit (3) und einer Spracherzeugungseinheit (4) Bedienkommandos in Programmbefehle und/oder Programmbefehle in Sprachausgaben mittels automatischer Spracherkennung/ Sprecheridentifizierung und/oder Spracherzeugung umgewandelt und in Form digitaler Werte über das Mikrofon (9) eingegeben und/oder einem Lautsprecher (10) ausgeben werden.

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mit einer Spracherkennungseinheit (3) die typischen Hintergrundgeräusche der Sprachdatensammlung beim Training beigemischt werden und der Erkenner die Hintergrundgeräusche während des Erkennungsprozesses antizipiert.

3. Verfahren nach mindestens den Ansprüchen 1 bis 2, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2), die eine Spracherkennungseinheit (3) enthält, die die aktuellen Hintergrundgeräusche in den Betriebspausen erfaßt, damit trainiert wird und die Hintergrundgeräusche während des Erkennungsprozesses antizipiert.

4. Verfahren nach mindestens den Ansprüchen 1 bis 3, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mit einer Sprach erkennungseinheit (3) zusätzlich über eine Hintergrund geräuschunterdrückung verfügt.

5. Vorrichtung nach mindestens einem der Ansprüchen 1 bis 4, dadurch gekennzeichnet, daß die Hintergrundgeräuschunterdrückung durch das Anbringen von mindestens einem weiteren Mikrofon (9a) in genügendem Abstand zum eigentlichen zur Kommunikation mit dem Benutzer angebrachten Mikrofon (9) erfolgt und somit separat dem Erkenner zur Filterung zugeführt wird.

6. Vorrichtung nach mindestens einem der Ansprüche 1 bis 5, dadurch gekennzeichnet, daß die Rechnereinheit (2) eine Spracherkennungseinheit (3), eine Sprecheridentifizierungseinheit (5) und eine Spracherzeugungseinheit (4) beinhaltet, wobei diese aus einem Taktgenerator (6), CPU (Central-Processor-Unit) (7), Befehlsspeicher und/oder Datenspeicher (8), Mikrophon (9), einem weiteren Mikrophon (9a), einem Lautsprecher (10) und Analogein- und -ausgangsschaltung (11) besteht.

7. Vorrichtung nach mindestens einem der Ansprüche 1 bis 6, dadurch gekennzeichnet, daß die Rechnereinheit (2) zusätzlich zur Beschleunigung und Verbesserung der Sprachkennung und/oder -ausgabe mit einer Coprozessoreinheit auf Basis neuronaler Technologie ausgerüstet ist.

8. Vorrichtung nach mindestens einem der Ansprüche 1 bis 7, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung durch die umgewandelten digitalen Werte die sprachgesteuerte Bedienung eines Kiosksystems (1) ermöglicht.

9. Vorrichtung nach mindestens einem der Ansprüche 1 bis 8, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung durch die umgewandelten digitalen Werte die sprachgesteuerte Bedienung eines Terminals ermöglicht.

10. Vorrichtung nach mindestens einem der Ansprüche 1 bis 9, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung durch die umgewandelten digitalen Werte die sprachgesteuerte Bedienung eines POI-Systems(Point-of- Information) ermöglicht.

11. Vorrichtung nach mindestens einem der Ansprüche 1 bis 10, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung durch die umgewandelten digitalen Werte die sprachgesteuerte Bedienung eines POS-Systems (Point-of-Sales) ermöglicht.

12. Vorrichtung nach mindestens einem der Ansprüche 1 bis 11, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung durch die umgewandelten digitalen Werte die sprachgesteuerte Bedienung eines Internetzugangs-Terminals ermöglicht.

13. Vorrichtung nach mindestens einem der Ansprüche 1 bis 12, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung durch die umgewandelten digitalen Werte die sprachgesteuerte Bedienung eines Verkaufsautomaten ermöglicht.

14. Vorrichtung nach mindestens einem der Ansprüche 1 bis 13, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung durch die umgewandelten digitalen Werte die sprachgesteuerte Bedienung eines Fahrplanauskunftssystems ermöglicht.

15. Vorrichtung nach mindestens einem der Ansprüche 1 bis 14, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung durch die umgewandelten digitalen Werte die sprachgesteuerte Bedienung eines Städteinformationssystems ermöglicht.

16. Vorrichtung nach mindestens einem der Ansprüche 1 bis 15, dadurch gekennzeichnet, daß insbesondere eine Rechnereinheit (2) mittels automatischer Spracherkennung/Sprecheridentifizierung und/oder Spracherzeugung durch die umgewandelten digitalen Werte die sprachgesteuerte Bedienung eines Warenpräsentationssystems ermöglicht.