DE102020129602A1

DE102020129602A1 - Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe

Info

Publication number: DE102020129602A1
Application number: DE102020129602.9A
Authority: DE
Inventors: Jörg Jonas-Kops
Original assignee: Nxtbase Technologies GmbH
Current assignee: DANTZ, DIRK, DR., DE
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2022-05-12

Abstract

Die Erfindung betrifft ein Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe mit den Verfahrensschritten Erfassen einer Spracheingabe, Identifizieren der Spracheingabe als Sprachbefehl zur Ausführung eines Prozessschrittes, Zuordnen der erfassten und als Sprachbefehl identifizierten Spracheingabe zu einem Prozessschritt und Starten des der Spracheingabe zugeordneten Prozessschrittes nach Ablauf einer Latenzzeit. Die Erfindung betrifft weiterhin ein Softwareprogramm und eine Datenbrille zur Ausführung des erfindungsgemäßen Verfahrens.

Description

Die Erfindung betrifft ein Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe mit den Verfahrensschritten Erfassen einer Spracheingabe, Identifizieren der Spracheingabe als Sprachbefehl zur Ausführung eines Prozessschrittes, Zuordnen der erfassten und als Sprachbefehl identifizierten Spracheingabe zu einem Prozessschritt und Starten des der Spracheingabe zugeordneten Prozessschrittes nach Ablauf einer Latenzzeit. Die Erfindung betrifft weiterhin ein Softwareprogramm und eine Datenbrille zur Ausführung des erfindungsgemäßen Verfahrens.
Stand der Technik
Elektronische Geräte, die Spracheingabe verstehen und umsetzen, sind bekannt. Derartige Geräte sind z.B. Navigationsgeräte, Smartphones, Smartwatches, Head-Mounted-Devices (HMD) und Augmented-Reality-Systeme (AR). Derartige Systeme werden z.B. im industriellen Bereich (insbesondere Industrie 4.0) der Predictive Maintenance (vorausschauende Wartung) eingesetzt werden, in dem Nutzer Prozesse, wie z.B.: Prüfpläne, Qualitätsprüfungen in Form von Soll-Ist-Vergleichen oder in Form von Schritt für Schritt Anleitungen abarbeiten sowie die Ergebnisse dokumentieren und analysieren. Die genannten Geräte weisen verschiedene Applikationen (Apps) auf und/oder haben über eine meistens drahtlose Verbindung Zugriff auf Apps, deren Funktionen basierend auf der Spracheingabe ausgewählt werden können.
Bei Einsatz derartiger Systeme in rauhen Umgebungen mit z.B. hoher Lautstärke und ungünstigen Lichtverhältnissen besteht die Gefahr, dass ein Nutzer eine falsche Spracheingabe tätigt und so u.U. einen Prozessschritt auslöst, der so von ihm nicht intendiert war.
Es ist daher Aufgabe der Erfindung, ein Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe bereitzustellen, mit dem ein Nutzer sicher und zuverlässig einen Prozess steuern kann.
Es ist ebenfalls Aufgabe der Erfindung, ein Computerprogramm zur Ausführung eines Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe bereitzustellen, mit dem ein Nutzer sicher und zuverlässig einen Prozess steuern kann.
Es ist ebenfalls Aufgabe der Erfindung, eine Vorrichtung zur Ausführung eines Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe bereitzustellen, mit dem ein Nutzer sicher und zuverlässig einen Prozess steuern kann.
Die Aufgabe wird mittels des Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe gemäß Anspruch 1 gelöst. Vorteilhafte Ausführungen der Erfindung sind in den Unteransprüchen dargelegt.
Das erfindungsgemäße Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe weist vier Verfahrensschritte auf: Ein Prozess ist im Rahmen dieser Schrift ein Ablauf von Prozessschritten. Die einzelnen Prozessschritte können, müssen aber nicht aufeinander aufbauen. Im ersten Verfahrensschritt wird eine Spracheingabe erfasst. Der Nutzer gibt eine Spracheingabe, die erfasst wird. Das Erfassen einer Spracheingabe beinhaltet im Rahmen dieser Schrift das Empfangen und das Erkennen der Spracheingabe des Nutzers. Im zweiten Verfahrensschritt wird die Spracheingabe als Sprachbefehl zur Ausführung eines Prozessschrittes identifiziert. Die Identifikation kann z.B. mittels einer Suche nach und Erkennung von Schlüsselworten als Sprachbefehle durchgeführt werden. Im dritten Verfahrensschritt wird die erfasste Sprachbefehlseingabe einem Prozessschritt zugeordnet. Der Prozessschritt kann z.B. der derzeitige Schritt eines Entscheidungsbaums sein. Im vierten Verfahrensschritt wird der der Sprachbefehlseingabe zugeordnete Prozess nach Ablauf einer Latenzzeit gestartet. Der Prozess kann z.B. der nächste Prozessschritt des Entscheidungsbaums sein.
Eine Latenzzeit im Rahmen dieser Schrift ist ein variabler Zeitraum zwischen Erfassen einer Spracheingabe eines Nutzers und Starten des Prozessschrittes. Die Latenzzeit ist insbesondere nicht Resultat von (unabsichtlichen) Verzögerungen der verwendeten Hardware und/oder einer Verbindung zwischen einzelnen Hardwarekomponenten. Die Latenzzeit ist ebenfalls nicht Resultat der (unabsichtlichen) Abarbeitung von Befehlsschritten eines Softwareprogramms. Die Latenzzeit ist ein intendierter Zeitraum, der von einem Nutzer bewusst eingestellt werden kann und damit nicht von Hardwarekomponenten und/oder Softwareprogrammen bestimmt wird. Nach Eingabe eines Sprachbefehls durch einen Nutzer verstreicht ein Zeitraum, innerhalb dessen der Nutzer den von ihm eingegebenen Sprachbefehl annullieren oder ändern kann.
In einer weiteren Gestaltung der Erfindung beträgt die Latenzzeit mindestens 2s, bevorzugt mindestens 3s und besonders bevorzugt mindestens 5s. Der Nutzer erhält dadurch genügend Zeit, den identifizierten Sprachbefehl zu erkennen und ggf. zu annullieren.
In einer weiteren Ausführung der Erfindung erfolgt nach Identifikation der Spracheingabe als Sprachbefehl eine erste Ausgabe auf einer Ausgabeeinrichtung. Der Nutzer erhält durch die erste Ausgabe eine Rückmeldung über den identifizierten Sprachbefehl und kann sich so vergewissern, dass seine Spracheingabe richtig erkannt ist.
In einer weiteren Ausgestaltung der Erfindung ist die erste Ausgabe eine visuelle Ausgabe auf einer Anzeige. Die visuelle Anzeigeeinrichtung ist üblicherweise ein kleiner Bildschirm, der an einer Datenbrille angeordnet und damit direkt im Sichtfeld des Nutzers ist. Die erste Ausgabe kann z.B. ein Symbol, ein Icon oder eine schriftliche Ausgabe sein. Der Nutzer erhält durch die erste Ausgabe eine Rückmeldung über den identifizierten Sprachbefehl und kann sich so vergewissern, dass seine Spracheingabe richtig erkannt ist.
In einer Weiterbildung der Erfindung ist die erste Ausgabe eine akustische Ausgabe. Die akustische Ausgabeeinrichtung ist an einer Datenbrille angeordnet und z.B. ein In-Ear-Kopfhörer, damit der Nutzer die Spracheingabemöglichkeit auch in geräuschintensiven Umgebungen gut hören kann.
In einer weiteren Ausbildung der Erfindung wird in der ersten Ausgabe der erkannte Sprachbefehl wiederholt. Die Wiederholung ist eine einfache, aber zuverlässige Methode, dem Nutzer anzuzeigen, dass von der ihm gegebene Sprachbefehl korrekt erfasst wurde. Der Nutzer kann daher schnell erkennen, ob der identifizierte Sprachbefehl dem von ihm intendierten Sprachbefehl entspricht.
In einer weiteren Ausführung der Erfindung umfasst die erste Ausgabe eine neue Spracheingabemöglichkeit. Der Nutzer erhält die Möglichkeit, eine neue Spracheingabe zu geben. Die neue Spracheingabe kann z.B. eine Annullierung oder eine Bestätigung der ursprünglichen Spracheingabe beinhalten.
In einer weiteren Gestaltung der Erfindung erfolgt die erste Ausgabe der neuen Spracheingabemöglichkeit zusammen mit anderen Spracheingabemöglichkeiten. Der Nutzer erhält die Möglichkeit, neue Spracheingaben zu geben. Die Spracheingabemöglichkeiten können z.B. Annullierung oder Bestätigung der ursprünglichen Spracheingabe oder weitere Prozessschritte sein.
In einer vorteilhaften Ausgestaltung der Erfindung umfasst die neue Spracheingabemöglichkeit einen Widerrufsbefehl zum Widerruf des erkannten Sprachbefehls. Wenn der identifizierte Sprachbefehl nicht dem vom Nutzer intendierten Sprachbefehl entspricht, oder der Nutzer einen anderen Sprachbefehl geben möchte, kann der Nutzer den identifizierten Sprachbefehl widerrufen.
In einer Weiterbildung der Erfindung umfasst die erste Ausgabe eine Darstellung der verbleibenden Latenzzeit. Die Latenzzeit ist der Zeitraum, innerhalb dessen der identifizierte Sprachbefehl noch widerrufen, bestätigt oder geändert werden kann. Dieser Zeitraum wird dargestellt, damit der Nutzer innerhalb der Latenzzeit reagieren kann.
In einer weiteren Ausbildung der Erfindung kann die Latenzzeit durch eine wiederholte Eingabe des identifizierten Sprachbefehls verkürzt und/oder abgebrochen werden. Dadurch wird der mittels des erfindungsgemäßen Verfahrens gesteuerte Prozess nicht unnötig in die zeitliche Länge gezogen.
In einer weiteren Gestaltung der Erfindung wird der dem identifizierten Sprachbefehl zugeordnete Prozessschritt unmittelbar nach der Wiederholung des identifizierten Sprachbefehls gestartet und/oder ausgeführt. Dadurch wird der mittels des erfindungsgemäßen Verfahrens gesteuerte Prozess nicht unnötig in die zeitliche Länge gezogen.
In einer weiteren Ausführung der Erfindung erfolgt nach Ablauf der Latenzzeit eine zweite Ausgabe auf einer Ausgabeeinrichtung. Die zweite Ausgabe kann z.B. eine Statusmeldung des Systems zur Spracherkennung oder des derzeitig durchgeführten Prozessschrittes sein.
In einer weiteren Ausgestaltung der Erfindung wird der dem identifizierten Sprachbefehl zugeordnete Prozessschritt nach Erfassen und Zuordnen des Sprachbefehls gestartet, wenn der Sprachbefehl solitär erfasst wird. Jede Spracheingabe eines Nutzers wird nur auf einen Sprachbefehl geprüft, und in jeder Spracheingabe wird nur ein Sprachbefehl identifiziert. Dies erleichtert einem Nutzer die Nachvollziehbarkeit seiner Spracheingaben, Verwirrung durch Mehrfachbefehle wird vermieden.
In einer weiteren Ausbildung der Erfindung erfolgt das Starten des dem identifizierten Sprachbefehl zugeordneten Prozessschrittes durch den Ablauf der Latenzzeit. Verstreicht die Latenzzeit, wird der dem identifizierten Sprachbefehl zugeordnete Prozessschritt ausgeführt.
In einer weiteren Ausführung der Erfindung werden ausschließlich Hardware-Ressourcen der Datenbrille zum Empfang einer Sprachbefehlseingabe genutzt. Limitierende Faktoren sind dabei hauptsächlich der an der Datenbrille selbst angeordnete zur Verfügung stehende Speicherplatz sowie Rechenleistung zur Ausführung eines geeigneten Computerprogramms sowie die auf die Spracheingabe begrenzten Steuerungs- und/oder Eingabemöglichkeiten. Die Datenbrille ist während des Verfahrens mit einem Computer verbunden, der die geeignete und ausreichende Hardware-Ausstattung aufweist. Angestrebt ist eine vollständige Ausführung des Verfahrens auf der Datenbrille, um den Aufwand an geeigneter Hardware so gering wie möglich zu halten. Insbesondere wird die Hardware der Datenbrille zum Empfang einer Sprachbefehlseingabe eines Nutzers verwendet, die Datenbrille weist dazu eine akustische Aufnahmeeinrichtung (Mikrofon) auf. Weitere Hardware kann über die Kopplung über geeignete Kommunikationsschnittstellen mit der Datenbrille verbunden sein. Sie wird dann als zur Datenbrille gehörig gezählt, wenn ein entsprechendes der Hardware zugeordnetes Treiberprogramm auf der Datenbrille ausgeführt wird.
Die Aufgabe wird ebenfalls mittels des Softwareprogramms zur Durchführung des Verfahrens gemäß Anspruch 17 gelöst.
Das erfindungsgemäße Softwareprogramm ist geeignet, das Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe durchzuführen. Das Softwareprogramm nutzt die Hardware der Datenbrille zur Eingabe von Sprachbefehlen und Ausgabe von Bestätigung bzw. Widerruf der eingegebenen Sprachbefehle.
Die Aufgabe wird außerdem durch die Datenbrille gemäß Anspruch 19 gelöst.
Die erfindungsgemäße Datenbrille zur Ausführung des erfindungsgemäßen Verfahrens weist eine Anzeigeeinrichtung zur Darstellung von Spracheingabemöglichkeiten auf. Die Anzeigeeinrichtung ist permanent im Sichtfeld des Nutzers angeordnet, z.B. mittels eines AR-Systems.
Weiterhin weist das System ein Mikrophon zum Erfassen von gesprochenen Spracheingabemöglichkeiten auf. Das Mikrofon kann permanent im Sprachfeld des Nutzers angeordnet sein, z.B. mittels eines AR-Systems.
Außerdem weist das System eine Computereinheit zur Ausführung eines Softwareprogramms zur Durchführung des Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe auf. Die Computereinheit kann ein Wearable wie Smartphone, Smartwatch sein oder innerhalb eines AR-Systems angeordnet sein. Möglich ist aber auch eine stationäre Computereinheit, mit der ein Wearable mittels Kabelverbindung oder kabelloser Verbindung verbunden ist.
In einer Weiterbildung der Erfindung verfügt die Datenbrille ausschließlich über ein Mikrofon zur Befehlseingabe durch einen Nutzer. Das Mikrofon ist derart an der Datenbrille angeordnet, dass ein Nutzer komfortabel und sicher einen Spracheingabebefehl geben kann.
Ausführungsbeispiele des erfindungsgemäßen Systems und des erfindungsgemäßen Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe sind in den Zeichnungen schematisch vereinfacht dargestellt und werden in der nachfolgenden Beschreibung näher erläutert.
Es zeigen:

1: Datenbrille
2: Das erfindungsgemäße Verfahren - Bestätigung des Spracheingabebefehls durch visuelle Anzeige
3: Erste Anzeige eines identifizierten Sprachbefehls
4: Das erfindungsgemäße Verfahren, wobei eine zweite Ausgabe nach Verstreichen einer Latenzzeit erfolgt
5: Das erfindungsgemäße Verfahren - Bestätigung bzw. Widerruf des Spracheingabebefehls
6: Ablaufdiagramm des erfindungsgemäßen Verfahrens

1 zeigt eine Ansicht eines Ausführungsbeispiels des erfindungsgemäßen Systems zur Durchführung des Verfahrens 400 zur Steuerung von Prozessen. Das System weist eine Datenbrille 100 auf, mittels dem die Spracheingabemöglichkeiten in das Sichtfeld eines Nutzers eingeblendet werden. Die Datenbrille 100 wird in diesem Ausführungsbeispiel wie eine herkömmliche Brille vom Nutzer getragen und verfügt über eine entsprechend gestaltete Fassung 170 mit Bügel 180 und Brillengläsern 190. Die Datenbrille 100 weist die Projektionsvorrichtung 110 mit Bildschirm 120 zur Einblendung der Spracheingabemöglichkeiten direkt vor dem Auge des Nutzers auf. Eine derartige Datenbrille 100 erhöht die Geschwindigkeit der Bearbeitung von Prozessen, da der Nutzer beide Arme frei hat. Zur Sprachein- und Ausgabe verfügt die Datenbrille 100 über eine Kommunikationseinheit 160 mit Mikrofon 130 und Audioausgabe 140. Gesteuert wird die Datenbrille 100 durch die Steuereinheit 150. Neben der Verwendung einer Datenbrille 100 kann das erfindungsgemäße Verfahren 400 aber auch auf anderen Geräten, vorteilhafterweise Wearables (am Körper getragene Geräte) ausgeführt werden, z.B. mittels eines Smartphones. Das System 1 weist außerdem einen Rechner auf (nicht dargestellt), mit dem die Steuereinheit 150 verbunden ist. Der Rechner ist vorzugsweise ein handelsüblicher PC oder Notebook, der genügend Rechenleistung bereitstellt, um ein Computerprogramm zu betreiben, mit dem das erfindungsgemäße Verfahren 100 durchgeführt wird.
Das erfindungsgemäße Verfahren 400 zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe 250 weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt 410 wird eine Sprachbefehlseingabe 250 des Nutzers erfasst. Im zweiten 420 Verfahrensschritt wird die erfasste Spracheingabe 250 als Sprachbefehl zur Ausführung eines Prozessschrittes identifiziert. Im dritten Verfahrensschritt 430, 435 wird die erfasste und als Sprachbefehl identifizierte Spracheingabe 250 einem Prozessschritt zugeordnet. Im vierten Verfahrensschritt 440 wird der der Sprachbefehlseingabe 250 zugeordnete Prozess nach Ablauf einer Latenzzeit 214 gestartet.
Ein Ausführungsbeispiel der Anwendung des erfindungsgemäßen Verfahrens 400 zeigt 2. Zur Steuerung des Verfahrens 400 wird vorteilhafterweise ein Chatbot verwendet, also ein textbasiertes Dialogsystem, mit dem ein Nutzer einen Prozess steuert. Der Nutzer gibt die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt speichern““ in das Mikrofon 130 der Datenbrille 100 ein. Dabei erfolgt der Empfang der Spracheingabe 250 ausschließlich über das Mikrofon 130 der Datenbrille 100. Die Spracheingabe 250 wird empfangen und vom Spracherkennungssystem erfasst 410. Die Spracheingabe „Voice Mail“ wird als Sprachbefehl identifiziert 420.
Die Identifikation 420 kann z.B. mittels Sprachpausen erfolgen, die zeitlich unmittelbar vor und unmittelbar hinter einem Sprachbefehl (hier „Voice Mail“) von einem Nutzer eingelegt werden. Der Prozess der Identifikation 420 kann alternativ oder zusätzlich auch mittels einer Suche nach und Erkennung von Schlüsselworten als Sprachbefehle durchgeführt werden. Die Schlüsselworte weisen dabei charakteristische und vor allem distinktive phonetische Merkmale auf und sind in einer Datenbank gespeichert. Dadurch wird der Zeitaufwand der Identifikation 420 der Spracheingabe 250 verringert. Danach wird die Spracheingabe 250 dem Prozessschritt „Voice Mail“ zugeordnet 430.
Auf dem Bildschirm 120 der Anzeigevorrichtung 110 wird dem Nutzer eine Latenzzeit 214 angezeigt, in diesem Ausführungsbeispiel 5 s. Die Latenzzeit 214 kann von einem Nutzer frei gewählt werden. Vorteilhaft ist eine Latenzzeit 214 im Bereich von mindestens 2 s bis mehr als 5 s, um dem Nutzer genügend Zeit zu geben, den identifizierten Sprachbefehl zu erkennen. Zusätzlich wird dem Nutzer auf dem Bildschirm 120 ein geeignetes Symbol 224 angezeigt, das dem identifizierten Sprachbefehl „Voice Mail“ angepasst und damit eindeutig zugeordnet ist. Damit können auch unterschiedliche Nutzer der Datenbrille 100 sofort und auf einen Blick erkennen, dass das von ihnen eingegebene Sprachsignal 250 erfasst und korrekt identifiziert ist. Alternativ oder zusätzlich kann der identifizierte Sprachbefehl akustisch auf der Audioausgabe 140 der Datenbrille 100 erfolgen, z.B. durch Ausgabe einer Wiederholung des Sprachbefehls, eines geeigneten Tones oder einer Melodie.
Die Latenzzeit 214 ist der Zeitraum, innerhalb dessen der gegebene Sprachbefehl 250 noch widerrufen bzw. geändert werden kann, indem der Nutzer den entsprechenden Sprachbefehl und/oder einen Widerrufsbefehl mittels Spracheingabe gibt, z.B. „Abbruch“. Nach Verstreichen der Latenzzeit 214 ohne Sprachbefehl und/oder Widerrufsbefehl wird der ursprüngliche Sprachbefehl 250 ausgeführt, und nicht ausgeführt bei Widerrufsbefehl.
Der Nutzer kann in diesem Ausführungsbeispiel die Sprachbefehlseingabe 250 auch innerhalb des Zeitraums der Latenzzeit 214 wiederholen, um den Prozessschritt auszuführen. Eine andere Möglichkeit besteht darin, dass die Latenzzeit 214 der Zeitraum ist, in dem ein Nutzer den gegebenen Sprachbefehl 250 explizit durch einen Sprachbefehl bestätigen muss, hier mit „Ausführen des Prozesses“. Nach Verstreichen der Latenzzeit 214 ohne Bestätigung durch den Nutzer wird dann der ursprüngliche Sprachbefehl 250 nicht ausgeführt. Bei erfolgter Bestätigung durch einen Nutzer wird der ursprüngliche Sprachbefehl 250 jedoch unmittelbar nach der Bestätigung ausgeführt 440. Die Bestätigung durch den Nutzer erfolgt in diesem Ausführungsbeispiel nach 2 s, die Latenzzeit 214 (hier 5 s) kann also durch den Nutzer verkürzt werden.
3 zeigt die erste Anzeige 110 eines identifizierten Sprachbefehls. Der Nutzer hat wie im vorhergehenden Ausführungsbeispiel die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt speichern““ in das Mikrofon 130 der Datenbrille 100 eingegeben. Die Spracheingabe 250 wurde empfangen und vom Spracherkennungssystem erfasst 410. Die Spracheingabe „Voice Mail“ ist als Sprachbefehl identifiziert 420 und dem Prozessschritt „Voice Mail“ zugeordnet 430. Dem Nutzer wird auf dem Bildschirm 120 ein geeignetes Symbol 224 angezeigt, das dem identifizierten Sprachbefehl „Voice Mail“ angepasst und damit eindeutig zugeordnet ist. Außerdem wird auf dem Bildschirm 120 der Anzeigevorrichtung 110 dem Nutzer eine Latenzzeit 214 angezeigt, in diesem Ausführungsbeispiel 5 s. Alternativ oder zusätzlich kann der identifizierte Sprachbefehl akustisch auf der Audioausgabe 140 der Datenbrille 100 erfolgen, z.B. durch Ausgabe einer Wiederholung des Sprachbefehls. Bei erfolgter Bestätigung durch einen Nutzer wird der ursprüngliche Sprachbefehl 250 unmittelbar nach der Bestätigung ausgeführt 440.
Ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens 400, wobei eine zweite Ausgabe nach Verstreichen einer Latenzzeit 214 erfolgt, zeigt 4. Der Nutzer hat wie im vorhergehenden Ausführungsbeispiel die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt speichern““ in das Mikrofon 130 der Datenbrille 100 eingegeben. Die Spracheingabe 250 wurde empfangen und vom Spracherkennungssystem erfasst 410. Die Spracheingabe „Voice Mail“ ist als Sprachbefehl identifiziert 420 und dem Prozessschritt „Voice Mail“ zugeordnet 430. Nach Ablauf der Latenzzeit 214 wird der Prozessschritt „Voice Mail“ ausgeführt 440. Dem Nutzer wird auf dem Bildschirm 120 ein geeignetes Symbol 224 angezeigt, das dem identifizierten Sprachbefehl „Voice Mail“ angepasst und damit eindeutig zugeordnet ist. Eine Bestätigung 216 der Ausführung des Prozessschrittes („wird ausgeführt“) wird dem Nutzer ebenfalls angezeigt. Auf dem Bildschirm 120 der Anzeigevorrichtung 110 wird in diesem Ausführungsbeispiel dem Nutzer zusätzlich eine Möglichkeit angezeigt, den von ihm gegebenen Sprachbefehl 250 („Voice Mail“) zu widerrufen. Dazu wird dem Nutzer in diesem Ausführungsbeispiel ein Widerruf 234 („Abbruch“) auf dem Bildschirm 120 in Schriftform angezeigt und optional oder zusätzlich auf der Audioausgabe 140 akustisch ausgegeben.
Ein weiteres Ausführungsbeispiel der Anwendung des erfindungsgemäßen Verfahrens 400 zeigt 5. Die Anzeigeeinrichtung 110 zeigt zwei unterschiedliche Spracheingabemöglichkeiten 216, 217 an. Der Nutzer hat wie in den vorhergehenden Ausführungsbeispielen die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt speichern““ in das Mikrofon 130 der Datenbrille 100 eingegeben. Die Spracheingabe 250 wurde empfangen und vom Spracherkennungssystem erfasst 410. Die Spracheingabe „Voice Mail“ ist als Sprachbefehl identifiziert 420 und dem Prozessschritt „Voice Mail“ zugeordnet 430. Auf dem Bildschirm 120 der Anzeigevorrichtung 110 wird dem Nutzer eine Latenzzeit 214 angezeigt, in diesem Ausführungsbeispiel 5 s. Zusätzlich wird dem Nutzer auf dem Bildschirm 120 ein geeignetes Symbol 224 angezeigt, das dem identifizierten Sprachbefehl „Voice Mail“ angepasst und damit eindeutig zugeordnet ist. Auf dem Bildschirm 120 der Anzeigevorrichtung 110 wird in diesem Ausführungsbeispiel dem Nutzer eine Möglichkeit angezeigt, den von ihm gegebenen Sprachbefehl 250 zu widerrufen. Dazu wird dem Nutzer in diesem Ausführungsbeispiel ein Widerruf 216 („Abbruch?“) auf dem Bildschirm 120 in Schriftform sowie ein Symbol 224, das als Bestätigung der Sprachbefehlseingabe 250 dient, angezeigt. Durch Spracheingabe des Widerrufs 216 kann ein Nutzer den vorher gegebenen Sprachbefehl 250 widerrufen.
Zur Bestätigung der Sprachbefehlseingabe 250 („Voice Mail“) erfolgt außerdem eine zweite Spracheingabemöglichkeit 217 („Start?“) auf dem Bildschirm 120 der Anzeigevorrichtung 110. Der Nutzer gibt die Sprachbefehlseingabe „Start“, danach wird der Prozessschritt „Voice Mail“ ausgeführt 440. In diesem Ausführungsbeispiel wird nach Verstreichen der Latenzzeit 214 der Prozessschritt „Voice Mail“ ausgeführt. Alternativ kann nach Verstreichen der Latenzzeit 214 der Prozessschritt „Voice Mail“ nicht ausgeführt werden, je nach Einstellung des Softwareprogramms des Systems zur Durchführung des Verfahrens 400 zur Steuerung von Prozessen.
6 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens 400 zur Steuerung von Prozessen. Das erfindungsgemäße Verfahren 400 zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe 250 weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt 410 wird eine Sprachbefehlseingabe 250 des Nutzers erfasst. Im zweiten 420 Verfahrensschritt wird die erfasste Spracheingabe 250 als Sprachbefehl zur Ausführung eines Prozessschrittes identifiziert. Im dritten Verfahrensschritt 430 wird die erfasste und als Sprachbefehl identifizierte Spracheingabe 250 einem Prozessschritt zugeordnet. Im vierten Verfahrensschritt 440 wird der der Sprachbefehlseingabe 250 zugeordnete Prozessschritt nach Ablauf einer Latenzzeit 214 gestartet.
Das erfindungsgemäße Verfahren 400 ist vorteilhafterweise derartig gestaltet, dass der der Sprachbefehlseingabe 250 zugeordnete Prozessschritt nur dann gestartet wird, wenn die als Sprachbefehl identifizierte Spracheingabe 250 solitär erfasst wird, m.a.W. jede einzelne Spracheingabe 250 wird nur auf einen einen Sprachbefehl geprüft, und in jeder Spracheingabe wird nur ein Sprachbefehl identifiziert. Dies erleichtert einem Nutzer die Nachvollziehbarkeit seiner Spracheingaben, Verwirrung durch Mehrfachbefehle wird vermieden.
Bezugszeichenliste

100: Datenbrille
110: Projektionsvorrichtung
120: Bildschirm
130: Mikrofon
140: Audioausgabe
150: Steuereinheit
160: Kommunikationseinheit
170: Fassung
180: Bügel
190: Brillenglas
214: Anzeige Latenzzeit
215: Anzeige neue Sprachmöglichkeit
216: Bestätigung Ausführung Sprachbefehl
217: Weitere Sprachmöglichkeit „Start“ 5
224: Symbol
234: Widerruf
250: Sprachbefehl
400: Verfahren zur Steuerung von Prozessen
410: Erfassung einer Sprachbefehlseingabe
420: Zuordnen der erfassten Sprachbefehlseingabe
430: Starten des der erfassten Sprachbefehlseingabe zugeordneten Prozesses
435: Zuordnen der erfassten Sprachbefehlseingabe
440: Anzeige einer Sprachbefehlseingabemöglichkeit nach Erfassung der Sprachbefehlseingabe

Claims

Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) mit den Verfahrensschritten: • Erfassen einer Spracheingabe (250) • Identifizieren der Spracheingabe (250) als Sprachbefehl zur Ausführung eines Prozessschrittes • Zuordnen der erfassten und als Sprachbefehl identifizierten Spracheingabe (250) zu einem Prozessschritt • Starten des der Spracheingabe (250) zugeordneten Prozessschrittes nach Ablauf einer Latenzzeit (214).
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 1, dadurch gekennzeichnet, dass die Latenzzeit (214) mindestens 2s, bevorzugt 3s und besonders bevorzugt 5s beträgt.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass nach der Identifikation der Spracheingabe (250) als Sprachbefehl eine erste Ausgabe auf einer Ausgabeeinrichtung erfolgt
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 3, dadurch gekennzeichnet, dass die erste Ausgabe eine visuelle Ausgabe auf einer Anzeige (120) ist.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die erste Ausgabe eine akustische Ausgabe ist.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass in der ersten Ausgabe der erkannte Sprachbefehl (250) wiederholt wird.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass die erste Ausgabe eine neue Spracheingabemöglichkeit (215) umfasst.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 7, dadurch gekennzeichnet, dass die erste Ausgabe der neuen Spracheingabemöglichkeit (215) zusammen mit anderen Spracheingabemöglichkeiten (217) erfolgt.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die neue Spracheingabemöglichkeit (215) einen Widerrufsbefehl zum Widerruf des erkannten Sprachbefehls (250) umfasst.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der Ansprüche 3 bis 9, dadurch gekennzeichnet, dass die erste Ausgabe eine Darstellung der verbleibenden Latenzzeit (214) umfasst.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Latenzzeit (214) durch eine wiederholte Eingabe des identifizierten Sprachbefehls (250) verkürzt und/oder abgebrochen werden kann.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 11, dadurch gekennzeichnet, dass der dem identifizierten Sprachbefehl (250) zugeordnete Prozessschritt unmittelbar nach der Wiederholung des identifizierten Sprachbefehls (250) gestartet und/oder ausgeführt wird.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass nach Ablauf der Latenzzeit (214) eine zweite Ausgabe auf einer Ausgabeeinrichtung erfolgt.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der dem identifizierten Sprachbefehl (250) zugeordnete Prozessschritt nach Erfassen und Zuordnen des Sprachbefehls (250) gestartet wird, wenn der Sprachbefehl (250) solitär erfasst wird.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der Ansprüche 10 bis 14, dadurch gekennzeichnet, dass das Starten (440) des dem identifizierten Sprachbefehl (250) zugeordneten Prozessschrittes durch den Ablauf der Latenzzeit (214) erfolgt.
Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren (400) ausschließlich die Ressourcen einer Datenbrille (100) zum Empfang einer Spracheingabe (250) verwendet.
Softwareprogramm zur Durchführung des Verfahrens (400) nach einem oder mehreren der Ansprüche 1 bis 16.
Datenbrille (100) zur Durchführung des Verfahrens (400) nach einem oder mehreren der Ansprüche 1 bis 16 umfassend • eine Anzeigeeinrichtung (120) zur Darstellung von Spracheingabemöglichkeiten (210, 211, 212, 213, 214, 215, 216) • ein Mikrophon (130) zum Erfassen von gesprochenen Spracheingabemöglichkeiten (250) • eine Computereinheit zur Ausführung eines Softwareprogramms
Datenbrille (100) zur Durchführung des Verfahrens (400) nach Anspruch 18 dadurch gekennzeichnet, dass die Datenbrille (100) ausschließlich über ein Mikrophon (130) zur Befehlseingabe verfügt.