DE102020129602A1 - Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe - Google Patents

Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe Download PDF

Info

Publication number
DE102020129602A1
DE102020129602A1 DE102020129602.9A DE102020129602A DE102020129602A1 DE 102020129602 A1 DE102020129602 A1 DE 102020129602A1 DE 102020129602 A DE102020129602 A DE 102020129602A DE 102020129602 A1 DE102020129602 A1 DE 102020129602A1
Authority
DE
Germany
Prior art keywords
voice command
voice
input
controlling processes
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020129602.9A
Other languages
English (en)
Inventor
Jörg Jonas-Kops
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DANTZ, DIRK, DR., DE
Original Assignee
Nxtbase Technologies GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nxtbase Technologies GmbH filed Critical Nxtbase Technologies GmbH
Priority to DE102020129602.9A priority Critical patent/DE102020129602A1/de
Publication of DE102020129602A1 publication Critical patent/DE102020129602A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G02OPTICS
    • G02BOPTICAL ELEMENTS, SYSTEMS OR APPARATUS
    • G02B27/00Optical systems or apparatus not provided for by any of the groups G02B1/00 - G02B26/00, G02B30/00
    • G02B27/01Head-up displays
    • G02B27/017Head mounted
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Optics & Photonics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe mit den Verfahrensschritten Erfassen einer Spracheingabe, Identifizieren der Spracheingabe als Sprachbefehl zur Ausführung eines Prozessschrittes, Zuordnen der erfassten und als Sprachbefehl identifizierten Spracheingabe zu einem Prozessschritt und Starten des der Spracheingabe zugeordneten Prozessschrittes nach Ablauf einer Latenzzeit. Die Erfindung betrifft weiterhin ein Softwareprogramm und eine Datenbrille zur Ausführung des erfindungsgemäßen Verfahrens.

Description

  • Die Erfindung betrifft ein Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe mit den Verfahrensschritten Erfassen einer Spracheingabe, Identifizieren der Spracheingabe als Sprachbefehl zur Ausführung eines Prozessschrittes, Zuordnen der erfassten und als Sprachbefehl identifizierten Spracheingabe zu einem Prozessschritt und Starten des der Spracheingabe zugeordneten Prozessschrittes nach Ablauf einer Latenzzeit. Die Erfindung betrifft weiterhin ein Softwareprogramm und eine Datenbrille zur Ausführung des erfindungsgemäßen Verfahrens.
  • Stand der Technik
  • Elektronische Geräte, die Spracheingabe verstehen und umsetzen, sind bekannt. Derartige Geräte sind z.B. Navigationsgeräte, Smartphones, Smartwatches, Head-Mounted-Devices (HMD) und Augmented-Reality-Systeme (AR). Derartige Systeme werden z.B. im industriellen Bereich (insbesondere Industrie 4.0) der Predictive Maintenance (vorausschauende Wartung) eingesetzt werden, in dem Nutzer Prozesse, wie z.B.: Prüfpläne, Qualitätsprüfungen in Form von Soll-Ist-Vergleichen oder in Form von Schritt für Schritt Anleitungen abarbeiten sowie die Ergebnisse dokumentieren und analysieren. Die genannten Geräte weisen verschiedene Applikationen (Apps) auf und/oder haben über eine meistens drahtlose Verbindung Zugriff auf Apps, deren Funktionen basierend auf der Spracheingabe ausgewählt werden können.
  • Bei Einsatz derartiger Systeme in rauhen Umgebungen mit z.B. hoher Lautstärke und ungünstigen Lichtverhältnissen besteht die Gefahr, dass ein Nutzer eine falsche Spracheingabe tätigt und so u.U. einen Prozessschritt auslöst, der so von ihm nicht intendiert war.
  • Es ist daher Aufgabe der Erfindung, ein Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe bereitzustellen, mit dem ein Nutzer sicher und zuverlässig einen Prozess steuern kann.
  • Es ist ebenfalls Aufgabe der Erfindung, ein Computerprogramm zur Ausführung eines Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe bereitzustellen, mit dem ein Nutzer sicher und zuverlässig einen Prozess steuern kann.
  • Es ist ebenfalls Aufgabe der Erfindung, eine Vorrichtung zur Ausführung eines Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe bereitzustellen, mit dem ein Nutzer sicher und zuverlässig einen Prozess steuern kann.
  • Die Aufgabe wird mittels des Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe gemäß Anspruch 1 gelöst. Vorteilhafte Ausführungen der Erfindung sind in den Unteransprüchen dargelegt.
  • Das erfindungsgemäße Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe weist vier Verfahrensschritte auf: Ein Prozess ist im Rahmen dieser Schrift ein Ablauf von Prozessschritten. Die einzelnen Prozessschritte können, müssen aber nicht aufeinander aufbauen. Im ersten Verfahrensschritt wird eine Spracheingabe erfasst. Der Nutzer gibt eine Spracheingabe, die erfasst wird. Das Erfassen einer Spracheingabe beinhaltet im Rahmen dieser Schrift das Empfangen und das Erkennen der Spracheingabe des Nutzers. Im zweiten Verfahrensschritt wird die Spracheingabe als Sprachbefehl zur Ausführung eines Prozessschrittes identifiziert. Die Identifikation kann z.B. mittels einer Suche nach und Erkennung von Schlüsselworten als Sprachbefehle durchgeführt werden. Im dritten Verfahrensschritt wird die erfasste Sprachbefehlseingabe einem Prozessschritt zugeordnet. Der Prozessschritt kann z.B. der derzeitige Schritt eines Entscheidungsbaums sein. Im vierten Verfahrensschritt wird der der Sprachbefehlseingabe zugeordnete Prozess nach Ablauf einer Latenzzeit gestartet. Der Prozess kann z.B. der nächste Prozessschritt des Entscheidungsbaums sein.
  • Eine Latenzzeit im Rahmen dieser Schrift ist ein variabler Zeitraum zwischen Erfassen einer Spracheingabe eines Nutzers und Starten des Prozessschrittes. Die Latenzzeit ist insbesondere nicht Resultat von (unabsichtlichen) Verzögerungen der verwendeten Hardware und/oder einer Verbindung zwischen einzelnen Hardwarekomponenten. Die Latenzzeit ist ebenfalls nicht Resultat der (unabsichtlichen) Abarbeitung von Befehlsschritten eines Softwareprogramms. Die Latenzzeit ist ein intendierter Zeitraum, der von einem Nutzer bewusst eingestellt werden kann und damit nicht von Hardwarekomponenten und/oder Softwareprogrammen bestimmt wird. Nach Eingabe eines Sprachbefehls durch einen Nutzer verstreicht ein Zeitraum, innerhalb dessen der Nutzer den von ihm eingegebenen Sprachbefehl annullieren oder ändern kann.
  • In einer weiteren Gestaltung der Erfindung beträgt die Latenzzeit mindestens 2s, bevorzugt mindestens 3s und besonders bevorzugt mindestens 5s. Der Nutzer erhält dadurch genügend Zeit, den identifizierten Sprachbefehl zu erkennen und ggf. zu annullieren.
  • In einer weiteren Ausführung der Erfindung erfolgt nach Identifikation der Spracheingabe als Sprachbefehl eine erste Ausgabe auf einer Ausgabeeinrichtung. Der Nutzer erhält durch die erste Ausgabe eine Rückmeldung über den identifizierten Sprachbefehl und kann sich so vergewissern, dass seine Spracheingabe richtig erkannt ist.
  • In einer weiteren Ausgestaltung der Erfindung ist die erste Ausgabe eine visuelle Ausgabe auf einer Anzeige. Die visuelle Anzeigeeinrichtung ist üblicherweise ein kleiner Bildschirm, der an einer Datenbrille angeordnet und damit direkt im Sichtfeld des Nutzers ist. Die erste Ausgabe kann z.B. ein Symbol, ein Icon oder eine schriftliche Ausgabe sein. Der Nutzer erhält durch die erste Ausgabe eine Rückmeldung über den identifizierten Sprachbefehl und kann sich so vergewissern, dass seine Spracheingabe richtig erkannt ist.
  • In einer Weiterbildung der Erfindung ist die erste Ausgabe eine akustische Ausgabe. Die akustische Ausgabeeinrichtung ist an einer Datenbrille angeordnet und z.B. ein In-Ear-Kopfhörer, damit der Nutzer die Spracheingabemöglichkeit auch in geräuschintensiven Umgebungen gut hören kann.
  • In einer weiteren Ausbildung der Erfindung wird in der ersten Ausgabe der erkannte Sprachbefehl wiederholt. Die Wiederholung ist eine einfache, aber zuverlässige Methode, dem Nutzer anzuzeigen, dass von der ihm gegebene Sprachbefehl korrekt erfasst wurde. Der Nutzer kann daher schnell erkennen, ob der identifizierte Sprachbefehl dem von ihm intendierten Sprachbefehl entspricht.
  • In einer weiteren Ausführung der Erfindung umfasst die erste Ausgabe eine neue Spracheingabemöglichkeit. Der Nutzer erhält die Möglichkeit, eine neue Spracheingabe zu geben. Die neue Spracheingabe kann z.B. eine Annullierung oder eine Bestätigung der ursprünglichen Spracheingabe beinhalten.
  • In einer weiteren Gestaltung der Erfindung erfolgt die erste Ausgabe der neuen Spracheingabemöglichkeit zusammen mit anderen Spracheingabemöglichkeiten. Der Nutzer erhält die Möglichkeit, neue Spracheingaben zu geben. Die Spracheingabemöglichkeiten können z.B. Annullierung oder Bestätigung der ursprünglichen Spracheingabe oder weitere Prozessschritte sein.
  • In einer vorteilhaften Ausgestaltung der Erfindung umfasst die neue Spracheingabemöglichkeit einen Widerrufsbefehl zum Widerruf des erkannten Sprachbefehls. Wenn der identifizierte Sprachbefehl nicht dem vom Nutzer intendierten Sprachbefehl entspricht, oder der Nutzer einen anderen Sprachbefehl geben möchte, kann der Nutzer den identifizierten Sprachbefehl widerrufen.
  • In einer Weiterbildung der Erfindung umfasst die erste Ausgabe eine Darstellung der verbleibenden Latenzzeit. Die Latenzzeit ist der Zeitraum, innerhalb dessen der identifizierte Sprachbefehl noch widerrufen, bestätigt oder geändert werden kann. Dieser Zeitraum wird dargestellt, damit der Nutzer innerhalb der Latenzzeit reagieren kann.
  • In einer weiteren Ausbildung der Erfindung kann die Latenzzeit durch eine wiederholte Eingabe des identifizierten Sprachbefehls verkürzt und/oder abgebrochen werden. Dadurch wird der mittels des erfindungsgemäßen Verfahrens gesteuerte Prozess nicht unnötig in die zeitliche Länge gezogen.
  • In einer weiteren Gestaltung der Erfindung wird der dem identifizierten Sprachbefehl zugeordnete Prozessschritt unmittelbar nach der Wiederholung des identifizierten Sprachbefehls gestartet und/oder ausgeführt. Dadurch wird der mittels des erfindungsgemäßen Verfahrens gesteuerte Prozess nicht unnötig in die zeitliche Länge gezogen.
  • In einer weiteren Ausführung der Erfindung erfolgt nach Ablauf der Latenzzeit eine zweite Ausgabe auf einer Ausgabeeinrichtung. Die zweite Ausgabe kann z.B. eine Statusmeldung des Systems zur Spracherkennung oder des derzeitig durchgeführten Prozessschrittes sein.
  • In einer weiteren Ausgestaltung der Erfindung wird der dem identifizierten Sprachbefehl zugeordnete Prozessschritt nach Erfassen und Zuordnen des Sprachbefehls gestartet, wenn der Sprachbefehl solitär erfasst wird. Jede Spracheingabe eines Nutzers wird nur auf einen Sprachbefehl geprüft, und in jeder Spracheingabe wird nur ein Sprachbefehl identifiziert. Dies erleichtert einem Nutzer die Nachvollziehbarkeit seiner Spracheingaben, Verwirrung durch Mehrfachbefehle wird vermieden.
  • In einer weiteren Ausbildung der Erfindung erfolgt das Starten des dem identifizierten Sprachbefehl zugeordneten Prozessschrittes durch den Ablauf der Latenzzeit. Verstreicht die Latenzzeit, wird der dem identifizierten Sprachbefehl zugeordnete Prozessschritt ausgeführt.
  • In einer weiteren Ausführung der Erfindung werden ausschließlich Hardware-Ressourcen der Datenbrille zum Empfang einer Sprachbefehlseingabe genutzt. Limitierende Faktoren sind dabei hauptsächlich der an der Datenbrille selbst angeordnete zur Verfügung stehende Speicherplatz sowie Rechenleistung zur Ausführung eines geeigneten Computerprogramms sowie die auf die Spracheingabe begrenzten Steuerungs- und/oder Eingabemöglichkeiten. Die Datenbrille ist während des Verfahrens mit einem Computer verbunden, der die geeignete und ausreichende Hardware-Ausstattung aufweist. Angestrebt ist eine vollständige Ausführung des Verfahrens auf der Datenbrille, um den Aufwand an geeigneter Hardware so gering wie möglich zu halten. Insbesondere wird die Hardware der Datenbrille zum Empfang einer Sprachbefehlseingabe eines Nutzers verwendet, die Datenbrille weist dazu eine akustische Aufnahmeeinrichtung (Mikrofon) auf. Weitere Hardware kann über die Kopplung über geeignete Kommunikationsschnittstellen mit der Datenbrille verbunden sein. Sie wird dann als zur Datenbrille gehörig gezählt, wenn ein entsprechendes der Hardware zugeordnetes Treiberprogramm auf der Datenbrille ausgeführt wird.
  • Die Aufgabe wird ebenfalls mittels des Softwareprogramms zur Durchführung des Verfahrens gemäß Anspruch 17 gelöst.
  • Das erfindungsgemäße Softwareprogramm ist geeignet, das Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe durchzuführen. Das Softwareprogramm nutzt die Hardware der Datenbrille zur Eingabe von Sprachbefehlen und Ausgabe von Bestätigung bzw. Widerruf der eingegebenen Sprachbefehle.
  • Die Aufgabe wird außerdem durch die Datenbrille gemäß Anspruch 19 gelöst.
  • Die erfindungsgemäße Datenbrille zur Ausführung des erfindungsgemäßen Verfahrens weist eine Anzeigeeinrichtung zur Darstellung von Spracheingabemöglichkeiten auf. Die Anzeigeeinrichtung ist permanent im Sichtfeld des Nutzers angeordnet, z.B. mittels eines AR-Systems.
  • Weiterhin weist das System ein Mikrophon zum Erfassen von gesprochenen Spracheingabemöglichkeiten auf. Das Mikrofon kann permanent im Sprachfeld des Nutzers angeordnet sein, z.B. mittels eines AR-Systems.
  • Außerdem weist das System eine Computereinheit zur Ausführung eines Softwareprogramms zur Durchführung des Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe auf. Die Computereinheit kann ein Wearable wie Smartphone, Smartwatch sein oder innerhalb eines AR-Systems angeordnet sein. Möglich ist aber auch eine stationäre Computereinheit, mit der ein Wearable mittels Kabelverbindung oder kabelloser Verbindung verbunden ist.
  • In einer Weiterbildung der Erfindung verfügt die Datenbrille ausschließlich über ein Mikrofon zur Befehlseingabe durch einen Nutzer. Das Mikrofon ist derart an der Datenbrille angeordnet, dass ein Nutzer komfortabel und sicher einen Spracheingabebefehl geben kann.
  • Ausführungsbeispiele des erfindungsgemäßen Systems und des erfindungsgemäßen Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe sind in den Zeichnungen schematisch vereinfacht dargestellt und werden in der nachfolgenden Beschreibung näher erläutert.
  • Es zeigen:
    • 1: Datenbrille
    • 2: Das erfindungsgemäße Verfahren - Bestätigung des Spracheingabebefehls durch visuelle Anzeige
    • 3: Erste Anzeige eines identifizierten Sprachbefehls
    • 4: Das erfindungsgemäße Verfahren, wobei eine zweite Ausgabe nach Verstreichen einer Latenzzeit erfolgt
    • 5: Das erfindungsgemäße Verfahren - Bestätigung bzw. Widerruf des Spracheingabebefehls
    • 6: Ablaufdiagramm des erfindungsgemäßen Verfahrens
  • 1 zeigt eine Ansicht eines Ausführungsbeispiels des erfindungsgemäßen Systems zur Durchführung des Verfahrens 400 zur Steuerung von Prozessen. Das System weist eine Datenbrille 100 auf, mittels dem die Spracheingabemöglichkeiten in das Sichtfeld eines Nutzers eingeblendet werden. Die Datenbrille 100 wird in diesem Ausführungsbeispiel wie eine herkömmliche Brille vom Nutzer getragen und verfügt über eine entsprechend gestaltete Fassung 170 mit Bügel 180 und Brillengläsern 190. Die Datenbrille 100 weist die Projektionsvorrichtung 110 mit Bildschirm 120 zur Einblendung der Spracheingabemöglichkeiten direkt vor dem Auge des Nutzers auf. Eine derartige Datenbrille 100 erhöht die Geschwindigkeit der Bearbeitung von Prozessen, da der Nutzer beide Arme frei hat. Zur Sprachein- und Ausgabe verfügt die Datenbrille 100 über eine Kommunikationseinheit 160 mit Mikrofon 130 und Audioausgabe 140. Gesteuert wird die Datenbrille 100 durch die Steuereinheit 150. Neben der Verwendung einer Datenbrille 100 kann das erfindungsgemäße Verfahren 400 aber auch auf anderen Geräten, vorteilhafterweise Wearables (am Körper getragene Geräte) ausgeführt werden, z.B. mittels eines Smartphones. Das System 1 weist außerdem einen Rechner auf (nicht dargestellt), mit dem die Steuereinheit 150 verbunden ist. Der Rechner ist vorzugsweise ein handelsüblicher PC oder Notebook, der genügend Rechenleistung bereitstellt, um ein Computerprogramm zu betreiben, mit dem das erfindungsgemäße Verfahren 100 durchgeführt wird.
  • Das erfindungsgemäße Verfahren 400 zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe 250 weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt 410 wird eine Sprachbefehlseingabe 250 des Nutzers erfasst. Im zweiten 420 Verfahrensschritt wird die erfasste Spracheingabe 250 als Sprachbefehl zur Ausführung eines Prozessschrittes identifiziert. Im dritten Verfahrensschritt 430, 435 wird die erfasste und als Sprachbefehl identifizierte Spracheingabe 250 einem Prozessschritt zugeordnet. Im vierten Verfahrensschritt 440 wird der der Sprachbefehlseingabe 250 zugeordnete Prozess nach Ablauf einer Latenzzeit 214 gestartet.
  • Ein Ausführungsbeispiel der Anwendung des erfindungsgemäßen Verfahrens 400 zeigt 2. Zur Steuerung des Verfahrens 400 wird vorteilhafterweise ein Chatbot verwendet, also ein textbasiertes Dialogsystem, mit dem ein Nutzer einen Prozess steuert. Der Nutzer gibt die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt speichern““ in das Mikrofon 130 der Datenbrille 100 ein. Dabei erfolgt der Empfang der Spracheingabe 250 ausschließlich über das Mikrofon 130 der Datenbrille 100. Die Spracheingabe 250 wird empfangen und vom Spracherkennungssystem erfasst 410. Die Spracheingabe „Voice Mail“ wird als Sprachbefehl identifiziert 420.
  • Die Identifikation 420 kann z.B. mittels Sprachpausen erfolgen, die zeitlich unmittelbar vor und unmittelbar hinter einem Sprachbefehl (hier „Voice Mail“) von einem Nutzer eingelegt werden. Der Prozess der Identifikation 420 kann alternativ oder zusätzlich auch mittels einer Suche nach und Erkennung von Schlüsselworten als Sprachbefehle durchgeführt werden. Die Schlüsselworte weisen dabei charakteristische und vor allem distinktive phonetische Merkmale auf und sind in einer Datenbank gespeichert. Dadurch wird der Zeitaufwand der Identifikation 420 der Spracheingabe 250 verringert. Danach wird die Spracheingabe 250 dem Prozessschritt „Voice Mail“ zugeordnet 430.
  • Auf dem Bildschirm 120 der Anzeigevorrichtung 110 wird dem Nutzer eine Latenzzeit 214 angezeigt, in diesem Ausführungsbeispiel 5 s. Die Latenzzeit 214 kann von einem Nutzer frei gewählt werden. Vorteilhaft ist eine Latenzzeit 214 im Bereich von mindestens 2 s bis mehr als 5 s, um dem Nutzer genügend Zeit zu geben, den identifizierten Sprachbefehl zu erkennen. Zusätzlich wird dem Nutzer auf dem Bildschirm 120 ein geeignetes Symbol 224 angezeigt, das dem identifizierten Sprachbefehl „Voice Mail“ angepasst und damit eindeutig zugeordnet ist. Damit können auch unterschiedliche Nutzer der Datenbrille 100 sofort und auf einen Blick erkennen, dass das von ihnen eingegebene Sprachsignal 250 erfasst und korrekt identifiziert ist. Alternativ oder zusätzlich kann der identifizierte Sprachbefehl akustisch auf der Audioausgabe 140 der Datenbrille 100 erfolgen, z.B. durch Ausgabe einer Wiederholung des Sprachbefehls, eines geeigneten Tones oder einer Melodie.
  • Die Latenzzeit 214 ist der Zeitraum, innerhalb dessen der gegebene Sprachbefehl 250 noch widerrufen bzw. geändert werden kann, indem der Nutzer den entsprechenden Sprachbefehl und/oder einen Widerrufsbefehl mittels Spracheingabe gibt, z.B. „Abbruch“. Nach Verstreichen der Latenzzeit 214 ohne Sprachbefehl und/oder Widerrufsbefehl wird der ursprüngliche Sprachbefehl 250 ausgeführt, und nicht ausgeführt bei Widerrufsbefehl.
  • Der Nutzer kann in diesem Ausführungsbeispiel die Sprachbefehlseingabe 250 auch innerhalb des Zeitraums der Latenzzeit 214 wiederholen, um den Prozessschritt auszuführen. Eine andere Möglichkeit besteht darin, dass die Latenzzeit 214 der Zeitraum ist, in dem ein Nutzer den gegebenen Sprachbefehl 250 explizit durch einen Sprachbefehl bestätigen muss, hier mit „Ausführen des Prozesses“. Nach Verstreichen der Latenzzeit 214 ohne Bestätigung durch den Nutzer wird dann der ursprüngliche Sprachbefehl 250 nicht ausgeführt. Bei erfolgter Bestätigung durch einen Nutzer wird der ursprüngliche Sprachbefehl 250 jedoch unmittelbar nach der Bestätigung ausgeführt 440. Die Bestätigung durch den Nutzer erfolgt in diesem Ausführungsbeispiel nach 2 s, die Latenzzeit 214 (hier 5 s) kann also durch den Nutzer verkürzt werden.
  • 3 zeigt die erste Anzeige 110 eines identifizierten Sprachbefehls. Der Nutzer hat wie im vorhergehenden Ausführungsbeispiel die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt speichern““ in das Mikrofon 130 der Datenbrille 100 eingegeben. Die Spracheingabe 250 wurde empfangen und vom Spracherkennungssystem erfasst 410. Die Spracheingabe „Voice Mail“ ist als Sprachbefehl identifiziert 420 und dem Prozessschritt „Voice Mail“ zugeordnet 430. Dem Nutzer wird auf dem Bildschirm 120 ein geeignetes Symbol 224 angezeigt, das dem identifizierten Sprachbefehl „Voice Mail“ angepasst und damit eindeutig zugeordnet ist. Außerdem wird auf dem Bildschirm 120 der Anzeigevorrichtung 110 dem Nutzer eine Latenzzeit 214 angezeigt, in diesem Ausführungsbeispiel 5 s. Alternativ oder zusätzlich kann der identifizierte Sprachbefehl akustisch auf der Audioausgabe 140 der Datenbrille 100 erfolgen, z.B. durch Ausgabe einer Wiederholung des Sprachbefehls. Bei erfolgter Bestätigung durch einen Nutzer wird der ursprüngliche Sprachbefehl 250 unmittelbar nach der Bestätigung ausgeführt 440.
  • Ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens 400, wobei eine zweite Ausgabe nach Verstreichen einer Latenzzeit 214 erfolgt, zeigt 4. Der Nutzer hat wie im vorhergehenden Ausführungsbeispiel die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt speichern““ in das Mikrofon 130 der Datenbrille 100 eingegeben. Die Spracheingabe 250 wurde empfangen und vom Spracherkennungssystem erfasst 410. Die Spracheingabe „Voice Mail“ ist als Sprachbefehl identifiziert 420 und dem Prozessschritt „Voice Mail“ zugeordnet 430. Nach Ablauf der Latenzzeit 214 wird der Prozessschritt „Voice Mail“ ausgeführt 440. Dem Nutzer wird auf dem Bildschirm 120 ein geeignetes Symbol 224 angezeigt, das dem identifizierten Sprachbefehl „Voice Mail“ angepasst und damit eindeutig zugeordnet ist. Eine Bestätigung 216 der Ausführung des Prozessschrittes („wird ausgeführt“) wird dem Nutzer ebenfalls angezeigt. Auf dem Bildschirm 120 der Anzeigevorrichtung 110 wird in diesem Ausführungsbeispiel dem Nutzer zusätzlich eine Möglichkeit angezeigt, den von ihm gegebenen Sprachbefehl 250 („Voice Mail“) zu widerrufen. Dazu wird dem Nutzer in diesem Ausführungsbeispiel ein Widerruf 234 („Abbruch“) auf dem Bildschirm 120 in Schriftform angezeigt und optional oder zusätzlich auf der Audioausgabe 140 akustisch ausgegeben.
  • Ein weiteres Ausführungsbeispiel der Anwendung des erfindungsgemäßen Verfahrens 400 zeigt 5. Die Anzeigeeinrichtung 110 zeigt zwei unterschiedliche Spracheingabemöglichkeiten 216, 217 an. Der Nutzer hat wie in den vorhergehenden Ausführungsbeispielen die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt speichern““ in das Mikrofon 130 der Datenbrille 100 eingegeben. Die Spracheingabe 250 wurde empfangen und vom Spracherkennungssystem erfasst 410. Die Spracheingabe „Voice Mail“ ist als Sprachbefehl identifiziert 420 und dem Prozessschritt „Voice Mail“ zugeordnet 430. Auf dem Bildschirm 120 der Anzeigevorrichtung 110 wird dem Nutzer eine Latenzzeit 214 angezeigt, in diesem Ausführungsbeispiel 5 s. Zusätzlich wird dem Nutzer auf dem Bildschirm 120 ein geeignetes Symbol 224 angezeigt, das dem identifizierten Sprachbefehl „Voice Mail“ angepasst und damit eindeutig zugeordnet ist. Auf dem Bildschirm 120 der Anzeigevorrichtung 110 wird in diesem Ausführungsbeispiel dem Nutzer eine Möglichkeit angezeigt, den von ihm gegebenen Sprachbefehl 250 zu widerrufen. Dazu wird dem Nutzer in diesem Ausführungsbeispiel ein Widerruf 216 („Abbruch?“) auf dem Bildschirm 120 in Schriftform sowie ein Symbol 224, das als Bestätigung der Sprachbefehlseingabe 250 dient, angezeigt. Durch Spracheingabe des Widerrufs 216 kann ein Nutzer den vorher gegebenen Sprachbefehl 250 widerrufen.
  • Zur Bestätigung der Sprachbefehlseingabe 250 („Voice Mail“) erfolgt außerdem eine zweite Spracheingabemöglichkeit 217 („Start?“) auf dem Bildschirm 120 der Anzeigevorrichtung 110. Der Nutzer gibt die Sprachbefehlseingabe „Start“, danach wird der Prozessschritt „Voice Mail“ ausgeführt 440. In diesem Ausführungsbeispiel wird nach Verstreichen der Latenzzeit 214 der Prozessschritt „Voice Mail“ ausgeführt. Alternativ kann nach Verstreichen der Latenzzeit 214 der Prozessschritt „Voice Mail“ nicht ausgeführt werden, je nach Einstellung des Softwareprogramms des Systems zur Durchführung des Verfahrens 400 zur Steuerung von Prozessen.
  • 6 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens 400 zur Steuerung von Prozessen. Das erfindungsgemäße Verfahren 400 zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe 250 weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt 410 wird eine Sprachbefehlseingabe 250 des Nutzers erfasst. Im zweiten 420 Verfahrensschritt wird die erfasste Spracheingabe 250 als Sprachbefehl zur Ausführung eines Prozessschrittes identifiziert. Im dritten Verfahrensschritt 430 wird die erfasste und als Sprachbefehl identifizierte Spracheingabe 250 einem Prozessschritt zugeordnet. Im vierten Verfahrensschritt 440 wird der der Sprachbefehlseingabe 250 zugeordnete Prozessschritt nach Ablauf einer Latenzzeit 214 gestartet.
  • Das erfindungsgemäße Verfahren 400 ist vorteilhafterweise derartig gestaltet, dass der der Sprachbefehlseingabe 250 zugeordnete Prozessschritt nur dann gestartet wird, wenn die als Sprachbefehl identifizierte Spracheingabe 250 solitär erfasst wird, m.a.W. jede einzelne Spracheingabe 250 wird nur auf einen einen Sprachbefehl geprüft, und in jeder Spracheingabe wird nur ein Sprachbefehl identifiziert. Dies erleichtert einem Nutzer die Nachvollziehbarkeit seiner Spracheingaben, Verwirrung durch Mehrfachbefehle wird vermieden.
  • Bezugszeichenliste
  • 100
    Datenbrille
    110
    Projektionsvorrichtung
    120
    Bildschirm
    130
    Mikrofon
    140
    Audioausgabe
    150
    Steuereinheit
    160
    Kommunikationseinheit
    170
    Fassung
    180
    Bügel
    190
    Brillenglas
    214
    Anzeige Latenzzeit
    215
    Anzeige neue Sprachmöglichkeit
    216
    Bestätigung Ausführung Sprachbefehl
    217
    Weitere Sprachmöglichkeit „Start“ 5
    224
    Symbol
    234
    Widerruf
    250
    Sprachbefehl
    400
    Verfahren zur Steuerung von Prozessen
    410
    Erfassung einer Sprachbefehlseingabe
    420
    Zuordnen der erfassten Sprachbefehlseingabe
    430
    Starten des der erfassten Sprachbefehlseingabe zugeordneten Prozesses
    435
    Zuordnen der erfassten Sprachbefehlseingabe
    440
    Anzeige einer Sprachbefehlseingabemöglichkeit nach Erfassung der Sprachbefehlseingabe

Claims (19)

  1. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) mit den Verfahrensschritten: • Erfassen einer Spracheingabe (250) • Identifizieren der Spracheingabe (250) als Sprachbefehl zur Ausführung eines Prozessschrittes • Zuordnen der erfassten und als Sprachbefehl identifizierten Spracheingabe (250) zu einem Prozessschritt • Starten des der Spracheingabe (250) zugeordneten Prozessschrittes nach Ablauf einer Latenzzeit (214).
  2. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 1, dadurch gekennzeichnet, dass die Latenzzeit (214) mindestens 2s, bevorzugt 3s und besonders bevorzugt 5s beträgt.
  3. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass nach der Identifikation der Spracheingabe (250) als Sprachbefehl eine erste Ausgabe auf einer Ausgabeeinrichtung erfolgt
  4. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 3, dadurch gekennzeichnet, dass die erste Ausgabe eine visuelle Ausgabe auf einer Anzeige (120) ist.
  5. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 3 oder 4, dadurch gekennzeichnet, dass die erste Ausgabe eine akustische Ausgabe ist.
  6. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der Ansprüche 3 bis 5, dadurch gekennzeichnet, dass in der ersten Ausgabe der erkannte Sprachbefehl (250) wiederholt wird.
  7. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der Ansprüche 3 bis 6, dadurch gekennzeichnet, dass die erste Ausgabe eine neue Spracheingabemöglichkeit (215) umfasst.
  8. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 7, dadurch gekennzeichnet, dass die erste Ausgabe der neuen Spracheingabemöglichkeit (215) zusammen mit anderen Spracheingabemöglichkeiten (217) erfolgt.
  9. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die neue Spracheingabemöglichkeit (215) einen Widerrufsbefehl zum Widerruf des erkannten Sprachbefehls (250) umfasst.
  10. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der Ansprüche 3 bis 9, dadurch gekennzeichnet, dass die erste Ausgabe eine Darstellung der verbleibenden Latenzzeit (214) umfasst.
  11. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Latenzzeit (214) durch eine wiederholte Eingabe des identifizierten Sprachbefehls (250) verkürzt und/oder abgebrochen werden kann.
  12. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach Anspruch 11, dadurch gekennzeichnet, dass der dem identifizierten Sprachbefehl (250) zugeordnete Prozessschritt unmittelbar nach der Wiederholung des identifizierten Sprachbefehls (250) gestartet und/oder ausgeführt wird.
  13. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass nach Ablauf der Latenzzeit (214) eine zweite Ausgabe auf einer Ausgabeeinrichtung erfolgt.
  14. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der dem identifizierten Sprachbefehl (250) zugeordnete Prozessschritt nach Erfassen und Zuordnen des Sprachbefehls (250) gestartet wird, wenn der Sprachbefehl (250) solitär erfasst wird.
  15. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der Ansprüche 10 bis 14, dadurch gekennzeichnet, dass das Starten (440) des dem identifizierten Sprachbefehl (250) zugeordneten Prozessschrittes durch den Ablauf der Latenzzeit (214) erfolgt.
  16. Verfahren (400) zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren (400) ausschließlich die Ressourcen einer Datenbrille (100) zum Empfang einer Spracheingabe (250) verwendet.
  17. Softwareprogramm zur Durchführung des Verfahrens (400) nach einem oder mehreren der Ansprüche 1 bis 16.
  18. Datenbrille (100) zur Durchführung des Verfahrens (400) nach einem oder mehreren der Ansprüche 1 bis 16 umfassend • eine Anzeigeeinrichtung (120) zur Darstellung von Spracheingabemöglichkeiten (210, 211, 212, 213, 214, 215, 216) • ein Mikrophon (130) zum Erfassen von gesprochenen Spracheingabemöglichkeiten (250) • eine Computereinheit zur Ausführung eines Softwareprogramms
  19. Datenbrille (100) zur Durchführung des Verfahrens (400) nach Anspruch 18 dadurch gekennzeichnet, dass die Datenbrille (100) ausschließlich über ein Mikrophon (130) zur Befehlseingabe verfügt.
DE102020129602.9A 2020-11-10 2020-11-10 Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe Pending DE102020129602A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102020129602.9A DE102020129602A1 (de) 2020-11-10 2020-11-10 Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102020129602.9A DE102020129602A1 (de) 2020-11-10 2020-11-10 Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe

Publications (1)

Publication Number Publication Date
DE102020129602A1 true DE102020129602A1 (de) 2022-05-12

Family

ID=81256174

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020129602.9A Pending DE102020129602A1 (de) 2020-11-10 2020-11-10 Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe

Country Status (1)

Country Link
DE (1) DE102020129602A1 (de)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10360656A1 (de) 2003-12-23 2005-07-21 Daimlerchrysler Ag Bediensystem für ein Fahrzeug
US6937984B1 (en) 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
DE102014017385A1 (de) 2014-11-24 2016-05-25 Audi Ag Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur
US20160275952A1 (en) 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
US20190115045A1 (en) 2017-10-12 2019-04-18 Qualcomm Incorporated Audio activity tracking and summaries

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6937984B1 (en) 1998-12-17 2005-08-30 International Business Machines Corporation Speech command input recognition system for interactive computer display with speech controlled display of recognized commands
DE10360656A1 (de) 2003-12-23 2005-07-21 Daimlerchrysler Ag Bediensystem für ein Fahrzeug
DE102014017385A1 (de) 2014-11-24 2016-05-25 Audi Ag Kraftfahrzeug-Gerätebedienung mit Bedienkorrektur
US20160275952A1 (en) 2015-03-20 2016-09-22 Microsoft Technology Licensing, Llc Communicating metadata that identifies a current speaker
US20190115045A1 (en) 2017-10-12 2019-04-18 Qualcomm Incorporated Audio activity tracking and summaries

Similar Documents

Publication Publication Date Title
DE60004862T2 (de) Automatische bestimmung der genauigkeit eines aussprachewörterbuchs in einem spracherkennungssystem
DE60215272T2 (de) Verfahren und Vorrichtung zur sprachlichen Dateneingabe bei ungünstigen Bedingungen
DE10066478B3 (de) Tragbarer Computer in einer Prozesssteuerungsumgebung
DE60207742T2 (de) Korrektur eines von einer spracherkennung erkannten textes mittels vergleich der phonemfolgen des erkannten textes mit einer phonetischen transkription eines manuell eingegebenen korrekturwortes
EP1071075B1 (de) Verfahren und Vorrichtung zur Eingabe von Daten
DE10163213A1 (de) Verfahren zum Betrieb eines Spracherkennungssystems
WO2001056017A1 (de) System und verfahren zur blickfokussierten sprachverarbeitung
DE102014226554A1 (de) Identifikations- und Reparaturunterstützungs-Vorrichtung und -Verfahren
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
DE102020129602A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE112015003357T5 (de) Verfahren und System zum Erkennen einer eine Wortabfolge enthaltenden Sprachansage
EP3833052A1 (de) Verfahren zum trainieren eines hörsituationen-klassifikators für ein hörgerät
EP3115886B1 (de) Verfahren zum betreiben eines sprachsteuerungssystems und sprachsteuerungssystem
DE102023112338A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102015221304A1 (de) Verfahren und Vorrichtung zur Verbesserung der Erkennungsgenauigkeit bei der handschriftlichen Eingabe von alphanumerischen Zeichen und Gesten
EP1220201B1 (de) Verfahren und System zur automatischen Aktionssteuerung bei Vorträgen
DE102023112332A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102020129600A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102020129601A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102023112334A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102023112331A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102020129603A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102020129605A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102023112335A1 (de) Verfahren zur steuerung von prozessen mittels einer sprachbefehlseingabe
DE102023112333A1 (de) Verfahren zur sprachsteuerung von technischen geräten

Legal Events

Date Code Title Description
R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G10L0015200000

Ipc: G10L0015220000

R163 Identified publications notified
R081 Change of applicant/patentee

Owner name: DANTZ, DIRK, DR., DE

Free format text: FORMER OWNER: NXTBASE TECHNOLOGIES GMBH, 14482 POTSDAM, DE