DE102023112330A1

DE102023112330A1 - Verfahren zur erkennung von spracheingaben

Info

Publication number: DE102023112330A1
Application number: DE102023112330.0A
Authority: DE
Inventors: Jörg Jonas-Kops
Original assignee: Individual
Current assignee: Individual
Priority date: 2022-05-10
Filing date: 2023-05-10
Publication date: 2023-11-16

Abstract

Die Erfindung betrifft ein Verfahren zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe mit den Verfahrensschritten visuelle Darstellung einer ersten Spracheingabemöglichkeit und einer zweiten Spracheingabemöglichkeit auf einer visuellen Anzeigeeinrichtung zur Ausführung eines Prozessschrittes, wobei die zwei Spracheingabemöglichkeiten sich einander phonetisch unähnlich sind, Erfassen einer Spracheingabemöglichkeit, Zuordnen der erfassten Spracheingabemöglichkeit zu einem Prozessschritt und Starten des dem Spracheingabemöglichkeit zugeordneten Prozessschrittes, sowie eine Vorrichtung zur Durchführung des Verfahrens.

Description

Die Erfindung betrifft ein Verfahren zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe mit den Verfahrensschritten visuelle Darstellung einer ersten Spracheingabemöglichkeit und einer zweiten Spracheingabemöglichkeit auf einer visuellen Anzeigeeinrichtung zur Ausführung eines Prozessschrittes, wobei die zwei Spracheingabemöglichkeiten sich einander phonetisch unähnlich sind, Erfassen einer Spracheingabemöglichkeit, Zuordnen der erfassten Spracheingabemöglichkeit zu einem Prozessschritt und Starten des dem Spracheingabemöglichkeit zugeordneten Prozessschrittes, sowie eine Vorrichtung zur Durchführung des Verfahrens.
Stand der Technik
Elektronische Geräte, die Spracheingabe verstehen und umsetzen, sind bekannt. Derartige Geräte sind z.B. Navigationsgeräte, Smartphones, Smartwatches, Head-Mounted-Devices (HMD) und Augmented-Reality-Systeme (AR). Derartige Systeme werden z.B. im industriellen Bereich (insbesondere Industrie 4.0) der Predictive Maintenance (vorausschauende Wartung) eingesetzt, in dem Nutzer Prozessschritte, wie z.B.: Prüfpläne, Qualitätsprüfungen in Form von Soll-Ist-Vergleichen oder in Form von Schritt für Schritt Anleitungen abarbeiten sowie die Ergebnisse dokumentieren und analysieren.
Die genannten Geräte weisen verschiedene Applikationen (Apps) auf und/oder haben über eine meistens drahtlose Verbindung Zugriff auf Apps, deren Funktionen basierend auf der Spracheingabe ausgewählt werden können. Wenn ein Gerät allerdings Zugriff auf viele unterschiedliche Apps hat, kann ein Nutzer nur sehr schwer die Befehle der Spracheingabe memorieren, um auf eine bestimmte Funktion zuzugreifen.
Es ist daher Aufgabe der Erfindung, ein Verfahren zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe bereitzustellen, mittels dem sowohl der Nutzer als auch die Applikation eine Spracheingabe eindeutig unterscheiden kann, Verwechslungen der Spracheingabemöglichkeiten vermieden werden und daher die einzelnen Prozessschritte eines Prozessschrittes sicherer angesteuert werden können. Es ist weiterhin Aufgabe der Erfindung, ein System zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe bereitzustellen, mittels dem sowohl der Nutzer als auch die Applikation eine Spracheingabe eindeutig unterscheiden kann, Verwechslungen der Spracheingabemöglichkeiten vermieden werden und daher die einzelnen Prozessschritte eines Prozessschrittes sicherer angesteuert werden können.
Die Aufgabe wird mittels des Verfahrens zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe gemäß Anspruch 1 gelöst. Vorteilhafte Ausführungen der Erfindung sind in den Unteransprüchen dargelegt.
Das erfindungsgemäße Verfahren zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt wird eine erste Spracheingabemöglichkeit sowie eine zweite Spracheingabemöglichkeit auf einer visuellen Anzeigeeinrichtung zur Ausführung eines Prozessschrittes schriftlich dargestellt. Im zweiten Verfahrensschritt wird eine Spracheingabemöglichkeit erfasst. Der Nutzer gibt einen Sprachbefehl, der einer der beiden im ersten Verfahrensschritt dargestellten Spracheingabemöglichkeiten entspricht. Um eine Spracheingabemöglichkeit als solche zu erkennen, muss die Spracheingabemöglichkeit einen Mindestschalldruck aufweisen, m.a.W. von einem Nutzer in einer Mindestlautstärke und/oder in einer unmittelbaren Nähe zum Mikrofon gesprochen werden. Dadurch wird einerseits sichergestellt, dass die Spracheingabemöglichkeit von dem Nutzer intendiert ist, andererseits wird der Sprachbefehl deutlich von etwaig vorhandenen Hintergrundgeräuschen unterschieden.
In einer weiteren Ausführung der Erfindung beträgt der Schalldruck der erfassten Spracheingabemöglichkeit größer 40 dB, bevorzugt größer 5 dB und besonders bevorzugt größer 55 dB. Die übliche Zimmerlautstärke beträgt rund 55 dB. Dadurch wird einerseits sichergestellt, dass der Sprachbefehl intendiert ist, andererseits wird der Sprachbefehl deutlich von etwaig vorhandenen Hintergrundgeräuschen über Zimmerlautstärke unterschieden. Das erfindungsgemäße Verfahren ist daher auch in Umgebungen einsetzbar, die eine hohe Umgebungslautstärke aufweisen
Im dritten Verfahrensschritt wird die erfasste Spracheingabemöglichkeit einem Prozessschritt zugeordnet, nämlich dem derzeitigen Schritt des Entscheidungsbaums. Im vierten Verfahrensschritt wird der der Spracheingabemöglichkeit zugeordnete Prozessschritt gestartet. Der Prozessschritt kann z.B. der nächste Prozessschritt des Entscheidungsbaums sein.
Der Prozessschritt ist im Rahmen dieser Schrift ein Ablauf von aufeinander aufbauenden Aktionen, wie sie z.B. während einer Wartung oder Reparatur eines Gerätes auftreten. Insbesondere kann der Prozessschritt ein Entscheidungsbaum sein, in dem der Prozessschritt Schritt für Schritt abgearbeitet wird, wobei jeder Schritt auf einem oder mehreren vorhergehenden Schritten aufbaut. Jeder Schritt in diesem Entscheidungsbaum ändert die Ausgabe auf der Anzeigeeinrichtung derart, dass ein nächster Schritt des Entscheidungsbaums ausgelöst wird und eine oder mehrere Spracheingabemöglichkeiten des folgenden Schritts dem Nutzer angezeigt werden. Der Prozessschritt muss sinnvollerweise geplant, gesteuert, überwacht und verbessert werden. Auch dem tragen die dargestellten Spracheingabemöglichkeiten Rechnung, indem ein Nutzer mittels geeigneter Spracheingabemöglichkeiten seine Handlungen z.B. fotografieren oder filmen kann. Zusätzlich kann ein Nutzer Kommentare zu dem jeweiligen Prozessschritt aufnehmen. Beide Spracheingabemöglichkeiten sind sich vorteilhafterweise phonetisch unähnlich.
Im Rahmen dieser Schrift werden folgende Definitionen aus der Phonetik zugrunde gelegt:

Ein Wort umfasst eine oder mehrere Silben.
Eine Silbe umfasst ein oder mehrere Phoneme (Laut).
Ein Phonem ist die kleinste bedeutungsunterscheidende Lauteinheit einer Sprache. Die Hauptaufgabe und Funktion von Sprachlauten ist es, der Identifikation linguistischer Einheiten zu dienen. Um diese Einheiten identifizieren zu können, müssen sie voneinander unterscheidbar sein, und diese Unterscheidbarkeit (distinktive Merkmale) wird durch Sprachlaute gewährleistet. Diese Unterschiede spielen für die Phonologie insbesondere dann eine Rolle, wenn ein entsprechender Unterschied in der Funktion vorliegt.
Ein Phon ist ein jedes einzelne konkrete Vorkommen eines Lautes.
Der Begriff „phonetisch ähnlich“ ist daher derart definiert, dass bei Auftreten gemeinsamer phonetischer Merkmale die Laute phonetisch ähnlich sind, wenn ein feststellbarer Unterschied nicht distinktiv ist. Beispiele distinktiver Merkmale der Phone in der Phonetik sind z.B. nasal, lateral, stimmhaft, sonorant u.v.m. silbisch, konsonantisch, koronal, anterior, hoch, niedrig, hinten, lateral, rund, okkulsiv, fortis, sibilant. Im Sinne dieser Schrift liegt auch dann eine phonetische Unähnlichkeit vor, wenn zwar phonetische Ähnlichkeiten von zwei Wortbestandteilen zweier Spracheingabemöglichkeiten wie beispielsweise zwei aufeinanderfolgende Laute vorliegen, diese aber in komplementärer Distribution zueinander vorkommen.

Die phonetische Unähnlichkeit der zwei Spracheingabemöglichkeiten des erfindungsgemäßen Verfahrens weist Vorteile auf: Ein Nutzer kann die Spracheingabemöglichkeiten leichter unterscheiden, leichter auswählen und leichter mittels Spracheingabe ausführen.
Ein System, das die Spracheingabe des Nutzers aufnimmt und auswertet, kann die Spracheingabe des Nutzers einfacher und schneller auswerten als phonetisch ähnliche Spracheingabemöglichkeiten. Aufwändige und damit kostenintensive Spracherkennungssysteme sind daher nicht notwendig. Es genügen Spracherkennungssysteme, wie sie z.B. in handelsüblichen Smartphones zur Verfügung stehen.
In einer weiteren Ausführung der Erfindung umfasst eine der dargestellten Spracheingabemöglichkeiten maximal zwei Worte. Diese Begrenzung stellt sicher, dass die Spracheingabemöglichkeiten genügend deutlich auf der visuellen Anzeigeeinrichtung angezeigt werden können. Gleichzeitig ist mittels zwei Worten ein eindeutiger Spracheingabebefehl eines Nutzers möglich. Zusätzlich wird der Nutzer durch eine geringe Anzahl nicht überfordert. In einer optionalen Weiterbildung der Erfindung umfasst jede der dargestellten Spracheingabemöglichkeiten maximal zwei Worte.
In einer weiteren Ausbildung der Erfindung umfasst eine der dargestellten Spracheingabemöglichkeiten maximal zehn Silben, bevorzugt maximal fünf Silben. Die Spracheingabemöglichkeiten können auch weniger Silben aufweisen. Die Anzahl der Silben der dargestellten Spracheingabemöglichkeiten kann auch maximal auf vier Silben, drei Silben, zwei Silben oder auch nur eine Silbe begrenzt sein. Damit wird erreicht, dass Spracheingabemöglichkeiten, knapp und kurz, aber trotzdem eindeutig gehalten werden können. Die Silbenanzahl kann vom Betreiber der Prozessschrittteuerung festgelegt werden. Außerdem können so auch Spracheingabemöglichkeit, die in unterschiedlichen Sprachen die gleichen Prozessschritte starten, in das Verfahren implementiert werden. In einer optionalen Weiterbildung der Erfindung umfasst jede der dargestellten Spracheingabemöglichkeit maximal zehn Silben, bevorzugt maximal fünf Silben.
In einer vorteilhaften Ausgestaltung der Erfindung umfassen zwei der dargestellten Spracheingabemöglichkeiten eine unterschiedliche Anzahl von Silben. Die unterschiedliche Silbenanzahl bietet einem Nutzer eine besonders hohe Unterscheidbarkeit der zwei dargestellten Spracheingabemöglichkeiten und vermindert eine Verwechslungsgefahr der beiden Spracheingabemöglichkeiten. In einer optionalen Weiterbildung der Erfindung weisen alle dargestellten Spracheingabemöglichkeiten eine unterschiedliche Anzahl Silben auf.
In einer weiteren Gestaltung der Erfindung sind zwei aufeinanderfolgende Laute der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zu allen zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit. Dadurch wird eine hohe Unterscheidbarkeit der Spracheingabemöglichkeiten erzielt. In einer optionalen Weiterbildung der Erfindung sind zwei aufeinanderfolgende Laute der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zu allen zwei aufeinanderfolgenden Lauten aller weiteren dargestellten Spracheingabemöglichkeiten.
In einer weiteren Ausbildung der Erfindung sind zwei aufeinanderfolgende Silben der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zu allen zwei aufeinanderfolgenden Silben der zweiten Spracheingabemöglichkeit. Dadurch wird eine hohe Unterscheidbarkeit der Spracheingabemöglichkeiten erzielt. In einer optionalen Weiterbildung der Erfindung sind zwei aufeinanderfolgende Silben der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zu allen zwei aufeinanderfolgenden Silben aller weiteren dargestellten Spracheingabemöglichkeiten.
In einer weiteren Ausgestaltung der Erfindung ist der Anfang der ersten dargestellten Spracheingabemöglichkeiten phonetisch unähnlich zum Anfang der zweiten dargestellten Spracheingabemöglichkeiten. Der Anfang der dargestellten Spracheingabemöglichkeiten wird maßgeblich durch den Anfangsbuchstaben der Spracheingabemöglichkeiten definiert. Sind deren Anfangsbuchstaben unterschiedlich, sind auch die Anfänge der Spracheingabemöglichkeiten üblicherweise phonetisch unähnlich. Falls die Anfänge der Spracheingabemöglichkeiten trotz unterschiedlicher Anfangsbuchstaben phonetisch ähnlich sind, kann z.B. die erste Spracheingabemöglichkeit einen Konsonanten als Anfangsbuchstaben aufweisen, die zweite Spracheingabemöglichkeit einen Vokal, oder umgekehrt. Beide Spracheingabemöglichkeiten sind dann phonetisch unterschiedlich. In einer optionalen Weiterbildung der Erfindung ist der Anfang der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zum Anfang aller weiteren dargestellten Spracheingabemöglichkeiten.
In einer weiteren Gestaltung der Erfindung ist die erste Silbe der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zu der ersten Silbe der zweiten Spracheingabemöglichkeit. Insbesondere die jeweils ersten Silben zweier Worte bilden ein markantes Unterscheidungsmerkmal. Durch phonetisch unähnliche erste Silben der Spracheingabemöglichkeiten ist somit für Nutzer und Spracherkennungssystem eine deutliche Unterscheidung der Spracheingabemöglichkeiten gewährleistet. In einer optionalen Weiterbildung der Erfindung ist die erste Silbe der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zur ersten Silbe aller weiteren dargestellten Spracheingabemöglichkeiten.
In einer Weiterbildung der Erfindung ist das Ende der ersten dargestellten Spracheingabemöglichkeiten phonetisch unähnlich zum Ende der zweiten dargestellten Spracheingabemöglichkeiten. Die Spracheingabemöglichkeiten enden also auf Phonen mit distinktiven Merkmalen, was die Unterscheidbarkeit der Spracheingabemöglichkeiten begünstigt. In einer optionalen Weiterbildung der Erfindung ist das Ende der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zum Ende aller weiteren dargestellten Spracheingabemöglichkeiten.
In einer weiteren Ausführung der Erfindung ist die letzte Silbe der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zu der letzten Silbe der zweiten Spracheingabemöglichkeit. Die Spracheingabemöglichkeiten enden also auf Phonen mit distinktiven Merkmalen, was die Unterscheidbarkeit der Spracheingabemöglichkeiten begünstigt. In einer optionalen Weiterbildung der Erfindung ist die letzte Silbe der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zur letzten Silbe aller weiteren dargestellten Spracheingabemöglichkeiten.
In einer weiteren Ausbildung der Erfindung sind alle phonetischen Elemente der ersten dargestellten Spracheingabemöglichkeiten phonetisch unähnlich zu allen phonetischen Elementen der zweiten dargestellten Spracheingabemöglichkeit. Die Verwendung von Spracheingabemöglichkeiten ausschließlich mit Phonen, die zueinander distinktive Merkmale aufweisen, ist eine besonders effektive Methode, eine Unterscheidbarkeit der dargestellten Spracheingabemöglichkeiten zu erzielen. In einer optionalen Weiterbildung der Erfindung sind alle phonetischen Elemente der ersten dargestellten Spracheingabemöglichkeit phonetisch unähnlich zu den phonetischen Elementen aller weiteren dargestellten Spracheingabemöglichkeiten.
In einer weiteren Ausgestaltung der Erfindung sind zwei aufeinanderfolgende Laute der ersten dargestellten Spracheingabemöglichkeit phonetisch ähnlich zu zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit. Zwei aufeinanderfolgende Laute der ersten dargestellten Spracheingabemöglichkeit kommen dabei in komplementärer Distribution zu zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit vor.
In einer weiteren Gestaltung der Erfindung sind zwei aufeinanderfolgende Laute der ersten dargestellten Spracheingabemöglichkeit phonetisch ähnlich zu zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit. Die distinktiven Merkmale von zwei aufeinanderfolgenden Lauten der ersten dargestellten Spracheingabemöglichkeit sind dabei unterschiedlich zu den distinktiven Merkmalen von zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit.
In einer Weiterbildung der Erfindung ist die visuelle Darstellung der Spracheingabebefehle eine graphische und/oder schriftliche Darstellung. Die schriftliche Darstellung kann solitär verwendet werden, sie kann unterstützt werden durch eine zusätzliche graphische Darstellung, oder die graphische Darstellung kann solitär durch allgemein verständliche und gültige graphische Elemente, z.B. Icons, verwendet werden. Eine Kombination von schriftlicher und graphischer Darstellung erhöht eine Unterscheidbarkeit und Eindeutigkeit der verschiedenen Spracheingabebefehle sowohl für Nutzer als auch das Spracherkennungssystem.
Die Aufgabe wird ebenfalls mittels des Softwareprogramms zur Durchführung des erfindungsgemäßen Verfahrens gemäß Anspruch 18 gelöst.
Die Aufgabe wird ebenfalls mittels des Systems zur Durchführung des erfindungsgemäßen Verfahrens gemäß Anspruch 19 gelöst.
Das erfindungsgemäße System zur Durchführung des Verfahrens zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe weist eine Anzeigeeinrichtung zur Darstellung von Spracheingabemöglichkeiten auf. Die Anzeigeeinrichtung kann permanent im Sichtfeld des Nutzers angeordnet sein, z.B. mittels eines AR-Systems. Die Anzeigeeinrichtung kann aber auch nur zeitweilig im Sichtfeld des Nutzers angeordnet sein, z.B. mittels eines Bildschirms eines Smartphones, einer Smartwatch oder ähnlicher Anzeigeeinrichtungen.
Weiterhin weist das System ein Mikrophon zum Erfassen von gesprochenen Spracheingabemöglichkeiten auf. Das Mikrofon kann permanent im Sprachfeld des Nutzers angeordnet sein, z.B. mittels einesAR-Systems. Das Mikrofon kann aber auch nur zeitweilig im Sprachfeld des Nutzers angeordnet sein, z.B. mittels eines Smartphones oder einer Smartwatch.
Außerdem weist das System eine Computereinheit zur Ausführung eines Softwareprogramms zur Durchführung des Verfahrens zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe auf. Die Computereinheit kann ein Wearable wie Smartphone, Smartwatch sein oder innerhalb eines AR-Systems angeordnet sein. Möglich ist aber auch eine stationäre Computereinheit, mit der ein Wearable mittels Kabelverbindung oder kabelloser Verbindung verbunden ist.
Durch das System sind Spracheingabemöglichkeiten mit einem Schalldruck von mindestens 10 dB, bevorzugt mindestens 40 dB und besonders bevorzugt mindestens 55 dB erfassbar.
Ausführungsbeispiele des erfindungsgemäßen Systems und des erfindungsgemäßen Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe sind in den Zeichnungen schematisch vereinfacht dargestellt und werden in der nachfolgenden Beschreibung näher erläutert. Es zeigen:

1: Eine Ansicht eines Ausführungsbeispiels des erfindungsgemäßen Systems
2: Ein Ausführungsbeispiel einer Auswahl unterschiedlicher Spracheingabemöglichkeiten
3: Ein weiteres Ausführungsbeispiel einer Auswahl unterschiedlicher Spracheingabemöglichkeiten, Visualisierung durch Icons unterstützt
4: Ein weiteres Ausführungsbeispiel einer Auswahl unterschiedlicher Spracheingabemöglichkeiten, Visualisierung ausschließlich durch Icons
5: Ein weiteres Ausführungsbeispiel einer Auswahl unterschiedlicher Spracheingabemöglichkeiten, Visualisierung ausschließlich durch Icons
6: Ein Ablaufdiagramm des erfindungsgemäßen Verfahrens

1 zeigt eine Ansicht eines Ausführungsbeispiels des erfindungsgemäßen Systems zur Durchführung des Verfahrens 400 zur Steuerung von Prozessen. Das System weist eine Datenbrille 100 auf, mittels dem die Spracheingabemöglichkeiten in das Sichtfeld eines Nutzers eingeblendet werden. Die Datenbrille 100 wird in diesem Ausführungsbeispiel wie eine herkömmliche Brille vom Nutzer getragen und verfügt über eine entsprechend gestaltete Fassung 170 mit Bügel 180 und Brillengläsern 190. Die Datenbrille 100 weist die Projektionsvorrichtung 110 mit Bildschirm 120 zur Einblendung der Spracheingabemöglichkeiten direkt vor dem Auge des Nutzers auf. Eine derartige Datenbrille 100 erhöht die Geschwindigkeit der Bearbeitung von Prozessen, da der Nutzer beide Arme frei hat. Durch das System sind Spracheingabemöglichkeiten mit einem Schalldruck von mindestens 40 dB erfassbar.
Zur Sprachein- und Ausgabe verfügt die Datenbrille 100 über eine Kommunikationseinheit 160 mit Mikrofon 130 und Audioausgabe 140. Gesteuert wird die Datenbrille 100 durch die Steuereinheit 150. Neben der Verwendung einer Datenbrille 100 kann das erfindungsgemäße Verfahren 400 aber auch auf anderen Geräten, vorteilhafterweise Wearables (am Körper getragene Geräte) ausgeführt werden, z.B. mittels eines Smartphones. Das System 1 weist außerdem einen Rechner auf (nicht dargestellt), mit der die Steuereinheit 150 verbunden ist. Der Rechner ist vorzugsweise ein handelsüblicher PC oder Notebook, der genügend Rechenleistung bereitstellt, um ein Computerprogramm zu betreiben, mit dem das erfindungsgemäße Verfahren 100 durchgeführt wird.
Das erfindungsgemäße Verfahren 400 zur Steuerung von Prozessen weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt 410 werden auf einer visuellen Anzeigeeinrichtung mindestens zwei Spracheingabemöglichkeiten zur Ausführung eines Prozesses schriftlich dargestellt. Beide Spracheingabemöglichkeiten sind sich zur leichten Unterscheidung durch einen Nutzer phonetisch unähnlich. Im zweiten Verfahrensschritt 420 wird eine Spracheingabemöglichkeit des Nutzers erfasst. Um eine Spracheingabemöglichkeit als solche zu erkennen, muss die Spracheingabemöglichkeit einen Mindestschalldruck aufweisen, m.a.W. von einem Nutzer in einer Mindestlautstärke und/oder in einer unmittelbaren Nähe zum Mikrofon 130 gesprochen werden. Dadurch wird einerseits sichergestellt, dass die Spracheingabemöglichkeit von dem Nutzer intendiert ist, andererseits wird der Sprachbefehl deutlich von etwaig vorhandenen Hintergrundgeräuschen unterschieden. Das erfindungsgemäße Verfahren ist daher auch in Umgebungen einsetzbar, die eine hohe Umgebungslautstärke aufweisen. Der Schalldruck der erfassten Spracheingabemöglichkeit beträgt in diesem Ausführungsbeispiel 45dB.
Im dritten Verfahrensschritt 430 wird die erfasste Spracheingabemöglichkeit einem Prozess zugeordnet. Im vierten Verfahrensschritt 440 wird der der Spracheingabemöglichkeit zugeordnete Prozess gestartet.
Ein Ausführungsbeispiel der Anzeige einer Auswahl unterschiedlicher Spracheingabemöglichkeiten zeigt 2. Zur Steuerung des Prozesses wird vorteilhafterweise ein Chatbot verwendet, also ein textbasiertes Dialogsystem, mit dem ein Nutzer den Prozess steuert. Der Chatbot reagiert nur auf bestimmte, als Spracheingabemöglichkeiten auf dem Smartglass dargestellte Spracheingaben.
Die in diesem Ausführungsbeispiel dargestellten Spracheingabemöglichkeiten sind typische Spracheingabemöglichkeiten, wie sie zu Beginn eines Prozesses einem Nutzer angezeigt werden. Die Anzahl der Worte der angezeigten Spracheingabemöglichkeiten ist erfindungsgemäß beschränkt auf jeweils zwei Worte mit maximal fünf Silben. Der Prozess selbst ist in diesem und den folgenden Ausführungsbeispielen eine Diagnose eines fehlerhaften Systems, ein Nutzer identifiziert und behebt den Fehler. Die Spracheingabemöglichkeiten sind in diesem Ausführungsbeispiel Primärsprachbefehle, die während der Durchführung des Prozesses zu dessen Steuerung dem Nutzer angezeigt werden. Daneben können dem Nutzer auch Sekundärsprachbefehle angezeigt werden (s. 3, 4), die nicht der direkten Steuerung des Prozesses dienen. Mit Hilfe von Sekundärsprachbefehlen kann der Nutzer z.B. den Prozess abbrechen, neu starten oder Kommentare einfügen.
Der Bildschirm 120 zeigt in diesem Ausführungsbeispiel dem Nutzer sechs unterschiedliche Spracheingabemöglichkeiten zur Auswahl an. Die Spracheingabemöglichkeiten sind sowohl in Schriftform 221, 222, 223, 224, 225, 226 als auch als graphische Darstellung 211, 212, 213, 214, 215, 216 auf dem Bildschirm 120 angezeigt. Der Nutzer gibt das Sprachsignal 250 durch Sprechen des jeweiligen Sprachsignals 250 je nachdem, welche der Spracheingabemöglichkeiten ihm geeignet erscheint.
3 zeigt ein weiteres Ausführungsbeispiel der Anzeige einer Auswahl unterschiedlicher Spracheingabemöglichkeiten. Die Spracheingabemöglichkeiten sind in diesem Ausführungsbeispiel Sekundärsprachbefehle, die während der Durchführung des Prozesses ausgelöst werden können. Zur Steuerung des Prozesses wird ebenfalls ein Chatbot verwendet. Der Bildschirm 120 zeigt in diesem Ausführungsbeispiel dem Nutzer sechs unterschiedliche Spracheingabemöglichkeiten zur Auswahl an. Die Spracheingabemöglichkeiten sind sowohl in Schriftform 221, 222, 223, 224, 225, 226 als auch als graphische Darstellung mittels allgemein verständlicher Symbole 231, 232, 233, 234, 235, 236 auf dem Bildschirm 120 angezeigt. Der Nutzer gibt das Sprachsignal 250 durch Sprechen des jeweiligen Sprachsignals 250 je nachdem, welche der Spracheingabemöglichkeiten ihm geeignet erscheint.
Ein weiteres Ausführungsbeispiel der Anzeige einer Auswahl unterschiedlicher Spracheingabemöglichkeiten zeigt 4. Die Spracheingabemöglichkeiten sind in diesem Ausführungsbeispiel sowohl Primärsprachbefehle als auch Sekundärsprachbefehle, die während der Durchführung des Prozesses zu dessen Steuerung dem Nutzer auf dem Bildschirm 120 angezeigt werden.
Der Bildschirm 120 zeigt in diesem Ausführungsbeispiel dem Nutzer 14 unterschiedliche Spracheingabemöglichkeiten zur Auswahl an. Die Spracheingabemöglichkeiten sind sowohl in Schriftform 221, 222, 223, 224, 225, 226 als auch als graphische Darstellung mittels allgemein verständlicher Symbole 231, 232, 233, 234, 235, 236 auf dem Bildschirm 120 angezeigt. Der Nutzer gibt das Sprachsignal 250 durch Sprechen des jeweiligen Sprachsignals 250 je nachdem, welche der Spracheingabemöglichkeiten ihm geeignet erscheint.
Ein Ausführungsbeispiel zur Verdeutlichung der Verschiedenartigkeit der Spracheingabemöglichkeiten zeigt 5. Dabei sind folgende Definitionen zugrunde gelegt: Ein Wort umfasst eine oder mehrere Silben. Eine Silbe umfasst ein oder mehrere Phoneme (Laut). Ein Phonem ist die kleinste bedeutungsunterscheidende Lauteinheit einer Sprache. Die Hauptaufgabe und Funktion von Sprachlauten ist es, der Identifikation linguistischer Einheiten zu dienen. Um diese Einheiten identifizieren zu können, müssen sie voneinander unterscheidbar sein, und diese Unterscheidbarkeit (distinktive Merkmale) wird durch Sprachlaute gewährleistet. Diese Unterschiede spielen insbesondere dann eine Rolle, wenn ein entsprechender Unterschied in der Funktion vorliegt. Ein Phon ist ein jedes einzelne konkrete Vorkommen eines Lautes. Der Begriff „phonetisch ähnlich“ ist daher derart definiert, dass bei Auftreten gemeinsamer phonetischer Merkmale die Laute phonetisch ähnlich sind, wenn ein feststellbarer Unterschied nicht distinktiv ist. Beispiele distinktiver Merkmale der Phone in der Phonetik sind z.B. nasal, lateral, stimmhaft, sonorant u.v.m.
In diesem Beispiel werden dem Nutzer drei unterschiedliche Spracheingabemöglichkeiten zur Auswahl angezeigt, die Worte: „Home“ 311 als Sekundärsprachbefehl, „Voice Memo“ 312 und „In Ordnung“ 313 als Primärsprachbefehle. Das Wort „Home“ 311 weist eine Silbe 321, „Voice Memo“ 312 drei Silben 322, 323, 324 und „In Ordnung“ 313 ebenfalls drei Silben 325, 326, 327 auf. Wesentlich im Sinne der Erfindung sind insbesondere die zueinander distinktiven Merkmale der ersten Silben 321, 322, 325 der drei hier dargestellten Spracheingabebefehle 311, 312, 313. Alle Spracheingabebefehle 311, 312, 313 beginnen mit einem unterschiedlichen Buchstaben (h, v, i), also mit Phonen mit zueinander distinktiven Merkmalen.
Die zweiten Phone der ersten Silben 321, 322, 325 (o, oi, n) weisen gleichermaßen zueinander distinktive Merkmale auf. Ebenfalls unterschiedlich zueinander sind die letzten Buchstaben (m, s, n) der ersten Silben 321, 322, 325 der Spracheingabebefehle 311, 312, 313, die ebenfalls Phone mit zueinander distinktiven Merkmalen sind.
Die zweiten Silben 322, 326 der Worte „Voice Memo“ 312 und „In Ordnung“ 313, „me“ 322 und „ord“ beginnen mit zueinander unterschiedlichen Buchstaben (m, o) und weisen daher zueinander distinktive Merkmale auf, ebenso die zweiten Phone (e, r). Sämtliche Phone der dritten Silben 324, 327 der Worte „Voice Memo“ 312 und „In Ordnung“ 313, „mo“ und „ung“ weisen ebenfalls zueinander distinktive Merkmale auf.
Zusammengefasst weisen alle drei in diesem Beispiel dargestellten Spracheingabemöglichkeiten 311, 312, 313 eine Mehrzahl zueinander distinktiver Merkmale auf: Die jeweils ersten Silben 321, 322, 325 aller drei dargestellten Spracheingabemöglichkeiten 311, 312, 313 sind zueinander phonetisch unähnlich. Das jeweils erste Phon aller drei dargestellten Spracheingabemöglichkeiten 311, 312, 313 ist zueinander phonetisch unähnlich. Die jeweils letzten Silben 321, 324, 327 und die letzten Phone der drei dargestellten Spracheingabemöglichkeiten 311, 312, 313 sind nicht nur zueinander phonetisch unähnlich, sondern auch zu den jeweils ersten Phonen der ersten Silben 321, 322, 325 der drei dargestellten Spracheingabemöglichkeiten 311, 312, 313.
Zwei aufeinander folgende Silben der ersten Spracheingabemöglichkeit 311 sind jeweils phonetisch distinktiv zu zwei aufeinander folgenden Silben der zweiten Spracheingabemöglichkeit 312. Beide sind phonetisch distinktiv zu zwei aufeinander folgenden Silben der dritten Spracheingabemöglichkeit 313. Zwei aufeinander folgende Phone der ersten Spracheingabemöglichkeit 311 sind jeweils phonetisch distinktiv zu zwei aufeinander folgenden Phonen der zweiten Spracheingabemöglichkeit 312. Beide sind phonetisch distinktiv zu zwei aufeinander folgenden Phonen der dritten Spracheingabemöglichkeit 313.
In diesem Ausführungsbeispiel sind zusätzlich alle Silben 321, 322, 323, 324, 325, 326, 327 zueinander phonetisch unähnlich. Außerdem sind alle phonetischen Elemente der Spracheingabemöglichkeit 311 phonetisch unähnlich zu allen phonetischen Elementen der Spracheingabemöglichkeit 313. Alle phonetischen Elemente der Spracheingabemöglichkeit 312 sind phonetisch unähnlich zu allen phonetischen Elementen der Spracheingabemöglichkeit 313.
6 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens 100 zur Steuerung von Prozessen. Das erfindungsgemäße Verfahren 100 zur Steuerung von Prozessen weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt 110 werden auf einer visuellen Anzeigeeinrichtung mindestens zwei Spracheingabemöglichkeiten zur Ausführung eines Prozesses schriftlich dargestellt. Beide Spracheingabemöglichkeiten sind sich zur leichten Unterscheidung durch einen Nutzer phonetisch unähnlich. Im zweiten Verfahrensschritt 120 wird eine Spracheingabemöglichkeit des Nutzers erfasst. Im dritten Verfahrensschritt 130 wird die erfasste Spracheingabemöglichkeit einem Prozess zugeordnet. Im vierten Verfahrensschritt 140 wird der der Spracheingabemöglichkeit zugeordnete Prozess gestartet.
BEZUGSZEICHENLISTE

100: Datenbrille
110: Projektionsvorrichtung
120: Bildschirm
130: Mikrofon
140: Audioausgabe
150: Steuereinheit
160: Kommunikationseinheit
170: Fassung
180: Bügel
190: Brillenglas
210, 211, 212, 213, 214, 215, 216: Darstellung von Spracheingabemöglichkeiten
220, 221, 222, 223,, 224, 225, 226: Schriftliche Darstellung der Spracheingabemöglichkeiten
230, 231, 232, 233, 234,: Darstellung von sekundären
235, 236: Spracheingabemöglichkeiten
240, 241, 242, 243, 244, 245, 246: Darstellung von primären Spracheingabemöglichkeiten
250: Spracheingabebefehle
311, 312, 313: Spracheingabebefehle
321, 322, 323, 324, 325, 326, 327: Silben/Phone/Phoneme
400: Verfahren zur Steuerung von Prozessen
410: Anzeige von Spracheingabemöglichkeiten
420: Erfassen einer Spracheingabemöglichkeit
430: Zuordnen der erfassten Spracheingabemöglichkeit
440: Starten des der erfassten Spracheingabemöglichkeit zugeordneten Prozesses

Claims

Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) mit den Verfahrensschritten: • Visuelle Darstellung einer ersten Spracheingabemöglichkeit (311) und einer zweiten Spracheingabemöglichkeit (312) auf einer visuellen Anzeigeeinrichtung (120) zur Ausführung eines Prozessschrittes, wobei die zwei Spracheingabemöglichkeiten (311, 312) sich einander phonetisch unähnlich sind • Erfassen einer Spracheingabemöglichkeit (250), wobei die erfasste Spracheingabemöglichkeit (250) einen Schalldruck größer als 10 dB aufweist • Zuordnen der erfassten Spracheingabemöglichkeit (250) zu einem Prozessschritt • Starten des dem Spracheingabemöglichkeit (250) zugeordneten Prozessschrittes.
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach Anspruch 1 dadurch gekennzeichnet, dass die Spracheingabemöglichkeit (250) einen Schalldruck größer 40 dB und besonders bevorzugt größer 55 dB aufweist.
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der der Spracheingabemöglichkeit (250) zugeordnete Prozessschritt nach Erfassen und Zuordnen der Spracheingabemöglichkeit (250) gestartet wird, wenn die Spracheingabemöglichkeit (250) solitär erfasst wird.
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass eine (jede) der dargestellten Spracheingabemöglichkeiten (311, 312) maximal zwei Worte umfasst.
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass eine (jede) der dargestellten Spracheingabemöglichkeiten (311, 312) maximal fünf Silben umfasst.
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass zwei der dargestellten Spracheingabemöglichkeiten (311, 312) eine unterschiedliche Anzahl Silben umfasst.
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass zwei aufeinanderfolgende Laute der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch unähnlich sind zu allen zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit (312).
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass zwei aufeinanderfolgende Laute der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch unähnlich sind zu allen zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit (312).
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass zwei aufeinanderfolgende Silben der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch unähnlich sind zu allen zwei aufeinanderfolgenden Silben der zweiten Spracheingabemöglichkeit (312).
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass der Anfang der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch unähnlich ist zum Anfang der zweiten dargestellten Spracheingabemöglichkeit (312).
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass die erste Silbe der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch unähnlich ist zu der ersten Silbe der zweiten Spracheingabemöglichkeit (312).
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass das Ende der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch unähnlich ist zum Ende der zweiten dargestellten Spracheingabemöglichkeit (312).
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass die letzte Silbe der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch unähnlich ist zu der letzten Silbe der zweiten Spracheingabemöglichkeit (312).
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass alle phonetischen Elemente der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch unähnlich ist zu allen phonetischen Elementen der zweiten dargestellten Spracheingabemöglichkeit (312).
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass zwei aufeinanderfolgende Laute der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch ähnlich sind zu zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit (312), wobei die zwei aufeinanderfolgenden Laute der ersten dargestellten Spracheingabemöglichkeit (311) in komplementärer Distribution zu den zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit (312) vorkommen.
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass zwei aufeinanderfolgende Laute der ersten dargestellten Spracheingabemöglichkeit (311) phonetisch ähnlich sind zu zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit (312), wobei die distinktiven Merkmale von zwei aufeinanderfolgenden Lauten der ersten dargestellten Spracheingabemöglichkeit (311) unterschiedlich sind zu den distinktiven Merkmalen von zwei aufeinanderfolgenden Lauten der zweiten Spracheingabemöglichkeit (312).
Verfahren (400) zur Steuerung von Prozessschritten mittels einer Sprachbefehlseingabe (250) nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass die visuelle Darstellung der Spracheingabebefehle (311, 312) eine graphische und/oder schriftliche Darstellung ist.
Softwareprogramm zur Durchführung des Verfahrens (400) nach einem oder mehreren der Ansprüche 1 bis 16.
System zur Durchführung des Verfahrens (400) nach einem oder mehreren der Ansprüche 1 bis 16 umfassend • eine Anzeigeeinrichtung (120) zur Darstellung von Spracheingabemöglichkeiten • ein Mikrophon (130) zum Erfassen von gesprochenen Spracheingabemöglichkeiten (250) • eine Computereinheit zur Ausführung eines Softwareprogramms wobei durch das System erfasste Spracheingabemöglichkeiten mit einem Schalldruck von mindestens 10 dB, bevorzugt mindestens 40 dB und besonders bevorzugt mindestens 55 dB erfassbar sind.