DE102020129604A1

DE102020129604A1 - Verfahren zur sprachsteuerung von technischen geräten

Info

Publication number: DE102020129604A1
Application number: DE102020129604.5A
Authority: DE
Inventors: Jörg Jonas-Kops
Original assignee: Nxtbase Technologies GmbH
Current assignee: DANTZ, DIRK, DR., DE
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2022-05-12

Abstract

Die Erfindung betrifft, ein Verfahren zur Sprachsteuerung von technischen Geräten mit den Verfahrensschritten Empfangen einer mehrteiligen Spracheingabe, Zerlegen einer Spracheingabe in mehrere Teile, Zuordnung einer ersten Spracherkennungsmethode zu einem ersten Teil der Spracheingabe und Zuordnung einer zweiten Spracherkennungsmethode zu einem zweiten Teil der Spracheingabe, wobei sich die erste Spracherkennungsmethode von der zweiten Spracherkennungsmethode unterscheidet.

Description

Die Erfindung betrifft, ein Verfahren zur Sprachsteuerung von technischen Geräten mit den Verfahrensschritten Empfangen einer mehrteiligen Spracheingabe, Zerlegen einer Spracheingabe in mehrere Teile, Zuordnung einer ersten Spracherkennungsmethode zu einem ersten Teil der Spracheingabe und Zuordnung einer zweiten Spracherkennungsmethode zu einem zweiten Teil der Spracheingabe, wobei sich die erste Spracherkennungsmethode von der zweiten Spracherkennungsmethode unterscheidet.
Stand der Technik
Elektronische Geräte, die Spracheingabe verstehen und umsetzen, sind bekannt. Derartige Geräte sind z.B. Navigationsgeräte, Smartphones. Smartwatches, Head-Mounted-Devices (HMD) und Augmented-Reality-Systeme (AR). Derartige Systeme werden z.B. im industriellen Bereich (insbesondere Industrie 4.0) der Predictive Maintenance (vorausschauende Wartung) eingesetzt werden, in dem Nutzer Prozesse, wie z.B.: Prüfpläne, Qualitätsprüfungen in Form von Soll-Ist-Vergleichen oder in Form von Schritt für Schritt Anleitungen abarbeiten sowie die Ergebnisse dokumentieren und analysieren.
Die genannten Geräte weisen verschiedene Applikationen (Apps) auf und/oder haben über eine meistens drahtlose Verbindung Zugriff auf Apps, deren Funktionen basierend auf der Spracheingabe ausgewählt werden können.
Bei Einsatz derartiger Systeme in rauhen Umgebungen mit z.B. hoher Lautstärke und ungünstigen Lichtverhältnissen besteht die Gefahr, dass ein Nutzer eine falsche Spracheingabe tätigt und so u.U. einen Prozessschritt auslöst, der so von ihm nicht intendiert war.
Es ist daher Aufgabe der Erfindung, ein Verfahren zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe bereitzustellen, mit dem ein Nutzer sicher und zuverlässig einen Prozess steuern kann.
Es ist ebenfalls Aufgabe der Erfindung, ein Computerprogramm zur Ausführung eines Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe bereitzustellen, mit dem ein Nutzer sicher und zuverlässig einen Prozess steuern kann.
Es ist ebenfalls Aufgabe der Erfindung, eine Vorrichtung zur Ausführung eines Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe bereitzustellen, mit dem ein Nutzer sicher und zuverlässig einen Prozess steuern kann.
Die Aufgabe wird mittels des Verfahrens zur Sprachsteuerung von technischen Geräten gemäß Anspruch 1 gelöst. Vorteilhafte Ausführungen der Erfindung sind in den Unteransprüchen dargelegt.
Das erfindungsgemäße Verfahren zur Sprachsteuerung von technischen Geräten weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt wird eine mehrteilige Spracheingabe empfangen. Im Sinne der Erfindung ist eine mehrteilige Spracheingabe eine Spracheingabe, die mindestens zwei unterschiedliche (distinktive) Phone aufweist. Im zweiten Verfahrensschritt wird die Spracheingabe in mehrere Teile zerlegt. Die Zerlegung der Spracheingabe kann in ihre einzelnen Phone, ihre einzelnen Phoneme, ihre einzelnen Silben oder auch in ihre einzelnen Worte erfolgen. Im dritten Verfahrensschritt wird eine erste Spracherkennungsmethode zu einem ersten Teil der Spracheingabe zugeordnet. Die erste Spracherkennungsmethode kann auch zu allen Teilen der Spracheingabe zugeordnet werden. Im vierten Verfahrensschritt wird eine zweite Spracherkennungsmethode zu einem zweiten Teil der Spracheingabe zugeordnet. Wie die erste Spracherkennungsmethode kann auch die zweite Spracherkennungsmethode zu allen Teilen der Spracheingabe zugeordnet werden. Dritter und vierter Verfahrensschritt können zeitgleich durchgeführt werden. Die Ausführung des dritten und vierten Verfahrensschrittes kann aber auch zeitlich versetzt zueinander erfolgen. Möglich ist auch die Zuordnung nur einer Spracherkennungsmethode zu der vollständigen Spracheingabe. Dies kann insbesondere dann der Fall sein, wenn es sich herausgestellt hat, dass eine der beiden Spracherkennungsmethoden nicht geeignet ist, die Spracheingabe zu erkennen.
Dabei werden folgende Definitionen aus der Phonetik zugrunde gelegt: Ein Wort umfasst eine oder mehrere Silben. Eine Silbe umfasst ein oder mehrere Phoneme (Laut). Ein Phonem ist die kleinste bedeutungsunterscheidende Lauteinheit einer Sprache. Die Hauptaufgabe und Funktion von Sprachlauten ist es, der Identifikation linguistischer Einheiten zu dienen. Um diese Einheiten identifizieren zu können, müssen sie voneinander unterscheidbar sein, und diese Unterscheidbarkeit (distinktive Merkmale) wird durch Sprachlaute gewährleistet. Diese Unterschiede spielen für die Phonologie insbesondere dann eine Rolle, wenn ein entsprechender Unterschied in der Funktion vorliegt. Beispiele distinktiver Merkmale der Phone in der Phonetik sind z.B. nasal, lateral, stimmhaft, sonorant, silbisch, konsonantisch, koronal, anterior, hoch, niedrig, hinten, lateral, rund, okkulsiv, fortis, sibilant. Ein Phon ist ein jedes einzelne konkrete Vorkommen eines Lautes.
Eine mehrteilige Spracheingabe kann daher auch ein oder mehrere Phoneme, ein oder mehrere Silben oder ein oder mehrere Worte aufweisen. Vorteilhafterweise kann die Spracheingabe ein vollständiger Satz oder ein Satzfragment, z.B. ein Befehl, sein. Die einzelnen Teile der Spracheingabe können phonetisch sowie semantisch unterschiedlich zueinander oder gleich sein. Die beiden zugeordneten unterschiedlichen Spracherkennungsmethoden unterscheiden sich voneinander. Aufgrund der Zuweisung von Teilen der Spracheingabe zu zwei unterschiedlichen Spracherkennungsmethoden ist das Verfahren redundant, eine Spracheingabe ist zuverlässiger erkennbar als die Zuweisung nur einer Spracherkennungsmethode.
In einer weiteren Gestaltung der Erfindung werden der erste Teil der Spracheingabe mit der ersten Spracherkennungsmethode erkannt und der zweite Teil der Spracheingabe mit der zweiten Spracherkennungsmethode erkannt. Die Erkennung der Teile der Spracheingabe mittels der beiden Spracherkennungsmethoden kann zeitgleich durchgeführt werden. Die Erkennung kann aber auch zeitlich versetzt zueinander erfolgen. So kann z.B. die Erkennung mittels der ersten Spracherkennungsmethode zuerst durchgeführt werden. Falls sich herausgestellt, dass Erkennung mittels der ersten Spracherkennungsmethode ausreicht, die Spracheingabe vollständig zu erkennen, ist eine Erkennung mittels der zweiten Spracherkennungsmethode nicht mehr notwendig. Dadurch verkürzt sich die Erkennung der Spracheingabe erheblich. Falls eine Erkennung mittels der ersten Spracherkennungsmethode nicht ausreicht, die Spracheingabe vollständig zu erkennen, wird danach erst die Erkennung mittels der zweiten Spracherkennungsmethode durchgeführt.
In einer vorteilhaften Ausführung der Erfindung verwendet die erste Spracherkennungsmethode ausschließlich die phonetischen Merkmale der Spracheingabe zur Spracherkennung. Die phonetische Spracherkennungsmethode sucht also gezielt nach phonetisch distinktiven Merkmalen der Spracheingabe. Die distinktiven Merkmale der Spracheingabe sind eindeutige Unterscheidungsmerkmale der Spracheingabe, eine Spracheingabe ist zuverlässig erkennbar.
In einer Weiterbildung der Erfindung verwendet die zweite Spracherkennungsmethode semantische Merkmale der Spracheingabe zur Spracherkennung. Die semantische Spracherkennungsmethode sucht also gezielt nach Merkmalen, die die Bedeutung der Spracheingabe charakterisieren. Die semantische Spracherkennungsmethode ist kontextabhängig, richtet sich nicht ausschließlich nach phonetischen und damit physikalischen Merkmalen einer Spracheingabe und wird im erfindungsgemäßen Verfahren daher insbesondere als ergänzende Methode zur Spracherkennung herangezogen.
In einer weiteren Ausgestaltung der Erfindung verwendet die zweite Spracherkennungsmethode phonetische Merkmale der Spracheingabe zur Spracherkennung. Die phonetische Spracherkennungsmethode sucht also gezielt nach phonetisch distinktiven Merkmalen der Spracheingabe. Die distinktiven Merkmale der Spracheingabe sind eindeutige Unterscheidungsmerkmale der Spracheingabe, eine Spracheingabe ist zuverlässig erkennbar.
In einer weiteren Ausbildung der Erfindung erfolgt vor dem Empfang der Spracheingabe eine Ausgabe eines Teils der Spracheingabe auf einer Ausgabeeinrichtung. Das System zur Spracherkennung ist dabei mit der Ausgabeeinrichtung gekoppelt. Das erfindungsgemäße Verfahren kann z.B. mittels einer Suche nach und Erkennung von Schlüsselworten durchgeführt werden. Die Schlüsselworte weisen dabei semantisch charakteristische und vor allem distinktive phonetische Merkmale auf. Sämtliche dem System und dem Verfahren zur Verfügung stehenden Schlüsselworte können in einer Datenbank gespeichert sein. Das System zur Spracherkennung ist dabei mit der Ausgabeeinrichtung gekoppelt. Es besteht aber zusätzlich oder alternativ die Möglichkeit, Schlüsselworte aus einer Auswahl verfügbarer Schlüsselworte zu erkennen. Dies verringert den Zeitaufwand der Erkennung der Spracheingabe. Dem Nutzer wird vor der Spracheingabe die Auswahl zur Verfügung stehender unterschiedlicher Spracheingabemöglichkeiten auf einer Ausgabeeinrichtung ausgegeben.
In einer weiteren Gestaltung der Erfindung ist die Spracheingabe und/oder ein Teil der Spracheingabe durch eine Pause vor und/oder nach der Spracheingabe und/oder des Teils der Spracheingabe von einer weiteren Ausgabe getrennt. Spracheingabe eines Nutzers und Ausgabe sind also zeitlich voneinander getrennt. Dadurch wird dem Nutzer ein Zeitintervall gegeben, in dem er z.B. mögliche Spracheingabemöglichkeiten zuverlässig erkennen kann.
In einer Weiterbildung der Erfindung erfolgt die Ausgabe visuell. Dem Nutzer wird vor der Spracheingabe die Auswahl zur Verfügung stehender unterschiedlicher Spracheingabemöglichkeiten auf einer visuellen Ausgabeeinrichtung ausgegeben, z.B. auf dem Bildschirm einer Anzeigevorrichtung. Die Spracheingabemöglichkeiten können sowohl in Schriftform als auch als graphische Darstellung, z.B. mittels Icons, auf dem Bildschirm angezeigt werden.
In einer weiteren Ausführung der Erfindung ist die visuelle Darstellung des Teils der Spracheingabe oder des Teils der Spracheingabe eine graphische und/oder schriftliche Darstellung. Eine Kombination von schriftlicher und graphischer Darstellung erhöht eine Unterscheidbarkeit und Eindeutigkeit der verschiedenen Spracheingabebefehle sowohl für Nutzer als auch Spracherkennungssystem.
In einer weiteren Ausgestaltung der Erfindung erfolgt die Ausgabe akustisch. Die Spracheingabemöglichkeiten können akustisch mittels einer Audioausgabe ausgegeben werden, z.B. mittels In-Ear-Kopfhörern. Bei Einsatz des Verfahrens in rauhen Umgebungen mit z.B. hoher Lautstärke und ungünstigen Lichtverhältnissen wird die Gefahr verringert, dass ein Nutzer eine falsche Spracheingabe tätigt und so u.U. einen Prozessschritt auslöst, der so von ihm nicht intendiert war.
In einer weiteren Ausbildung der Erfindung wird der zuvor ausgegebene Teil der Spracheingabe nach ihrem Empfang unter Nutzung der Spracherkennungsmethode erkannt, die zur Spracherkennung die phonetischen Merkmale nutzt. Die phonetische Spracherkennungsmethode sucht also gezielt nach phonetisch distinktiven Merkmalen der Spracheingabe. Die distinktiven Merkmale der Spracheingabe sind eindeutige Unterscheidungsmerkmale der Spracheingabe, eine Spracheingabe ist zuverlässig erkennbar.
In einer weiteren Gestaltung der Erfindung wird ein Teil der empfangenen Spracheingabe einem Prozess zugeordnet. Ein Prozess kann z.B. der nächste Prozessschritt in einem Entscheidungsbaum sein, in dem mehrere Prozessschritte aufeinander folgen, z.B. bei einem Computerprogramm.
In einer Weiterbildung der Erfindung wird der dem Teil der Spracheingabe zugeordnete Prozess nach dem Empfangen und Erkennen des Teils der Spracheingabe gestartet. Ein Prozess kann z.B. der nächste Prozessschritt in einem Entscheidungsbaum sein, in dem mehrere Prozessschritte aufeinander folgen, z.B. bei einem Computerprogramm. Dieser Prozess wird gestartet, optional durch eine weitere explizite Spracheingabe eines Nutzers.
In einer weiteren Ausführung der Erfindung wird die Spracheingabe und/oder ein Teil der Spracheingabe solitär erfasst.
In einer weiteren Ausgestaltung der Erfindung ist die Spracheingabe und/oder ein Teil der Spracheingabe durch eine Pause vor und/oder nach der Spracheingabe und/oder des Teils der Spracheingabe von weiteren empfangenen akustischen Signalen getrennt. Dadurch wird gewährleistet, dass während der Spracheingabe nur die relevante Spracheingabe des Nutzers erfasst und erkannt wird. Irrelevante Geräusche in rauhen Umgebungen mit hoher Lautstärke werden so ausgeblendet.
In einer Weiterbildung der Erfindung wird das Verfahren zumindest teilweise auf einer Datenbrille ausgeführt. Insbesondere wird die Hardware der Datenbrille zum Empfang einer Sprachbefehlseingabe eines Nutzers verwendet, die Datenbrille weist dazu eine akustische Aufnahmeeinrichtung (Mikrofon) auf, außerdem ein Bildschirm für die visuelle Anzeige. Weitere Hardware kann über die Kopplung über geeignete Kommunikationsschnittstellen mit einer Datenbrille verbunden sein. Sie wird dann als zur Datenbrille gehörig gezählt, wenn ein entsprechendes der Hardware zugeordnetes Treiberprogramm auf der Datenbrille ausgeführt wird.
In einer vorteilhaften Gestaltung der Erfindung werden für die erste und/oder zweite Spracherkennungsmethode neuronale Netze und/oder künstliche Intelligenz und/oder Maschinelles Lernen genutzt. Derartige Vorrichtungen sind lernfähig und erhöhen die Effektivität und die Genauigkeit des erfindungsgemäßen Verfahrens.
In einer weiteren Ausführung der Erfindung werden ausschließlich Hardware-Ressourcen der Datenbrille zum Empfang einer Sprachbefehlseingabe genutzt. Limitierende Faktoren sind dabei hauptsächlich der an der Datenbrille selbst angeordnete zur Verfügung stehende Speicherplatz sowie Rechenleistung zur Ausführung eines geeigneten Computerprogramms sowie die auf die Spracheingabe begrenzten Steuerungs- und/oder Eingabemöglichkeiten. Die Datenbrille ist während des Verfahrens mit einem Computer verbunden, der die geeignete und ausreichende Hardware-Ausstattung aufweist. Angestrebt ist eine vollständige Ausführung des Verfahrens auf der Datenbrille, um den Aufwand an geeigneter Hardware so gering wie möglich zu halten. Insbesondere wird die Hardware der Datenbrille zum Empfang einer Sprachbefehlseingabe eines Nutzers verwendet, die Datenbrille weist dazu eine akustische Aufnahmeeinrichtung (Mikrofon) auf. Weitere Hardware kann über die Kopplung über geeignete Kommunikationsschnittstellen mit Datenbrille verbunden sein. Sie wird dann als zur Datenbrille gehörig gezählt, wenn ein entsprechendes der Hardware zugeordnetes Treiberprogramm auf der Datenbrille ausgeführt wird.
Die Aufgabe wird ebenfalls mittels des Softwareprogramms zur Durchführung des Verfahrens gemäß Anspruch 17 gelöst.
Die Aufgabe wird ebenfalls mittels des Systems zur Durchführung des Verfahrens gemäß Anspruch 18 gelöst.
Das erfindungsgemäße System zur Durchführung des Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe weist eine Anzeigeeinrichtung zur Darstellung von Spracheingabemöglichkeiten auf. Die Anzeigeeinrichtung kann permanent im Sichtfeld des Nutzers angeordnet sein, z.B. mittels eines AR-Systems. Die Anzeigeeinrichtung kann aber auch nur zeitweilig im Sichtfeld des Nutzers angeordnet sein, z.B. mittels eines Bildschirms eines Smartphones, einer Smartwatch oder ähnlicher Anzeigeeinrichtungen. Weiterhin weist das System ein Mikrophon zum Erfassen von gesprochenen Spracheingabemöglichkeiten auf. Das Mikrofon kann permanent im Sprachfeld des Nutzers angeordnet sein, z.B. mittels eines AR-Systems. Das Mikrofon kann aber auch nur zeitweilig im Sprachfeld des Nutzers angeordnet sein, z.B. mittels eines Smartphones oder einer Smartwatch. Außerdem weist das System eine Computereinheit zur Ausführung eines Softwareprogramms zur Durchführung des Verfahrens zur Steuerung von Prozessen mittels einer Sprachbefehlseingabe auf. Die Computereinheit kann ein Wearable wie Smartphone, Smartwatch sein oder innerhalb eines AR-Systems angeordnet sein. Möglich ist aber auch eine stationäre Computereinheit, mit der ein Wearable mittels Kabelverbindung oder kabelloser Verbindung verbunden ist.
Ausführungsbeispiele des erfindungsgemäßen Systems und des erfindungsgemäßen Verfahrens zur Sprachsteuerung von technischen Geräten sind in den Zeichnungen schematisch vereinfacht dargestellt und werden in der nachfolgenden Beschreibung näher erläutert.
Es zeigen:

1: Ansicht eines Ausführungsbeispiels der erfindungsgemäßen Datenbrille
2: Anzeige einer erkannten Spracheingabe
3: Anwendung des erfindungsgemäßen Verfahrens auf eine mehrteilige Spracheingabe
4: Ablaufdiagramm des erfindungsgemäßen Verfahrens
5: Ablaufdiagramm eines weiteren Ausführungsbeispiels des erfindungsgemäßen Verfahrens

1 zeigt eine Ansicht eines Ausführungsbeispiels des erfindungsgemäßen Systems zur Durchführung des Verfahrens 400 zur Sprachsteuerung von technischen Geräten. Das System zur Spracherkennung weist eine Datenbrille 100 auf, mittels dem die Spracheingabemöglichkeiten in das Sichtfeld eines Nutzers eingeblendet werden. Die Datenbrille 100 wird in diesem Ausführungsbeispiel wie eine herkömmliche Brille vom Nutzer getragen und verfügt über eine entsprechend gestaltete Fassung 170 mit Bügel 180 und Brillengläsern 190. Die Datenbrille 100 weist die Projektionsvorrichtung 110 mit Bildschirm 120 zur Einblendung der Spracheingabemöglichkeiten direkt vor dem Auge des Nutzers auf. Eine derartige Datenbrille 100 erhöht die Geschwindigkeit der Bearbeitung von Prozessen, da der Nutzer beide Arme frei hat. Zur Sprachein- und ausgabe verfügt die Datenbrille 100 über eine Kommunikationseinheit 160 mit Mikrofon 130 und Audioausgabe 140. Die Audioausgabe 140 weist vorteilhafterweise ein oder zwei In-Ear-Kopfhörer auf. Gesteuert wird die Datenbrille 100 durch die Steuereinheit 150.
Neben der Verwendung einer Datenbrille 100 kann das erfindungsgemäße Verfahren 400 aber auch auf anderen Geräten, vorteilhafterweise Wearables (am Körper getragene Geräte) ausgeführt werden, z.B. mittels eines Smartphones. Das System weist außerdem einen Rechner auf (nicht dargestellt), mit der die Steuereinheit 150 verbunden ist. Der Rechner ist vorzugsweise ein handelsüblicher PC oder Notebook, der genügend Rechenleistung bereitstellt, um ein Computerprogramm zu betreiben, mit dem das erfindungsgemäße Verfahren 400 durchgeführt wird.
Das erfindungsgemäße Verfahren 400 zur Steuerung von Prozessen weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt 410 wird eine mehrteilige Spracheingabe 250 eines Nutzers empfangen. Dabei erfolgt der Empfang der Spracheingabe 250 ausschließlich über das Mikrofon 130 der Datenbrille 100. Im zweiten Verfahrensschritt 420 wird die Spracheingabe 250 in mindestens zwei Teile zerlegt. Im dritten Verfahrensschritt 440 wird ein erster Teil der Spracheingabe 250 einer ersten Spracherkennungsmethode P zugeordnet. Im vierten Verfahrensschritt 445 wird ein zweiter Teil der Spracheingabe 250 einer zweiten Spracherkennungsmethode S zugeordnet. Dritter und vierter Verfahrensschritt (440, 445) erfolgen üblicherweise zeitgleich. Erste P und zweite Spracherkennungsmethode S sind unterschiedlich. Zuletzt erfolgt ein Erkennen der Spracheingabe 250 mittels der beiden Spracherkennungsmethoden P, S.
Ein Ausführungsbeispiel der Anzeige einer Spracheingabe 250 zeigt 2. Zur Steuerung des Prozesses wird vorteilhafterweise ein Chatbot verwendet, also ein textbasiertes Dialogsystem, mit dem ein Nutzer den Prozess steuert. Der Chatbot reagiert nur auf bestimmte, als Spracheingabemöglichkeiten auf dem Smartglass dargestellter Spracheingaben. Der Nutzer gibt in diesem Ausführungsbeispiel die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt“ speichern‟ in das Mikrofon 130 der Datenbrille 100 ein.
Im ersten Verfahrensschritt 410 des Verfahrens 400 wird eine mehrteilige Spracheingabe 250 eines Nutzers empfangen. Dabei erfolgt der Empfang der Spracheingabe 250 ausschließlich über das Mikrofon 130 der Datenbrille 100. Im zweiten Verfahrensschritt 420 wird die Spracheingabe 250 in mindestens zwei Teile zerlegt. Im dritten Verfahrensschritt 440 wird ein erster Teil der Spracheingabe 250 einer ersten Spracherkennungsmethode P zugeordnet. Im vierten Verfahrensschritt 445 wird ein zweiter Teil der Spracheingabe 250 einer zweiten Spracherkennungsmethode S zugeordnet. Dritter und vierter Verfahrensschritt (440, 445) erfolgen üblicherweise zeitgleich. Erste P und zweite Spracherkennungsmethode S sind unterschiedlich. Zuletzt erfolgt ein Erkennen der Spracheingabe 250 mittels der beiden Spracherkennungsmethoden P, S.
Auf dem Bildschirm 120 der Anzeigevorrichtung 110 wird in diesem Ausführungsbeispiel dem Nutzer eine Latenzzeit 214 angezeigt, in diesem Ausführungsbeispiel 5 s. Die Latenzzeit 214 kann von einem Nutzer frei gewählt werden. Die Latenzzeit 214 ist der Zeitraum, innerhalb dem der gegebene Sprachbefehl 250 noch widerrufen bzw. geändert werden kann, indem der Nutzer den entsprechenden Sprachbefehl und/oder einen Widerrufsbefehl mittels Spracheingabe gibt, z.B. „Abbruch“. Nach Verstreichen der Latenzzeit 214 ohne Sprachbefehl und/oder Widerrufsbefehl wird der ursprüngliche Sprachbefehl 250 ausgeführt, und nicht ausgeführt bei Widerrufsbefehl. Der Nutzer kann in diesem Ausführungsbeispiel die Sprachbefehlseingabe 250 auch innerhalb des Zeitraums der Latenzzeit 214 wiederholen, um den Prozessschritt auszuführen. Eine andere Möglichkeit besteht darin, dass die Latenzzeit 214 der Zeitraum ist, in dem ein Nutzer den gegebenen Sprachbefehl 250 explizit durch einen Sprachbefehl bestätigen muss, z.B. mit „Ausführen“. Nach Verstreichen der Latenzzeit 214 ohne Bestätigung durch den Nutzer wird dann der ursprüngliche Sprachbefehl 250 nicht, bei erfolgter Bestätigung jedoch ausgeführt.
3 zeigt ein Ausführungsbeispiel der Anwendung des erfindungsgemäßen Verfahrens 400 auf eine mehrteilige Spracheingabe 250 eines Nutzers. Der Nutzer gibt ebenfalls die Spracheingabe 250 „Bitte ein Voice Memo starten und im Verzeichnis „Projekt“ speichern'' in das Mikrofon 130 der Datenbrille 100 ein. Unter der Spracheingabe 250 ist die Spracheingabe 250 in phonetischer Lautschrift dargestellt. Diese Spracheingabe 250 wird im ersten Verfahrensschritt 410 des erfindungsgemäßen Verfahrens 400 empfangen und im zweiten Verfahrensschritt 420 zerlegt. Im Rahmen dieser Schrift sind zur Erkennung phonetischer Merkmale P folgende Definitionen aus der Phonetik zugrunde gelegt: Ein Wort umfasst eine oder mehrere Silben. Eine Silbe umfasst ein oder mehrere Phoneme (Laut). Ein Phonem ist die kleinste bedeutungsunterscheidende Lauteinheit einer Sprache. Die Hauptaufgabe und Funktion von Sprachlauten ist es, der Identifikation linguistischer Einheiten zu dienen. Um diese Einheiten identifizieren zu können, müssen sie voneinander unterscheidbar sein, und diese Unterscheidbarkeit (distinktive Merkmale) wird durch Sprachlaute gewährleistet. Beispiele distinktiver Merkmale der Phone in der Phonetik sind z.B. nasal, lateral, stimmhaft, sonorant, silbisch, konsonantisch, koronal, anterior, hoch, niedrig, hinten, lateral, rund, okkulsiv, fortis, sibilant. Ein Phon ist ein jedes einzelne konkrete Vorkommen eines Lautes.
Die genannte Spracheingabe 250 ist daher im Sinne der Erfindung mehrteilig. Die Spracheingabe 250 weist nicht nur mehrere (11) Worte auf, einige Worte enthalten auch mehrere Silben sowie eine Vielzahl von Phonen. Die Spracheingabe 250 weist außerdem zwei unterschiedliche Befehle auf, nämlich „Voice Mail“ und „speichern“. Die Spracheingabe 250 wird in ihre einzelnen Silben zerlegt 420. Es hat sich herausgestellt, dass eine Zerlegung einer Spracheingabe 250 in deren Silben sinnvoll ist. Die gesamte Spracheingabe 250 wird während des Prozesses der Erkennung 430, 435 zuerst mittels einer phonetischen Spracherkennungsmethode P erkannt 430. Optional wird der Prozess der Erkennung 430, 435 mittels einer Suche nach und Erkennung von Schlüsselworten durchgeführt. Die Schlüsselworte weisen dabei charakteristische und vor allem distinktive phonetische Merkmale auf. Phonetisch distinktiv sind dabei auch z.B. zwei aufeinanderfolgende gleiche Laute, diese kommen aber in komplementärer Distribution zueinander vor. Die Erkennung 430, 435 von Schlüsselworten erfolgt daher insbesondere nach phonetischen Merkmalen P.
Sämtliche dem System und dem Verfahren zur Verfügung stehende Schlüsselworte können in einer Datenbank gespeichert sein. Es besteht aber zusätzlich oder alternativ die Möglichkeit, Schlüsselworte aus einer Auswahl verfügbarer Schlüsselworte zu erkennen 430, 435. Dies verringert den Zeitaufwand der Erkennung 430, 435 der Spracheingabe 250. Optional wird dem Nutzer vor der Spracheingabe 250 des Nutzers die Auswahl zur Verfügung stehender unterschiedlicher Spracheingabemöglichkeiten auf dem Bildschirm 120 der Anzeigevorrichtung 110 angezeigt 405 und/oder akustisch mittels der Audioausgabe 140 ausgegeben. Die Spracheingabemöglichkeiten können sowohl in Schriftform als auch als graphische Darstellung, z.B. mittels Icons, auf dem Bildschirm 120 angezeigt 405 werden. Das System zur Spracherkennung ist dabei mit der Anzeigevorrichtung 110 und mit der Audioausgabe 140 gekoppelt. Die Spracherkennungsmethode nach phonetischen Merkmalen P ist insbesondere dann besonders effektiv und exakt, wenn neuronale Netze und/oder künstliche Intelligenz und/oder Maschinelles Lernen genutzt werden.
Die Schlüsselworte in der Spracheingabe 250 des Nutzers sind demnach in diesem Ausführungsbeispiel „Voice Mail“ und „speichern“. Die Schlüsselworte werden aufgrund ihrer phonetisch distinktiven Merkmale erkannt 430 und einem Prozess zugeordnet 440 („Voice Mail“ und „speichern“).
Alle weiteren Worte der Spracheingabe 250 sind Füllworte, die mittels einer semantischen Spracherkennungsmethode S erkannt 435 und einem Prozess 445 zugeordnet werden. Auch für die semantische Spracherkennungsmethode S können vorteilhafterweise neuronale Netze und/oder künstliche Intelligenz und/oder Maschinelles Lernen genutzt werden.
Die in diesem Ausführungsbeispiel erkannten Sprachbefehle „Voice Mail“ und „speichern“ werden nicht nur ausgeführt, sondern deren Ausführung zusätzlich auf dem Bildschirm 120 der Anzeigevorrichtung 110 in Schriftform und/oder als Icon angezeigt 405 und/oder akustisch mittels der Audioausgabe 140 ausgegeben. Der Nutzer kann sich so vergewissern, dass seine Spracheingabe 250 richtig erkannt ist und ggf. die Spracheingabe 250 bestätigen oder annullieren.
Ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens 400 zeigt 4. Das erfindungsgemäße Verfahren 400 zur Steuerung von Prozessen weist vier Verfahrensschritte auf: Im ersten Verfahrensschritt 410 wird eine mehrteilige Spracheingabe 250 eines Nutzers empfangen. Dabei erfolgt der Empfang der Spracheingabe 250 ausschließlich über das Mikrofon 130 der Datenbrille 100. Im zweiten Verfahrensschritt 420 wird die Spracheingabe 250 in zwei Teile zerlegt. Üblicherweise erfolgt eine Zerlegung in mehrere Teile. Die einzelnen Teile sind die Silben, aus denen sich die einzelnen Worte der Spracheingabe 250 zusammensetzen (s. 3). Die einzelnen Teile können auch die Phone sein, aus denen sich die Spracheingabe 250 zusammensetzt.
Die Spracheingabe 250 wird im nächsten Verfahrensschritt erkannt, erfindungsgemäß mittels zweier Spracherkennungsmethoden 430, 435. Die erste Spracherkennungsmethode 430 wendet phonetische Merkmale der Spracheingabe 250 zur Spracherkennung an, insbesondere die distinktiven phonetischen Merkmale. Die zweite Spracherkennungsmethode 435 wendet semantische Merkmale der Spracheingabe 250 zur Spracherkennung an. Beide Spracherkennungsmethoden 430, 435 werden in diesem Ausführungsbeispiel simultan auf die Spracheingabe 250 angewendet. Nach Erkennung der Spracheingabe 250 wird die Spracheingabe 250 und/oder ihre einzelnen Teile einem Prozess zugeordnet und dieser Prozess bzw. diese Prozesse ausgeführt.
5 zeigt ein alternatives Ausführungsbeispiel des erfindungsgemäßen Verfahrens 400. Im ersten Verfahrensschritt wird dem Nutzer eine Auswahl unterschiedlicher Spracheingabemöglichkeiten auf dem Bildschirm 120 der Anzeigevorrichtung 110 angezeigt 405 und/oder akustisch mittels der Audioausgabe 140 ausgegeben. Die Spracheingabemöglichkeiten können sowohl in Schriftform als auch als graphische Darstellung, z.B. mittels Icons, auf dem Bildschirm 120 angezeigt 405 werden. Im zweiten Verfahrensschritt 410 wird wiederum eine mehrteilige Spracheingabe 250 basierend auf den angezeigten Spracheingabemöglichkeiten eines Nutzers empfangen. Dabei erfolgt der Empfang der Spracheingabe 250 ebenfalls ausschließlich über das Mikrofon 130 der Datenbrille 100. Im nächsten Verfahrensschritt wird die Spracheingabe 250 erkannt 430, und zwar in diesem Ausführungsbeispiel ausschließlich mittels phonetischer Merkmale. Im vierten Verfahrensschritt wird die Spracheingabe 250 zerlegt. Die Zerlegung erfolgt in zwei Teilen: Der erste Teil der Spracheingabe ist mittels der phonetischen Spracherkennungsmethode 430 erkannt, der zweite Teil ist mittels der phonetischen Spracherkennungsmethode nicht erkannt, m.a.W. der zweite Teil muss noch erkannt werden, um die gesamte Spracheingabe 250 zu erkennen. Dazu wird im nächsten Verfahrensschritt der nicht erkannte Teil der Spracheingabe 250 mittels einer semantischen Spracherkennungsmethode 435 erkannt. Der erste Teil der Spracheingabe 250, der mittels der phonetischen Spracherkennungsmethode 430 erkannt wurde, wird zeitlich parallel einem Prozess zugeordnet 440. Danach wird der Teil der Spracheingabe 250, der mittels der semantischen Spracherkennungsmethode 435 erkannt wurde, ebenfalls einem Prozess zugeordnet. Zuletzt werden die Prozesse gestartet.
Bezugszeichenliste

S: Semantische Spracherkennungsmethode
P: Phonetische Spracherkennungsmethode
100: Datenbrille
110: Projektionsvorrichtung
120: Bildschirm
130: Mikrofon
140: Audioausgabe
150: Steuereinheit
160: Kommunikationseinheit
170: Fassung
180: Bügel
190: Brillenglas
214: Anzeige Latenzzeit
224: Anzeige Symbol
400: Verfahren zur Steuerung von Prozessen
405: Anzeige von Spracheingabemöglichkeiten
410: Empfangen eines mehrteiligen Spracheingabebefehls
420: Zerlegen einer Spracheingabe
430: Erkennen (phonetisch) der erfassten Spracheingabe
435: Erkennen (semantisch) der erfassten Spracheingabe
440: Zuordnen der erfassten Spracheingabe zugeordneten Prozesses
445: Zuordnen der erfassten Spracheingabe zugeordneten Prozesses

Claims

Verfahren (400) zur Sprachsteuerung von technischen Geräten mit den Verfahrensschritten: • Empfangen (410) einer mehrteiligen Spracheingabe (250) • Zerlegen (420) einer Spracheingabe (250) in mehrere Teile • Zuordnung (440) einer ersten Spracherkennungsmethode (P) zu einem ersten Teil der Spracheingabe (250) • Zuordnung (445) einer zweiten Spracherkennungsmethode (S) zu einem zweiten Teil der Spracheingabe (250), • Erkennen eines Teils der Spracheingabe (250) der ihr zugeordneten Spracherkennungsmethode wobei sich die erste Spracherkennungsmethode (P) von der zweiten Spracherkennungsmethode (S) unterscheidet.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach Anspruch 1 dadurch gekennzeichnet, dass das Erkennen des ersten Teils der Spracheingabe (250) mit der ersten Spracherkennungsmethode (P) und/oder das Erkennen des zweiten Teils der Spracheingabe (250) mit der zweiten Spracherkennungsmethode (S) erfolgt.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach Anspruch 1 oder 2 dadurch gekennzeichnet, dass die erste Spracherkennungsmethode (P) ausschließlich die phonetischen Merkmale der Spracheingabe (250) zur Spracherkennung verwendet.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass die zweite Spracherkennungsmethode (S) semantische Merkmale der Spracheingabe (250) zur Spracherkennung verwendet.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach Anspruch 4 dadurch gekennzeichnet, dass die zweite Spracherkennungsmethode (S) phonetische Merkmale der Spracheingabe (250) zur Spracherkennung verwendet.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass vor dem Empfang der Spracheingabe (250) eine Ausgabe eines Teils der Spracheingabe (250) auf einer Ausgabeeinrichtung (120) erfolgt, wobei das System zur Spracherkennung mit der Ausgabeeinrichtung (120) gekoppelt ist.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach Anspruch 6 dadurch gekennzeichnet, dass die Spracheingabe (250) und/oder ein Teil der Spracheingabe (250) durch eine Pause vor und/oder nach der Spracheingabe (250) und/oder des Teils der Spracheingabe (250) von einer weiteren Ausgabe getrennt ist.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach Anspruch 6 oder 7 dadurch gekennzeichnet, dass die Ausgabe visuell erfolgt.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach Anspruch 8 dadurch gekennzeichnet, dass die visuelle Darstellung des Teils der Spracheingabe (250) oder des Teils der Spracheingabe (250) eine graphische und/oder schriftliche Darstellung (224) ist.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der Ansprüche 6 bis 9 dadurch gekennzeichnet, dass die Ausgabe akustisch erfolgt.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der Ansprüche 6 bis 10 dadurch gekennzeichnet, dass der zuvor ausgegebene Teil der Spracheingabe (250) nach ihrem Empfang unter Nutzung einer Spracherkennungsmethode (P) erkannt wird, die zur Spracherkennung die phonetischen Merkmale nutzt.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass ein Teil der empfangenem Spracheingabe (250) zu einem Prozess zugeordnet wird.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach Anspruch 10 dadurch gekennzeichnet, dass der dem Teil der Spracheingabe (250) zugeordnete Prozess nach dem Empfangen und Erkennen des Teils der Spracheingabe (250) gestartet wird.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass die Spracheingabe (250) und/oder ein Teil der Spracheingabe (250) solitär erfasst wird.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass die Spracheingabe (250) und/oder ein Teil der Spracheingabe (250) durch eine Pause vor und/oder nach der Spracheingabe (250) und/oder des Teils der Spracheingabe (250) von weiteren empfangenen akustischen Signalen getrennt ist.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass das Verfahren (400) zumindest teilweise auf einer Datenbrille (100) ausgeführt wird.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass für die erste (P) und/oder zweite Spracherkennungsmethode (S) neuronale Netze und/ oder künstliche Intelligenz genutzt wird.
Verfahren (400) zur Sprachsteuerung von technischen Geräten nach einem oder mehreren der vorhergehenden Ansprüche dadurch gekennzeichnet, dass ausschließlich Hardware-Ressourcen der Datenbrille (100) zum Empfang einer Spracheingabe (250) genutzt werden.
Softwareprogramm zur Durchführung des Verfahrens (400) nach einem oder mehreren der Ansprüche 1 bis 18.
System zur Durchführung des Verfahrens (400) nach einem oder mehreren der Ansprüche 1 bis 18 umfassend • eine Anzeigeeinrichtung (120) zur Darstellung von Spracheingabemöglichkeiten • ein Mikrophon (130) zum Erfassen von gesprochenen Spracheingabemöglichkeiten • eine Computereinheit zur Ausführung eines Softwareprogramms