DE102016212647B4

DE102016212647B4 - Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum und Sprachsteuerungssystem

Info

Publication number: DE102016212647B4
Application number: DE102016212647.4A
Authority: DE
Inventors: Mark Pleschka; David Scheler; Kim Maurice Cedziwoda; Spyros Kousidis; Sebastian Varges
Original assignee: Volkswagen AG
Current assignee: Volkswagen AG
Priority date: 2015-12-18
Filing date: 2016-07-12
Publication date: 2020-08-20
Anticipated expiration: 2036-07-13
Also published as: DE102016212647A1

Abstract

Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum (16), wobei der Innenraum (16) zumindest eine erste Zone und eine zweite Zone aufweist; wobei bei dem Verfahren
akustische Rohdaten in dem Innenraum (16) erfasst werden (S1);
anhand der Rohdaten eine akustische Signalseparation durchgeführt wird (S2), wobei erste Zonenrohdaten erzeugt werden, die der ersten Zone zugeordnet sind, und zweite Zonenrohdaten erzeugt werden, die der zweiten Zone zugeordnet sind;
für die ersten und zweiten Zonenrohdaten jeweils eine Schlüsselworterkennung durchgeführt wird (S3), wobei bestimmt wird, ob die ersten oder zweiten Zonenrohdaten ein bestimmtes Schlüsselwort umfassen;
wenn die ersten und die zweiten Zonenrohdaten das Schlüsselwort umfassen, durch eine Sprecherlokalisierung die Zonenrohdaten genau einer Zone als Eingaberohdaten bestimmt werden (S4); und
anhand der bestimmten Eingaberohdaten eine Spracheingabe erkannt und anhand der Spracheingabe ein Steuersignal erzeugt wird.

Description

Die vorliegende Erfindung betrifft ein Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum, wobei der Innenraum zumindest eine erste Zone und eine zweite Zone aufweist. Sie betrifft ferner ein Sprachsteuerungssystem.
Sprachsteuerungssysteme zum Implementieren einer Sprachbedienung, insbesondere in Fahrzeugen, sind bisher typischerweise für eine Person, insbesondere für den Fahrer des Fahrzeugs, ausgelegt. Systeme zur Multi-Sprecher-Bedienung mit Anwendungsfällen, die speziell auch für andere Fahrzeuginsassen optimiert sind, sind bisher nicht bekannt, obwohl Funktionen denkbar sind, die sitzplatzbezogen ausgeführt werden können. Beispiele dafür sind etwa eine Sprachbedienung für eine 4-Zonen-Klimaanlage oder eine Steuerung der Sitzheizung.
Bei dem in der EP 2 028 062 A2 beschriebenen System zum Optimieren einer Spracherkennung in einem Fahrzeug wird ein Mikrofonarray zusammen mit einer Softwaresteuerung verwendet, um erfasste Sprachäußerungen einzelnen Passagieren anhand ihres Platzes zuzuordnen. Ferner werden die Passagiere identifiziert und es werden entsprechend personalisierte Einstellungen an Einrichtungen des Fahrzeugs vorgenommen.
Die in der DE 10 2013 016 806 A1 vorgeschlagene sitzplatzbezogene Sprachsteuerung einer Gerätefunktion in einem Kraftfahrzeug sieht vor, dass ein Sprachbefehl erfasst wird und bestimmt wird, von welchem Sitzplatz aus der Sprachbefehl gegeben wurde. Es werden Kontextinformationen für den Sitzplatz ausgelesen und anhand der Kontextinformationen wird eine Gerätefunktion ausgeführt.
In der US 2015/0 110 287 A1 wird ein Verfahren zur Verarbeitung einer Mehrzahl von Audioströmen in einem Bordrechensystem eines Fahrzeugs bereitgestellt, bei dem die Mehrzahl der Audioströme aus einer Mehrzahl an Positionen in einem Fahrzeug empfangen wird, die Mehrzahl der Audioströme zur Erzeugung eines Priorisierungsergebnisses priorisiert wird und je nach Priorisierungsergebnis eine mit jeder der Mehrzahl von Audioströmen in Verbindung stehende Anwendung ausgeführt wird.
Die US 2014 / 0 074 480 A1 beschreibt ein System, bei dem mehrere Mikrophone jeweils in einem als Zone definierten Abschnitt eines Fahrzeugs angeordnet sind. Das System umfasst einen zentralen Controller des Fahrzeugs mit einem Computerprozessor und eine vom Computerprozessor ausführbare Logik, die dazu konfiguriert ist, ein Verfahren zu implementieren, bei dem eine Sprachkommunikation einer Person über eines der Mikrophone empfangen wird, die Zone im Fahrzeug, die von der Person besetzt ist, identifiziert wird, die Person durch Vergleichen des Sprachstempels der Sprachkommunikation mit einer Datenbank von Sprachstempeln identifiziert wird und mindestens eine elektronische Fahrzeugkomponente in dieser Zone auf der Basis von Anwendervorlieben, die dem Sprachstempel zugeordnet sind, implementiert wird.
Die US 2012 / 0 197 637 A1 beschreibt ein Sprachverarbeitungssystem für ein Fahrzeug mit einer Mehrzahl von Zonen, die mit einer Mehrzahl von Mikrophonen in Verbindung steht, und einem Controller in Austausch mit diesen Mikrophonen, wobei der Controller von mindestens einem dieser Mikrophone Fahrzeuginsassensprachsignale empfängt, dabei mindestens eine aktive Kommunikationszone, in der mindestens ein Fahrzeuginsasse spricht, bestimmt und die Sprachverarbeitung infolge der Bestimmung der aktiven Kommunikationszone modifiziert.
Allerdings stellt sich trotz dieser bekannten Ansätze weiterhin die Herausforderung, Eingaben von mehreren Sprechern zu verarbeiten und Dialoge mit mehreren Personen - gegebenenfalls auch parallel - zu führen. Insbesondere können Mitfahrer in einem Fahrzeug die Sprachbedienung nicht oder nicht optimal nutzen, da die Mikrofone, die Anzeige und die bedienbaren Funktionen typischerweise darauf ausgerichtet sind, dass der Fahrer das System bedient.
Der vorliegenden Erfindung liegt daher die Aufgabe zugrunde, ein Verfahren zum Betreiben eines Sprachsteuerungssystems und ein Sprachsteuerungssystem bereitzustellen, die eine besonders gute Bedienung durch mehrere Personen erlauben.
Erfindungsgemäß wird diese Aufgabe durch ein Verfahren mit den Merkmalen des Anspruchs 1 und ein Sprachsteuerungssystem mit den Merkmalen des Anspruchs 10 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den abhängigen Ansprüchen.
Bei dem erfindungsgemäßen Verfahren der eingangs genannten Art werden akustische Rohdaten in dem Innenraum erfasst und anhand der Rohdaten wird eine akustische Signalseparation durchgeführt. Dabei werden erste Zonenrohdaten erzeugt, die der ersten Zone zugeordnet sind. Ferner werden zweite Zonenrohdaten erzeugt, die der zweiten Zone zugeordnet sind. Für die ersten und zweiten Zonenrohdaten wird jeweils eine Schlüsselworterkennung durchgeführt, wobei bestimmt wird, ob die ersten oder zweiten Zonenrohdaten ein bestimmtes Schlüsselwort umfassen. Wenn die ersten und die zweiten Zonenrohdaten das Schlüsselwort umfassen, werden durch eine Sprecherlokalisierung die Zonenrohdaten genau einer Zone als Eingaberohdaten bestimmt und anhand der bestimmten Eingaberohdaten wird eine Spracheingabe erkannt. Schließlich wird anhand der Spracheingabe ein Steuersignal erzeugt.
Dadurch wird vorteilhafterweise erreicht, dass mehrere Personen, insbesondere alle Insassen eines Fahrzeugs, die Sprachbedienung nutzen können. Insbesondere erlaubt diese Steuerung den Betrieb eines Sprachdialogsystems. Durch die Separation von Sprechern nach einzelnen Zonen wird dabei eine besonders gute Spracherkennung gewährleistet, auch wenn gleichzeitig im Hintergrund andere Gespräche geführt werden oder andere Störgeräusche im Fahrzeug oder außerhalb vorhanden sind. Ferner wird die Bedienung durch die automatische Lokalisierung vereinfacht und das System wirkt intelligenter. Dabei beruht die Erfindung insbesondere auf der besonderen Kombination der einzelnen Module (Voice Activation, Sprecherseparation, Zonenlokalisierung, zonenspezifische Systemausgabe und Funktionsausführung) .
Die Zonen des Innenraums sind dabei definierte räumliche Bereiche. Ihre Anordnung und Größe sowie ihre Anzahl können dabei variabel oder statisch sein, beispielsweise können mehrere Zonen verschiedenen Sitzplätzen des Fahrzeugs zugeordnet sein. Die Zonen können insbesondere auf an sich bekannte Weise bestimmt sein, beispielsweise indem die Erfassungseinheit so eingerichtet ist, dass die akustischen Rohdaten in bestimmten definierten Zonen erfasst werden. Der Innenraum kann dabei weitere Zonen umfassen, beispielsweise können insgesamt vier Zonen umfasst sein. Zahl und Anordnung der Zonen können fahrzeug- oder ausstattungsspezifisch unterschiedlich sein, zum Beispiel in einem Fahrzeug mit zwei Zonen für den Fahrer und Beifahrer oder vier Zonen für den Fahrer, Beifahrer sowie Passagiere hinten rechts und hinten links. Ferner können etwa bei einem Kleinbus zwei Zonen pro Sitzreihe vorgesehen sein.
Die erfassten akustischen Rohdaten umfassen detektierte Schallwellen, die beispielsweise mittels eines Mikrofons oder mehrerer Mikrofone erfasst werden. Fernern können die akustischen Rohdaten Informationen über die Phase der detektierten Schwingungen und/oder Signalverzögerungen bei einer Detektion mittels mehrerer Mikrofone umfassen.
Die akustische Signalseparation kann auf an sich bekannte Weise erfolgen. Dabei wird insbesondere eine akustische Quellenseparation durchgeführt, beispielsweise mittels Beamforming, wobei anhand der akustischen Rohdaten bestimmt werden kann, welche Komponenten des erfassten Schalls aus welchen räumlichen Bereichen kommen. Insbesondere können so die Zonen definiert werden, indem akustische Daten aus bestimmten räumlichen Bereichen jeweils einer Zone zugeordnet werden.
Insbesondere kann die Erfassung der akustischen Rohdaten fortlaufend erfolgen, es werden also in einem Standby-Betrieb ständig Rohdaten erfasst und verarbeitet, bis das System nach dem Erkennen eines Schlüsselworts aktiviert wird und der eigentliche Sprachbefehl erkannt wird.
Das Schlüsselwort kann dabei insbesondere aus einem oder mehreren Worten bestehen, ferner können mehrere Schlüsselwörter definiert sein. Insbesondere ist das Schlüsselwort so gewählt, dass es kaum im normalen Sprachgebrauch verwendet wird, um Bedienfehler zu vermeiden. Beispielsweise kann das Schlüsselwort „Volkswagen!“, „Hallo Volkswagen!“ oder „Hallo Auto!“ lauten.
Die Schlüsselworterkennung erfolgt dabei nach an sich bekannten Verfahren, wobei dieser Erkennungsschritt mit relativ geringem Rechenaufwand erfolgen kann, da die vorgesehenen Schlüsselwörter sehr klar definiert sind. Die Zonenrohdaten werden so analysiert, dass das Auftreten eines Schlüsselworts erkannt wird.
Wenn das Schlüsselwort entweder anhand der ersten oder der zweiten Zonenrohdaten erkannt wird, so werden diejenigen Zonenrohdaten, bei denen das Schlüsselwort erkannt wurde, als Eingaberohdaten bestimmt. Im einfachsten Fall wird also bereits anhand der Signalseparation eine ausreichend genaue Trennung der akustischen Signale erreicht, sodass der Sprecher eindeutig in einer bestimmten Zone lokalisiert werden kann.
Wird das Schlüsselwort dagegen nicht nur in einer Zone, sondern in mehreren erkannt, so wird in einem weiteren Schritt der Sprecher genauer lokalisiert. Vor allem bei überlappenden, benachbarten oder in räumlicher Nähe zueinander angeordneten Zonen ist dies häufig zu erwarten. Insbesondere kann das Schlüsselwort dabei in zumindest zwei, nicht notwendigerweise aber in allen Zonen zugleich erkannt werden.
Bei dem Verfahren werden Eingaberohdaten bestimmt, anhand derer dann die eigentliche Spracherkennung und -steuerung durchgeführt werden kann. Die Eingaberohdaten sind genau einer der Zonen des Innenraums zugeordnet und die Bestimmung erfolgt, indem diejenigen Zonenrohdaten bestimmt werden, in deren Zone mit der höchsten Wahrscheinlichkeit das Schlüsselwort gesprochen wurde. Diese Wahrscheinlichkeit wird mittels eines Verfahrens zur Sprecherlokalisierung durchgeführt, wobei verschiedene an sich bekannte Verfahren angewandt und verschiedene Daten genutzt werden können. Beispielsweise kann eine Plausibilitätsprüfung mittels eines Sensors für eine Sitzplatzbelegung oder eines anderen Positionssensor detektiert werden, ob sich eine Person in der Zone befindet, in der das Schlüsselwort erkannt wurde. Ist dies nicht der Fall, so kann die Zone als Position der Person ausgeschlossen werden.
Die Sprecherlokalisierung dient also insbesondere der Verbesserung der Bestimmung der Zone, in der sich der Sprecher befindet, wenn eine solche Bestimmung mittels der akustischen Signalseparation nicht eindeutig oder nicht mit ausreichender Sicherheit erfolgen kann. Dabei wird insbesondere bei der Erkennung des Schlüsselworts bestimmt, wie sicher die Erkennung in den einzelnen Zonen erfolgt.
Zur Erkennung der Spracheingabe anhand der Eingaberohdaten können an sich bekannte Verfahren der Spracherkennung verwendet werden. Insbesondere können dabei Grammatiken verwendet werden, ferner können statistische Sprachmodelle und semantische Erkenner angewandt werden.
Ferner kann ein Signalpuffer vorgesehen sein, bei dem die erfassten akustischen Rohdaten und/oder die erzeugten Zonenrohdaten eines bestimmten Zeitintervalls gespeichert werden. Insbesondere kann der Signalpuffer nach Art eines Ringspeichers ausgebildet sein, wobei Rohdaten eines bestimmten Zeitintervalls gespeichert werden, wobei fortlaufend neue Daten gespeichert werden, während die alten Daten wieder gelöscht werden. Dadurch kann etwa erreicht werden, dass bei der Spracherkennung ein sprachlicher Kontext berücksichtigt werden kann. Wird etwa die Spracherkennung erst nach dem Erkennen des Schlüsselworts aktiviert, so können anhand der durch den Ringspeicher gespeicherten Daten auch Äußerungen vor dem Aussprechen des Schlüsselworts berücksichtigt werden.
Bei einer Ausbildung des erfindungsgemäßen Verfahrens wird das erzeugte Steuersignal an eine Einrichtung übertragen, wobei eine Ausgabe für die Zone, die den bestimmten Eingaberohdaten zugeordnet ist, erzeugt und ausgegeben wird. Dies erlaubt vorteilhafterweise eine zonenspezifische Ausgabe.
Insbesondere kann dabei ein Sprachdialogsystem betrieben werden, bei dem eine Spracheingabe eines Nutzers anhand des Schlüsselworts erkannt wird und anschließend eine Rückmeldung oder Rückfrage so ausgegeben wird, dass sie für den Nutzer beziehungsweise in der Zone des Nutzers wahrnehmbar ist.
Bei einer weiteren Ausbildung wird bei der Schlüsselworterkennung eine Konfidenz bestimmt und die Sprecherlokalisierung erfolgt in Abhängigkeit von der Konfidenz. Dadurch kann die Sprecherlokalisierung vorteilhafterweise besonders einfach und zuverlässig erfolgen.
Insbesondere wird auf diese Weise diejenige Zone bestimmt, in der das Schlüsselwort am besten erkannt wurde. Es wird anschließend angenommen, dass der Nutzer sich in dieser Zone befindet. Die Sprecherlokalisierung kann ferner anhand anderer Daten erfolgen, etwa anhand einer Signalenergie und/oder weiterer Parameter, die insbesondere von den Eingaberohdaten umfasst sein können oder anhand dieser bestimmt werden können.
Bei einer Weiterbildung umfassen die akustischen Rohdaten Laufzeitdaten und die Signalseparation wird ferner anhand der Laufzeitdaten durchgeführt. Dadurch wird vorteilhafterweise die Bestimmung der Zonen und die Separation der den Zonen zugeordneten Zonenrohdaten auf robuste Art ermöglicht.
Dabei ist insbesondere vorgesehen, dass die akustischen Rohdaten mittels einer Anordnung mehrerer Mikrofone erfasst werden. Durch die räumliche Anordnung kann bestimmt werden, mit welcher Verzögerung ein bestimmtes akustisches Signal durch welches Mikrofon detektiert wird und es kann, beispielsweise mittels Triangulation, die Position der Schallquelle bestimmt werden. Auf diese Weise kann nach an sich bekannten Verfahren eine Trennung des von verschiedenen Schallquellen oder zumindest in verschiedenen Bereichen emittierten Schalls vorgenommen werden und es können mehrere Kanäle erzeugt werden, die jeweils aus einem bestimmten räumlichen Bereich herrührenden Schall umfassen.
Die Signalseparation (auch als „Sprecherseparation“ bezeichnet) anhand der Laufzeiten erfolgt insbesondere anhand an sich bekannter Verfahren der akustischen Quellentrennung. Insbesondere können die Zonen als Parameter der Signalseparation definiert werden, etwa im Sinne eines Beamforming-Verfahrens. Ferner können blinde oder halbblinde Verfahren verwendet werden, bei denen der räumliche Bezug zu den Zonen weniger stark ausgeprägt ist. Ferner können die akustischen Rohdaten von Mikrofone erfasst werden, die einzeln auf die Zonen ausgerichtet verbaut sind werden, oder es kann ein zentrales Mikrofon-Array vorgesehen sein.
Bei einer weiteren Ausgestaltung des Verfahrens werden ferner weitere Akustikdaten erfasst, die von einer Ausgabevorrichtung ausgegebenen Schall betreffen, und anhand der weiteren Akustikdaten wird eine Echo-Kompensation für die Eingaberohdaten und/oder die Zonenrohdaten durchgeführt. Dies erlaubt vorteilhafterweise die Erfassung störungsfreier oder störungsärmerer Rohdaten, anhand derer eine besonders zuverlässige Spracherkennung durchgeführt werden kann.
Insbesondere werden dabei andere Klangquellen berücksichtigt, etwa ein Radio oder ein weiteres Medienwiedergabegerät, ein Navigationsgerät oder eine andere Einrichtung, die eine akustisch wahrnehmbare Ausgabe erzeugen, wobei insbesondere die Ausgabe direkt erfasst werden kann, etwa indem das von einem Radio ausgegebene Signal direkt erfasst wird, während es gleichzeitig mittels Lautsprecher ausgegeben wird. Ferner können bestimmte Klangquellen berücksichtigt werden, etwa Lüftungsgeräusche. Auf diese Weise sind einzelne Komponenten der akustischen Rohdaten bereits bekannt und können mittels Filteralgorithmen unterdrückt werden, sodass eine Störung, etwa durch von dem Radio ausgegebene Sprache, vermieden wird.
Bei einer Ausbildung umfasst die Einrichtung eine Dialogausgabeeinheit und mittels der Dialogausgabeeinheit wird eine Ausgabe für die Zone, die den bestimmten Eingaberohdaten zugeordnet ist, ausgegeben. Insbesondere kann die Ausgabe akustisch und/oder visuell wahrnehmbar sein. Dadurch wird vorteilhafterweise eine auf den einzelnen Nutzer beziehungsweise auf die Zone des Nutzers gerichtete Ausgabe erzeugt und es kann ein gezielter Dialog mit einem bestimmten Nutzer durchgeführt werden.
Insbesondere ist die Dialogausgabeeinheit mit einem Sprachdialogsystem gekoppelt, durch das ein Dialog mit dem Nutzer gesteuert und durchgeführt werden kann. Bei dem Dialog mit dem Nutzer können Äußerungen des Nutzers erfasst und verarbeitet werden sowie Ausgaben für den Nutzer erzeugt und ausgegeben werden.
Die Dialogausgabeeinheit dient dabei zum Ausgeben einer Ausgabe in für den Nutzer erfassbarer Weise. Beispielsweise kann sie dazu eine Anzeige und/oder einen Lautsprecher umfassen, der einer bestimmten Zone zugeordnet ist. Beispielsweise kann ein Display so im Innenraum angeordnet sein, dass es für einen Nutzer in einer bestimmten Zone gut einsehbar ist, insbesondere kann es gleichzeitig für Nutzer außerhalb der Zone schlechter erfassbar sein. In ähnlicher Weise kann ein Lautsprecher so angeordnet sein, dass eine akustisch wahrnehmbare Ausgabe für den Nutzer in der Zone wahrnehmbar ist, insbesondere aber weniger gut für weitere Nutzer außerhalb der Zone. Dabei können auch Kopfhörer von der Dialogausgabeeinheit umfasst sein, die typischerweise einem einzelnen Nutzer zugeordnet sind. Ferner können in analoger Weise Nutzergeräte von Nutzern, beispielsweise Tablet-Computer oder Mobiltelefone, in das Fahrzeugnetzwerk eingebunden sein und für einen Datenaustausch verwendet werden.
Ferner kann die Einrichtung eine Klimatisierungseinrichtung oder ein Multimediasystem umfasst, wobei die Einrichtung Elemente umfasst, die jeweils einer Zone zugeordnet sind. Dies erlaubt eine Bedienung von Elementen, die für den in einer bestimmten Zone befindlichen Nutzer besonders relevant sind. Beispiele dafür sind beispielsweise eine Sitzheizung, die für einen einzelnen Sitz eingestellt werden kann, oder eine Medienwiedergabeeinheit, die einem bestimmten Nutzer zugeordnet ist.
Bei einer weiteren Ausbildung werden bei der Schlüsselworterkennung ferner verschiedene Äußerungen des Schlüsselworts in verschiedenen Zonen bestimmt. Dadurch kann vorteilhafterweise eine parallele Sprachsteuerung für mehrere Nutzer in dem Innenraum implementiert werden.
Beispielsweise kann, wenn in mehreren Zonen ein Schlüsselwort erkannt wurde, analysiert werden, ob das erkannte Schlüsselwort jeweils von dem gleichen Sprecher und/oder zum gleichen Zeitpunkt gesprochen wurde. Ferner können Rohdaten in einer zeitlichen Umgebung des erkannten Schlüsselworts analysiert werden, etwa um eine darauf folgende oder direkt vorausgehende Spracheingabe zu erkennen und den Sprecher zu identifizieren. Dies kann auf an sich bekannte Weise erfolgen, etwa mittels biometrischer Verfahren.
Insbesondere können auf diese Weise Sprachdialoge für mehrere Nutzer in dem Innenraum parallel durchgeführt werden, wobei Äußerungen der Nutzer in verschiedenen Zonen erfasst werden und entsprechende Ausgaben der Dialogausgabeeinheit für diese Zonen ausgegeben werden.
Bei einer Weiterbildung wird das Steuersignal ferner anhand einer Berechtigungsdatei bestimmt, wobei der zumindest ersten und zweiten Zone Berechtigungen für die Steuerung der Einrichtung zugeordnet werden. Dadurch kann vorteilhafterweise bestimmt werden, welche Einrichtungen und insbesondere welche Funktionalitäten dieser Einrichtungen ein bestimmter Nutzer bedienen kann, wobei dies insbesondere anhand der Zone des Nutzers bestimmt werden kann.
Beispielsweise kann etwa vorgesehen sein, dass nur der Fahrer eines Fahrzeugs, der sich typischerweise in einer recht genau definierten Zone befindet, zentrale Aspekte des Fahrzeugbetriebs bedienen kann, etwa eine Zieleingabe für eine Navigationsgerät oder eine globale Einstellung einer Lautstärke für eine Medienwiedergabe im Fahrzeug. Ferner können zonenbezogene Einstellungen beispielsweise für eine auf diesen räumlichen Bereich gerichtete Klimatisierungseinrichtung von der jeweiligen Zone aus vorgenommen werden, sodass etwa ein Nutzer eine Klimatisierung in seiner eigenen Umgebung einstellen kann.
Bei einer Ausgestaltung ist der Innenraum ein Fahrzeuginnenraum, wobei die zumindest erste und zweite Zone jeweils in einem Bereich eines Sitzplatzes angeordnet sind. Das Verfahren wird dadurch vorteilhafterweise zur Steuerung eines Sprachsteuerungssystems in einer besonders relevanten Umgebung verwendet.
Insbesondere wird der Fahrer nicht abgelenkt, wenn andere Passagiere eine Bedienung vornehmen und eine Rückmeldung so ausgegeben wird, dass eine lokale Anzeigen und/oder akustische Ausgabe spezifisch für den bedienenden Nutzer ausgegeben wird. Stattdessen sieht das erfindungsgemäße Verfahren vor, dass jeder einzelne Passagier anhand seiner Position in einer Zone des Fahrzeugs Spracheingaben vornehmen kann, wobei Rückmeldungen des Systems ferner spezifisch für die jeweilige Zone ausgegeben werden.
Bei dem erfindungsgemäßen Sprachsteuerungssystem in einem Innenraum weist der Innenraum zumindest eine erste Zone und eine zweite Zone auf. Das System umfasst dabei eine Erfassungseinheit, durch die akustische Rohdaten in dem Innenraum erfassbar sind und eine Separationseinheit, durch die anhand der Rohdaten eine akustische Signalseparation durchführbar ist. Dabei sind erste Zonenrohdaten erzeugbar, die der ersten Zone zugeordnet sind, sowie zweite Zonenrohdaten, die der zweiten Zone zugeordnet sind. Das System umfasst ferner eine Erkennungseinheit, durch die für die ersten und zweiten Zonenrohdaten jeweils eine Schlüsselworterkennung durchführbar ist, wobei bestimmbar ist, ob die ersten oder zweiten Zonenrohdaten ein bestimmtes Schlüsselwort umfassen. Es ist zudem eine Lokalisierungseinheit umfasst, durch die, wenn die ersten und die zweiten Zonenrohdaten das Schlüsselwort umfassen, durch eine Sprecherlokalisierung die Zonenrohdaten genau einer Zone als Eingaberohdaten bestimmbar sind. Ferner ist eine Spracherkennungseinheit umfasst, durch die anhand der bestimmten Eingaberohdaten eine Spracheingabe erkennbar ist, und eine Steuereinheit, durch die anhand der Spracheingabe ein Steuersignal erzeugbar ist.
Das vorstehend beschriebene erfindungsgemäße Verfahren ist insbesondere ausgebildet, das erfindungsgemäße Sprachsteuerungssystem zu betreiben. Das Sprachsteuerungssystem weist somit dieselben Vorteile auf wie das erfindungsgemäße Verfahren.
Im Folgenden werden weitere Aspekte des erfindungsgemäßen Verfahrens zum Betreiben eines Sprachsteuerungssystems und des Sprachsteuerungssystems erläutert:

Das erfindungsgemäße Sprachsteuerungssystem, insbesondere ein Sprachbediensystem, ist darauf ausgerichtet, von verschiedenen Sitzplätzen oder Zonen, insbesondere im Innenraum eines Fahrzeugs, bedient werden zu können. Ferner können zonen-spezifische Reaktionen implementiert werden, etwa Anzeigen und/oder akustisch wahrnehmbare Ausgaben eines Dialogsystems.

Ein zentrales Merkmal kann dabei sein, dass in dem Fahrzeuginnenraum mehrere verteilte Mikrofone oder Mikrofon-Arrays verbaut sind, um Sprachsignale aus allen Zonen zu erfassen.
Die Aktivierung des Sprachdialogs kann ferner per Sprachbefehl erfolgen, etwa im Sinne einer „Voice“- oder „Keyword-Activation“. Zum Beispiel kann als Schlüsselwort „Hallo Volkswagen“ gesprochen werden, sodass die bisher übliche Aktivierung der Sprachsteuerung per Knopfdruck (Push-To-Talk, PTT) nicht notwendig ist.
Das System verfügt ferner über eine Separationseinheit als Modul zur Sprecherseparation, das heißt es können durch Verfahren der Audiosignalverarbeitung und Echokompensation die Audiosignale aus den Sprecherzonen voneinander akustisch separiert werden, sodass sich pro Zone ein entstörtes Sprach/Audiosignal ergibt.
Das System verfügt zudem über eine Lokalisierungseinheit als ein Modul zur Sprecherlokalisierung. Dabei werden als Eingabesignale die verschiedenen Zonenrohdaten (einzelne Zonen-Audiosignale) erhalten und an ihnen wird mittels der Erkennungseinheit die Schlüsselworterkennung, das heißt die Spracherkennung für die Keyword-Activation, durchgeführt. Wenn ein Insasse das Schlüsselwort als Aktivierungskommando ausspricht, kann die Spracherkennung das Kommando in einer oder mehreren Zonen erkennen.
Das Modul zur Sprecherlokalisierung kann im zweiten Fall anhand von Timing-Informationen zur Laufzeit und/oder anhand von Energiewerten der Zonen-Signale bestimmen, aus welcher Zone das Sprachsignal mit dem Aktivierungskommando wahrscheinlich stammt. Es wird ein Steuersignal erzeugt und übertragen, etwa als Signal zum Starten eines Dialogs in der erkannten Zone durch das Sprachdialogsystem.
Das Sprachdialogsystem kann anschließend einen Dialog mit dem Sprecher in der erkannten Zone beginnen. Um andere Insassen möglichst wenig zu stören beziehungsweise abzulenken und um akustisch zu vermitteln, in welcher Zone gerade der Dialog aktiv ist, kann über die Lautsprecher mit Hilfe eines Audiomixers die Sprachausgabe nicht gleichmäßig in allen Zonen ausgegeben, sondern akustisch wahrnehmbar auf den oder die Lautsprecher der aktiven Zone gelenkt werden.
Ferner können mehrere Displays vorhanden sein. In diesem Fall erfolgt die grafische Anzeige für die Sprachbedienung ebenfalls lokal, etwa auf einem der jeweiligen Zone zugeordneten Display, wodurch insbesondere die Ablenkung des Fahrers minimiert wird, wenn er nicht selbst der Sprecher ist.
Gegebenenfalls kann das System die mit dem Dialog ausgelöste Funktion mit dem Wissen über die erkannte Sprecherzone ebenfalls sitzplatzbezogen ausführen. Zum Beispiel kann die Bedienung verschiedener Einrichtungen vorgesehen sein, etwa einer Klimabedienung nur in der Zone des Sprechers („mach mal wärmer“, „Sitzheizung einschalten“, Temperaturregelung, Sitzheizungseinstellung).
Möglich ist auch, ein Rechtekonzept zu implementieren, sodass bestimmte Funktionen nur aus bestimmten Zonen erlaubt sind. Zum Beispiel kann vorgesehen sein, dass eine Zieleingabe oder eine Bedienung der Lenkradheizung nur vom Fahrer vorgenommen werden kann.
Die Erfindung wird nun anhand von Ausführungsbeispielen mit Bezug zu den Zeichnungen erläutert.

1A und 1B zeigen ein Fahrzeug mit einem Ausführungsbeispiel der erfindungsgemäßen Anzeigeeinrichtung und
2 zeigt ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens.

Mit Bezug zu den 1A und 1B wird ein Fahrzeug mit einem Ausführungsbeispiel des erfindungsgemäßen Sprachsteuerungssystems erläutert.
Ein Fahrzeug 1 umfasst eine Erfassungseinheit 2. Dies ist in dem Ausführungsbeispiel ein Mikrofonarray 2, welches vier Mikrofone 2a, 2b, 2c, 2d umfasst, die im Innenraum 16 des Fahrzeugs 1 an verschiedenen Positionen angeordnet sind. Dabei zeigt 1A eine beispielhafte Anordnung, die Mikrofone 2a, 2b, 2c, 2d des Mikrofonarrays 2 können jedoch auch in ein einzelnes Bauteil integriert und beispielsweise zentral im Innenraum 16 des Fahrzeugs 1 angeordnet sein.
Die Mikrofone 2a, 2b, 2c, 2d sind dabei so angeordnet, dass sie zum Erfassen von akustischen Rohdaten geeignet sind, sodass mittels an sich bekannter Verfahren, insbesondere mittels einer Analyse von Laufzeitunterschieden, eine Position einer Schallquelle bestimmt werden kann. Insbesondere erfolgt dies anhand einer Kalibration des Systems, wobei vorteilhafterweise eine feste Anordnung der Mikrofone 2a, 2b, 2c, 2d vorgesehen ist.
Das Fahrzeug 1 umfasst ferner eine Ausgabeeinheit 3, welche in dem Beispiel vier Lautsprecher 3a, 3b, 3c, 3d umfasst, die im Innenraum 16 des Fahrzeugs 1 an verschiedenen Positionen angeordnet sind. In dem Ausführungsbeispiel sind die Lautsprecher 3a, 3b, 3c, 3d so angeordnet, dass mittels eines Audiomixers durch die Ausgabeeinheit 3 akustisch wahrnehmbare Ausgaben so ausgegeben werden können, dass sie in definierten Zonen des Innenraums 16 des Fahrzeugs 1 wahrnehmbar sind, in anderen Zonen dagegen wenig oder gar nicht.
Das Fahrzeug 1 umfasst zudem als Anzeigevorrichtungen 4a, 4b ein freiprogrammierbares Kombiinstrument 4a (FPK) sowie ein Headunit-Display 4b, welches an der Mittelkonsole im vorderen Bereich des Innenraums 16 des Fahrzeugs 1 angeordnet ist. Bei weiteren Ausführungsbeispielen sind alternativ oder zusätzlich andere Anzeigevorrichtungen vorgesehen, insbesondere eine Sichtfeldanzeige (Head-Up-Display) oder Displays für weitere Fahrzeugpassagiere.
Das Fahrzeug 1 umfasst ferner eine Schnittstelle 5, durch die eine datentechnische Verbindung mit weiteren Einrichtungen herstellbar ist. Dies können insbesondere Einrichtungen des Fahrzeugs 1 und/oder fahrzeugexterne Einrichtungen sein. Insbesondere kann dabei eine Verbindung zu einem Fahrzeugnetzwerk hergestellt werden, etwa mittels eines Fahrzeug-Bus, oder es kann eine Verbindung zu einem Netzwerkdienst, etwa einem Cloud-Service, hergestellt werden. Zudem können etwa fahrzeugexterne Nutzergeräte integriert werden, zum Beispiel ein Table-Computer oder Mobiltelefone, mit denen Daten ausgetauscht werden können.
Das Mikrofonarray 2 mit den Mikrofonen 2a, 2b, 2c, 2d, die Ausgabeeinheit 3 mit den Lautsprechern 3a, 3b, 3c, 3d, die Anzeigevorrichtungen 4a, 4b und die Schnittstelle 5 sind mit einem Fahrzeugrechner 10 gekoppelt. Der Fahrzeugrechner 10 umfasst eine Separationseinheit 11, eine Erkennungseinheit 12, eine Lokalisierungseinheit 13, eine Spracherkennungseinheit 14 und eine Steuereinheit 15. In dem vorliegenden Ausführungsbeispiel ist der Fahrzeugrechner 10 als Prototyp ausgeführt, in weiteren Ausführungsbeispielen kann eine andere Art von Rechner verwendet werden und/oder die von der Recheneinheit 10 umfassten Einheiten 11, 12, 13, 14, 15 können in beliebigen Kombinationen in separaten Rechnern lokalisiert sein.
Mit Bezug zu 2 wird ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens erläutert, welches von dem erfindungsgemäßen System ausgeführt werden kann. Dabei wird von dem mit Bezug zu den 1A und 1B erläuterten Ausführungsbeispiel des erfindungsgemäßen Systems ausgegangen.
Bei dem Ausführungsbeispiel befinden sich in dem Fahrzeug 1 ein Fahrer auf dem Fahrersitz und ein Beifahrer auf dem Beifahrersitz. Vor dem Fahrer ist in allgemein verbreiteter Weise im unteren Bereich seines Sichtfeldes nach vorne das Kombiinstrument 4a angeordnet. Ferner ist das Headunit-Display 4b an der Mittelkonsole des Fahrzeugs 1 für den Beifahrer leicht einsehbar angeordnet. Zudem ist ein Lautsprecher 3a auf der Fahrerseite und ein weiterer Lautsprecher 3b auf der Beifahrerseite angeordnet.
Das Mikrofonarray 2 mit den Mikrofonen 2a, 2b, 2c, 2d erfasst in einem ersten Verfahrensschritt S1 fortlaufend akustische Rohdaten. Dabei ist in dem Beispiel vorgesehen, dass eine Echokompensation anhand von Daten über Klangquellen im Fahrzeug 1 durchgeführt wird. Beispielsweise wird die akustische Ausgabe eines Radios erfasst und die erfassten akustischen Rohdaten werden so gefiltert, dass der von dem Radio emittierte Schall nicht weiter berücksichtigt wird. Ferner kann etwa eine Sprachausgabe eines Navigationssystems oder Schall von weiteren Quellen, deren Schallemission bekannt ist, eliminiert werden. Auf diese Weise wird Schall im Hintergrund nicht weiter berücksichtigt, der eine gesprochene Spracheingabe überlagert.
Anhand der akustischen Rohdaten wird in einem Verfahrensschritt S2 eine akustische Sprecherseparation durchgeführt. Bei dem Ausführungsbeispiel sind in dem Innenraum 16 des Fahrzeugs 1 vier Zonen in der räumlichen Umgebung einzelner Sitze im Fahrzeug 1 definiert. Im Einzelnen sind dies der Fahrersitz, der Beifahrersitz und der rechte und linke Bereich des hinteren Passagierraums. In weiteren Ausführungsbeispielen ist eine andere Zahl und/oder Anordnung der Zonen vorgesehen, beispielsweise abhängig von der Anzahl und Anordnung der Sitze des Fahrzeugs 1.
Die Zonen sind dadurch definiert, dass die Separationseinheit 11 so eingerichtet ist, dass sie anhand der von dem Mikrofonarray 2 erfassten akustischen Rohdaten für jede der genannten Zonen Zonenrohdaten erzeugt, die im Wesentlichen dem Schall entsprechen, der in der jeweiligen Zone emittiert wird. Auf diese Weise können die Zonen statisch vorgegeben oder dynamisch gebildet sein, etwa um einer Bewegung eines Sprechers zu folgen.
In einem weiteren Verfahrensschritt S3 wird eine 4-fache Keyword-Spracherkennung durchgeführt, wobei die Erkennungseinheit 12 dazu eingerichtet ist, in den Zonenrohdaten für die vier Zonen des Ausführungsbeispiels ein Schlüsselwort zu erkennen. Insbesondere ist dabei ein separater Erkenner, beziehungsweise ein separater Prozess der Erkennungseinheit 12, für die Zonenrohdaten jeder Zone vorgesehen. Das Schlüsselwort ist in dem Beispiel durch eine Liste von Wörtern und Ausdrücken gegeben, wobei ein Ausdruck auch mehrere Einzelwörter umfassen kann, die als zusammengehöriges „Schlüsselwort“ behandelt werden. Die Liste kann dabei mehrere Wörter oder lediglich ein bestimmtes Wort umfassen.
In einem weiteren Ausführungsbeispiel kann als „Schlüsselwort“ in einem weiteren Sinne ein Signal zum Start einer Sprachsteuerung verstanden werden. Dazu kann beispielsweise gesprochene Sprache erkannt und semantisch analysiert werden, wobei detektiert wird, dass eine Bedienung ausgeführt werden soll. Dies wird im Sinne eines Schlüsselworts zum Aktivieren der Sprachsteuerung behandelt.
Es wird nun analysiert, in welcher Zone das Schlüsselwort erkannt wurde. Wird das Schlüsselwort in den Zonenrohdaten genau einer bestimmten Zone erkannt, so werden diese Zonenrohdaten als Eingaberohdaten bestimmt, das heißt, anhand der in dieser Zone erfassten Daten soll im Folgenden die Spracherkennung durchgeführt werden.
Wird das Schlüsselwort jedoch nicht eindeutig in den einer bestimmten Zone zugeordneten Zonenrohdaten erkannt, so ist nicht klar, welche Zonenrohdaten als Eingaberohdaten bestimmt werden sollen. Daher wird in einem weiteren Verfahrensschritt S4 eine Sprecherlokalisierung durchgeführt, um die Wahrscheinlichkeit zu bestimmen, dass sich der Sprecher des Schlüsselworts in einer der Zonen befindet, in denen das Schlüsselwort erkannt wurde.
Dabei ist bei dem Ausführungsbeispiel vorgesehen, dass die Konfidenz, mit der das Schlüsselwort durch die Erkennungseinheit 12 in der jeweiligen Zone erkannt wurde, erfasst wird und als Maß für die Wahrscheinlichkeit der jeweiligen Zone betrachtet wird. Die Zonenrohdaten, die der Zone zugeordnet sind, in der das Schlüsselwort mit der höchsten Konfidenz erkannt wurde, werden als Eingaberohdaten bestimmt. In weiteren Ausführungsbeispielen können weitere Daten bei der Bestimmung der Wahrscheinlichkeit berücksichtigt werden, insbesondere die Signalenergie, die Amplitude des in den Zonen erfassten Signals oder Daten von weiteren Sensoren des Fahrzeugs 1, wie beispielsweise Sensoren zur Sitzplatzbelegung.
In einem weiteren Verfahrensschritt S5 ist einer Verarbeitung der Eingaberohdaten mittels eines Sprachdialogsystems vorgesehen. Diese umfasst in dem Ausführungsbeispiel die Dialogausgabeeinheit 3, durch die Ausgaben des Dialogsystems ausgegeben werden. Das Dialogsystem verarbeitet die Eingaberohdaten und erkennt beispielweise eine Anfrage, eine Nutzereingabe oder eine Bedienanweisung. Beispielsweise wird erkannt, dass eine Klimatisierungseinrichtung eingestellt werden soll. Sofern eine Rückfrage an den Nutzer notwendig ist, beispielsweise um eine Benutzereingabe zu konkretisieren, wird eine Ausgabe für die Rückfrage erzeugt. In einem anderen Fall soll eine andere Rückmeldung ausgegeben werden, etwa eine Bestätigung, dass die Benutzereingabe erfasst wurde und/oder dass ein bestimmter Steuerungsablauf veranlasst wird.
Dazu erfolgt eine Ausgabe in den folgenden Verfahrensschritten S6, S7, S8, wobei die Ausgabe mittels der verschiedenen Ausgabeeinrichtungen 3, 3a, 3b, 3c, 3d, 4a, 4b des Fahrzeugs 1 zonenspezifisch erfolgt. Das heißt, die Ausgabe im Zusammenhang mit der erfassten Spracheingabe erfolgt so, dass sie für einen Nutzer in der bestimmten Zone erfassbar ist.
Beispielsweise kann in einem Schritt S6 eine Ausgabe mittels der Lautsprecher 3a, 3b, 3c, 3d erfolgen, wobei durch einen Audiomixer eine lokale Sprachausgabe erzielt wird, die in einem definierten Bereich des Fahrzeuginnenraums 16, insbesondere in der bestimmten Zone, akustisch wahrnehmbar ist. Die Ausgabe ist vorteilhafterweise in andere Bereichen deutlich schlechter oder gar nicht wahrnehmbar. Beispielsweise kann dies nach Art eines Surround-Panoramas gestaltet werden, wobei die akustische Ausgabe auf einen Punkt oder Bereich des Innenraums 16 gerichtet wird. Ferner kann eine Ausgabe etwa mittels der Zone zugeordneter Lautsprecher 3a, 3b, 3c, 3d erfolgen, wie sie in 1A beispielhaft dargestellt sind.
Zudem kann in einem Schritt S7 eine visuelle Ausgabe mittels des Displays des Kombiinstruments 4a erfolgen. Da sich dieses typischerweise im Blickfeld des Fahrers des Fahrzeugs 1 befindet, eignet es sich am besten zur Ausgabe für den Fahrer in der dem Fahrersitz zugeordneten Zone. Ferner kann in einem Schritt S8 eine visuelle Ausgabe mittels des Headunit-Displays 4b erfolgen, das besonders gut für den Beifahrer einsehbar ist. Daher kann hier vorteilhafterweise eine für den Beifahrer relevante Ausgabe so angezeigt werden, dass sie von der dem Beifahrersitz zugeordneten Zone aus besonders gut erfassbar ist.
Das erfindungsgemäße Verfahren wird nun anhand eines Beispieldialogs erläutert. Dabei wird von dem oben beschriebenen Sprachsteuerungssystem und Verfahren ausgegangen.
Der Beifahrer spricht mit „Hallo Volkswagen!“ das Sprachsteuerungssystem des Fahrzeugs 1 an und gibt zu verstehen, dass er eine Spracheingabe eingeben will. Die Äußerung des Beifahrers wird durch das Mikrofonarray 2 als akustische Rohdaten erfasst und mittels der Separationseinheit 3 werden für vier im Fahrzeuginnenraum 16 definierte Zonen jeweils Zonenrohdaten erzeugt. Anhand der Zonenrohdaten wird das Schlüsselwort (in diesem Fall etwa der Ausdruck „Hallo Volkswagen“ oder das Wort „Volkswagen“) erkannt und es wird bestimmt, in welcher Zone das Schlüsselwort gesprochen wurde.
Wird das Schlüsselwort in mehreren verschiedenen Zonen erkannt, so wird analysiert, mit welcher Konfidenz es jeweils in den Zonenrohdaten erkannt wurde. Die Zone, in deren Zonenrohdaten es mit der höchsten Konfidenz erkannt wurde, wird im Folgenden als die Zone bestimmt, in der sich der Nutzer wahrscheinlich befindet und die entsprechenden Zonenrohdaten werden als Eingaberohdaten für die weitere Spracherkennung verwendet. In einem anderen Fall, wird das Schlüsselwort nur in einer Zone erkannt und die entsprechenden Zonenrohdaten werden als Eingaberohdaten verwendet.
Das System erzeugt als Ausgabe „Ja bitte?“, um dem Nutzer mitzuteilen, dass nachfolgend eine Benutzereingabe erwartet wird. Die Ausgabe erfolgt dabei für den Nutzer in der bestimmten Zone, im vorliegenden Fall also so, dass der Beifahrer sie gut wahrnehmen kann. Insbesondere ist vorgesehene, dass andere Passagiere des Fahrzeugs 1 sie weniger gut oder gar nicht wahrnehmen können. Dazu erfolgt in dem Beispiel eine grafische Anzeige der Sprachbedienung auf dem Headunit-Display 4b. In einem weiteren Ausführungsbeispiel ist ein besonderes Beifahrerdisplay vorgesehen, auf dem die Anzeige für den Beifahrer erfolgen kann. Das Kombiinstrument 4a zeigt dem Fahrer einen unveränderten Inhalt an, zum Beispiel eine Zielführung eines Navigationsgeräts.
Ferner erfolgt die Ausgabe akustisch wahrnehmbar, wobei in dem Beispiel der Lautsprecher 3b auf der Beifahrerseite genutzt wird, um eine besonders gut für den Beifahrer wahrnehmbare akustische Ausgabe zu erzeugen.
Im weiteren Verlauf des nun aktivierten Dialogs mit dem Dialogsystem des Fahrzeugs 1 kann der Beifahrer etwa äußern: „Mir ist kalt.“ Das Dialogsystem des Fahrzeugs 1 erkennt mittels einer semantischen Analyse nach an sich bekannter Art, dass die Temperatur im Bereich des Beifahrers erhöht werden soll, und erzeugt die Ausgabe: „OK, ich erhöhe die Temperatur in der Beifahrerzone und aktiviere Ihre Sitzheizung.“ Diese Ausgabe kann wiederum visuell und/oder akustisch wahrnehmbar ausgegeben werden, wobei sie vorteilhafterweise besonders gut für den Beifahrer erfassbar ist.
In weiteren Ausführungsbeispielen sind alternativ oder zusätzlich weitere Personen im Fahrzeug 1 vorgesehen, etwa im Fond des Fahrzeugs. Auch dort sind verschiedene Zonen vorgesehen.
Ferner kann vorgesehen sein, dass mehrere Nutzer gleichzeitig Spracheingaben vornehmen und/oder einen Dialog mit dem Dialogsystem des Fahrzeugs 1 führen. Dabei wird davon ausgegangen, dass jedem Nutzer genau eine Zone des Innenraums 16 zugeordnet ist. Durch das erfindungsgemäße System wird bestimmt, welche Zone jeweils für eine Bedienung relevant ist. Auf diese Weise können mehrere Benutzer gleichzeitig eine Bedienung mittels des Dialogsystems vornehmen, wobei die akustisch wahrnehmbaren Ausgaben des Systems vorteilhafterweise so ausgegeben werden, dass sie nur in der jeweils relevanten Zone gut wahrnehmbar sind.
Bei weiteren Ausführungsbeispielen wird ferner eine Berechtigungsdatei berücksichtigt, die festlegt, welche Einstellungen und Bedienvorgänge von welchen Zonen aus vorgenommen werden dürfen. Beispielsweise kann dabei festgelegt sein, dass bestimmte entscheidende Einstellungen, etwa für ein Navigationssystem, lediglich durch den Fahrer vorgenommen werden sollen. In einem solchen Fall kann vorgesehen sein, dass entsprechende Spracheingaben nur berücksichtigt werden, wenn sie in der dem Fahrersitz zugeordneten Zone erfasst werden. Ferner kann etwa vorgesehen sein, dass Einstellungen, die einen Passagier direkt und separat von anderen Passagieren betreffen, nur durch diesen Passagier vorgenommen werden dürfen, etwa die Einstellung einer Sitzheizung.
Bezugszeichenliste

1: Fahrzeug
2: Erfassungseinheit; Mikrofonarray
2a: Mikrofon (Fahrerseite vorne)
2b: Mikrofon (Beifahrerseite vorne)
2c: Mikrofon (Fahrerseite hinten)
2d: Mikrofon (Beifahrerseite hinten)
3: Einrichtung; Ausgabevorrichtung; Dialogausgabeeinheit
3a: Lautsprecher (Fahrerseite vorne)
3b: Lautsprecher (Beifahrerseite vorne)
3c: Lautsprecher (Fahrerseite hinten)
3d: Lautsprecher (Beifahrerseite hinten)
4a: Anzeigevorrichtung; Kombiinstrument
4b: Anzeigevorrichtung; Headunit-Display
5: Schnittstelle (Bus/Cloud)
10: Fahrzeugrechner
11: Separationseinheit
12: Erkennungseinheit
13: Lokalisierungseinheit
14: Spracherkennungseinheit
15: Steuereinheit
16: Innenraum
S1: Verfahrensschritt „Akustische Rohdatenerfassung“
S2: Verfahrensschritt „Akustische Sprecherseparation“
S3: Verfahrensschritt „4-fache Keyword-Spracherkennung“
S4: Verfahrensschritt „Sprecherlokalisierung“
S5: Verfahrensschritt „Verarbeitung Sprachdialogsystem“
S6: Verfahrensschritt „Ausgabe Audiomixer für lokale Sprachausgabe“
S7: Verfahrensschritt „Ausgabe Kombiinstrument-Display“
S8: Verfahrensschritt „Ausgabe Headunit-Display“

Claims

Verfahren zum Betreiben eines Sprachsteuerungssystems in einem Innenraum (16), wobei der Innenraum (16) zumindest eine erste Zone und eine zweite Zone aufweist; wobei bei dem Verfahren akustische Rohdaten in dem Innenraum (16) erfasst werden (S1); anhand der Rohdaten eine akustische Signalseparation durchgeführt wird (S2), wobei erste Zonenrohdaten erzeugt werden, die der ersten Zone zugeordnet sind, und zweite Zonenrohdaten erzeugt werden, die der zweiten Zone zugeordnet sind; für die ersten und zweiten Zonenrohdaten jeweils eine Schlüsselworterkennung durchgeführt wird (S3), wobei bestimmt wird, ob die ersten oder zweiten Zonenrohdaten ein bestimmtes Schlüsselwort umfassen; wenn die ersten und die zweiten Zonenrohdaten das Schlüsselwort umfassen, durch eine Sprecherlokalisierung die Zonenrohdaten genau einer Zone als Eingaberohdaten bestimmt werden (S4); und anhand der bestimmten Eingaberohdaten eine Spracheingabe erkannt und anhand der Spracheingabe ein Steuersignal erzeugt wird.
Verfahren gemäß Anspruch 1, dadurch gekennzeichnet, dass, das erzeugte Steuersignal an eine Einrichtung (3) übertragen wird, wobei eine Ausgabe für die Zone, die den bestimmten Eingaberohdaten zugeordnet ist, erzeugt und ausgegeben wird.
Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei der Schlüsselworterkennung eine Konfidenz bestimmt wird und die Sprecherlokalisierung in Abhängigkeit von der Konfidenz erfolgt.
Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die akustischen Rohdaten Laufzeitdaten umfassen und die Signalseparation ferner anhand der Laufzeitdaten durchgeführt wird.
Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass ferner weitere Akustikdaten erfasst werden, die von einer Ausgabevorrichtung (3, 3a, 3b, 3c, 3d) ausgegebenen Schall betreffen, und anhand der weiteren Akustikdaten eine Echo-Kompensation für die Eingaberohdaten und/oder die Zonenrohdaten durchgeführt wird.
Verfahren gemäß einem der Ansprüche 2 bis 5, dadurch gekennzeichnet, dass die Einrichtung (3) eine Dialogausgabeeinheit (3) umfasst und mittels der Dialogausgabeeinheit (3) eine Ausgabe für die Zone, die den bestimmten Eingaberohdaten zugeordnet ist, ausgegeben wird.
Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei der Schlüsselworterkennung ferner verschiedene Äußerungen des Schlüsselworts in verschiedenen Zonen bestimmt werden.
Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Steuersignal ferner anhand einer Berechtigungsdatei bestimmt wird, wobei der zumindest ersten und zweiten Zone Berechtigungen für die Steuerung der Einrichtung (3) zugeordnet werden.
Verfahren gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass der Innenraum (16) ein Fahrzeuginnenraum ist, wobei die zumindest erste und zweite Zone jeweils in einem Bereich eines Sitzplatzes angeordnet sind.
Sprachsteuerungssystem in einem Innenraum (16), wobei der Innenraum (16) zumindest eine erste Zone und eine zweite Zone aufweist; wobei das System umfasst: eine Erfassungseinheit (2), durch die akustische Rohdaten in dem Innenraum (16) erfassbar sind; eine Separationseinheit (11), durch die anhand der Rohdaten eine akustische Signalseparation durchführbar ist, wobei erste Zonenrohdaten erzeugbar sind, die der ersten Zone zugeordnet sind, und zweite Zonenrohdaten erzeugbar sind, die der zweiten Zone zugeordnet sind; eine Erkennungseinheit (12), durch die für die ersten und zweiten Zonenrohdaten jeweils eine Schlüsselworterkennung durchführbar ist, wobei bestimmbar ist, ob die ersten oder zweiten Zonenrohdaten ein bestimmtes Schlüsselwort umfassen; eine Lokalisierungseinheit (13), durch die, wenn die ersten und die zweiten Zonenrohdaten das Schlüsselwort umfassen, durch eine Sprecherlokalisierung die Zonenrohdaten genau einer Zone als Eingaberohdaten bestimmbar sind; eine Spracherkennungseinheit (14), durch die anhand der bestimmten Eingaberohdaten eine Spracheingabe erkennbar ist, und eine Steuereinheit (15), durch die anhand der Spracheingabe ein Steuersignal erzeugbar ist.