-
Die vorliegende Erfindung betrifft ein System zum Erfassen einer Eingabegeste eines Nutzers mit einer Bilddatenerfassungseinheit, durch die Bilddaten in einem Bilderfassungsraum erfassbar sind, und einem Radarsensor, durch den Radardaten in zumindest einem Radardetektionsraum erfassbar sind. Das System umfasst ferner eine Signaturbestimmungseinheit, durch die anhand der erfassten Radardaten eine Gestensignatur bestimmbar ist, und eine Zuordnungseinheit, durch welche der bestimmten Gestensignatur eine Eingabegeste zuordenbar ist.
-
Die Erfindung betrifft ferner ein Verfahren zum Erfassen einer Eingabegeste eines Nutzers, bei dem Bilddaten in einem Bilderfassungsraum erfasst werden und durch einen Radarsensor Radardaten in zumindest einem Radardetektionsraum erfasst werden. Anhand der erfassten Radardaten wird eine Gestensignatur bestimmt und der bestimmten Gestensignatur wird eine Eingabegeste zugeordnet.
-
Die Bedienung elektronischer Einrichtungen mittels Gesten kann erhebliche Verbesserungen der Bedienbarkeit und des Komforts bewirken, insbesondere gegenüber herkömmlichen Bedienungen mit Schaltern, Reglern oder Schaltflächen auf Touchscreens. Insbesondere in einem Fahrzeug ist einerseits eine Vielzahl von elektronischen Einrichtungen vorgesehen, deren Bedienung dem Fahrer oder einem anderen Fahrzeuginsassen ermöglicht werden muss, andererseits soll gerade der Fahrer möglichst wenig durch die Bedienung vom Verkehrsgeschehen abgelenkt werden. Die Vorteile einer Gestensteuerung können daher in diesem Bereich besonders gut genutzt werden.
-
Zur Erfassung einer Geste können die Position und die Bewegung eines Betätigungsobjektes, etwa der Hand eines Nutzers, verfolgt werden. Ferner kann eine Handhaltung als Geste ausgewertet werden. Zur Detektion und Gestenerkennung wurden verschiedene technologische Möglichkeiten entwickelt.
-
Bei dem in der
WO 2012/152475 A1 beschriebenen Verfahren zum Erkennen einer Geste eines Lebewesens wird der Mikro-Doppler-Effekt genutzt, um einen Bewegungsablauf zu erfassen. Durch eine Sender-Empfänger-Anordnung für Radarwellen werden Mikro-Doppler-, Anstands, Winkel oder Amplituden-Informationen erfasst und ausgewertet. Hinreichend unzufällige Bewegungen werden bestimmt und als Gesten ausgewertet.
-
Die
US 2010/0202656 A1 schlägt ein System zur Gestenerkennung auf Basis von Ultraschallwellen mithilfe des Dopplereffekts vor.
-
Bei der in der
US 2012/0280900 A1 beschriebenen Vorrichtung für eine Gestenerkennung werden zwei Sensoren mit überlappenden Erfassungsbereichen, insbesondere ein optischer Sensor und ein Radarsensor verwendet. Durch eine Fusion der erfassten Daten im überlappenden Bereich können Gesten erkannt werden.
-
Die Erkennung von Benutzergesten im Fahrzeug ist auch deshalb ein besonders anspruchsvolles Problem, weil Eingaben in einem großen Erfassungsvolumen stattfinden sollen, etwa im Fahrerbereich, beim Beifahrer oder im Bereich der Rückbank. Andererseits ist es für den Benutzer nicht akzeptabel, große Bewegungen von Arm, Hand und Fingern durchzuführen, um eine eindeutige Erkennung durchzuführen. Vielmehr sind kleine subtile Bewegungen von Vorteil.
-
Diese Kombination von großem Erfassungsbereich und kleinen Bewegungen stellt die bekannte Gestensensortechnologie vor eine große Herausforderung, weil normalerweise entweder große Bereiche grob oder kleine Bereiche fein erfasst werden. Herkömmliche Gestenerkennungslösungen beschränken den Erfassungsbereich typischerweise auf kleine Raumbereiche, etwa ein Erfassungsvolumen direkt vor der Anzeigefläche eines Displays, am Dachhimmel eines Fahrzeugs oder mittels separater Erfassungsbereiche für mehrere Nutzer einer Einrichtung.
-
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein System und ein Verfahren zum Erfassen einer Eingabegeste eines Nutzers bereitzustellen, bei denen besonders differenzierte und detailreiche Eingabegesten in einem möglichst großen Detektionsraum sicher und robust erfassbar sind.
-
Erfindungsgemäß wird diese Aufgabe durch ein System mit den Merkmalen des Anspruchs 1, ein Fahrzeug mit den Merkmalen des Anspruchs 11 und ein Verfahren mit den Merkmalen des Anspruchs 12 gelöst. Vorteilhafte Ausgestaltungen und Weiterbildungen ergeben sich aus den abhängigen Ansprüchen.
-
Das erfindungsgemäße System der eingangs genannten Art ist dadurch gekennzeichnet, dass durch eine Bildverarbeitungseinheit anhand der erfassten Bilddaten ein Gestenraum bestimmbar ist und der Radarsensor durch eine Steuereinheit so ansteuerbar ist, dass der Radardetektionsraum anhand des bestimmten Gestenraums steuerbar ist.
-
Dadurch wird vorteilhafterweise eine sichere und robuste Erkennung kleiner Eingabegesten in einem besonders großen Raum ermöglicht. Das erfindungsgemäße System verbessert die Gestenerkennung einerseits dadurch, dass mehrere Sensoren verschiedenen Typs eine Erfassung nicht nur redundanter, sondern auch komplementärer Daten erlauben. Diese Daten können so kombiniert werden, dass Gesten genauer erkannt werden können. Andererseits erlaubt das erfindungsgemäße System eine verbesserte Gestenerkennung durch den Radarsensor, da der Radardetektionsraum auf einen relevanten Bereich beschränkt wird und dadurch umgekehrt die Erfassung irrelevanter Hintergrunddaten in weiteren Bereichen vermieden wird.
-
Unter einer „Eingabegeste“ wird im Sinne der Erfindung eine bestimmte Stellung eines Betätigungsobjekts oder eine bestimmte Bewegung, die mit dem Betätigungsobjekt ausgeführt wird, verstanden. Das Betätigungsobjekt kann etwa eine Hand des Nutzers sein, wobei insbesondere die Finger der Hand berücksichtigt werden. Die Eingabegesten können nach an sich bekannter Art ausgestaltet sein. Sie umfassen zum Beispiel Zeigegesten, Wischgesten und Kombinationen mehrerer solcher gegebenenfalls unmittelbar kurz nacheinander ausgeführter Gesten.
-
Zur Erfassung der Bilddaten werden an sich bekannte Verfahren verwendet. Dabei werden entweder Grauwert- bzw. Farbbilder der Szene aufgenommen oder im Falle einer Time-of-Flight-(ToF-)Kamera Tiefenkarten und Intensitätsbilder. Die Bilddaten umfassen Daten über die räumliche Verteilung des auf den Sensor der Kamera treffenden Lichts. Dabei kann insbesondere Licht im für das menschliche Auge sichtbaren Spektralbereich und/oder in weiteren Bereichen, etwa im Infrarotbereich, erfasst werden. Der Sichtbereich einer Bilddatenerfassungseinheit, etwa einer Kamera, kann durch entsprechende Optiken recht groß sein. So sind etwa Öffnungswinkel von 90° und mehr einfach realisierbar. Ferner kann sich der erfasste Tiefenbereich einer ToF-Kamera zum Beispiel den gesamten Innenraum eines Fahrzeugs erstrecken. Kamerabasierte Systeme können eine große Auflösung der Blickrichtungen aufgrund der hohen Pixelzahl bieten.
-
Kamerabasierte Bilddatenerfassungseinheiten können insbesondere Daten über statische Posen, etwa die Haltung einer Hand und/oder einzelner Finger, oder dynamische Gesten erfassen, indem sie den Zustand der Hand vor und nach dem Ausführen der Eingabegeste vergleichen. Allerdings ist die Entfernungsauflösung auch bei ToF-Kameras nicht sehr groß: Kleine Bewegungen, etwa im Millimeterbereich, können typischerweise nur schwer erfasst werden.
-
Radarsensoren erfassen Objekte mittels einer Abstrahlung eines Radarsignals und Empfangens der reflektierten Signale mit einem System von Sende- und Empfangsantennen. Das Produkt aus der Anzahl von Sende- und Empfangsantennen ergibt die Anzahl der virtuellen Kanäle des Radarsensors, die für die Objekterfassung ausgewertet werden können. Jeder dieser Kanäle besitzt eine Richtcharakteristik und erfasst ein Richtungssegment im Raum. Die Richtungsauflösung ist daher nicht sehr hoch, obwohl zur Bestimmung eine Interpolation durchgeführt werden kann. Allerdings sind anhand der detektierten Radardaten Entfernungen mit geringer Genauigkeit und Bewegungsprofile von Objekten in radialer Richtung mit hoher Genauigkeit, das heißt in Richtung des Sensors, erfassbar.
-
Erfindungsgemäß werden sowohl die erfassten Bilddaten als auch Radardaten zur Erfassung der Eingabegeste genutzt und es werden die komplementären Stärken beider Technologien ausgenutzt. Dies erlaubt eine gute Richtungs- und Tiefenauflösung sowie ein detailliertes Bewegungsprofil für die nachfolgende Gestenauswertung.
-
Zum Bestimmen des Gestenraums gemäß des erfindungsgemäßen Verfahrens können mittels der Bildverarbeitungseinheit an sich bekannte Verfahren angewandt werden. Dabei wird als „Gestenraum“ insbesondere ein Raum bezeichnet, in dem zu einem aktuellen Zeitpunkt oder zu einem bestimmten späteren Zeitpunkt, insbesondere unmittelbar danach und innerhalb eines kurzen Zeitraums, eine Eingabegeste des Nutzers erwartet wird, etwa in der räumlichen Umgebung eines detektierten Betätigungsobjekts oder einer mittels der Eingabegeste zu bedienenden Einrichtung.
-
In der Folge kann der Radarsensor so angesteuert werden, dass sein Erfassungsbereich, das heißt der Radardetektionsraum, den Gestenraum zumindest teilweise umfasst, wobei die räumlichen Dimensionen des Radardetektionsraums anhand an sich bekannter Verfahren gesteuert wird. Dadurch kann sichergestellt werden, dass die Radardaten in einem definierten räumlichen Bereich erfasst werden und dass des Radardetektionsraum so beschränkt wird, dass möglichst spezifische Radardaten erfasst werden. Auf diese Weise wird beispielsweise vermieden, dass durch das Erfassen von Radardaten in einem weniger definierten Radardetektionsraum zum Beispiel Bewegungen erfasst werden, die nicht zu der Eingabegeste des Nutzers gehören. Dadurch kann insbesondere die Erfassung von kleinen Gesten verbessert werden, für die sonst kein ausreichend starkes Signal gegenüber unspezifischen Umgebungssignalen erfassbar wäre. Beispielsweise kann die Eingabegeste eine Bewegung eines Fingers des Nutzers umfassen, wobei in diesem Fall der Radardetektionsraum beispielsweise auf die Hand oder einen Bereich der Hand beschränkt werden kann.
-
Ferner kann der Radardetektionsraum durch gezieltes Steuern auf einen Bereich für einen bestimmten Nutzer beschränkt werden. Beispielsweise kann, wenn die Eingabegeste von dem Fahrer eines Fahrzeugs erfasst werden soll und nicht von dem Beifahrer, der Radardetektionsraum so definiert sein, dass Gesten des Beifahrers nicht erfasst werden und daher auch keine Störung der Gestenerfassung verursachen können.
-
Bei dem Verfahren wird anhand der erfassten Radardaten eine Gestensignatur bestimmt. Diese umfasst zusammengehörige Daten anhand derer eine Eingabegeste bestimmt werden kann. Beispielsweise kann eine Gestensignatur für Radardaten bestimmt werden, die innerhalb eines bestimmten Zeitraums erfasst werden. Ferner können bestimmte Kanäle des Radarsensors bei der Bestimmung der Gestensignatur berücksichtigt werden. Insbesondere kann die Gestensignatur Informationen über räumliche Positionen und/oder Positionsänderungen umfassen.
-
Die Zuordnung der Gestensignatur zu einer Eingabegeste kann etwa erfolgen, indem die bestimmte Gestensignatur anhand eines Signaturvergleichs mit einer Hypothesenmenge der Eingabegeste zugeordnet wird. Dies erlaubt eine einfache Erkennung der Eingabegeste. Beispielsweise kann die Hypothesenmenge die Menge aller potentiell erkennbaren Eingabegesten umfassen, insbesondere in einer so parametrisierten Form, dass die Zuordnung einer bestimmten Eingabesignatur einfach durchgeführt werden kann. Die Hypothesenmenge kann dabei eine Menge von Referenzsignaturen umfassen und vorgegeben oder konfigurierbar sein, beispielsweise durch Eingaben des Nutzers oder durch das Erlernen neuer Eingabegesten.
-
Die Hypothesenmenge kann dabei anhand eines aktuellen Kontextes bestimmt werden, um die Hypothesenmenge an die aktuelle Situation, beispielsweise an einen Fahrzustand eines Fahrzeugs oder die Aktivität bestimmter bedienbarer Einrichtungen, anzupassen.
-
Der aktuelle Kontext kann beispielsweise bestimmt werden anhand von Daten, die Informationen über die aktuelle, vergangene oder prognostizierte Bewegung des Fahrzeugs umfassen. Ferner kann zur Bestimmung des Kontextes erfasst werden, welche Einrichtungen des Fahrzeugs aktiviert und bedienbar sind, welche weiteren Einrichtungen angesteuert werden können und/oder welche Funktionen derzeit von bedienbaren Einrichtungen ausgeführt werden, beispielsweise welche Programme aktuell von einem Rechner ausgeführt werden. Die Hypothesenmenge kann dann so angepasst werden, dass die potentiell erkennbaren Eingabegesten an die aktuelle Situation des Systems angepasst sind. Es kann ferner eine personalisierte Hypothesenmenge für einen bestimmten Nutzer bereitgestellt werden.
-
Bei der Zuordnung der Gestensignatur zu einer Eingabegeste kann zum Beispiel ein Ähnlichkeitswert bestimmt werden und der Ähnlichkeitswert kann mit einem Akzeptanzschwellenwert verglichen werden. Dadurch wird festgelegt, wie zuverlässig eine Eingabegeste mindestens erkannt werden muss, damit zum Beispiel ein Signal erzeugt und/oder ausgegeben wird. Dabei kann der Ähnlichkeitswert nach an sich bekannten Verfahren bestimmt werden, insbesondere bei der Zuordnung der Eingabegeste zu der bestimmten Gestensignatur. Der Ähnlichkeitswert gibt an, wie genau die bestimmte Gestensignatur einem Element der Hypothesenmenge entspricht, das heißt, mit welcher Sicherheit die Eingabegeste erkannt wurde. Der Akzeptanzschwellenwert kann statisch festgelegt sein oder dynamisch bestimmt werden, etwa in Abhängigkeit von dem Kontext, Präferenzen des Nutzers und/oder der Kritikalität der bedienbaren Einrichtung. Zum Beispiel können höhere Anforderungen an die Ähnlichkeitswerte für Eingabegesten gestellt werden, durch die sicherheitsrelevante Einrichtungen des Fahrzeugs bedient werden. Ferner kann der Akzeptanzschwellenwert anhand einer Eingabe des Nutzers bestimmt werden, etwa anhand eines Einstellparameters.
-
Bei einer Ausbildung des erfindungsgemäßen Systems ist anhand der Eingabegeste ein Steuersignal erzeugbar und das Steuersignal ist an eine weitere Einrichtung übertragbar.
-
Die Ausgabe des anhand der Eingabegeste erzeugten Signals erfolgt insbesondere so, dass damit die Einrichtung oder eine Funktion der Einrichtung gesteuert wird. Beispielsweise kann dies eine Einrichtung des Fahrzeugs sein, jedoch auch eine Funktion eines Nutzergeräts oder einer fahrzeugexternen Einrichtung.
-
Als „fahrzeugextern“ werden dabei Einrichtungen verstanden, die trennbar datentechnisch mit dem Fahrzeug verbunden sind, sodass sie zwar keinen Bestandteil des Fahrzeugs bilden, jedoch vom Fahrzeug aus gesteuert oder bedient werden können. Beispielweise kann die Öffnung einer Garage mittels einer Fernbedienung vom Fahrzeug aus erfolgen und das erfindungsgemäße Verfahren erlaubt eine solche Bedienung mittels geeigneter Eingabegesten. Ferner können weitere Einrichtungen einer sogenannten Smart-Home-Umgebung bedient werden, etwa zum Vorbereiten der Ankunft des Nutzers in einem Haus.
-
Es wird dabei nicht notwendigerweise vorausgesetzt, dass die Eingabegeste in der Nähe oder in einem räumlichen Zusammenhang zu der zu bedienenden Einrichtung ausgeführt wird. Durch die Steuerung mittels Eingabegesten wird dem Nutzer daher eine besonders einfache und intuitive Eingabemöglichkeit zur Steuerung bereitgestellt.
-
Ferner kann ein Aktivierungssignal erfasst werden und das Erfassen der Eingabegeste anhand des Aktivierungssignals erfolgen. Dadurch kann die Gestenerkennung vorteilhafterweise zu bestimmten Zeiten aktiviert werden, etwa um den Ablauf der Gestenerkennung in Situationen zu vermeiden, in denen eine Eingabegeste erfasst wird, obwohl keine Bedienabsicht des Nutzers besteht.
-
Bei einer Weiterbildung wird das Aktivierungssignal durch eine Spracheingabe eines Nutzers erfasst. Dies bietet vorteilhafterweise die Möglichkeit, die Gestensteuerung schnell und einfach zu aktivieren. Beispielsweise kann der Nutzer das Aktivierungssignal durch Aussprechen eines Sprachbefehls auslösen. Ferner wird dadurch eine Integration in ein Bedienkonzept, insbesondere eines Fahrzeugs, ermöglicht, das auch eine Sprachsteuerung umfasst.
-
In weiteren Ausbildungen kann das Aktivierungssignal nach an sich bekannten Verfahren erzeugt werden, wobei insbesondere eine Bedienhandlung des Nutzers erfasst wird oder die Erzeugung des Aktivierungssignals automatisch ausgelöst wird.
-
Bei einer weiteren Ausbildung ist anhand der erfassten Bilddaten eine Position einer Hand des Nutzers bestimmbar und der Gestenraum ist anhand der bestimmten Position der Hand des Nutzers bestimmbar. Dadurch ist der Gestenraum vorteilhafterweise einfach bestimmbar.
-
Beispielsweise kann der Gestenraum bestimmt werden, indem zunächst anhand der Bilddaten eine Hand des Nutzers detektiert wird. Ferner können die Pose und Position der Hand sowie ein Raum um die Hand herum bestimmt werden, sodass eine Bewegung der Hand innerhalb dieses Raums zum Ausführen einer Geste von dem Gestenraum umschlossen ist.
-
Bei einer Weiterbildung umfasst die Eingabegeste des Nutzers eine Bewegung zumindest zweier Finger des Nutzers relativ zueinander. Dadurch können vorteilhafterweise besonders kleine Eingabegesten verwendet werden. Ähnlich wie oben für die Hand des Nutzers beschrieben, können einzelne Finger des Nutzers oder Bereiche der Hand detektiert werden und es kann ein zugeordneter Gestenraum für diese Finger bestimmt werden, in dem kleinere Eingabegesten erfassbar sind.
-
Bei einer weiteren Ausgestaltung ist die Gestensignatur ferner anhand der Bilddaten bestimmbar. Dies ermöglicht vorteilhafterweise eine Ausnutzung der Daten verschiedenartiger Sensoren, die sich gegenseitig ergänzen können, zur Gestenerkennung. Beispielsweise kann anhand der Bilddaten eine bessere Erkennung einer Handpose ausgeführt werden. Ferner kann der Nutzer erkannt werden, etwa um individuell definierte Gesten zu erkennen.
-
Dies erlaubt eine robustere Gestenerkennung, da zwei Sensoren gleichzeitig und im gleichen Raumbereich Daten für die Gestensignatur liefern, die zur Erkennung der Geste verwendet werden können. Ferner können durch die hohe Richtungsauflösung von Bilddatenerfassungseinheiten wie Kameras parallele Eingaben in verschiedenen Raumbereichen unterschieden werden.
-
Durch eine Fusion der Radar- und Bilddaten kann eine Gestensignatur so bestimmt werden, dass sie einen Gestenklassifikator mit einer konsolidierten 3D-Positions- und Geschwindigkeitsinformation umfasst. Ferner können durch die Unterscheidung von Bereichen im Raum, die insbesondere mittels des Richtungs- und Ortsauflösungsvermögens der Bilddatenerfassungseinheit erreicht werden kann, mehrere Objekte parallel auswerten, etwa Eingabegesten eines Fahrers und Beifahrers.
-
Der Radarsensor liefert insbesondere eine Objektliste, das heißt eine Menge von Objektpunkten mit Positionen und Geschwindigkeit im dreidimensionalen Raum. Zusätzlich wird für jeden Objektpunkt ein Konfidenzwert geliefert, der die Zuverlässigkeit der Schätzung angibt. Der Kamerasensor (etwa eine ToF-Kamera oder eine Kamera für Graustufen- oder Farbbilder) liefert vollständige Bilder mit Pixelkoordinaten, nämlich 3D-Koordinaten für jeden Bildpunkt, Graustufen beziehungsweise Farbwerte an den Pixelkoordinaten und Konfidenzwerte für die einzelnen Bildpunkte. Beide Informationsquellen, Objektpunkte und Bilder, werden zusammengeführt, wobei berücksichtigt wird, ob sich die Erfassungsbereiche der Sensoren an den Positionen im Raum überlappen. Mittels der Konfidenzwerte kann ein Vergleich und eine Zusammenführung durchgeführt werden, was als „Sensorfusion“ bezeichnet wird.
-
Bei einer weiteren Ausgestaltung der Erfindung ist ferner eine Geschwindigkeit und/oder Beschleunigung des Betätigungsobjekts, etwa der Hand oder eines Teils der Hand, bestimmbar und das Steuersignal ist ferner anhand der bestimmten Geschwindigkeit und/oder Beschleunigung des Betätigungsobjekts erzeugbar. Dadurch kann vorteilhafterweise die dynamische Ausführung der Eingabegeste berücksichtigt werden.
-
Beispielsweise kann der Nutzer eine Eingabegeste schnell oder langsam ausführen und dadurch etwa eine Intensität oder einen Geschwindigkeitsparameter eingeben. Die kann etwa eine differenzierte Steuerung erlauben, bei der ein Einstellparameter durch eine langsam ausgeführte Einstellgeste genau eingestellt werden kann, während eine schnell ausgeführte Einstellgeste eine Grobeinstellung erlaubt.
-
Bei einer Ausbildung ist eine Radardatensequenz mit zeitlich aufeinander folgenden Radardaten erfassbar und der Radardatensequenz ist eine Signatursequenz zuordenbar. Dadurch kann vorteilhafterweise eine zeitliche Entwicklung einer Eingabegeste berücksichtigt werden.
-
Die Zuordnung der Signatursequenz kann ferner anhand einer Bilddatensequenz mit zeitlich aufeinander folgenden Bilddaten erfolgen.
-
Die Signatursequenz charakterisiert insbesondere einen bei der Eingabegeste beschriebenen Bewegungspfad, das heißt eine Trajektorie. Dabei kann die Trajektorie anhand mehrerer, in zeitlicher Folge nacheinander erfasster Positionen des Betätigungsobjekts explizit bestimmt werden. Die Trajektorie kann ferner anhand der Signatursequenz implizit erfasst werden, ohne dass dazu eine Position im Raum bestimmt wird. Insbesondere kann so eine Geste unabhängig davon erfasst werden, wo im Radardetektionsraum beziehungsweise Bilderfassungsraum sie ausgeführt wird.
-
Anhand der Signatursequenz, insbesondere anhand einer bestimmten Trajektorie, kann ferner eine Bewegungsrichtung bestimmt werden. Die Bewegungsrichtung kann insbesondere direkt mit einer bedienbaren Einrichtung gekoppelt sein, etwa wenn mittels der Eingabegeste ein steuerbares Bewegungselement bedient wird, das beispielsweise auf einer Anzeigefläche angezeigt wird. In diesem Fall bewegt die bei der Eingabegeste ausgeführte Bewegung das Bewegungselement auf der Anzeigefläche. Bei dem Bewegungselement kann es sich beispielsweise um einen auf der Anzeigefläche dargestellten Schiebe- oder Drehschalter handeln. Ein solches Bewegungselement kann durch eine Bewegung einer Eingabegeste betätigt werden, die einem Schieben oder Drehen des Bewegungselements entspricht, wobei die entsprechende Bewegung berührungslos im Detektionsraum vom Nutzer ausgeführt wird. Eine derartige Betätigung eines Bewegungselementes, das auf der Anzeigefläche angezeigt wird, bietet den Vorteil, dass der Nutzer nicht – wie beispielsweise bei einer berührungsempfindlichen Oberfläche – einen bestimmten Flächenbereich treffen muss. Es reicht vielmehr aus, dass er die dem Bewegungselement zugeordnete Eingabegeste mit der gewünschten Richtung ausführt. Die Eingabegeste entspricht dabei insbesondere einer Bewegung, die beispielsweise bei mechanischen Bedienelementen ausgeführt wird, sodass sich der Nutzer diese Eingabegeste leicht merken kann.
-
Bei einer weiteren Ausbildung ist anhand der Radardaten ein Doppler-Effekt erfassbar. Dies erlaubt eine Erfassung kleiner Eingabegesten mit hoher Genauigkeit. Die Erfassung der Radardaten erfolgt dabei auf an sich bekannte Weise. Insbesondere sind so Bewegungen in radialer Richtung relativ zu dem Radarsensor mit hoher Genauigkeit erfassbar.
-
Bei einer Ausbildung weist der Radarsensor mehrere Kanäle auf, wobei den Kanälen verschiedene Teildetektionsräume zugeordnet sind. Auf diese Weise kann vorteilhafterweise eine differenzierte, räumlich aufgelöste Erfassung von Radardaten erfolgen.
-
Die Kanäle entsprechen insbesondere einer Kombination eines Senders und eines Empfängers. Radarsensor kann also mehrere Sender und/oder Empfänge umfassen, wobei sich die Anzahl der Kanäle aus dem Produkt der Anzahl der Sender und Empfänger ergibt. Beispielsweise kann der Radarsensor drei Sender und vier Empfänger umfassen, wobei sich eine Anzahl von zwölf Kanälen ergibt. Der einem Kanal zugeordnete Teildetektionsraum weist insbesondere eine Form einer Keule im dreidimensionalen Raum auf. Mehrere Kanäle können etwa so gesteuert werden, dass sich die Teildetektionsräume fächerartig in einer Ebene erstrecken. Ferner kann die Trennung von mehreren Kanälen die Unterscheidung mehrerer Eingabegesten parallel zueinander erlauben. Beispielsweise können in einem Fahrzeug der Fahrer und der Beifahrer oder mehrere Passagier im Fahrzeugfond Eingabegesten ausführen.
-
Ferner ist bei einer weiteren Ausbildung der Radardetektionsraum durch Verändern einer Kombination einer Teilmenge der Gesamtmenge der Teildetektionsräume der Kanäle des Radarsensors steuerbar. Dies erlaubt vorteilhafterweise eine Detektion von Gesten mit verbesserter örtlicher Auflösung. Beispielsweise können die in mehreren Teildetektionsräumen erfassten Radardaten zusammengefasst werden oder es kann eine Bewegung von einem Teildetektionsraum zu einem andern berücksichtigt werden.
-
Bei einer Weiterbildung umfasst der Radarsensor eine Antennenanordnung, wobei die Antennenanordnung zumindest zwei zueinander nicht parallele Antennen umfasst. Dies erlaubt vorteilhafterweise eine gute Steuerung des Radardetektionsraums in drei Raumrichtungen. Insbesondere kann die Ausrichtung der Teildetektionsräume, etwa bei einer Ausbreitung in Form einer Keule, so gesteuert werden, dass die Erfassung der Radardaten in einem klar definierten Raum, erfolgt.
-
Bei einer weiteren Ausgestaltung ist der Radardetektionsraum anhand einer elektrischen Leistung steuerbar. Insbesondere ist dabei die Sendeleistung regelbar. So kann vorteilhafterweise die Reichweite des Radardetektionsraums und der Teildetektionsräume gesteuert werden. Insbesondere kann die Leistung der Sendeantennen geregelt werden. Es kann somit sichergestellt werden, dass nur in solchen Bereichen Radardaten erfasst werden, die tatsächlich relevant sind. Beispielsweise kann, wenn detektiert wird, dass der Gestenraum nah am Radarsensor angeordnet ist, die Leistung gering gewählt werden, um keine unspezifischen Radardaten aus weiter entfernten und weniger relevanten Räumen zu erfassen. Umgekehrt kann durch Variation der Leistung auch der Radardetektionsraum bei Bedarf erweitert werden.
-
Bei einer Weiterbildung sind der Radarsensor und die Bilddatenerfassungseinheit in einer Erfassungseinheit integriert. Insbesondere können der Radarsensor und die Bilddatenerfassungseinheit in einem Gehäuse angeordnet sein. Dies erlaubt vorteilhafterweise eine Konfiguration, bei der eine große Überlappung des Bilderfassungsraums und des Radardetektionsraums erreicht wird. Ferner kann auf diese Weise eine integrierte Einheit besonders leicht hergestellt und in eine Umgebung, etwa in einem Fahrzeug, eingebaut werden.
-
Bei einer Ausbildung sind der Radarsensor und die Bilddatenerfassungseinheit getrennt voneinander angeordnet. Die kann vorteilhafterweise eine Optimierung des Bilderfassungsraums und des Radardetektionsraums unabhängig voneinander erlauben. Beispielsweise kann ein Radarsensor an einer für die Bilddatenerfassungseinheit ungünstigen Stelle angeordnet sein, die sich nahe dem erwarteten Gestenraum befindet, etwa in der Nähe der Mittelkonsole, wo der Fahrer oder Beifahrer einen Arm ablegen und eine Eingabegeste mit der Hand ausführen kann, ohne diese dazu weit bewegen zu müssen. Ferner kann die Bilddatenerfassungseinheit so angeordnet werden, dass der Bilderfassungsraum die Radardetektionsräume mehrerer Radarsensoren überlappt und etwa Gestenräume für mehrere Eingabegesten, gegebenenfalls auch parallel zueinander, erfassbar sind.
-
Beispielsweise können die Bilddatenerfassungseinheit und der Radarsensor in einem Kombinationsmodul mit ToF-Kamera und Radarsensor am Rückspiegels im Innenraum eines Fahrzeugs angebracht sein, wobei ein großer Teil oder der gesamte Innenraum erfasst werden kann. Die Vorteile des Systems werden durch diese großen Erfassungsbereiche der Kamera und des Radarsensors besonders vorteilhaft genutzt. Ferner kann ein Gestenmodul etwa im Bereich des Armaturenbretts eines Fahrzeugs angeordnet sein, etwa um eine besonders robuste Gestenerkennung in einem Erfassungsraum zu erreichen, der als wahrscheinlicher Ort für die Ausführung einer Eingabegeste angenommen wird. Es ist auch möglich, den Radar- und den Kamerasensor an getrennten Orten zu verbauen, wobei dennoch die Daten der verschiedenen Sensoren im Sinne der Erfindung gemeinsam verarbeitet werden können.
-
Das erfindungsgemäße Fahrzeug umfasst ein System zum Erfassen einer Eingabegeste eines Nutzers nach einem der vorhergehenden Ansprüche. Dadurch kann das erfindungsgemäße System vorteilhafterweise in einer Umgebung verwendet werden, in der eine Gestensteuerung besonders sinnvoll ist, da sie die für die Bedienung von Einrichtungen beanspruchte Aufmerksamkeit des Fahrers verringern kann.
-
Das erfindungsgemäße Verfahren der eingangs genannten Art ist dadurch gekennzeichnet, dass anhand der erfassten Bilddaten ein Gestenraum bestimmt wird und der Radarsensor so angesteuert wird, dass der Radardetektionsraum anhand des bestimmten Gestenraums gesteuert wird.
-
Das erfindungsgemäße Verfahren ist insbesondere zum Betreibendes vorstehend beschriebenen erfindungsgemäßen Systems ausgebildet. Das Verfahren weist somit dieselben Vorteile auf wie das erfindungsgemäße System.
-
Bei einer Ausbildung des erfindungsgemäßen Verfahrens wird anhand der Eingabegeste ein Steuersignal erzeugt und das Steuersignal wird an eine weitere Einrichtung übertragen. Dadurch wird vorteilhafterweise eine Gestensteuerung der Einrichtung ermöglicht.
-
Bei einer weiteren Ausbildung wird anhand der erfassten Bilddaten eine Position einer Hand des Nutzers bestimmt und der Gestenraum wird anhand der bestimmten Position der Hand des Nutzers bestimmt. Der Gestenraum wird dadurch vorteilhafterweise in dem Bereich bestimmt, in dem eine Eingabegeste zu erwarten ist.
-
Bei einer Weiterbildung umfasst die Eingabegeste des Nutzers eine Bewegung zumindest zweier Finger des Nutzers relativ zueinander. Dadurch können vorteilhafterweise auch kleine Gesten des Nutzers als Eingabegesten erkannt werden.
-
Die Erfindung wird nun anhand von Ausführungsbeispielen mit Bezug zu den Zeichnungen erläutert.
-
1A und 1B zeigen ein Ausführungsbeispiel des erfindungsgemäßen Systems,
-
1C zeigt ein Ausführungsbeispiel der Sensorfusion für Daten des erfindungsgemäßen Systems und
-
2 zeigt ein Fahrzeug mit einem Ausführungsbeispiel des erfindungsgemäßen Systems.
-
Mit Bezug zu den 1A und 1B wird ein Ausführungsbeispiel des erfindungsgemäßen Systems und ein Ausführungsbeispiel des erfindungsgemäßen Verfahrens erläutert.
-
Ein Fahrzeug 10 umfasst als Bilddatenerfassungseinheit eine Kamera 1 und einen Radarsensor 2. Diese sind mit einer Steuereinheit 6 gekoppelt, die wiederum eine Signaturbestimmungseinheit 3, eine Zuordnungseinheit 4 und eine Bildverarbeitungseinheit 5 umfasst. Die Kamera 1 und der Radarsensor 2 sind nach an sich bekannter Weise gebildet.
-
Der Radarsensor 2 kann eine Antennenanordnung umfassen, wobei mehrere Sende- und Empfangsantennen vorgesehen sind, die insbesondere nicht parallel zueinander angeordnet sind. Beispielsweise können drei Sende- und vier Empfangsantennen verwendet werden, woraus sich eine Zahl von zwölf Kanälen ergibt, die Radardaten in verschiedenen Raumbereiche erfassen können. Diese Raumbereiche entsprechen einzelnen Teildetektionsräumen, deren Reichweite mittels der elektrischen Leistung geregelt werden kann und die zu einem Radardetektionsraum kombiniert werden können. Ferner können Radardaten in den Teildetektionsbereichen jeweils einzeln erfasst werden, etwa um mehrere parallele Eingabegesten zu erfassen. Die Steuerung des Radarsensors 2 erfolgt durch die Steuereinheit 6, wobei insbesondere bestimmt wird, in welchen Raumbereichen die Radardaten erfasst werden.
-
Durch die Kamera 1 werden in dem Beispiel orts- und zeitaufgelöst Bilddaten erfasst, wobei insbesondere Licht in dem für das menschliche Auge sichtbaren Bereich des Spektrums detektiert wird. In weiteren Ausführungsbeispielen kann alternativ oder zusätzlich eine Time-of-Flight-(ToF)-Kamera verwendet werden, bei der für die einzelnen Bildpunkte Distanzen erfasst werden. Ferner können andere optische Kameras verwendet werden und/oder es können weitere spektrale Bereiche berücksichtigt werden, etwa Infrarotlicht.
-
Die Kamera 1 erfasst dabei die Bilddaten in einem Bilderfassungsraum 1a, der von der Kamera 1 ausgehend mit einem durch die Optik der Kamera 1 bestimmten Öffnungswinkel einen Raumwinkel umfasst. Die Reichweite des Bilderfassungsbereich 1a ist insbesondere durch undurchsichtige Sichtbarrieren begrenzt, beispielsweise im Fahrzeug 10 durch die Personen oder Sitze im Fahrzeug 10. Der Bilderfassungsbereich 1a überlappt dabei den Radarerfassungsbereich des Radarsensors 2, in 1B angedeutet dadurch, dass der Bilderfassungsbereich vor dem Radarsensor 2 verläuft und ein Finger 11a einer Hand 11 eines Nutzers in diesem Bereich sowohl von der Kamera 1, als auch von dem Radarsensor 2 detektiert werden kann.
-
Der Nutzer führt mit dem Finger 11a eine Bewegung aus, hier angedeutet durch den Pfeil 12. Diese Bewegung ist im Vergleich zu dem räumlichen Auflösungsvermögen der Kamera 1 klein. Beispielsweise kann der Finger 11a in verschiedene Richtungen bewegt werden oder es können mehrere Finger 11a zueinander bewegt werden. Sie ist jedoch für den Radarsensor 2 mittels eines Doppler-Effekts deutlich erfassbar. Die Hand 11 wird durch die Kamera 1 erfasst und ihre äußere Gestalt wird anhand der Bilddaten der Kamera 1 durch die Bildverarbeitungseinheit 5 ermittelt. Auf diese Weise wird die Position der Hand 11 im Raum erfasst. Diese Position ist im gezeigten Ausführungsbeispiel ein Anhaltspunkt für den Gestenraum, in dem eine Eingabegeste des Nutzers erwartet wird. Insbesondere wird hier der Gestenraum in einer Umgebung der Hand 11 definiert, die durch die Größe der mittels des Radarsensors 2 erzeugbaren Teildetektionsbereiche bestimmt ist. Je größer diese Teildetektionsbereiche sind, desto größer fällt auch der Gestenraum aus. Umgekehrt kann der Gestenraum in der nächsten Umgebung der Hand 11 definiert werden, wenn die Teildetektionsbereiche mit kleinerer Ausdehnung und sehr genau gesteuert werden können. Durch den Radarsensor werden also Radardaten in einem Radardetektionsraum erfasst, der anhand des Gestenraums, also anhand der erfassten Position der Hand 11, bestimmt wurde.
-
Ferner ermittelt die Bildverarbeitungseinheit 5 anhand der Bilddaten eine Pose der Hand 11, das heißt insbesondere eine Stellung und Haltung, sowie gegebenenfalls eine Bewegung der Hand 11. Beispielsweise kann eine Zeigegeste auf diese Weise erkannt werden. Insbesondere werden so statische Gesten erkannt.
-
Die mittels der Kamera 1 und des Radarsensors 2 erfassten Daten werden fusioniert, wie unten im Detail beschrieben. Anhand der Daten wird eine Gestensignatur bestimmt, die Informationen über die Geste umfasst. Insbesondere umfasst die Gestensignatur Daten über einen Bewegungsablauf, wobei insbesondere eine zeitliche Folge von Position der Hand 11 oder von Teilen der Hand 11, das heißt eine Trajektorie, bestimmt werden kann. Dies ist allerdings nicht notwendig, das heißt, es muss keine Trajektorie bestimmt werden, sondern die Gestensignatur kann lediglich anhand der erfassten Daten des Radarsensors 2 bestimmt werden. Ferner kann die Gestensignatur mittels der Kamera 1 erfasste Informationen umfassen, etwa über eine Pose der Hand 11.
-
Anhand der Gestensignatur wird eine Eingabegeste ermittelt, wobei insbesondere ein Vergleich der erfassten Gestensignatur mit Referenzsignaturen einer Hypothesenmenge durchgeführt wird. Dabei wird insbesondere eine Ähnlichkeit der Gestensignatur mit den Referenzsignaturen ermittelt und eine optimal passende Hypothese gewählt. Die Hypothesenmenge umfasst dabei beispielsweise die Menge aller bekannten Eingabegesten beziehungsweise Referenzsignaturen für diese Eingabegesten. Die Hypothesenmenge kann dabei vorgegeben sein, etwa durch den Hersteller des Systems, oder sie kann konfiguriert werden, etwa anhand eines Kontextes, gemäß dem die relevanten Referenzsignaturen bestimmt werden, oder anhand von Lernalgorithmen, durch die neue Referenzsignaturen gelernt werden können.
-
In dem Ausführungsbeispiel wird anhand der Eingabegeste eine Steuerung einer Einrichtung 7 des Fahrzeugs 10 durchgeführt, hier ein Radio 7. Beispielsweise kann der Nutzergeste eine Bedienhandlung zugeordnet sein, etwa zum Wechseln eines Radiosenders oder einer Frequenz, oder um Wechsel einer Medienquelle.
-
In einem weiteren Ausführungsbeispiel wird den erfassten Radar- und Bilddaten eine Signatursequenz zugeordnet, die insbesondere Daten über eine Eingabegeste zu mehreren Zeitpunkten umfasst. Diese Zeitpunkte sind aufeinanderfolgend definiert, es wird also eine Bewegung über einen bestimmten Zeitpunkt erfasst. Dabei kann insbesondere eine Trajektorie eines Betätigungsobjekts wenigstens teilweise explizit bestimmt werden, etwa anhand der Bilddaten, es kann jedoch auch eine implizite Bestimmung einer Trajektoriencharakteristik erfolgen, die Informationen über die explizite Trajektorie umfasst, ohne dass diese notwendigerweise bestimmt wird.
-
In weiteren Ausführungsbeispielen werden alternativ oder zusätzlich weitere Einrichtungen 7 gesteuert, insbesondere solche Einrichtungen 7, die durch den Fahrer des Fahrzeugs 10 bedienbar sind.
-
Mit Bezug zu 1C wird ein Ausführungsbeispiel der Sensorfusion für Daten des erfindungsgemäßen Systems erläutert. Dabei wird von dem oben beschriebenen erfindungsgemäßen System und Verfahren ausgegangen.
-
In einem ersten Schritt S1 werden die Radardaten durch den Radarsensor 2 erfasst. Parallel dazu erfolgt in einem Schritt S3 die Erfassung der Bilddaten durch die Kamera 1. Die so erfassten Daten werden verarbeitet und es wird in einem Schritt S2 eine Radar-Objektliste erzeugt, die eine Menge von Objektpunkten mit Orten und Geschwindigkeiten im dreidimensionalen Raum umfasst. Zu jedem Objektpunkt wird ferner ein Konfidenzwert bestimmt, der die Zuverlässigkeit der bestimmten Werte angibt. In ähnlicher Weise erfolgt die Erzeugung einer Bild-Objektliste, die vollständige Bilder mit Koordinaten für jeden Bildpunkt (picture element, Pixel) umfasst sowie Intensitätswerte, Grauwerte und/oder Farbwerte an den jeweiligen Koordinaten eines Bildpunktes sowie auch hier entsprechende Konfidenzwerte. Anhand einer zeitlichen Folge von nacheinander erfassten Daten können weitere Werte bestimmt werden, etwa Trajektorien oder die Beschleunigung von Objekten.
-
In einem weiteren Schritt S5 erfolgt die Sensorfusion, wobei die mittels der Kamera 1 und des Radarsensors 2 erfassten Daten anhand der überlappenden Detektionsräume miteinander kombiniert werden und eine Gestensignatur bestimmt wird. Ferner wird an dieser Stelle ein zeitlicher Verlauf der erfassten Daten bestimmt.
-
In einem Schritt S6 wird schließlich die eigentliche Gestenerkennung durchgeführt, wobei hierzu die erfassten, fusionierten Daten und die daraus bestimmten Werte zu einer Gestensignatur zusammengeführt werden, die mit den Referenzgesten der Hypothesenmenge verglichen werden kann. Anhand der so erkannten Eingabegeste wird die Einrichtung 7 gesteuert.
-
Mit Bezug zu 2 wird ein Fahrzeug mit einem Ausführungsbeispiel des erfindungsgemäßen Systems erläutert. Dabei wird von der obigen Beschreibung des erfindungsgemäßen Systems und Verfahrens ausgegangen.
-
Das erfindungsgemäße System ist in dem Fahrzeug 10 so integriert, dass insbesondere der Fahrer des Fahrzeugs 10 besonders einfach Eingabegesten ausführen kann. Dazu ist im oberen Bereich eine Kamera 1 angeordnet, deren Bilderfassungsraum den mittleren vorderen Bereich im Innenraum des Fahrzeugs 10 umfasst. An der Mittelkonsole ist ein Bildschirm des Radios 7 angeordnet, darunter der Radarsensor 2, der sich insbesondere in der Nähe der Hand des Fahrers befindet, wenn dieser seinen Arm im Bereich der Mittelkonsole ablegt. Dadurch können kleinere Bewegungen, etwa zweier Finger 11a zueinander, erfasst werden.
-
Anhand der durch die Kamera 1 erfassten Bilddaten wird in dem Beispiel bestimmt, an welcher Position sich die Hand des Fahrers befindet und der Radardetektionsraum wird so gebildet, dass er in einem Umfeld der Hand Daten erfasst. Das System kann alternativ oder zusätzlich weitere Kameras 1 umfassen, die etwa Daten in verschiedenen Bereichen des Fahrzeugs 10 erfassen.
-
In einem weiteren Beispiel werden Radardaten in mehreren Teildetektionsbereichen gleichzeitig erfasst. Insbesondere können dadurch zwei Eingabegesten parallel erfasst werden, etwa von einem Fahrer und einem Beifahrer. Dies kann durch mehrere Radarsensoren und/oder einen Radarsensor 2 mit mehreren Teildetektionsbereichen ermöglicht werden. Insbesondere kann anhand der Bilddaten ermittelt werden, welche Person eine Eingabegeste ausführt und es könne verschiedene Systemreaktionen erzeugt werden, beispielsweise um die Bedienung bestimmter Einrichtungen des Fahrzeugs 10 nur einer Person, etwa dem Fahrer, zu ermöglichen.
-
In einem weiteren Ausführungsbeispiel sind die Kamera 1 und der Radarsensor 2 in eine Erfassungseinheit integriert. Insbesondere kann diese Erfassungseinheit so gebildet sein, dass sich der Bilderfassungsraum und der Radardetektionsraum weitgehend überlappen.
-
In einem weiteren Ausführungsbeispiel wird ferner eine Plausibilitätsüberprüfung durchgeführt, wobei Bilddaten und Radardaten verglichen werden. Beispielweise wird überprüft, ob die erfasste Eingabegeste gegenüber den jeweils von den verschiedenen Sensoren erfassten Daten stimmig ist. Werden Widersprüche festgestellt, kann etwa eine neue Eingabe gefordert werden.
-
Bezugszeichenliste
-
- 1
- Bilddatenerfassungseinheit; Kamera
- 1a
- Bilderfassungsraum
- 2
- Radarsensor
- 3
- Signaturbestimmungseinheit
- 4
- Zuordnungseinheit
- 5
- Bildverarbeitungseinheit
- 6
- Steuereinheit
- 7
- Einrichtung; Radio
- 10
- Fahrzeug
- 11
- Hand
- 11a
- Finger
- 12
- Pfeile
- S1
- Erfassung Radardaten
- S2
- Erzeugen Radar-Objektliste
- S3
- Erfassung Bilddaten
- S4
- Erzeugen Bild-Objektliste
- S5
- Sensorfusion und zeitlicher Verlauf
- S6
- Gestenerkennung
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- WO 2012/152475 A1 [0005]
- US 2010/0202656 A1 [0006]
- US 2012/0280900 A1 [0007]