DE102014220302A1

DE102014220302A1 - Echt-Zeit Mehr-Klassen Fahreraktions-Erkennung unter Verwendung eines Random Forest

Info

Publication number: DE102014220302A1
Application number: DE102014220302.3A
Authority: DE
Inventors: wird später genannt werden Erfinder
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2013-10-09
Filing date: 2014-10-07
Publication date: 2015-04-09
Anticipated expiration: 2034-10-08
Also published as: JP6453025B2; JP2015076104A; US9501693B2; US20150098609A1; DE102014220302B4

Abstract

Ein Aktion-Erkennungs-System erkennt Fahreraktionen unter Verwendung eines Random Forest Modells, um Bilder des Fahrers zu klassifizieren. Eine Mehrzahl von Vorhersagen wird unter Verwendung des Random Forest Modells erzeugt. Jede Vorhersage wird von einem Entscheidungsbaum aus der Mehrzahl der Entscheidungsbäume erzeugt und jede Vorhersage umfasst eine vorhergesagte Fahreraktion und einen Konfidenzwert. Die Mehrzahl von Vorhersagen wird in eine Mehrzahl von Gruppen umgruppiert, wobei jede aus der Mehrzahl der Gruppen einer der Fahreraktionen zugeordnet ist. Die Konfidenzwerte werden innerhalb jeder Gruppe kombiniert, um einen kombinierten Wert zu bestimmen, der jeder Gruppe zugeordnet wird. Die Fahreraktion, die dem höchsten kombinierten Wert zugeordnet ist, wird ausgewählt.

Description

Hintergrund
Bereich der Offenlegung
Die vorliegende Offenlegung betrifft im allgemeinen eine Aktionserkennung und im speziellen ein Erkennen von Aktionen eines Fahrers in einem Fahrzeug.
Beschreibung der verwandten Technik
Fahrzeugfunktionen und -merkmale, die für einen Fahrer verfügbar und von diesem geregelt/gesteuert werden, haben sich in den letzten Jahren weiterentwickelt. Viele Fahrzeuge weisen integrierte Rechnersysteme, die verwendet werden können, um den Fahrern bei dem Abrufen und bei dem Weitergeben von relevanter Information zu helfen, auf. Allerdings haben aktuelle Fahrzeugsysteme zu jedem Zeitpunkt wenig oder keinen Einblick in die Aktivität des Fahrers, wodurch es scheitern kann, die Benachrichtigungen zum für den Fahrer sichersten und bequemsten Moment zu liefern. Beispielsweise könnte ein Fahrer eine Benachrichtigung eines integrierten Rechnersystems nicht bemerken, wenn die Benachrichtigung überbracht wird, während der Fahrer eine Aktion durchführt, wie zum Beispiel das Einstellen des Rückspiegels oder das Reichen nach dem Handschuhfach.
Zusammenfassung
Ein nicht-flüchtiges, computer-lesbares Speichermedium und ein Verfahren, das eine Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug durchführt. Ein Computer System erhält ein Bild des Fahrers in dem Fahrzeug. Es wird auf ein Random Forest Modell zugegriffen, das eine Mehrzahl von Entscheidungsbäumen umfasst. Eine Mehrzahl von Vorhersagen wird durch die Verwendung des Random Forest Modell erzeugt. Jede Vorhersage wird von einem Entscheidungsbaum aus der Mehrzahl der Entscheidungsbäume erzeugt und jede Vorhersage umfasst eine vorhergesagte Aktion eines Fahrers und einen Konfidenzwert. Die Mehrzahl der Vorhersagen wird in eine Mehrzahl von Gruppen gruppiert, wobei jede aus der Mehrzahl der Gruppen einer der Fahreraktionen zugeordnet ist. Die Konfidenzwerte werden innerhalb jeder Gruppe kombiniert, um einen kombinierten Wert, der jeder der Gruppen zugeordnet ist, zu bestimmen. Die Fahreraktion, die dem höchsten kombinierten Wert zugeordnet ist, wird gewählt.
In einer anderen Ausführungsform lernt ein Verfahren ein Random Forest Modell zur Aktionserkennung, wobei das Random Forest Modell eine Mehrzahl von Entscheidungsbäumen umfasst. Ein Computersystem erhält eine Mehrzahl von Ausbildungsbildern. Jedes Ausbildungsbild stellt eine Fahreraktion dar, die in einem Fahrzeug durchgeführt wird und hat eine Kennzeichnung, die die Fahreraktion, die durchgeführt wird, identifiziert. Ein Test, entsprechend eines übergeordneten Knotens eines aus der Mehrzahl von Entscheidungsbäumen, wird erzeugt, wobei der Test einen oder mehrere Testparameter umfasst. Der Test wird auf jedes der Ausbildungsbilder angewandt, um jedes Ausbildungsbild in eine Mehrzahl von Bildergruppen, die mindestens eine erste Bildergruppe und eine zweite Bildergruppe enthalten, zu klassifizieren. Das Computersystem bestimmt, ob ein Entropiewert der ersten Bildergruppe unter einen Schwellenwert ist. Als Reaktion auf die Bestimmung, dass der Entropiewert unter dem Schwellenwert ist, erzeugt das Computersystem eine Vorhersage, die auf der ersten Bildergruppe basiert und es wird ein Endknoten, der der Vorhersage zugeordnet ist, als ein untergeordneter Knoten des übergeordneten Knotens erzeugt. Die Vorhersage umfasst eine Fahreraktion und einen Konfidenzwert. Als Reaktion auf die Bestimmung, dass der Entropiewert der ersten Bildergruppe nicht unter dem Schwellenwert ist, wird ein Verteilerknoten, der der ersten Bildergruppe zugeordnet ist, als ein untergeordneter Knoten des übergeordneten Knotens erzeugt.
Die Merkmale und Vorteile, die in der Beschreibung beschrieben sind, sind keinesfalls vollständig aufgeführt und insbesondere werden viele zusätzliche Merkmale und Vorteile dem Fachmann dieses Fachgebietes angesichts der Zeichnungen, der Beschreibung und der Ansprüche offensichtlich sein. Darüber hinaus ist zu beachten, dass die Sprache, die in der Beschreibung benutzt wurde, hauptsächlich aufgrund der Lesbarkeit und zu Anleitungszwecken gewählt wurde; diese wäre nicht ausgewählt worden, um den erfinderischen Gegenstand zu skizzieren und zu umschreiben.
Kurze Beschreibung der Zeichnungen
Die Lehren der vorliegenden Offenbarung können leicht unter Beachtung der folgenden, detaillierten Beschreibung in Verbindung mit den zugehörigen Zeichnungen, verstanden werden.
1A stellt eine beispielhafte Ausbildungsumgebung gemäß einer Ausführungsform dar.
1B stellt eine beispielhafte, in einem Fahrzeug befindliche Rechnerumgebung für mehrere Ausführungsformen des Aktions-Erkennungs-Moduls gemäß einer Ausführungsform dar.
2 ist ein Blockdiagramm, das die Komponenten des Aktions-Erkennungs-Moduls gemäß einer Ausführungsform darstellt.
3 stellt ein Random Forest Modell gemäß einer Ausführungsform dar.
4 ist ein Flussdiagramm, das einen Ausbildungsprozess zum Lernen eines Random Forest Modells gemäß einer Ausführungsform darstellt.
5A stellt ein aufgenommenes 3D Bild dar, von einem Fahrer, der eine Aktion durchführt, gemäß einer Ausführungsform.
5B stellt zwei Regionen, die innerhalb eines 3D Bildes ausgewählt wurden, gemäß einer Ausführungsform dar.
6A stellt ein Flussdiagramm eines Prozesses zur Vorhersage einer Aktion dar, die von einem Individuum in einem aufgenommenen Bild innerhalb einer Fahrzeugumgebung durchgeführt wird, gemäß einer Ausführungsform, unter Verwendung eines Random Forest Modells, dar.
6B stellt einen Beispielprozess zur Vorhersage einer Aktion, die von einem Individuum in einem aufgenommenen Bild innerhalb einer Fahrzeugumgebung durchgeführt wird, gemäß einer Ausführungsform, unter Verwendung eines Random Forest Modells, dar.
7 ist ein Flussdiagramm, das einen Prozess zur Erzeugung einer Mehrzahl von Vorhersagen von einer Aktion, die von einem Individuum in einem aufgenommenen Bild innerhalb einer Fahrzeugumgebung durchgeführt wird, gemäß einer Ausführungsform, darstellt.
Detaillierte Beschreibung der Ausführungsformen
Ausführungsformen werden nun unter Bezugnahme auf die zugehörigen Zeichnungen beschrieben. Gleiche Referenznummern geben identische oder funktionell vergleichbare Elemente an. Außerdem entspricht in den Zeichnungen die äußerste linke Ziffer jeder Referenznummer der Figur, in welcher die Referenznummer zuerst benutzt wird.
Überblick
Ein Aktion-Erkennungs-System erkennt Fahreraktionen unter Verwendung eines Random Forest Modells, um dreidimensionale (3D) Bilder des Fahrers, basierend auf einer Aktion, die von dem Fahrer durchgeführt wird, während das 3D Bild aufgenommen wird, zu klassifizieren. Aktionen können beispielsweise normales Fahren, Reichen nach der Mittelkonsole, Reichen nach dem Handschuhfach, Reichen nach einem Überkopffach, Einstellen des Radios, Sprechen in das Telefon, Essen, Trinken, Schreiben einer SMS, Lesen einer Karte, Aufbringen von Kosmetik, Winken, Reichen in den Hintersitz, Einstellen eines Spiegels und andere übliche Aktionen, die von einem Fahrer ergriffen werden, umfassen.
In einer Ausbildungsphase wird das Random Forest Modell durch einen Satz gekennzeichneter Ausbildungsbilder gelernt. Das Random Forest Modell umfasst mehrere Entscheidungsbäume. In Betrieb nimmt eine 3D-Kamera ein 3D-Bild des Fahrers auf, das Aktions-Erkennungs-System wendet jeden Entscheidungsbaum, der in der Ausbildungsphase gelernt wurde, auf das 3D-Bild an und jeder Entscheidungsbaum erzeugt eine gesonderte Vorhersage der Aktion, die von dem 3D-Bild aufgenommen wurde. Die Vorhersage von jedem Entscheidungsbaum umfasst auch einen Konfidenzwert, der die Konfidenz im Zusammenhang mit der Vorhersage angibt. Nach einer Erzeugung von Vorhersagen für jeden Entscheidungsbaum in dem Random Forest Modell kombiniert das Aktions-Erkennungs-System die Konfidenzwerte, die jeder Fahreraktion zugeordnet sind und wählt die Fahreraktion mit dem höchsten kombinierten Wert aus.
System und Ausbildungsumgebung
1A stellt eine beispielhafte Ausbildungsumgebung 100 für mehrere Ausführungsformen dar. Die beispielhafte Ausbildungsumgebung 100 umfasst ein Ausbildungssystem 102. Das Ausbildungssystem 102 empfängt einen Satz Ausbildungsbilder 108 als Eingaben. Die Ausbildungsbilder 108 umfassen Bilder eines Fahrers, der mehrere Aktionen in einer Fahrzeugumgebung durchführt, die von dem Ausbildungssystem 102 gelernt werden. Die offengelegten Verfahren können auch auf einen Fahrgast des Fahrzeugs oder ein anderes Subjekt angewendet werden.
Jedes Ausbildungsbild ist mit einer Fahreraktion, die die Aktion angibt, die durchgeführt wurde, als das Bild aufgenommen wurde, gekennzeichnet. Basierend auf den Ausbildungsbildern 108 erzeugt das Ausbildungssystem 102 ein Random Forest Modell 110, das die Ausbildungsbilder auf die Aktionen abbildet.
Das Ausbildungssystem 102 umfasst einen Speicher 104 und einen Prozessor 106. Der Speicher 104 umfasst ein nicht-flüchtiges, computer-lesbares Speichermedium, das durch den Computer ausführbare Befehle für eine Durchführung der Funktionen, die dem Ausbildungssystem 102 zugeschrieben werden, speichert. Der Speicher 104 kann zusätzlich die Ausbildungsbilder 108, das Random Forest Modell 110 oder andere Zwischendaten, die während des Ausbildungsprozesses erzeugt werden, speichern. Der Prozessor 128 verarbeitet Datensignale und kann mehrere Rechnerarchitekturen, umfassend eine Rechnerarchitektur mit komplexen Befehlssatz (CISC), eine Rechnerarchitektur mit reduzierten Befehlssatz (RISC) oder eine Architektur, die eine Kombination von Befehlssätzen implementiert, umfassen. Obwohl nur ein Prozessor in 1A gezeigt wird, können mehrere Prozessoren umfasst sein. Die Prozessoren können eine arithmetische Logikeinheit, einen Mikroprozessor, einen Universal-Computer oder einige andere Informationsvorrichtungen, die dazu ausgestattet sind, elektronische Datensignale von dem Speicher 104 und anderen Vorrichtungen, die sowohl in den Zeichnungen gezeigt als auch nicht gezeigt sind, zu übertragen, empfangen und zu verarbeiten.
In Betrieb lädt und führt der Prozessor 106 die Befehle, die in dem Speicher 104 gespeichert sind, durch, um den darin beschriebenen Ausbildungsprozess auszuführen. Eine Ausführungsform eines Prozesses, der von dem Ausbildungssystem 102 durchgeführt wird, wird im Folgenden ausführlich in Bezug auf 4 beschrieben.
1B stellt eine beispielhafte Betriebsumgebung 120 für unterschiedliche Ausführungsformen dar. Die beispielhafte Betriebsumgebung 120 umfasst ein im Fahrzeug befindliches Rechnersystem 122. In einer Ausführungsform erzeugt das in dem Fahrzeug befindliche Rechnersystem 122 eine endgültige Vorhersage 114 der Aktion des Fahrers basierend auf einem dreidimensionalen (3D) Bild 112 des Fahrers, der die Aktion durchführt und auf dem Random Forest Modell 110. Beispielsweise nimmt das in dem Fahrzeug befindliche Rechnersystem 122 ein Bild des Fahrers auf und sagt voraus, ob der Fahrer eine SMS schreibt, nach dem Handschuhfach reicht, einen Spiegel einstellt, usw.
Das in dem Fahrzeug befindliche Rechnersystem 120 umfasst einen Speicher 124 und einen Prozessor 128. Der Speicher 124 umfasst ein nicht-flüchtiges, computer-lesbares Speichermedium, das computer-ausführbare Befehle zur Durchführung der Funktionen, die dem in dem Fahrzeug befindlichen Rechnersystem 122 zugeschrieben werden, speichert. Der Prozessor 128 verarbeitet Datensignale und kann mehrere Rechnerarchitekturen, umfassend eine Rechnerarchitektur mit komplexen Befehlssatz (CISC), eine Rechnerarchitektur mit reduzierten Befehlssatz (RISC) oder eine Architektur, die eine Kombination von Befehlssätzen implementiert, umfassen. Obwohl nur ein Prozessor in 1B gezeigt wird, können mehrere Prozessoren umfasst sein. Die Prozessoren können eine arithmetische Logikeinheit, einen Mikroprozessor, einen Universal-Computer oder einige andere Informationsvorrichtungen, die dazu ausgestattet sind, elektronische Datensignale von dem Speicher 124 und anderen Vorrichtungen, die sowohl in den Zeichnungen gezeigt als auch nicht gezeigt sind, zu übertragen, empfangen und zu verarbeiten. Im Betrieb lädt der Prozessor 128 die Befehle, die in dem Speicher 124 gespeichert sind und führt sie durch, um den Erkennungsprozess, der darin beschrieben ist, auszuführen.
Die beispielhafte Betriebsumgebung 120 umfasst auch Eingabegeräte, wie zum Beispiel ein Kamerasystem 130 und ein Mikrofon 132. In einer Ausführungsform umfasst das Kamerasystem 130 einen Sensor der physikalische Signale aus dem Inneren des Fahrzeugs (zum Beispiel eine Laufzeitkamera, einen Infrarotsensor, eine traditionelle Kamera, usw.) aufnimmt. Das Kamerasystem 130 ist innerhalb des Fahrzeugs positioniert um Haltungen eines Fahrers aufzunehmen. Das Kamerasystem 130 kann eine einzelne Kamera, die auf eine aufzunehmende Region (zum Beispiel den Fahrersitz) gerichtet ist und ein weites Sichtfeld hat und Signale von mehr als einem Insassen des Fahrzeugs erhalten kann oder ihr Sichtfeld ändern kann, um Signale von verschiedenen Insassenpositionen zu erhalten, sein. In einer Ausführungsform nimmt die Kamera 130 3D Bilder auf, die Tiefendaten umfassen.
Nachdem das Kamerasystem 130 ein physikalisches Signal aufgenommen hat, gibt es ein Datensignal, das das physikalische Signal darstellt, aus. Das Format des Datensignals kann, basierend auf dem Typ des Sensors/der Sensoren, welche dazu benutzt wurde(n) das physikalische Signal aufzunehmen, variieren. Beispielsweise, wenn ein traditioneller Kamerasensor benutzt wurde, um die visuelle Darstellung des physikalischen Signals aufzunehmen, dann kann das Datensignal ein Bild oder eine Sequenz von Bildern (zum Beispiel ein Video) sein. In Ausführungsformen, wo ein anderer Sensortyp benutzt wird, ist das Datensignal eine abstraktere oder übergeordnete Darstellung des physikalischen Signals. In einer Ausführungsform umfasst das Kamerasystem 130 zwei oder mehr Kameras, die Tiefendaten mittels Verfahren wie Triangulation oder Stereovision oder Laufzeit zur Verfügung stellen.
Das Mikrofon 132 kann Audiosignale aus dem Inneren des Fahrzeugs aufnehmen. In einer Ausführungsform kann das Mikrofon 132 so positioniert sein, dass es empfindlicher auf Geräusche, die von einer bestimmten Position (zum Beispiel der Position des Fahrers) ausgehen, als von anderen Positionen (zum Beispiel anderen Insassen) ist. Beispielsweise kann das Mikrofon 132 in der Kabine oder in Richtung der Kabine weisend, positioniert sein und es kann an der Decke, an der Nackenstütze, am Armaturenbrett oder an anderen Orten in/auf dem Fahrzeug befestigt sein.
Ein Aktions-Erkennungs-Modul 138 stellt einen Computerbefehl im Speicher 124 dar, wo die Befehle sind, um das Random Forest Modell 110 herbeizuführen, um eine Vorhersage einer Aktion, die von dem Fahrer in dem Fahrzeug durchgeführt wird, zu bestimmen. Der Prozessor 128 greift auf die Computerbefehle des Aktions-Erkennungs-Moduls 138 im Speicher 124 zu, um das Random Forest Modell 110 mit dem aufgenommenen 3D-Bild herbeizuführen und eine Vorhersage der Aktion, die vom Fahrer durchgeführt wird, zu erzeugen. Eine Rückmeldung in Bezug auf die Vorhersage kann über ein oder mehrere Ausgabegeräte ausgegeben werden, dies wird in dem folgenden Paragraphen näher beschrieben. In einer anderen Ausführungsform verändert das in dem Fahrzeug befindliche Rechnersystem 122 andere Systemfunktionen unter Benutzung der Rückmeldung von dem Aktions-Erkennungs-Modul 138. Beispielsweise sendet das in dem Fahrzeug befindliche Rechnersystem 122 einen Befehl eine Benachrichtigung zu verzögern, falls der Fahrer eine Aktion durchführt, die den Fahrer veranlassen kann, die Benachrichtigung zu verpassen oder falls die Auslieferung der Benachrichtigung gefährlich wäre, weil der Fahrer bereits abgelenkt ist (zum Beispiel wenn der Fahrer nach dem Handschuhfach reicht).
Die Betriebsumgebung 120 umfasst auch Ausgabegeräte wie zum Beispiel eine Anzeige 134 und einen Lautsprecher 136. Die Anzeige 134 empfängt ein Videosignal und zeigt dieses an. Die Anzeige 134 kann in das Fahrzeug integriert sein (zum Beispiel eine LCD-Anzeige in der Mittelkonsole, ein Head-Up-Display auf der Windschutzscheibe). In einer Ausführungsform stellt die Anzeige 134 eine Benutzeroberfläche dar, die dem Benutzer erlaubt, Einstellung von mehreren Komponenten in dem Fahrzeug zu ändern. Der Lautsprecher 136 empfängt ein Audiosignal und gibt dieses wieder. Der Lautsprecher 136 kann, ähnlich wie die Anzeige 134, in das Fahrzeug integriert sein.
In unterschiedlichen Ausführungsformen kann das in dem Fahrzeug befindliche System 122 verschiedene oder zusätzliche Komponenten umfassen oder Funktionen können anders zwischen den Komponenten verteilt sein. Darüber hinaus kann das Ausbildungssystem 102 in einer Ausführungsform ein Teil des in dem Fahrzeug befindlichen Rechnersystems 122 sein und als integriertes System arbeiten.
2 ist ein Blockdiagramm, das die Komponenten des Aktions-Erkennungs-Moduls 138 des in dem Fahrzeug befindlichen Rechnersystems 122 aus 1B gemäß einer Ausführungsform darstellt. Das Aktions-Erkennungs-Modul 138 umfasst ein Bild-Abruf-Modul 202, ein Modell-Zugriffs-Modul 204, ein Modell-Herbeiführungs-Modul 206 und ein Endgültige-Vorhersage-Erzeugungs-Modul 208. In alternativen Ausführungsformen umfasst das Aktions-Erkennungs-Modul 138 zusätzliche, weniger oder andere Komponenten und die Funktionalität der Komponenten 202, 204, 206, 208, wie sie hier beschrieben ist, kann zwischen den Komponenten des Aktions-Erkennungs-Moduls 138 in einer anderen Weise verteilt sein. Ein Prozess, der von dem Aktions-Erkennungs-Modul 138 in einer Ausführungsform durchgeführt wird, ist in dem Verfahren, das in 6A gezeigt wird, näher beschrieben.
Das Bild-Abruf-Modul 202 greift auf das Datensignal oder das 3D-Bild 112, das in das Kamerasystem 130 eingespeist wird, zu. Wie obenstehend in Bezug auf das Kamerasystem 130 beschrieben, ist das Datensignal eine elektronische Darstellung des Fahrers, der eine Aktion in dem Fahrzeug durchführt.
Das Modell-Zugriffs-Modul 204 greift auf das Random Forest Modell 110, das in dem in dem Fahrzeug befindlichen Rechnersystem 122 gespeichert ist, zu. In einer Ausführungsform ist das Random Forest Modell 110 eine Ausgabe des Ausbildungssystems 102. In anderen Ausführungsformen ist das Random Forest eine Ausgabe des in dem Fahrzeug befindlichen Rechnersystems 122.
Das Modell-Herbeiführungs-Modul 206 wendet das Random Forest Modell 110 auf das 3D-Bild 112 an. Jeder Entscheidungsbaum des Random Forest Modell 110 gibt eine Vorhersage, die eine vorhergesagte Fahreraktion und einen Konfidenzwert umfasst, aus, wobei dies zu einer Mehrzahl von Vorhersagen für das 3D-Bild führt.
Das Endgültige-Vorhersage-Erzeugungs-Modul 208 gruppiert die Mehrzahl der Vorhersagen nach Fahreraktion. Für jede Gruppe werden die Konfidenzwerte jeder Vorhersage in der Gruppe kombiniert. Beispielsweise stellen die Konfidenzwerte in einer Ausführungsform eine gewichtete Stimme für eine bestimmte Aktion dar, die zusammengezählt werden, um einen kombinierten Wert zu erzeugen. Es ist zu beachten, dass der kombinierte Wert in dieser Ausführungsform keine Konfidenz für die Aktion für das ganze Random Forest darstellt, da dieser über 100% sein kann. Das Endgültige-Vorhersage-Erzeugungs-Modul 208 wählt die Gruppe mit dem höchsten kombinierten Wert als die Ausgabe der endgültigen Vorhersage des Random Forest Modells 110 aus. Ein Beispiel-Prozess würde wie folgt sein: eine erste Gruppe kann drei Vorhersagen mit den Konfidenzwerten 25%, 50% und 5% aufweisen und eine zweite Gruppe kann zwei Vorhersagen mit den Konfidenzwerten 91% und 1% aufweisen. Der kombinierte Wert ist für die erste Gruppe 80% und 92% für die zweite Gruppe, welches Additionen von gewichteten Stimmen für jede Aktion darstellt, wobei die Konfidenzwerte als Gewichte benutzt werden. Die endgültige Vorhersage 114 des Random Forest Modells 110 wird die zweite Gruppe mit dem kombinierten Wert von 92% sein.
3 ist ein Beispiel einer Ausführungsform eines Random Forest Modells 110. Das Random Forest Modell 110 umfasst einen oder mehr Entscheidungsbäume 302. Jeder Entscheidungsbaum 302 umfasst einen oder mehrere Verteilerknoten 304 und einen oder mehrere Endknoten 306. Jeder Verteilerknoten 304 ist einem Test zugeordnet, der auf die Bilder, die diesem Knoten zugeführt werden, angewendet wird. Der Test klassifiziert das Bild und bestimmt, ob das Bild zu dem linken oder rechten untergeordneten Knoten weitergeleitet wird. Jeder Verteilerknoten verarbeitet in gleicher Weise das Bild bis ein Endknoten 306 erreicht wird. Vorhersagen der Fahreraktion 108, wie auch ein Konfidenzwert, sind jedem Endknoten 306 zugeordnet. Daher erzeugt der Entscheidungsbaum eine Vorhersage und einen Konfidenzwert für jedes Bild in Abhängigkeit davon, welchen Endknoten das Bild erreicht. Das Random Forest Modell 110 umfasst mehrere Entscheidungsbäume, die auf jedes Bild angewendet werden. Daher erzeugt das Random Forest Modell 110 mehrere Vorhersagen für ein gegebenes Bild entsprechend der Endknoten 306, die in jedem Entscheidungsbaum 302 erreicht werden.
4 ist eine Ausführungsform eines Prozesses der von dem Ausbildungssystem 102 zur Erzeugung des Random Forest Modells 110 basierend auf den Ausbildungsbildern 108 durchgeführt wird. Das Ausbildungssystem 102 erhält 402 Ausbildungsbilder 108. In einer Ausführungsform stellen die Ausbildungsbilder 108 einen Fahrer dar und werden, während der Fahrer eine bestimmte Aktion durchführt, auf dem Video aufgenommen. Für jede Aktion können die Ausbildungsbilder 108 Bilder umfassen, die zu verschiedenen Zeitpunkten während der Aktion aufgenommen wurden. Darüber hinaus können die Ausbildungsbilder 108 Bilder von den Aktionen, die von verschiedenen Ausbildungssubjekten mit unterschiedlichen äußeren Erscheinungsbildern und Bewegungscharakteristiken durchgeführt werden, umfassen. Jedes Ausbildungsbild 108 ist mit der Aktion gekennzeichnet, die bei der Aufnahme des Bildes durchgeführt wurde. Beispiele von Aktionen können beispielsweise normales Fahren, Reichen nach der Mittelkonsole, Reichen nach dem Handschuhfach, Reichen nach einem Überkopffach, Einstellen des Radios, Sprechen in das Telefon, Essen, Trinken, Schreiben einer SMS, Lesen einer Karte, Aufbringen von Kosmetik, Winken, Reichen in den Hintersitz, Einstellen eines Spiegels und andere übliche Aktionen, die von einem Fahrer ergriffen werden, umfassen. Ein Beispiel eines Ausbildungsbildes 108 ist in 5A gezeigt. In diesem Beispiel werden die Tiefendaten durch die Intensität der Pixel (zum Beispiel erscheinen Objekte, die näher an der Kamera sind dunkler und Objekte die von der Kamera weiter entfernt sind heller) repräsentiert.
Das Ausbildungssystem 102 wählt 404 eine Teilmenge von Ausbildungsbildern. In einer Ausführungsform wählt das Ausbildungssystem 102 die Teilmenge der Bilder zufällig. In einer anderen Ausführungsform wird die Teilmenge der Ausbildungsbilder ausgewählt, um sicherzustellen, dass sie Bilder umfasst, die einer Mehrzahl von verschiedenen Aktionen entsprechen und/oder eine Mehrzahl von verschiedenen Individuen, die eine Aktion durchführen, darstellen.
Das Ausbildungssystem 102 bestimmt 406 ob eine Anhalte-Bedingung erfüllt ist. In einer Ausführungsform kann die Anhalte-Bedingung erfüllt sein, wenn die Entropie der gewählten Teilmenge von Ausbildungsbildern unter einen Entropie-Schwellenwert fällt. Eine Berechnung des Entropiewerts wird näher in Bezug auf Schritt 414 weiter unten beschrieben. Außerdem kann die Anhalte-Bedingung erfüllt sein, wenn eine maximale Tiefe des Baums erreicht ist.
Wenn die Anhalte-Bedingung nicht erfüllt ist, erzeugt 408 das Ausbildungssystem 102 einen Test für den aktuellen Knoten des Entscheidungsbaums der trainiert wird. Beispielsweise wird in einer Ausführungsform ein Test, der die folgende allgemeine Form hat, erzeugt:
wobei I^f ein Merkmal eines Pixels q darstellt, F₁ eine erste Region eines Bildes darstellt, F₂ eine zweite Region eines Bildes darstellt und τ einen Entscheidungsschwellenwert darstellt. Der Test bestimmt, ob der Unterschied in den mittleren Merkmalswerten zwischen der ersten Region und der zweiten Region größer oder kleiner als ein Schwellenwert ist. Allgemeiner gesagt, stellt der Test einen Hinweis zur Verfügung, ob die Regionen F₁ und F₂ einer bestimmten Region einen Ähnlichkeits-Schwellenwert erfüllen.
In einer Ausführungsform umfasst ein Erzeugen des Tests ein Erzeugen von Werten (zum Beispiel zufällig) für die Parameter der obenstehenden Formel. Beispielsweise umfasst ein Erzeugen des Tests in einer Ausführungsform ein Auswählen der Lage und der Größe der ersten Region F₁ und der Lage und der Größe der zweiten Region F₂, ein Auswählen des Merkmals I^f und ein Auswählen des Schwellenwerts τ. Das Merkmal I^f kann zum Beispiel einen Tiefenwert, eine x-Koordinate einer Flächennormalen, eine y-Koordinate der Flächennormalen oder eine z-Koordinate der Flächennormalen umfassen. Die erste Region F₁ und die F₂ zweite Region werden beispielsweise durch ein Auswählen des x- und y-Bereichs der Regionen ausgewählt. In einer Ausführungsform wird eine maximale Regionsgröße erzwungen (zum Beispiel 100 Pixel auf 100 Pixel). 5B stellt ein Beispiel von zwei zufällig ausgewählten Regionen für ein Beispielbild dar. Der Schwellenwert kann zufällig oder intelligent als eine Funktion der anderen Parameter für einen Test an einem bestimmten Knoten ausgewählt werden.
Dann testet 410 das Ausbildungssystem 102 jedes Bild in der Teilmenge der Ausbildungsbilder 108. Basierend auf dem Ergebnis des Tests für jedes Bild wird die Teilmenge in zwei Gruppen geteilt 412, somit werden zwei untergeordnete Knoten geschaffen. Beispielsweise werden nach Anwenden des Tests Bilder, die ein Ergebnis, das weniger als der Schwellenwert ist, ergeben, dem linken untergeordneten Knoten zugewiesen, und Bilder, die ein Ergebnis, das größer als der Schwellenwert ist, ergeben, dem rechten untergeordneten Knoten zugewiesen (oder umgekehrt).
Um die Wirksamkeit des Tests zu bewerten, wird ein Informationsgewinn (IG) des Tests bestimmt 414. Der IG quantifiziert, wie gut die Bilder in die zwei untergeordneten Knoten aufgrund des Entropiewerts klassifiziert wurden. In einer Ausführungsform wird die Entropie H(s) einer bestimmten Teilmenge von Ausbildungsbildern unter Verwendung der folgenden Gleichung berechnet:
wobei T die Anzahl der Bilder in einer ursprünglichen Teilmenge (zum Beispiel eines übergeordneten Knotens) ist, i eine Aktionskennzeichnung darstellt und p(i, s) einen Anteil der s Bilder die die Kennzeichnung i haben, darstellt. Eine Zunahme der Regelmäßigkeit oder der Einheitlichkeit der Teilmenge wird durch eine Abnahme der Entropie angegeben. Der IG wird unter Verwendung der Gleichung IG = H(T) – [ |L|H(L) + |R|H(R) / |T|] berechnet, wobei L die Anzahl der Bilder der ursprünglichen Teilmenge, die dem linken Zweig, basierend auf dem Testergebnis, zugewiesen wurden, darstellt und R die Anzahl der Bilder der ursprünglichen Teilmenge, die dem rechten Zweig, basierend auf dem Testergebnis, zugewiesen wurden, darstellt.
Der IG und der Test (dargestellt durch die ausgewählten Parameter) sind in in einer Reihe gespeichert 416. In einer Ausführungsform speichert die Reihe den Test für einen aktuellen Knoten nur, wenn er einen höheren IG hat als zuvor gespeicherte Tests. Beispielsweise wird in einem iterativen Prozess, während ein neuer Test erzeugt wird, der neue IG mit dem IG, der in der Reihe gespeichert ist, verglichen. Wenn der neue Test einen höheren IG hat, wird der neue Test in der Reihe platziert und der zuvor gespeicherte Test wird entfernt.
Das Ausbildungssystem 102 bestimmt 418 dann, ob eine ausreichende Anzahl von Iterationen durchgeführt wurde. Die Bestimmung kann beispielsweise auf dem Erreichen von einer vorbestimmten Anzahl von Tests für den aktuellen Knoten oder auf einem Befund basieren, dass ein Test einen IG über einen vorbestimmten Schwellenwert aufweist. Wenn das Ausbildungssystem bestimmt, dass weitere Iterationen durchgeführt werden sollen, wiederholt der Prozess den Schritt 408 und ein anderer Test wird für den aktuellen Knoten erzeugt (zum Beispiel durch auswählen anderer Regionen, Merkmale und/oder Schwellenwerte). Wenn das Ausbildungssystem stattdessen bestimmt, dass zusätzliche Iterationen nicht gebraucht werden, wählt 420 das Ausbildungssystem 102 den Test mit dem höchsten IG aus. Der Test mit dem höchsten IG wird als der Test für den aktuellen Knoten, der trainiert wird, gespeichert 422 (zum Beispiel durch Speichern von den ausgewählten Parameterwerten).
Das Ausbildungssystem 102 speichert 424 dann die entstandenen Bildergruppen, die den untergeordneten Knoten als Teilmengen zugeordnet sind. Der Prozess führt dann eine Schleife zu Schritt 406 aus und die anschließenden Schritte werden gesondert für jede der Teilmengen, die den untergeordneten Knoten zugeordnet sind, durchgeführt.
Zurückkehrend zu dem Anhalte-Bedingungs-Schritt 406, wählt 426 das Ausbildungssystem 102, wenn eine der Anhalte-Bedingungen in Schritt 406 erfüllt ist, die Fahreraktion mit dem höchsten Konfidenzwert in der Teilmenge aus. In einer Ausführungsform wird die Konfidenz basierend auf einem Verhältnis der Anzahl von Bildern, die mit der vorhergesagten Fahreraktion gekennzeichnet sind, zu der Gesamtanzahl der Bilder in der Teilmenge für den Knoten, der die Anhalte-Bedingung erfüllt, oder als Prozentsatz der Bilder, die die vorhergesagte Fahreraktion haben, berechnet. Beispielsweise ist die Konfidenz für die Fahreraktion eine SMS schreiben das Verhältnis der Bilder in den Ausbildungsbildern an dem Endknoten, die mit eine SMS schreiben gekennzeichnet sind, zu der Gesamtanzahl der Bilder, die diesen Knoten erreichen. In anderen Ausführungsformen stützt sich die Konfidenz auf zusätzliche Faktoren, wie Gewichte für verschiedene Fahreraktionen.
Das Ausbildungssystem 102 kennzeichnet den Knoten als Endknoten und speichert 428 die Vorhersage in Verbindung mit dem Knoten. Wenn die Anzahl von fertiggestellten Bäumen in dem Random Forest gleich 430 einem Maximum von Bäumen ist, dann beendet 432 das Ausbildungssystem 102 das Lernen der Ausbildungsbilder 108. In einer Ausführungsform ist die maximale Anzahl der Bäume in dem Random Forest sechs, obwohl eine andere beliebige Anzahl in Abhängigkeit von der gewünschten Abwägung zwischen Geschwindigkeit, Speicher, Stabilität oder anderen Faktoren, verwendet werden kann. Ansonsten wählt 404 das Ausbildungssystem 102 eine andere Teilmenge der Ausbildungsbilder 108 aus und wiederholt die darauffolgenden Schritte.
Erkennung von Fahreraktionen mit Random Forests
6A stellt eine Ausführungsform eines Prozesses, der von dem Aktions-Erkennungs-Modul 138 durchgeführt wird, dar. Das Aktions-Erkennungs-Modul 138 empfängt 602 ein 3D-Bild des Fahrers, der eine Aktion in dem Fahrzeug durchführt. Das Modul 138 greift 604 auf das Random Forest Modell 110 zu. Das in dem Fahrzeug befindliche Rechnersystem 122 veranlasst das Random Forest Modell 110 eine Mehrzahl von Vorhersagen zu erzeugen 606. In diesem Prozess wird der gelernte Test, beginnend an dem obersten Verteilerknoten des Entscheidungsbaums, mit dem Ergebnis des Tests, der bestimmt, ob sich zu dem rechten oder linken untergeordneten Knoten des Entscheidungsbaums bewegt werden soll, angewendet. Wenn ein Verteilerknoten erreicht wird, speichert das Aktions-Erkennungs-Modul 138 die Vorhersage und den entsprechenden Konfidenzwert, die dem Verteilerknoten zugeordnet sind. Dieser Prozess wird für jede der Entscheidungen durchgeführt, wobei jeder Baum eine Vorhersage und einen entsprechenden Konfidenzwert ergibt.
Das in dem Fahrzeug befindliche Rechnersystem 122 gruppiert 608 die Vorhersagen basierend auf den Fahreraktionen über alle Entscheidungsbäume. Beispielsweise würden alle Bilder, von denen vorhergesagt wird, dass sie die Fahreraktion eine SMS schreiben haben, zusammen gruppiert und alle Bilder, von denen vorhergesagt wird, dass sie die Fahreraktion Essen haben, würden zusammen gruppiert. Dann werden die Konfidenzwerte von jeder Vorhersage in einer gegebenen Gruppe zu einem kombinierten Wert kombiniert 610, der die Addition der gewichteten Stimmen, wobei die einzelnen Konfidenzwerte als Gewichte benutzt werden, darstellt. Beispielsweise würde der kombinierte Wert, wenn drei der Entscheidungsbäume in dem Random Forest Modell „eine SMS schreiben” als die Fahreraktion mit Konfidenzwerten von jeweils 22%, 78%, und 50% vorhersagen, 22% + 78% + 50% sein, das den kombinierten Wert auf 150% kombiniert. In einer alternativen Ausführungsform kann eine andere Methode zur Kombination der Werte verwendet werden, wie beispielsweise ein Berechnen einer gewichteten Kombination, eines mittleren Werts, eines Mittelwerts usw.. Die Fahreraktion mit dem höchsten kombinierten Wert wird als die endgültige Vorhersage 114 für das Bild ausgewählt 612.
6B ist ein Diagramm, das eine Ausführungsform eines Prozesses zur Erkennung einer Aktion, wie auf ein Beispielbild angewendet, darstellt. Jeder Entscheidungsbaum des Random Forest wird auf das Bild angewendet, wobei jeder Entscheidungsbaum eine Vorhersage und einen Konfidenzwert für diese Vorhersage erzeugt. Die Vorhersagen für das Bild werden basierend auf der Fahreraktion gruppiert. In dem Beispiel von 6B ergibt der erste Entscheidungsbaum eine Vorhersage von „eine SMS schreiben” mit einem Konfidenzwert von 43%, der zweite Entscheidungsbaum ergibt eine Vorhersage von „Essen” mit einem Konfidenzwert von 57% und der dritte Entscheidungsbaum ergibt eine Vorhersage von „eine SMS schreiben” mit einem Konfidenzwert von 38%. Die Vorhersagen werden dann anhand der vorhergesagten Aktion gruppiert. Die Konfidenzwerte in jeder Gruppe werden kombiniert. Beispielsweise werden die Konfidenzwerte von 43% und 38% in der Fahreraktionsgruppe für ”eine SMS schreiben” kombiniert, um einen kombinierten Wert von 81% für „eine SMS schreiben” zu ergeben. Die Fahreraktionsgruppe für „Essen” umfasst in diesem Beispiel nur eine Vorhersage mit einem Konfidenzwert von 57%. In diesem Beispiel hatte die „eine SMS schreiben” Vorhersage den höchsten kombinierten Konfidenzwert von 81% und wird als endgültige Vorhersage 114 ausgewählt.
7 stellt eine Ausführungsform eines Prozesses zur Erzeugung 606 der Mehrzahl von Vorhersagen dar. Das in dem Fahrzeug befindliche Rechnersystem 122 bestimmt 702, ob der aktuelle Knoten des aktuell durchlaufenen Entscheidungsbaums ein Verteilerknoten 304 oder ein Endknoten 306 ist. Wenn der aktuelle Knoten ein Verteilerknoten 304 ist, wird der Test, der dem aktuellen Knoten zugeordnet ist, auf das 3D Bild angewendet 704. Das in dem Fahrzeug befindliche Rechnersystem 122 bestimmt 706, basierend auf dem Ergebnis des angewandten Tests, ob zu dem linken oder dem rechten untergeordneten Knoten abgezweigt wird. Der Prozess kehrt dann für den nächsten Knoten wiederholend zu Schritt 702 zurück. Wenn der aktuelle Knoten ein Endknoten 306 in Schritt 702 ist, wird eine Vorhersage, die dem aktuellen Knoten zugeordnet ist, als Vorhersage für den Entscheidungsbaum ausgegeben 708. Wenn der Entscheidungsbaum der letzte Entscheidungsbaum 710 in dem Random Forest Modell 110 ist, hält 712 das in dem Fahrzeug befindliche Rechnersystem 122 ein Erzeugen von weiteren Vorhersagen an. Andernfalls kehrt der Prozess zu Schritt 702 für den nächsten Entscheidungsbaum in dem Random Forest Modell zurück.
In einer alternativen Ausführungsform können Vorhersagen, anstatt eines Bestimmens jeder Vorhersage auf einer Bild-Frame-(Bild-Einzelbild)-zu-Bild-Einzelbild-Basis, auf mehreren Bild-Einzelbildern und gelernten Zustandsübergangswahrscheinlichkeiten basieren. In dieser Ausführungsform werden aufeinander folgende Bilder eines Videodatenstroms, während die Vorhersagen gemacht werden, ausgewertet. Hier umfasst die obig diskutierte Lernstufe das Lernen von Zustandsübergangswahrscheinlichkeiten zwischen Aktionen, die eine Wahrscheinlichkeit anzeigen, dass eine Aktion zu einer anderen Aktion in aufeinander folgenden Bildern des Videos wechselt. Dann werden diese Zustandsübergangswahrscheinlichkeiten benutzt, beispielsweise als Gewichte, die verschiedenen Vorhersagen zugeordnet sind, wenn Vorhersagen erzeugt werden. Beispielsweise kann dann der Wert der einem Aktionskennzeichen B für Bild i + 1 zugeordnet ist, falls dem aktuellen Bild I ein Aktionskennzeichen A gegeben ist, basierend auf (i) einer Wahrscheinlichkeit des Aktionskennzeichen (zum Beispiel Kennzeichen B) des Bildes i + 1 basierend auf dem Bild i + 1 alleine; und (ii) einer Wahrscheinlichkeit eines Übergangs von Zustand A zu Zustand B, bestimmt werden. In einer Ausführungsform werden die gewichteten Werte benutzt, um die Vorhersage zu bestimmen. In einer anderen Ausführungsform wird eine Vorhersage nur getroffen, wenn die gewichtete Konfidenz einen Schwellenwert übersteigt, was während der Ausbildung gelernt werden kann.
In einem ersten Beispiel, falls jedes Bild-Einzelbild des Videodatenstroms in das Random Forest Modell 110 durch Entscheidungsbäume für eine endgültige Vorhersage 114 eingeleitet wurde, sagt ein erstes Bild-Einzelbild eine „eine SMS schreiben” Aktion voraus. Ein zweites Bild-Einzelbild, das dem ersten Bild-Einzelbild unmittelbar folgt, umfasst zugleich „Essen” (zum Beispiel einen Wert von 80%) und „eine SMS schreiben” (zum Beispiel einen Wert von 55%) als Vorhersage von verschiedenen Entscheidungsbäumen, wobei jeder verschiedene Konfidenzwerte aufweist. Unter Benutzung des Zustandsübergangs-Diagramms von verschiedenen Aktions-Übergangs-Wahrscheinlichkeiten, können die Übergangs-Wahrscheinlichkeiten als Gewichte, um die endgültige Vorhersage zu bestimmen, benutzt werden. Beispielsweise kann die Übergangswahrscheinlichkeit von „eine SMS schreiben” zu „Essen” relativ gering sein (zum Beispiel 10%), während diese von „eine SMS schreiben” zu „eine SMS schreiben” relativ hoch ist (zum Beispiel 75%). Aufgrund der höheren Zustandsübergangswahrscheinlichkeit kann das System „eine SMS schreiben” als die endgültige Vorhersage wählen, auch wenn „Essen” einen höheren Wert, basierend auf dem zweiten Bild-Einzelbild allein, hatte.
Zusätzliche Überlegungen
Wird in der Beschreibung auf „die eine Ausführungsform” oder allgemein auf „eine Ausführungsform” Bezug genommen, bedeutet das, dass ein spezielles Merkmal, Struktur oder Charakteristik, welche/welcher/welches im Zusammenhang mit den Ausführungsformen beschrieben ist, von mindestens einem Ausführungsbeispiel umfasst ist. Das Auftreten der Wendung „in dieser einen Ausführungsform” oder allgemein „in einer Ausführungsform” an mehreren Stellen in der Beschreibung bezieht sich nicht notwendigerweise auf dieselbe Ausführungsform.
Einige Teile der ausführlichen Beschreibung, die folgt, sind in Form von Algorithmen und symbolischen Darstellungen von Operationen auf Datenbits innerhalb eines Computerspeichers dargestellt. Diese algorithmischen Beschreibungen und Darstellungen sind die Mittel, die von Fachleuten der Datenverarbeitung benutzt werden, um anderen Fachleuten den Inhalt ihrer Arbeit am effektivsten zu vermitteln. Ein Algorithmus ist hier und im Allgemeinen, als eine Abfolge von in sich stimmigen Schritten (Befehlen), die zu einem gewünschten Ergebnis führen, gedacht. Die Schritte sind solche, die physikalische Manipulationen von physikalischen Größen erfordern. Gewöhnlich, jedoch nicht notwendigerweise, nehmen diese Größen die Form von elektrischen, magnetischen oder optischen Signalen, die gespeichert, übertragen, kombiniert, verglichen oder anderweitig verändert werden können, ein. Es ist zeitweise bequem, hauptsächlich aufgrund der üblichen Verwendungsweise, diese Signale als Bits, Werte, Elemente, Symbole, Zeichen, Begriffe, Zahlen oder ähnliches zu bezeichnen. Außerdem ist es zeitweise bequem, bestimmte Vereinbarungen von Schritten, die physikalische Veränderungen oder Umwandlungen von physikalischen Größen oder Darstellungen von physikalischen Größen erfordern, als Module oder Code-Vorrichtungen, ohne Beschränkung der Allgemeingültigkeit, zu bezeichnen.
Jedoch sind alle diese und ähnliche Begriffe mit der geeigneten physikalischen Größe zu verbinden und sind lediglich bequeme Kennzeichnungen, die auf diese Größen angewendet werden. Sofern es nicht ausdrücklich anders, als es von der folgenden Diskussion offensichtlich ist, angegeben ist, wird es erwartet, dass in der Beschreibung durchgehend Diskussionen, die Begriffe wie „verarbeiten” oder „berechnen” oder „ermitteln” oder „bestimmen” oder „anzeigen” oder „bestimmen” oder ähnliches verwenden, sich auf die Aktion und die Prozesse eines Computersystems oder einer ähnlichen elektronischen Rechenvorrichtung (wie eine spezielle Rechenmaschine) beziehen, die Daten manipuliert und transformiert, die als physikalische (elektronische) Größen in dem Computersystemspeichern oder -registern oder einem anderen solchen Informationsspeicher, Übertragungs- oder Anzeige-Vorrichtung dargestellt sind.
Bestimmte Aspekte der Ausführungsformen umfassen Prozessschritte und Befehle, die hierin in der Form eines Algorithmus beschrieben sind. Dabei ist zu beachten, dass die Prozessschritte und Befehle der Ausführungsformen in Software, Firmware oder Hardware verkörpert sein können und wenn diese in Software verkörpert sind, herunter geladen werden können, um sich auf verschiedenen Plattformen, die von einer Mehrzahl von Betriebssystemen genutzt werden können, zu befinden und von da aus betrieben werden können. Die Ausführungsformen können auch in einem Computerprogramm Produkt sein, das auf einem Rechnersystem ausgeführt werden kann.
Die Ausführungsformen beziehen sich auch auf ein Gerät zur Durchführung der Verfahren hierauf. Dieses Gerät kann speziell für diesen Zweck konstruiert sein, zum Beispiel ein spezieller Computer oder es kann einen Universal-Computer, der selektiv freigeschaltet oder rekonfiguriert durch ein Computerprogramm, das in dem Computer gespeichert ist, umfassen. Ein solches Computerprogramm kann in einem computer-lesbaren Speichermedium, wie, aber nicht auf diese beschränkt, jede Form von Disketten, umfassend Disketten, optische Disketten, compact disc nur-lese-Speicher (CD-ROMs), magnetisch-optische Disketten, nur-lese-Speicher (ROMs), Speicher mit wahlfreien/direkten Zugriff (RAMs), löschbare programmierbare nur-lese-Speicher (EPROMs), elektrisch löschbare programmierbare nur-lese-Speicher (EEPROMs), magnetische oder optische Karten, anwendungsspezifische integrierte Schaltungen (ASICs) oder jede andere Form von Medien, die sich zur Speicherung von elektronischen Befehlen eignet, wobei jedes an einen Computer System Bus gekoppelt ist, gespeichert werden. Der/die Speicher/Speicherung kann flüchtig oder nicht-flüchtig sein. Ein Speicher kann jedes der oben genannten und/oder andere Vorrichtungen, die Informationen/Daten/Programme speichern können, umfassen. Außerdem können die Computer, auf die in der Beschreibung Bezug genommen wird, einzelne Prozessoren umfassen oder können Architekturen sein, die mehrfache Prozessor-Konstruktionen verwenden, die die Rechenfähigkeit erhöhen.
Die Algorithmen und Anzeigen, die hier vorgestellt werden, sind nicht grundsätzlich einem bestimmten Computer oder anderen Gerät zugeordnet. Verschiedene Universalsysteme können mit den Programmen in Übereinstimmung mit den darin enthaltenen Lehren benutzt werden oder es kann sich als bequem erweisen, ein spezialisierteres Gerät zur Durchführung der Schritte des Verfahrens zu konstruieren. Die Struktur für eine Mehrzahl dieser Systeme wird in der Beschreibung unten erscheinen. Zusätzlich hierzu sind die Ausführungsformen nicht in Bezug auf eine bestimmte Programmiersprache beschrieben. Dabei ist zu beachten, dass eine Mehrzahl von Programmiersprachen benutzt werden kann, um die Lehren der Ausführungsformen wie hierin beschrieben, zu implementieren und jeder Bezug auf eine spezielle Sprache, wird unten stehend zur Offenlegung der Befähigung und der besten Ausführungsform zur Verfügung gestellt.
Außerdem wurde die Sprache, die in der Beschreibung benutzt wurde, hauptsächlich aufgrund der Lesbarkeit und zu Anleitungszwecken gewählt und wäre nicht zur Skizzierung und Umschreibung des erfinderischen Gegenstandes gewählt worden. Dementsprechend ist die Offenlegung der Ausführungsformen dazu bestimmt, veranschaulichend, aber nicht beschränkend, des Umfangs der Ausführungsformen, die in den Ansprüchen dargelegt sind, zu sein.
Beim Lesen dieser Offenbarung werden Fachleute sich noch zusätzlicher, alternativer Verfahren und Systeme, um die Bewegungs-basierte POI Suche durchzuführen, bewusst sein. Daher, obwohl spezielle Ausführungsbeispiele und Anwendungen der vorliegenden Offenbarung veranschaulicht und beschrieben wurden, wird davon ausgegangen werden, dass die Offenbarung nicht auf die genaue Konstruktion und Komponenten, wie hierin offenbart, beschränkt ist, und dass unterschiedliche Modifikationen, Änderungen und Variationen, die Fachleuten offensichtlich sind, in der Anordnung, Betrieb und den Details des Verfahrens und des Geräts der vorliegenden Ausführungsformen wie hierin offenbart, vorgenommen werden können, ohne von dem Geist und dem Umfang des Gegenstands, wie er in den angehängten Ansprüchen definiert ist, abzuweichen.
Ein Aktion-Erkennungs-System erkennt Fahreraktionen unter Verwendung eines Random Forest Modells, um Bilder des Fahrers zu klassifizieren. Eine Mehrzahl von Vorhersagen wird unter Verwendung des Random Forest Modells erzeugt. Jede Vorhersage wird von einem Entscheidungsbaum aus der Mehrzahl der Entscheidungsbäume erzeugt und jede Vorhersage umfasst eine vorhergesagte Fahreraktion und einen Konfidenzwert. Die Mehrzahl von Vorhersagen wird in eine Mehrzahl von Gruppen umgruppiert, wobei jede aus der Mehrzahl der Gruppen einer der Fahreraktionen zugeordnet ist. Die Konfidenzwerte werden innerhalb jeder Gruppe kombiniert, um einen kombinierten Wert zu bestimmen, der jeder Gruppe zugeordnet wird. Die Fahreraktion, die der höchste kombinierte Wert zugeordnet ist, wird ausgewählt.

Claims

Verfahren zur Durchführung einer Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug, wobei das Verfahren umfasst: Erhalten eines Bildes des Fahrers in dem Fahrzeug durch ein Rechnersystem; Zugreifen auf ein Random Forest Modell, umfassend eine Mehrzahl von Entscheidungsbäumen; Erzeugen einer Mehrzahl von Vorhersagen durch das Random Forest Modell der Aktion, welche durch den Fahrer in dem Bild durchgeführt wird, wobei jede Vorhersage durch einen aus der Mehrzahl der Entscheidungsbäume erzeugt wird, wobei jede aus der Mehrzahl der Vorhersagen eine vorhergesagte Fahreraktion und einen Konfidenzwert umfasst; Gruppieren der Mehrzahl von Vorhersagen in eine Mehrzahl von Gruppen, wobei jede aus der Mehrzahl von Gruppen einer durch das Random Forest Modell vorhergesagten Fahreraktion zugeordnet ist; Kombinieren der Konfidenzwerte der Vorhersagen innerhalb jeder Gruppe, um einen kombinierten Wert für die Fahreraktion, die jeder Gruppe zugeordnet ist, zu bestimmen; und Auswählender Fahreraktion, welche einem höchsten kombinierten Wert zugeordnet ist.
Verfahren nach Anspruch 1, wobei ein Kombinieren der Konfidenzwerte ein Addieren der Konfidenzwerte umfasst.
Verfahren nach Anspruch 1, wobei ein Erzeugen der Mehrzahl von Vorhersagen durch das Random Forest Modell umfasst: Anwenden eines ersten Tests auf das Bild, der auf ersten Testparametern eines übergeordneten Verteilerknotens des ersten Entscheidungsbaums in dem Random Forest basiert, für einen ersten Entscheidungsbaum in der Mehrzahl der Entscheidungsbäume, wobei der übergeordnete Verteilerknoten eine Mehrzahl von untergeordneten Knoten aufweist; Auswählen eines aus den untergeordneten Knoten des übergeordneten Verteilerknotens basierend auf einem Ergebnis des Tests; Anwenden eines zweiten Tests auf das Bild, welcher auf zweiten Testparametern, die dem ausgewählten einen der untergeordneten Knoten zugeordnet sind, basiert, als Reaktion darauf, dass der ausgewählte eine der untergeordneten Knoten ein Verteilerknoten ist; Erzeugen der Vorhersage als Reaktion darauf, dass der ausgewählte eine der untergeordneten Knoten ein Endknoten ist, wobei die erzeugte Vorhersage die Fahreraktion und den Konfidenzwert, welche dem Endknoten zugeordnet sind, umfasst.
Verfahren nach Anspruch 3, wobei ein Anwenden des ersten Tests, basierend auf den ersten Testparametern, umfasst: Auswählen einer Mehrzahl von räumlichen Regionen des Bildes; Auswählen eines Eigenschaftskanals, der die Eigenschaften des Bildes repräsentiert; und Auswählen eines Schwellenwerts.
Verfahren nach Anspruch 4, wobei das Bild ein dreidimensionales Bild umfasst und wobei der ausgewählte Eigenschaftskanal dreidimensionale Tiefendaten umfasst.
Verfahren nach Anspruch 4, wobei ein Anwenden des ersten Tests umfasst: Bestimmen eines Unterschieds zwischen Durchschnittswerten der ausgewählten Eigenschaftskanäle von mindestens zwei aus der ausgewählten Mehrzahl der räumlichen Regionen; und Vergleichen des Unterschieds zu dem Schwellenwert.
Verfahren nach Anspruch 1, umfassend: Verzögern einer Benachrichtigung, die von einem in dem Fahrzeug befindlichen System bereitgestellt wird, basierend auf der vorhergesagten Fahreraktion.
Verfahren nach Anspruch 1, wobei die vorhergesagte Fahreraktion mindestens eine umfasst aus: Normales Fahren, Reichen nach der Mittelkonsole, Reichen nach einem Handschuhfach, Reichen nach einem Überkopffach, Einstellen eines Radios, Sprechen in ein Telefon und Einstellen eines Spiegels.
Verfahren nach Anspruch 1, wobei das Random Forest Modell basierend auf einem Satz von gekennzeichneten Ausbildungsbildern gelernt wird.
Nicht-flüchtiges, computer-lesbares Speichermedium, das Befehle zur Durchführung einer Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug speichert, wobei die Befehle, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Schritte durchzuführen, welche umfassen: Erhalten eines Bildes des Fahrers in dem Fahrzeug durch ein Rechnersystem; Zugreifen auf ein Random Forest Modell umfassend eine Mehrzahl von Entscheidungsbäumen; Erzeugen einer Mehrzahl von Vorhersagen durch das Random Forest Modell, wobei jede Vorhersage durch einen aus der Mehrzahl der Entscheidungsbäume erzeugt wird, wobei jede aus der Mehrzahl der Vorhersagen eine vorhergesagte Fahreraktion und einen Konfidenzwert umfasst; Gruppieren der Mehrzahl von Vorhersagen in eine Mehrzahl von Gruppen, wobei jede aus der Mehrzahl von Gruppen einer der Fahreraktionen zugeordnet ist; Kombinieren der Konfidenzwerte der Vorhersagen innerhalb jeder Gruppe, um einen kombinierten Wert für die Fahreraktion, die jeder Gruppe zugeordnet ist, zu bestimmen; und Auswählen der Fahreraktion, welche einem höchsten kombinierten Wert zugeordnet ist.
Nicht-flüchtiges, computer-lesbares Speichermedium nach Anspruch 10, wobei ein Kombinieren der Konfidenzwerte ein Addieren der Konfidenzwerte umfasst.
Nicht-flüchtiges, computer-lesbares Speichermedium nach Anspruch 10, wobei ein Erzeugen der Mehrzahl von Vorhersagen durch das Random Forest Modell umfasst: Anwenden eines ersten Tests auf das Bild, der auf ersten Testparametern eines übergeordneten Verteilerknotens des ersten Entscheidungsbaums in dem Random Forest basiert, für einen ersten Entscheidungsbaum in der Mehrzahl der Entscheidungsbäume, wobei der übergeordnete Verteilerknoten eine Mehrzahl von untergeordneten Knoten aufweist; Auswählen eines aus den untergeordneten Knoten des übergeordneten Verteilerknotens basierend auf einem Ergebnis des Tests; Anwenden eines zweiten Tests auf das Bild, welcher auf zweiten Testparametern, die dem ausgewählten einen der untergeordneten Knoten zugeordnet sind, basiert, als Reaktion darauf, dass der ausgewählte eine der untergeordneten Knoten ein Verteilerknoten ist; Erzeugen der Vorhersage als Reaktion darauf, dass der ausgewählte eine der untergeordneten Knoten ein Endknoten ist, wobei die erzeugte Vorhersage die Fahreraktion und den Konfidenzwert, welche dem Endknoten zugeordnet sind, umfasst.
Nicht-flüchtiges, computer-lesbares Speichermedium nach Anspruch 12, wobei ein Anwenden des ersten Tests, basierend auf den ersten Testparametern, umfasst: Auswählen einer Mehrzahl von räumlichen Regionen des Bildes; Auswählen eines Eigenschaftskanals, der die Eigenschaften des Bildes repräsentiert; und Auswählen eines Schwellenwerts.
Nicht-flüchtiges, computer-lesbares Speichermedium nach Anspruch 13, wobei ein Anwenden des ersten Tests umfasst: Bestimmen eines Unterschieds zwischen Durchschnittswerten der ausgewählten Eigenschaftskanäle von mindestens zwei aus der ausgewählten Mehrzahl der räumlichen Regionen; und Vergleichen des Unterschieds zu dem Schwellenwert.
-Flüchtiges, computer-lesbares Speichermedium nach Anspruch 13, wobei ein Anwenden des ersten Tests umfasst: Bestimmen eines Unterschieds zwischen Durchschnittswerten der ausgewählten Eigenschaftskanäle von mindestens zwei aus der ausgewählten Mehrzahl der räumlichen Regionen; und Vergleichen des Unterschieds zu dem Schwellenwert.
Methode zum Lernen eines Random Forest Modells zur Aktions-Erkennung, wobei das Random Forest Modell eine Mehrzahl von Entscheidungsbäumen umfasst, wobei das Verfahren umfasst: Empfangen einer Mehrzahl von Ausbildungsbildern durch ein Computersystem, wobei jedes Ausbildungsbild eine Fahreraktion, die in einem Fahrzeug durchgeführt wird, darstellt und jedes Ausbildungsbild eine Kennzeichnung aufweist, die die Fahreraktion, die durchgeführt wird, identifiziert; Erzeugen eines Tests, der einem übergeordnetem Knoten eines aus der Mehrzahl von Entscheidungsbäumen entspricht, wobei der Test einen oder mehrere Testparameter umfasst; Anwenden des Tests auf jedes Ausbildungsbild, um jedes Ausbildungsbild in eine Mehrzahl von Bildergruppen, umfassend mindestens eine erste Bildergruppe und eine zweite Bildergruppe, zu klassifizieren; Bestimmen, ob ein Entropiewert der ersten Bildergruppe unter einem Schwellenwert liegt; Erzeugen einer Vorhersage als Reaktion zu einer Bestimmung, dass der Entropiewert der ersten Bildergruppe unter dem Schwellenwert ist, die auf den Kennzeichnungen, die der ersten Bildergruppe zugeordnet sind, basiert, wobei die Vorhersage eine Fahreraktion und einen Konfidenzwert umfasst und Erzeugen eines Endknotens, der der Vorhersage zugeordnet ist, als ein untergeordneter Knoten eines übergeordneten Knotens; und Erzeugen eines Verteilerknotens, der der ersten Bildergruppe zugeordnet ist, als ein untergeordneter Knoten eines übergeordneten Knotens, als Reaktion zu einer Bestimmung, dass der Entropiewert der ersten Bildergruppe nicht unter dem Schwellenwert ist.
Verfahren nach Anspruch 16, wobei ein Erzeugen des Tests umfasst: Auswählen einer Mehrzahl von räumlichen Regionen; Auswählen eines Eigenschaftskanals; und Auswählen eines Schwellenwerts.
Verfahren nach Anspruch 17, wobei ein Anwenden des Tests umfasst: Bestimmen eines mittleren Wertes für den Eigenschaftskanal jeder aus der Mehrzahl der räumlichen Regionen für ein gegebenes Ausbildungsbild; Bestimmen eines Unterschieds zwischen den mittleren Werten einer ersten räumlichen Region und einer zweiten räumlichen Region in der Mehrzahl der räumlichen Regionen; Vergleichen des Unterschieds zu dem Schwellenwert um ein Vergleichsergebnis zu erzeugen; und Klassifizieren des gegebenen Ausbildungsbildes in eine aus der Mehrzahl der Bildergruppen, basierend auf dem Vergleichsergebnis.
Verfahren nach Anspruch 18, wobei ein Erzeugen des Endknotens umfasst: Bestimmen einer Fahreraktion, die einer höchsten Anzahl von Bildern in der ersten Bildergruppe zugeordnet ist; und Berechnen des Konfidenzwerts als ein Prozentsatz der Bilder in der ersten Bildergruppe, die der Fahreraktion zugeordnet sind.
Verfahren nach Anspruch 16, wobei das Erzeugen des Tests umfasst: Anwenden eines ersten Stichprobentests; Bestimmen eines ersten Informations-Gewinn-Werts für den ersten Stichprobentest, wobei der Informations-Gewinn-Wert den Unterschied zwischen einem Entropiewert der Mehrzahl von Ausbildungsbildern und einem kombinierten Entropiewert der ersten und zweiten Bildergruppen repräsentiert; Anwenden eines zweiten Stichprobentests; Bestimmen eines zweiten Informations-Gewinn-Werts für den zweiten Stichprobentest; und Identifizieren des Tests, der einen höchsten Informations-Gewinn-Wert aufweist.