DE102014220302A1 - Echt-Zeit Mehr-Klassen Fahreraktions-Erkennung unter Verwendung eines Random Forest - Google Patents

Echt-Zeit Mehr-Klassen Fahreraktions-Erkennung unter Verwendung eines Random Forest Download PDF

Info

Publication number
DE102014220302A1
DE102014220302A1 DE102014220302.3A DE102014220302A DE102014220302A1 DE 102014220302 A1 DE102014220302 A1 DE 102014220302A1 DE 102014220302 A DE102014220302 A DE 102014220302A DE 102014220302 A1 DE102014220302 A1 DE 102014220302A1
Authority
DE
Germany
Prior art keywords
image
test
driver
action
random forest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
DE102014220302.3A
Other languages
English (en)
Other versions
DE102014220302B4 (de
Inventor
wird später genannt werden Erfinder
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of DE102014220302A1 publication Critical patent/DE102014220302A1/de
Application granted granted Critical
Publication of DE102014220302B4 publication Critical patent/DE102014220302B4/de
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/59Context or environment of the image inside of a vehicle, e.g. relating to seat occupancy, driver state or inner lighting conditions
    • G06V20/597Recognising the driver's state or behaviour, e.g. attention or drowsiness
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

Ein Aktion-Erkennungs-System erkennt Fahreraktionen unter Verwendung eines Random Forest Modells, um Bilder des Fahrers zu klassifizieren. Eine Mehrzahl von Vorhersagen wird unter Verwendung des Random Forest Modells erzeugt. Jede Vorhersage wird von einem Entscheidungsbaum aus der Mehrzahl der Entscheidungsbäume erzeugt und jede Vorhersage umfasst eine vorhergesagte Fahreraktion und einen Konfidenzwert. Die Mehrzahl von Vorhersagen wird in eine Mehrzahl von Gruppen umgruppiert, wobei jede aus der Mehrzahl der Gruppen einer der Fahreraktionen zugeordnet ist. Die Konfidenzwerte werden innerhalb jeder Gruppe kombiniert, um einen kombinierten Wert zu bestimmen, der jeder Gruppe zugeordnet wird. Die Fahreraktion, die dem höchsten kombinierten Wert zugeordnet ist, wird ausgewählt.

Description

  • Hintergrund
  • Bereich der Offenlegung
  • Die vorliegende Offenlegung betrifft im allgemeinen eine Aktionserkennung und im speziellen ein Erkennen von Aktionen eines Fahrers in einem Fahrzeug.
  • Beschreibung der verwandten Technik
  • Fahrzeugfunktionen und -merkmale, die für einen Fahrer verfügbar und von diesem geregelt/gesteuert werden, haben sich in den letzten Jahren weiterentwickelt. Viele Fahrzeuge weisen integrierte Rechnersysteme, die verwendet werden können, um den Fahrern bei dem Abrufen und bei dem Weitergeben von relevanter Information zu helfen, auf. Allerdings haben aktuelle Fahrzeugsysteme zu jedem Zeitpunkt wenig oder keinen Einblick in die Aktivität des Fahrers, wodurch es scheitern kann, die Benachrichtigungen zum für den Fahrer sichersten und bequemsten Moment zu liefern. Beispielsweise könnte ein Fahrer eine Benachrichtigung eines integrierten Rechnersystems nicht bemerken, wenn die Benachrichtigung überbracht wird, während der Fahrer eine Aktion durchführt, wie zum Beispiel das Einstellen des Rückspiegels oder das Reichen nach dem Handschuhfach.
  • Zusammenfassung
  • Ein nicht-flüchtiges, computer-lesbares Speichermedium und ein Verfahren, das eine Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug durchführt. Ein Computer System erhält ein Bild des Fahrers in dem Fahrzeug. Es wird auf ein Random Forest Modell zugegriffen, das eine Mehrzahl von Entscheidungsbäumen umfasst. Eine Mehrzahl von Vorhersagen wird durch die Verwendung des Random Forest Modell erzeugt. Jede Vorhersage wird von einem Entscheidungsbaum aus der Mehrzahl der Entscheidungsbäume erzeugt und jede Vorhersage umfasst eine vorhergesagte Aktion eines Fahrers und einen Konfidenzwert. Die Mehrzahl der Vorhersagen wird in eine Mehrzahl von Gruppen gruppiert, wobei jede aus der Mehrzahl der Gruppen einer der Fahreraktionen zugeordnet ist. Die Konfidenzwerte werden innerhalb jeder Gruppe kombiniert, um einen kombinierten Wert, der jeder der Gruppen zugeordnet ist, zu bestimmen. Die Fahreraktion, die dem höchsten kombinierten Wert zugeordnet ist, wird gewählt.
  • In einer anderen Ausführungsform lernt ein Verfahren ein Random Forest Modell zur Aktionserkennung, wobei das Random Forest Modell eine Mehrzahl von Entscheidungsbäumen umfasst. Ein Computersystem erhält eine Mehrzahl von Ausbildungsbildern. Jedes Ausbildungsbild stellt eine Fahreraktion dar, die in einem Fahrzeug durchgeführt wird und hat eine Kennzeichnung, die die Fahreraktion, die durchgeführt wird, identifiziert. Ein Test, entsprechend eines übergeordneten Knotens eines aus der Mehrzahl von Entscheidungsbäumen, wird erzeugt, wobei der Test einen oder mehrere Testparameter umfasst. Der Test wird auf jedes der Ausbildungsbilder angewandt, um jedes Ausbildungsbild in eine Mehrzahl von Bildergruppen, die mindestens eine erste Bildergruppe und eine zweite Bildergruppe enthalten, zu klassifizieren. Das Computersystem bestimmt, ob ein Entropiewert der ersten Bildergruppe unter einen Schwellenwert ist. Als Reaktion auf die Bestimmung, dass der Entropiewert unter dem Schwellenwert ist, erzeugt das Computersystem eine Vorhersage, die auf der ersten Bildergruppe basiert und es wird ein Endknoten, der der Vorhersage zugeordnet ist, als ein untergeordneter Knoten des übergeordneten Knotens erzeugt. Die Vorhersage umfasst eine Fahreraktion und einen Konfidenzwert. Als Reaktion auf die Bestimmung, dass der Entropiewert der ersten Bildergruppe nicht unter dem Schwellenwert ist, wird ein Verteilerknoten, der der ersten Bildergruppe zugeordnet ist, als ein untergeordneter Knoten des übergeordneten Knotens erzeugt.
  • Die Merkmale und Vorteile, die in der Beschreibung beschrieben sind, sind keinesfalls vollständig aufgeführt und insbesondere werden viele zusätzliche Merkmale und Vorteile dem Fachmann dieses Fachgebietes angesichts der Zeichnungen, der Beschreibung und der Ansprüche offensichtlich sein. Darüber hinaus ist zu beachten, dass die Sprache, die in der Beschreibung benutzt wurde, hauptsächlich aufgrund der Lesbarkeit und zu Anleitungszwecken gewählt wurde; diese wäre nicht ausgewählt worden, um den erfinderischen Gegenstand zu skizzieren und zu umschreiben.
  • Kurze Beschreibung der Zeichnungen
  • Die Lehren der vorliegenden Offenbarung können leicht unter Beachtung der folgenden, detaillierten Beschreibung in Verbindung mit den zugehörigen Zeichnungen, verstanden werden.
  • 1A stellt eine beispielhafte Ausbildungsumgebung gemäß einer Ausführungsform dar.
  • 1B stellt eine beispielhafte, in einem Fahrzeug befindliche Rechnerumgebung für mehrere Ausführungsformen des Aktions-Erkennungs-Moduls gemäß einer Ausführungsform dar.
  • 2 ist ein Blockdiagramm, das die Komponenten des Aktions-Erkennungs-Moduls gemäß einer Ausführungsform darstellt.
  • 3 stellt ein Random Forest Modell gemäß einer Ausführungsform dar.
  • 4 ist ein Flussdiagramm, das einen Ausbildungsprozess zum Lernen eines Random Forest Modells gemäß einer Ausführungsform darstellt.
  • 5A stellt ein aufgenommenes 3D Bild dar, von einem Fahrer, der eine Aktion durchführt, gemäß einer Ausführungsform.
  • 5B stellt zwei Regionen, die innerhalb eines 3D Bildes ausgewählt wurden, gemäß einer Ausführungsform dar.
  • 6A stellt ein Flussdiagramm eines Prozesses zur Vorhersage einer Aktion dar, die von einem Individuum in einem aufgenommenen Bild innerhalb einer Fahrzeugumgebung durchgeführt wird, gemäß einer Ausführungsform, unter Verwendung eines Random Forest Modells, dar.
  • 6B stellt einen Beispielprozess zur Vorhersage einer Aktion, die von einem Individuum in einem aufgenommenen Bild innerhalb einer Fahrzeugumgebung durchgeführt wird, gemäß einer Ausführungsform, unter Verwendung eines Random Forest Modells, dar.
  • 7 ist ein Flussdiagramm, das einen Prozess zur Erzeugung einer Mehrzahl von Vorhersagen von einer Aktion, die von einem Individuum in einem aufgenommenen Bild innerhalb einer Fahrzeugumgebung durchgeführt wird, gemäß einer Ausführungsform, darstellt.
  • Detaillierte Beschreibung der Ausführungsformen
  • Ausführungsformen werden nun unter Bezugnahme auf die zugehörigen Zeichnungen beschrieben. Gleiche Referenznummern geben identische oder funktionell vergleichbare Elemente an. Außerdem entspricht in den Zeichnungen die äußerste linke Ziffer jeder Referenznummer der Figur, in welcher die Referenznummer zuerst benutzt wird.
  • Überblick
  • Ein Aktion-Erkennungs-System erkennt Fahreraktionen unter Verwendung eines Random Forest Modells, um dreidimensionale (3D) Bilder des Fahrers, basierend auf einer Aktion, die von dem Fahrer durchgeführt wird, während das 3D Bild aufgenommen wird, zu klassifizieren. Aktionen können beispielsweise normales Fahren, Reichen nach der Mittelkonsole, Reichen nach dem Handschuhfach, Reichen nach einem Überkopffach, Einstellen des Radios, Sprechen in das Telefon, Essen, Trinken, Schreiben einer SMS, Lesen einer Karte, Aufbringen von Kosmetik, Winken, Reichen in den Hintersitz, Einstellen eines Spiegels und andere übliche Aktionen, die von einem Fahrer ergriffen werden, umfassen.
  • In einer Ausbildungsphase wird das Random Forest Modell durch einen Satz gekennzeichneter Ausbildungsbilder gelernt. Das Random Forest Modell umfasst mehrere Entscheidungsbäume. In Betrieb nimmt eine 3D-Kamera ein 3D-Bild des Fahrers auf, das Aktions-Erkennungs-System wendet jeden Entscheidungsbaum, der in der Ausbildungsphase gelernt wurde, auf das 3D-Bild an und jeder Entscheidungsbaum erzeugt eine gesonderte Vorhersage der Aktion, die von dem 3D-Bild aufgenommen wurde. Die Vorhersage von jedem Entscheidungsbaum umfasst auch einen Konfidenzwert, der die Konfidenz im Zusammenhang mit der Vorhersage angibt. Nach einer Erzeugung von Vorhersagen für jeden Entscheidungsbaum in dem Random Forest Modell kombiniert das Aktions-Erkennungs-System die Konfidenzwerte, die jeder Fahreraktion zugeordnet sind und wählt die Fahreraktion mit dem höchsten kombinierten Wert aus.
  • System und Ausbildungsumgebung
  • 1A stellt eine beispielhafte Ausbildungsumgebung 100 für mehrere Ausführungsformen dar. Die beispielhafte Ausbildungsumgebung 100 umfasst ein Ausbildungssystem 102. Das Ausbildungssystem 102 empfängt einen Satz Ausbildungsbilder 108 als Eingaben. Die Ausbildungsbilder 108 umfassen Bilder eines Fahrers, der mehrere Aktionen in einer Fahrzeugumgebung durchführt, die von dem Ausbildungssystem 102 gelernt werden. Die offengelegten Verfahren können auch auf einen Fahrgast des Fahrzeugs oder ein anderes Subjekt angewendet werden.
  • Jedes Ausbildungsbild ist mit einer Fahreraktion, die die Aktion angibt, die durchgeführt wurde, als das Bild aufgenommen wurde, gekennzeichnet. Basierend auf den Ausbildungsbildern 108 erzeugt das Ausbildungssystem 102 ein Random Forest Modell 110, das die Ausbildungsbilder auf die Aktionen abbildet.
  • Das Ausbildungssystem 102 umfasst einen Speicher 104 und einen Prozessor 106. Der Speicher 104 umfasst ein nicht-flüchtiges, computer-lesbares Speichermedium, das durch den Computer ausführbare Befehle für eine Durchführung der Funktionen, die dem Ausbildungssystem 102 zugeschrieben werden, speichert. Der Speicher 104 kann zusätzlich die Ausbildungsbilder 108, das Random Forest Modell 110 oder andere Zwischendaten, die während des Ausbildungsprozesses erzeugt werden, speichern. Der Prozessor 128 verarbeitet Datensignale und kann mehrere Rechnerarchitekturen, umfassend eine Rechnerarchitektur mit komplexen Befehlssatz (CISC), eine Rechnerarchitektur mit reduzierten Befehlssatz (RISC) oder eine Architektur, die eine Kombination von Befehlssätzen implementiert, umfassen. Obwohl nur ein Prozessor in 1A gezeigt wird, können mehrere Prozessoren umfasst sein. Die Prozessoren können eine arithmetische Logikeinheit, einen Mikroprozessor, einen Universal-Computer oder einige andere Informationsvorrichtungen, die dazu ausgestattet sind, elektronische Datensignale von dem Speicher 104 und anderen Vorrichtungen, die sowohl in den Zeichnungen gezeigt als auch nicht gezeigt sind, zu übertragen, empfangen und zu verarbeiten.
  • In Betrieb lädt und führt der Prozessor 106 die Befehle, die in dem Speicher 104 gespeichert sind, durch, um den darin beschriebenen Ausbildungsprozess auszuführen. Eine Ausführungsform eines Prozesses, der von dem Ausbildungssystem 102 durchgeführt wird, wird im Folgenden ausführlich in Bezug auf 4 beschrieben.
  • 1B stellt eine beispielhafte Betriebsumgebung 120 für unterschiedliche Ausführungsformen dar. Die beispielhafte Betriebsumgebung 120 umfasst ein im Fahrzeug befindliches Rechnersystem 122. In einer Ausführungsform erzeugt das in dem Fahrzeug befindliche Rechnersystem 122 eine endgültige Vorhersage 114 der Aktion des Fahrers basierend auf einem dreidimensionalen (3D) Bild 112 des Fahrers, der die Aktion durchführt und auf dem Random Forest Modell 110. Beispielsweise nimmt das in dem Fahrzeug befindliche Rechnersystem 122 ein Bild des Fahrers auf und sagt voraus, ob der Fahrer eine SMS schreibt, nach dem Handschuhfach reicht, einen Spiegel einstellt, usw.
  • Das in dem Fahrzeug befindliche Rechnersystem 120 umfasst einen Speicher 124 und einen Prozessor 128. Der Speicher 124 umfasst ein nicht-flüchtiges, computer-lesbares Speichermedium, das computer-ausführbare Befehle zur Durchführung der Funktionen, die dem in dem Fahrzeug befindlichen Rechnersystem 122 zugeschrieben werden, speichert. Der Prozessor 128 verarbeitet Datensignale und kann mehrere Rechnerarchitekturen, umfassend eine Rechnerarchitektur mit komplexen Befehlssatz (CISC), eine Rechnerarchitektur mit reduzierten Befehlssatz (RISC) oder eine Architektur, die eine Kombination von Befehlssätzen implementiert, umfassen. Obwohl nur ein Prozessor in 1B gezeigt wird, können mehrere Prozessoren umfasst sein. Die Prozessoren können eine arithmetische Logikeinheit, einen Mikroprozessor, einen Universal-Computer oder einige andere Informationsvorrichtungen, die dazu ausgestattet sind, elektronische Datensignale von dem Speicher 124 und anderen Vorrichtungen, die sowohl in den Zeichnungen gezeigt als auch nicht gezeigt sind, zu übertragen, empfangen und zu verarbeiten. Im Betrieb lädt der Prozessor 128 die Befehle, die in dem Speicher 124 gespeichert sind und führt sie durch, um den Erkennungsprozess, der darin beschrieben ist, auszuführen.
  • Die beispielhafte Betriebsumgebung 120 umfasst auch Eingabegeräte, wie zum Beispiel ein Kamerasystem 130 und ein Mikrofon 132. In einer Ausführungsform umfasst das Kamerasystem 130 einen Sensor der physikalische Signale aus dem Inneren des Fahrzeugs (zum Beispiel eine Laufzeitkamera, einen Infrarotsensor, eine traditionelle Kamera, usw.) aufnimmt. Das Kamerasystem 130 ist innerhalb des Fahrzeugs positioniert um Haltungen eines Fahrers aufzunehmen. Das Kamerasystem 130 kann eine einzelne Kamera, die auf eine aufzunehmende Region (zum Beispiel den Fahrersitz) gerichtet ist und ein weites Sichtfeld hat und Signale von mehr als einem Insassen des Fahrzeugs erhalten kann oder ihr Sichtfeld ändern kann, um Signale von verschiedenen Insassenpositionen zu erhalten, sein. In einer Ausführungsform nimmt die Kamera 130 3D Bilder auf, die Tiefendaten umfassen.
  • Nachdem das Kamerasystem 130 ein physikalisches Signal aufgenommen hat, gibt es ein Datensignal, das das physikalische Signal darstellt, aus. Das Format des Datensignals kann, basierend auf dem Typ des Sensors/der Sensoren, welche dazu benutzt wurde(n) das physikalische Signal aufzunehmen, variieren. Beispielsweise, wenn ein traditioneller Kamerasensor benutzt wurde, um die visuelle Darstellung des physikalischen Signals aufzunehmen, dann kann das Datensignal ein Bild oder eine Sequenz von Bildern (zum Beispiel ein Video) sein. In Ausführungsformen, wo ein anderer Sensortyp benutzt wird, ist das Datensignal eine abstraktere oder übergeordnete Darstellung des physikalischen Signals. In einer Ausführungsform umfasst das Kamerasystem 130 zwei oder mehr Kameras, die Tiefendaten mittels Verfahren wie Triangulation oder Stereovision oder Laufzeit zur Verfügung stellen.
  • Das Mikrofon 132 kann Audiosignale aus dem Inneren des Fahrzeugs aufnehmen. In einer Ausführungsform kann das Mikrofon 132 so positioniert sein, dass es empfindlicher auf Geräusche, die von einer bestimmten Position (zum Beispiel der Position des Fahrers) ausgehen, als von anderen Positionen (zum Beispiel anderen Insassen) ist. Beispielsweise kann das Mikrofon 132 in der Kabine oder in Richtung der Kabine weisend, positioniert sein und es kann an der Decke, an der Nackenstütze, am Armaturenbrett oder an anderen Orten in/auf dem Fahrzeug befestigt sein.
  • Ein Aktions-Erkennungs-Modul 138 stellt einen Computerbefehl im Speicher 124 dar, wo die Befehle sind, um das Random Forest Modell 110 herbeizuführen, um eine Vorhersage einer Aktion, die von dem Fahrer in dem Fahrzeug durchgeführt wird, zu bestimmen. Der Prozessor 128 greift auf die Computerbefehle des Aktions-Erkennungs-Moduls 138 im Speicher 124 zu, um das Random Forest Modell 110 mit dem aufgenommenen 3D-Bild herbeizuführen und eine Vorhersage der Aktion, die vom Fahrer durchgeführt wird, zu erzeugen. Eine Rückmeldung in Bezug auf die Vorhersage kann über ein oder mehrere Ausgabegeräte ausgegeben werden, dies wird in dem folgenden Paragraphen näher beschrieben. In einer anderen Ausführungsform verändert das in dem Fahrzeug befindliche Rechnersystem 122 andere Systemfunktionen unter Benutzung der Rückmeldung von dem Aktions-Erkennungs-Modul 138. Beispielsweise sendet das in dem Fahrzeug befindliche Rechnersystem 122 einen Befehl eine Benachrichtigung zu verzögern, falls der Fahrer eine Aktion durchführt, die den Fahrer veranlassen kann, die Benachrichtigung zu verpassen oder falls die Auslieferung der Benachrichtigung gefährlich wäre, weil der Fahrer bereits abgelenkt ist (zum Beispiel wenn der Fahrer nach dem Handschuhfach reicht).
  • Die Betriebsumgebung 120 umfasst auch Ausgabegeräte wie zum Beispiel eine Anzeige 134 und einen Lautsprecher 136. Die Anzeige 134 empfängt ein Videosignal und zeigt dieses an. Die Anzeige 134 kann in das Fahrzeug integriert sein (zum Beispiel eine LCD-Anzeige in der Mittelkonsole, ein Head-Up-Display auf der Windschutzscheibe). In einer Ausführungsform stellt die Anzeige 134 eine Benutzeroberfläche dar, die dem Benutzer erlaubt, Einstellung von mehreren Komponenten in dem Fahrzeug zu ändern. Der Lautsprecher 136 empfängt ein Audiosignal und gibt dieses wieder. Der Lautsprecher 136 kann, ähnlich wie die Anzeige 134, in das Fahrzeug integriert sein.
  • In unterschiedlichen Ausführungsformen kann das in dem Fahrzeug befindliche System 122 verschiedene oder zusätzliche Komponenten umfassen oder Funktionen können anders zwischen den Komponenten verteilt sein. Darüber hinaus kann das Ausbildungssystem 102 in einer Ausführungsform ein Teil des in dem Fahrzeug befindlichen Rechnersystems 122 sein und als integriertes System arbeiten.
  • 2 ist ein Blockdiagramm, das die Komponenten des Aktions-Erkennungs-Moduls 138 des in dem Fahrzeug befindlichen Rechnersystems 122 aus 1B gemäß einer Ausführungsform darstellt. Das Aktions-Erkennungs-Modul 138 umfasst ein Bild-Abruf-Modul 202, ein Modell-Zugriffs-Modul 204, ein Modell-Herbeiführungs-Modul 206 und ein Endgültige-Vorhersage-Erzeugungs-Modul 208. In alternativen Ausführungsformen umfasst das Aktions-Erkennungs-Modul 138 zusätzliche, weniger oder andere Komponenten und die Funktionalität der Komponenten 202, 204, 206, 208, wie sie hier beschrieben ist, kann zwischen den Komponenten des Aktions-Erkennungs-Moduls 138 in einer anderen Weise verteilt sein. Ein Prozess, der von dem Aktions-Erkennungs-Modul 138 in einer Ausführungsform durchgeführt wird, ist in dem Verfahren, das in 6A gezeigt wird, näher beschrieben.
  • Das Bild-Abruf-Modul 202 greift auf das Datensignal oder das 3D-Bild 112, das in das Kamerasystem 130 eingespeist wird, zu. Wie obenstehend in Bezug auf das Kamerasystem 130 beschrieben, ist das Datensignal eine elektronische Darstellung des Fahrers, der eine Aktion in dem Fahrzeug durchführt.
  • Das Modell-Zugriffs-Modul 204 greift auf das Random Forest Modell 110, das in dem in dem Fahrzeug befindlichen Rechnersystem 122 gespeichert ist, zu. In einer Ausführungsform ist das Random Forest Modell 110 eine Ausgabe des Ausbildungssystems 102. In anderen Ausführungsformen ist das Random Forest eine Ausgabe des in dem Fahrzeug befindlichen Rechnersystems 122.
  • Das Modell-Herbeiführungs-Modul 206 wendet das Random Forest Modell 110 auf das 3D-Bild 112 an. Jeder Entscheidungsbaum des Random Forest Modell 110 gibt eine Vorhersage, die eine vorhergesagte Fahreraktion und einen Konfidenzwert umfasst, aus, wobei dies zu einer Mehrzahl von Vorhersagen für das 3D-Bild führt.
  • Das Endgültige-Vorhersage-Erzeugungs-Modul 208 gruppiert die Mehrzahl der Vorhersagen nach Fahreraktion. Für jede Gruppe werden die Konfidenzwerte jeder Vorhersage in der Gruppe kombiniert. Beispielsweise stellen die Konfidenzwerte in einer Ausführungsform eine gewichtete Stimme für eine bestimmte Aktion dar, die zusammengezählt werden, um einen kombinierten Wert zu erzeugen. Es ist zu beachten, dass der kombinierte Wert in dieser Ausführungsform keine Konfidenz für die Aktion für das ganze Random Forest darstellt, da dieser über 100% sein kann. Das Endgültige-Vorhersage-Erzeugungs-Modul 208 wählt die Gruppe mit dem höchsten kombinierten Wert als die Ausgabe der endgültigen Vorhersage des Random Forest Modells 110 aus. Ein Beispiel-Prozess würde wie folgt sein: eine erste Gruppe kann drei Vorhersagen mit den Konfidenzwerten 25%, 50% und 5% aufweisen und eine zweite Gruppe kann zwei Vorhersagen mit den Konfidenzwerten 91% und 1% aufweisen. Der kombinierte Wert ist für die erste Gruppe 80% und 92% für die zweite Gruppe, welches Additionen von gewichteten Stimmen für jede Aktion darstellt, wobei die Konfidenzwerte als Gewichte benutzt werden. Die endgültige Vorhersage 114 des Random Forest Modells 110 wird die zweite Gruppe mit dem kombinierten Wert von 92% sein.
  • 3 ist ein Beispiel einer Ausführungsform eines Random Forest Modells 110. Das Random Forest Modell 110 umfasst einen oder mehr Entscheidungsbäume 302. Jeder Entscheidungsbaum 302 umfasst einen oder mehrere Verteilerknoten 304 und einen oder mehrere Endknoten 306. Jeder Verteilerknoten 304 ist einem Test zugeordnet, der auf die Bilder, die diesem Knoten zugeführt werden, angewendet wird. Der Test klassifiziert das Bild und bestimmt, ob das Bild zu dem linken oder rechten untergeordneten Knoten weitergeleitet wird. Jeder Verteilerknoten verarbeitet in gleicher Weise das Bild bis ein Endknoten 306 erreicht wird. Vorhersagen der Fahreraktion 108, wie auch ein Konfidenzwert, sind jedem Endknoten 306 zugeordnet. Daher erzeugt der Entscheidungsbaum eine Vorhersage und einen Konfidenzwert für jedes Bild in Abhängigkeit davon, welchen Endknoten das Bild erreicht. Das Random Forest Modell 110 umfasst mehrere Entscheidungsbäume, die auf jedes Bild angewendet werden. Daher erzeugt das Random Forest Modell 110 mehrere Vorhersagen für ein gegebenes Bild entsprechend der Endknoten 306, die in jedem Entscheidungsbaum 302 erreicht werden.
  • 4 ist eine Ausführungsform eines Prozesses der von dem Ausbildungssystem 102 zur Erzeugung des Random Forest Modells 110 basierend auf den Ausbildungsbildern 108 durchgeführt wird. Das Ausbildungssystem 102 erhält 402 Ausbildungsbilder 108. In einer Ausführungsform stellen die Ausbildungsbilder 108 einen Fahrer dar und werden, während der Fahrer eine bestimmte Aktion durchführt, auf dem Video aufgenommen. Für jede Aktion können die Ausbildungsbilder 108 Bilder umfassen, die zu verschiedenen Zeitpunkten während der Aktion aufgenommen wurden. Darüber hinaus können die Ausbildungsbilder 108 Bilder von den Aktionen, die von verschiedenen Ausbildungssubjekten mit unterschiedlichen äußeren Erscheinungsbildern und Bewegungscharakteristiken durchgeführt werden, umfassen. Jedes Ausbildungsbild 108 ist mit der Aktion gekennzeichnet, die bei der Aufnahme des Bildes durchgeführt wurde. Beispiele von Aktionen können beispielsweise normales Fahren, Reichen nach der Mittelkonsole, Reichen nach dem Handschuhfach, Reichen nach einem Überkopffach, Einstellen des Radios, Sprechen in das Telefon, Essen, Trinken, Schreiben einer SMS, Lesen einer Karte, Aufbringen von Kosmetik, Winken, Reichen in den Hintersitz, Einstellen eines Spiegels und andere übliche Aktionen, die von einem Fahrer ergriffen werden, umfassen. Ein Beispiel eines Ausbildungsbildes 108 ist in 5A gezeigt. In diesem Beispiel werden die Tiefendaten durch die Intensität der Pixel (zum Beispiel erscheinen Objekte, die näher an der Kamera sind dunkler und Objekte die von der Kamera weiter entfernt sind heller) repräsentiert.
  • Das Ausbildungssystem 102 wählt 404 eine Teilmenge von Ausbildungsbildern. In einer Ausführungsform wählt das Ausbildungssystem 102 die Teilmenge der Bilder zufällig. In einer anderen Ausführungsform wird die Teilmenge der Ausbildungsbilder ausgewählt, um sicherzustellen, dass sie Bilder umfasst, die einer Mehrzahl von verschiedenen Aktionen entsprechen und/oder eine Mehrzahl von verschiedenen Individuen, die eine Aktion durchführen, darstellen.
  • Das Ausbildungssystem 102 bestimmt 406 ob eine Anhalte-Bedingung erfüllt ist. In einer Ausführungsform kann die Anhalte-Bedingung erfüllt sein, wenn die Entropie der gewählten Teilmenge von Ausbildungsbildern unter einen Entropie-Schwellenwert fällt. Eine Berechnung des Entropiewerts wird näher in Bezug auf Schritt 414 weiter unten beschrieben. Außerdem kann die Anhalte-Bedingung erfüllt sein, wenn eine maximale Tiefe des Baums erreicht ist.
  • Wenn die Anhalte-Bedingung nicht erfüllt ist, erzeugt 408 das Ausbildungssystem 102 einen Test für den aktuellen Knoten des Entscheidungsbaums der trainiert wird. Beispielsweise wird in einer Ausführungsform ein Test, der die folgende allgemeine Form hat, erzeugt:
    Figure DE102014220302A1_0002
    wobei If ein Merkmal eines Pixels q darstellt, F1 eine erste Region eines Bildes darstellt, F2 eine zweite Region eines Bildes darstellt und τ einen Entscheidungsschwellenwert darstellt. Der Test bestimmt, ob der Unterschied in den mittleren Merkmalswerten zwischen der ersten Region und der zweiten Region größer oder kleiner als ein Schwellenwert ist. Allgemeiner gesagt, stellt der Test einen Hinweis zur Verfügung, ob die Regionen F1 und F2 einer bestimmten Region einen Ähnlichkeits-Schwellenwert erfüllen.
  • In einer Ausführungsform umfasst ein Erzeugen des Tests ein Erzeugen von Werten (zum Beispiel zufällig) für die Parameter der obenstehenden Formel. Beispielsweise umfasst ein Erzeugen des Tests in einer Ausführungsform ein Auswählen der Lage und der Größe der ersten Region F1 und der Lage und der Größe der zweiten Region F2, ein Auswählen des Merkmals If und ein Auswählen des Schwellenwerts τ. Das Merkmal If kann zum Beispiel einen Tiefenwert, eine x-Koordinate einer Flächennormalen, eine y-Koordinate der Flächennormalen oder eine z-Koordinate der Flächennormalen umfassen. Die erste Region F1 und die F2 zweite Region werden beispielsweise durch ein Auswählen des x- und y-Bereichs der Regionen ausgewählt. In einer Ausführungsform wird eine maximale Regionsgröße erzwungen (zum Beispiel 100 Pixel auf 100 Pixel). 5B stellt ein Beispiel von zwei zufällig ausgewählten Regionen für ein Beispielbild dar. Der Schwellenwert kann zufällig oder intelligent als eine Funktion der anderen Parameter für einen Test an einem bestimmten Knoten ausgewählt werden.
  • Dann testet 410 das Ausbildungssystem 102 jedes Bild in der Teilmenge der Ausbildungsbilder 108. Basierend auf dem Ergebnis des Tests für jedes Bild wird die Teilmenge in zwei Gruppen geteilt 412, somit werden zwei untergeordnete Knoten geschaffen. Beispielsweise werden nach Anwenden des Tests Bilder, die ein Ergebnis, das weniger als der Schwellenwert ist, ergeben, dem linken untergeordneten Knoten zugewiesen, und Bilder, die ein Ergebnis, das größer als der Schwellenwert ist, ergeben, dem rechten untergeordneten Knoten zugewiesen (oder umgekehrt).
  • Um die Wirksamkeit des Tests zu bewerten, wird ein Informationsgewinn (IG) des Tests bestimmt 414. Der IG quantifiziert, wie gut die Bilder in die zwei untergeordneten Knoten aufgrund des Entropiewerts klassifiziert wurden. In einer Ausführungsform wird die Entropie H(s) einer bestimmten Teilmenge von Ausbildungsbildern unter Verwendung der folgenden Gleichung berechnet:
    Figure DE102014220302A1_0003
    wobei T die Anzahl der Bilder in einer ursprünglichen Teilmenge (zum Beispiel eines übergeordneten Knotens) ist, i eine Aktionskennzeichnung darstellt und p(i, s) einen Anteil der s Bilder die die Kennzeichnung i haben, darstellt. Eine Zunahme der Regelmäßigkeit oder der Einheitlichkeit der Teilmenge wird durch eine Abnahme der Entropie angegeben. Der IG wird unter Verwendung der Gleichung IG = H(T) – [ |L|H(L) + |R|H(R) / |T|] berechnet, wobei L die Anzahl der Bilder der ursprünglichen Teilmenge, die dem linken Zweig, basierend auf dem Testergebnis, zugewiesen wurden, darstellt und R die Anzahl der Bilder der ursprünglichen Teilmenge, die dem rechten Zweig, basierend auf dem Testergebnis, zugewiesen wurden, darstellt.
  • Der IG und der Test (dargestellt durch die ausgewählten Parameter) sind in in einer Reihe gespeichert 416. In einer Ausführungsform speichert die Reihe den Test für einen aktuellen Knoten nur, wenn er einen höheren IG hat als zuvor gespeicherte Tests. Beispielsweise wird in einem iterativen Prozess, während ein neuer Test erzeugt wird, der neue IG mit dem IG, der in der Reihe gespeichert ist, verglichen. Wenn der neue Test einen höheren IG hat, wird der neue Test in der Reihe platziert und der zuvor gespeicherte Test wird entfernt.
  • Das Ausbildungssystem 102 bestimmt 418 dann, ob eine ausreichende Anzahl von Iterationen durchgeführt wurde. Die Bestimmung kann beispielsweise auf dem Erreichen von einer vorbestimmten Anzahl von Tests für den aktuellen Knoten oder auf einem Befund basieren, dass ein Test einen IG über einen vorbestimmten Schwellenwert aufweist. Wenn das Ausbildungssystem bestimmt, dass weitere Iterationen durchgeführt werden sollen, wiederholt der Prozess den Schritt 408 und ein anderer Test wird für den aktuellen Knoten erzeugt (zum Beispiel durch auswählen anderer Regionen, Merkmale und/oder Schwellenwerte). Wenn das Ausbildungssystem stattdessen bestimmt, dass zusätzliche Iterationen nicht gebraucht werden, wählt 420 das Ausbildungssystem 102 den Test mit dem höchsten IG aus. Der Test mit dem höchsten IG wird als der Test für den aktuellen Knoten, der trainiert wird, gespeichert 422 (zum Beispiel durch Speichern von den ausgewählten Parameterwerten).
  • Das Ausbildungssystem 102 speichert 424 dann die entstandenen Bildergruppen, die den untergeordneten Knoten als Teilmengen zugeordnet sind. Der Prozess führt dann eine Schleife zu Schritt 406 aus und die anschließenden Schritte werden gesondert für jede der Teilmengen, die den untergeordneten Knoten zugeordnet sind, durchgeführt.
  • Zurückkehrend zu dem Anhalte-Bedingungs-Schritt 406, wählt 426 das Ausbildungssystem 102, wenn eine der Anhalte-Bedingungen in Schritt 406 erfüllt ist, die Fahreraktion mit dem höchsten Konfidenzwert in der Teilmenge aus. In einer Ausführungsform wird die Konfidenz basierend auf einem Verhältnis der Anzahl von Bildern, die mit der vorhergesagten Fahreraktion gekennzeichnet sind, zu der Gesamtanzahl der Bilder in der Teilmenge für den Knoten, der die Anhalte-Bedingung erfüllt, oder als Prozentsatz der Bilder, die die vorhergesagte Fahreraktion haben, berechnet. Beispielsweise ist die Konfidenz für die Fahreraktion eine SMS schreiben das Verhältnis der Bilder in den Ausbildungsbildern an dem Endknoten, die mit eine SMS schreiben gekennzeichnet sind, zu der Gesamtanzahl der Bilder, die diesen Knoten erreichen. In anderen Ausführungsformen stützt sich die Konfidenz auf zusätzliche Faktoren, wie Gewichte für verschiedene Fahreraktionen.
  • Das Ausbildungssystem 102 kennzeichnet den Knoten als Endknoten und speichert 428 die Vorhersage in Verbindung mit dem Knoten. Wenn die Anzahl von fertiggestellten Bäumen in dem Random Forest gleich 430 einem Maximum von Bäumen ist, dann beendet 432 das Ausbildungssystem 102 das Lernen der Ausbildungsbilder 108. In einer Ausführungsform ist die maximale Anzahl der Bäume in dem Random Forest sechs, obwohl eine andere beliebige Anzahl in Abhängigkeit von der gewünschten Abwägung zwischen Geschwindigkeit, Speicher, Stabilität oder anderen Faktoren, verwendet werden kann. Ansonsten wählt 404 das Ausbildungssystem 102 eine andere Teilmenge der Ausbildungsbilder 108 aus und wiederholt die darauffolgenden Schritte.
  • Erkennung von Fahreraktionen mit Random Forests
  • 6A stellt eine Ausführungsform eines Prozesses, der von dem Aktions-Erkennungs-Modul 138 durchgeführt wird, dar. Das Aktions-Erkennungs-Modul 138 empfängt 602 ein 3D-Bild des Fahrers, der eine Aktion in dem Fahrzeug durchführt. Das Modul 138 greift 604 auf das Random Forest Modell 110 zu. Das in dem Fahrzeug befindliche Rechnersystem 122 veranlasst das Random Forest Modell 110 eine Mehrzahl von Vorhersagen zu erzeugen 606. In diesem Prozess wird der gelernte Test, beginnend an dem obersten Verteilerknoten des Entscheidungsbaums, mit dem Ergebnis des Tests, der bestimmt, ob sich zu dem rechten oder linken untergeordneten Knoten des Entscheidungsbaums bewegt werden soll, angewendet. Wenn ein Verteilerknoten erreicht wird, speichert das Aktions-Erkennungs-Modul 138 die Vorhersage und den entsprechenden Konfidenzwert, die dem Verteilerknoten zugeordnet sind. Dieser Prozess wird für jede der Entscheidungen durchgeführt, wobei jeder Baum eine Vorhersage und einen entsprechenden Konfidenzwert ergibt.
  • Das in dem Fahrzeug befindliche Rechnersystem 122 gruppiert 608 die Vorhersagen basierend auf den Fahreraktionen über alle Entscheidungsbäume. Beispielsweise würden alle Bilder, von denen vorhergesagt wird, dass sie die Fahreraktion eine SMS schreiben haben, zusammen gruppiert und alle Bilder, von denen vorhergesagt wird, dass sie die Fahreraktion Essen haben, würden zusammen gruppiert. Dann werden die Konfidenzwerte von jeder Vorhersage in einer gegebenen Gruppe zu einem kombinierten Wert kombiniert 610, der die Addition der gewichteten Stimmen, wobei die einzelnen Konfidenzwerte als Gewichte benutzt werden, darstellt. Beispielsweise würde der kombinierte Wert, wenn drei der Entscheidungsbäume in dem Random Forest Modell „eine SMS schreiben” als die Fahreraktion mit Konfidenzwerten von jeweils 22%, 78%, und 50% vorhersagen, 22% + 78% + 50% sein, das den kombinierten Wert auf 150% kombiniert. In einer alternativen Ausführungsform kann eine andere Methode zur Kombination der Werte verwendet werden, wie beispielsweise ein Berechnen einer gewichteten Kombination, eines mittleren Werts, eines Mittelwerts usw.. Die Fahreraktion mit dem höchsten kombinierten Wert wird als die endgültige Vorhersage 114 für das Bild ausgewählt 612.
  • 6B ist ein Diagramm, das eine Ausführungsform eines Prozesses zur Erkennung einer Aktion, wie auf ein Beispielbild angewendet, darstellt. Jeder Entscheidungsbaum des Random Forest wird auf das Bild angewendet, wobei jeder Entscheidungsbaum eine Vorhersage und einen Konfidenzwert für diese Vorhersage erzeugt. Die Vorhersagen für das Bild werden basierend auf der Fahreraktion gruppiert. In dem Beispiel von 6B ergibt der erste Entscheidungsbaum eine Vorhersage von „eine SMS schreiben” mit einem Konfidenzwert von 43%, der zweite Entscheidungsbaum ergibt eine Vorhersage von „Essen” mit einem Konfidenzwert von 57% und der dritte Entscheidungsbaum ergibt eine Vorhersage von „eine SMS schreiben” mit einem Konfidenzwert von 38%. Die Vorhersagen werden dann anhand der vorhergesagten Aktion gruppiert. Die Konfidenzwerte in jeder Gruppe werden kombiniert. Beispielsweise werden die Konfidenzwerte von 43% und 38% in der Fahreraktionsgruppe für ”eine SMS schreiben” kombiniert, um einen kombinierten Wert von 81% für „eine SMS schreiben” zu ergeben. Die Fahreraktionsgruppe für „Essen” umfasst in diesem Beispiel nur eine Vorhersage mit einem Konfidenzwert von 57%. In diesem Beispiel hatte die „eine SMS schreiben” Vorhersage den höchsten kombinierten Konfidenzwert von 81% und wird als endgültige Vorhersage 114 ausgewählt.
  • 7 stellt eine Ausführungsform eines Prozesses zur Erzeugung 606 der Mehrzahl von Vorhersagen dar. Das in dem Fahrzeug befindliche Rechnersystem 122 bestimmt 702, ob der aktuelle Knoten des aktuell durchlaufenen Entscheidungsbaums ein Verteilerknoten 304 oder ein Endknoten 306 ist. Wenn der aktuelle Knoten ein Verteilerknoten 304 ist, wird der Test, der dem aktuellen Knoten zugeordnet ist, auf das 3D Bild angewendet 704. Das in dem Fahrzeug befindliche Rechnersystem 122 bestimmt 706, basierend auf dem Ergebnis des angewandten Tests, ob zu dem linken oder dem rechten untergeordneten Knoten abgezweigt wird. Der Prozess kehrt dann für den nächsten Knoten wiederholend zu Schritt 702 zurück. Wenn der aktuelle Knoten ein Endknoten 306 in Schritt 702 ist, wird eine Vorhersage, die dem aktuellen Knoten zugeordnet ist, als Vorhersage für den Entscheidungsbaum ausgegeben 708. Wenn der Entscheidungsbaum der letzte Entscheidungsbaum 710 in dem Random Forest Modell 110 ist, hält 712 das in dem Fahrzeug befindliche Rechnersystem 122 ein Erzeugen von weiteren Vorhersagen an. Andernfalls kehrt der Prozess zu Schritt 702 für den nächsten Entscheidungsbaum in dem Random Forest Modell zurück.
  • In einer alternativen Ausführungsform können Vorhersagen, anstatt eines Bestimmens jeder Vorhersage auf einer Bild-Frame-(Bild-Einzelbild)-zu-Bild-Einzelbild-Basis, auf mehreren Bild-Einzelbildern und gelernten Zustandsübergangswahrscheinlichkeiten basieren. In dieser Ausführungsform werden aufeinander folgende Bilder eines Videodatenstroms, während die Vorhersagen gemacht werden, ausgewertet. Hier umfasst die obig diskutierte Lernstufe das Lernen von Zustandsübergangswahrscheinlichkeiten zwischen Aktionen, die eine Wahrscheinlichkeit anzeigen, dass eine Aktion zu einer anderen Aktion in aufeinander folgenden Bildern des Videos wechselt. Dann werden diese Zustandsübergangswahrscheinlichkeiten benutzt, beispielsweise als Gewichte, die verschiedenen Vorhersagen zugeordnet sind, wenn Vorhersagen erzeugt werden. Beispielsweise kann dann der Wert der einem Aktionskennzeichen B für Bild i + 1 zugeordnet ist, falls dem aktuellen Bild I ein Aktionskennzeichen A gegeben ist, basierend auf (i) einer Wahrscheinlichkeit des Aktionskennzeichen (zum Beispiel Kennzeichen B) des Bildes i + 1 basierend auf dem Bild i + 1 alleine; und (ii) einer Wahrscheinlichkeit eines Übergangs von Zustand A zu Zustand B, bestimmt werden. In einer Ausführungsform werden die gewichteten Werte benutzt, um die Vorhersage zu bestimmen. In einer anderen Ausführungsform wird eine Vorhersage nur getroffen, wenn die gewichtete Konfidenz einen Schwellenwert übersteigt, was während der Ausbildung gelernt werden kann.
  • In einem ersten Beispiel, falls jedes Bild-Einzelbild des Videodatenstroms in das Random Forest Modell 110 durch Entscheidungsbäume für eine endgültige Vorhersage 114 eingeleitet wurde, sagt ein erstes Bild-Einzelbild eine „eine SMS schreiben” Aktion voraus. Ein zweites Bild-Einzelbild, das dem ersten Bild-Einzelbild unmittelbar folgt, umfasst zugleich „Essen” (zum Beispiel einen Wert von 80%) und „eine SMS schreiben” (zum Beispiel einen Wert von 55%) als Vorhersage von verschiedenen Entscheidungsbäumen, wobei jeder verschiedene Konfidenzwerte aufweist. Unter Benutzung des Zustandsübergangs-Diagramms von verschiedenen Aktions-Übergangs-Wahrscheinlichkeiten, können die Übergangs-Wahrscheinlichkeiten als Gewichte, um die endgültige Vorhersage zu bestimmen, benutzt werden. Beispielsweise kann die Übergangswahrscheinlichkeit von „eine SMS schreiben” zu „Essen” relativ gering sein (zum Beispiel 10%), während diese von „eine SMS schreiben” zu „eine SMS schreiben” relativ hoch ist (zum Beispiel 75%). Aufgrund der höheren Zustandsübergangswahrscheinlichkeit kann das System „eine SMS schreiben” als die endgültige Vorhersage wählen, auch wenn „Essen” einen höheren Wert, basierend auf dem zweiten Bild-Einzelbild allein, hatte.
  • Zusätzliche Überlegungen
  • Wird in der Beschreibung auf „die eine Ausführungsform” oder allgemein auf „eine Ausführungsform” Bezug genommen, bedeutet das, dass ein spezielles Merkmal, Struktur oder Charakteristik, welche/welcher/welches im Zusammenhang mit den Ausführungsformen beschrieben ist, von mindestens einem Ausführungsbeispiel umfasst ist. Das Auftreten der Wendung „in dieser einen Ausführungsform” oder allgemein „in einer Ausführungsform” an mehreren Stellen in der Beschreibung bezieht sich nicht notwendigerweise auf dieselbe Ausführungsform.
  • Einige Teile der ausführlichen Beschreibung, die folgt, sind in Form von Algorithmen und symbolischen Darstellungen von Operationen auf Datenbits innerhalb eines Computerspeichers dargestellt. Diese algorithmischen Beschreibungen und Darstellungen sind die Mittel, die von Fachleuten der Datenverarbeitung benutzt werden, um anderen Fachleuten den Inhalt ihrer Arbeit am effektivsten zu vermitteln. Ein Algorithmus ist hier und im Allgemeinen, als eine Abfolge von in sich stimmigen Schritten (Befehlen), die zu einem gewünschten Ergebnis führen, gedacht. Die Schritte sind solche, die physikalische Manipulationen von physikalischen Größen erfordern. Gewöhnlich, jedoch nicht notwendigerweise, nehmen diese Größen die Form von elektrischen, magnetischen oder optischen Signalen, die gespeichert, übertragen, kombiniert, verglichen oder anderweitig verändert werden können, ein. Es ist zeitweise bequem, hauptsächlich aufgrund der üblichen Verwendungsweise, diese Signale als Bits, Werte, Elemente, Symbole, Zeichen, Begriffe, Zahlen oder ähnliches zu bezeichnen. Außerdem ist es zeitweise bequem, bestimmte Vereinbarungen von Schritten, die physikalische Veränderungen oder Umwandlungen von physikalischen Größen oder Darstellungen von physikalischen Größen erfordern, als Module oder Code-Vorrichtungen, ohne Beschränkung der Allgemeingültigkeit, zu bezeichnen.
  • Jedoch sind alle diese und ähnliche Begriffe mit der geeigneten physikalischen Größe zu verbinden und sind lediglich bequeme Kennzeichnungen, die auf diese Größen angewendet werden. Sofern es nicht ausdrücklich anders, als es von der folgenden Diskussion offensichtlich ist, angegeben ist, wird es erwartet, dass in der Beschreibung durchgehend Diskussionen, die Begriffe wie „verarbeiten” oder „berechnen” oder „ermitteln” oder „bestimmen” oder „anzeigen” oder „bestimmen” oder ähnliches verwenden, sich auf die Aktion und die Prozesse eines Computersystems oder einer ähnlichen elektronischen Rechenvorrichtung (wie eine spezielle Rechenmaschine) beziehen, die Daten manipuliert und transformiert, die als physikalische (elektronische) Größen in dem Computersystemspeichern oder -registern oder einem anderen solchen Informationsspeicher, Übertragungs- oder Anzeige-Vorrichtung dargestellt sind.
  • Bestimmte Aspekte der Ausführungsformen umfassen Prozessschritte und Befehle, die hierin in der Form eines Algorithmus beschrieben sind. Dabei ist zu beachten, dass die Prozessschritte und Befehle der Ausführungsformen in Software, Firmware oder Hardware verkörpert sein können und wenn diese in Software verkörpert sind, herunter geladen werden können, um sich auf verschiedenen Plattformen, die von einer Mehrzahl von Betriebssystemen genutzt werden können, zu befinden und von da aus betrieben werden können. Die Ausführungsformen können auch in einem Computerprogramm Produkt sein, das auf einem Rechnersystem ausgeführt werden kann.
  • Die Ausführungsformen beziehen sich auch auf ein Gerät zur Durchführung der Verfahren hierauf. Dieses Gerät kann speziell für diesen Zweck konstruiert sein, zum Beispiel ein spezieller Computer oder es kann einen Universal-Computer, der selektiv freigeschaltet oder rekonfiguriert durch ein Computerprogramm, das in dem Computer gespeichert ist, umfassen. Ein solches Computerprogramm kann in einem computer-lesbaren Speichermedium, wie, aber nicht auf diese beschränkt, jede Form von Disketten, umfassend Disketten, optische Disketten, compact disc nur-lese-Speicher (CD-ROMs), magnetisch-optische Disketten, nur-lese-Speicher (ROMs), Speicher mit wahlfreien/direkten Zugriff (RAMs), löschbare programmierbare nur-lese-Speicher (EPROMs), elektrisch löschbare programmierbare nur-lese-Speicher (EEPROMs), magnetische oder optische Karten, anwendungsspezifische integrierte Schaltungen (ASICs) oder jede andere Form von Medien, die sich zur Speicherung von elektronischen Befehlen eignet, wobei jedes an einen Computer System Bus gekoppelt ist, gespeichert werden. Der/die Speicher/Speicherung kann flüchtig oder nicht-flüchtig sein. Ein Speicher kann jedes der oben genannten und/oder andere Vorrichtungen, die Informationen/Daten/Programme speichern können, umfassen. Außerdem können die Computer, auf die in der Beschreibung Bezug genommen wird, einzelne Prozessoren umfassen oder können Architekturen sein, die mehrfache Prozessor-Konstruktionen verwenden, die die Rechenfähigkeit erhöhen.
  • Die Algorithmen und Anzeigen, die hier vorgestellt werden, sind nicht grundsätzlich einem bestimmten Computer oder anderen Gerät zugeordnet. Verschiedene Universalsysteme können mit den Programmen in Übereinstimmung mit den darin enthaltenen Lehren benutzt werden oder es kann sich als bequem erweisen, ein spezialisierteres Gerät zur Durchführung der Schritte des Verfahrens zu konstruieren. Die Struktur für eine Mehrzahl dieser Systeme wird in der Beschreibung unten erscheinen. Zusätzlich hierzu sind die Ausführungsformen nicht in Bezug auf eine bestimmte Programmiersprache beschrieben. Dabei ist zu beachten, dass eine Mehrzahl von Programmiersprachen benutzt werden kann, um die Lehren der Ausführungsformen wie hierin beschrieben, zu implementieren und jeder Bezug auf eine spezielle Sprache, wird unten stehend zur Offenlegung der Befähigung und der besten Ausführungsform zur Verfügung gestellt.
  • Außerdem wurde die Sprache, die in der Beschreibung benutzt wurde, hauptsächlich aufgrund der Lesbarkeit und zu Anleitungszwecken gewählt und wäre nicht zur Skizzierung und Umschreibung des erfinderischen Gegenstandes gewählt worden. Dementsprechend ist die Offenlegung der Ausführungsformen dazu bestimmt, veranschaulichend, aber nicht beschränkend, des Umfangs der Ausführungsformen, die in den Ansprüchen dargelegt sind, zu sein.
  • Beim Lesen dieser Offenbarung werden Fachleute sich noch zusätzlicher, alternativer Verfahren und Systeme, um die Bewegungs-basierte POI Suche durchzuführen, bewusst sein. Daher, obwohl spezielle Ausführungsbeispiele und Anwendungen der vorliegenden Offenbarung veranschaulicht und beschrieben wurden, wird davon ausgegangen werden, dass die Offenbarung nicht auf die genaue Konstruktion und Komponenten, wie hierin offenbart, beschränkt ist, und dass unterschiedliche Modifikationen, Änderungen und Variationen, die Fachleuten offensichtlich sind, in der Anordnung, Betrieb und den Details des Verfahrens und des Geräts der vorliegenden Ausführungsformen wie hierin offenbart, vorgenommen werden können, ohne von dem Geist und dem Umfang des Gegenstands, wie er in den angehängten Ansprüchen definiert ist, abzuweichen.
  • Ein Aktion-Erkennungs-System erkennt Fahreraktionen unter Verwendung eines Random Forest Modells, um Bilder des Fahrers zu klassifizieren. Eine Mehrzahl von Vorhersagen wird unter Verwendung des Random Forest Modells erzeugt. Jede Vorhersage wird von einem Entscheidungsbaum aus der Mehrzahl der Entscheidungsbäume erzeugt und jede Vorhersage umfasst eine vorhergesagte Fahreraktion und einen Konfidenzwert. Die Mehrzahl von Vorhersagen wird in eine Mehrzahl von Gruppen umgruppiert, wobei jede aus der Mehrzahl der Gruppen einer der Fahreraktionen zugeordnet ist. Die Konfidenzwerte werden innerhalb jeder Gruppe kombiniert, um einen kombinierten Wert zu bestimmen, der jeder Gruppe zugeordnet wird. Die Fahreraktion, die der höchste kombinierte Wert zugeordnet ist, wird ausgewählt.

Claims (20)

  1. Verfahren zur Durchführung einer Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug, wobei das Verfahren umfasst: Erhalten eines Bildes des Fahrers in dem Fahrzeug durch ein Rechnersystem; Zugreifen auf ein Random Forest Modell, umfassend eine Mehrzahl von Entscheidungsbäumen; Erzeugen einer Mehrzahl von Vorhersagen durch das Random Forest Modell der Aktion, welche durch den Fahrer in dem Bild durchgeführt wird, wobei jede Vorhersage durch einen aus der Mehrzahl der Entscheidungsbäume erzeugt wird, wobei jede aus der Mehrzahl der Vorhersagen eine vorhergesagte Fahreraktion und einen Konfidenzwert umfasst; Gruppieren der Mehrzahl von Vorhersagen in eine Mehrzahl von Gruppen, wobei jede aus der Mehrzahl von Gruppen einer durch das Random Forest Modell vorhergesagten Fahreraktion zugeordnet ist; Kombinieren der Konfidenzwerte der Vorhersagen innerhalb jeder Gruppe, um einen kombinierten Wert für die Fahreraktion, die jeder Gruppe zugeordnet ist, zu bestimmen; und Auswählender Fahreraktion, welche einem höchsten kombinierten Wert zugeordnet ist.
  2. Verfahren nach Anspruch 1, wobei ein Kombinieren der Konfidenzwerte ein Addieren der Konfidenzwerte umfasst.
  3. Verfahren nach Anspruch 1, wobei ein Erzeugen der Mehrzahl von Vorhersagen durch das Random Forest Modell umfasst: Anwenden eines ersten Tests auf das Bild, der auf ersten Testparametern eines übergeordneten Verteilerknotens des ersten Entscheidungsbaums in dem Random Forest basiert, für einen ersten Entscheidungsbaum in der Mehrzahl der Entscheidungsbäume, wobei der übergeordnete Verteilerknoten eine Mehrzahl von untergeordneten Knoten aufweist; Auswählen eines aus den untergeordneten Knoten des übergeordneten Verteilerknotens basierend auf einem Ergebnis des Tests; Anwenden eines zweiten Tests auf das Bild, welcher auf zweiten Testparametern, die dem ausgewählten einen der untergeordneten Knoten zugeordnet sind, basiert, als Reaktion darauf, dass der ausgewählte eine der untergeordneten Knoten ein Verteilerknoten ist; Erzeugen der Vorhersage als Reaktion darauf, dass der ausgewählte eine der untergeordneten Knoten ein Endknoten ist, wobei die erzeugte Vorhersage die Fahreraktion und den Konfidenzwert, welche dem Endknoten zugeordnet sind, umfasst.
  4. Verfahren nach Anspruch 3, wobei ein Anwenden des ersten Tests, basierend auf den ersten Testparametern, umfasst: Auswählen einer Mehrzahl von räumlichen Regionen des Bildes; Auswählen eines Eigenschaftskanals, der die Eigenschaften des Bildes repräsentiert; und Auswählen eines Schwellenwerts.
  5. Verfahren nach Anspruch 4, wobei das Bild ein dreidimensionales Bild umfasst und wobei der ausgewählte Eigenschaftskanal dreidimensionale Tiefendaten umfasst.
  6. Verfahren nach Anspruch 4, wobei ein Anwenden des ersten Tests umfasst: Bestimmen eines Unterschieds zwischen Durchschnittswerten der ausgewählten Eigenschaftskanäle von mindestens zwei aus der ausgewählten Mehrzahl der räumlichen Regionen; und Vergleichen des Unterschieds zu dem Schwellenwert.
  7. Verfahren nach Anspruch 1, umfassend: Verzögern einer Benachrichtigung, die von einem in dem Fahrzeug befindlichen System bereitgestellt wird, basierend auf der vorhergesagten Fahreraktion.
  8. Verfahren nach Anspruch 1, wobei die vorhergesagte Fahreraktion mindestens eine umfasst aus: Normales Fahren, Reichen nach der Mittelkonsole, Reichen nach einem Handschuhfach, Reichen nach einem Überkopffach, Einstellen eines Radios, Sprechen in ein Telefon und Einstellen eines Spiegels.
  9. Verfahren nach Anspruch 1, wobei das Random Forest Modell basierend auf einem Satz von gekennzeichneten Ausbildungsbildern gelernt wird.
  10. Nicht-flüchtiges, computer-lesbares Speichermedium, das Befehle zur Durchführung einer Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug speichert, wobei die Befehle, wenn sie von einem Prozessor ausgeführt werden, den Prozessor veranlassen, Schritte durchzuführen, welche umfassen: Erhalten eines Bildes des Fahrers in dem Fahrzeug durch ein Rechnersystem; Zugreifen auf ein Random Forest Modell umfassend eine Mehrzahl von Entscheidungsbäumen; Erzeugen einer Mehrzahl von Vorhersagen durch das Random Forest Modell, wobei jede Vorhersage durch einen aus der Mehrzahl der Entscheidungsbäume erzeugt wird, wobei jede aus der Mehrzahl der Vorhersagen eine vorhergesagte Fahreraktion und einen Konfidenzwert umfasst; Gruppieren der Mehrzahl von Vorhersagen in eine Mehrzahl von Gruppen, wobei jede aus der Mehrzahl von Gruppen einer der Fahreraktionen zugeordnet ist; Kombinieren der Konfidenzwerte der Vorhersagen innerhalb jeder Gruppe, um einen kombinierten Wert für die Fahreraktion, die jeder Gruppe zugeordnet ist, zu bestimmen; und Auswählen der Fahreraktion, welche einem höchsten kombinierten Wert zugeordnet ist.
  11. Nicht-flüchtiges, computer-lesbares Speichermedium nach Anspruch 10, wobei ein Kombinieren der Konfidenzwerte ein Addieren der Konfidenzwerte umfasst.
  12. Nicht-flüchtiges, computer-lesbares Speichermedium nach Anspruch 10, wobei ein Erzeugen der Mehrzahl von Vorhersagen durch das Random Forest Modell umfasst: Anwenden eines ersten Tests auf das Bild, der auf ersten Testparametern eines übergeordneten Verteilerknotens des ersten Entscheidungsbaums in dem Random Forest basiert, für einen ersten Entscheidungsbaum in der Mehrzahl der Entscheidungsbäume, wobei der übergeordnete Verteilerknoten eine Mehrzahl von untergeordneten Knoten aufweist; Auswählen eines aus den untergeordneten Knoten des übergeordneten Verteilerknotens basierend auf einem Ergebnis des Tests; Anwenden eines zweiten Tests auf das Bild, welcher auf zweiten Testparametern, die dem ausgewählten einen der untergeordneten Knoten zugeordnet sind, basiert, als Reaktion darauf, dass der ausgewählte eine der untergeordneten Knoten ein Verteilerknoten ist; Erzeugen der Vorhersage als Reaktion darauf, dass der ausgewählte eine der untergeordneten Knoten ein Endknoten ist, wobei die erzeugte Vorhersage die Fahreraktion und den Konfidenzwert, welche dem Endknoten zugeordnet sind, umfasst.
  13. Nicht-flüchtiges, computer-lesbares Speichermedium nach Anspruch 12, wobei ein Anwenden des ersten Tests, basierend auf den ersten Testparametern, umfasst: Auswählen einer Mehrzahl von räumlichen Regionen des Bildes; Auswählen eines Eigenschaftskanals, der die Eigenschaften des Bildes repräsentiert; und Auswählen eines Schwellenwerts.
  14. Nicht-flüchtiges, computer-lesbares Speichermedium nach Anspruch 13, wobei ein Anwenden des ersten Tests umfasst: Bestimmen eines Unterschieds zwischen Durchschnittswerten der ausgewählten Eigenschaftskanäle von mindestens zwei aus der ausgewählten Mehrzahl der räumlichen Regionen; und Vergleichen des Unterschieds zu dem Schwellenwert.
  15. -Flüchtiges, computer-lesbares Speichermedium nach Anspruch 13, wobei ein Anwenden des ersten Tests umfasst: Bestimmen eines Unterschieds zwischen Durchschnittswerten der ausgewählten Eigenschaftskanäle von mindestens zwei aus der ausgewählten Mehrzahl der räumlichen Regionen; und Vergleichen des Unterschieds zu dem Schwellenwert.
  16. Methode zum Lernen eines Random Forest Modells zur Aktions-Erkennung, wobei das Random Forest Modell eine Mehrzahl von Entscheidungsbäumen umfasst, wobei das Verfahren umfasst: Empfangen einer Mehrzahl von Ausbildungsbildern durch ein Computersystem, wobei jedes Ausbildungsbild eine Fahreraktion, die in einem Fahrzeug durchgeführt wird, darstellt und jedes Ausbildungsbild eine Kennzeichnung aufweist, die die Fahreraktion, die durchgeführt wird, identifiziert; Erzeugen eines Tests, der einem übergeordnetem Knoten eines aus der Mehrzahl von Entscheidungsbäumen entspricht, wobei der Test einen oder mehrere Testparameter umfasst; Anwenden des Tests auf jedes Ausbildungsbild, um jedes Ausbildungsbild in eine Mehrzahl von Bildergruppen, umfassend mindestens eine erste Bildergruppe und eine zweite Bildergruppe, zu klassifizieren; Bestimmen, ob ein Entropiewert der ersten Bildergruppe unter einem Schwellenwert liegt; Erzeugen einer Vorhersage als Reaktion zu einer Bestimmung, dass der Entropiewert der ersten Bildergruppe unter dem Schwellenwert ist, die auf den Kennzeichnungen, die der ersten Bildergruppe zugeordnet sind, basiert, wobei die Vorhersage eine Fahreraktion und einen Konfidenzwert umfasst und Erzeugen eines Endknotens, der der Vorhersage zugeordnet ist, als ein untergeordneter Knoten eines übergeordneten Knotens; und Erzeugen eines Verteilerknotens, der der ersten Bildergruppe zugeordnet ist, als ein untergeordneter Knoten eines übergeordneten Knotens, als Reaktion zu einer Bestimmung, dass der Entropiewert der ersten Bildergruppe nicht unter dem Schwellenwert ist.
  17. Verfahren nach Anspruch 16, wobei ein Erzeugen des Tests umfasst: Auswählen einer Mehrzahl von räumlichen Regionen; Auswählen eines Eigenschaftskanals; und Auswählen eines Schwellenwerts.
  18. Verfahren nach Anspruch 17, wobei ein Anwenden des Tests umfasst: Bestimmen eines mittleren Wertes für den Eigenschaftskanal jeder aus der Mehrzahl der räumlichen Regionen für ein gegebenes Ausbildungsbild; Bestimmen eines Unterschieds zwischen den mittleren Werten einer ersten räumlichen Region und einer zweiten räumlichen Region in der Mehrzahl der räumlichen Regionen; Vergleichen des Unterschieds zu dem Schwellenwert um ein Vergleichsergebnis zu erzeugen; und Klassifizieren des gegebenen Ausbildungsbildes in eine aus der Mehrzahl der Bildergruppen, basierend auf dem Vergleichsergebnis.
  19. Verfahren nach Anspruch 18, wobei ein Erzeugen des Endknotens umfasst: Bestimmen einer Fahreraktion, die einer höchsten Anzahl von Bildern in der ersten Bildergruppe zugeordnet ist; und Berechnen des Konfidenzwerts als ein Prozentsatz der Bilder in der ersten Bildergruppe, die der Fahreraktion zugeordnet sind.
  20. Verfahren nach Anspruch 16, wobei das Erzeugen des Tests umfasst: Anwenden eines ersten Stichprobentests; Bestimmen eines ersten Informations-Gewinn-Werts für den ersten Stichprobentest, wobei der Informations-Gewinn-Wert den Unterschied zwischen einem Entropiewert der Mehrzahl von Ausbildungsbildern und einem kombinierten Entropiewert der ersten und zweiten Bildergruppen repräsentiert; Anwenden eines zweiten Stichprobentests; Bestimmen eines zweiten Informations-Gewinn-Werts für den zweiten Stichprobentest; und Identifizieren des Tests, der einen höchsten Informations-Gewinn-Wert aufweist.
DE102014220302.3A 2013-10-09 2014-10-07 Verfahren zur Durchführung einer Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug sowie entsprechendes Nichtflüchtiges, Computer-lesbares Speichermedium und Verfahren zum Lernen eines Random Forest Modells zur Aktionserkennung Active DE102014220302B4 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/050,259 2013-10-09
US14/050,259 US9501693B2 (en) 2013-10-09 2013-10-09 Real-time multiclass driver action recognition using random forests

Publications (2)

Publication Number Publication Date
DE102014220302A1 true DE102014220302A1 (de) 2015-04-09
DE102014220302B4 DE102014220302B4 (de) 2024-02-08

Family

ID=52693467

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102014220302.3A Active DE102014220302B4 (de) 2013-10-09 2014-10-07 Verfahren zur Durchführung einer Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug sowie entsprechendes Nichtflüchtiges, Computer-lesbares Speichermedium und Verfahren zum Lernen eines Random Forest Modells zur Aktionserkennung

Country Status (3)

Country Link
US (1) US9501693B2 (de)
JP (1) JP6453025B2 (de)
DE (1) DE102014220302B4 (de)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9972184B2 (en) * 2014-07-24 2018-05-15 State Farm Mutual Automobile Insurance Company Systems and methods for monitoring a vehicle operator and for monitoring an operating environment within the vehicle
US10607095B1 (en) * 2015-01-13 2020-03-31 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for classifying digital images
DE102015223974A1 (de) * 2015-12-02 2017-06-08 Robert Bosch Gmbh Verfahren und Vorrichtung zur Beeinflussung eines Fahrzeugverhaltens
WO2017111931A1 (en) * 2015-12-22 2017-06-29 Intel Corporation Rfid location detection
JP6609808B2 (ja) * 2016-01-08 2019-11-27 株式会社Ye Digital 決定木学習アルゴリズムを用いた予測プログラム、装置及び方法
US11068730B1 (en) * 2016-06-14 2021-07-20 State Farm Mutual Automobile Insurance Company Apparatuses, systems, and methods for determining vehicle operator distractions at particular geographic locations
US9928434B1 (en) * 2016-06-14 2018-03-27 State Farm Mutual Automobile Insurance Company Appartuses, systems, and methods for determining when a vehicle occupant is using a mobile telephone
US11423671B1 (en) 2016-06-14 2022-08-23 State Farm Mutual Automobile Insurance Company Apparatuses, systems, and methods for detecting vehicle occupant actions
US9928433B1 (en) * 2016-06-14 2018-03-27 State Farm Mutual Automobile Insurance Company Apparatuses, systems, and methods for determining when a vehicle operator is texting while driving
US20190213446A1 (en) * 2016-06-30 2019-07-11 Intel Corporation Device-based anomaly detection using random forest models
JP6765911B2 (ja) * 2016-09-15 2020-10-07 三菱重工業株式会社 分類装置、分類方法およびプログラム
US11321951B1 (en) * 2017-01-19 2022-05-03 State Farm Mutual Automobile Insurance Company Apparatuses, systems and methods for integrating vehicle operator gesture detection within geographic maps
US10289938B1 (en) 2017-05-16 2019-05-14 State Farm Mutual Automobile Insurance Company Systems and methods regarding image distification and prediction models
US10504003B1 (en) * 2017-05-16 2019-12-10 State Farm Mutual Automobile Insurance Company Systems and methods for 3D image distification
US10296785B1 (en) * 2017-07-24 2019-05-21 State Farm Mutual Automobile Insurance Company Apparatuses, systems, and methods for vehicle operator gesture recognition and transmission of related gesture data
US10628667B2 (en) 2018-01-11 2020-04-21 Futurewei Technologies, Inc. Activity recognition method using videotubes
CN108464839A (zh) * 2018-03-22 2018-08-31 东华大学 一种基于机器学习的车载疲劳驾驶监测预警系统
CN108985332A (zh) * 2018-06-15 2018-12-11 清华大学 基于动作电位发放间隔的自然图像随机森林成像方法
JP6708847B1 (ja) * 2018-07-04 2020-06-10 株式会社エイシング 機械学習装置及び方法
US10850746B2 (en) * 2018-07-24 2020-12-01 Harman International Industries, Incorporated Coordinating delivery of notifications to the driver of a vehicle to reduce distractions
US11107242B2 (en) * 2019-01-11 2021-08-31 Microsoft Technology Licensing, Llc Detecting pose using floating keypoint(s)
CN110705774A (zh) * 2019-09-26 2020-01-17 汉纳森(厦门)数据股份有限公司 一种车辆能耗分析的预测方法和系统
CN111126153B (zh) * 2019-11-25 2023-07-21 北京锐安科技有限公司 基于深度学习的安全监测方法、系统、服务器及存储介质
CN111310840B (zh) * 2020-02-24 2023-10-17 北京百度网讯科技有限公司 数据融合处理方法、装置、设备和存储介质
CN111599170B (zh) * 2020-04-13 2021-12-17 浙江工业大学 一种基于时序交通网络图的交通运行状态分类方法
CN113837211A (zh) * 2020-06-23 2021-12-24 华为技术有限公司 一种驾驶决策方法及装置
CN113094930B (zh) * 2021-05-06 2022-05-20 吉林大学 一种驾驶人行为状态数据采集装置和检测方法
CN113288148B (zh) * 2021-06-02 2023-03-07 华南师范大学 一种驾驶心理品质分类方法
CN114169426A (zh) * 2021-12-02 2022-03-11 安徽庐峰交通科技有限公司 一种基于北斗位置数据的公路交通安全隐患排查方法

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660437B2 (en) * 1992-05-05 2010-02-09 Automotive Technologies International, Inc. Neural network systems for vehicles
US5805747A (en) * 1994-10-04 1998-09-08 Science Applications International Corporation Apparatus and method for OCR character and confidence determination using multiple OCR devices
BR0307760A (pt) * 2002-02-19 2006-04-04 Volvo Technology Corp sistema e método para a monitoração e o gerenciamento de gargas de atenção do motorista
JP4579577B2 (ja) * 2003-05-19 2010-11-10 キヤノン株式会社 情報処理装置および情報処理方法ならびに記憶媒体、プログラム
WO2004107266A1 (en) 2003-05-29 2004-12-09 Honda Motor Co., Ltd. Visual tracking using depth data
GB0313002D0 (en) * 2003-06-06 2003-07-09 Ncr Int Inc Currency validation
US7643665B2 (en) * 2004-08-31 2010-01-05 Semiconductor Insights Inc. Method of design analysis of existing integrated circuits
US7317836B2 (en) 2005-03-17 2008-01-08 Honda Motor Co., Ltd. Pose estimation based on critical point analysis
US8447031B2 (en) * 2008-01-11 2013-05-21 Personics Holdings Inc. Method and earpiece for visual operational status indication
US8213689B2 (en) * 2008-07-14 2012-07-03 Google Inc. Method and system for automated annotation of persons in video content
US8638985B2 (en) 2009-05-01 2014-01-28 Microsoft Corporation Human body pose estimation
US8396252B2 (en) * 2010-05-20 2013-03-12 Edge 3 Technologies Systems and related methods for three dimensional gesture recognition in vehicles
US8463721B2 (en) * 2010-08-05 2013-06-11 Toyota Motor Engineering & Manufacturing North America, Inc. Systems and methods for recognizing events
US9619035B2 (en) 2011-03-04 2017-04-11 Microsoft Technology Licensing, Llc Gesture detection and recognition
US9007198B2 (en) * 2012-11-02 2015-04-14 Toyota Motor Engineering & Manufacturing North America, Inc. Adaptive Actuator interface for active driver warning
US9047703B2 (en) 2013-03-13 2015-06-02 Honda Motor Co., Ltd. Augmented reality heads up display (HUD) for left turn safety cues

Also Published As

Publication number Publication date
US20150098609A1 (en) 2015-04-09
JP2015076104A (ja) 2015-04-20
US9501693B2 (en) 2016-11-22
JP6453025B2 (ja) 2019-01-16
DE102014220302B4 (de) 2024-02-08

Similar Documents

Publication Publication Date Title
DE102014220302B4 (de) Verfahren zur Durchführung einer Aktions-Erkennung auf einem Bild eines Fahrers in einem Fahrzeug sowie entsprechendes Nichtflüchtiges, Computer-lesbares Speichermedium und Verfahren zum Lernen eines Random Forest Modells zur Aktionserkennung
DE102018102285A1 (de) System und verfahren zum beurteilen des innenraums eines autonomen fahrzeugs
DE112018000335T5 (de) Systeme und verfahren für einen berechnungsrahmen zur visuellen warnung des fahrers unter verwendung einer "fully convolutional"-architektur
EP2368216B1 (de) Verfahren und einrichtung zur analyse von umgebungsobjekten und/oder umgebungsszenen, wie zur objekt- und szenenklassensegmentierung
DE102018121808A1 (de) Verfeinern von synthetischen daten mit einem generative adversarial network unter verwendung von hilfseingaben
DE112014007249T5 (de) Bildverarbeitungsvorrichtung, Fahrzeuganzeigesystem, Anzeigevorrichtung, Bildverarbeitungsverfahren und Bildverarbeitungsprogramm
DE102012214852A1 (de) Verfahren zum Ergänzen einer, einem Objekt zugeordneten Objektinformation und Verfahren zum Selektieren von Objekten in einem Umfeld eines Fahrzeugs
DE102020124666A1 (de) Verfahren, system und computerprogrammprodukt zur bereitstellung von fahrassistenz
DE102015119556A1 (de) Anpassen einer anzeige auf einer transparenten elektronischen anzeige
WO2013152929A1 (de) Lernverfahren zur automatisierten erkennung von verkehrszeichen, verfahren zur bestimmung eines aktualisierten parametersatzes für eine klassifikation von einem verkehrszeichen und verkehrszeichenerkennungssystem
DE102021203020A1 (de) Generative-adversarial-network-modelle zur detektion kleiner strassenobjekte
DE102019106122A1 (de) Automatisiertes Fahrsystem
DE102018125740A1 (de) Verfahren und vorrichtungen zur ermöglichung einer parallelen verarbeitung beim lösen von linearen gleichungen in einem computervisionsverarbeitungssystem
DE102013210771A1 (de) Detektion eines komplexen objekts unter verwendung einer kaskade von klassifizierungseinrichtungen
DE102021111096A1 (de) Per visuellem verhalten geführte objekterkennung
DE102020215729A1 (de) System und verfahren zum detektieren von abnormalem passagierverhalten in autonomen fahrzeugen
DE102018108957A1 (de) Vorrichtung und Verfahren zum Steuern eines Displays in einem Fahrzeug
DE102020126806A1 (de) Ein system und verfahren zum frachtmanagement in einem kraftfahrzeug
DE102023109072A1 (de) Datenaugmentierung für domänenverallgemeinerung
DE102013206920A1 (de) Detektion eines komplexen Objekts unter Verwendung einer Kaskade vonKlassifizierungseinrichtungen
DE102021122074A1 (de) Fahrzeuganzeigesteuervorrichtung, fahrzeuganzeigesteuerverfahren, computerlesbares speichermedium und fahrzeuganzeigesystem
DE102018113518A1 (de) Fahrzeugfahrer-Arbeitsbelastungsmanagement
DE102022100545A1 (de) Verbesserte objekterkennung
DE102018127738B4 (de) Kamerablockadeerfassung für autonome Fahrsysteme
EP4049186A1 (de) Verfahren zum robustifizieren eines neuronalen netzes gegen adversariale störungen

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R163 Identified publications notified
R016 Response to examination communication
R018 Grant decision by examination section/examining division