-
Die Erfindung betrifft ein Verfahren zum Informieren eines Insassen eines Kraftfahrzeugs über eine aktuelle Verkehrssituation, in der sich das Kraftfahrzeug befindet. Weitere Aspekte der Erfindung betreffen eine Steuereinrichtung sowie ein Fahrerassistenzsystem zum Informieren eines Insassen eines Kraftfahrzeugs über eine aktuelle Verkehrssituation. Außerdem gehört ein Computerprogrammprodukt zur Erfindung, welches das oben genannte Verfahren durchführen kann.
-
Aus dem Stand der Technik ist es bekannt, einen Insassen, insbesondere Fahrer, eines Kraftfahrzeugs auf unterschiedliche Art und Weise zu informieren. Beispielsweise kann durch eine Sprachausgabe eines Navigationssystems der Insasse, insbesondere Fahrer, beim Navigieren des Kraftfahrzeugs unterstützt werden. Eine solche Sprachausgabe des Navigationssystems ist jedoch nur dazu geeignet, den Fahrer auf Basis von Kartendaten einer gespeicherten digitalen Karte zu informieren. Außerdem bekannt sind Symbole, Textausgaben und Warntöne zum Warnen des Insassen, insbesondere Fahrers, des Kraftfahrzeugs beispielsweise vor einer Fehlfunktion des Kraftfahrzeugs.
-
Keine der genannten Möglichkeiten ist jedoch dazu geeignet, dem Insassen, insbesondere Fahrer, des Kraftfahrzeugs Informationen über eine aktuelle Verkehrssituation, in der sich das Kraftfahrzeug befindet, mitzuteilen. Dies ist insbesondere darin begründet, dass einerseits die Verkehrssituation nicht analysiert wird und andererseits, beispielsweise durch Ausgabe eines Warntextes, der Insasse, insbesondere Fahrer, durch das Einblenden der Information zu sehr abgelenkt werden würde.
-
Es ist daher Aufgabe der vorliegenden Erfindung, eine verbesserte Bereitstellung von Informationen für einen Insassen eines Kraftfahrzeugs über dessen aktuelle Verkehrssituation zu ermöglichen.
-
Diese Aufgabe wird erfindungsgemäß gelöst durch die Gegenstände der unabhängigen Patentansprüche. Vorteilhafte Ausführungsformen mit zweckmäßigen Weiterbildungen sind Gegenstand der Unteransprüche.
-
Die Erfindung beruht auf der Idee, dass ein technisches System (angelerntes System) dazu genutzt wird, dem Insassen, insbesondere Fahrer des Kraftfahrzeugs, Informationen über eine aktuelle Verkehrssituation mittels Sprachausgabe zukommen zu lassen. Mit anderen Worten ist vorgesehen, dass der Insasse, insbesondere Fahrer, des Kraftfahrzeugs über Besonderheiten der momentanen Verkehrssituation, in der sich das Kraftfahrzeug befindet, informiert wird. Besonderheiten können in diesem Kontext Gegebenheiten sein, welche eine erhöhte Aufmerksamkeit des Fahrers benötigen und/oder woraus Gefahrensituationen entstehen könnten. Beispiele hierfür sind ein vorausliegendes Stauende, ein starkes Abbremsen eines vorausfahrenden Fahrzeugs, am Straßenrand spielende Kinder sowie Personen, welche eine momentan befahrene Straße überqueren. Sprachinformationen, welche zum Informieren des Insassen ausgegeben werden, können dabei an Hinweise, welche für einen Beifahrer typisch sind, angelehnt sein.
-
Allgemein geht die Erfindung aus von einem Verfahren zum Informieren eines Insassen, insbesondere Fahrers, eines Kraftfahrzeugs über eine aktuelle Verkehrssituation, in der sich das Kraftfahrzeug befindet, mit folgenden Schritten: Empfangen zumindest eines Bildes einer Umgebung des Kraftfahrzeugs von einem Bilderfassungssystem des Kraftfahrzeugs, Bestimmen zumindest eines Merkmals in dem zumindest einen Bild der Umgebung, Gewinnen einer Sprachinformation mittels eines zuvor angelernten Systems direkt oder indirekt, vorzugsweise unmittelbar, aus dem zumindest einen Merkmal, wobei die Sprachinformation die Verkehrssituation zumindest durch sprachliche Mittel charakterisiert, und Informieren des Insassen durch akustisches Wiedergeben der Sprachinformation.
-
Bei dem Bilderfassungssystem kann es sich um ein Kamerasystem, ein Radarsystem, ein Lidar-System oder ein Ultraschallsensor-System handeln. Dementsprechend kann als das zumindest eine Bild der Umgebung zumindest ein Kamerabild, zumindest ein Radarbild, zumindest ein Lidarbild (Abstandskarte) oder zumindest ein Ultraschallbild aus dem Bilderfassungssystem des Kraftfahrzeugs empfangen werden. Bevorzugt ist jedoch das Empfangen von zumindest einem Kamerabild der Umgebung aus dem Kamerasystem des Kraftfahrzeugs. Das zumindest eine Bild der Umgebung kann aus mehreren Einzelbildern aus unterschiedlichen Kameras des Kamerasystems zusammengesetzt sein. Alternativ werden als das zumindest eine Bild jeweilige Bilder aus den mehreren Kameras des Kamerasystems erfasst. In manchen Ausführungsformen kann vorgesehen sein, dass das Kamerasystem nur eine einzige Kamera aufweist, insbesondere eine Frontkamera beziehungsweise dass im Rahmen des erfindungsgemäßen Verfahrens das zumindest eine Bild nur aus einer Kamera des Kamerasystems, insbesondere der Frontkamera, empfangen wird.
-
Das zumindest eine Bild der Umgebung kann aus einer oder mehreren Kameras des Kamerasystems erfasst werden. Bei dem Kamerasystem kann es sich um ein Surround-View-System mit beispielsweise vier Kameras handeln. In diesem Beispiel kann aus jeder der Kameras des Surround-View-Systems ein jeweiliges Bild als das zumindest eine Bild der Umgebung erfasst werden.
-
Das zumindest eine Merkmal, das in dem zumindest einen Bild bestimmt wird, kann auf grundlegender Ebene des Bildes bestimmt werden. Insbesondere wird als das zumindest eine Merkmal eine Mehrzahl an Pixeln bestimmt, welche einem vorbestimmten Muster entsprechen oder ähnlich sind. Hierbei kann eine Vielzahl an unterschiedlichen vorbestimmten Mustern vorgegeben sein. Insbesondere erfolgt das Bestimmen des zumindest einen Merkmals auf Pixelebene des zumindest einen Bildes. Dabei erfolgt bei dem Bestimmen des zumindest einen Merkmals vorteilhafterweise keine semantische Analyse, Segmentierung und/oder semantische Segmentierung des zumindest einen Bildes. Mit anderen Worten erfolgt beim Bestimmen des zumindest einen Merkmals vorteilhafterweise noch keine Interpretation des Bildinhalts. Üblicherweise wird eine Vielzahl unterschiedlicher und/oder gleicher Merkmale in dem zumindest einen Bild bestimmt. Die Interpretation beziehungsweise semantische Analyse des Bildinhalts erfolgt insbesondere erst später, nämlich auf Basis des zumindest einen Merkmals beziehungsweise auf Basis der Vielzahl an Merkmalen.
-
Das Gewinnen der Sprachinformation kann als Interpretieren des Bildinhalts des zumindest einen Bilds aufgefasst werden. Vorteilhafterweise wird die Sprachinformation jedoch unmittelbar, also ohne Zwischenschritte, anhand des zumindest einen Merkmals gewonnen. Beispielsweise wird als die Sprachinformation ein einzelner Satz, welcher die Verkehrssituation beschreibt, gewonnen. Die Sprachinformation kann beispielsweise in Form eines Audiosignals oder in Textform gewonnen werden. Das Gewinnen der Sprachinformation erfolgt dabei vorteilhafterweise auf Basis einer sogenannten neuronalen Bilduntertitelung (auch mit dem englischen Fachbegriff Neural Image Caption bezeichnet). Dabei wird mittels eines neuronalen Netzes ein Bilduntertitel beziehungsweise eine Bildbeschreibung zum Beschreiben eines Bildes erstellt. Hierzu wird auf den Artikel „Show and tell: A neural image caption generator“ von O. Vinyals et al., 2015, CVPR 2015, verwiesen. Darin beschrieben ist ein Modell, mittels welchem für beliebige Bilder ein Satz erzeugt werden kann, welcher einen Inhalt des Bilds beschreibt.
-
Im Rahmen der vorliegenden Erfindung kann vorgesehen sein, ein vergleichbares oder gleichartiges Modell konkret auf das Generieren beziehungsweise Gewinnen von Sprachinformationen in Verkehrssituationen anzulernen. Insbesondere kann das oben genannte Modell angelernt sein, wie im Artikel dargelegt ist. Alternativ oder zusätzlich kann es vorteilhaft sein, das Modell aus dem Artikel an den veränderten, spezialisierten Anwendungsfall anzupassen. Die Spezialisierung kann sich daraus ergeben, dass sich Trainingsbildern zum Anlernen des angelernten Systems auf unterschiedliche Verkehrssituationen beschränken. Aufgrund der Spezialisierung auf Verkehrssituationen kann hierbei eine Zuverlässigkeit eines entsprechenden Modells gegenüber der allgemeinen Verwendung in dem Artikel verbessert werden.
-
Das zumindest eine Merkmal in dem zumindest einen Bild kann mittels eines CNN-Encoders bestimmt werden. Der CNN-Encoder kann dementsprechend dazu ausgebildet sein, das zumindest eine Merkmal, insbesondere eine Vielzahl an Merkmalen, in dem zumindest einen Bild zu erkennen. Als CNN-Encoder wird im Allgemeinen ein Eingangsteil eines künstlichen neuronalen Netzes bezeichnet. Durch einen solchen CNN-Encoder kann das zumindest eine Bild zur Auswertung durch einen CNN-Decoder aufbereitet werden. Der CNN-Encoder kann Teil des zuvor angelernten Systems sein.
-
Gemäß einer Weiterbildung ist vorgesehen, dass die Sprachinformation durch einen Sprachausgabe-CNN-Decoder aus dem zumindest einen Merkmal gewonnen wird. Mit anderen Worten wird die Sprachinformation durch den Sprachausgabe-CNN-Decoder auf Basis des zumindest einen Merkmals aus dem zumindest einen Bild erzeugt. Mittels des oben genannten CNN-Encoders kann das Bild zur Auswertung durch den Sprachausgabe-CNN-Decoder aufbereitet werden. Im Speziellen kann zunächst das zumindest eine Merkmal durch den CNN-Encoder in dem zumindest einen Bild bestimmt werden und anschließend die Sprachinformation durch den Sprachausgabe-CNN-Decoder aus dem zumindest einen Merkmal gewonnen werden. Im Allgemeinen kann der Sprachausgabe-CNN-Decoder die Sprachinformation anhand einer Vielzahl an Merkmalen als das zumindest eine Merkmal gewinnen. Der Sprachausgabe-CNN-Decoder kann Teil des zuvor angelernten Systems sein. Der Sprachausgabe-CNN-Decoder und der CNN-Encoder können beide Teil des zuvor angelernten Systems sein.
-
Der CNN-Encoder und/oder der Sprachausgabe-CNN-Decoder können auf analoge Weise wie in dem oben genannten Artikel „Show and tell: A neural image caption generator“ angelernt werden. Wie bereits beschrieben, kann hierbei eine auf den vorliegenden Anwendungsfall, nämlich den Straßenverkehr, spezialisierte Form des Anlernens gewählt werden. Diese Spezialisierung drückt sich vorteilhafterweise zumindest in einem Trainingsdatensatz aus, welcher zum Anlernen verwendet wird. Der Trainingsdatensatz kann eine Vielzahl an Trainingsbildern enthalten, welche besonders vorteilhafterweise unterschiedliche Verkehrssituationen zeigen. Dem Sprachausgabe-CNN-Decoder kann ein rekurrentes neuronales Netz (recurrent neural network, RNN) nachgeordnet oder nebengeordnet sein. In diesem Fall gelten die im Vorherigen oder im Folgenden über den Sprachausgabe-CNN-Decoder genannten Merkmale ersatzweise für die Kombination aus Sprachausgabe-CNN-Decoder und rekurrentem neuronalem Netz.
-
Gemäß einer Weiterbildung ist vorgesehen, dass der Sprachausgabe-CNN-Decoder zumindest teilweise basierend auf Daten, welche menschliche Konversationen betreffen, angelernt wird. Auf diese Weise kann der Sprachausgabe-CNN-Decoder in Bezug auf seine Möglichkeit, die Sprachinformation zu gewinnen, angelernt werden. Das Anlernen basierend auf den Daten, welche menschliche Konversationen betreffen, kann mit dem Anlernen auf Basis von Trainingsbildern verknüpft sein. In diesem Fall kann der Sprachausgabe-CNN-Decoder basierend auf Testdaten, welche einerseits Daten beinhalten, welche menschliche Konversationen betreffen, und andererseits Trainingsbildern, welche unterschiedliche Verkehrssituationen betreffen, angelernt werden. Auf Basis der Daten, welche die menschliche Konversation betreffen, kann der Sprachausgabe-CNN-Decoder und optional auch das rekurrente neuronale Netz Zusammenhänge zwischen der Verkehrssituation beziehungsweise dem Bild der Verkehrssituation sowie einer diese Verkehrssituation charakterisierenden Sprachinformation erlernen beziehungsweise erkennen.
-
Gemäß einer Weiterbildung ist vorgesehen, dass ein Kritikalitätsniveau der Verkehrssituation bestimmt wird und das Informieren des Insassen abhängig von diesem Kritikalitätsniveau erfolgt. Mit anderen Worten wird der Verkehrssituation das Kritikalitätsniveau zugeordnet. Das akustische Wiedergeben der Sprachinformation zum Informieren des Insassen kann dann in Abhängigkeit von dem Kritikalitätsniveau erfolgen. Das Kritikalitätsniveau kann angeben, wie kritisch die aktuelle Verkehrssituation, in der sich das Kraftfahrzeug befindet, ist. Auf diese Weise kann gewährleistet sein, dass der Insasse nur dann durch das akustische Wiedergeben der Sprachinformation informiert wird, wenn die Verkehrssituation dies erfordert.
-
Gemäß einer Weiterbildung ist vorgesehen, dass das Kritikalitätsniveau, insbesondere mittels eines lernfähigen Systems, anhand von Objektdaten, welche zumindest ein Objekt in der Umgebung charakterisieren, bestimmt wird, wobei die Objektdaten mittels eines Umgebungserfassungs-CNN-Decoders aus dem zumindest einen Merkmal extrahiert werden. Der Umgebungserfassungs-CNN-Decoder ist insbesondere unabhängig von dem Sprachausgabe-CNN-Decoder. Durch den Umgebungserfassungs-CNN-Decoder können nun die Objektdaten bestimmt werden, wobei die Objektdaten das zumindest eine Objekt in der Umgebung charakterisieren beziehungsweise betreffen. Beispielsweise geben die Objektdaten an, welche Objekte in der Umgebung des Kraftfahrzeugs vorhanden sind, welche Relativposition diese bezogen auf das Kraftfahrzeug haben und/oder deren Geschwindigkeit. Dabei können die Objektdaten die aktuelle Verkehrssituation zumindest teilweise in Bezug auf das zumindest eine Objekt charakterisieren. Anhand dieser Objektdaten kann das Kritikalitätsniveau bestimmt werden. Die Objektdaten und die Sprachinformation können dabei mittels unterschiedlicher CNN-Decoder, nämlich dem Sprachausgabe-CNN-Decoder und dem Umgebungserfassungs-CNN-Decoder, unabhängig voneinander gewonnen beziehungsweise extrahiert werden. Dabei kann jedoch der CNN-Encoder als gemeinsamer CNN-Encoder für beide CNN-Decoder das zumindest eine Bild für die Auswertung aufbereiten. Mit anderen Worten kann das zumindest eine Merkmal mittels des CNN-Encoders für die beiden unterschiedlichen CNN-Decoder bestimmt werden. Durch diese Trennung der Extraktion von Objektdaten und der Gewinnung der Sprachinformation können beide CNN-Decoder auf besonders vorteilhafte Weise angelernt werden.
-
Gemäß einer Weiterbildung erfolgt das Informieren des Insassen durch Wiedergeben der Sprachinformation nur dann, wenn das Kritikalitätsniveau der Verkehrssituation größer ist als ein vorgegebenes oder vorgebbares Benachrichtigungsniveau. Mit anderen Worten wird der Insasse, insbesondere Fahrer, nur dann durch das akustische Wiedergeben der Sprachinformation informiert, wenn die Kritikalität der Verkehrssituation größer ist als durch das vorgegebene oder vorgebbare Benachrichtigungsniveau angegeben ist. Auf diese Weise kann gewährleistet werden, dass der Insasse, insbesondere Fahrer, nur dann benachrichtigt wird, wenn die Verkehrssituation so kritisch ist, dass dies nötig ist. Das Benachrichtigungsniveau kann fest vorgegeben sein oder vorgebbar sein. Beispielsweise ist das Benachrichtigungsniveau durch den Insassen vorgebbar.
-
Gemäß einer Weiterbildung ist vorgesehen, dass das Informieren des Insassen durch Wiedergeben der Sprachinformation nur dann erfolgt, wenn das Kritikalitätsniveau der Verkehrssituation kleiner ist als ein vorgegebenes oder vorgebbares Warnungsniveau. Mit anderen Worten kann vorgesehen sein, dass das Informieren des Insassen durch Wiedergeben der Sprachinformation nur dann erfolgt, wenn die aktuelle Verkehrssituation weniger kritisch ist als durch das Warnungsniveau angegeben. Das Warnungsniveau kann fest vorgegeben sein oder vorgebbar sein. Insbesondere kann das Warnungsniveau an den Insassen angepasst sein oder durch diesen vorgebbar sein. Durch diesen Schritt kann eine Ablenkung des Insassen, insbesondere Fahrers, vermieden werden, wenn dies den Insassen, insbesondere Fahrer, in einer besonders kritischen Verkehrssituation ablenken könnte.
-
Gemäß einer Weiterbildung ist vorgesehen, dass anstatt des Informierens des Insassen durch Wiedergabe der Sprachinformation ein nonverbaler Warnton ausgegeben wird, wenn das Kritikalitätsniveau der Verkehrssituation größer ist als das vorgegebene oder vorgebbare Warnungsniveau. Mit anderen Worten wird der Insasse, insbesondere Fahrer, in besonders kritischen Verkehrssituationen, deren Kritikalitätsniveau das Warnungsniveau überschreitet, durch den nonverbalen Warnton gewarnt. Durch den nonverbalen Warnton kann die Aufmerksamkeit des Insassen, insbesondere Fahrers, besonders schnell und effektiv auf die Verkehrssituation gelenkt werden, ohne diesen abzulenken.
-
Gemäß einer Weiterbildung ist vorgesehen, dass das vorgebbare Benachrichtigungsniveau und/oder das vorgebbare Warnungsniveau durch einen lernfähigen Algorithmus an den Insassen angepasst werden. Mit anderen Worten können das Benachrichtigungsniveau und/oder das Warnungsniveau durch den lernfähigen Algorithmus vorgegeben werden. Der lernfähige Algorithmus ist insbesondere dahingehend lernfähig, dass dieser das vorgebbare Benachrichtigungsniveau und/oder das vorgebbare Warnungsniveau an den Insassen anpasst. Auf diese Weise kann das Informieren des Insassen durch das akustische Wiedergeben der Sprachinformation beziehungsweise durch das Ausgeben des nonverbalen Warntons an den Insassen beziehungsweise dessen Präferenzen angepasst werden.
-
Eine Weiterbildung sieht vor, dass ein Bild des Insassen mittels einer Innenraumkamera des Kraftfahrzeugs erfasst wird und daraus Reaktionsdaten betreffend eine Reaktion des Insassen auf die Wiedergabe der Sprachinformation abgeleitet werden. Mit anderen Worten wird durch die Innenraumkamera ein Bild des Insassen aufgenommen. Aus diesem Bild des Insassen können die Reaktionsdaten abgeleitet werden, wobei diese Reaktionsdaten die Reaktion des Insassen auf die Wiedergabe der Sprachinformation charakterisieren beziehungsweise betreffen. Auf diese Weise kann bestimmt werden, wie der Insasse auf die Sprachinformation reagiert. Insbesondere kann anhand der Reaktionsdaten bestimmt werden, ob die Sprachinformation den Insassen nervt oder sie diesem hilft.
-
Gemäß einer Weiterbildung ist vorgesehen, dass das Anpassen des vorgebbaren Benachrichtigungsniveaus und/oder des vorgebbaren Warnungsniveaus durch den lernfähigen Algorithmus zumindest teilweise basierend auf den Reaktionsdaten erfolgt. Mit anderen Worten wird anhand der Reaktionsdaten das Informieren des Insassen an dessen Präferenzen angepasst. Beispielsweise kann das vorgebbare Benachrichtigungsniveau erhöht werden, wenn anhand der Reaktionsdaten ersichtlich ist, dass der Insasse durch häufiges Informieren genervt oder abgelenkt wird. Beispielsweise kann das vorgebbare Benachrichtigungsniveau verringert werden, wenn anhand der Reaktionsdaten ersichtlich ist, dass der Insasse die Wiedergabe der Sprachinformation gutheißt.
-
Gemäß einer Weiterbildung ist vorgesehen, dass das Anlernen des Sprachausgabe-CNN-Decoders zumindest teilweise basierend auf den Reaktionsdaten erfolgt. Mit anderen Worten kann das Gewinnen der Sprachinformation zumindest basierend auf den Reaktionsdaten angelernt werden. Beispielsweise kann anhand der Reaktionsdaten ersichtlich sein, dass die Sprachinformation die Verkehrssituation nicht vollständig oder unzureichend beschreibt. Alternativ oder zusätzlich kann anhand der Reaktionsdaten ersichtlich sein, dass die Sprachinformation sprachliche Fehler enthält. Derartige Unzulänglichkeiten können basierend auf den Reaktionsdaten durch geeignetes Anlernen des Sprachausgabe-CNN-Decoders verringert werden. Mit anderen Worten kann die Innenraumkamera des Kraftfahrzeugs mittelbar anhand der Reaktionsdaten zum Anlernen und/oder Verbessern des Gewinnens der Sprachinformation genutzt werden. Auf diese Weise kann das Informieren des Insassen kontinuierlich verbessert werden.
-
Gemäß einer Weiterbildung ist vorgesehen, dass die Reaktionsdaten, insbesondere in Verbindung mit der wiedergegebenen Sprachinformation, an eine zentrale Datenbank in der Servereinrichtung übermittelt werden. Zusätzlich kann mit den Reaktionsdaten das zumindest eine Bild der Umgebung des Kraftfahrzeugs an die zentrale Datenbank übermittelt werden. In der zentralen Datenbank können die Reaktionsdaten und/oder wiedergegebene Sprachinformationen und/oder Bilder der Umgebung aus unterschiedlichen Verkehrssituationen und/oder unterschiedlichen Kraftfahrzeugen gesammelt werden. Basierend auf dieser zentralen Datenbank kann ein vorliegendes Verfahren zum Informieren eines Insassen eines Kraftfahrzeugs zentral weitergebildet werden. Alternativ oder zusätzlich kann das Verfahren in dem Kraftfahrzeug basierend auf der Datenbank weitergebildet werden.
-
Gemäß einer Weiterbildung ist vorgesehen, dass das vorliegende Verfahren zum Informieren des Insassen des Kraftfahrzeugs in ein Informationssystem integriert wird, wobei das Informationssystem beispielsweise Sprachsteuerung durch den Insassen und/oder eine Unterhaltung mit dem Insassen ermöglicht. Beispiele für ein solches Informationssystem sind Apple® Siri@ oder weitere derartige Sprachassistenten, insbesondere aus dem Umfeld von Smartphones. Das Informieren des Insassen des Kraftfahrzeugs durch akustisches Wiedergeben der Sprachinformation kann gemäß einer Weiterbildung nahtlos in die Nutzung eines solchen Informationssystems integriert werden. Beispielsweise wird die Sprachinformation auf eine Weise gewonnen, in welcher eine aktuelle Nutzung des Informationssystems im Moment der Wiedergabe der Sprachinformation berücksichtigt wird. Alternativ oder zusätzlich kann eine Sprache beziehungsweise eine Wiedergabestimme beim akustischen Wiedergeben der Sprachinformation dem Informationssystem angepasst sein. Es kann vorgesehen sein, dass die Nutzung eines genannten Informationssystems durch das vorliegende Verfahren zum Informieren des Insassen nicht unterbrochen wird, wenn das Kritikalitätsniveau der Verkehrssituation kleiner ist als das vorgebbare oder vorgegebene Benachrichtigungsniveau. Mit anderen Worten kann vorgesehen sein, dass eine Nutzung des Informationssystems durch den Insassen nur dann durch das vorliegende Verfahren zum Informieren des Insassen unterbrochen oder durch Wiedergeben der Sprachinformation angepasst wird, wenn dies basierend auf dem Kritikalitätsniveau der Verkehrssituation als nötig erachtet wird. Auf diese Weise kann eine besonders vorteilhafte Integration eines solchen Verfahrens zum Informieren des Insassen in ein bestehendes Informationssystem gewährleistet werden.
-
Ein zweiter Aspekt der Erfindung betrifft eine Steuereinrichtung zum Informieren eines Insassen eines Kraftfahrzeugs über eine aktuelle Verkehrssituation, in der sich das Kraftfahrzeug befindet, mit einer Empfangseinheit zum Empfangen zumindest eines Bildes einer Umgebung des Kraftfahrzeugs von einem Bilderfassungssystem des Kraftfahrzeugs, einer Bestimmungseinheit zum Bestimmen zumindest eines Merkmals in dem zumindest einen Bild der Umgebung, einer Auswerteeinheit zum Gewinnen einer Sprachinformation aus dem zumindest einen Merkmal, wobei die Sprachinformation die Verkehrssituation zumindest durch sprachliche Mittel charakterisiert, und einer Ausgabeeinheit zum Ausgeben der Sprachinformation zum Informieren des Insassen. Die Ausgabeeinheit kann dazu ausgebildet sein, das Sprachsignal in Form eines Audiosignals an eine Wiedergabeeinrichtung, insbesondere Lautsprecher, des Kraftfahrzeugs auszugeben. Alternativ kann die Ausgabeeinheit kann dazu ausgebildet sein, das Sprachsignal in Textform an die Wiedergabeeinrichtung des Kraftfahrzeugs auszugeben.
-
Die Wiedergabeeinrichtung kann dann zum Umwandeln des Sprachsignals in Textform in ein Audiosignal und zur Wiedergabe des Audiosignals ausgebildet sein („Text in Sprache“). Vorteilhafterweise ist die vorliegende Steuereinrichtung dazu ausgebildet, ein Verfahren zum Informieren eines Insassen des Kraftfahrzeugs mit einem oder mehreren der oben genannten Merkmale durchzuführen.
-
Gemäß einer Weiterbildung ist vorgesehen, dass die Auswerteeinheit einen Sprachausgabe-CNN-Decoder aufweist, die Steuereinrichtung zusätzlich einen Umgebungserfassungs-CNN-Encoder aufweist, der dazu ausgebildet ist, aus dem zumindest einen Merkmal Objektdaten, welche zumindest ein Objekt in der Umgebung charakterisieren, zu extrahieren, wobei der Sprachausgabe-CNN-Encoder und der Umgebungserfassungs-CNN-Decoder voneinander getrennt ausgeführt sind, und wobei die Bestimmungseinheit einen gemeinsamen CNN-Encoder für den Sprachausgabe-CNN-Encoder als auch den Umgebungserfassungs-CNN-Decoder aufweist. Mit anderen Worten ist gemäß dieser Ausführungsform die Auswerteeinheit dazu ausgebildet, das Bild der Umgebung sowohl für den Sprachausgabe-CNN-Decoder als auch den Umgebungserfassungs-CNN-Decoder aufzubereiten. Dabei sind der Sprachausgabe-CNN-Decoder und der Umgebungserfassungs-CNN-Decoder voneinander getrennt beziehungsweise voneinander unabhängig ausgeführt. Der Sprachausgabe-CNN-Decoder sowie der Umgebungserfassungs-CNN-Decoder sind im Zuge des oben genannten Verfahrens bereits beschrieben worden.
-
Zur Erfindung gehört außerdem ein Fahrerassistenzsystem für ein Kraftfahrzeug zum Informieren eines Insassen, insbesondere eines Fahrers, des Kraftfahrzeugs über eine aktuelle Verkehrssituation, in der sich das Kraftfahrzeug befindet, mit einem Bilderfassungssystem zum Erfassen zumindest eines Bildes einer Umgebung des Kraftfahrzeugs, einer oben genannten Steuereinrichtung und einer Wiedergabeeinrichtung, insbesondere einem Schallwandler oder einem Lautsprecher, zum Wiedergeben der Sprachinformation. Bei dem Bilderfassungssystem handelt es sich insbesondere um eine Kamera, wobei im Zuge des oben genannten Verfahrens beschrieben wurde, dass das Bilderfassungssystem auch ein anderes Erfassungssystem haben kann. Dementsprechend kann es sich bei dem Bilderfassungssystem alternativ auch um ein Radarsystem, ein Lidarsystem oder ein Ultraschallsystem handeln. Dementsprechend handelt es sich bei dem zumindest einen Bild der Umgebung vorteilhafterweise um zumindest ein Kamerabild, es kann sich jedoch auch um ein Radarbild, eine Entfernungskarte des Lidarsystems oder des Ultraschallsystems handeln. Die Empfangseinheit der Steuereinrichtung ist dazu ausgebildet, das zumindest eine Bild der Umgebung aus dem Bilderfassungssystem zu empfangen. Das Fahrerassistenzsystem ist vorteilhafterweise dazu eingerichtet, ein Verfahren zum Informieren eines Insassen des Kraftfahrzeugs mit einem oder mehreren der oben genannten Merkmale durchzuführen. Die Wiedergabeeinrichtung kann zum Wiedergeben der Sprachinformation anhand des Sprachsignals aus der Ausgabeeinheit ausgebildet sein.
-
Ein weiterer Aspekt der Erfindung betrifft ein Kraftfahrzeug, das ein solches Fahrerassistenzsystem aufweist. Insbesondere handelt es sich bei dem Kraftfahrzeug um einen Kraftwagen, vorteilhafterweise einen Personenkraftwagen oder einen Lastkraftwagen. Das Kraftfahrzeug kann zu dessen Antrieb einen Verbrennungsmotor und/oder einen Elektromotor aufweisen.
-
Zur Erfindung gehört außerdem ein Computerprogrammprodukt mit Programmcodemitteln, welche in einem computerlesbaren Medium gespeichert sind, um das Verfahren zum Informieren eines Insassen des Kraftfahrzeugs über eine aktuelle Verkehrssituation mit einem oder mehreren Merkmalen, wie sie im Vorherigen oder im Folgenden beschrieben sind, durchzuführen, wenn das Computerprogrammprodukt auf einem Prozessor einer elektronischen Steuereinrichtung abgearbeitet wird. Dementsprechend umfasst die vorliegende Erfindung auch ein computerlesbares Medium, in dem derartige Programmcodemittel gespeichert sind.
-
Weitere Merkmale der Erfindung ergeben sich aus den Ansprüchen, den Figuren und der Figurenbeschreibung. Die vorstehend in der Beschreibung genannten Merkmale und Merkmalskombinationen sowie die nachfolgend in der Figurenbeschreibung genannten und/oder in den Figuren alleine gezeigten Merkmale und Merkmalskombinationen sind nicht nur in der jeweils angegebenen Kombination, sondern auch in anderen Kombinationen verwendbar, ohne den Rahmen der Erfindung zu verlassen. Es sind somit auch Ausführungen von der Erfindung als umfasst und offenbart anzusehen, die in den Figuren nicht explizit gezeigt und erläutert sind, jedoch durch separierte Merkmalskombinationen aus den erläuterten Ausführungen hervorgehen und erzeugbar sind. Es sind auch Ausführungen und Merkmalskombinationen als offenbart anzusehen, die somit nicht alle Merkmale eines ursprünglich formulierten unabhängigen Anspruchs aufweisen. Es sind darüber hinaus Ausführungen und Merkmalskombinationen, insbesondere durch die oben dargelegten Ausführungen, als offenbart anzusehen, die über die in den Rückbezügen der Ansprüche dargelegten Merkmalskombinationen hinausgehen oder abweichen.
-
Dabei zeigen:
- 1 ein Kraftfahrzeug mit einem Fahrerassistenzsystem zum Informieren eines Insassen über eine aktuelle Verkehrssituation; und
- 2 ein beispielhaftes Blockdiagramm eines Verfahrens zum Informieren eines Insassen eines Kraftfahrzeugs.
-
1 zeigt ein Kraftfahrzeug 1, insbesondere einen Kraftwagen, mit einem Fahrerassistenzsystem 9 zum Informieren eines Insassen 4 des Kraftfahrzeugs 1. Bei dem Insassen 4 des Kraftfahrzeugs 1 kann es sich um einen Fahrer des Kraftfahrzeugs 1 handeln. Das Fahrerassistenzsystem 9 ist dazu ausgebildet, den Insassen 4, insbesondere den Fahrer des Kraftfahrzeugs 1, über eine aktuelle Verkehrssituation zu informieren, in der sich das Kraftfahrzeug 1 aktuell befindet. Das Fahrerassistenzsystem 9 umfasst ein Bilderfassungssystem 3, welches vorliegend als Kamerasystem ausgeführt ist. Vorteilhafterweise kann das Bilderfassungssystem 3 als sogenanntes Surround-View-Kamerasystem ausgeführt sein, also ein Kamerasystem mit mehreren Kameras, welche ein Anzeigen einer Umgebung U des Kraftfahrzeugs 1 aus einer Vogelperspektive ermöglichen. Vorliegend umfasst das Bilderfassungssystem 3 vier Kameras (FV, RV, MVL, MVR), welche an einem Frontbereich, einem Heckbereich, einem linken Seitenbereich und einem rechten Seitenbereich des Kraftfahrzeugs 1 angeordnet sind. Die beiden Kameras (MVL, MVR) in den Seitenbereichen des Kraftfahrzeugs 1 können insbesondere an einem jeweiligen Außenspiegel des Kraftfahrzeugs 1 angeordnet sein. Das Bilderfassungssystem 3 beziehungsweise die Kameras (FV, RV, MVL, MVR) ist/sind dazu ausgebildet, Bilder 5 der Umgebung U an eine Steuereinrichtung 2 des Fahrerassistenzsystems 9 zu übermitteln. Zum Empfangen dieser Bilder 5 der Umgebung U weist die Steuereinrichtung 2 eine Empfangseinheit 10 auf. Die Empfangseinheit 10 ist dazu ausgebildet, zumindest ein Bild 5 der Umgebung U zu empfangen und/oder für die weitere Verarbeitung in der Steuereinrichtung 2 bereitzustellen.
-
Durch eine Bestimmungseinheit 11 der Steuereinrichtung 2 wird jeweils zumindest ein Merkmal 6 in jedem der Bilder 5 bestimmt. Vorliegend weist die Bestimmungseinheit 11 einen CNN-Encoder 17 (Eingangsteil für ein faltendes neuronales Netz) auf. Vorliegend wird in jedem der Bilder 5 eine Vielzahl an Merkmalen 6 bestimmt. Die Merkmale 6 werden in dem jeweiligen Bild 5 beispielsweise auf Basis vordefinierter Muster auf Pixelebene bestimmt. Dies ist in Form eines Blockdiagramms auch in 2 dargestellt.
-
Informationen über die Merkmale 6 werden einer Auswerteeinheit 12 der Steuereinrichtung 2 bereitgestellt. Durch die Auswerteeinheit 12 wird eine Sprachinformation aus den Merkmalen 6 gewonnen. Die Auswerteeinheit 12 weist vorliegend einen Sprachausgabe-CNN-Decoder 16 auf. Bei einem CNN-Decoder handelt es sich um einen Ausgangsteil eines faltenden neuronalen Netzes (zu Englisch: Convolutional Neural Network). Alternativ oder zusätzlich kann die Auswerteeinheit 12 ein rekurrentes neuronales Netz (RNN, zu Englisch: Recurrent Neural Network) aufweisen. Die Auswerteeinheit 12 ist vorliegend dazu angelernt, eine Sprachinformation 7 aus den Merkmalen 6 zu gewinnen. Hierzu muss die Auswerteeinheit 12, optional in Verbindung mit der Bestimmungseinheit 11, basierend auf Trainingsdaten zunächst angelernt werden. Die Trainingsdaten können beispielsweise Trainingsbilder, welche unterschiedlichen Verkehrssituationen zeigen, beinhalten. Alternativ oder zusätzlich können die Trainingsdaten Daten über mündliche Konversationen, Beispielsätze, wörtliche Beschreibungen von Verkehrssituationen und/oder einen Wortschatz verkehrsspezifischen Vokabulars beinhalten. Auf Basis dieser Trainingsdaten kann das künstliche neuronale Netz, das beispielhaft durch die Bestimmungseinheit 11 und die Auswerteeinheit 12 bereitgestellt ist, an das Ausgeben der Sprachinformation 7 angelernt werden. Dabei wird das künstliche neuronale Netz beziehungsweise die Auswerteeinheit 12 insbesondere derart angelernt, dass durch die Sprachausgabe eine Verkehrssituation, welche durch die Bilder 5 abgebildet ist, möglichst sinnvoll und treffend beschrieben wird.
-
Eine Ausgabeeinheit 14 der Steuereinrichtung 2 gibt vorliegend ein Sprachsignal zum Informieren des Insassen 4 durch Wiedergeben der Sprachinformation 7 aus. Die Sprachinformation 7 kann beispielsweise in Form von gesprochenen Worten, einer Audiodatei, Text oder durch beliebige andere sprachliche Mittel bereitgestellt sein. Die Ausgabeeinheit 14 kann die Sprachinformation 7 beispielsweise textbasiert oder als Audiosignal an eine Wiedergabeeinrichtung 23 ausgeben. Beispielsweise kann die Wiedergabeeinrichtung 23 als Lautsprecher ausgeführt sein, der ein durch die Ausgabeeinheit 14 ausgegebenes Audiosignal wiedergibt. Alternativ kann die Wiedergabeeinrichtung 23 die textbasierte Sprachinformation 7 in gesprochene Sprache umwandeln und wiedergeben. Dies kann auch als Vorlesen bezeichnet werden.
-
Gemäß 1 und 2 ist vorliegend ein Umgebungserfassungs-CNN-Decoder 13 vorgesehen, der unabhängig von der Auswerteeinheit 12 beziehungsweise dem Sprachausgabe-CNN-Decoder 16 ist. Mit anderen Worten umfasst die Steuereinrichtung 2 zwei CNN-Decoder 13, 16, welche unabhängig voneinander sind. Die Bestimmungseinheit 11 kann dabei einen gemeinsamen CNN-Encoder 17 für beide CNN-Decoder, nämlich den Sprachausgabe-CNN-Decoder 16 und den Umgebungserfassungs-CNN-Decoder 13, aufweisen. Durch den Umgebungserfassungs-CNN-Decoder 13 werden Objektdaten 29 aus dem zumindest einen Merkmal 6 beziehungsweise aus den Merkmalen 6 extrahiert beziehungsweise bestimmt. Vorliegend wird bei dem Extrahieren beziehungsweise Bestimmen der Objektdaten 29 eine semantische Segmentierung 26 des jeweiligen Bildes 5 auf Basis der jeweiligen Merkmale 6 durchgeführt. Zudem wird ein optischer Fluss 27 in nacheinander erfassten Bildern 5 auf Basis der jeweiligen Merkmale 6 bestimmt. Mittels einer Objekterkennung 25 werden Objekte in der Umgebung U anhand der Merkmale 6 in den Bildern 5 erkannt. Durch eine Tiefenabschätzung 28 können Entfernungen, insbesondere von erkannten Objekten, anhand der Merkmale 6 in dem Bild 5 erkannt werden.
-
Die Objektdaten 29 können zur Bestimmung eines Kritikalitätsniveaus 15 herangezogen werden. Das Kritikalitätsniveau 15 kann dabei angeben, wie kritisch die aktuelle Verkehrssituation, in der sich das Kraftfahrzeug 1 befindet, ist. Ist das Kritikalitätsniveau 15 beispielsweise kleiner (siehe Bezugszeichen 32) als ein vorgebbares oder vorgegebenes Benachrichtigungsniveau, so erfolgt keine Wiedergabe der Sprachinformation 7. Auf diese Weise wird eine Ablenkung oder eine für den Insassen 4 störende Benachrichtigung vermieden. Ist das Kritikalitätsniveau 15 größer als das Benachrichtigungsniveau, aber kleiner als ein vorgegebenes oder vorgebbares Warnungsniveau (siehe Bezugszeichen 31), so erfolgt die Wiedergabe der Sprachinformation 7. In diesem Fall kann die Sprachinformation 7 dem Insassen 4 bei der schnellen Erfassung der aktuellen Verkehrssituation helfen. Ist das Kritikalitätsniveau 15 größer als das Warnungsniveau (siehe Bezugszeichen 30), so erfolgt statt des Informierens des Insassen 4 durch Wiedergeben der Sprachinformation 7 eine Warnung des Insassen 4 durch einen nonverbalen Warnton 21. Beispielsweise wird in diesem Fall ein Warntongenerator 22 zum Ausgeben des Warntons 21 angesteuert. Durch das Ausgeben des Warntons 21 kann in besonders kritischen Situationen die Aufmerksamkeit des Insassen 4 besonders schnell auf die aktuelle Verkehrssituation gelenkt werden.
-
Das Benachrichtigungsniveau und/oder das Warnungsniveau können beispielsweise in Abhängigkeit von dem Insassen 4 vorgegeben werden. Gemäß 1 umfasst das Kraftfahrzeug 1 eine Innenraumkamera 8, welche den Insassen 4 erfasst. Beispielsweise können Bilder des Insassen 4 durch die Empfangseinheit 10 von der Innenraumkamera 8 empfangen werden. Aus den Bildern des Insassen 4 von der Innenraumkamera 8 können Reaktionsdaten abgeleitet werden. Insbesondere werden die Reaktionsdaten direkt aus den Bildern abgeleitet. Die Reaktionsdaten können dabei eine Reaktion des Insassen 4 auf die Wiedergabe der Sprachinformation 7 charakterisieren beziehungsweise betreffen. Anhand dieser Reaktionsdaten wird das Verfahren vorliegend auf zwei unterschiedliche Arten angelernt beziehungsweise verbessert.
-
Die Reaktionsdaten können dazu genutzt werden, das Benachrichtigungsniveau und/oder das Warnungsniveau vorzugeben. Beispielsweise kann das Benachrichtigungsniveau erhöht beziehungsweise verringert werden, wenn ein Desinteresse beziehungsweise Interesse des Insassen 4 anhand der Reaktionsdaten erkannt wird. Beispielsweise kann das Warnungsniveau erhöht beziehungsweise verringert werden, wenn eine Ablenkung des Insassen 4 durch das Wiedergeben der Sprachinformation 7 erkannt beziehungsweise nicht erkannt wird.
-
Alternativ oder zusätzlich können die Reaktionsdaten genutzt werden, um das Gewinnen der Sprachinformation 7 anzulernen beziehungsweise zu verbessern. Beispielsweise können anhand der Reaktionsdaten unzutreffende, unvollständige oder uninteressante Sprachinformationen 7 erkannt werden. Alternativ oder zusätzlich können anhand der Reaktionsdaten sprachliche Fehler in der Sprachinformation 7 erkannt werden. Diese Ergebnisse können zum Verbessern der Auswerteeinheit 12 und optional der Bestimmungseinheit 11 verwendet werden.
-
Ist das Kritikalitätsniveau 15 geringer als das Benachrichtigungsniveau (siehe Bezugszeichen 32), so kann eine Information beziehungsweise Unterhaltung des Insassen 4 durch ein weiteres Informationssystem 20 vorgesehen sein. Durch das weitere Informationssystem 20 kann beispielsweise ein Informationssystem von einem Fremdanbieter, beispielsweise Apple® Siri@ oder weitere derartige Sprachassistenten (insbesondere aus dem Umfeld von Smartphones) eingebunden werden. Eine Interaktion zwischen dem Insassen 4 und dem Informationssystem 20 kann unterbrochen werden, wenn das Kritikalitätsniveau 15 das Benachrichtigungsniveau überschreitet. Dabei kann auch vorgesehen sein, dass die Wiedergabe der Sprachinformation 7 an das Informationssystem 20 angepasst wird beziehungsweise die Wiedergabe der Sprachinformation in die Interaktion des Insassen 4 und des Informationssystem 20 integriert wird. Beispielsweise kann die Sprachinformation 7 in eine Informationsbereitstellung durch das Informationssystem 20 integriert werden. Beispielsweise kann dabei jeweils dieselbe Stimme verwendet werden und durch sprachliche Mittel zwischen der Informationswiedergabe des Informationssystems 20 und der Wiedergabe der Sprachinformation 7 übergeleitet werden.
-
Die Sprachinformation 7 kann vorliegend möglichen Informationen oder Hinweisen eines Beifahrers nachempfunden sein. Mit anderen Worten wird versucht, den Insassen 4, insbesondere den Fahrer des Kraftfahrzeugs 1, durch die Wiedergabe der Sprachinformation 7 auf dieselbe Weise zu unterstützen, wie ein Beifahrer dies täte. Es wird gewissermaßen ein virtueller Beifahrer simuliert. Dabei können verschiedene Profile vorgesehen sein, welche unterschiedliche Beifahrer simulieren. Beispiele hierfür sind Profile für einen passiven Beifahrer, einen aufmerksamen Beifahrer und einen Fahrlehrer als Beifahrer.