-
Die vorliegende Erfindung betrifft ein Verfahren zum Labeln einer Sequenz von in zeitlicher Abfolge aufgenommenen Bildern mit integrierter Qualitätsprüfung.
-
Einen bedeutenden Aspekt auf dem Gebiet der Weiterentwicklung von Kraftfahrzeugen bilden seit vielen Jahren Fahrerassistenzsysteme. Fahrerassistenzsysteme sind in aller Regel elektronische oder elektronisch gesteuerte Zusatzeinrichtungen im Kraftfahrzeug zur Unterstützung des Fahrers in bestimmten Fahrsituationen. Fahrerassistenzsystemen können dazu dienen, den Betrieb eines Kraftfahrzeugs komfortabler und/oder sicherer zu gestalten.
-
Bekannte Beispiele von Fahrerassistenzsystemen sind das Antiblockiersystem (ABS), die Fahrdynamikregelung (ESP), der adaptiven Fernlichtassistent, der Regensensor, der Notbremsassistent, der Abstandsregelassistent, der Spurwechselassistent, der Spurerkennungs- bzw. -halteassistent, die Einparkhilfe und die Verkehrszeichenerkennung.
-
Für das Funktionieren von Fahrerassistenzsystemen ist es oftmals erforderlich, dass Informationen aus der Fahrzeugumgebung erfasst, ausgewertet und interpretiert werden. Eine der möglichen Quellen für Informationen für Fahrzeugassistenzsysteme stellen Bilder dar, die von Bilderfassenden bzw. -zeugenden Sensormitteln (Kameras) aufgenommen werden. Hierbei ist es erforderlich, dass vom Fahrerassistenzsystem bzw. von der im Fahrerassistenzsystem zur Anwendung kommenden Software innerhalb der erfassten bzw. erzeugten Bilder interessierende Objekte, wie beispielsweise vorausfahrende bzw. entgegenkommende Kraftfahrzeuge, Fahrbahnmarkierungen oder Verkehrszeichen sicher erkannt, korrekt klassifiziert und in einer Abfolge von Bildern (Bildersequenz) korrekt verfolgt (getrackt) werden, um ein fehlerfreies Verhalten des Fahrerassistenzsystems sicherstellen zu können. Die Anforderungen an ein korrektes Erkennen, Klassifizieren und Verfolgen von interessierenden Objekten sind dabei naturgemäß bei der Sicherheit dienenden Fahrerassistenzsystemen noch höher als bei solchen, die dem Komfort dienen.
-
Ein korrektes Erkennen, Klassifizieren (d. h. das Versehen eines erkannten Objekts mit einem oder mehreren korrekten Attributen) sowie ein Verfolgen (Tracking) von Objekten in einem Bild bzw. in Bildsequenzen stellt hohe Anforderungen an die in Fahrerassistenzsystemen verwendete Hard- und Software.
-
Die
DE 699 22 973 T2 beschreibt ein Verfahren zum Verfolgen semantischer Objekte in einer Vektor-Bildsequenz mit Durchführen räumlicher Segmentierung eines aktuellen Einzelbilds, um mehrere Bereiche von Pixeln mit homogenen Intensitätswerten zu identifizieren; Durchführen von Bewegungsschätzung zwischen jedem der mehreren Bereiche in dem aktuellen Einzelbild und einem Ziel-Einzelbild, in dem eine Grenze eines semantischen Objekts zuvor berechnet wurde; Verwenden der Bewegungsschätzung für jeden der mehreren Bereiche, um Warping von Pixelpositionen in jedem der mehreren Bereiche an Positionen in dem Ziel-Einzelbild durchzuführen; Feststellen, ob die Warping unterzogenen Pixelpositionen innerhalb der Grenze des semantischen Objekts in dem Ziel-Einzelbild liegen, um eine Gruppe der mehreren Bereiche zu identifizieren, die wahrscheinlich Teil des semantischen Objekts in dem aktuellen Einzelbild sind; und Ausbilden einer Grenze des semantischen Objekts in dem aktuellen Einzelbild anhand der Gruppe.
-
Aus der
DE 199 26 559 A1 ist ein Verfahren und eine Vorrichtung zur Detektion von Objekten im Umfeld eine Straßenfahrzeugs bis in große Entfernungen bekannt. Gemäß dem in dieser Offenlegungsschrift beschriebenen Verfahren wird die Entfernung des bewegten Fahrzeugs durch Auswertung von Stereobildpaaren berechnet und Eigenschaften der detektierten Objekte ermittelt, wobei eine entfernungsbasierte Bildsegmentierung mittels Stereobildverarbeitung und eine Objekterkennung in den segmentierten Bildbereichen durchgeführt wird. Die Vorrichtung umfasst eine Erfassungseinrichtung, eine Auswerteeinrichtung zur entfernungsbasierten Bildsegmentierung, eine Extraktionseinrichtung zur Ermittlung relevanter Bildbereiche, die erhabene Objekte kennzeichnen, und eine Erkennungseinrichtung für Objekte in den segmentierten Bildbereichen.
-
Die
DE 10 2005 025 470 A1 beschreibt ein Verfahren und ein System zur Ermittlung der Position und Orientierung einer Kamera relativ zu einem realen Objekt, wobei mit einer Kamera ein zweidimensionales Bild aufgenommen wird, welches wenigstens ein Objekt einer realen Umgebung beinhaltet. Im Zuge der Aufnahme des Bildes wird ein aktueller Bilddatensatz erzeugt, wobei bei Bedarf Bildmerkmale im zweidimensionalen Bild bestimmt werden. Es wird ein Verfahren zur Verfolgung von Bildmerkmalen zwischen einem vorliegenden Bilddatensatz und dem aktuellen Bilddatensatz durchgeführt sowie ein Optimierungsverfahren, welches ein Datenmodell einer virtuellen Information mit zu bestimmenden Kameraparametern auf die Bildebene projiziert und welches aktuelle Kameraparameter durch Bestimmung von Extremalwerten einer Kostenfunktion bestimmt, die als Parameter Bilddaten aus dem aktuellen Bilddatensatz und Daten des projizierten Datenmodells beinhaltet. Hierdurch soll es ermöglicht werden, das Objekt in einem Trackingverfahren, das mit hoher Robustheit und Genauigkeit arbeitet, nachzuverfolgen.
-
Und aus der
DE 10 2010 018 333 A1 ist ein Verfahren zum Auswerten von Informationen aus zumindest einem von zumindest einer optischen Kamera aufgenommenen Bildes bekannt, wobei die zumindest eine optische Kamera Bestandteil eines Fahrzeugs ist und wobei ein Aufnehmen von zumindest einem Bild mittels der zumindest einen optischen Kamera zumindest während einer Fahrt des Fahrzeugs auf einer Fahrbahn erfolgt; ein Ermitteln eines voraussichtlichen Verlaufs der Fahrbahn in einer Umgebung des Fahrzeugs mittels zumindest einer Ermittlungsvorrichtung des Fahrzeugs erfolgt; ein Ermitteln von zumindest einem Bereich des zumindest einen Bildes erfolgt, der zumindest einen Teilbereich des ermittelten voraussichtlichen Verlaufs der Fahrbahn in der Umgebung des Fahrzeugs beinhaltet; und ein Auswerten von in dem zumindest einen ermittelten Bereich des zumindest einen Bildes enthaltenen Bildinformationen erfolgt.
-
Bei allen oben genannten Verfahren ist ein Erkennen und Verfolgen von zumindest einem interessierenden Objekt innerhalb von Bildern erforderlich, die in zeitlicher Abfolge aufgenommen wurden. Um sicherzustellen, dass in Fahrerassistenzsystemen verwendete Bildauswertungs-Algorithmen bzw. Bildauswertungs-Software das oder die interessierende(n) Objekt(e) korrekt erkennt/erkennen, d. h. sowohl die korrekte Position innerhalb eines Bildes sowie optional auch zumindest eine interessierende Eigenschaft, d. h. Attribut, sind umfangreiche Test- und Qualitätssicherungsprozeduren erforderlich.
-
Hierfür werden nach dem Stand der Technik Test-Bildsequenzen mittels einer Kameraeinrichtung aufgenommen. In einem Bild, oftmals dem ersten Bild der Bildsequenz, wird zumindest ein interessierendes Objekt manuell mit einem Label versehen. Ein solches Label kann beispielsweise eine Objektumhüllung in Form einer einfachen geometrischen Form (z. B. ein Rechteck) umfassen, die das entsprechende Objekt bei minimaler Ausdehnung vollständig umschließt, sowie optional zumindest ein Attribut, mit dem eine Eigenschaft des Objekts definiert werden kann (z. B. Lastkraftwagen).
-
Anschließend wird mittels einer speziellen Software versucht, das mit einem Label versehene Objekt in den, dem ersten Bild zeitlich nachfolgenden Bildern in Bezug auf seine Position innerhalb des Bildes erkennen zu lassen. Dieses sogenannte „Tracking” wird so lange durchgeführt, wie dies technisch möglich ist. Dies bedeutet, dass das Tracking jedenfalls dann abgebrochen wird, wenn die Software nach vorgegebenen Abbruchkriterien nicht mehr dazu in der Lage ist, das gelabelte Objekt innerhalb eines Bildes zu erkennen.
-
Nach einem Abbruch des Tracking durch die Software wird das betroffene Bild wiederum manuell gelabelt und der Tracking-Vorgang durch die Software erneut gestartet.
-
Durch dieses Verfahren ist es möglich, ein interessierendes Objekt innerhalb einer Bildsequenz zu verfolgen und somit Musterdaten für einen Vergleich mit den Ergebnissen zu erhalten, die von einem Bildauswertungs-Algorithmus oder einer Bildauswertungs-Software, die für ein Fahrerassistenzsystem vorgesehen sind, bei Anwendung bei der gleichen Bildsequenz erhalten werden.
-
Da nicht sichergestellt ist, dass die Ergebnisse der Software in Bezug auf das Tracking des Objekts bis zum Eintritt eines Abbruchkriteriums fehlerfrei sind, ist eine von Menschen durchzuführende Überprüfung der von der Software erzeugten Daten zwingend erforderlich. Hierdurch wird das Verfahren sehr zeitaufwändig (der gesamte Labelprozess, also das manuelle Labeln von Frames, das Tracking sowie die erforderliche manuelle Qualitätskontrolle erfordert nach dem Stand der Technik eine bis zu einem Faktor > 100 längere Zeitdauer, als für die Aufnahme der Bilder erforderlich ist) und ist somit auch mit sehr hohen Kosten verbunden.
-
Eine gewisse Verbesserung in Bezug auf die Fehleranfälligkeit bzw. -häufigkeit des oben geschilderten Verfahrens kann dadurch erreicht werden, dass vor dem Tracking innerhalb einer Bildsequenz überprüft wird, ob ein interessierendes Objekt in den Bildern zunehmend größer oder kleiner dargestellt wird. Ist dies der Fall, kann das Bild manuell gelabelt werden, in dem das interessierende Objekt am größten dargestellt ist und man lässt den Tracking-Vorgang durch die Software in die zeitliche Richtung (vorwärts oder rückwärts) durchführen, in der das interessierende Objekt innerhalb der Bilder der Bildsequenz zunehmend kleiner dargestellt wird. Hintergrund für dieses Verfahren ist, dass ein Objekt, welches von Bild zu Bild kleiner wird, sich besser und präziser verfolgen lässt als eine Objekt, welches von Bild zu Bild größer wird. Durch dieses Verfahren sinkt somit die Wahrscheinlichkeit eines nicht korrekten Tracking durch die Software.
-
Durch dieses modifizierte Verfahren ergibt sich eine gewisse Zeitersparnis im Vergleich zum oben erwähnten Ausgangsverfahren. Jedoch ist dieses modifizierte Verfahren stark vom Anwender abhängig, der die geeigneten Bildsequenzen auswählt, es ist ebenfalls fehleranfällig und erfordert zwingend eine Überprüfung der von der Software erstellten Daten.
-
Vor diesem Hintergrund ist es Aufgabe der vorliegenden Erfindung, ein verbessertes Verfahren zum Labeln einer Sequenz von in zeitlicher Abfolge aufgenommenen Bildern zur Verfügung zu stellen.
-
Diese Aufgabe wird gelöst durch die Verfahren gemäß Anspruch 1 und Anspruch 2. Vorteilhafte Weiterbildungen der vorliegenden Erfindung sind Gegenstand der Unteransprüche.
-
Demgemäß werden zwei Verfahren zum Labeln einer Sequenz von in zeitlicher Abfolge aufgenommenen Bildern vorgeschlagen, wobei zumindest ein Objekt innerhalb eines Keyframe manuell gelabelt und das zumindest eine gelabelte Objekt in zumindest einem dem manuell gelabelten Keyframe zeitlich nachfolgend oder zeitlich vorausliegend aufgenommenen Bild mittels einer Bildauswertungs-Software getrackt wird oder zu tracken versucht wird.
-
Das Verfahren gemäß Anspruch 1 ist dadurch gekennzeichnet, dass (a) aus einer Bildsequenz nach vorgebbaren Kriterien mindestens ein erster, zeitlich früher aufgenommener Keyframe und ein zweiter, zeitlich später aufgenommener Keyframe ausgewählt werden, (b) in dem ersten und zweiten Keyframe jeweils zumindest ein identisches Objekt manuell mit einem Label versehen wird, (c) mittels einer Bildauswertungs-Software das zumindest eine identische, gelabelte Objekt in dem/den den Keyframes zeitlich nachfolgend und/oder zeitlich vorhergehend aufgenommenen Bild(ern) getrackt wird oder zu tracken versucht wird, und (d) in zumindest einem Bild das Ergebnis des in dem Bild mittels der Bildauswertungs-Software ausgehend von dem ersten Keyframe durchgeführten Tracking mit dem Ergebnis des in dem Bild mittels der Bildauswertungs-Software ausgehend von dem zweiten Keyframe durchgeführten Tracking miteinander verglichen wird.
-
Das Verfahren gemäß Anspruch 1 weist den Vorteil aus, dass ausgehend von mindestens zwei Keyframes, in denen zumindest ein identisches Objekt manuell gelabelt wurde, mittels einer Bildauswertungs-Software ein Tracking vorgenommen wird. In einem Überlappungsbereich, d. h. in einem Bild, in dem ausgehend von jedem der Keyframes durch die Bildauswertungs-Software ein Tracking vorgenommen wurde, können die Ergebnisse der verschiedenen Tracking-Vorgänge miteinander verglichen werden, wodurch eine automatische Plausibilisierung möglich ist. Stimmen beispielsweise die Ergebnisse der verschiedenen Tracking-Vorgänge überein, so kann davon ausgegangen werden, dass das übereinstimmende Tracking-Ergebnis auch korrekt ist. Weiter kann hierbei auch angenommen werden, dass die Tracking-Ergebnisse ausgehend von einem Keyframe bis zum Überlappungsbereich korrekt sind.
-
Das Verfahren gemäß Anspruch 2 ist dadurch gekennzeichnet, dass (a) aus einer Bildsequenz nach vorgebbaren Kriterien mindestens ein erster, zeitlich früher aufgenommener Keyframe und ein zweiter, zeitlich später aufgenommener Keyframe ausgewählt werden, (b) in dem ersten und zweiten Keyframe jeweils zumindest ein identisches Objekt manuell mit einem Label versehen wird, und (i) mittels einer Bildauswertungs-Software das zumindest eine identische, gelabelte Objekt in dem/den dem ersten Keyframe zeitlich nachfolgend aufgenommenen Bild(ern) bis einschließlich dem zweiten Keyframe getrackt wird oder zu tracken versucht wird, und in dem zweiten Keyframe das Ergebnis des in dem zweiten Keyframe mittels der Bildauswertungs-Software ausgehend von dem ersten Keyframe durchgeführten Tracking mit dem manuell vergebenen Label verglichen wird, und/oder (ii) mittels einer Bildauswertungs-Software das zumindest eine identische, gelabelte Objekt in dem/den dem zweiten Keyframe zeitlich vorhergehend aufgenommenen Bild(ern) bis einschließlich dem ersten Keyframe getrackt wird oder zu tracken versucht wird, und in dem ersten Keyframe das Ergebnis des in dem ersten Keyframe mittels der Bildauswertungs-Software ausgehend von dem zweiten Keyframe durchgeführten Tracking mit dem manuell vergebenen Labels verglichen wird.
-
Bei dem Verfahren gemäß Anspruch 2 braucht ein Tracking im einfachsten Fall nur von einem Keyframe aus bis zu und einschließlich einem zeitlich nächstgelegenen Keyframe erfolgen. Stimmt das Ergebnisses des Tracking in diesem zeitlich nächstgelegenen Keyframe mit dem manuell darin vergebenen Label nicht überein, so besteht, insbesondere bei leicht zu verfolgenden Objekten eine gewisse Wahrscheinlichkeit dafür, dass zumindest bei einem der beiden manuellen Labelvorgänge ein nicht korrektes Label (z. B. verkehrte Größe/Position der Objektumhüllung) vergeben wurde. Somit kann das Verfahren gemäß Anspruch 2 in besonders vorteilhafter Weise auch dazu verwendet werden, die Korrektheit der manuell vergebenen Label zu überprüfen.
-
Durch die erfindungsgemäßen Verfahren lässt sich ein deutlich höherer Automatisierungsgrad des Labelns von Bildsequenzen bei gleichzeitig deutlich verringerter Fehlerwahrscheinlichkeit und/oder -häufigkeit erreichen, als dies nach dem Stand der Technik möglich war. Hierdurch kann auch innerhalb einer im Vergleich zum Stand der Technik deutlich verringerten Zeitdauer eine korrekt gelabelte Bildsequenz erzeugt werden.
-
Gemäß einer ersten vorteilhaften Weiterbildung der Erfindung ist vorgesehen, dass Keyframes ausgewählt werden, die in einem im Wesentlichen gleich großen zeitlichen Abstand zueinander aufgenommen wurden. Hierdurch kann beispielsweise eine automatische oder automatisierte Auswahl der Keyframes erfolgen. Vorrangiges Ziel ist hierbei, dass eine möglichst geringe Anzahl an Keyframes manuell gelabelt werden muss, um den Zeitaufwand für den gesamten Prozess, beginnend mit der Aufnahme der Bilder, über das Labelverfahren bis hin zur Qualitätskontrolle so gering wie möglich zu halten.
-
Weiter kann in vorteilhafter Weise beim manuellen Labeln das zumindest eine Objekt in den Keyframes mit einer Objektumhüllungslinie versehen werden. Auch ist es von Vorteil, wenn beim manuellen Labeln das zumindest eine Objekt in den Keyframes weiter mit zumindest einem Attribut versehen wird.
-
Für den Fall, dass die Bildauswertungs-Software nach vorgebbaren Kriterien ein Objekt in einem Bild nicht mehr zu tracken vermag, ist in vorteilhafter Weise vorgesehen, dass (a) in dem Bild das Objekt erneut manuell mit einem Label versehen wird, oder (b) der Tracking-Vorgang für das Objekt beendet wird.
-
Die Auswahl des Bildes, in dem das Objekt erneut manuell mit einem Label versehen werden soll, kann hierbei in vorteilhafter Weise automatisch, d. h. beispielsweise mittels der Bildauswertungs-Software, erfolgen.
-
Weiter können in vorteilhafter Weise (a) in einem Bild oder Keyframe die getrackte(n) Position(en) der Objektumhüllungslinie innerhalb des Bilds oder Keyframe, oder (b) in einem Keyframe die getrackte(n) Position(en) der Objektumhüllungslinie und die in dem Keyframe manuell zugewiesene Position der Objektumhüllungslinie miteinander verglichen werden.
-
Ebenso kann hierbei für den Fall, dass die Positionen der Objektumhüllungslinien um mehr als einen vorgebbaren Abstand voneinander abweichen (a) in dem getrackten Bild oder Keyframe das Objekt erneut manuell mit einem Label versehen werden, oder (b) der Tracking-Vorgang für das Objekt beendet werden.
-
Falls die Positionen der Objektumhüllungslinien um nicht mehr als einen vorgebbaren Abstand voneinander abweichen ist weiter in vorteilhafter Weise vorgesehen, dass die Positionen der Objektumhüllungslinie als zutreffend angenommen werden.
-
Weiter ist es gemäß noch einer weiteren vorteilhaften Weiterbildung der Erfindung vorgesehen, dass für den Fall, dass die Positionen der Objektumhüllungslinie um nicht mehr als einen vorgebbaren Abstand voneinander abweichen, (a) in den Bildern, die zeitlich zwischen dem getrackten Bild oder Keyframe und dem zeitlich nächsten Keyframe aufgenommen wurden, von dem aus das Tracking zu dem getrackten Bild oder Keyframe durchgeführt wurde, oder (b) in den Bildern zwischen den Keyframes, von denen aus das Tracking zu dem getrackten Bild durchgeführt wurde, das zumindest eine identische Objekt automatisch mit einem Label versehen wird.
-
Die vorliegende Erfindung wird anhand der beigefügten Zeichnungen näher erläutert.
-
Dabei zeigen:
-
1: Ein Label-Verfahren nach dem Stand der Technik
-
2: Ein erstes Beispiel eines erfindungsgemäßen Label-Verfahrens
-
3: Ein zweites Beispiel eines erfindungsgemäßen Label-Verfahrens
-
4: Eine Ausgestaltung des zweiten Beispiels des erfindungsgemäßen Label-Verfahrens
-
Die Darstellungen in den Figuren sind rein schematisch. Innerhalb der Figuren sind gleiche oder ähnliche Elemente mit gleichen Bezugszeichen versehen.
-
Die nachfolgend erläuterten Ausführungsbeispiele stellen bevorzugte Ausführungsformen der vorliegenden Erfindung dar. Die vorliegende Erfindung ist selbstverständlich nicht auf diese Ausführungsformen beschränkt.
-
In der vorliegenden Anmeldung haben die Begriffe „Labeln”, „Objekt”, „Keyframe”, „Attribut”, „Objektumhüllung”, „Stützstellen” und „Tracking” die im Nachfolgenden jeweils angegebene Bedeutung, sofern nicht eine hiervon abweichende/ergänzende Bedeutung angegeben ist oder sich aus dem Anmeldetext ergibt:
Labeln: Der Begriff ”Labeln” bezeichnet den Vorgang, die Bildsequenz bildgenau um Informationen (sogenannte ”Labels”) zu ergänzen, die in einem nachgelagerten separaten Prozess dazu verwendet werden sollen, die Qualität der Ergebnisse von Bildverarbeitungsalgorithmen eines Fahrerassistenzsystems auszuwerten. D. h. es geht beim Labeln darum, diejenigen Informationen, die die Bildverarbeitungsalgorithmen des Fahrerassistenzsystems automatisch erkennen sollen, manuell (mit Unterstützung geeigneter Automatismen) mit hoher Güte zu generieren, so dass diese als Referenz (sogenannte ”Ground Truth”) dienen können, gegen die die Ergebnisse der Bildverarbeitungsalgorithmen, wie sie in Fahrerassistenzsystemen verwendet werden bzw. verwendet werden sollen, verglichen werden können.
Objekt: Als Objekt wird ein Teil eines Bildes bzw. einer Folge von Bildern wie z. B. ein Lastkraftwagen (LKW) bezeichnet, dessen Kontur (d. h. die Abgrenzung von der Umgebung) von Interesse ist. Zum Objekt gehören neben seiner Kontur in der Regel auch eine oder mehrere zusätzliche Informationen (Attribut(e)), durch die das Objekt näher beschrieben wird.
Keyframe: Ein aus einer Sequenz von in zeitlicher Abfolge aufgenommenen Bildern ausgewähltes Bild, in dem zumindest ein Objekt manuell gelabelt wird bzw. ist.
Attribut: Ein Attribut ist eine Eigenschaft, deren Wert aus einer diskreten Menge möglicher Werte ausgewählt werden kann. Ein Attribut ist eine Eigenschaft, die sich entweder auf ein Objekt bezieht (”objektbezogenes Attribut”), oder das unabhängig für ein gesamtes Bild gilt (”globales Attribut”). Ein objektbezogenes Attribut ist z. B. die Information, ob an einem Fahrzeug ein Blinker gesetzt ist. Und als ein Beispiel für ein globales Attribut sei hier die Art der Straße (”innerorts”, ”außerorts”, ”Autobahn”, etc.) erwähnt, bei dem z. B. der Wert ”innerorts” auch dann noch zutreffend ist, wenn das Ortseingangsschild nicht mehr im Bild zu sehen ist.
Objektumhüllung: Bei einem Objekt ist die Kontur und damit die Position und Ausdehnung des Objekts innerhalb eines Bildes von Interesse. Die Kontur des Objekts wird durch eine sogenannte Objektumhüllung gekennzeichnet. Die Objektumhüllung ist eine einfache geometrische Form (z. B. ein Rechteck), die das entsprechende Objekt bei minimaler Ausdehnung vollständig umschließt.
Stützstellen: Eine Stützstelle ist eine fest eingezeichnete Objektumhüllung. Stützstellen können entweder vom Anwender manuell eingezeichnet werden oder sie können aus bestehenden Stützstellen durch sogenanntes Tracking automatisch generiert werden.
Tracking: Als Tracking wird der Vorgang bezeichnet, bei dem aus einer bestehenden Stützstelle automatisch eine neue Stützstelle in einem weiter in der Zukunft oder weiter in der Vergangenheit liegenden Bild generiert wird. Beim Tracking versucht die Bildauswertungs-Software automatisch kleinere Veränderungen des Bildbereichs zu erkennen, der durch die Objektumhüllung der Ausgangsstützstelle vorgegeben wird, (z. B. ein entgegenkommendes Fahrzeug, das bei Tracking in die Vergangenheit von Bild zu Bild kleiner wird) und passt dabei Bild für Bild die Objektumhüllung an das sich ändernde Erscheinungsbild des umhüllten Objekts an.
-
1 zeigt schematisch ein Verfahren zum Labeln einer Sequenz von in zeitlicher Abfolge aufgenommenen Bildern nach dem Stand der Technik. Hierbei wird in einem Bild 2, oftmals dem ersten Bild der Bildsequenz 1, zumindest ein interessierendes Objekt manuell mit einem Label versehen. Ein solches Label kann beispielsweise eine Objektumhüllung in Form einer einfachen geometrischen Form (z. B. ein Rechteck) umfassen, die das entsprechende Objekt bei minimaler Ausdehnung vollständig umschließt, sowie optional zumindest ein Attribut, mit dem eine Eigenschaft des Objekts definiert werden kann (z. B. Lastkraftwagen).
-
Anschließend wird mittels einer speziellen Software versucht, das zumindest eine gelabelte Objekt in den, dem ersten Bild zeitlich nachfolgenden Bildern in Bezug auf seine Position innerhalb des Bildes erkennen zu lassen 3. Dieses so genannte „Tracking” 3 wird so lange durchgeführt, wie dies technisch möglich ist. Dies bedeutet, dass ein Tracking-Vorgang 3 jedenfalls dann abgebrochen wird, wenn die Software nach vorgegebenen Abbruchkriterien nicht mehr dazu in der Lage ist, das zumindest eine gelabelte Objekt innerhalb eines Bildes zu erkennen.
-
Nach einem Abbruch des Tracking durch die Software wird das betroffene Bild 2 wiederum manuell gelabelt und der Tracking-Vorgang 3 durch die Software erneut gestartet. Dieser Vorgang wird so oft wiederholt, bis die gesamte Bildsequenz entsprechend abgearbeitet wurde.
-
2 zeigt ein erstes Beispiel des erfindungsgemäßen Verfahrens zum Labeln einer Sequenz von in zeitlicher Abfolge aufgenommenen Bildern.
-
Hierbei wird aus einer Bildsequenz 1 nach vorgebbaren Kriterien mindestens ein erster, zeitlich früher aufgenommener Keyframe 2 und ein zweiter, zeitlich später aufgenommener Keyframe 2' ausgewählt, in dem ersten 2 und zweiten Keyframe 2' jeweils zumindest ein identisches Objekt manuell gelabelt, mittels einer Bildauswertungs-Software das zumindest eine gelabelte Objekt in dem/den dem ersten Keyframe 2 zeitlich nachfolgend aufgenommenen Bild(ern) getrackt oder zu tracken versucht 3, mittels der Bildauswertungs-Software das zumindest eine gelabelte Objekt in dem/den dem zweiten Keyframe 2' zeitlich nachfolgend aufgenommenen und/oder zeitlich vorhergehend aufgenommenen Bild(ern) getrackt oder zu tracken versucht 3', 3'', und in zumindest einem Bild innerhalb des Überlappungsbereichs das Ergebnis des in dem Bild von der Bildauswertungs-Software ausgehend von dem ersten Keyframe 2 durchgeführten Tracking 3 mit dem Ergebnis des in dem Bild von der Bildauswertungs-Software ausgehend von dem zweiten Keyframe 2' durchgeführten Tracking 3', 3'' miteinander verglichen.
-
Die Kriterien für die Auswahl der Keyframes 2, 2' können entweder fest vorgegeben sein, beispielsweise ein gewisser zeitlicher Abstand zwischen der Aufnahme der einzelnen Keyframes, oder eine gewisse Anzahl an Bildern zwischen den einzelnen Keyframes. Das Kriterium kann aber auch alternativ oder ergänzend hierzu sein, dass ein Anwender solche Bilder innerhalb der Bildsequenz auswählt, in denen er ein identisches Objekt noch zu erkennen vermag. Die Vorgabe bzw. Auswahl von Keyframes kann somit automatisch erfolgen (z. B. das erste, das mittlere und das letzte Bild einer Bildsequenz), manuell, oder kann das Ergebnis eines Optimierungsverfahren sein. Ziel ist es in jedem Fall, die Anzahl an manuell zu labelnden Bildern so klein wie möglich zu halten.
-
Innerhalb der Keyframes 2, 2' wird zumindest ein identisches Objekt manuell mit einem Label versehen. Ein solches manuelles Labeln kann das Einzeichnen einer Objektumhüllung umfassen, sowie optional zusätzlich das Zuweisen eines Attributs zu dem Objekt. Die Zuweisung eines Attributs zu einem Objekt ist nicht in jedem Fall zwingend und kann daher gegebenenfalls unterbleiben. Eine eingezeichnete Objektumhüllung wird auch als Stützstelle bezeichnet.
-
Ausgehend von den Keyframes erfolgt in einem nächsten Schritt das so genannte Tracking 3, 3', 3''. Wie in 2 gezeigt ist, kann das Tracking 3 ausgehend von einem ersten Bild einer Bildsequenz (erster Keyframe 2) ausschließlich nach vorwärts erfolgen, d. h. Bild für Bild in Richtung der zeitlich später aufgenommenen Bilder. Bei einem zweiten, zeitlich später aufgenommenen Keyframe 2' kann das Tracking sowohl vorwärts 3' als auch rückwärts 3'' erfolgen.
-
Es ist erfindungsgemäß selbstverständlich möglich, dass als erster Keyframe 2 nicht das erste Bild einer Bildsequenz ausgewählt wird. In diesem Fall kann auch ausgehend von dem ersten Keyframe 2 das Tracking sowohl vorwärts als auch rückwärts erfolgen.
-
Wie oben bereits erwähnt, wird beim Tracking aus einer bestehenden Stützstelle automatisch eine neue Stützstelle in einem weiter in der Zukunft oder weiter in der Vergangenheit liegenden Bild generiert. Beim Tracking versucht die Bildauswertungs-Software automatisch kleinere Veränderungen des Bildbereichs zu erkennen, der durch die Objektumhüllung der Ausgangsstützstelle vorgegeben wird, (z. B. ein entgegenkommendes Fahrzeug, das bei Tracking in die Vergangenheit von Bild zu Bild kleiner wird) und passt dabei Bild für Bild die Objektumhüllung an das sich ändernde Erscheinungsbild des umhüllten Objekts an.
-
In Überlappungsbereichen, d. h. in Bildern, in denen von der Bildauswertungs-Software ausgehend von dem ersten Keyframe 2 ein Tracking 3 durchgeführt wurde, und in denen von der Bildauswertungs-Software ausgehend von dem zweiten Keyframe 2' ein Tracking 3', 3'' durchgeführt wurde, können nun die Ergebnisse in Bezug auf das zumindest eine gelabelte und getrackte Objekt miteinander verglichen werden. Beispiele derartige Überlappungsbereiche sind in der 2 mittels eines eingekreisten „IO” kenntlich gemacht. Bei einem mittels eines eingekreisten „IO” kenntlich gemachten Überlappungsbereichs stimmen die Ergebnisse des Tracking ausgehend von zwei verschiedenen Keyframes in zumindest ausreichender Art und Weise überein.
-
In Überlappungsbereichen, in denen die Ergebnisse des Tracking ausgehend von verschiedenen Keyframes in zumindest ausreichender Art und Weise übereinstimmen, ist somit eine automatische Plausibilisierung möglich. Bei dem Verfahren wird die Position von zumindest einem, aus unterschiedlichen Keyframes verfolgten Objekt miteinander verglichen und das Ergebnis des Vergleichs als Qualitätskriterium herangezogen. Hierdurch ergibt sich eine automatische Qualitätssicherung der Labeldaten und eine große Zeitersparnis beim Labeln.
-
Sofern in der vorliegenden Anmeldung davon gesprochen wird, dass in einem Bild das Objekt erneut manuell mit einem Label versehen oder das Bild erneut manuell gelabelt wird, kann dies auch bedeuten, dass ein nicht korrektes (manuell vergebenes oder durch die Bildauswertungs-Software zugewiesenes Label) lediglich korrigiert wird, beispielsweise in dem Bild lediglich die Lage und/oder Größe der Objektumhüllungslinie verändert wird. Selbstverständlich ist es auch möglich, dass das nicht korrekte Label verworfen wird und ein neues Label erstellt wird.
-
In 3 ist schematisch ein weiteres Beispiel des erfindungsgemäßen Verfahrens zum Labeln einer Sequenz von in zeitlicher Abfolge aufgenommenen Bildern dargestellt. In der nachfolgenden Erläuterung dieses Beispiels soll hauptsächlich auf die Unterschiede zu dem in 2 dargestellten Ausführungsbeispiel eingegangen werden.
-
Das Verfahren, wie es in 3 dargestellt ist, unterscheidet sich von demjenigen gemäß 2 insbesondere dadurch, dass aus einer Bildsequenz 1 nach vorgebbaren Kriterien weiter ein dritter, zeitlich später als der zweite Keyframe 2' aufgenommener Keyframe 2'' ausgewählt wird, in dem dritten Keyframe 2'' das identische Objekt manuell gelabelt wird, das auch im ersten und zweiten Keyframe 2, 2' manuell gelabelt wird, mittels der Bildauswertungs-Software das zumindest eine identische, gelabelte Objekt in dem/den dem dritten Keyframe 2'' zeitlich vorhergehend aufgenommenen Bild(ern) getrackt wird oder zu tracken versucht wird 3''', und in zumindest einem Bild das Ergebnis des in dem Bild von der Bildauswertungs-Software ausgehend von dem ersten und/oder zweiten Keyframe 2, 2' durchgeführten Tracking 3, 3', 3'' mit dem Ergebnis des in dem Bild von der Bildauswertungs-Software ausgehend von dem dritten Keyframe 2'' durchgeführten Tracking 3''' miteinander verglichen wird.
-
Wie oben bereits erwähnt, hat diese Weiterbildung der Erfindung den Vorteil, dass auf jeden Fall ein Tracking innerhalb der Bilder zeitlich vorwärts und zeitlich rückwärts erfolgt, wodurch sich Vorteile in Bezug auf die Präzision der Objektverfolgung ergeben können. Des Weiteren können sich durch das Vorsehen von mehr als zwei Keyframes auch eine erhöhte Anzahl an Überlappungsbereichen ergeben, in denen eine automatische Plausibilisierung möglich ist. Neben einer erhöhten Anzahl an möglichen Überlappungsbereichen an sich können sich auch Überlappungsbereiche ergeben, in denen die Ergebnisse des Tracking ausgehend von mehr als zwei Keyframes miteinander verglichen werden können. Hierdurch wird die Wahrscheinlichkeit eines nicht korrekten Tracking durch die Bildauswertungs-Software weiter verringert.
-
Wie in der 3 schematisch dargestellt ist und wie oben bereits erwähnt wurde, können beispielsweise Keyframes so ausgewählt werden, dass sie einen im Wesentlichen gleich großen zeitlichen Abstand zueinander aufweisen. Beispielsweise kann als der erste Keyframe 2 das erste Bild, als dritter Keyframe 2'' das letzte Bild und als zweiter Keyframe 2' ein Bild der Bildsequenz ausgewählt wird, das im Wesentlichen zeitlich mittig zwischen dem ersten und dritten Keyframe aufgenommen wurde. Ziel der manuellen oder automatischen Auswahl an Keyframes ist es in jedem Fall, die Anzahl an manuell mit einem Label zu versehenden Keyframes so klein wie möglich zu halten.
-
Das erfindungsgemäße optimierte Labelverfahren von Bildern (Bilddaten, Videodaten) mit integrierter Qualitätsprüfung wird unter- bzw. abgebrochen, sofern die Bildauswertungs-Software ausgehend von einem der Keyframes nicht mehr dazu in der Lage ist, in einem Bild das gelabelte Objekt noch sicher zu erkennen, oder in einem Überlappungsbereich die Ergebnisse des Tracking nicht oder in nicht ausreichender Weise übereinstimmen.
-
Ein Fall, bei dem in einem Überlappungsbereich die Ergebnisse des Tracking nicht oder in nicht ausreichender Weise übereinstimmen, ist in 3 durch einen eingekreistes ”nIO” kenntlich gemacht.
-
Bei der Durchführung eines der erfindungsgemäßen Verfahren kann ein solcher „nIO”-Bereich selbstverständlich auch in einem oder mehreren Keyframes vorkommen. Durch die erfindungsgemäßen Verfahren ist es somit in besonders vorteilhafter Weise auch möglich, manuell falsch vergebene Label aufzufinden. Wenn beispielsweise unterschiedliche Keyframes innerhalb einer Bildsequenz von verschiedenen Anwendern manuell gelabelt werden, können auf diese Weise auf einfache und sichere Weise systematische Fehler eines Anwenders aufgedeckt und korrigiert werden.
-
Für den Fall, dass die Bildauswertungs-Software nach vorgebbaren Kriterien ein Objekt in einem Bild nicht mehr zu tracken vermag, kann in dem Bild das Objekt erneut manuell gelabelt werden und ausgehend von dem hierdurch neu erzeugten Keyframe mittels der Bildauswertungs-Software das gelabelte Objekt in dem/den dem neu erzeugten Keyframe zeitlich nachfolgend und/oder zeitlich vorhergehend aufgenommenen Bild(ern) getrackt oder zu tracken versucht werden, und das Ergebnis des in einem Bild von der Bildauswertungs-Software ausgehend von zumindest einem anderen Keyframe durchgeführten Tracking mit dem Ergebnis des von der Bildauswertungs-Software ausgehend von dem neu erzeugten Keyframe in dem gleichen Bild durchgeführten Tracking miteinander verglichen werden.
-
Sofern ein Objekt erneut manuell mit einem Label versehen werden muss, kann vorgesehen sein, dass einem Anwender nur das erforderliche Bild angezeigt wird, d. h. dass er nur das Bild sieht, das zu einem neuen Keyframe gemacht werden soll. Selbstverständlich ist es jedoch auch möglich, dass dem Anwender die Möglichkeit gegeben wird, ein oder mehrere, zeitlich vor oder nach dem neu zu labelnden Bild aufgenommene Bilder anzusehen bzw. dass ihm diese angezeigt werden, so dass der Anwender einen Überblick über die Szene erhält.
-
Alternativ hierzu kann auch der der Tracking-Vorgang für das Objekt beendet werden, beispielsweise weil das Objekt tatsächlich nicht mehr in dem Bild abgebildet ist.
-
Wird von der Bildauswertungs-Software das ursprünglich manuell gelabelte Objekt noch in den Bildern erkannt, kann in Überlappungsbereichen ein Vergleich der Ergebnisse der verschiedenen Tracking-Vorgänge vorgenommen werden. Hierbei werden in bevorzugter Weise (a) die getrackten Positionen der Objektumhüllungslinie innerhalb des Bildes und optional (b) das/die von der Bildauswertungs-Software zuerkannte(n) Attribut(e) des Objekts mit dem/den in den Keyframes manuell zugewiesenen Attribut(en) miteinander verglichen.
-
Falls ausgehend von verschiedenen Keyframes in einem getrackten Bild (i) die Positionen der Objektumhüllungslinien um mehr als einen vorgebbaren Abstand voneinander abweichen und optional (ii) das/die zuerkannte(n) Attribut(e) von dem/den in den Keyframes manuell zugewiesenen Attribut(en) um mehr als einen vorgebbaren Grad abweicht/abweichen, kann (a) in dem getrackten Bild das Objekt erneut manuell gelabelt werden und ausgehend von dem hierdurch neu geschaffenen Keyframe mittels der Bildauswertungs-Software das gelabelte Objekt in dem/den dem neu geschaffenen Keyframe zeitlich nachfolgend und/oder zeitlich vorhergehend aufgenommenen Bild(ern) getrackt oder zu tracken versucht werden, und das Ergebnis des in einem Bild von der Bildauswertungs-Software ausgehend von einem anderen Keyframe durchgeführten Tracking mit dem Ergebnis des von der Bildauswertungs-Software ausgehend von dem neu geschaffenen Keyframe in dem gleichen Bild durchgeführten Tracking miteinander verglichen werden, oder es kann (b) der Tracking-Vorgang für das Objekt beendet werden.
-
4 zeigt ausgehend von der auf der rechten Seite von 3 dargestellten Situation eines nicht übereinstimmenden bzw. nicht ausreichend übereinstimmenden Ergebnisses von zwei verschiedenen, von zwei unterschiedlichen Keyframes ausgehenden Tracking-Vorgängen die oben erwähnte Option, innerhalb des Überlappungsbereichs ein Bild als weiteren Keyframe 2''' auszuwählen. Ausgehend von diesem weiteren Keyframe 2''', in dem das identische Objekt erneut manuell gelabelte wird, kann nun sowohl zeitlich vorwärts als auch zeitlich rückwärts durch die Bildauswertungs-Software ein Tracking des zumindest einen Objekts sowie die weiteren Schritte des erfindungsgemäßen Verfahrens vorgenommen werden.
-
Selbstverständlich kann, wie dies beispielsweise bei dem Verfahren gemäß Anspruch 2 der Fall sein kann, ein solcher neu geschaffener Keyframe auch dazu verwendet werden, dass das gelabelte Objekt von einem anderen Keyframe aus hin zu dem neu geschaffenen Keyframe getrackt wird und die Ergebnisse des durch Tracking erzeugten Labels mit dem manuell vergebenen Labels verglichen werden. Wie bereits erwähnt, kann hierdurch in vorteilhafter Weise auch überprüft werden, ob das manuell vergebene Label korrekt ist.
-
Wenn innerhalb eines Überlappungsbereichs in einem getrackten Bild (a) die Positionen der Objektumhüllungslinie um nicht mehr als einen vorgebbaren Abstand voneinander abweichen und optional (b) das/die zuerkannte(n) Attribut(e) von dem/den in den Keyframes manuell zugewiesenen Attribut(en) um nicht mehr als einen vorgebbaren Grad abweicht/abweichen, kann die getrackte Position des Objekts oder der Objektumhüllungslinie und/oder das/die zuerkannte(n) Attribut(e) als zutreffend angenommen werden.
-
Ein noch zu tolerierender Abstand der Objektumhüllungslinien kann innerhalb eines Bildes oder Keyframe beispielsweise in Abhängigkeit von der (Relativ)Geschwindigkeit und/oder Entfernung des Objekts unterschiedlich groß gewählt sein. Auch der tolerierbare Grad der Abweichung zwischen einem manuell zugewiesenen (z. B. Lastkraftwagen) und dem durch die Software zuerkannten Attribut (z. B. Kraftfahrzeug) kann je nach Wichtigkeit der Eigenschaft des Objekts bzw. der Wichtigkeit des Objekts unterschiedlich gewählt werden bzw. variieren.
-
Erfindungsgemäß ist es nicht erforderlich, dass für jedes Bild oder Keyframe in einem Überlappungsbereich ein Vergleich der verschiedenen Label durchgeführt wird. Vielmehr ist es ausreichend, wenn nach vorgebbaren Kriterien nur bei einem gewissen Anteil diese Bilder ein solcher Vergleich durchgeführt wird. Selbstverständlich kann bei dem erfindungsgemäßen Verfahren jedoch auch vorgesehen sein, dass für jedes Bild oder Keyframe in einem Überlappungsbereich ein entsprechender Vergleich vorgenommen wird.
-
Üblicherweise erfolgt beim Tracking gemäß der oben angegebenen Bedeutung bereits Bild für Bild eine Anpassung der Objektumhüllung, also auch das Versehen eines Bildes mit einem Label. Dies ist erfindungsgemäß jedoch nicht unbedingt erforderlich. Erfindungsgemäß kann auch vorgesehen sein, dass lediglich in zumindest einem ausgewählten Überlappungsbereich zwischen zwei Keyframes für zumindest ein Bild ermittelt wird, ob das ursprünglich manuell gelabelte Objekt in dem Bild von der Bildauswertungs-Software in noch zumindest ausreichend korrekter Weise erkannt wird. Ist dies der Fall, können die Bilder zwischen den zwei Keyframes automatisch gelabelt werden. Durch diese Ausgestaltung des erfindungsgemäßen Verfahren sind gegebenenfalls Geschwindigkeitsvorteile erzielbar.
-
Zusammenfassend kann festgehalten werden, dass erfindungsgemäß nicht mehr eine komplette Bildsequenz von einem Anwender gelabelt wird, sondern nur noch so genannte Keyframes, die gegebenenfalls automatisch nach einem vorgegebenen Regelwerk ausgewählt werden können. In den Keyframes enthaltene Objekte werden mit Methoden der digitalen Bildverarbeitung über den restlichen Zeitraum der Bildsequenz verfolgt. Dabei wird die Position der aus unterschiedlichen Keyframes verfolgten Objekte verglichen und das Ergebnis des Vergleichs als Qualitätskriterium herangezogen.
-
Hierdurch ergibt sich im Vergleich zum Stand der Technik der Vorteil einer großen Zeitersparnis beim Labeln sowie eine automatische Qualitätssicherung der Labeldaten.
-
Beispielsweise können per Software aus einer Bildsequenz einzelne Bilder (Keyframes) automatisch selektiert werden. Diese können beispielsweise so ausgewählt werden, dass sie zeitlich möglichst gleichmäßig verteilt sind. Die Keyframes werden manuell gelabelt. Anschließend wird/werden in einem zweiten Schritt das/die in den Keyframes gelabelte Objekt(e) in der Sequenz vorwärts und/oder rückwärts solange wie möglich automatisch verfolgt. In einem nächsten Schritt wird überprüft, ob die Positionen der automatisch verfolgten Objekte zu bestimmten Zeitpunkten (Überlappungsbereichen) übereinstimmen. Ist dies der Fall, so werden die Lücken zwischen den Keyframes automatisch gelabelt, wobei die Qualität implizit sichergestellt ist, da unterschiedliche manuelle Labelvorgänge zum gleichen Ergebnis geführt haben. Stimmt die Position nicht überein oder konnte die zeitliche Lücke nicht überbrückt werden, so kann automatisch oder manuell ein weiterer Keyframe selektiert und mit Schritt zwei fortgefahren werden.
-
Durch die vorliegende Erfindung müssen im Vergleich zum Stand der Technik deutlich weniger Bilder manuell gelabelt werden, wodurch sich eine erhebliche Zeitersparnis ergibt. Durch die implizite Redundanz aufgrund des überlappenden Tracking wird darüber hinaus im Vergleich zum Stand der Technik eine hohe Qualität sichergestellt. Da die zu labelnden Bilder automatisch optimal ausgewählt werden, verringert sich zusätzlich die Anzahl an Fehlern. Sofern automatisch oder manuell Bilder mit unterschiedlichen Inhalten als Keyframes ausgewählt werden, ergibt sich aufgrund der damit verbundenen Abwechslung für einen Anwender geringere Ermüdungserscheinungen, wodurch eine weitere Fehlerquelle für die zu erzeugenden Labeldaten zumindest verringert werden kann.
-
Werden von zwei verschiedenen Anwender innerhalb einer Bildsequenz Keyframes gelabelt, können durch die erfindungsgemäßen Verfahren in besonders vorteilhafter Weise auch Fehler eines Anwenders beim manuellen Lablen von Keyframes erkannt und korrigiert werden. Hierdurch wird sichergestellt, dass der Vorgang des automatischen Tracking von korrekt manuell gelabelten Keyframes aus gestartet wird, wodurch die Fehlerwahrscheinlichkeit innerhalb der gelabelten Bilder weiter verringert wird.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- DE 69922973 T2 [0006]
- DE 19926559 A1 [0007]
- DE 102005025470 A1 [0008]
- DE 102010018333 A1 [0009]