-
Die Erfindung betrifft ein Verfahren zur Erzeugung von Histogrammen, insbesondere von Histogrammen für einen Deskriptor. Der Deskriptor kann einem Klassifikator zur Erkennung von Objekten in einem Bild von einer Fahrzeugkamera zugeführt werden.
-
Es ist bekannt, Histogramme der Orientierten Gradienten („Histogram of Oriented Gradients“, kurz: HOG) und Histogramme von Lokalen Binären Mustern („Local Binary Patterns“, kurz: LBP) oder deren Kombination als Bildverarbeitungsmerkmale zur Extraktion von Kanten bzw. Kantenorientierungen und Textur Informationen in einem Bild zu verwenden. In Kombination mit einem maschinell gelernten Klassifikator wie der Stützvektormethode („Support Vector Machine“, kurz: SVM) werden die Merkmale bzw. die Histogramme für die Suche visueller Objekte (zum Beispiel Fußgänger oder Fahrzeug) verwendet, und werden gemäß dem Stand der Technik in kamerabasierten Fahrerassistenzsystemen eingesetzt.
-
Wachsende Anforderungen an kamerabasierte Fahrerassistenzsysteme (Anzahl der zu erkennenden Objekte, Kameraauflösung, Bildwiederholrate etc.) führen zu einer ständig wachsenden Prozessorleistung, die für die Merkmalsextraktion notwendig ist. Dies führt (trotz einer Optimierung von Prozessoren) zu wachsender Verlustleistung. Diese Verlustleistung in einem Fahrzeug, insbesondere für eine Stand-alone-Kamera hinter einer Windschutzscheibe des Fahrzeugs, ist auf wenige Watt begrenzt. Dies kann besondere Maßnahmen für Algorithmen der Merkmalsextraktion erforderlich machen. Diese Algorithmen müssen optimiert werden, Vereinfachungen müssen ohne Verlust von Erkennungsleistung vorgenommen werden und/oder neue Algorithmen müssen zum Einsatz kommen.
-
Sowohl HOG-Merkmale als auch LBP-Merkmale werden aus einem Bild (Graukanal/Farbkanal/Bildpyramide etc.) extrahiert. Die entsprechenden Algorithmen zählen die Vorkommnisse von Gradient-basierten Orientierungen (HOG) oder binärcodierten Texturinformationen (LBP) in lokalisierten Bildbereichen. Das Bild wird dazu in kleine verbundene Regionen oder Zellen unterteilt, und für die Pixel innerhalb jeder Zelle wird ein Histogramm von Gradientenrichtungen (HOG) oder bit-kodierten Center-Umgebungs-Informationen (LBP) berechnet. Ein Merkmalsdeskriptor kann durch eine Konkatenation von diesen Histogrammen gebildet werden.
-
Um die Belichtungs-Invarianz zu verbessern, werden die lokalen Histogramme innerhalb einer größeren Region typischerweise Kontrast-normiert, wobei diese Regionen einige Zellen (normalerweise 4 Zellen) zusammenfassen und als Blöcke bezeichnet werden. Die HOG-Merkmale und die LBP-Merkmale oder eine Kombination aus beiden bieten einen guten Kompromiss zwischen Komplexität und diskriminativer Kraft. Allerdings sind sie relativ rechenintensiv und bei einer Kombination aus HOG-Merkmalen und LBP-Merkmalen entsteht eine erhebliche Anzahl von Speicherzugriffen (durch das Lesen von Pixeldaten), welche separat für HOG-Merkmale und LBP-Merkmale benötigt werden, was eine zusätzliche negative Bilanz für die Energieeffizienz mit sich bringt.
-
Es ist die Aufgabe der vorliegenden Erfindung, ein Verfahren der eingangs genannten Art bereitzustellen, welches eine Reduzierung der Verlustleistung insbesondere von (zukünftigen) multifunktionalen Frontkameras (MFC) ermöglicht.
-
Die Aufgabe wird gelöst durch die Gegenstände der unabhängigen Patentansprüche. Vorteilhafte Ausführungsformen sind Gegenstand der abhängigen Ansprüche, der folgenden Beschreibung sowie der Figuren.
-
Durch die vorliegende Erfindung wird eine Maßnahme zur Optimierung der Merkmalsextraktion durch Einsatz von neuartigen Features und/oder eine Optimierung von bekannten Features vorgeschlagen. Die vorliegende Erfindung ist auf alle eingebetteten Bildverarbeitungssysteme anwendbar, bei denen eine schnellere und eine sparsamere Merkmalsextraktion von Vorteil ist. Insbesondere stellt die Erfindung eine Lösung bereit, welche eine neue Art von visuellen Merkmalen beinhaltet, die sogenannten Histogramme von Orientierten Mustern („Histograms of Oriented Patterns“, kurz: HOP). Durch die vorgeschlagenen HOP-Merkmale können Kanten (oder allgemeiner: Richtungs-Informationen) durch eine direkte Differenz von Pixelintensitäten um einen Zentralpixel herum extrahiert werden. Der Umgebungsbereich kann beispielsweise 3 x 3 Pixel groß sein und somit insgesamt 9 Pixel betragen (einschließlich des Zentralpixels). Diese Größe ist jedoch nicht zwingend und es können auch andere Größen vorgesehen werden. Bei einem 3 x 3 großen Umgebungsbereich können beispielsweise vier direkte Gradienten extrahiert werden.
-
Für eine Verfeinerung von Richtungs-Informationen (Winkelauflösung) auf acht Raumrichtungen können zusätzlich bestimmte Pixelkombinationen genommen werden. Eine gewisse Richtungs-Unabhängigkeit (Reduzierung von Freiheitsgraden) kann durch das Schaffen absoluter Werte von Differenzen erreicht werden. Die Merkmale können mit LBP-Merkmalen mit gleicher Zellgröße kombiniert und nach bekanntem Algorithmus als kumulatives Histogramm für die Zellen und Blöcke berechnet werden.
-
Die vorgeschlagene Art und Weise, die Orientierungsinformation aus dem Bild zu extrahieren, erlaubt eine spürbare Beschleunigung im Vergleich zu bekannten Referenzalgorithmen wie z.B. HOG. Die HOP-Merkmale lassen sich auf eine natürliche Weise mit LBP-Features kombinieren. Im Vergleich zu einer Kombination aus HOG und LBP spart man zusätzlich bei Speicherzugriffen (bei gleichen anderen Parametern). Beides, Reduzierung von Operationen-Anzahl und weniger Speicherzugriffe, führt zu einer Reduzierung von Verlustleistungen bei vergleichbarer Erkennungsleistung der anschließenden Klassifikation.
-
Gemäß einem ersten Aspekt der Erfindung wird ein Verfahren zur Erzeugung von Histogrammen bereitgestellt, insbesondere von Histogrammen für einen Deskriptor. Der Deskriptor kann einem Klassifikator zur Erkennung von Objekten in einem Bild von einer Kamera eines Fahrzeugs zugeführt werden. Bei dem Fahrzeug handelt es sich beispielsweise um ein Kraftfahrzeug, wie Auto, Bus oder Lastkraftwagen.
-
Das Verfahren umfasst ein Aufnehmen eines digitalen Bilds einer äußeren Umgebung eines Fahrzeugs mittels einer Kamera, welche an dem Fahrzeug angeordnet ist. Alternativ kann auch eine Sequenz mit mehreren digitalen Bildern aufgenommen werden, wobei auf die mehreren digitalen Bilder die im Folgenden beschriebenen Verfahrensschritte angewendet werden.
-
So wird ein Bildausschnitt aus dem Bild ausgewählt, wobei der Bildausschnitt mehrere sich überlappende Blöcke enthält. Jeder der Blöcke enthält vier sich nicht überlappende Zellen, und jede der Zellen enthält eine skalierbare Anzahl Pixel. Für jede der Zellen wird durch Bilden von direkten Differenzen zwischen Intensitätswerten von Umgebungspixeln eine Orientierungsinformation kodiert, wobei sich die Umgebungspixel und ein Zentralpixel innerhalb der Zellen befinden, und wobei die Umgebungspixel den Zentralpixel umgeben. Weiterhin werden die Differenzen in einem ersten Histogramm für jede der Zellen kumuliert.
-
Die direkten Differenzen stellen Merkmale dar (HOP-Merkmale), welche Kanten-Informationen (oder allgemeiner: Richtungs-Informationen oder Orientierungs-Informationen) extrahieren. Die HOP-Merkmale können unter anderem für maschinelles Lernen und Mustererkennung in den aufgenommenen digitalen Bildern verwendet werden. Die HOP-Merkmale bzw. die ersten Histogramme lassen sich auf einem eingebetteten („embedded“) System um einiges schneller als bekannte Referenzmethoden für Kantenmerkmale (z.B. HOG-Merkmale) berechnen. Die HOP-Merkmale stellen somit eine Vereinfachung von HOG-Merkmalen und eine Erweiterung (zusätzliche Orientierung / Richtungs-Informationen) von LBP-Merkmalen dar. Dabei wird eine relativ rechenintensive Berechnung von HOG-Merkmalen vermieden.
-
Gemäß diesem Verfahren werden Informationen über Kanten oder Gradienten durch die erfindungsgemäßen HOP-Merkmale berechnet, wobei eine Sortierung von Gradienten-Amplituden in Winkelbereichen erfolgt. Dies ermöglicht eine alternative und vereinfachte Kodierung insbesondere von Kanten-Informationen durch Bildung direkter Differenzen zwischen Pixelwerten. Die vier direkten Differenzen ergeben dabei vier Merkmale F [1] bis F [4], wodurch eine Winkelauflösung von 45° erzeugt wird. Die Differenzen werden als absolute Werte berechnet, was eine gewisse Rotations-Invarianz von Merkmalen gewährleistet.
-
Um die Dichte von Winkelinformationen zu erhöhen, können zusätzliche Differenzen zwischen Pixel-Kombinationen berechnet werden. Gemäß einer Ausführungsform werden in diesem Sinne acht direkte Differenzen zwischen Intensitätswerten von Umgebungspixeln gebildet, wobei vier direkte Differenzen von sich einander bezüglich des Zentralpixels diametral gegenüberliegenden einzelnen Pixeln gebildet werden, und vier weitere direkte Differenzen von jeweils zwei Pixelpaaren gebildet werden, welche sich bezüglich des Zentralpixels diametral gegenüberliegen. Die acht direkten Differenzen ergeben acht Merkmale F [1] bis F [8], wodurch die durch die ersten vier Merkmale F [1] bis F [4] erzeugte Winkelauflösung von 45° verfeinert werden kann.
-
Weiterhin können die ersten Histogramme von vier benachbarten Zellen in einem gemeinsamen ersten Block-Histogramm für jeden der Blöcke zusammengefügt werden, und die ersten Block-Histogramme können normiert werden, z.B. mittels einer L2-Normierung.
-
Gemäß einer weiteren Ausführungsform kann vorgesehen sein, dass die normierten ersten Block-Histogramme in einem ersten Deskriptor zusammengefügt werden, und der Bildausschnitt zu einer Objektklasse mittels eines Klassifikators und basierend auf dem ersten Deskriptor zugeordnet wird. Dabei kann für eine Objekt-Hypothese (z.B. für einen rechteckigen Bildausschnitt mit 48 × 96 Pixeln) die Hypothese insbesondere mit einem Zell-Größe-Schritt verschoben werden (nach der bekannten „Sliding-Windows“-Technik). Mit anderen Worten kann insbesondere eine Objekterkennung in einem Bildausschnitt auf Basis einer Kombination aus dem ersten Deskriptor und einem bekannten Klassifikator erfolgen. Dazu wird der erste Deskriptor des Bildausschnitts verwendet, um den dargestellten Inhalt des Bildausschnitts zu beschreiben. Anhand der durch den ersten Deskriptor bereitgestellten Beschreibung des Bildausschnitts kann der Klassifikator die Hypothese, ob beispielsweise ein Objekt in dem Bildausschnitt vorliegt, akzeptieren oder verwerfen.
-
Weiterhin kann vorteilhaft vorgesehen sein, dass der erste Deskriptor ausgedünnt wird, indem nur jeweils die Histogramm-Elemente aus einer der Zellen, z.B. aus der ersten Zelle, des normierten ersten Block-Histogramms in den ersten Deskriptor aufgenommen werden. Beispielsweise können die ersten acht Elemente aus jedem der ersten normierten Block-Histogramme in den ersten Deskriptor aufgenommen werden. Die Anzahl der Elemente kann jedoch je nach Aufteilung auch mehr oder weniger als acht betragen. Auf diese Weise kann der Deskriptor bzw. der Klassifikator um den Faktor vier verkürzt werden. Nach der Normierung kann nur das Histogramm der ersten Zelle beibehalten werden, ohne die Klassifikationsleistung bzw. die Erkennungsrate maßgeblich zu beeinflussen, insbesondere wenn - wie im Folgenden beschrieben - eine Kombination mit LBP-Merkmalen erfolgt. Die beschriebene Verkürzung des ersten Deskriptors kann analog auch auf den weiter unten beschriebenen zweiten Deskriptor angewendet werden.
-
Gemäß einer weiteren Ausführungsform umfasst das Verfahren weiterhin ein Berechnen von LBP-Merkmalen für jeden Pixel der Zellen und ein Kumulieren der LBP-Merkmale in jeweils einem zweiten Histogramm für jede der Zellen. Die LBP-Merkmale können mit den HOP-Merkmalen kombiniert werden, um eine besonders leistungsfähige Detektion bzw. Klassifikation von komplizierten Objekten zu ermöglichen. Die Erfinder haben herausgefunden, dass sich die Merkmale beispielsweise bei einer Kombination mit einem bekannten SVM-Klassifikator nicht bloß schneller berechnen lassen, sondern auch eine vergleichbare Erkennungsrate zeigen und einen Vorteil bei Speicherzugriffen ermöglichen im Vergleich zu einer Kombination aus HOG-Merkmalen und LBP-Merkmalen, die einem SVM-Klassifikator zugeführt werden. Insbesondere können für das Bilden der LBP-Merkmale die gleichen Pixel bzw. die gleichen Pixel-Sets genutzt werden wie für die Berechnung der weiter oben beschriebenen HOP-Merkmale, um eine besonders gute Kombination zu gewährleisten und die Verwendung gleicher Bild-Speicherzugriffe zu ermöglichen.
-
Mit anderen Worten kann die Anzahl notwendiger Operationen durch die Kombination von HOP-Merkmalen und LBP-Merkmalen deutlich verkürzt werden, und eine Berechnung der HOP-Merkmale und LBP-Merkmale kann wesentlich einfacher programmiert werden bei gleichen Pixeln im Cache verglichen mit einer Kombination aus HOG-Merkmalen und LBP-Merkmalen.
-
Die zweiten Histogramme von vier benachbarten Zellen können in einem gemeinsamen zweiten Block-Histogramm für jeden der Blöcke zusammengefügt werden. Die zweiten Block-Histogramme können normiert werden, z.B. mittels einer L2-Normierung, und die normierten zweiten Block-Histogramme können in einem zweiten Deskriptor zusammengefügt werden.
-
Weiterhin kann vorgesehen sein, dass der erste Deskriptor und der zweite Deskriptor zusammengefügt werden. Das Zusammenfügen kann beispielsweise mittels eines einfachen Aneinanderreihens erfolgen. Der entstehende, zusammengefügte Deskriptor kann - wie weiter oben im Zusammenhang mit dem ersten Deskriptor erläutert - einem Klassifikator zur Detektion von Objekten innerhalb des Bildausschnitts zugeführt werden.
-
Gemäß einem zweiten Aspekt der Erfindung wird ein Programmelement bereitgestellt, das, wenn es auf einem Prozessor ausgeführt wird, den Prozessor anleitet, die Verfahrensschritte gemäß dem Verfahren nach dem ersten Aspekt der Erfindung durchzuführen.
-
Gemäß einem dritten Aspekt der Erfindung wird ein computerlesbares Medium bereitgestellt, auf dem ein Programmelement gespeichert ist, das, wenn es auf einem Prozessor ausgeführt wird, den Prozessor anleitet, die Verfahrensschritte gemäß dem Verfahren nach dem ersten Aspekt der Erfindung durchzuführen.
-
Im Folgenden werden Ausführungsbeispiele der Erfindung anhand der schematischen Zeichnung näher erläutert. Hierbei zeigt
- 1 ein Kraftfahrzeug mit einer Kamera,
- 2 ein von der Kamera aus 1 aufgenommenes Bild,
- 3 vier nebeneinander quadratisch angeordnete Zellen und
- 4 eine tabellarische Gegenüberstellung von Experimenten mit Kombinationen unterschiedlicher Verfahren zur Merkmals-Berechnung bei verschiedenen, zu erkennenden Objekten.
-
1 zeigt ein Kraftfahrzeug 1 mit einer Kamera 2. In dem gezeigten Ausführungsbeispiel ist die Kamera 2 im Bereich eines Rückspiegels im Innenraum des Fahrzeugs 1 hinter einer Windschutzscheibe des Fahrzeugs 1 angeordnet. Auf diese Weise ist die Kamera 2 dazu eingerichtet, eine äußere Umgebung 3 des Fahrzeugs 1, welche sich insbesondere im Vorausbereich des Fahrzeugs 1 befinden kann, zu erfassen. Die Kamera 2 kann ein digitales Bild oder eine Sequenz digitaler Bilder insbesondere von der äußeren Umgebung 3 des Fahrzeugs 1 aufnehmen.
-
2 zeigt schematisiert ein solches Bild 4. Aus dem Bild 4 kann ein Bildausschnitt 5 ausgewählt werden. Die Aufnahme des Bilds 4 und die Auswahl sowie die im folgenden beschriebenen Operationen können von einem dazu eingerichteten Prozessor (nicht gezeigt) ausgeführt werden, welcher in die Kamera 2 integriert sein oder extern bereitgestellt und mit der Kamera 2 kommunikativ verbunden werden kann. Dazu kann ein Programmelement (nicht gezeigt) auf einem computerlesbaren Medium (nicht gezeigt) gespeichert sein, welches den Prozessor entsprechend anleitet. Der Bildausschnitt 5 kann - wie durch 2 gezeigt - ein Teil des Bilds 4 sein. Alternativ kann der Bildausschnitt jedoch auch das gesamte Bild 4 umfassen.
-
Der Bildausschnitt 5 kann in sich überlappende Blöcke 6 eingeteilt werden. Die Blöcke 6 weisen jeweils eine Höhe h und eine Breite b auf. 2 zeigt eine erste Reihe solcher Blöcke 6. Aus Gründen der besseren Übersichtlichkeit sind die weiteren Reihen mit Blöcken 6 innerhalb des Bildausschnitts 5 nicht dargestellt. Gleich große einheitliche Blöcke können in einem Bild oder in einer Skala der Bildpyramide besonders schnell berechnet werden. Die Überlappungsbereiche im Kontext der Erfindung sind bevorzugt eine Zelle groß (wodurch ermöglicht wird, dass eine Thesis besonders einfach von einer ersten Zelle anstatt von vier Zeilen aus einem Block in einen finalen Deskriptor übernommen werden kann). Ferner können die Blöcke 6 rechteckig (wie durch 2 gezeigt) oder quadratisch (wie durch 3 gezeigt) sein.
-
3 zeigt, dass jeder Block 6 wiederum aus einer bestimmten Anzahl von Zellen 7 (in dem gezeigten Ausführungsbeispiel aus vier Zellen) bestehen kann, die wiederum aus mehreren Pixeln 8 bestehen können. Die Zellen 7 überlappen sich nicht, schließen aber bündig aneinander und sind quadratisch sowie ohne Abstand zueinander angeordnet. In dem gezeigten Ausführungsbeispiel ist eine erste Zelle 7.1 oben links, eine zweite Zelle 7.2 oben rechts, eine dritte Zelle 7.3 unten links und eine vierte Zelle 7.4 unten rechts angeordnet.
-
Gemäß dem durch 3 gezeigten Ausführungsbeispiel umfasst der Block 6 vier Zellen 7 mit jeweils 6 × 6 Pixeln. Diese Zellengröße ist jedoch nur exemplarisch. Andere Zellengrößen abhängig von der Ziel-Applikation (insbesondere von dem zu detektieren Objekt) sind ebenfalls möglich. Innerhalb der Zellen 7 können jeweils mehrere mit normallerweise jeweils einem Pixel (kann optional mehr sein) Verschiebung in horizontalen und vertikalen Richtungen (so bildet sich ein kumulatives Histogramm) quadratische Umgebungsbereiche 9 gruppiert werden. Einer dieser Umgebungsbereiche 9 innerhalb der ersten Zelle 7.1 ist in 3 zur Verdeutlichung mit einer Schraffur versehen. In 3 sind die neun Umgebungspixel eines Umgebungsbereichs 9 mit Ziffern 1 bis 8 im Uhrzeigersinn nummeriert, wobei im Folgenden der mit der Ziffer „1“ bezeichnete Umgebungspixel „P1“ genannt wird, der mit der „2“ bezeichnete Umgebung Pixel „P2“ genannt wird usw. Die Umgebungspixel P1 bis P8 umgeben einen Zentralpixel, welcher mit der Ziffer „0“ bezeichnet ist und im Folgenden „P0“ genannt wird.
-
Gemäß einem bekannten HOG-Verfahren können an jedem Pixel die dx-Ableitungen (dx = P8 - P4) und die dy-Ableitungen (dy = P2 - P6) extrahiert und die Gradient-Amplitude (engl. „Magnitude“) mit der Quadratwurzel aus der Summe der quadrierten dx-Ableitung und der dy-Ableitung in mehreren Winkelbereichen (z.B. acht sogenannte „bins“) sortiert werden. Die Magnitude-Information und die Bin-Information wird typischerweise (aus Optimierungsgründen) nicht auf Zellenebene, sondern früher, auf Bildebene extrahiert. Dies verhindert jedoch eine optimale Kombination von HOG-Berechnungen und LBP-Berechnungen.
-
Ein Beispiel zur Berechnung der erfindungsgemäßen HOP-Features zur Pixelindexierung ist im Folgenden dargestellt:
und
-
Andere Pixel, die weiter entfernt von dem Zentralpixel P0 außerhalb des schraffierten Umgebungsbereichs innerhalb der ersten Zelle 7.1 liegen, können für den Merkmalsdeskriptor ebenfalls verwendet werden. Die vier Merkmale F [1] bis F [4] entsprechen einer Winkelauflösung von 45°. Durch die Merkmale F [1] bis F [4] werden direkte Differenzen zwischen Intensitätswerten der Umgebungspixel P1 bis P8 gebildet, welche den Zentralpixel P0 innerhalb der Zelle 7.1 umgeben. Ein derartiges Kodieren einer Orientierungsinformation erfolgt für jede der Zellen 7.1 bis 7.4. Die Differenzen bzw. Merkmale werden anschließend in einem ersten Histogramm für jede der Zellen 7.1 bis 7.4 kumuliert.
-
Ergänzend zu den ersten vier Merkmalen F [1] bis F [4] können weitere vier Merkmale F [5] bis F [8] berechnet werden:
und
-
Diese weiteren vier Merkmale F [5] bis F [8] verfeinern die durch die Merkmale F [1] bis F [4] erzeugte Winkelauflösung von 45°. Somit können acht direkte Differenzen F [1] bis F [8] zwischen Intensitätswerten von Umgebungspixeln gebildet werden, wobei vier direkte Differenzen F [1] bis F [4] von sich einander bezüglich des Zentralpixels P0 diametral gegenüberliegenden einzelnen Pixeln gebildet werden, und vier weitere direkte Differenzen F [5] bis F [8] von jeweils zwei Pixelpaaren gebildet werden, welche sich bezüglich des Zentralpixels P0 diametral gegenüberliegen.
-
Es ist zu beachten, dass die Schreibweise F[5],...,F[8] zum einfacheren Verständnis der Grundidee der Richtungsverfeinerung durch „Pixelpaare“ gewählt wurde. Für ein schnelleres Berechnen kann F[5] auch berechnet werden durch z.B. F[5]= abs((P8-P4)+(P1-P5)), um an die vorberechneten Zwischenergebnisse von F[1] und F[2] zurückgreifen zu können. In dem Sinne ist F[5] eine Komposition von F[1] und F[2] und zwischenliegender Orientierung. Ohne die Allgemeinheit zu begrenzen, kann man sich auch andere „Kombinationen“ von direkten Pixel-Differenzen ausdenken, um die Orientierungsinformation feiner zu kodieren. Die Differenzen bzw. Merkmale F [5] bis F [8] können in dem ersten Histogramm für jede der Zellen 7.1 bis 7.4 kumuliert werden.
-
In einem weiteren Verfahrensschritt können die ersten Histogramme der vier benachbarten Zellen 7.1 bis 7.4 in einem gemeinsamen ersten Block-Histogramm zusammengefügt werden. Anschließend können die ersten Block-Histogramme normiert werden, z.B. mittels einer L2-Normierung. Dies kann für alle Blöcke 6 erfolgen, sodass für jeden der Blöcke 6 ein erstes Block-Histogramm erzeugt wird.
-
Die normierten ersten Block-Histogramme können anschließend in einem ersten Deskriptor für den Bildbereich (Objekt-Hypothese) zusammengefügt und einem Klassifikator zugeführt werden, welcher dazu eingerichtet ist, den Bildausschnitt 5 mit seinen Blöcken 6, Zellen 7 und Pixeln 8 einer Objektklasse zuzuordnen, z.B. ob ein bestimmtes Objekt (beispielsweise eine Person oder ein Fahrzeug) in dem Bildausschnitt 5 abgebildet wird oder nicht. Um den ersten Deskriptor dafür auszudünnen, können nur jeweils die ersten acht Elemente aus jedem der normierten ersten Block-Histogramme in den ersten Deskriptor aufgenommen werden. Dies ist möglich bei überlappenden Blöcken, wobei die Zellhistogramme im Deskriptor mehrmals vorkommen und sich nur bei der Normierung unterscheiden.
-
Nach einem bekannten LBP-Verfahren können gemäß dem folgenden Index weiterhin für jeden Pixel
8 der Zellen
7.1 bis
7.4 LBP-Merkmale berechnet werden:
-
Dabei sind maximal 16 LBP-Merkmale möglich. Einfachhalber können lediglich die stärksten acht Merkmale in der Praxis genommen werden. Andere Pixel, die weiter entfernt von dem Zentralpixel P0 liegen, können für den Merkmalsdeskriptor ebenfalls verwendet werden. Die LBP-Merkmale können in jeweils einem zweiten Histogramm für jede der Zellen 7.1 bis 7.4 kumuliert werden. Zur Bildung der HOP-Merkmale und der LBP-Merkmale können insbesondere dieselben Pixel bzw. Pixel-Sets verwendet werden. Dadurch wird eine bessere Kombination ermöglicht und gleiche Bildspeicherzugriffe können verwendet werden.
-
Die zweiten Histogramme der vier benachbarten Zellen 7.1 bis 7.4 können in einem gemeinsamen zweiten Block-Histogramm zusammengefügt.
-
Dies kann für alle Blöcke 6 erfolgen, sodass für jeden der Blöcke 6 ein zweites Block-Histogramm erzeugt wird. Anschließend können die zweiten Block-Histogramme normiert werden, z.B. mittels einer L2-Normierung, um dann in einem zweiten Deskriptor zusammengefügt zu werden. Ähnlich wie bei den HOP-Merkmalen kann der Deskriptor verkürzt werden, indem man nur die Histogramm-Werte von der ersten Zelle jedes Blocks verwendet.
-
Anschließend kann ein Zusammenfügen des ersten Deskriptors (basierend auf den HOP-Merkmalen) und des zweiten Deskriptors (basierend auf den LBP-Merkmalen) erfolgen. Der dadurch entstehende, zusammengefügte Deskriptor kann einem Klassifikator zugeführt werden, welcher dazu eingerichtet ist, den Bildausschnitt 5 mit seinen Blöcken 6, Zellen 7 und Pixeln 8 einer Objektklasse zuzuordnen, z.B. ob ein bestimmtes Objekt (beispielsweise eine Person oder ein Fahrzeug) in dem Bildausschnitt 5 abgebildet wird oder nicht.
-
4 zeigt eine durchschnittliche Erkennungsgenauigkeit („Average Precision“) für eine Kombination aus HOG-Merkmalen und LBP-Merkmalen (erste Zeile mit Werten), eine Kombination aus HOP-Merkmalen und LBP-Merkmalen (zweite Zeile mit Werten) sowie eine Kombination aus HOP-Merkmalen und LBP-Merkmalen mit verkürztem Deskriptor (dritte Zeile mit Werten) . Der Deskriptor wurde sowohl für HOP-Merkmale, als auch für LBP-Merkmale verkürzt, indem nur die Histogramm-Werte von der ersten Zelle jedes Blocks verwendet wurden.
-
Diese experimentellen Ergebnisse zeigen, dass insbesondere die Kombination aus HOP-Merkmalen und LBP-Merkmalen keinen wesentlichen negativen Einfluss auf die Erkennungsrate hat (Zeilen 1 und 2) . Auch wenn der Deskriptor durch Verwendung von nur den jeweils Histogramm- Werten aus der ersten Zelle im Block verkürzt ist, wird die Erkennungsrate nicht maßgeblich negativ beeinflusst. Beide, HOP-Merkmale und LBP-Merkmale wurden verkürzt. Die Experimente wurden auf einem Datensatz mit einigen Millionen annotierten Objekten durchgeführt. Bei allen Versuchen wurde jeweils ein neues Modell anhand der gleichen Trainings- und Testdaten erstellt. Dabei wurde die erste Variante (HOG-Merkmale und LBP-Merkmale) als Referenz verwendet. Bei der zweiten Variante (HOP-Merkmale und LBP-Merkmale) wurden die HOG-Merkmale durch die vorgeschlagenen HOP-Merkmale ersetzt. Die Anzahl der Merkmale (jeweils 8 HOG-Merkmale, LBP-Merkmale und jeweils 8 bei HOP-Merkmalen und LBP-Merkmale pro Zelle) ist bei beiden Varianten identisch, was zu einem Merkmalsvektor gleicher Länge bei der anschließenden Klassifikation führt.
-
Bei der dritten Variante mit HOP-Merkmalen und LBP-Merkmalen wurde bei der Reduktion des Merkmalsvektors die Auswahl der Merkmale nicht gleich verteilt über die normierten Zellen vorgenommen. Als Optimierung wurde stattdessen die gleiche Anzahl an Merkmalen nur aus den ersten Zellen jedes Blocks in dem Deskriptor gespeichert. Die quantitativen Ergebnisse zeigen, dass durch die vorgeschlagenen Optimierungen kein relevanter Einfluss auf die Erkennungsleistung besteht, obwohl der Deskriptor um Faktor vier verkürzt wurde. Die vorgeschlagene Idee der Verkürzung des Deskriptors begrenzt sich nicht nur auf den HOP- und LBP Fall, sondern kann auch unabhängig bei HoG und LBP oder anderen Block-basierten Merkmalen verwendet werden (nicht in der Tabelle gezeigt).