DE102011119941A1

DE102011119941A1 - Verfahren zur Suche von visuell ähnlichen Bildern in einer Sammlung von Referenzbildern

Info

Publication number: DE102011119941A1
Application number: DE102011119941A
Authority: DE
Inventors: Anmelder Gleich
Original assignee: Individual
Current assignee: Navis De; Navvis GmbH
Priority date: 2011-12-01
Filing date: 2011-12-01
Publication date: 2013-06-06

Abstract

Markante visuelle Merkmale sind von großer Bedeutung im Bereich der visuellen Ortserkennung. Dies trifft insbesondere auf Innenräume zu, die wenige markante Merkmale aufweisen. Wir stellen einen Ansatz vor, der Text als wesentliche Informationsquelle zur Lokalisierung ausnutzt, ohne die bislang erforderliche und fehleranfällige optische Erkennung von Buchstaben (OCR) einzusetzen. Dazu werden Schriftzeichen im Bild lokalisiert und mittels Merkmalsdeskriptoren wie z. B. SURF beschrieben. Die Quantisierung dieser Deskriptoren in einige hundert sogenannte visuelle Wörter codiert die Schriftzeichen basierend auf ihrer Erscheinung. Dies steht im Gegensatz zu bisher gängigen Beschreibungen von Schriftzeichen durch ein Alphabet von meist 30 Buchstaben wodurch die Unterscheidbarkeit erheblich reduziert wird. Schriftzeichen in einem Bild werden in unserem Verfahren zu einer Folge von visuellen Wörtern (visuelle Phrase) transformiert, die im Vergleich zu einzelnen Merkmalen eine höhere Unterscheidungskraft aufweist. Ein approximativer Abgleich der visuellen Phrasen wird mit Hilfe so genannter N-Gramme durchgeführt. Eine experimentelle Evaluierung zeigt die wesentliche Verbesserung der Bilderkennungsleistung wobei gleichzeitig der Speicherbedarf der Datenbank um zwei Größenordnungen im Vergleich zum Stand der Technik reduziert wird. Aufgrund der sehr geringen Anforderungen an die rechnerische Komplexität ist der Ansatz speziell für Anwendungen auf dem mobilen Endgerät geeignet.

Description

I. EINLEITUNG
Getrieben durch aktuelle Fortschritte im Bereich des so genannten Content Based Image Retrieval (CBIR) werden zunehmend neuartige mobile Anwendungen im Bereich der Mediensuche auf mobilen Geräten verfügbar. Diese beinhalten beispielsweise mobile Produkterkennungsdienste, bei denen Produkte beziehungsweise Produktverpackungen zuverlässig anhand einer Datenbank von bis zu einer Millionen Bildern identifiziert werden können [1]. Dabei wird beispielsweise nach Kunstwerken, DVDs, Büchern und vielem mehr gesucht. Google Goggles [2] und Amazon Snaptell [3] sind zwei kommerzielle Beispiele für visuelle Produkterkennungssysteme.
Die Anwendung von CBIR zur mobilen visuellen Ortserkennung ermöglicht ortsbezogene Dienste (wie zum Beispiel Foursquare [4]) in Straßenschluchten oder in Gebäuden in denen typischerweise GPS kaum verfügbar ist. Dies wird erreicht, indem aktuelle Aufnahmen eines mobilen Endgerätes mit einer georeferenzierten Datenbank wie zum Beispiel Google Street View [5] oder Microsoft Streetside [6] abgeglichen werden. Im Vergleich zur Produkterkennung ist die visuelle Lokalisierung jedoch mit zusätzlichen Herausforderungen verbunden, wie in [7] beschrieben wird. Aufgrund der sich ständig ändernden Fokussierung des Nutzers auf unterschiedliche Objekte und der daraus resultierenden schnellen Änderung des Sichtbereichs des mobilen Endgerätes, müssen Suchergebnisse in nahezu Echtzeit zur Verfügung gestellt werden, damit diese als nützlich wahrgenommen werden. Weiterhin bietet ein Großteil der detektierten Merkmale aufgrund von repetitiven oder häufigen Strukturen (Fenster und dynamische Objekte) nur eine begrenzte Unterscheidungskraft. Dies verschlechtert nicht nur wesentlich die Erkennungsqualität, sondern erhöht zusätzlich die erforderliche Anfragezeit wie auch die Speicheranforderungen der Datenbank.
Insbesondere in Gebäuden sind typischerweise nur wenige markante Merkmale verfügbar, die zu einem Großteil auf Wegweisern, Türschildern, Postern, etc. zu finden sind. Die meisten davon beinhalten eine Art von Schriftzeichen. Text ist zweifelsfrei eine wesentliche Quelle an Information für Menschen um sich zu orientieren und kontextbezogenes Wissen bezüglich ihrer Umgebung zu erlangen. Das Kombinieren von Zeichen in Zeichenketten stellt gewissermaßen unbegrenzte Unterscheidbarkeit und somit Information zur Verfügung.
Bisher wurde Text in natürlichen Bildern weitestgehend als Informationsquelle für CBIR ignoriert. Dies liegt im wesentlichen an den hohen Anforderungen hinsichtlich der Auflösung und der Rechenkomplexität aktueller Texterkennungssysteme (OCR) wie zum Beispiel Tesseract [8]. Während in Produkterkennungsanwendungen deutlich mehr Zeit in den Erkennungsprozess investiert werden kann und vollständige Bilder zu einer leistungsfähigen Serverfarm hochgeladen werden können, ist es für die visuelle Lokalisierung erforderlich, dass der Großteil der Berechnungen auf dem mobilen Endgerät durchgeführt wird um Verzögerungen durch das Netzwerk zu vermeiden [7]. Daher kann nur begrenzte Rechenleistung für OCR aufgewendet werden. Während bei der Produkterkennung Bilder mit nahezu frontalem Blickwinkel, in hoher Auflösung und mit geringen Verdeckungen angenommen werden können, kommt es bei der visuellen Ortserkennung oft vor, dass nur Teile eines Ladenschildes erkennbar sind.
Um Text in natürlichen Bildern für CBIR auszunutzen ist es nicht erforderlich Schriftzeichen als Buchstaben eines Alphabets zu erkennen. Tatsächlich geht durch diese Konvertierung Information verloren, da das spezifische und einzigartige optische Erscheinungsbild und somit die Unterscheidungskraft ignoriert werden. In den und wurde ein und der selbe Text „cafe” an zwei unterschiedlichen Orten aufgenommen. Lediglich das einzigartige Erscheinungsbild (unterschiedliche Schriftart, Farbe, Hintergrund, etc.) erlaubt eine Unterscheidung. Die Vielfalt der Schriftarten ist es, die die Erkennung von Buchstaben in Schriftzügen so schwierig macht. Auf der anderen Seite bietet sie – falls bei der Beschreibung berücksichtigt – einen zusätzlichen und wesentlichen Beitrag zur Unterscheidungskraft.
Indem wir die einzelnen Schriftzeichen mit lokalen Merkmalsdeskriptoren wie SIFT oder SURF [9], [10] beschreiben, vermeiden wir die komplexe Erkennung als Buchstaben und benötigen lediglich die Detektion und Lokalisierung von Schriftzeichen im Bild. Dies reduziert nicht nur die Anforderungen an die Rechenleistung, sondern ebenfalls die Anforderungen an die Auflösung des Bildes. Die Lokalisierung von Schriftzeichen ist weniger komplex und robuster als die Differenzierung zwischen zum Beispiel einem ,D' und einem ,O'. Schriftzüge werden nun zugeordnet, indem die individuellen Schriftzeichen-Deskriptoren miteinander verglichen werden.
Da angenommen werden kann, dass Schriftzüge auf planaren Oberflächen liegen, können wir eine feste lineare Reihenfolge der einzelnen Schriftzeichen, die durch ihre jeweiligen Deskriptoren repräsentiert werden, festlegen. Dies erlaubt uns, die einzelnen Schriftzeichen-Deskriptoren in visuelle Phrasen zu kombinieren. Analog zu gewöhnlichem Text erhöht sich die Unterscheidbarkeit exponentiell mit der Anzahl der Schriftzeichen innerhalb einer Phrase. Durch die Verwendung von Merkmalsdeskriptoren anstelle eines Alphabets von etwa 30 Buchstaben wird die Information jedes einzelnen Schriftzeichens deutlich erhöht.
In dem mobilen Dokumentenerkennungssystem von Tsai et al. [11] werden OCR und lokale Merkmalsdeskriptoren miteinander kombiniert. Relevante Dokumente werden innerhalb kurzer Zeit aus dem Web abgerufen, indem OCR auf den großen und charakteristischen Dokumententitel angewendet und eine Textsuche in online Datenbanken gestartet wird. Ein bildbasierter Vergleich der zurückgegebenen Dokumente wird durch einen Abgleich der lokalen Merkmalsdeskriptoren erreicht. Zusätzlich wird ein affines Transformationsmodell mittels RANSAC geschätzt, um die zugeordneten Deskriptorpaare zu verifizieren.
Diese geometrische Verifizierung von Deskriptorübereinstimmungen erzwingt implizit ebenfalls die korrekte Anordnung der Schriftzeichen eines Dokuments und erhöht somit wesentlich die Qualität des Erkennungssystems. Diese Nachverarbeitung entfernt jedoch lediglich falsche Zuordnungen und erhöht nicht die Unterscheidungskraft der Merkmale. Daher ist eine große Anzahl an Merkmalen erforderlich um zuverlässig ein Transformationsmodell zu schätzen. Weiterhin erfordert die Schätzung dieses Modells erhebliche Rechenleistung und wird daher nur dazu eingesetzt die besten Ergebnisse einer Suche neu zu beurteilen und zu sortieren. Um die Komplexität zu reduzieren werden üblicherweise näherungsweise Modelle mit geringeren Freiheitsgraden eingesetzt [12]. Schnelle geometrische Verifizierungssysteme wie [13] und die Integration von globalen geometrischen Beziehungen in den Erkennungsprozess [14], [15] können die Qualität der Ergebnisse in der visuellen Ortserkennung aufgrund der komplexen 3-dreidimensionalen Umgebungsstruktur kaum erhöhen.
Daher ist es notwendig geometrische Randbedingungen in lokalen Bereichen zu erzwingen, in denen angenommen werden kann, dass die Merkmale auf einer Ebene liegen. Wu et al. [16] bündeln SIFT Merkmale innerhalb von MSER Regionen [17] für eine Suche von partiell identischen Bildern. Dabei wird die Reihenfolge von SIFT Merkmalen entlang der x- und y-Achse innerhalb einer MSER Region genutzt, um eine schwache geometrische Verifikation einer Merkmalszuordung zu erreichen. Während die Verifikation in den Scoringprozess integriert ist, muss jedes assoziierte Datenbankmerkmal individuell hinsichtlich der Reihenfolge in dem Merkmalsbündel überprüft werden. Dies erhöht die Anforderungen an die Rechenleistung erheblich. Da nur einzelne MSER Regionen verwendet werden um lokale Planarität zu detektieren, liegen viele der SIFT Merkmale auf Objektkanten in komplexen dreidimensionalen Szenen.
II. N-GRAMM-BASIERTE VISUELLE PHRASEN
In dieser Erfindung schlagen wir vor, CBIR durch die Ausnutzung der Koplanarität von Schriftzeichen innerhalb eines Schriftzuges zu verbessern. Basierend auf der Annahme, dass detektierte Schriftzeichen auf einer Ebene liegen, können visuelle Merkmale eines möglicherweise großen Bereiches der Szene miteinander kombiniert werden um deren Unterscheidungskraft deutlich zu steigern. Weiterhin bieten die ausgeprägten Gradienten von Schriftzeichen erheblich mehr Information als Merkmale die Texturen von Fenstern oder Blattwerk beschreiben und daher tendenziell die Erkennungsqualität verschlechtern.
A. Detektion visueller Phrasen
Der erste Schritt in unserem Ansatz ist die Detektion und Lokalisierung von Text und einzelnen Schriftzeichen in natürlichen Bildern. Kürzlich wurde gezeigt, dass der Maximally Stable Extremal Region (MSER) Merkmalsdetektor [17] besonders gut zur Generierung von Schriftzeichenkandidaten geeignet ist [18]. Dies ergibt sich dadurch, dass der Kontrast von Text zu seinem Hintergrund typischerweise stark ausgeprägt ist und eine einheitliche Intensität innerhalb der einzelnen Buchstaben angenommen werden kann. Kombiniert mit den komplementären Eigenschaften des Canny Edge Detektors ermöglicht es uns der vorgeschlagene kantenverstärkte MSER (EMSER) Detektor auch unscharfe Bilder mit geringer Auflösung erfolgreich zu verarbeiten. Schriftzeichenkandidaten werden anhand von geometrischen Eigenschaften und einer schnellen Strichbreitentransformation gefiltert um die Anzahl der fehlerhaften Kandidaten zu minimieren. Tsai et al. [11] demonstrieren die Anwendung dieses Textlokalisierers auf einem mobilen Endgerät.
Weiterhin wurde MSER als einer der besten Merkmalsregionsdetektoren [19] identifiziert, der eine sehr geringe Extraktionszeit benötigt, wobei das Verfahren von Nistér und Stewénius in [20] eingesetzt wird (30 ms für 640×480 Pixel bei 3 GHz). Die Verwendung von MSER als Grundlage für die Textlokalisierung erlaubt zudem auf effiziente Weise die Kombination mit weiteren, komplementären Suchsystemen, da die extrahierten Merkmalsregionen von beiden Komponenten gemeinsam verarbeitet werden können.
In sind detektierte Schriftzeichen in roter Farbe aber das Originalbild gezeichnet. Da weder OCR noch Wörterbuch verwendet wurden, können auch gespiegelter Text (oberer Schriftzug in ) und falsche Kandidaten akzeptiert werden. Jedoch ist es wahrscheinlich, dass Regionen, die textähnliche geometrische Eigenschaften aufweisen und sich zugleich auf einer geraden Linie befinden, oft ebenfalls auf einer planaren Oberfläche liegen.
Als nächster Schritt werden Ellipsen um die detektierten Schriftzeichenregionen gepasst. Jede Ellipse und damit die jeweils eingeschlossene Textur wird zu einem Kreis transformiert, sodass der entsprechende Ausschnitt normalisiert und dadurch die Robustheit gegenüber affinen Deformationen gesteigert wird. Wie in gezeigt, wird die Größe einer Ellipse mit einem konstanten Faktor multipliziert um zusätzlichen Hintergrund einzuschließen, der sehr wahrscheinlich noch auf der selben Ebene liegt. Da die Form eines bestimmten Zeichnens an unterschiedlichen Orten auftreten kann, erhöht die Textur. des Hintergrundes die Unterscheidungskraft zusätzlich. Um die Erscheinung der Schriftzeichen zu beschreiben verwenden wir upright SURF-Deskriptoren [10] (USURF), die auf den jeweiligen Bildausschnitten berechnet werden, wobei die Orientierung relativ zu der detektierten Grundlinie des Schriftzuges bestimmt wird.
B. CBIR basierend auf visuellen Phrasen
Um effizient mit großen Datenbanken umzugehen, schlagen Sivic and Zisserman in [21] vor, das CBIR Problem in ein Textsuchproblem umzuformulieren, indem sie Merkmalsdeskriptoren mittels des k-means Algorithmus in so genannte visuelle Wörter quantisierten. Bei einer feinen Quantisierung entsprechen alle Deskriptoren, die einem visuellen Wort zugewiesen wurden, einem Muster, das ausreichend durch den Mittelwert repräsentiert wird. Ein paarweiser Vergleich der Anfrage- und Datenbankdeskriptoren kann vermieden werden, da diejenigen Bilder, die die gleichen visuellen Wörter beinhalten, effizient über eine invertierte Liste bestimmt werden können. Da diese Vorgehensweise die räumliche Aufteilung der Merkmale innerhalb eines Anfrage- bzw. Datenbankbildes während des Vergleichsvorgangs ignoriert, wird dieser Ansatz Bag-of-Visual-Words oder Bag-of-Features (BoF) genannt. Vor kurzem wurden einige Erweiterungen und Verbesserungen vorgeschlagen [12], [22] um die Zeit, die für das Quantisieren benötigt wird, zu reduzieren und die Robustheit gegenüber Deskriptorvariationen zu steigern. In [7] wurde gezeigt, dass der so genannte approximate k-means (AKM) [12], der Deskriptoren zu einem visuellen Word mittels approximativer Nachbarschaftssuche zuordnet, besonders robust über weite Baselines hinweg Bilder einander zuordnen kann. Zudem kann er flexibel hinsichtlich der Quantisierungszeit angepasst werden. In aktuellen BoF-basierten Ansätzen wird typischerweise ein Vokabular von ungefähr einer Million visuellen Wörtern eingesetzt, damit ausreichend Unterscheidungskraft pro Deskriptor erreicht wird um die Datenbankbilder zu unterscheiden, die wiederum jeweils durch ungefähr 1000 visuelle Wörter repräsentiert werden [12]. Aufgrund dieser enormen Größe des Vokabulars und der möglichen Variationen von zusammengehörigen Deskriptoren, werden lediglich ungefähr 10% der visuellen Wörter von zwei zusammengehörigen Bildern tatsächlich zugeordnet.
Anstatt alle Merkmale zu verwenden um Datenbankbilder zu unterscheiden (einschließlich häufiger Texturen wie Fenster oder Blattwerk), nutzen wir ausschließlich die charakteristischen Merkmale auf Schriftzügen, wovon in etwa 30 pro Bild für Aufnahmen in städtischen Gebieten oder im Inneren von Gebäuden zu finden sind. Dies erlaubt es uns, die Größe der Datenbank um bis zu zwei Größenordnungen zu reduzieren und ein Vokabular von lediglich etwa 600 visuellen Wörtern zu nutzen. Derart kleine Vokabulargrößen sind ausreichend, wenn visuelle Wörter in visuelle Phrasen kombiniert werden, wie im folgenden erklärt wird. Dadurch wird die Chance, dass zwei zusammengehörige Deskriptoren in dasselbe visuelle Wort quantisiert werden, deutlich gesteigert, wohingegen die Anforderungen an die Rechenleistung zur Quantisierung der Deskriptoren auf einem mobilen Endgerät drastisch reduziert werden. Der Deskriptor jeder Zeichenregion wird mit dem AKM [12] in ein visuelles Wort quantisiert. Dadurch wird jeder Schriftzug in einem natürlichen Bild in eine Kette von visuellen Wörtern transformiert und die Suche nach relevanten Bildern mittels visuellen Wörtern wird in eine Suche nach Bildern, die dieselben visuellen Phrasen beinhalten, überführt.
Die Unterscheidungskraft einer einzelnen visuellen Phrase wächst mit der Zahl S^N an möglichen Phrasen der gleichen Länge. Dabei entspricht S der Größe des Vokabulars und N der Anzahl der visuellen Wörter in einer Zeichenkette. Während auf der einen Seite die Unterscheidungskraft exponentiell mit der Länge der Zeichenkette anwächst, sinkt die Wahrscheinlichkeit, dass kein einziger Quantisierungsfehler (eine Quantisierung in ein falsches visuelles Wort) passiert, exponentiell mit der Länge (p_q ^N). Die Wahrscheinlichkeit einer korrekten Quantisierung von individuellen Merkmalen ist eine Funktion p_q(S) die mit der Größe des Vokabulars S sinkt. Während die Wahrscheinlichkeit einer korrekten Quantisierung p_q aufgrund der kleinen Vokabulare groß ist, müssen außerdem alle N Zeichen detektiert werden (p_d ^N) um eine exakte Zuordnung der visuellen Phrasen von Datenbank- und Anfragebild zu ermöglichen. Somit ist die Wahrscheinlichkeit, dass eine visuelle Phrase korrekt detektiert wurde und alle Zeichen korrekt quantisiert wurden wie folgt gegeben: p_c = p_d ^N·(p_q(S))^N (1)
Aufgrund der möglichen Fehler in der Detektion und im Quantisierungsprozess sind drei typische Fehlerarten bei der Zuordnung von visuellen Phrasen zu berücksichtigen. Eine Fehlpaarung (auch Substitution genannt) tritt auf, wenn ein Zeichen detektiert wurde, aber zu einem anderen visuellen Wort zugeordnet wurde. Einschübe oder Auslöschungen werden durch eine inkorrekte Textdetektion hervorgerufen. Abweichende Ergebnisse der Zeichendetektion zwischen der Anfrage und der Referenz können mehrere Ursachen haben: Unter anderem kann dies auf Verdeckungen durch Vordergrundobjekte oder dynamische Objekte, Defokusierung oder starkes Bewegungsrauschen oder die unvollständige Aufnahme einer Szene (Teilausschnitt) zurückgeführt werden.
Um diese Fehler zu bewältigen ist es notwendig, eine approximative Zuordnung durchzuführen. Da die Berechnung der Ähnlichkeit einer Zeichenkette ein fundamentales Problem einer ganzen Reihe von Anwendungen ist, wurden bereits zahlreiche Ansätze entwickelt, die entweder als editierungsbasiert oder merkmalsbasiert charakterisiert werden können. Erstere basieren auf der Berechnung der minimalen Anzahl an Editierungsoperationen, die die beiden Zeichenketten voneinander unterscheiden. Eine sehr weit verbreitete Technik ist die Berechnung der so genannten Levenshtein-Distanz, bei der die Substitution, Löschung und Einfügung eines Zeichens als gültige Operationen betrachtet werden [23]. Editierungsbasierte Methoden erfordern meistens dynamische Programmierung, welche sehr zeitaufwendig ist und nur schwer durch Vorverarbeitungsschritte beschleunigt werden kann [24].
Merkmalsbasierte Ansätze hingegen messen die Menge der Übereinstimmungen von zwei Zeichenketten. Merkmale können dabei Wörter, Phrasen oder N-Gramme (Teilzeichenketten der Länge N [25], [26]) sein. Während Wörter oder Phrasen eine natürliche Wahl darstellen, bieten die weitverbreiteten N-Gramme eine erhöhte Flexibilität, da sie sprachunabhängig sind [27], was für Anwendungen, bei denen kein klar definiertes Konzept eines Wortes existiert, essentiell wichtig ist. Merkmalsbasierte Ansätze messen die Anzahl der (exakt) passenden Merkmale zwischen zwei Zeichenketten und sind aufgrund ihrer diskreten Natur für mengentheoretische Ähnlichkeitsmaße sehr geeignet, die typischerweise effizient berechnet werden können. Beispiele sind der Jaccard-Koeffizient, Dice's Koeffizient, der Überlappung-Koeffizient (auch Simpson-Koeffizient), und die Cosinus-Ähnlichkeit [28]. Da die Aufteilung einer Zeichenkette in Merkmale nicht von den Anfragen abhängt, kann ein Großteil der Berechnungen bereits im Vorfeld durchgeführt werden. Weiterhin ist der eigentliche Vergleichsschritt von einem approximativen auf einen exaktes Verfahren zurückgeführt worden, für das optimale Suchstrukturen, die eine konstante Komplexität ermöglichen, existieren. Besonders, wenn die Menge der Merkmale, die die Anfrage repräsentieren, im Vergleich zu allen möglichen Merkmalen sehr klein ist, erreicht eine invertierte Liste eine wesentliche Reduzierung der Suchkomplexität und somit unübertroffene Geschwindigkeit.
Daher repräsentieren wir eine Kette von visuellen Wörtern, wie in dargestellt, durch ihre entsprechenden N-Gramme (Bi-Gramme in diesem Beispiel). Für jedes der N-Gramme existieren in der invertierten Liste Referenzen zu allen Bildern, in denen sie vorkommen. Bei einem Vokabular von 500 visuellen Wörtern und Tri-Grammen als visuelle Phrasen umfasst die Menge der unterscheidbaren Merkmale insgesamt 125 Millionen visuelle Phrasen. Dies ist erheblich mehr als die 1 Million visuelle Wörter in aktuellen BoF-basierten Ansätzen.
Der Ähnlichkeitswert für Bilder, auf die die visuellen Phrasen. des Anfragebilds referenzieren, wird inkrementell mittels des Dice-Koeffizienten, s_D, wie in Gleichung 2 dargestellt berechnet. Die Anzahl der übereinstimmenden N-Gramme, M, wird durch die Summe der N-Gramme, N_q, die in dem Anfragebild, und derer, die im Referenzbild vorkommen, N_r, normalisiert. Dies erlaubt es uns Daten zu verarbeiten, in denen die Anzahl der Schriftzüge deutlich zwischen den einzelnen Datenbankbildern variiert.
C. Informationsgehalt der N-Gramme
Da wir Zeichenketten durch ihre Teilzeichenketten, also durch N-Gramme, repräsentieren, sind wir an einer optimalen Länge N und Größe S des verwendeten visuellen Vokabulars interessiert. Um eine aufwendige experimentelle Schätzung dieser Parameter zu vermeiden, benötigen wir ein Maß, das die Leistung des Gesamtsystems bei einer bestimmten Parameterkonfiguration schätzt. Der Vergleich zwischen einem Anfrage und einem Referenzbild wird als Kommunikationskanal modelliert, wobei die Quantisierungs- und Detektionsprozesse Fehler einfügen. Die Transinformation, dargestellt in Gleichung 3, beschreibt die Stärke des statistischen Zusammenhangs der visuellen Phrasen in zusammengehörigen Anfrage- und Referenzbildern. Um die bestmögliche Systemleistung zu erreichen, sollte dieser Zusammenhang und somit die Transinformation maximiert werden. I_VP = p_c·log₂(p_c·S^N) + (1 – p_c)·log₂(1 – p_c) (3)
Entsprechend Gleichung 3 ist die erwartete Information eines detektierten N-Gramms durch die Unterscheidungskraft, also die Anzahl der möglichen Phrasen (S^N) und die Wahrscheinlichkeit p_c, dass eine visuelle Phrase korrekt quantisiert und detektiert wurde (siehe Gleichung 1), gegeben. Während die Unterscheidungskraft mit der Größe des Vokabulars S und der Länge N der N-Gramme erhöht wird, sinkt die Wahrscheinlichkeit einer korrekten Quantisierung wie in Gleichung. 1 gezeigt. Weiterhin muss nicht nur die Information der einzelnen N-Gramme berücksichtigt werden um die optimale Länge N zu bestimmen, sondern es muss auch die durchschnittliche Anzahl der verfügbaren N-Gramme pro Bild einbezogen werden. Natürlich beinhaltet nicht jedes Bild ein N-Gramm, zum Beispiel der Länge 10, wie in gezeigt wird. Dieses normalisierte N-Gramm Häufigkeitshistogramm wurde anhand von Bildaufnahmen in der Münchner Innenstadt erstellt (in sind Beispielbilder zu sehen), die im Detail in Kapitel III erklärt werden. Um die durchschnittliche Information pro Bild zu bestimmen muss die Information pro N-Gramm mit der erwarteten Anzahl an N-Grammen einer bestimmten Länge gewichtet werden. Um optimale Werte für S und N zu finden ist ein Modell der korrekten Quantisierungswahrscheinlichkeit p_q(S) notwendig. Bisher wird in unserem Ansatz nur ein einfaches Modell p_q(S) = α/(S – β) angewendet, wobei die Parameter α and β anhand von Trainingsdaten bestimmt werden müssen. Komplexere Modelle könnten anhand einer großen Datenbank mit entsprechender Ground Truth erstellt werden.
D. Kombinierte N-Gramme
Auf der anderen Seite ist es tatsächlich nicht notwendig den Ansatz auf eine bestimmte N-Gramm Länge zu begrenzen. Vielmehr sollten mehrere N-Gramme miteinander kombiniert werden um möglichst viel Information auszunutzen. Während kurze visuelle Wörter wie zum Beispiel Uni-Gramme und Bi-Gramme zu einem hohen Recall führen (es werden die meisten der relevanten Dokumente in den Top-Ergebnissen gelistet) kann es vorkommen, dass die Präzision gering ist, da auch nicht relevante Dokumente die Merkmale des Anfragebilds beinhalten. Dies ist typischerweise in großen Datenbanken der Fall, bei denen die Unterscheidungskraft einzelner Merkmale eventuell unzureichend ist. N-Gramme von größerer Länge werden dagegen weniger wahrscheinlich korrekt detektiert und resultieren daher in einem niedrigeren Recall, aber ermöglichen eine höhere Präzision aufgrund ihrer erhöhten Unterscheidungskraft. Die Kombination dieser komplementären Eigenschaften kann zu einer erhöhten Leistung bei großen Datenbanken führen.
Die Beiträge jedes einzelnen N-Gramm Typs sollten entsprechend der aus ihnen zu erwartenden Information gewichtet werden. Dies wird erreicht, indem die Transinformation (siehe Gleichung 3) gewichtet mit der erwarteten Anzahl der jeweiligen N-Gramme verwendet wird. Die Gewichtung ist, wie in Gleichung 4 gezeigt, in den Dice's-Koeffizient integriert, was uns einen kombinierten Score s_w über mehrere N-Gramm Typen zur Verfügung stellt. Der Score wird inkrementell mittels einer invertierten Liste berechnet, die die verwendeten N-Gramme beinhaltet.
In einer Erweiterung des bis jetzt beschriebenen Verfahrens besteht in der Verwendung von sogenannten „Gapped N-Grammen”, bei denen Teile der Zeichenkette ausgelassen oder übersprungen werden, um die Robustheit gegenüber vereinzelten Fehler zu verbessern. Es wird in [29] berichtet, dass sich damit der approximative Vergleich von Zeichenketten steigern lässt was sich auch für das in der Erfindung beschriebene System vorteilhaft auswirkt.
III. EXPERIMENTELLE ERGEBNISSE
Um die Erfindung hinsichtlich großer Datenbanken zu evaluieren wurde das Verfahren auch auf ein Produkterkennungsproblem angewendet, bei dem die ID eines Buches basierend auf einem Bild der Titelseite erkannt werden muss. Das Datenset, das von Amazon zur Verfügung gestellt wurde, umfasst 203000 Buchtitelseiten in einer Auflösung von 500×500 Pixeln und erkennbaren Kompressionsartefakten. 60 Anfragebilder wurden aus unterschiedlichen Blickwinkeln (0° bis 60° zur Ebenennormalen) aufgenommen. Lichtreflektionen und leichte Bewegungsunschärfe erschweren die Erkennung wie in gezeigt wird. zeigt die so genannten Mean Average Precision (MAP) Scores der einzelnen N-Gramme für variierende Vokabulargrößen S. Die Leistung der Uni-Gramme erreicht ihren Maximalwert bei einem MAP von 0.83 unter Verwendung eines Vokabulars mit 100000 visuellen Wörtern. Diese Konfiguration ist in etwa äquivalent zu einem normalen BoF-basierten Ansatz, da auf den Buchtitelseiten fast ausschließlich textbezogene Merkmale gefunden werden können. Aufgrund der Größe des Datensets und somit der Varianz der Zeichen profitieren Uni-Gramme von großen Vokabularen. Jedoch werden Uni-Gramme deutlich durch Bi-Gramme übertroffen, die einen Beeindruckenden MAP Score von 0.97 bei einem Vokabular von lediglich 400 visuellen Wörtern erreichen.
Die Ergebnisse weiterer Experimente auf dem Google Street View Datensatz in Pittsburgh in einer Region von 4 km² (vgl. ) und dem in dargestellten Datensatz in München bestehend aus 7000 Aufnahmen entlang einer Strecke von 5 km sind in den , und zu finden.
Aus den Experimentellen Ergebnissen geht hervor, dass der vorgestellte Ansatz es erlaubt, die Zeit zur Merkmalsquantisierung durch die Verwendung deutlich kleinerer Vokabulare erheblich zu reduzieren. Weiterhin werden deutlich weniger Merkmale benötigt um ein Bild zu repräsentieren, was somit auch die Größe der invertierten Liste wesentlich reduziert. Somit bietet dieser Ansatz eine ganze Reihe an vorteilhaften Eigenschaften für eine Vielzahl von bilderkennungsbasierten Anwendungen. Da die Größe der invertierten Liste linear mit der Anzahl der Merkmale in der Datenbank skaliert, können die Anforderungen an den Speicher erheblich reduziert werden, was von großem Interesse bei umfangreichen Produkterkennungsaufgaben ist. In mobilen Anwendungen kann die Quantisierung von Merkmalen in visuelle Wörter in Echtzeit auf dem Gerät aufgrund der kleinen Vokabulare durchgeführt werden. Weiterhin werden Übertragungsverzögerungen reduziert, da wesentlich weniger Merkmale zu dem Server übertragen werden müssen.
IV. ZUSAMMENFASSUNG
In diesem Dokument haben wir einen neuartigen Ansatz vorgestellt, der textbezogene Merkmale für Bilderkennungsanwendungen nutzt. Im Gegensatz zu OCR-basierten Suchsystemen lokalisieren wir lediglich Schriftzüge, anstelle zusätzlich explizit Buchstaben zu erkennen. Dies erlaubt uns deutlich robuster gegenüber Aufnahmen mit niedriger Auflösung und hoher Unschärfe zu sein. Die Textlokalisierung wird dabei mittels des kürzlich vorgestellten EMSER [18] Algorithmus durchgeführt, wobei der zeitaufwendigste Teil, die Detektion von MSER Merkmalsregionen (30 ms für 640×480 bei 3 Ghz), ohnehin Teil von aktuellen Bildsuchsystemen ist. Zeichen werden mittels eines robusten lokalen Merkmalsdesktriptors wie zum Beispiel SURF [10] beschrieben und in so genannte visuelle Wörter quantisiert (zum Beispiel mit einem approximativen k-means Algorithmus). Im Gegensatz zu einem Alphabet von etwa 30 Zeichen in OCR basierten Ansätzen, differenzieren wird zwischen etwa 600 visuellen Wörtern, indem wir das Erscheinungsbild der einzelnen Zeichen (zum Beispiel die Schriftart) sowie einen Teil des Hintergrunds berücksichtigen.
Zeichen innerhalb eines Schriftzugs werden zu N-Grammen kombiniert um die geometrischen Zusammenhänge auszunutzen und gleichzeitig robust gegenüber Lokalisierungs- und Quantisierungsfehlern zu sein. Der approximative Vergleich von Zeichenketten wird effizient mittels einer invertierten Liste erreicht. Die Schätzung der durchschnittlichen Information eines spezifischen N-Gramms erlaubt es uns die optimale Länge N zu wählen und auch verschiedene N-Gramm Typen miteinander zu kombinieren um deren komplementäre Eigenschaften auszunutzen und somit die gesamte Systemleistung zu erhöhen.
Im Vergleich zu aktuellen BoF basierten Systemen reduzieren wir die Anzahl der erforderlichen Merkmale, die Größe des visuellen Vokabulars und somit die Gesamtanforderungen der Datenbank an den Speicher um zwei Größenordnungen. Aufgrund der erhöhten Unterscheidungskraft der N-Gramme erreichen wir gleichzeitig eine erhöhte Erkennungsleistung insbesondere bei großen Datenbanken. Die abstrakte textbasierte Auswahl der Merkmale ermöglicht es uns die Anzahl der Merkmale auf störenden Objekten (zum Beispiel Blattwerk) und dynamischen Objekten zu reduzieren (siehe ). Trotz der dynamischen Objekte, der komplexen dreidimensionalen Szene und der großen Baseline werden die Bilder a bis c in zuverlässig mittels des vorgeschlagenen Bildsuchsystems einander zugeordnet. Lokalisierte Zeichen werden in der Abbildung durch gelbe Ellipsen hervorgehoben.
Der Ansatz kann sehr einfach mit bisherigen BoF-basierten Systemen kombiniert werden um Datensätze zu verarbeiten, in denen nur sehr wenig oder gar kein Text vorhanden ist, da dieselben Merkmale (MSER) und Deskriptoren (SURF) von beiden Verfahren genutzt werden können. Auch die Quantisierungsstruktur kann von beiden Systemen geteilt werden, indem eine baumartige Quantisierung vorgenommen wird. Dabei werden zunächst grobe Vorquantisierungsschritte durchgeführt, die für den Aufbau der jeweiligen N-Gramm Typen verwendet werden (grobe Quantisierung für N-Gramme mit hohem N, niedrige Quantisierung bei N-Grammen mit niedrigem N). Die feinste Quantisierungsstufe würde dann für Uni-Gramme eingesetzt, bei denen somit beliebige Merkmale (wie bei klassischem BoF) eingesetzt werden können.
Auch die Detektion planarer Strukturen, um die lokalen geometrischen Eigenschaften via N-Gramme auszunutzen, kann durch alternative Methoden erreicht werden. Ein möglicher Ansatz ist die Detektion planarer Bereiche über kollineare Merkmale, die typischerweise auf Gebäuden und die Gängen gefunden werden können wie in [30] beschrieben wird. Ebenso können Ebenen anhand von MSER Regionen, also Regionen mit annähernd homogener Intensität, Farbe oder Tiefengradienten detektiert werden. In Gebäuden und insbesondere in Gängen liegen eine Großzahl örtlich benachbarter Merkmale in der Regel auf einer Ebene. Daher ist es oft ausreichend, Merkmale innerhalb eines gegebenen Radius anhand der Entfernung oder zweier orthogonaler Achsen zu sortieren und in N-Gramme zu kombinieren.
Da das Verfahren die Anordnung der einzelnen N-Gramme innerhalb eines Schriftzugs bislang ignoriert, wird vorgeschlagen in einem Nachverarbeitungsschritt die Editdistanz (Levenshtein-Distanz) zwischen den detektierten N-Grammen (in der vorgefundenen Reihenfolge) im Anfrage- und Referenzbild zu berechnen. Dies würde ein effektives und schnelles Neusortieren der Ergebnisliste ermöglichen.
Die Beschreibung von Zeichen durch lokale Merkmalsdeskriptoren und deren Quantisierung in visuelle Wörter kann auch zur Erkennung der Zeichen als Buchstaben eines Alphabets genutzt werden (Optical Character Recognition). Dabei ist es notwendig, ein visuelles Vokabular auf bekannten Textsequenzen zu trainieren. Detektierte Zeichen werden durch lokale Merkmalsdeskriptoren wie SIFT oder SURF beschrieben. Basierend auf diesen Deskriptoren wird ein visuelles Vokabular trainiert (zum Beispiel mittels eines k-means Quantisierers). Visuelle Wörter referenzieren nun in Form einer invertierten Liste auf Buchstaben deren Deskriptor in eben dieses visuelle Wort quantisiert wurde. Da Buchstaben verschiedene Zeichendarstellungen (Schriftarten etc.) besitzen, können mehrere visuelle Wörter auf den selben Buchstaben verweisen und wiederum ein visuelles Wort kann auf mehrere Buchstaben verweisen. Die Wahrscheinlichkeit der einzelnen Buchstabenhypothesen lässt sich für jedes visuelle Wort bestimmen indem die Anzahl der Buchstaben einer Trainingssequenz die in ein visuelles Wort quantisiert wurden gezählt werden. Die relative Verteilung entspricht der Wahrscheinlichkeit, dass ein visuelles Wort einen bestimmten Buchstaben repräsentiert. Soll nun eine Schriftzug erkannt werden, ist nach der Detektion der Zeichen, deren Beschreibung als Deskriptoren und wiederum deren Quantisierung in visuelle Wörter eine Kette an möglichen Buchstaben für jedes detektierte Zeichen bestimmt worden. Anhand von Wörterbüchern und probabilistischer Verfahren (Markov-Ketten) können nun Wörter anhand der Buchstabenhypothesen bestimmt werden.
LITERATUR

[1] B. Girod, V. Chandrasekhar, D. M. Chef, N. M. Cheung, R. Grzeszczuk, Y. Reznik, G. Takacs, S. S. Tsai, and R. Vedantham, "Mobile Visual Search," in IEEE Signal Processing Magazine; Special Issue on Mobile Media Search, vol. 28, pp. 61–76, July 2011.
[2] "Google Goggles." http://www.google.com/mobile/goggles.
[3] "Snaptell:" http://www.snaptell.com.
[4] "Foursquare" http://foursquare.com/.
[5] "Google Street View" http://maps.google.com/streetview.
[6] "Microsoft Street-Side views" http://www.bing.com/maps/.
[7] G. Schroth, R. Huitl, D. Chef, A. Al-Nuaimi, and E. Steinbach, "Mobile Visual Location Recognition," in IEEE Signal Processing Magazine; Special Issue on Mobile Media Search, vol. 28, pp. 77–89, July 2011.
[8] R. Smith, "An overview of the Tesseract OCR engine," in Int. Conf. on Document Analysis and Recognition, (Brazil), September 2007.
[9] D. Lowe, "Distinctive image features from scale-invariant keypoints," Int. Journal of Corp. Vision, vol. 60, pp. 91–110, January 2004.
[10] H. Bay, T. Tuytelaars, and L. Van Gool, "Surf: Speeded up robust features," Lecture Notes in Corp. Science, pp. 404–417, May 2006.
[11] S. S. Tsai, H. Chef, D. M. Chef, G. Schroth, R. Grzeszczuk, and B. Girod, "Mobile visual search on papers using text and low bit-rate features," in Int. Conf. on Image Processing, (Brussels), September 2011.
[12] J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman, "Object retrieval with large vocabularies and fast spatial matching," in Int. Conf. Corp. Vision Pattern Recognition, (Minneapolis), June 2007.
[13] S. Tsai, D. Chef, G. Takacs, V. Chandrasekhar, R. Vedantham, R. Grzeszczuk, and B. Girod, "Fast geometric re-ranking for image-based retrieval," in Int. Conf. on Image Processing, (Hong Kong), September 2010.
[14] Y. Cao, C. Wang, Z. Li, L. Zhang, and L. Zhang, "Spatial-Bag-of-Features," in IEEE Int. Conf. on Corp. Vision and Pattern Recognition, (San Francisco), June 2010.
[15] S. Lazebnik, C. Schmid, and J. Ponce, "Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories," in Int. Conf. Corp. Vision Pattern Recognition, (New York), June 2006.
[16] Z. Wu, Q. Ke, M. Isard, and J. Sun, "Bundling features for large scale partial-duplicate web image search," in Int. Conf. on Computer Vision and Pattern Recognition, pp. 25–32, 2009.
[17] J. Matas, O. Chum, M. Urban, and T. Pajdla, "Robust wide-baseline stereo from maximally stable extremal regions," Image and Vision Computing, vol. 22, pp. 761–767, September 2004.
[18] H. Chef, S. Tsai, G. Schroth, D. Chef, R. Grzeszczuk, and B. Girod, "Robust Text Detection in Natural Images with Edge-Enhanced Maximally Stable Extremal Regions," in Int. Conf. on Image Processing, (Brussels), September 2011.
[19] K. Mikolajczyk and C. Schmid, "Scale & affine invariant interest point detectors," Int. Journal of Corp. Vision, vol. 60, pp. 63–86, January 2004.
[20] D. Nistér and H. Stewénius, "Linear Time Maximally Stable Extremal Regions," Lecture Notes In Corp. Science, vol. 5303, pp. 183–196, October 2008.
[21] J. Sivic and A. Zisserman, "Video Google: A text retrieval approach to object matching in videos," in Int. Conf. on Corp. Vision, (Nice), October 2003.
[22] G. Schroth, A. Al-Nuaimi, R. Huitl, F. Schweiger, and E. Steinbach, "Rapid Image Retrieval for Mobile Location Recognition," in IEEE Conf. on Acoustics, Speech and Signal Processing, (Prague), May 2011.
[23] V. Levenshtein, "Binary codes capable of correcting deletions, insertions, and reversals," Soviet Physics Doklady, vol. 10, no. 8, pp. 707–710, 1966.
[24] E. Ukkonen, "Approximate string-matching with q-grams and maximal matches," Theoretical Computer Science, vol. 92, pp. 191–211, 1992.
[25] C. E. Shannon, "A mathematical theory of communication," The Bell system technical journal, vol. 27, pp. 379–423, 1948.
[26] J. R. Ullmann, "A binary n-gram technique for automatic correction of substitution, deletion, insertion and reversal errors in words," The Computer Journal, vol. 20, pp. 141–147, 1977.
[27] G. Navarro, E. Sutinen, and J. Tarhio, "Indexing text with approximate q-grams," Journal of Discrete Algorithms, vol. 3, pp. 157–175, 2005.
[28] K. Rieck and P. Laskov, "Linear-Time Computation of Similarity Measures for Sequential Data," Journal of Machine Learning Research, vol. 9, pp. 23–48, 2008.
[29] S. Burkhardt and J. Kärkkäinen, "Better Filtering with Gapped-q-Grams," Fundamenta Informaticae, vol. 23, pp. 1001–1018, 2003.
[30] S. Chaudhuri and V. Namboodiri, "Retrieval of images of man-made structures based on projective invariance," Pattern Recognition, vol. 40, no. 1, pp. 296–308, 2007.

ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

Tsai et al. [0008]
Wu et al. [0010]
Tsai et al. [0012]

Claims

Ein Verfahren zur Suche von visuell ähnlichen Bildern in einer Sammlung von Referenzbildern, gekennzeichnet durch a. die Extraktion von visuellen Merkmalen innerhalb eines Bildes; b. die Quantisierung dieser Merkmale in so genannte visuelle Wörter; c. die Bildung von N-Grammen oder „gapped N-Grammen” aus visuellen Wörtern basierend auf der geometrischen Anordnung der visuellen Wörter in dem Bild oder der Szene; d. die Verwendung einer invertierten Dateistruktur um diejenigen Bilder zu identifizieren, die identische N-Gramme oder „gapped N-Gramme” beinhalten; e. die Bestimmung der Ähnlichkeit zweier Bilder als Funktion der Anzahl der übereinstimmenden N-Gramme oder „gapped N-Gramme”.
Das Verfahren nach Anspruch 1, gekennzeichnet durch die Bildung von N-Grammen basierend auf der Koplanarität der Merkmale gekennzeichnet durch die Detektion planarer Strukturen über kollineare Merkmale und/oder durch Regionen annähernd homogener Intensität und/oder Farbe und/oder homogenem Tiefengradient.
Das Verfahren nach einem der vorigen Ansprüche, gekennzeichnet durch die Bildung von N-Grammen basierend auf der Identifikation der Merkmale als Teil von Zeichenketten im Bild und der daraus resultierenden Reihenfolge der erkannten Zeichen/Merkmale.
Das Verfahren nach einem der vorigen Ansprüche, gekennzeichnet durch die gewichtete Kombination von mehreren N-Gramm Konfigurationen mit unterschiedlichen Längen N und Vokabulargrößen S.
Das Verfahren nach Anspruch 4, gekennzeichnet durch die Gewichtung entsprechend der Transinformation der jeweiligen N-Gram Konfigurationen.
Das Verfahren nach einem der vorigen Ansprüche, gekennzeichnet durch die anschließende Verifikation der mittels des Verfahrens aus einem der vorigen Ansprüche als am visuell ähnlichsten bestimmten Bilder durch den Vergleich der Anordnung der N-Gramme oder „gapped N-Gramme” in dem Anfrage- bzw. dem Referenzbild.
Ein Verfahren zur Erkennung von Buchstaben in Bildern, gekennzeichnet durch a. die Detektion und Lokalisierung von Zeichen in einem Bild; b. die Beschreibung der detektierten Zeichen durch lokale Merkmalsdeskriptoren; c. die Quantisierung der Merkmalsdeskriptoren in ein zuvor bestimmtes visuelles Vokabular, in dem visuelle Wörter auf ein oder mehrere Buchstaben eines Alphabetes verweisen, wobei jedem der Verweise ein Gewicht zugeordnet ist.
Das Verfahren nach Anspruch 7, dadurch gekennzeichnet, dass das visuelle Vokabular mit Merkmalsdeskriptoren Von zuvor bekannten Buchstaben, die aus einer Vielzahl von Bildern extrahiert werden, trainiert wird und die resultierenden, trainierten visuellen Wörter auf die Buchstaben verweisen, in die der entsprechende Merkmalsdeskriptor quantisiert wird.
Das Verfahren nach einem der vorigen Ansprüche, gekennzeichnet durch die Gewichtung der Verweise aus Anspruch 1 entsprechend der Wahrscheinlichkeit, dass ein visuelles Wort einem Buchstaben eines Alphabets entspricht.
Das Verfahren nach Anspruch 9, gekennzeichnet durch die Bestimmung der Wahrscheinlichkeit anhand der Häufigkeit, dass ein Merkmalsdeskriptor des Trainingsdatensatzes eines bestimmten Buchstabens in ein visuelles Wort quantisiert wird.
Das Verfahren nach einem der vorigen Ansprüche, gekennzeichnet durch die Erkennung von Wörtern basierend auf den in dem Verfahren nach einem der vorigen Ansprüche bestimmten Buchstabenhypothesen und der Verwendung von Wörterbüchern und/oder wahrscheinlichkeitstheoretischer Verfahren.