EP1739593B1

EP1739593B1 - Verfahren und Anordnung zur generischen visuellen Kategorisierung

Info

Publication number: EP1739593B1
Application number: EP06115147A
Authority: EP
Inventors: Florent Perronnin
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2005-06-30
Filing date: 2006-06-08
Publication date: 2008-08-27
Anticipated expiration: 2026-06-08
Also published as: US7756341B2; US20070005356A1; DE602006002434D1; EP1739593A1

Claims

Verfahren zum Zuordnen einer aus einer Mehrzahl von Klassen (618) zu einem eingegebenen Bild (402, 602), umfassend folgende Schritte:
Identifizieren (504) einer Mehrzahl von Schlüssel-Teilbereichen (604) in dem eingegebenen Bild (402, 602);

Berechnen (506) eines Merkmalvektors (606) für jeden der Mehrzahl von Schlüssel-Teilbereichen (604);

Berechnen (508) eines Histogramms (608); und

Zuordnen (512) wenigstens einer der Mehrzahl von Klassen (618) zu dem eingegebenen Bild (402, 602);

gekennzeichnet durch

Definieren (206) eines allgemeinen visuellen Vokabulars (304, 616), wobei das allgemeine visuelle Vokabular (304, 616) einen Satz visueller Wörter (G₁ ^g, G₂ ^g, G₃ ^g) einschließt, wobei jedes der visuellen Wörter (G₁ ^g, G₂ ^g, G₃ ^g) einer Komponentenwahrscheinlichkeitsdichtefunktion eines gemischten statistischen Modells zum Modellieren von Merkmalsvektoren (606) von Bildern entspricht;

Definieren (208) eines angepassten visuellen Vokabulars (306A, 306B, 614) für jede der Mehrzahl von Klassen (618), basierend auf dem allgemeinen visuellen Vokabular (304, 616) und auf Merkmalsvektoren (107) von Beispielbildern (105) der jeweilige Klasse;

Definieren (210) einer Klassenvokabulars (308A, 308B) für jeder der Mehrzahl von Klassen (618), durch Vereinigen des allgemeinen visuellen Vokabulars (304, 616) und des angepassten visuellen Vokabulars (306A, 306B, 614) für die jeweilige Klasse, so dass jedes Klassenvokabular (308A, 308B) eine Verkettung des allgemeinen visuellen Vokabulars (304, 616) und des jeweiligen angepassten visuellen Vokabulars (306A, 306B, 614) ist, und dadurch, dass

der Schritt des Berechnens (508) eines Histogramms (608) für jede der Mehrzahl von Klassen (618) ausgeführt wird, indem Besetzungswahrscheinlichkeiten der Merkmalsvektoren (606) des eingegebenen Bildes (402, 602) für das jeweilige Klassenvokabular (308A, 308B) abgeschätzt werden; und

der Schritt des Zuordnens (512) wenigstens einer der Mehrzahl von Klassen (618) unter Verwendung der Mehrzahl von berechneten Histogrammen (608) als Eingabe in einen Klassifizierer (410) ausgeführt wird.
Verfahren nach Anspruch 1, wobei das für jede der Mehrzahl von Klassen (618) berechnete Histogramm (608) anzeigt, ob das eingegebene Bild (402, 602) besser durch das allgemeine visuelle Vokabular (304, 616) oder das angepasste visuelle Vokabular (306A, 306B, 614) seiner entsprechenden Klasse (618) beschrieben wird.
Verfahren nach Anspruch 2, weiterhin umfassend:
Berechnen (202) von Schlüssel-Teilbereichen in Bildern (105) von Klassentrainingssätzen (102), wobei jeder der Klassentrainingssätze (102) eines oder mehrere Beispielbilder (105) der jeweiligen Klasse enthält;

Berechnen (204) von Merkmalsvektoren (107) für Schlüssel-Teilbereiche der Bilder (105) der Klassentrainingssätze (102);

wobei der Schritt des Definierens (206) eines allgemeinen visuellen Vokabulars (304, 616) den Schritt des Berechnens des allgemeinen visuellen Vokabulars (304, 616) durch Gruppieren von Merkmalsvektoren (107) der Bilder (105) der Klassentrainingssätze (102) einschließt; und

wobei der Schritt des Definierens (208) eines angepassten visuellen Vokabulars (306A, 306B, 614) für jede Klasse (618) den Schritt des Berechnens des angepassten visuellen Vokabulars (306A, 306B, 614) für die jeweilige Klasse durch Abschätzen von Besetzungswahrscheinlichkeiten der Merkmalsvektoren (107) der Bilder (105) ihres Klassentrainingssatzes (102) einschließt.
Verfahren nach Anspruch 3, weiterhin umfassend Trainieren (214) des Klassifizierers (410) mit Histogrammen (109A, 109B, 109C), die für jede Klasse (618) durch Abschätzen von Besetzungswahrscheinlichkeiten der Merkmalsvektoren (107) von Bildern (105) des Klassentrainingssatzes (102) für jedes Klassenvokabular (308A, 308B) berechnet worden sind.
Vorrichtung zum Zuordnen einer aus einer Mehrzahl von Klassen (618) zu einem eingegebenen Bild (402, 602), wobei die Vorrichtung umfasst:
einen Schlüssel-Teilbereichsdetektor (104) zum Identifizieren einer Mehrzahl von Schlüssel-Teilbereichen (604) in dem eingegebenen Bild (402, 602);

ein Merkmals-Beschreibungsmodul (106) zum Berechnen eines Merkmalsvektors (606) für jeden der Mehrzahl von Schlüssel-Teilbereichen (604); und

einen Klassifizierer (410) zum Zuordnen wenigstens einer der Mehrzahl von Klassen (618) zu dem eingegebenen Bild (402, 602);

gekennzeichnet durch

ein allgemeines visuelles Vokabular-Erzeugungsmodul zum Definieren eines allgemeinen visuellen Vokabulars (304, 616), wobei das allgemeine visuelle Vokabular (304, 616) einen Satz visueller Wörter (G₁ ^g, G₂ ^g, G₃ ^g) einschließt, wobei jedes der visuellen Wörter (G₁ ^g, G₂ ^g, G₃ ^g) einer Komponentenwahrscheinlichkeitsdichtefunktion eines gemischten statistischen Modells zum Modellieren von Merkmalsvektoren (606) von Bildern entspricht;

ein angepasstes visuelles Vokabular-Erzeugungsmodul zum Definieren eines angepassten visuellen Vokabulars (306A, 306B, 614) für jede der Mehrzahl von Klassen (618), basierend auf dem allgemeinen visuellen Vokabular (304, 616) und von Merkmalsvektoren (107) von Beispielbildern (105) der jeweiligen Klasse;

ein Vokabular-Vereinigungsmodul zum Definieren eines Klassenvokabulars (308A, 308B) für jede der Mehrzahl von Klassen (618) durch Vereinigen des allgemeinen visuellen Vokabulars (314, 616) und des angepassten visuellen Vokabulars (306A, 306B, 614) für die jeweilige Klasse, so dass jedes Klassenvokabular (308A, 308B) eine Verkettung des allgemeinen visuellen Vokabulars (304, 616) und des jeweiligen angepassten visuellen Vokabulars (306A, 306B, 614) ist;

ein Muiti-Histogramm-Berechnungsmodul (108) zum Berechnen eines Histogramms (608) für jede der Mehrzahl von Klassen (618) durch Abschätzen von Besetzungswahrscheinlichkeiten der Merkmalsvektoren (606) des eingegebenen Bildes (402, 602) für das jeweilige Klassenvokabular (308A, 308B), und dadurch, dass

der Klassifizierer (410) eingerichtet ist, die Mehrzahl von berechneten Histogrammen (608) als Eingabe in den Klassifizierer (410) zu verwenden, um wenigstens eine der Mehrzahl von Klassen (618) zuzuordnen.
Verfahren zum Trainieren eines Klassifizierers (410), umfassend folgende Schritte:
Identifizieren (202) von Schlüssel-Teilbereichen in Bildern (105) einer Mehrzahl von Klassentrainingssätzen (102), wobei jeder der Klassentrainingssätze (102) eines oder mehrere Beispielbilder (105) einer jeweiligen Klasse einschließt;

Berechnen (204) von Merkmalsvektoren (107) für die identifizierten Schlüssel-Teilbereiche;

Berechnen (206) eines allgemeinen visuellen Vokabulars (304, 616) durch Gruppieren der berechneten Merkmalsvektoren (107), wobei das allgemeine visuelle Vokabular (304, 616) einen Satz von visuellen Wörtern (G₁ ^g, G₂ ^g, G₃ ^g) einschließt, wobei jedes der visuellen Wörter (G₁ ^g, G₂ ^g, G₃ ^g) einer Komponentenwahrscheinlichkeitsdichtefunktion eines gemischten statistischen Modells zum Modellieren von Merkmalsvektoren (107, 606) von Bildern (105, 402) entspricht;

Berechnen (208) eines angepassten visuellen Vokabulars (306A, 306B, 614) für jede der Mehrzahl von Klassen (618) unter Verwendung das allgemeinen visuellen Vokabulars (304, 616) und der Merkmalsvektoren (107) der Bilder (105) des jeweiligen Klassentrainingssatzes (102);

Berechnen (212) eines Histogramms (109A, 109B, 109C) für jede der Mehrzahl von Klassen (618) durch Abschätzen von Besetzungswahrscheinlichkeiten von Merkmalsvektoren (107) von Bildern (105) des jeweiligen Klassentrainingssatzes (102); und

Trainieren (214) des Klassifizierers (410) unter Verwendung der Histogramme (109A, 109B, 109C) für jede der Mehrzahl von Klassen (618).
Verfahren nach Anspruch 6, weiterhin umfassend das Kategorisieren eines eingegebenen Bildes (402, 602) mit dem Bildklassifizierer (410) und
wobei das Kategorisieren weiterhin umfasst:
Identifizieren (504) einer Mehrzahl von Schlüssel-Teilbereiche (604) in dem eingegebenen Bild (402, 602);

Berechnen (506) eines Merkmalsvektors (606) für jeden der Mehrzahl von Schlüssel-Teilbereichen (604);

Berechnen (508) eines Histogramms (608) für jede der Mehrzahl von Klassen (618) unter Verwendung der Mehrzahl von berechneten Merkmalsvektoren (606);

Zuordnen (512) wenigstens einer der Mehrzahl von Klassen (618) zu dem eingegebenen Bild (402, 602) unter Verwendung der Mehrzahl von berechneten Histogrammen (608) als Eingabe in den Klassifizierer (410).
Verfahren nach Anspruch 7, wobei jedes Histogramm (608) berechnet wird durch Abschätzen von Besetzungswahrscheinlichkeiten der Merkmalsvektoren (606) des eingegebenen Bildes (402, 602).