DE60303138T2

DE60303138T2 - Vergleichen von mustern

Info

Publication number: DE60303138T2
Application number: DE60303138T
Authority: DE
Inventors: Warwick Frederick Ipswich STENTIFORD
Original assignee: British Telecommunications PLC
Current assignee: British Telecommunications PLC
Priority date: 2002-03-22
Filing date: 2003-03-21
Publication date: 2006-08-31
Anticipated expiration: 2023-03-22
Also published as: EP1488371B1; ATE315257T1; US20050169535A1; JP2005521165A; CN1643540A; WO2003081523A1; KR100976930B1; CN1322471C; DE60303138D1; KR20040105793A; ES2256768T3; EP1488371A1; US7570815B2; CA2479223C; JP4202271B2; CA2479223A1; AU2003215755A1

Description

Die vorliegende Erfindung betrifft ein Vergleichen eines Musters mit einem anderen und ist insbesondere interessant beim Vergleich von zweidimensionalen Mustern, wie visuellen Bildern, obwohl sie auch anwendbar ist auf eindimensionale Muster und auf Muster mit drei oder mehr Dimensionen. Standardmäßige Ansätze einer Mustererkennung verwenden Vorlagen (templates), um Muster zu erkennen und zu kategorisieren [1]. Derartige Templates haben viele Formen, aber sie werden normalerweise durch eine statistische Analyse von Trainingsdaten erzeugt und unter Verwendung eines Ähnlichkeitsmaßes mit ungesehenen Daten in Übereinstimmung gebracht [2]. Die statistische Analyse wird normalerweise über eine Anzahl von intuitiv ausgewählten Merkmalen durchgeführt, welche die Erfordernisse der Erkennungsaufgabe zu erfüllen scheinen. Zum Beispiel können in der Spracherkennung Templates als in dem Frequenzbereich abgeleitete Hidden-Markov-Modelle eingekapselt werden und in der optischen Zeichenerkennung nehmen die Templates die Form der Schriftzeichen selbst an. In dem Fall einer Gesichtserkennung werden eine Anzahl von intuitiv gewählten Merkmalen, wie Hauttextur, Hautfarbe und Gesichtsmerkmalgenauigkeit, verwendet, um Gesichts-Templates zu definieren. In einer CCTV-Überwachungsanwendung werden Eindringlinge normalerweise durch einen Prozess von Rahmen-Subtraktion und Hintergrund-Template-Modellierung erfasst, der eine Bewegung erfasst und Hintergrundeffekte aus der Verarbeitung entfernt [3]. In vielen Fällen führt die Anzahl von Merkmalen zu einem rechnerisch nicht zu handhabenden Prozess und eine Hauptbestandteilsanalyse und andere Techniken werden verwendet, um das Problem zu verringern, ohne signifikant die Leistung zu reduzieren [http://www.partek.com/index.html]. Diese Ansätze erreichen gro ßen Erfolg in nicht gestörten Umgebungen, versagen aber, wenn die Mustervariabilität und die Anzahl der Musterklassen zunehmen.
Einige Techniken zur Analyse von Bildern oder anderen Mustern, in denen das Muster mit anderen Teilen desselben Musters verglichen wird, werden in unseren früheren Patentanmeldungen wie folgt beschrieben.
Europäische Patentanmeldung 00301262.2 (Veröffentlichung Nr. 1126411) (Ref. des Anmelders A25904EP#);
Internationale Patentanmeldung PCT/GBO 1/00504 (Veröffentlichung Nr. WO 01/61648) (Ref. des Anmelders A25904WO);
Internationale Patentanmeldung PCT/GBO 1/03802 (Veröffentlichung Nr. WO 02/21446) (Ref. des Anmelders A25055WO);
U.S.-Patentanmeldung 977,263/09, angemeldet 16. Oktober 2001 (Veröffentlichung Nr. 20020081033) (Ref. des Anmelders A25904US 1);
sowie die folgenden von dem Erfinder publizierten Veröffentlichungen:
Stentiford F W M „An estimate for visual attention through competitive novelty with application to Image compression", Veröffentlichung Picture Coding Symposium 2001, Seoul, 25.–27. April, S. 101–104, 2001.
Stentiford F W M „An evolutionary programming approach to the simulation of visual attention", Veröffentlichung Congress on Evolutionary Computation 2001, Seoul, S. 851–858, 27.–30. Mai 2001.
Gemäß einem Aspekt der vorliegenden Erfindung ist vorgesehen ein Verfahren zum Vergleichen eines ersten Musters, das von einem ersten geordneten Satz von Elementen dargestellt wird, von denen jedes einen Wert hat, mit einem zweiten Muster, das von einem zweiten geordneten Satz von Elementen dargestellt wird, von denen jedes einen Wert hat, das für jedes einer Vielzahl von Elementen des ersten geordneten Satzes ein Durchführen der Schritte aufweist:

(i) Auswählen einer Vielzahl von Elementen aus dem ersten geordneten Satz in der Nähe des betrachteten Elements, wobei die ausgewählten Elemente relativ zu dem betrachteten Element in dem geordneten Satz jeweilige zueinander verschiedene Positionen aufweisen;
(ii) Auswählen eines Elements des zweiten geordneten Satzes;
(iii) Vergleichen der ausgewählten Vielzahl von Elementen des ersten geordneten Satzes mit einer ähnlichen Vielzahl von Elementen des zweiten geordneten Satzes, von denen jedes innerhalb des zweiten geordneten Satzes dieselbe Position relativ zu dem ausgewählten Element des zweiten geordneten Satzes hat wie ein entsprechendes der ausgewählten Vielzahl von Elementen des ersten geordneten Satzes relativ zu dem betrachteten Element hat, wobei der Vergleich aufweist ein Vergleichen des Wertes von jedem der ausgewählten Vielzahl von Elementen des ersten geordneten Satzes mit dem Wert des entsprechend positionierten Elements der ähnlichen Vielzahl von Elementen des zweiten geordneten Satzes gemäß einem vorgegebenen Übereinstimmungskriterium, um eine Entscheidung zu erzielen, ob die Vielzahl von Elementen des ersten geordneten Satzes mit der Vielzahl von Elementen des zweiten geordneten Satzes übereinstimmt;
(iv) Wiederholen dieses Vergleichs mit einer neuen Auswahl der Vielzahl von Elementen des ersten geordneten Satzes und/oder einer neuen Auswahl eines Elements des zweiten geordneten Satzes; und
(v) Erzeugen eines Ähnlichkeitsmaßes für das betrachtete Element des ersten geordneten Satzes als eine Funktion der Anzahl von Vergleichen, für die der Vergleich eine Übereinstimmung anzeigt.

Andere Aspekte der Erfindung werden in den Ansprüchen definiert.
Einige Ausführungsbeispiele der vorliegenden Erfindung werden nun unter Bezugnahme auf die beigefügten Zeichnungen beschrieben, wobei:
1 eine Blockdarstellung einer Vorrichtung zur Durchführung der Erfindung ist;
2 ein Diagramm ist, das den Betrieb der Erfindung darstellt;
3 ein Flussdiagramm der Schritte ist, die von der Vorrichtung von 1 gemäß einem Ausführungsbeispiel der Erfindung durchzuführen sind; und
4 bis 9 einige Bilder und numerische Ergebnisse zeigen, die für sie erlangt wurden.
1 zeigt eine Vorrichtung, die aus einem Universal-Computer besteht, der programmiert ist, eine Bildanalyse gemäß einem ersten Ausführungsbeispiel der Erfindung durchzuführen. Er weist einen Bus 1 auf, mit dem eine Zentraleinheit (CPU – central processing unit) 2, eine visuelle Anzeige 3, eine Tastatur 4, ein Scanner 5 (oder eine andere Vorrichtung, nicht gezeigt) zur Eingabe von Bildern und ein Speicher 6 verbunden sind.
In dem Speicher 6 sind ein Betriebssystem 601, ein Programm 602 zur Durchführung der Bildanalyse und Speicherbereiche 603, 604 zum Speichern von zwei Bildern, als Bild A und Bild B bezeichnet, gespeichert. Jedes Bild wird als ein zweidimensionales Array von Werten gespeichert, wobei jeder Wert die Helligkeit eines Bildelements in dem Array darstellt.
Die Bild-Arrays werden schematisch in den 2a und 2b gezeigt. Das Bild A besteht aus einem 20 × 20-Array von Bildelementen x = (x₁, x₂), wobei x₁ und x₂ die horizontalen und vertikalen Positionen der Elemente in dem Bild sind. Jedes Element weist eine Helligkeit auf, die von einem jeweiligen Wert a = a(x) dargestellt wird. Ähnlich besteht das Bild B aus einem 20 × 20-Array von Bildelementen y = (y₁, y₂) mit den Helligkeitswerten b.
Ein von dem Programm 602 durchgeführtes Verfahren einer Bildanalyse wird gemäß dem in 3 gezeigten Flussdiagramm durchgeführt. Sein Ziel ist es, ein Maß V einer Ähnlichkeit zwischen den Bildern zu erzeugen; insbesondere zeigt ein hoher Wert V, dass das Bild B visuelles Material enthält, das ähnlich zu dem Inhalt von Bild A ist.
Es wird angenommen, dass die Bilder Breiten xmax₁ und ymax₁ und Höhen xmax₂ und ymax₂ aufweisen und dass die Koordinaten des Bildelements x₁ = 0 ... xmax₁-1, x₂ = 0 ... xmax₂-1 sind.
In Schritt 100 wird ein Bildelement x in einem Bild A ausgewählt. Sie können in jeder Reihenfolge behandelt werden, aber es ist günstig, anfangs das Element x = (ε, ε) und bei nachfolgenden Iterationen aufeinander folgende Elemente auf eine Rasterabtastungs-Weise zu wählen, bis alle berücksichtigt sind, außer die innerhalb von ε des Randes des Bilds, d.h. bis zu (xmax₁- ε -1, xmax₂- ε -1).
In Schritt 101 werden ein Wert (score) V und ein Zähler tries auf Null gesetzt.
In Schritt 102 wird ein Element y = (y₁, y₂) zufällig aus dem Bild B innerhalb einer maximalen Entfernung s von der Position von x gewählt, das heißt |xi – yi| ≤ s für alle i.
Diese Beschränkung, die optional ist, wird in 2b durch das gestrichelte Quadrat S dargestellt. Es verbessert die Effizienz, wenn bekannt ist, dass entsprechende Objekte in den zwei Bildern in der Position nicht um mehr als s Bildelemente in jeder Koordinatenrichtung verschoben werden: tatsächlich stellt s die maximale Ungenauigkeit oder lokale Verzerrung zwischen den beiden Bildern dar.
Die Auswahl von y unterliegt ebenfalls der Einschränkung, dass es sich nicht weiter als ε von dem Rand des Bildes befindet, d.h. ε ≤ yi ≤ ymaxi – ε – 1 für i = 1, 2wobei ymax_i die Breite oder Höhe des Bildes in den Bildelementen ist (20 in diesem Beispiel).
In Schritt 103 wird ein Satz S_x von Bildelementen x' gewählt, wobei das Element plus zumindest ein weiteres Element verglichen wird, m in der Anzahl, zufällig aus dem Bild A gewählt, in der Umgebung N des Bildelements x, wobei die Umgebung N ein Quadrat von 2ε + 1 × 2ε + 1 mit Mitte bei x ist. Das heißt, ein Element x' = (x₁', x₂') liegt innerhalb N, wenn |x'i – xi| < ε für alle i.
Wir bevorzugen, dass der Umgebungssatz S_x das Element x selbst umfasst, obwohl dies tatsächlich nicht wesentlich ist. Ein Umgebungssatz S_y wird dann in dem Bild B definiert mit m + 1 Elementen y' = (y₁', y₂'), von denen jedes dieselbe Position relativ zu Element y hat wie das entsprechende Element x' von S_x von x aufweist, das heißt yi' – yi = xi' – xi für alle i.
(Der Grund für die oben erwähnten Randbeschränkungen ist natürlich, eine Wahl der Umgebung zu vermeiden, die sich außerhalb des Bildbereichs ausdehnt). In Schritt 104 wird der Zähler tries inkrementiert und in Schritt 105 wird sein Wert überprüft, um zu sehen, ob ausreichende Vergleiche durchgeführt wurden.
Unter momentaner Annahme, dass dies nicht der Fall ist, werden in Schritt 106 die zwei Sätze S_x, S_y verglichen. Wenn der Unterschied zwischen dem Wert eines Elements x' des Satzes S_x und dem Wert des entsprechend positionierten Elements x' des Satzes S_y weniger als eine Schwelle δ ist, d.h. |a(x') – b(y')| < δdann werden die beiden Elemente als übereinstimmend betrachtet. Die zwei Sätze werden nur als übereinstimmend betrachtet, wenn jedes Element x' des Satzes S_x mit dem entsprechenden Element y' des Satzes S_y übereinstimmt.
Wenn die Sätze nicht übereinstimmen, wird das Element y als ein Kandidat für weitere Vergleiche verworfen und der Prozess wird in Schritt 102 wieder aufgenommen, wobei ein neuer Punkt y gewählt wird. Wenn sie andererseits übereinstimmen, wird y für eine weitere Iteration behalten. Den Schritt 107 momentan ignorierend, fährt der Prozess mit Schritt 108 fort, wo der Wert V inkrementiert wird. Verschiedene Umgebungssätze werden dann in Schritt 103 erzeugt und der Prozess von diesem Punkt an wiederholt.
Wenn in Schritt 105 der Zähler tries der Anzahl von Vergleichen eine Schwelle überschreitet, wird der Prozess für das aktuelle x beendet: in Schritt 109 wird der Wert von V in dem Speicher 6 gespeichert und dann wird in Schritt 110 eine Überprüfung durchgeführt, ob alle Punkte x behandelt wurden. Wenn dem so ist, wird zuerst der durchschnittliche Wert Va (der Durchschnitt aller einzelnen Werte V für die Bildelemente x in einem Bild A) in Schritt 111 berechnet und der Prozess in Schritt 112 beendet; ansonsten wird der gesamte Prozess von Schritt 100 an für einen neuen Punkt x wiederholt.
Der in Schritt 105 verwendete Schwellenwert kann auf eine gewünschte Anzahl von Vergleichen t gesetzt werden und der Schritt 107 weggelassen werden. In der Praxis finden wir jedoch, dass die frühen Vergleiche oft keine Übereinstimmung liefern, aber sobald eine Übereinstimmung gefunden ist, zeigt eine signifikante Anzahl von unterschiedlichen Umgebungssätzen Übereinstimmungen mit demselben y. Im Interesse eines Vorsehens eines Werts V, der einfach interpretiert wird, werden die ersten paar Iterationen nicht gezählt (scored); der gezeigte Prozess umfasst eine Prüfung 107, die verhindert, dass der Wert während der ersten init Vergleiche inkrementiert wird. Die in Schritt 105 verwendete Schwelle wird somit um init erhöht, so dass der maximal mögliche Wert t ist. Auf diese Weise finden wir, dass die Chancen des Erreichens eines hohen oder maximalen Werts für Bilder, die sehr ähnlich oder identisch sind, stark erhöht werden.
Spezifische Werte für die verschiedenen in den Überprüfungen verwendeten Parameter sind wie folgt:
Bild A Größe xmax₁ × xmax₂: 20 × 20
Bild B Größe xmax₁ × xmax₂: 20 × 20
Umgebungsparameter ε: 4
Umgebungssatzgröße m: 3
Maximale A-B-Verschiebungen s: 7
Anzahl von Vergleichen t: 50
Anfängliche Vergleiche init: 20
Natürlich werden für Bilder mit höherer Auflösung entsprechend größere Werte von ε und s gewählt. Die Werte von t und init müssen erhöht werden, wenn s zunimmt, um genauso zuverlässige und statistisch signifikante Ergebnisse zu erhalten.
Die Ergebnisse dieser Überprüfungen werden später gezeigt; wo die verwendeten Parameter sich von den oben angeführten unterscheiden, wird dies angegeben.
Es ist zu sehen, dass der Wert eines Bildelements x in dem Muster A hoch ist, wenn viele zufällig ausgewählte S_x mit S_y für ein bestimmtes y in dem Muster B übereinstimmen. Es sollte angemerkt werden, dass der visuelle Aufmerksamkeitswert (Visual Attention score) (in unseren früheren Patentanmeldungen diskutiert) des Bildelements x in dem Muster A hoch ist, wenn S_x nicht mit S_y übereinstimmt (mismatch), wobei y nicht gehalten wird, sondern zufällig aus dem Muster A gewählt wird. Während die visuelle Aufmerksamkeit außer dem einzelnen Bild A keinen Speicher erfordert, erfordert das vorliegende Verfahren auch die in dem Muster B enthaltene Information, um eine Gemeinsamkeit zu erfassen.
Ein Ort x ist einer kognitiven Aufmerksamkeit wert, wenn eine Sequenz von t Umgebungssätzen S_x mit einem hohen Anteil derselben Umgebungen übereinstimmt, die ein y in dem Muster B umgeben. In 2 werden m = 3 Bildelemente x' in der Umgebung eines Bildelements x in dem Muster A ausgewählt und mit 3 Bildelementen in der Umgebung des Bildelements y in dem Muster B in Übereinstimmung gebracht. Jedes der Bildelemente kann drei Farbintensitäten besitzen, so dass a = (a_r, a_g, a_b) ist und der Umgebungssatz des zweiten Bildelements y mit dem ersten übereinstimmt, wenn die Farbintensitäten aller entsprechenden m + 1 Bildelemente Werte innerhalb von δ zueinander aufweisen. Den Bildelementen x in A, die eine große Anzahl von Übereinstimmungen über einen Bereich von t Umgebungssätzen S_x mit Umgebungssätzen S_y um y in B herum erzielen, wird ein hoher Wert zugewiesen. Dies bedeutet, dass Umgebungssätzen in A, die eine in B vorhandene Struktur besitzen, hohe Werte zugewiesen werden.
Einige Bildanalysetechniken führen Vergleichsberechnungen zwischen Bildern unter Verwendung von Ausschnitten (patches) durch, wobei es sich um Umgebungen handelt, in denen alle Bildelemente eingesetzt werden. Ausschnitte stimmen überein, wenn ein Maß an Korrelation eine bestimmte Schwelle überschreitet. Dieser Ansatz kann keine optimale Verwendung eines Details machen, das kleiner ist als die Größe des Ausschnitts, außer in dem Fall, in dem das Korrelationsmaß gestaltet ist, um eine spezifische Textur zu identifizieren. Die in diesem Verfahren verwendeten zufälligen Bildelement-Umgebungen S_x weisen diesen Nachteil nicht auf.
Die Ausbeute des Auswertungsmechanismus wird signifikant erhöht durch behalten des Bildelementortes y, wenn eine Übereinstimmung erfasst wird, und durch Wiederverwenden von y für einen Vergleich mit dem nächsten der t Umgebungssätze. Es ist wahrscheinlich, dass, wenn eine übereinstimmende Bildelementkonfiguration erzeugt wird, andere Konfigurationen wieder an demselben Punkt übereinstimmen und dieser einmal gefundene und wieder verwendete Ort y beschleunigt den Anstieg des Werts, vorausgesetzt, dass die Sequenz anschließend nicht von einer Nicht-Übereinstimmung unterbrochen wird.
Wenn jedoch S_x nachfolgend an diesem Ort nicht übereinstimmt, wird der Wert nicht inkrementiert und ein vollständig neuer Ort y in dem Muster B wird für den nächsten Vergleich zufällig gewählt. Auf diese Weise werden konkurrierende Orte in dem Muster B gewählt, wenn sie wenig Gemeinsamkeit mit der Umgebung von x in dem Muster A enthalten.
Einige mögliche Variationen werden nun diskutiert.

a) Es ist nicht wesentlich, dass alle Bildelemente x analysiert werden: somit kann, wenn gewünscht, ein Teilsatz – eventuell auf einem regulären Gitter – gewählt werden.
b) Das obige Verfahren nimmt einzelne (Helligkeits-)Werte für die Bildelemente an. In dem Fall von Farbbildern können die Bilder zuerst nach monochrom konvertiert werden. Alternativ kann jedes Bildelement als drei Werte, wie rot, grün und blau, oder als Luminanz (Bildhelligkeit) plus Farbunterschied ausgedrückt werden, dann würde die Prüfung auf Übereinstimmung eine Betrachtung der Entfernung zwischen den Elementwerten in drei Dimensionen umfassen. Wenn zum Beispiel die Farbkomponentenwerte a = (a_r, a_g, a_b), b = (b_r, b_g, b_b) für die zwei Bilder sind, dann kann das Kriterium für eine Übereinstimmung (a_r– b_r) < δ und |a_g– b_g| < δ und |a_b– b_b| < δ sein. Siehe unten für weitere Diskussionen von Entfernungsmessungen.
c) Die Strategie einer zufälligen Wahl y kann modifiziert werden durch Vorsehen, dass, wenn ein Element x = (x₁, x₂) einen hohen Wert V gegenüber dem Element y erzeugt, und ein angrenzendes Element x (z.B. (x₁ + 1, x₂)) behandelt werden muss, dann kann das erste in Bild B ausgewählte Element y das entsprechende angrenzende Element (d.h. (y₁ + 1, y₂)) sein. Weitere Auswahlen von y wären zufällig, wie vorher. In dem Fall, dass der hohe Wert für das Element x als ein Ergebnis von Vergleichen mit mehr als einem y erzeugt wurde, würde man das Element angrenzend zu dem y wählen, das den größten Beitrag zu dem hohen Wert geleistet hat. Um dies zu imple mentieren, wäre es erforderlich, die Koordinaten der unterschiedlichen Bildelemente y und ihre Teilwerte zeitweilig zu verfolgen.
d) Der Prozess muss nicht notwendigerweise für das gesamte Bild durchgeführt werden. Wenn zum Beispiel ein Bereich des Bildes A als von speziellen Interesse spezifiziert wurde – eventuell unter Verwendung des Verfahrens, das in einer unseren oben angeführten Patentanmeldungen beschrieben wurde – können sich die vorgenommenen Bildelemente x in dem identifizierten Bereich befinden.

Eine Bezugnahme hier auf eine zufällige Auswahl umfasst die Möglichkeit einer Auswahl unter Verwendung eines pseudozufälligen Prozesses.
Das Verfahren ist nicht nur auf Bilder oder sogar dreidimensionale Muster anwendbar, sondern kann für jeden Satz von Werten in 1, 2, 3 oder mehr Dimensionen verwendet werden.
Allgemeiner kann angenommen werden, dass gewünscht wird, ein Ähnlichkeitsmaß zwischen zwei Mustern A und B zu erzeugen, wobei sowohl die Muster als auch das individuelle Muster von Werten in einem Muster 1, 2 oder mehr Dimensionen aufweisen kann.
Ein Satz von Messungen a auf dem Muster A soll einem Ort x in A in einem begrenzten n-Raum (x₁, x₂, x₃, ..., x_n) entsprechen, wobei x = (x1, x2, x3, ..., xn) und a = (a1, a2, a3, ..., ap)
Es ist eine Funktion F derart zu definieren, dass a = F(x), wo immer ein a existiert. Es ist wichtig anzumerken, dass keine Annahmen gemacht werden über die Eigenschaft von F, z.B. Kontinuität. Es wird angenommen, dass x existiert, wenn a existiert.
Betrachte eine Umgebung N von x, wobei {x' ∊ N wenn |xi – x'i| < εi∀i}
Wähle einen Satz von m + 1 zufälligen Punkten S_x in N, wobei Sx = {x'1, x'2, x'3, ..., x'm} und F(x'i) definiert ist. wobei jedoch eines der x' vorzugsweise darauf beschränkt ist, x gleich zu sein. In der Praxis wurde es als nicht notwendig angesehen, die zufällige Auswahl zu beschränken, um eine Auswahl desselben Punkts zweimal zu vermeiden: d.h. x'_i muss nicht eindeutig sein. In der Tat können x'_i alle mit x oder x'_i übereinstimmen.
Wähle einen Ort y entsprechend des Satzes von Messungen b auf dem Muster B, für den F definiert ist.
Definiere den Satz S_y = {y'₁, y'₂, y'₃, ..., y'_m}, wo x – x'i = y – y'i und F(y'i) existiert.
Der Umgebungssatz S_x von x stimmt mit dem von y überein, wenn |Fj (x) – Fj(y)| < δj und |Fj(x'i) – Fj(y'i)| < δj ∀ i, j.
Im Allgemeinen ist δ_j keine Konstante und ist abhängig von den verglichenen Messungen, d.h. δj = fj(F(x), F(y)) j = 1 ... p
Beachte, dass für einige Probleme, statt eine Übereinstimmung als die Übereinstimmung der einzelnen Komponenten a_j = F_j() und b_j = F_j() zu definieren, es bevorzugt sein kann, eine Schwelle auf die Vektorentfernung zwischen a und b anzuwenden, wie die Stadtblockentfernung.
oder die euklidische Entfernung
Die Operation des in dem Flussdiagramm von 3 beschriebenen Verfahrens wird anhand der folgenden Testergebnisse erläutert.
In den Tests wurden 20 × 20 große Schwarzweiß-Bilder verwendet (d.h. die Werte von a und b sind immer entweder 0 oder 1). Die Tests unterscheiden sich von der obigen Beschreibung jedoch darin, dass nur schwarze Bildelemente gezählt werden – das heißt, das Übereinstimmungskriterium ist nicht nur, dass |a – b| < δ, sondern dass a = b = 1 ist.
In jedem Fall zeigt die beigefügte Zeichnung ein erstes Bild A plus mehrere zweite Bilder B, mit denen das erste Bild verglichen wird, als B1, B2, usw. bezeichnet (in einem Fall werden zwei erste Bilder A1, A2 mit einem Bild B verglichen). Die Koordinaten x₁, y₁ werden von links nach rechts gemessen und die Koordinaten x₂, y₂ von oben nach unten. Jedes der zweiten Bilder ist mit dem durchschnittlichen Wert Va markiert. Einige Zeichnungen zeigen eine dreidimensionale Darstellung der einzelnen Werte V über dem Bildbereich: in jedem Fall stellt die rechte Achse die horizontale Achse der Bewertung dar und die vordere Achse stellt die vertikale Achse des Bilds dar. Die vertikale Achse der Darstellung stellt den Wert von V dar (in dem eingebetteten Erkennungsfall von Beispiel 2 und 50- V in den anderen Fällen).
Beispiel 1. Optische Zeichenerkennung (4).
Ein Bild A des Buchstaben B wird mit den Bildern B1–B5 mit den Buchstaben A, B, C, D und E verglichen. Die in Reihenfolge gebrachten durchschnittlichen Werte Va entsprechen B, D, E, C, A. Die Ergebnisse wurden mit t = 50, s = 3 und ε = 2 erzeugt.
Beispiel 2. Eingebettete Erkennung (5).
Ein Bild A einer ‚X'-Form wird mit einem anderen Bild B1 verglichen, das 9 kleinere Formen enthält, einschließlich einem ‚X'. Die ‚X'-Form wird wieder mit dem Bild B2 mit denselben 9 Formen, außer dem kleinen ‚X', das verändert wird, verglichen. Die durchschnittlichen Werte Va sind jeweils 27.5 und 11.9, was das Vorhandensein von ‚X'-Merkmalen in dem ersten und weniger in dem zweiten anzeigt. Die einzelnen Werte V für die jeweiligen Vergleiche werden in den Graphen dargestellt. Die Ergebnisse wurden mit t = 50, s = 7 und ε = 2 erzeugt. Ein komplizierteres Beispiel einer eingebetteten Erkennung ist die Identifizierung von bekannten Gesichtern in einer Menschenmenge.
Beispiel 3. Markenabfrage (6).
Ein Bild A einer speziellen Kreuzform wird zuerst mit vier grundlegenden Formen B1–B4 verglichen, einschließlich eines großen Kreuzes, wobei jedes grundlegende Muster Gruppen von ähnlichen Formen mit hohen Werten untereinander darstellen. Das große Kreuz erzeugt den höchsten durchschnittlichen Wert V_a (43.6). Dasselbe spezielle Kreuz wird dann mit vier Arten eines Kreuzes B5–B8 vergleichen, einschließlich einer kleinen Version von sich selbst (B5), was eine maximale Marke von 50 erzielt. Der Graph liefert die Werte von (50-V) für jedes Bildelement in dem Vergleich mit dem großen Kreuz – die hohen Säulen zeigen die Ungleichheit mit den Enden der unteren Schenkel des Kreuzes. Die Ergebnisse wurden mit t = 50, s = 7 und ε = 2 erzeugt.
Beispiel 4. Fingerabdruckerkennung (7).
Komplexere Muster, von denen einige eine große Menge an ähnlichem Material besitzen, können wie in dem Beispiel der Marke (trademark) unterschieden und abgerufen werden. Ein vereinfachter Bogen A stimmt am besten mit einem typischen Boden B4 (49.3) überein und dann mit einem identischen Muster (49.9) unter den anderen Bögen. Der Graph liefert die Werte (50-V) für jedes Bildelement in dem Vergleich mit dem typischen Bogenmuster – die hohen Säulen zeigen die Ungleichheit mit den Rippenenden und am Rand. Die Ergebnisse wurden mit t = 50, s = 3 und ε = 2 erzeugt.
Beispiel 5. Gesichtserkennung (8).
Obwohl die Daten sehr vereinfacht sind, stellt dieses Beispiel eine Implementierung einer Gesichtserkennung dar. Ein Gesicht A wird mit vier repräsentativen Gesichtern B1–B4 verglichen und dann mit vier Gesichtern in einer Untergruppe B5–B8, die dargestellt wird von dem am besten passenden repräsentativen Gesicht B2 (45.7). Die beste Übereinstimmung ist mit einem nicht-identischen Gesicht B7 in der Untergruppe (49.6). Der Graph liefert die Werte von (50-V) für jedes Bildelement in dem Vergleich mit dem zweitnächsten Muster B6 (48.2) – die hohen Säulen zeigen die Ungleichheit in dem Mundbereich an. Die Ergebnisse wurden mit t = 50, s = 3 und ε = 2 erzeugt.
Beispiel 6. Überwachung (9).
Dieses Beispiel zeigt, wie Eindringlinge vor einem variablen Hintergrund erfasst werden können. Ein Muster A1, das eine sich bewegende Wolke, einen Baum und eine Zaun darstellt, erzielt eine hohe durchschnittliche Marke Va (48.0) vor einem standardmäßigen Hintergrund B, aber eine Version (A2) mit einem anwesenden Eindringling erzielt eine sehr viel niedrigere Marke (33.1). Der Graph liefert die Werte von (50-V) für jedes Bildelement in dem Bild mit dem Eindringling (33.1) – die höchsten Säulen zeigen den Ort des Eindringlings an. Die Ergebnisse wurden mit t = 50, s = 3 und ε = 2 erzeugt.
Dieses Verfahren führt eine Analyse von zwei Bildern aus, die wahrnehmungsmäßig signifikante gemeinsame Merkmale und Unterschiede identifiziert, ohne von Maßstabsunterschieden und durch lokal relative Verzerrungen und Verschiebungen betroffen zu sein. Dies bedeutet, dass es auf Erkennungsprobleme angewendet werden kann, in denen das zu erkennende Objekt in einem anderen Bild integriert ist. Es bedeutet auch, dass Bilder gemäß eines Merkmalsähnlichkeitsmaßes zueinander kategorisiert und diese Werte verwendet werden können, um ein Mehrklassen-Erkennungssystem und ein „Abfrage durch Beispiel (Query By Example)"-Abfragesystem zu definieren. Ebenso kann das Verfahren verwendet werden, um Unterschiedlichkeiten zu erfassen, wie in dem Fall der Erfassung eines Eindringlings oder einer Erfassung einer Fälschung. Es kann zur Erfassung von Verschiedenheiten zwischen Bildern verwendet werden, um eine Bewegung oder eine Parallaxe zu erfassen. Es ist nicht notwendigerweise auf frühere Kenntnis des Inhalts der Bilder ange wiesen und ein Trainingsprozess ist nicht erforderlich. Der Algorithmus ist besonders geeignet für eine parallele Implementierung.
Verschiedene Vorteile des beschriebenen Verfahrens werden nun diskutiert.
Mustererkennung
Standardmäßige Ansätze zur Mustererkennung erfordern eine große Anzahl von repräsentativen Mustern aus allen Klassen, um die Anforderungen des Trainingsprozesses für den Klassifizierer zu erfüllen. Derartige Klassifizierer versagen trotzdem, wenn die gewählten Merkmale ungesehene Muster, die in dem Trainingssatz nicht richtig dargestellt werden, nicht charakterisieren. Dieses Verfahren erfordert keinen Trainingssatz, außer die zwei zu vergleichenden Bilder.
Es ist für Mustererkennungstechniken normal, spezielle Vorkehrungen für Maßstabsunterschiede zwischen den klassifizierten Mustern zu treffen. Derartige Unterschiede in der visuellen Domäne können aufgrund von Perspektive und anderen Faktoren entstehen und es ist gebräuchlich, dass vorheriges Wissen in den Klassifizierer zur Kompensierung aufgenommen wird. Dies ist in diesem Verfahren nicht notwendig, vorausgesetzt, ε ist nicht zu groß.
Ein weiterer Vorteil ist die Fähigkeit, in größeren Datenstrukturen integrierte Muster zu identifizieren, ohne unter exponentiell wachsenden Berechnungsbedarf oder den Effekten von Rauschen zu leiden. Dieses Verfahren weist somit eine Anwendung für das Problem einer Erfassung von Urheberrechtsverletzungen, wo Teile von Material aus größeren Arbeiten (der Kunst zum Beispiel) genommen wurden, und der Aufgabe einer Reduzierung der Größe von Datenbanken auf, wo bekannt ist, dass eine Doppelführung verbreitet ist. Es weist auch eine direkte Anwendung für das Problem einer Identifizierung von Fingerabdrücken eines Tatorts auf, wo nur ein Teil des gesamten Abdrucks zur Überprüfung verfügbar ist. In dem Fall einer Gesichtserkennung eignet sich das Verfahren für Suchen basierend auf begrenzten Ausschnitten des unbekannten Gesichts. Dies bedeutet zum Beispiel, dass Suchen rein auf der Basis des Augen- und Nasenbereichs in Fällen, in denen Bärte und Schnauzbärte zu einer Unklarheit führen können, ausgeführt werden können.
Sofern für einen spezifischen Musterinhalt nicht Vorkehrungen getroffen werden, scheitern standardmäßige Vorlagenansätze für eine Mustererkennung, wenn sich die zu vergleichenden Muster aufgrund von lokalen Verzerrungen oder geringen Bewegungen unterscheiden, wie es zum Beispiel der sichtbare Fall wäre bei sich bewegenden Blättern an Bäumen, sich bewegenden Wolken, Änderungen eines Gesichtsausdrucks, Fingerabdrücke an Tatorten auf unebenen Oberflächen oder Rauschen. Derartige Vorkehrungen erfordern eine vorherige Kenntnis der Anwendung und verursachen weiterhin, dass das System scheitert, wenn die nicht sichtbaren Musterverzerrungen nicht den Systemgestaltungsanforderungen entsprechen. Dieses Verfahren kann die Effekte von lokalen Verzerrungen ohne vorherige Kenntnis des Typs der Verzerrung ignorieren.
Das Verfahren kann auf Muster jeder Dimension angewendet werden, wie eindimensionale Audiosignale, dreidimensionale Videodaten (x, y, Zeit) oder n-dimensionale zeitabhängige Vektoren, die aus jeder Quelle abgeleitet werden, wie Sensor-Arrays. In dem Fall der Spracherkennung kann es Variationen in der Geschwindigkeit der Sprache ohne die Verwendung von spezieller Heuristik handhaben. Ein herkömmlicher Ansatz verwendet DTW (Dynamic Time Warping), um dieses Problem zu lösen, ruft aber einen größeren Berechnungsaufwand und die Gefahr hervor, dass der Verzerrungs-Prozess zu mehr falscher Klassifizierung führt, besonders in einem großen Mehrklassenproblem. Ferner wären Teile von Äußerungen für eine Wortidentifizierung unter Verwendung dieser Erfindung ausreichend, wenn sie eindeutig in der Domäne des Diskurses sind (zum Beispiel „yeah" statt „yes", wo der letzte Zischlaut fehlt).
Das Verfahren behandelt diese Probleme durch Messen des Werts der Umgebungen in jedem Bild. Während ein Bildelement in einem einzelnen Bild wichtig ist, wenn seine Umgebung signifikant unterschiedlich ist zu den meisten anderen Teilen desselben Bilds (wie in unseren oben angeführten früheren Patentanmeldungen diskutiert wird), ist es kognitiv wichtig, wenn seine Umgebung signifikant ähnlich ist zu dem in einer Umgebung in dem zweiten Bild. Die Effekte einer Nicht-Übereinstimmung (mis-registration) und von lokalen Verzerrungen werden beträchtlich reduziert, da die Werte innerhalb bestimmter Grenzen nicht betroffen sind.
Die Werte können verwendet werden, um Gruppen (cluster) von Mustern zusammenzufassen, die hohe Werte relativ zueinander besitzen. Aus jeder Gruppe entnommene repräsentative Muster können selbst zu Gruppen zusammengefasst werden, um „Supergruppen" (super-cluster) zu bilden, und der Prozess kann fortgesetzt werden, um sehr große Musterdatenbaken zu strukturieren. Eine „Abfrage durch Beispiel (Query By Example)"-Abfrage kann ausgeführt werden durch Messen der Werte zu jedem der höchsten repräsentativen Muster und dann zu jedem der höchsten repräsentativen Muster in den Teilgruppen entsprechend zu dem am höchsten bewerteten repräsentativen Muster in der vorherigen Gruppe. Es ist wahrscheinlich, dass einige repräsentative Muster überlappende Gruppen darstellen, die Muster enthalten, die hohe Werte besitzen mit den repräsentativen Mustern. Das Verfahren kann verwendet werden in Kombination mit einem visuellen Aufmerksamkeitsmechanismus, um schnell ein Interessensgebiet in dem Muster zu definieren und dann Werte zwischen diesem begrenzten Bereich und einem Satz von Referenzmustern (B Muster) abzuleiten. In einem Kontext des Flugwesens kann ein fliegendes Objekt schnell erfasst werden unter Verwendung einer visuellen Aufmerksamkeit und nachfolgend berechnete Werte würden zeigen, ob das Objekt ein Vogel oder ein Flugzeug war.
Ungleichheitserfassung
Standardmäßige Ansätze für eine Ungleichheitserfassung verlassen sich stark auf eine akkurate Ausrichtung/Übereinstimmung zwischen zwei Bildern, so dass die Subtraktion (die stückweise für kleine Bereiche des gesamten Bildes durchgeführt werden kann) zwischen Bildelementen stattfindet, die denselben Punkten auf dem in den beiden Bildern dargestellten ursprünglichen Objekt entsprechen. Das resultierende Unterschieds-Bild hebt die Bereiche hervor, die Unterschieden in den ursprünglichen Bildern entsprechen. Dies wird sehr schwierig, wenn ein Rauschen vorhanden ist, da eine Ungewissheit in die Schätzung der korrekten Ausrichtungsposition eingeführt wird und als ein Ergebnis können viele falsche Unterschiede erzeugt werden.
Auch wenn kein Rauschen vorhanden ist, verursachen lokale Verzerrungen oder geringe Bewegungen des Gegenstands eine Nicht-Übereinstimmung (mis-registration) und es werden Unterschiedsbereiche hervorgehoben, die von geringem Interesse sind, außer die Verzerrung oder Bewegung selbst werden gemessen. Lineare oder nicht-lineare digitale Bildausrichtungstechniken vor einer Subtraktion kompensieren dies teilweise, aber eliminieren dieses Problem in einem großen Teil der Fälle nicht [4].
Ein schwerwiegendes Problem, dem herkömmliche Verfahren gegenüberstehen, entsteht aus den unterschiedlichen Bedingungen, unter denen die zwei Bilder erzeugt wurden. Derartige Unterschiede können von der Belichtung, den Wetterbedingungen, einem leicht anderen Standpunkt, einer anderen Art des Films oder einer anderen Kamera mit einem unterschiedlichen optischen System herrühren. Diese Störungen tragen alle zu der Erzeugung von falschen Unterschieden zwischen den Bildern bei, die sich nicht auf den Inhalt beziehen.
Unterschiede zwischen den zwei Bildern, die von den Bedingungen einer Bilderfassung verursacht werden, werden von diesem Verfahren ausgeklammert, da derartige Unterschiede die Werte über alle Teile des Bilds gleich betreffen und die Rangfolge der einzelnen Werte nicht stören. Signifikante Beleuchtungsunterschiede zwischen den beiden Bildern werden kompensiert durch Einsatz einer größeren Schwelle für die Übereinstimmung der Bildelemente (δ_j siehe oben). Dies wäre zum Beispiel erforderlich, wenn Röntgenaufnahmezeiten zwischen den beiden Bildern unterschiedlich wären.
Dieses Verfahren weist auch den Vorteil auf, dass es mehrfache Ungleichheiten erfassen kann, wobei das Bild A mit den Bildern B1, B2, B3, usw. verglichen wird. Dies ist nützlich in dem Fall einer CCTV-Erfassung eines Eindringlings, wobei die Bildrahmen B1, B2, B3, usw. typische Beispiele unterschiedlicher atmosphärischer Bedingungen und anderer normaler Hintergrundzustände wären und ein Alarm nur dann ausgelöst würde, wenn Ungleichheiten in allen normalen Bildrahmen erfasst werden.
Es ist offensichtlich, dass diese Verfahren eine Bedeutung für fast alle Anwendungen aufweist, die eine Mustererkennung erfordern: Gesichtserkennung, Fingerabdruckerkennung, OCR, Bildabfrage, Markenidentifizierung, Fälschungserfassung, Überwachung, medizinische Diagnose und andere.
Sie sind insbesondere für die medizinische Industrie relevant, wo der Vergleich von sehr unterschiedlichen und verrauschten Bildern erforderlich ist, um den Fortschritt von medizinischen Zuständen zu verfolgen. Zum Beispiel wird die Identifizierung eines wahrscheinlichen Krebswachstums in Mammogrammen aus Röntgenaufnahmen abgelesen, die zu unterschiedlichen Zeiten aufgenommen wurden, und jede automatische Unterstützung würde den Durchsatz eines Radiologen erhöhen. In einem weiteren Beispiel wird eine Kontraststeigerung normalerweise erzielt durch Subtrahieren des Röntgenbilds der normalen Brust von einem, das nach einer Kontrastinjektion aufgenommen wird, und eine richtige Ausrichtung ist nicht schwierig zu erlangen, aber sie ist kritisch für den Erfolg des Prozesses. Die beschriebenen Verfahren können ein klareres Ergebnis liefern ohne die begleitenden Ausrichtungsprobleme.
Fortgeschrittene Softwareerfassungssysteme für Mammogramme (z.B. http://www.r2tech.com/prd/) können spezifische Merkmale, die üblicherweise zu Krebs gehören (z.B. Mikrokalkablagerungen), bereits sehr gut erkennen, aber das Problem von zeitlichen Vergleichen wird weitgehend nicht adressiert.
Quellenangabe

[1] Vailaya A et al, Image Classification for Content-Based Indexing, IEEE Trans on Image Processing, Vol. 10, Nr. 1, S. 117–130, Jan. 2001.
[2] Santini S & Jain R, Similarity Matching, in Proc 2^nd Asian Conf on Computer Vision, Seiten II 544–548, IEEE, 1995.
[3] IEEE Trans PAMI – Special Section on Video Surveillance, Vol. 22, Nr. 8, Aug. 2000.
[4] Brown L G, A survey of image registration techniques, ACM Computing Surveys, Vol. 24, Nr. 4 (Dez. 1992), S. 325–376.

Claims

Verfahren zum Vergleichen eines ersten Musters, das von einem ersten geordneten Satz von Elementen dargestellt wird, von denen jedes einen Wert hat, mit einem zweiten Muster, das von einem zweiten geordneten Satz von Elementen dargestellt wird, von denen jedes einen Wert hat, das für jedes einer Vielzahl von Elementen des ersten geordneten Satzes ein Durchführen der Schritte aufweist: (i) Auswählen einer Vielzahl von Elementen aus dem ersten geordneten Satz in der Nähe des betrachteten Elements, wobei die ausgewählten Elemente relativ zu dem betrachteten Element in dem geordneten Satz jeweilige zueinander verschiedene Positionen aufweisen; (ii) Auswählen eines Elements des zweiten geordneten Satzes; (iii) Vergleichen der ausgewählten Vielzahl von Elementen des ersten geordneten Satzes mit einer ähnlichen Vielzahl von Elementen des zweiten geordneten Satzes, von denen jedes innerhalb des zweiten geordneten Satzes dieselbe Position relativ zu dem ausgewählten Element des zweiten geordneten Satzes hat wie ein entsprechendes der ausgewählten Vielzahl von Elementen des ersten geordneten Satzes relativ zu dem betrachteten Element hat, wobei der Vergleich aufweist ein Vergleichen des Wertes von jedem der ausgewählten Vielzahl von Elementen des ersten geordneten Satzes mit dem Wert des entsprechend positionierten Elements der ähnlichen Vielzahl von Elementen des zweiten geordneten Satzes gemäß einem vorgegebenen Übereinstimmungskriterium, um eine Entscheidung zu erzielen, ob die Vielzahl von Elementen des ersten geordneten Satzes mit der Vielzahl von Elementen des zweiten geordneten Satzes übereinstimmt; (iv) Wiederholen dieses Vergleichs mit einer neuen Auswahl der Vielzahl von Elementen des ersten geordneten Satzes und/oder einer neuen Auswahl eines Elements des zweiten geordneten Satzes; und (v) Erzeugen eines Ähnlichkeitsmaßes für das betrachtete Element des ersten geordneten Satzes in Bezug auf die Elemente des zweiten geordneten Satzes als eine Funktion der Anzahl von Vergleichen, für die der Vergleich eine Übereinstimmung anzeigt.
Verfahren gemäß Anspruch 1, wobei die Vielzahl von Elementen des ersten geordneten Satzes das betrachtete Element umfasst.
Verfahren gemäß Anspruch 1 oder 2, wobei die Auswahl der Vielzahl von Elementen des ersten geordneten Satzes zufällig oder pseudozufällig erfolgt.
Verfahren gemäß Anspruch 1, 2 oder 3, wobei die Auswahl eines Elements des zweiten geordneten Satzes zufällig oder pseudozufällig erfolgt.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei nachfolgend auf einen Vergleich, der zu einer Übereinstimmungsentscheidung führt, ein weiterer Vergleich mit einer neuen Auswahl der Vielzahl von Elementen des ersten geordneten Satzes und derselben Auswahl eines Elements des zweiten geordneten Satzes durchgeführt wird.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei nachfolgend auf einen Vergleich, der zu einer Entscheidung führt, dass es keine Übereinstimmung gibt, ein weiterer Vergleich mit einer neuen Auswahl eines Elements des zweiten geordneten Satzes und derselben Auswahl der Vielzahl von Elementen des ersten geordneten Satzes durchgeführt wird.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei jeder Wert eine Vielzahl von Komponenten aufweist.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei der Vergleich eine vorgegebene Anzahl von Malen durchgeführt wird.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei das Ähnlichkeitsmaß eine Funktion der Anzahl von Vergleichen ist, für die der Vergleich eine Übereinstimmung anzeigt, ausschließlich einer anfänglichen Anzahl von Vergleichen.
Verfahren gemäß einem der vorhergehenden Ansprüche, wobei, wenn ein betrachtetes Element zu einem Ähnlichkeitsmaß führt, das eine große Anzahl von Übereinstimmungen anzeigt, und ein weiteres Element des ersten geordneten Satzes betrachtet werden soll, die erste Auswahl eines Elements des zweiten geordneten Satzes, das zum Vergleich damit vorgesehen ist, das Element des zweiten geordneten Satzes ist, dessen Position in dem zweiten geordneten Satz relativ zu einem Element des zweiten geordneten Satzes, das für die große Anzahl von Übereinstimmungen verantwortlich ist, dieselbe ist wie die Position des weiteren Elements des ersten geordneten Satzes relativ zu dem vorher betrachteten Element.