-
Die vorliegende Erfindung betrifft
im allgemeinen bildverarbeitende Systeme und insbesondere ein Verfahren
und eine Vorrichtung für
die Verarbeitung der Parallaxengeometrie von Paaren von Punkten
innerhalb einer dreidimensionalen Szene.
-
Vaidya N. M. et al.: "Stereopsis
and Image Registration from Extended Edge Features in the Absence of
Camera Pose Information", Proceedings of the Computer Society Conference
on Computer Vision and Pattern Recognition, USA, Los Alamitos, IEEE.
Comp. Soc. Press, 3.-6. Juni 1991, S. 76–82, XP000337344 ISBN: 0-8186-2148-6,
beschreibt ein Verfahren der 3D-Bildverarbeitung ohne Verwendung
einer Epipolarbedingung. Das Verfahren verwendet einen Algorithmus
basierend auf Bildkantenkonturen.
-
Die Analyse von dreidimensionalen
Szenen aus Bildsequenzen hat eine Anzahl von Zielen. Diese Ziele
beinhalten, sind jedoch nicht begrenzt auf: (i) die Wiederherstellung
von 3D-Szenenstrukturen,
(ii) die Erfassung von sich bewegenden Objekten in der Anwesenheit
von kamerainduzierter Bewegung und (iii) die Synthese von neuen
Kameraansichten basierend auf einem gegebenen Satz von Ansichten.
-
Der traditionelle Ansatz für diese
Typen von Problemen war es zunächst,
die Epipolargeometrie zwischen Paaren von Einzelbildern wiederherzustellen
und dann diese Information anzuwenden, um die oben erwähnten Ziele
zu erreichen. Dieser Ansatz leidet jedoch unter den Schwierigkeiten,
die mit der Wiederherstellung der Epipolargeometrie verknüpft sind.
-
Neuere Ansätze für die 3D-Szenenanalyse haben
versucht, einige der Schwierigkeiten bei der Wiederherstellung der
Epipolargeometrie zu überwinden
durch Zerlegen der Bewegung in eine Kombination aus einer planaren
Homographie und einer residuellen Parallaxe. Die Bewegung der residuellen
Parallaxe hängt von
der projektiven Struktur und der Translation zwischen den Kameraursprüngen ab.
Während
dieses Verfahren einige Unklarheiten in der Abschätzung der
Kameradrehung entfernen, erfordern sie immer noch die explizite
Schätzung
des Epipols selbst, was unter vielen Umständen schwierig sein kann. Die
Epipolabschätzung
ist insbesondere schlecht konditioniert, wenn der Epipol signifikant
von dem Zentrum des Bildes entfernt liegt und die Parallaxenbewegungsvektoren
nahezu parallel zueinander sind. Ebenso, wenn es nur eine kleine Anzahl
von Parallaxenvektoren gibt und die Szene sich bewegende Objekte
enthält,
beeinflussen diese Objekte die Abschätzung des Epipols in falscher
Weise.
-
Im allgemeinen nimmt die Behandlung
der Mehrpunktgeometrie an, daß die
Szene statisch ist und ist auf die Tatsache angewiesen, daß nahezu
alle Punkte, die für
die Formschätzung
ausgewählt
wurden, als zu einem einzelnen festen Körper gehörend bekannt sind. In ihrer
gegenwärtigen
Form hat diese Klasse von Verfahren Nachteile, beispielsweise befassen
die Verfahren sich nicht mit dem Problem der Formwiedergewinnung
in dynamischen Szenen, insbesondere, wenn die Größe der Bildbewegung aufgrund
eines sich unahhängig
bewegenden Objektes nicht vernachlässigbar ist:
-
BESCHREIBUNG
DER ERFINDUNG
-
Ein Aspekt der Erfindung stellt ein
Verfahren für
die Bildverarbeitung zur Verfügung,
das die Schritte aufweist:
-
- (a) Empfangen einer Mehrzahl von zweidimensionalen Bildern,
die eine Szene repräsentieren,
- (b) Berechnen einer mit der Parallaxe verbundenen Beschränkung bzw.
Nebenbedingung für
ein Paar von Punkten innerhalb der Mehrzahl von Bildem, wobei die
mit der Parallaxe verbundene Beschränkung unabhängig von irgendeiner epipolaren
Geometrie ist, die für
das Paar von Punkten definiert werden kann,
- (c) Anwenden der mit der Parallaxe verbundenen Beschränkung auf
eine Mehrzahl von Punkten innerhalb der Mehrzahl von Bildern, um
Informationen zu erzeugen, die repräsentativ dafür sind,
ob ein gegebener Punkt innerhalb der Mehrzahl der Bilder mit der
die Parallaxe betreffenden Beschränkung konsistent ist, und
- (d) Verwenden der erzeugten Information für eine Bildverarbeitungsaufgabe,
die in Verbindung mit der empfangenen Mehrzahl von Bildern steht.
-
Ein anderer Aspekt der vorliegenden
Erfindung stellt eine Vorrichtung für die Bildverarbeitung zur
Verfügung,
die aufweist: eine Quelle von zweidimensionalen Bildem, die für eine Szene
repräsentativ
sind, einen Computerprozessor für
die Verarbeitung der zweidimensionalen Bilder, der aufweist:
-
- (a) eine Einrichtung für
das Empfangen einer Mehrzahl von zweidimensionalen Bildern, die
repräsentativ
für eine
Szene sind,
- (b) eine Einrichtung für
das Anwenden einer die Parallaxe betreffenden Beschränkung bzw.
Nebenbedingung auf eine Mehrzahl von Punkten innerhalb der Mehrzahl
von Bildern, um Informationen zu erzeugen, die dafür repräsentativ
sind, ob ein gegebener Punkt innerhalb der Mehrzahl von Bildem konsistent
mit der die Parallaxe betreffenden Beschränkung ist, wobei die die Parallaxe
betreffende Beschränkung
unabhängig
von irgendeiner epipolaren Geometrie ist, die für die Mehrzahl von Punkten
definiert werden kann,
- (c) eine Einrichtung für
das Anwenden einer Parallaxenbeschränkung an eine Mehrzahl von
Punkten innerhalb der Mehrzahl von Bildern, um eine Information
zu erzeugen, die repräsentativ
dafür ist,
ob ein gegebener Punkt innerhalb der Mehrzahl von Bildern mit der
die Parallaxe betreffenden Beschränkung konsistent ist,
- (d) eine Einrichtung für
die Verwendung der erzeugten Information für eine Bildverarbeitungsaufgabe,
die mit der empfangenen Mehrzahl von Bildern in Beziehung steht,
und Erzeugen eines Ausgangssignals, das hiermit in Beziehung steht,
- (e) eine Ausgabevorrichtung für die Präsentation des Ausgangssignals
der bildverarbeitenden Aufgabe.
-
Die Lehren der vorliegenden Erfindung
können
leicht verstanden werden durch Betrachten der folgenden illustrativen
Beschreibung in Verbindung mit den begleitenden Zeichnungen, in
denen:
-
1 ein
Blockdiagramm eines Analysesystems für dreidimensionale Szenen darstellt,
-
2 eine
geometrische Darstellung der ebenen Homographie plus der Parallaxenauferlegung
zur Verfügung
stellt,
-
3 eine
geometrische Darstellung einer paarweisen Parallaxenbeschränkung darstellt,
-
4 eine
geometrische Darstellung einer Szene darstellt, wo die Epipolschätzung unzuverlässig ist, jedoch
die relativen Strukturbeschränkungen
zuverlässig
verwendet werden können,
um die relative Struktur innerhalb der Szene wiederherzustellen,
-
5 ein
Flußdiagramm
einer Routine darstellt, die die Parallaxenbeschränkung verwendet,
-
6 und 7 eine Illustration der Parallaxengeometrie
und des Dualepipols zur Verfügung
stellen und
-
8a–g eine
Reihe von Bildern darstellen, die verwendet und erzeugt werden während der
Formwiederherstellung, die auf einem einzelnen Pacallaxenvektor
beruht.
-
9a–b eine
zuverlässige
Erfassung der 3D-Bewegungsinkonsistenz mit spärlicher Parallaxeninformation
unter Verwendung eines Balls und eines Baums darstellt,
-
10a–f eine
Reihe von Bildern sind, die die Erfassung von sich bewegenden Objekten
darstellen, die sich auf einen einzelnen Parallaxenvektor stützt.
-
11a–f eine
Reihe von Bildern ähnlich
der 10a–f sind,
die die Erfassung sich bewegender Objekte beruhend auf einem einzelnen
Parallaxenvektor darstellen.
-
Um das Verständnis zu erleichtern, wurden
identische Bezugszeichen verwendet, sofern möglich, um identische Elemente,
die den Figuren gemeinsam sind, zu bezeichnen.
-
DETAILLIERTE BESCHREIBUNG
-
Überblick
-
Die vorliegende Erfindung verwendet
in verschiedenen Bildverarbeitungsaufgaben die geometrischen Beziehungen
zwischen der Parallaxenverschiebung von zwei oder mehreren Punkten
innerhalb zweier oder mehrerer Bilder. Die Erfindung wendet diese
Beziehungen auf verschiedene bildverarbeitende Aufgaben an, wie
z. B. (i) die Wiederherstellung einer 3D-Szenenstruktur, (ii) die
Erfassung von sich bewegenden Objekten in der Anwesenheit einer
kamerainduzierten Bewegung, und (iii) die Synthese von neuen Kameraansichten basierend
auf einem gegebenen Satz von Ansichten.
-
Ein wichtiger Vorteil der vorliegenden
Erfindung ist die Fähigkeit,
effektiv in schwierigen Bildverarbeitungssituationen (z. B. wenn
es eine kleine Anzahl von Parallaxenvektoren gibt, wenn die Epipolabschätzung schlecht
konditioniert ist und in der Anwesenheit von sich bewegenden Objekten)
zu arbeiten. Die vorliegende Erfindung erfordert nicht die Wiedergewinnung
der Epipole während
der Verarbeitung; daher ist sie auf Situationen anzuwenden, wenn
die genaue Wiedergewinnung der Epipole schwierig ist. Darüber hinaus
sind die vorliegenden Techniken für die 3D-Szeneanalyse anwendbar, wenn nur ein
kleiner Satz von Parallaxenvektoren verfügbar ist. In der Tat kann die
ebene Parallaxe eines einzelnen Punktes verwendet werden als eine
Referenz, um die Struktur der gesamten Szene wiederherzustellen
und um zu bestimmen, ob andere Punkte zu der statischen Szene oder
zu einem sich bewegenden Objekt gehören.
-
Die Ergebnisse, die hier präsentiert
sind, werden in Abhängigkeit
von der residualen Parallxenverschiebung von Punkten nach dem Aufheben
einer planaren Homographie ausgedrückt. Es wurde gezeigt, daß die Zerlegung
der Bildbewegung in eine Homographie plus eine Parallaxe robuster,
sogar allgemeiner als die Zerlegung in eine Bewegung plus Translation
ist. Techniken für
das Abschätzen
der planaren Homographie aus Paaren von Bildem werden beschrieben
in J. R. Bergen, P. Anandan, K. J. Hanna und R. Hingorani, "Hierarchical
model-based motion estimation" European Conference on Computer Vision,
S. 237–252,
Santa Margarita Ligure, Mai 1992.
-
Bei der vorliegenden Erfindung wird
eine parallaxenbasierte Strukturbeschränkung abgeleitet, die die projektive
Struktur zweier Punkte mit ihren Bildpositionen und ihren Parallaxenverschiebungen
in Bezug bringt. Durch Eliminieren der relativen projektiven Struktur
eines Punktpaares zwischen drei Einzelbildern wird eine Beschränkung, bezeichnet
als die parallaxenbasierte Stabilitätsbeschränkung, auf den Parallaxenbewegungen
zweier Punkte, die sich als feste Objekte über die Einzelbilder bewegen,
abgeleitet.
-
Ebenso wird unten ein alternativer
Weg des Ableitens der Parallaxenbasierten Stabilitätsbeschränkung dargelegt.
In der alternativen Ableitung wird die Beschränkung geometrisch statt algebraisch
bestimmt. Dies führt
zu einer einfachen und intuitiven geometrischen Interpretation der
Mehrfacheinzelbildstabilitätsbeschränkung und
zu der Ableitung eines dualen Punktes zu dem Epipol.
-
Beispiele von Anwendungen dieser
Parallaxenbasierten Beschränkungen
auf das Lösen
dreier wichtiger Probleme in der Analyse von 3D-Szenen werden ebenso
beschrieben. Anwendungen beinhalten: (i) die Wiederherstellung einer
3D-Szenenstruktur, (ii) die Erfassung von sich bewegenden Objekten
in der Anwesenheit von kamerainduzierter Bewegung und (iii) die
Synthese von neuen Kameraansichten basierend auf einem gegebenen
Satz von Ansichten.
-
Schließlich wird die Verallgemeinerung
der Beschränkung
auf die volle Bildbewegung durch Einschließen der planaren Homographiekomponente
beschrieben.
-
In 1 ist
ein Blockdiagramm eines dreidimensionalen Szeneanalysesystems 100 dargestellt,
das für
die Implementierung der vorliegenden Erfindung geeignet ist. Das
System enthält
eine Bildquelle 102, ein Computersystem 104, ein
oder mehrere Ausgabevorrichtungen 124 und ein oder mehrere
Eingabevorrichtungen 126. Die Bildquelle 102 kann
eine Videokamera, eine Infrarotkamera oder irgendein anderer Sensor
sein, der eine Reihe von zweidimensionalen Bildern erzeugt, die
eine Szene darstellen. Altemativ kann eine Bildquelle eine Speichereinrichtung
sein, wie z. B. ein Videobandrecorder, ein Diskettenlaufwerk oder
irgendeine andere Einrichtung für
das Speichern von sequentiellen Bildern, die eine Szene darstellen.
Das System verarbeitet im allgemeinen digitale Bilder, aus diesem
Grund wird, wenn die Bildquelle analoge Bilder erzeugt, ein Digitalisierer
(nicht gezeigt) zwischen der Bildquelle und dem Computersystem verwendet.
-
Der Universalcomputer 104 erleichtert
die Bildverarbeitung, die Szeneanalyse und die Bildanzeige. Genauer
gesagt enthält
das Computersystem einen Datenpuffer 110, eine zentrale
Verarbeitungseinheit (CPU) 112, einen Unterstützungsschaltkreis 114,
einen Speicher mit wahlfreiem Zugriff (RAM) 116; einen Nur-Lese-Speicher
(ROM) 118 und einen Anzeigetreiber 120. Zusätzlich interagiert
ein Benutzer mit dem Computersystem über eine oder mehrere Eingabeeinrichtungen 126,
wie z. B. eine Tastatur, eine Maus, einen Trackball, ein Touchpad
oder dergleichen. Ebenso weist das Computersystem Bilder und verschiedene
graphische Interfaceanzeigen (Bildschirme) auf der Ausgangsanzeigeeinrichtung 124 an,
wie z. B. einen Computermonitor. Alternativ kann das Computersystem
ebenso mit anderen Ausgabeanzeigeeinrichtungen interagieren, wie
z. B. einem Drucker, um eine "Hardcopy" bzw. einen Ausdruck von
irgendeiner Anzeige zur Verfügung zu
stellen, die auf dem Computermonitor erscheint.
-
Der Datenpufferspeicher 110 stellt
eine Datenfrequenzangleichung (Einzelbildpufferspeicherung) zwischen
der Bildquelle und der CPU zur Verfügung. Typischerweise ist dieser
Pufferspeicher ein First-In-First-Out- (FIFO-) Pufferspeicher. Solche
Pufferspeicher werden typischerweise verwendet, um eine konstante
Datenrate zu der CPU zur Verfügung
zu stellen, während
eine Flexibilität
in den Datenraten, die von einer Bildquelle erzeugt werden können, zur
Verfügung
gestellt wird.
-
Die CPU 112 ist typischerweise
ein Allzweckprozessor, wie z. B. ein PowerPC, Pentium oder irgendein anderer
allgemein verfügbarer
Prozessor. PowerPC ist eine eingetragene Marke von International
Business Machines aus Armonk, New York, und Pentium ist eine eingetragene
Marke von Intel Corporation aus Santa Clara, Kalifornien. Da es
nicht notwendig ist, die Softwareimplementierung auf einem bestimmten
Prozessor auszuführen,
können
die Routinen der vorliegenden Erfindung auf irgendeinem Prozessortyp
oder auf Kombinationen von Prozessoren in einer parallelverarbeitenden
Computerumgebung ausgeführt
werden. Zusätzlich kann
die Szeneanalyse anstelle der Verwendung eines Allzweckcomputers
innerhalb eines Echtzeitprozessors durchgeführt werden.
-
Die CPU 112 arbeitet in
Verbindung mit verschiedenen anderen Schaltkreisen, wie z. B. dem
RAM 116, dem ROM 118 und dem Unterstützungsschaltkreis 114,
wie z. B. Coprozessor(en), Taktkreise, Cachespeicher, Stromversorgungen
und anderen gut bekannten Schaltkreisen. Der Betrieb und die Zwischenverbindung
dieser verschiedenen Computerkomponenten ist im Stand der Technik
gut bekannt und erfordert keine weitere Erklärung. Der Anzeigetreiber 120 kann
eine Videokarte, ein Druckertreiber oder irgendeine andere gebräuchliche
Treibersoftware oder -hardware sein, wie sie von der (den) Ausgangsvorrichtung(en) 106 erfordert
wird.
-
Der RAM 116 speichert die
Softwareimplementierung der vorliegenden Erfindung. Typischerweise werden
die Routinen der Endung in einer Massenspeichereinrichtung (nicht
gezeigt) abgelegt und für
die zeitweilige Speicherung in dem RAM 116 wieder aufgerufen,
wenn sie von der CPU 112 ausgeführt werden. In 1 ist die Erfindung in einer dreidimensionalen
Szenenanalyseroutine 122 verkörpert.
-
A. Parallaxenbasierte Beschränkungen
auf Punktpaaren
-
Eine Beschränkung auf der Parallaxenbewegung
von Punktpaaren zwischen zwei Einzelbildern, die eine dreidimensionale
Szene, wie sie von einer Videokamera abgebildet wird, darstellen,
wird unten beschrieben. Die abgeleitete Beschränkung kann verwendet werden,
um eine relative 3D-Struktur, die für zwei Punkte invariant ist,
allein aus ihren Parallaxenvektoren wiederherzustellen, ohne irgendeine
zusätzliche
Information und insbesondere ohne daß die Wiederherstellung der
Kameraepipole erforderlich ist.
-
Die Parallaxenbeschränkung wird
auf mehrere Einzelbilder erweitert, um eine Stabilitätsbeschränkung auf
jedem Paar von Bildpunkten (ähnlich
der trilinearen Beschränkung)
zu bilden. Es können
nämlich
Inkonsistenten in der 3D-Bewegung von zwei Punkten, die zu sich
unabhängig
bewegenden 3D-Objekten gehören, basierend
auf ihrer Parallaxenverschiebung zwischen drei (oder mehreren) Einzelbildern
erfaßt
werden, ohne daß die
Notwendigkeit besteht, irgendeine 3D-Information zu schätzen.
-
Um die Parallaxenbeschränkung abzuleiten,
wird als erstes die Zerlegung der Bildbewegung in eine Homographie
(d. h. die Bildbewegung einerwillkürlichen ebenen Fläche) und
residuelle Parallaxenverschiebungen beschrieben. Diese Zerlegung
ist im Stand der Technik bekannt.
-
1. Die Ebenen-Parallaxennotationen
-
-
-
Die Gleichungen (4) und (5) stellen
die Form der Parallaxennotation zur Verfügung, die in der folgenden
Beschreibung verwendet werden. Es sei bemerkt, daß sie in
Begriffen der 2D-Bildkoordinaten
ausgedrückt sind.
Obgleich wir die Parallaxennotation für TZ ≠ 0 und TZ ≠ 0
unterschiedlich hergeleitet haben, werden sie vereinheitlicht und
als ein einzelner Fall in den folgenden Abschnitten behandelt.
-
2. Die parallaxenbasierte
Strukturbeschränkung
-
-
-
-
3 stellt
die Beschränkung
geometrisch dar.
-
Der Vorteil der Beschränkung in
Gleichung 12 ist der, daß dies
direkt aus den Positionen und Parallaxenvektoren der zwei Punkte
Information zur Verfügung
stellt ohne die Notwendigkeit, über
die Berechnung des Epipols zu gehen unter Verwendung von soviel
Information wie ein Punkt über
einen anderen geben kann.
-
4 zeigt
graphisch ein Beispiel einer Konfiguration, in der das Schätzen des
Epipols sehr unzuverlässig
ist, wobei das Schätzen
der relativen Struktur direkt aus Gleichung (12) zuverlässig ist.
-
3. Die parallaxenbasierten
Stabilitätsbeschränkungen
-
In diesem Abschnitt wird beschrieben,
wie die parallaxenbasierte Strukturbeschränkung auf mehrere Einzelbilder
erweitert werden kann, um eine Stabilitätsbeschränkung auf Paaren von Bildpunkten
zu bilden, die weder Strukturparameter noch Kamerageometrie enthalten.
-
Stabilität über mehrere Einzelbilder.
-
-
Stabilität über mehrere Punkte:
-
Anstelle der Betrachtung von Punktpaaren über mehrere
Einzelbilder ist es eine Alternative, mehrere Punkte über zwei
Einzelbilder zu betrachten, um auf eine unterschiedliche Form der
Festigkeitsbeschränkung zu
kommen.
-
-
-
Der Nutzen der Stabilitätsbeschränkung (14)
liegt in der Tatsache, daß sie
diese Information direkt von den Positionen und Parallaxenvektoren
der drei Punkte zur Verfügung
stellt ohne die Notwendigkeit, durch die instabile Berechnung des
Epipols zu gehen, unter Verwendung von soviel Information wie zwei
Punkte über den
dritten geben können.
-
B. Parallaxengeometrie und
Epipoldual
-
In diesem Abschnitt wird ein anderer
Weg der Ableitung der parallaxenbasierten Stabilitätseinschränkung beschrieben.
Anstelle des algebraischen Ableitens der Beschränkungen verwendet die alternative
Ableitung die Geometrie. Dies führt
zu einer einfachen und intuitiven geometrischen Interpretation der
Mehrfacheinzelbilderstabilitätsbeschränkung und
zu der Ableitung eines bualpunktes zu dem Epipol. Obgleich dieser
eindeutige Bildpunkt (der Epipoldual) hervorgehoben wird, erfordert
die Stabilitätseinschränkung selbst
nicht die Abschätzung
des Dualepipols, genauso wie sie nicht die Abschätzung des Epipols selbst erfordert.
-
-
Es sei R der Schnittpunkt zwischen
der Linie, die P und Q verbindet, und der Ebene S.
Es sei bemerkt, daß die
Punkte P, Q, R, Pw und
(Qw koplanar sind. Somit sind Pw und Qw und RQ linear.
Natürlich
sind P, Q und R durch Konstruktionen
kollinear.
-
-
Dies ist dieselbe Gleichung wie die
Stabilitätsbeschränkung, die
in Gleichung (13) abgeleitet wurde. Es sei bemerkt, daß die Stabilitätsbeschränkung selbst
nicht die Abschätzung
des Konvergenzpunk– tes
erfordert, genauso wie
sie nicht die Abschätzung
des Epipols erfordert.
-
Der Punkt
ist der Dualpunkt des
Epipols: Der Epipol ist der Schnittpunkt von mehreren Parallaxenvektoren
zwischen einem Paar von Einzelbildern, d. h. der Schnittpunkt aller
Linien, die zwischen einem Einzelbildpaar jeden Bildpunkt mit seinem
verzerrten Punkt verbinden. Wohingegen der Dualpunkt
der Schnittpunkt von
allen Linien ist, die ein Punktepaar in dem Referenzbild und das
entsprechende Paar von verzerrten Punkten von allen anderen Einzelbildern
verbindet.
-
C. Anwendungen der paarweisen
Parallaxengeometrie
-
In diesem Abschnitt wird beschrieben,
wie die paarweise Parallaxengeometrie in ihren verschiedenen Formen
einen Ansatz zur Handhabung von einigen der gut bekannten Problemen
in der 3D-Szenenanalyse zur Verfügung
stellt, insbesondere: (i) Erfassung von sich bewegenden Objekten,
(ii) Formwiederherstellung, (iii) Erzeugung neuer Ansichten. Es
wird gezeigt, daß die
Parallaxenbeschränkung
die Fähigkeit
für das
Lösen dieser
Probleme zur Verfügung
stellt, ohne daß zuerst
ein "komplexeres" Problem zu lösen
ist.
-
5 stellt
ein Flußdiagramm
eines Prozesses für
das Durchführen
der dreidimensionalen Szeneanalyse dar, der die Formbeschränkung von
Gleichung (12) (oder der äquivalenten
Gleichung (11)) und die Stabilitätsbeschränkungen
der Gleichungen (13) und (14) verwendet. Der Prozeß wird als
eine ausführbare
Softwareroutine
500 dargestellt, die in Schritt 502 beginnt
und mit Schritt
504 fortsetzt. In Schritt
504 wird
die Routine mit einer Mehrzahl von Eingangsbildern zur Verfügung gestellt.
In Schritt
506 berechnet die Routine eine planare Parallaxenbewegung
(z. B.
für jeden
-
Punkt in dem Bild. In Schritt 508
werden dann für
jede Bewegungstrajektorie, die in Schritt 506 bestimmt
wurde, eine oder mehrere der Beschränkungen der Gleichungen (11),
(12), (13) und (14) unter Bezug auf alle anderen Punkte angewendet.
Die Routine 500 verwendet die Information von Schritt 508 (z.
B. die Information, die einige Bildpunkte als konsistent mit den
Beschränkungen
und einige Bildpunkte als konsistent mit der Beschränkung darstellt)
innerhalb eines oder mehrerer bildverarbeitender Aufgaben. Diese
Aufgaben beinhalten, sind jedoch nicht hierauf begrenzt, die Erfassung
von sich bewegenden Objekten (Schritt 510), die Formwiederherstellung
(Schritt 512) und die Erzeugung einer neuen Ansicht (Schritt 514).
Jede dieser illustrativen Anwendungen der erfindungsgemäßen Technik
werden unten beschrieben.
-
1. Abschätzen der planaren Parallaxenbewegung
-
Die Abschätzung der planaren Parallaxenbewegung,
die für
das Durchführen
der Experimente verwendet wird, die in diesem Abschnitt dargestellt
werden, wurde durchgeführt
unter Verwendung zweier aufeinanderfolgender Berechnungsschritte:
(i) 2D-Bildausrichtung, um eine erfaßte ebene Bewegung zu kompensieren
(d. h. die Homographie in der Form einer 2D-parametrischen Transformation)
und (ii) die Schätzung
der residuellen Bildverschiebungen zwischen den ausgerichteten Bildern
(d. h. die Parallaxe). Solch ein System ist in der provisorischen
US-Patentanmeldung Nr. 60/011,496, eingereicht am 02.12.1996 (Anwaltsaktenzeichen
12040) beschrieben.
-
2. Formwiederherstellung
-
Die parallaxenbasieite Strukturbeschränkung (Gleichung
(12)) kann verwendet werden, um eine relative 3D-Struktur zwischen
Punktpaaren direkt aus ihren Parallaxenvektoren wiederherzustellen.
Dies impliziert, daß die
Struktur der gesamten Szene relativ zu einem einzelnen Referenzbildpunkt
(mit einer Parallaxe von ungleich Null) wiederhergestellt werden
kann. Singularitäten
treten auf, wenn der Nenner der Beschränkung (Gleichung (12)) in Richtung
Null tendiert, d. h. für
Punkte, die auf der Linie liegen, die von dem Referenzpunkt in Richtung
ihres Parallaxenvektors verläuft.
-
Die 8a–g zeigen
ein Beispiel einer Wiederherstellungsstruktur einer gesamten Szene
relativ zu einem einzelnen Referenzpunkt. Drei Ansichten, die von
einer Handkamera erhalten wurden, von einem kleinen Teppich, der
mit Spielzeugautos und -boxen bedeckt ist, wurden als Quelldaten
verwendet, deren Höhen gemessen
wurden. Die ertaßte
planare 2D-Bewegung war die des kleinen Teppichs (8d). Ein einzelner Punkt mit einer planaren
Parallaxe von ungleich Null wurde als Referenzpunkt für das Abschätzen der
relativen Form ausgewählt
(8e). 8f zeigt die wiederhergestellte relative
Struktur der gesamten Szene aus zwei Einzelbildern (8b und 8c).
Regionen nahe der Bildgrenzen wurden ignoriert. Die erhaltenen Resultate
waren recht genau, abgesehen von der singulären Linie in Richtung der Parallaxe
des Referenzpunktes. Die singuläre
Linie ist in 8f offensichtlich.
-
Die Singularitäten können entfernt werden und die
Qualität
der berechneten Struktur kann verbessert werden entweder durch Verwendung
von mehreren Einzelbildern oder durch Verwendung von mehreren Referenzpunkten:
-
- – Mehrere
Einzelbilder: Singularitäten
werden entfernt durch Verwendung von mehreren Einzelbildern, wenn ihre
Epipole nicht kollinear sind. Die Nicht-Kollinearität von Epipolen
kann durch eine Veränderung
in der Parallaxenrichtung des Referenzbildpunktes erfaßt werden.
- – Mehrere
Punkte: Singularitäten
können
entfernt werden durch Verwendung zusätzlicher Referenzbildpunkte. Ein
zusätzlicher
Referenzpunkt sollte derart ausgewählt werden, daß: (i) er
nicht auf der singulären
Linie liegt (d. h. in der Richtung des Parallaxenvektors) des ersten
Referenzpunktes (er sollte vorzugsweise auf der Linie senkrecht
zu diesem ausgewählt
werden), und (ii) der zusätzliche
Referenzpunkt sollte zunächst
darauf überprüft werden,
daß er
sich konsistent. mit dem ersten Referenzpunkt durch die Stabilitätsbeschränkung von Gleichung
(13) über
ein Paar von Einzelbildern bewegt.
-
Kombinationen von mehreren Referenzpunkten über mehrere
Einzelbilder können
ebenso verwendet werden. 8g zeigt
ein Beispiel der Wiederherstellung der Struktur einer gesamten Szene
aus drei Einzelbildern relativ zu dem einzelnen Referenzpunkt wie
in 8f. Die singuläre Linie
in 8f ist verschwunden.
-
Die Fähigkeit, relativ gute Strukturinformation
zu erhalten, selbst unter Bezug auf einen einzelnen Punkt hat verschiedene
wichtige Vorteile:
-
- – Sie
erfordert nicht die Abschätzung
des Epipols und daher erfordert sie nicht die dichte Parallaxeninformation.
- – Im
Gegensatz zu konventionellen Techniken für das Wiederherstellen von
Strukturen stellt sie die Fähigkeit zur
Verfügung,
dynamische Szenen zu handhaben, da sie nicht eine Samm-lung von Bildpunkten
erfordern, von denen a priori bekannt ist, daß sie zu dem einzelnen sich
bewegenden 3D-Objekt gehören.
- – Da
es sich auf einen einzelnen Parallaxenvektor stützt, stellt es einen natürlichen
kontinuierlichen Weg zur Verfügung,
die Lücke
zwischen 2D-Fällen,
die annehmen, daß nur
eine ebene Bewegung existiert, und 3D-Fällen, die sich auf das Vorhandensein
von Parallaxendaten stützen,
zu überbrücken.
-
3. Die Ertassung von sich
bewegenden Objekten
-
Eine Anzahl von Techniken existiert,
um die Analyse von Mehrfachbewegungen in dem einfacheren 2D-Fall
zu handhaben, in denen Bewegungen von unabhängigen sich bewegenden Objekten
durch parametrische 2D-Transformation modelliert werden. Diese Verfahren
erfassen jedoch Punkte mit planarer Parallaxenbewegung als sich
bewegende Objekte, da sie eine unterschiedliche 3D-Bildbewegung
gegenüber
dem ebenen Teil der Hintergrundszene haben.
-
Im allgemeinen 3D-Fall ist das Problem
der Erfassung von sich bewegenden Objekten viel komplexer, da es
die Erfassung von 3D-Bewegungsinkonsistenzen erfordert. Typischerweise
wird dies durchgeführt
durch Wiederherstellen der Epipolargeometrie. Das Versuchen, die
Epipolargeometrie (d. h. die Kamerabewegung) in der Anwesenheit
von mehreren sich bewegenden Objekten zu schätzen ohne vorherige Segmentierung,
ist extrem schwierig. Dieses Problem wird hoch akuter, wenn nur
noch eine dürftige
Parallaxeninformation existiert.
-
9a stellt
graphisch ein Beispiel einer Konfiguration dar, in der das Abschätzen des
Epipols in der Anwesenheit von mehreren sich bewegenden Objekten
relativ große
Fehler erzeugen kann, selbst wenn Clustertechniken in der Epipoldomäne verwendet
werden, wie von einigen konventionellen Techniken vorgeschlagen
wird. Das Sich-Verlassen auf die Epipolberechnung, um Inkonsistenzen
in der 3D-Bewegung zu erfassen, versagt bei der Erfassung von sich
bewegenden Objekten in diesen Fällen.
-
In 9a bewegt
sich die Kamera nach rechts. Das einzige statische Objekt mit keiner
Parallaxenbewegung ist das des Baumes. Der Ball fällt unabhängig. Der
Epipol kann inkorrekt als e berechnet werden. Der falsche Epipol
e ist mit beiden Bewegungen konsistent.
-
Für
jedes der drei Einzelbilder oder für mehrere Einzelbilder in einer
Sequenz kann die Par allaxenstabilitätsbeschränkung (Gleichung (13)) angewendet
werden, um Inkonsistenzen in der 3D-Bewegung von einem Bildpunkt relativ
zu einem anderen direkt aus ihren "Parallaxen"vektoren über mehrere
Einzelbilder zu erfassen, ohne die Notwendigkeit, entweder die Kamerageometrie
oder die Formparameter zu schätzen,
wobei die "Parallaxen"vektoren (d. h. die residuelle Bewegung nach
der Planarregistrierung) in konsistenten Gruppen zu konsistenten
sich bewegenden 3D-Objekten gehören,
selbst in Fällen,
wie in 9a, wo die Parallaxeninformation
minimal ist und die unabhängige
Bewegung nicht vernachlässigbar
ist Dieser Prozeß wird
in Schritt 510 von 5,
wie oben beschrieben, durchgeführt. 9b stellt graphisch dar,
wie die Stabilitätsbeschränkung von
Gleichung (13), wenn sie angewendet wird, die 3D-Inkonsistenz über die
drei Einzelbilder erfaßt.
-
Die 10a–f zeigen
ein Beispiel der Verwendung der Stabilitätsbeschränkung von Gleichung (13), um
3D-Inkonsistenzen zu erfassen. In dieser Sequenz ist die Kamera
in Bewegung (Translationsbewegung von links nach rechts), was einer
Parallaxenbewegung auf dem Haus, der Straße und dem Straßenschild
von unterschiedlicher Größe induziert.
Das Auto bewegt sich unabhängig
von links nach rechts. Wenn Gleichung (13) auf die Bilder angewendet
wird, ist die erfaßte
ebene 2D-Bewegung diejenige des Hauses. Die planare Parallaxenbewegung
wird nach der 2D-Registrierung
der drei Bilder unter Bezug auf das Haus (10d) berechnet. Wie in 10d gezeigt ist, werden in diesem Schritt
alle Punkte, die zu der erfaßten
ebenen 2D-Bewegung korrespondieren, aus dem Bild entfernt. Als nächstes wird
ein einzelner Punkt auf dem Straßenschild als Referenzpunkt
ausgewählt
(10e). 10f stellt das Maß der Inkonsistenz von jedem
Punkt in dem Bild unter Bezug auf den ausgewählten Straßenschildpunkt dar, wobei alle
Bildpunkte, die eine ebene 2D-Bewegung oder eine 3D-Bewegung, die
konsistent mit dem ausgewählten
Referenzpunkt ist, darstellen, entfernt sind. Helle Regionen zeigen
große
Werte an, wenn die Beschränkung
von Gleichung (13) (d. h. die Bewegungsdiskontinuitäten-Verletzungen
in der 3D-Stabilität,
die über
die drei Einzelbilder in Bezug auf den Straßenschildpunkt erfaßt wurden)
angewendet werden. Der Bereich, der erfaßt wurde als sich 3D-inkonsistent
unter Bezug auf den Straßenschildpunkt
bewegend, entspricht dem Auto. Regionen, die nahe der Bildgrenze sind,
wurden ignoriert. Alle anderen Regionen des Bildes wurden als sich
3D-konsistent mit dem Straßenschildpunkt
bewegend erfaßt.
-
Allgemein gesprochen identifiziert
und entfernt der Prozeß 1)
die Pixel, die der ebenen 2D-Bewegung entsprechen,
und 2) die Pixel, die denjenigen Punkten entsprechen, die über die
drei Einzelbilder 3D-Stabilität zeigen.
Was verbleibt, ist der Bildbereich, der keine 3D-Stabilität über die
drei Einzelbilder zeigt, was konsistent mit den Bildebenen ist (d.
h. das Haus und das Verkehrszeichen). Daher stellt dieses Verfahren
unter der Annahme einer nicht kalibrierten Kamera einen Mechanismus
für das
Segmentieren aller residuellen Bewegungsvektoren, die nicht Null
sind (nach der ebenen 2D-Stabilisierung), in Gruppen, die sich konsistent
(im 3D-Sinn) bewegen und für
das Bestimmen aus den relativen Konsistenzen, ob ein Objekt sich
in dem Bild unabhängig bewegt
(d. h. inkonsistent mit der Parallaxenbewegung), zur Verfügung.
-
Die 11a–f zeigen
ein anderes Beispiel der Verwendung der Stabilitätsbeschränkung von Gleichung (13), um
3D-Inkonsistenzen zu erfassen. In dieser Abfolge ist die Kamera
an einem Helikopter befestigt, der von links nach rechts fliegt,
was eine Parallaxenbewegung (von unterschiedlicher Größe) auf
das Hausdach und die Bäume
(unterer Bereich des Bildes) induziert und auf die Elektrizitätsmasken
(neben der Straße). Drei
Autos bewegen sich auf der Straße
unabhängig.
Die erfaßte
ebene 2D-Bewegung ist die der Bodenfläche (11d). Ein einzelner Punkt wurde auf einem
Baum als Referenzpunkt ausgewählt
(11e). 11f stellt das Maß der Inkonsistenz von jedem
Punkt in dem Bild unter Bezug auf den ausgewählten Referenzpunkt dar. Helle
Bereiche zeigen 3D-Inkonsistenz an, die über drei Einzelbilder erfaßt wurde.
Die drei Autos werden als sich inkonsistent mit dem ausgewählten Baumpunkt
bewegend erfaßt.
Regionen nahe der Bildgrenze werden ignoriert. Alle anderen Bildregionen
werden als sich konsistent mit dem ausgewählten Baumpunkt bewegend erfaßt.
-
Im Stand der Technik wurde eine Stabilitätsbeschränkung zwischen
drei Einzelbildern in der Form eines trilinearen Tensors unter Verwendung
von regelmäßigen Bildverschiebungen
präsentiert.
Dieses Verfahren erfordert jedoch eine Sammlung eines Satzes von
Bildpunkten, von denen a priori bekannt ist, daß sie zu dem einzelnen sich
bewegenden 3D-Objekt gehören.
Das Auswählen
eines inkonsistenten Satzes von Punkten führt zu einem fehlerhaften Tensor
und somit zu einer falschen Erfassung von sich bewegenden Objekten.
-
Die Fähigkeit der Parallaxenstabilitätsbeschränkung der
vorliegenden Erfindung, 3D-Inkonsistenzen unter
Bezug auf einen einzelnen Punkt zu erfassen, stellt einen natürlichen
Weg zur Verfügung,
um eine Brücke
zwischen 2D-Algorithmen (die annehmen, daß jede 2D-Bewegung, die sich
von der ebenen Bewegung unterscheidet, ein unabhängiges sich bewegendes Objekt
ist) und den 3D-Algorithmen (die sich darauf stützen, vorheriges Wissen über einen
konsistenten Satz von Punkten zu haben oder alternativ dichte Parallaxendaten
haben) zur Verfügung
zu stellen.
-
4. Erzeugung einer neuen
Ansicht
-
Dieser Abschnitt beschreibt einen
Ansatz basierend auf der Parallaxenstabilitätsbeschränkung für das Erzeugen von neuen Ansichten
unter Verwendung eines Satzes von "Modell"-Ansichten.
-
Verfahren für das Erzeugen neuer Ansichten
basierend auf der Wiederherstellung der Epipolargeometrie sind wahrscheinlich
stärker
rauschempfindlich als Verfahren, die die neue Ansicht allein auf
2D-Information-basierend erzeugen, d. h. ohne von 2D durch ein 3D-Medium
zu gehen, um Information noch einmal auf eine neue 2D-Bildebene
(die virtuelle Ansicht) zu projizieren. Der Ansatz, der unten beschrieben
wird, für
die Erzeugung einer neuen Ansicht erfordert keine Schätzung der
Epipolargeometrie oder der Form.
-
Sind zwei "Modell"-Einzelbilder gegeben,
kann die planare Parallaxenbewegung für alle Bildpunkte zwischen
dem ersten (Referenz-) Einzelbild und dem zweiten Einzelbild berechnet
werden. Ein Bildpunkt mit einer Parallaxe von nicht Null wird ausgewählt und
ein "virtueller" Parallaxenvektor wird für diesen Punkt aus dem Referenzeinzelbild
zu dem "virtuellen" Einzelbild, das zu erzeugen ist; definiert.
Die Stabilitätsbeschränkung (Gleichung
(13)) spezifiziert dann eine einzelne Einschränkung für die virtuelle Parallaxenbewegung
von allen anderen Punkten von dem Referenzeinzelbild zu dem virtuellen
Einzelbild. Da jeder 2D-Parallaxenvektor zwei Komponenten (d. h.
zwei Unbekannte) hat, werden zumindest zwei "virtuelle" Parallaxenvektoren
spezifiziert werden müssen,
um alle anderen Parallaxenvektoren zu lösen. Sobald die virtuellen
Parallaxenvektoren berechnet sind, kann die neue virtuelle Ansicht
erzeugt werden durch zweimaliges Verzerren des Referenzbildes: Als
erstes wird jeder Bildpunkt um seine berechnete virtuelle Parallaxe
verzerrt. Dann wird global das gesamte Einzelbild mit einer virtuellen
ebenen 2D-Bewegung für
die Virtuelle Homographie verzerrt.
-
Es sei bemerkt, daß zwei virtuelle
Parallaxenvektoren eine nicht ausreichende Beschränkung für manche
Bildpunkte zur Verfügung
stellen können.
Dies liegt aufgrund der ungünstigen
Lokalisierung der Punkte in der Bildebene unter Bezug auf die zwei
ausgewählten
Referenzpunkte und ihrer Parallaxenvektoren. Es können jedoch
andere Bildpunkte, für
die die Beschränkung
robust und ausreichend ist, um eine zuverlässige virtuelle Parallaxe zu
erzeugen, als zusätzliche
Punkte verwendet werden (sobald ihre virtuelle Parallaxe berechnet
wurde), um die virtuelle Parallaxe der singulären Punkte zuverlässig einzuschränken.
-
D. Die generalisierte Parallaxenbeschränkung
-
In diesem Abschnitt wird beschrieben,
wie die paarweise Parallaxenbeschränkung (Gleichungen (11), (12),
(13) und (14)) erweitert werden können, um die volle Bildbewegung
(im Gegensatz zu der Parallaxenbewegung) zu behandeln, selbst wenn
die Homographie unbekannt ist. Dies ist nützlich für die Behandlung von Szenen,
die keine physikalisch ebene Fläche
enthalten. Eine Form einer generalisierten Parallaxenbeschränkung zwischen
zwei Einzelbildern in Abhängigkeit
von den unbekannten Homographieparametern und der relativen projektiven
Struktur von Punktpaaren wird beschrieben.
-
Die Gleichungen (1) und (2) können in
eine einzelne Form vereinigt werden:
-
Die generalisierte Parallaxenbeschränkung (17)
wird in Abhängigkeit
von der Homographie A', den Bildkoordinaten eines Punktpaares
in zwei Einzelbilder und der relativen projektiven Struktur der
zwei Punkte ausgedrückt.
Die generalisierte Beschränkung
beinhaltet nicht die Epipole.
-
Die generalisierte Parallaxenbeschränkung regt
eine neue implizite Darstellung der allgemeinen 2D-Bildbewegung
an: Anstelle des Suchens nach der Darstellung der 2D-Bildbewegung
in Abhängigkeit
von: Homographie plus Epipol plus projektive Struktur, regt sie
eine implizite Darstel-lung
der 2D-Bildbewegung in Abhängigkeit
von der Homographie plus relativer projektiver Struktur von Punktpaaren
an. Da diese Darstellung den Epipol nicht enthält, kann sie leicht auf mehrere
Einzelbilder erweitert werden.
-
-
Gleichung (19) ist eine Stabilitätsbeschränkung für ein Punktepaar über drei
Einzelbilder. Wie der trilineare Tensor des Standes der Technik
beinhaltet er die Parameter von zwei Homographien über drei
Einzelbilder. Anders als der trilineare Tensor enthält er nicht
den Epipol, sondern wird stattdessen in Punktpaaren ausgedrückt.
-
Die trilineare Beschränkung basiert
auf einem ursprünglichen
Referenzpunkt und jeder zusätzliche Punkt
addiert vier linear unabhängige
Gleichungen, um die Unbekannten des Tensors zu beschränken (die Kombinationen
der Homographieparanieter und des Epipols sind).
-
In der generalisierten Parallaxenstabilitätsbeschränkung ist
die Basis ein Punktepaar. Hier fügt
ebenso jeder zusätzliche
Punkt vier linear unabhängige
Stabilitätsbeschränkungen
ein. Diese können
abgeleitet werden durch Ausklammern von TZ aus
Gleichung (16) mit dem zusätzlichen
drit ten Punkt (immer noch innerhalb eines Paares von Einzelbildern),
um die vier linear unabhängigen
Gleichungen über
die drei Einzelbilder zu bilden.
-
Obgleich verschiedene Ausführungsformen,
die die Lehren der vorliegenden Erfindung beinhalten, gezeigt und
hier im Detail beschrieben wurden, ergeben sich den Fachleuten leicht
viele andere variierte Ausführungsformen,
die immer noch diese Lehren beinhalten.