DE69722378T2

DE69722378T2 - Verfahren und vorrichtung zur bearbeitung eines dreidimensionalen bildes mit hilfe der parallaxgeometrie von punktpaaren

Info

Publication number: DE69722378T2
Application number: DE69722378T
Authority: DE
Inventors: Michal Irani; Pahmanabhan Anandan
Original assignee: Sarnoff Corp
Current assignee: Sarnoff Corp
Priority date: 1996-02-12
Filing date: 1997-02-12
Publication date: 2004-02-26
Anticipated expiration: 2017-02-13
Also published as: DE69722378D1; WO1997035161A1; US6192145B1; EP0880675A4; KR20000064528A; JP2001521650A; EP0880675B1; EP0880675A1

Description

Die vorliegende Erfindung betrifft im allgemeinen bildverarbeitende Systeme und insbesondere ein Verfahren und eine Vorrichtung für die Verarbeitung der Parallaxengeometrie von Paaren von Punkten innerhalb einer dreidimensionalen Szene.
Vaidya N. M. et al.: "Stereopsis and Image Registration from Extended Edge Features in the Absence of Camera Pose Information", Proceedings of the Computer Society Conference on Computer Vision and Pattern Recognition, USA, Los Alamitos, IEEE. Comp. Soc. Press, 3.-6. Juni 1991, S. 76–82, XP000337344 ISBN: 0-8186-2148-6, beschreibt ein Verfahren der 3D-Bildverarbeitung ohne Verwendung einer Epipolarbedingung. Das Verfahren verwendet einen Algorithmus basierend auf Bildkantenkonturen.
Die Analyse von dreidimensionalen Szenen aus Bildsequenzen hat eine Anzahl von Zielen. Diese Ziele beinhalten, sind jedoch nicht begrenzt auf: (i) die Wiederherstellung von 3D-Szenenstrukturen, (ii) die Erfassung von sich bewegenden Objekten in der Anwesenheit von kamerainduzierter Bewegung und (iii) die Synthese von neuen Kameraansichten basierend auf einem gegebenen Satz von Ansichten.
Der traditionelle Ansatz für diese Typen von Problemen war es zunächst, die Epipolargeometrie zwischen Paaren von Einzelbildern wiederherzustellen und dann diese Information anzuwenden, um die oben erwähnten Ziele zu erreichen. Dieser Ansatz leidet jedoch unter den Schwierigkeiten, die mit der Wiederherstellung der Epipolargeometrie verknüpft sind.
Neuere Ansätze für die 3D-Szenenanalyse haben versucht, einige der Schwierigkeiten bei der Wiederherstellung der Epipolargeometrie zu überwinden durch Zerlegen der Bewegung in eine Kombination aus einer planaren Homographie und einer residuellen Parallaxe. Die Bewegung der residuellen Parallaxe hängt von der projektiven Struktur und der Translation zwischen den Kameraursprüngen ab. Während dieses Verfahren einige Unklarheiten in der Abschätzung der Kameradrehung entfernen, erfordern sie immer noch die explizite Schätzung des Epipols selbst, was unter vielen Umständen schwierig sein kann. Die Epipolabschätzung ist insbesondere schlecht konditioniert, wenn der Epipol signifikant von dem Zentrum des Bildes entfernt liegt und die Parallaxenbewegungsvektoren nahezu parallel zueinander sind. Ebenso, wenn es nur eine kleine Anzahl von Parallaxenvektoren gibt und die Szene sich bewegende Objekte enthält, beeinflussen diese Objekte die Abschätzung des Epipols in falscher Weise.
Im allgemeinen nimmt die Behandlung der Mehrpunktgeometrie an, daß die Szene statisch ist und ist auf die Tatsache angewiesen, daß nahezu alle Punkte, die für die Formschätzung ausgewählt wurden, als zu einem einzelnen festen Körper gehörend bekannt sind. In ihrer gegenwärtigen Form hat diese Klasse von Verfahren Nachteile, beispielsweise befassen die Verfahren sich nicht mit dem Problem der Formwiedergewinnung in dynamischen Szenen, insbesondere, wenn die Größe der Bildbewegung aufgrund eines sich unahhängig bewegenden Objektes nicht vernachlässigbar ist:
BESCHREIBUNG DER ERFINDUNG
Ein Aspekt der Erfindung stellt ein Verfahren für die Bildverarbeitung zur Verfügung, das die Schritte aufweist:

(a) Empfangen einer Mehrzahl von zweidimensionalen Bildern, die eine Szene repräsentieren,
(b) Berechnen einer mit der Parallaxe verbundenen Beschränkung bzw. Nebenbedingung für ein Paar von Punkten innerhalb der Mehrzahl von Bildem, wobei die mit der Parallaxe verbundene Beschränkung unabhängig von irgendeiner epipolaren Geometrie ist, die für das Paar von Punkten definiert werden kann,
(c) Anwenden der mit der Parallaxe verbundenen Beschränkung auf eine Mehrzahl von Punkten innerhalb der Mehrzahl von Bildern, um Informationen zu erzeugen, die repräsentativ dafür sind, ob ein gegebener Punkt innerhalb der Mehrzahl der Bilder mit der die Parallaxe betreffenden Beschränkung konsistent ist, und
(d) Verwenden der erzeugten Information für eine Bildverarbeitungsaufgabe, die in Verbindung mit der empfangenen Mehrzahl von Bildern steht.

Ein anderer Aspekt der vorliegenden Erfindung stellt eine Vorrichtung für die Bildverarbeitung zur Verfügung, die aufweist: eine Quelle von zweidimensionalen Bildem, die für eine Szene repräsentativ sind, einen Computerprozessor für die Verarbeitung der zweidimensionalen Bilder, der aufweist:

(a) eine Einrichtung für das Empfangen einer Mehrzahl von zweidimensionalen Bildern, die repräsentativ für eine Szene sind,
(b) eine Einrichtung für das Anwenden einer die Parallaxe betreffenden Beschränkung bzw. Nebenbedingung auf eine Mehrzahl von Punkten innerhalb der Mehrzahl von Bildern, um Informationen zu erzeugen, die dafür repräsentativ sind, ob ein gegebener Punkt innerhalb der Mehrzahl von Bildem konsistent mit der die Parallaxe betreffenden Beschränkung ist, wobei die die Parallaxe betreffende Beschränkung unabhängig von irgendeiner epipolaren Geometrie ist, die für die Mehrzahl von Punkten definiert werden kann,
(c) eine Einrichtung für das Anwenden einer Parallaxenbeschränkung an eine Mehrzahl von Punkten innerhalb der Mehrzahl von Bildern, um eine Information zu erzeugen, die repräsentativ dafür ist, ob ein gegebener Punkt innerhalb der Mehrzahl von Bildern mit der die Parallaxe betreffenden Beschränkung konsistent ist,
(d) eine Einrichtung für die Verwendung der erzeugten Information für eine Bildverarbeitungsaufgabe, die mit der empfangenen Mehrzahl von Bildern in Beziehung steht, und Erzeugen eines Ausgangssignals, das hiermit in Beziehung steht,
(e) eine Ausgabevorrichtung für die Präsentation des Ausgangssignals der bildverarbeitenden Aufgabe.

Die Lehren der vorliegenden Erfindung können leicht verstanden werden durch Betrachten der folgenden illustrativen Beschreibung in Verbindung mit den begleitenden Zeichnungen, in denen:
1 ein Blockdiagramm eines Analysesystems für dreidimensionale Szenen darstellt,
2 eine geometrische Darstellung der ebenen Homographie plus der Parallaxenauferlegung zur Verfügung stellt,
3 eine geometrische Darstellung einer paarweisen Parallaxenbeschränkung darstellt,
4 eine geometrische Darstellung einer Szene darstellt, wo die Epipolschätzung unzuverlässig ist, jedoch die relativen Strukturbeschränkungen zuverlässig verwendet werden können, um die relative Struktur innerhalb der Szene wiederherzustellen,
5 ein Flußdiagramm einer Routine darstellt, die die Parallaxenbeschränkung verwendet,
6 und 7 eine Illustration der Parallaxengeometrie und des Dualepipols zur Verfügung stellen und
8a–g eine Reihe von Bildern darstellen, die verwendet und erzeugt werden während der Formwiederherstellung, die auf einem einzelnen Pacallaxenvektor beruht.
9a–b eine zuverlässige Erfassung der 3D-Bewegungsinkonsistenz mit spärlicher Parallaxeninformation unter Verwendung eines Balls und eines Baums darstellt,
10a–f eine Reihe von Bildern sind, die die Erfassung von sich bewegenden Objekten darstellen, die sich auf einen einzelnen Parallaxenvektor stützt.
11a–f eine Reihe von Bildern ähnlich der 10a–f sind, die die Erfassung sich bewegender Objekte beruhend auf einem einzelnen Parallaxenvektor darstellen.
Um das Verständnis zu erleichtern, wurden identische Bezugszeichen verwendet, sofern möglich, um identische Elemente, die den Figuren gemeinsam sind, zu bezeichnen.
DETAILLIERTE BESCHREIBUNG
Überblick
Die vorliegende Erfindung verwendet in verschiedenen Bildverarbeitungsaufgaben die geometrischen Beziehungen zwischen der Parallaxenverschiebung von zwei oder mehreren Punkten innerhalb zweier oder mehrerer Bilder. Die Erfindung wendet diese Beziehungen auf verschiedene bildverarbeitende Aufgaben an, wie z. B. (i) die Wiederherstellung einer 3D-Szenenstruktur, (ii) die Erfassung von sich bewegenden Objekten in der Anwesenheit einer kamerainduzierten Bewegung, und (iii) die Synthese von neuen Kameraansichten basierend auf einem gegebenen Satz von Ansichten.
Ein wichtiger Vorteil der vorliegenden Erfindung ist die Fähigkeit, effektiv in schwierigen Bildverarbeitungssituationen (z. B. wenn es eine kleine Anzahl von Parallaxenvektoren gibt, wenn die Epipolabschätzung schlecht konditioniert ist und in der Anwesenheit von sich bewegenden Objekten) zu arbeiten. Die vorliegende Erfindung erfordert nicht die Wiedergewinnung der Epipole während der Verarbeitung; daher ist sie auf Situationen anzuwenden, wenn die genaue Wiedergewinnung der Epipole schwierig ist. Darüber hinaus sind die vorliegenden Techniken für die 3D-Szeneanalyse anwendbar, wenn nur ein kleiner Satz von Parallaxenvektoren verfügbar ist. In der Tat kann die ebene Parallaxe eines einzelnen Punktes verwendet werden als eine Referenz, um die Struktur der gesamten Szene wiederherzustellen und um zu bestimmen, ob andere Punkte zu der statischen Szene oder zu einem sich bewegenden Objekt gehören.
Die Ergebnisse, die hier präsentiert sind, werden in Abhängigkeit von der residualen Parallxenverschiebung von Punkten nach dem Aufheben einer planaren Homographie ausgedrückt. Es wurde gezeigt, daß die Zerlegung der Bildbewegung in eine Homographie plus eine Parallaxe robuster, sogar allgemeiner als die Zerlegung in eine Bewegung plus Translation ist. Techniken für das Abschätzen der planaren Homographie aus Paaren von Bildem werden beschrieben in J. R. Bergen, P. Anandan, K. J. Hanna und R. Hingorani, "Hierarchical model-based motion estimation" European Conference on Computer Vision, S. 237–252, Santa Margarita Ligure, Mai 1992.
Bei der vorliegenden Erfindung wird eine parallaxenbasierte Strukturbeschränkung abgeleitet, die die projektive Struktur zweier Punkte mit ihren Bildpositionen und ihren Parallaxenverschiebungen in Bezug bringt. Durch Eliminieren der relativen projektiven Struktur eines Punktpaares zwischen drei Einzelbildern wird eine Beschränkung, bezeichnet als die parallaxenbasierte Stabilitätsbeschränkung, auf den Parallaxenbewegungen zweier Punkte, die sich als feste Objekte über die Einzelbilder bewegen, abgeleitet.
Ebenso wird unten ein alternativer Weg des Ableitens der Parallaxenbasierten Stabilitätsbeschränkung dargelegt. In der alternativen Ableitung wird die Beschränkung geometrisch statt algebraisch bestimmt. Dies führt zu einer einfachen und intuitiven geometrischen Interpretation der Mehrfacheinzelbildstabilitätsbeschränkung und zu der Ableitung eines dualen Punktes zu dem Epipol.
Beispiele von Anwendungen dieser Parallaxenbasierten Beschränkungen auf das Lösen dreier wichtiger Probleme in der Analyse von 3D-Szenen werden ebenso beschrieben. Anwendungen beinhalten: (i) die Wiederherstellung einer 3D-Szenenstruktur, (ii) die Erfassung von sich bewegenden Objekten in der Anwesenheit von kamerainduzierter Bewegung und (iii) die Synthese von neuen Kameraansichten basierend auf einem gegebenen Satz von Ansichten.
Schließlich wird die Verallgemeinerung der Beschränkung auf die volle Bildbewegung durch Einschließen der planaren Homographiekomponente beschrieben.
In 1 ist ein Blockdiagramm eines dreidimensionalen Szeneanalysesystems 100 dargestellt, das für die Implementierung der vorliegenden Erfindung geeignet ist. Das System enthält eine Bildquelle 102, ein Computersystem 104, ein oder mehrere Ausgabevorrichtungen 124 und ein oder mehrere Eingabevorrichtungen 126. Die Bildquelle 102 kann eine Videokamera, eine Infrarotkamera oder irgendein anderer Sensor sein, der eine Reihe von zweidimensionalen Bildern erzeugt, die eine Szene darstellen. Altemativ kann eine Bildquelle eine Speichereinrichtung sein, wie z. B. ein Videobandrecorder, ein Diskettenlaufwerk oder irgendeine andere Einrichtung für das Speichern von sequentiellen Bildern, die eine Szene darstellen. Das System verarbeitet im allgemeinen digitale Bilder, aus diesem Grund wird, wenn die Bildquelle analoge Bilder erzeugt, ein Digitalisierer (nicht gezeigt) zwischen der Bildquelle und dem Computersystem verwendet.
Der Universalcomputer 104 erleichtert die Bildverarbeitung, die Szeneanalyse und die Bildanzeige. Genauer gesagt enthält das Computersystem einen Datenpuffer 110, eine zentrale Verarbeitungseinheit (CPU) 112, einen Unterstützungsschaltkreis 114, einen Speicher mit wahlfreiem Zugriff (RAM) 116; einen Nur-Lese-Speicher (ROM) 118 und einen Anzeigetreiber 120. Zusätzlich interagiert ein Benutzer mit dem Computersystem über eine oder mehrere Eingabeeinrichtungen 126, wie z. B. eine Tastatur, eine Maus, einen Trackball, ein Touchpad oder dergleichen. Ebenso weist das Computersystem Bilder und verschiedene graphische Interfaceanzeigen (Bildschirme) auf der Ausgangsanzeigeeinrichtung 124 an, wie z. B. einen Computermonitor. Alternativ kann das Computersystem ebenso mit anderen Ausgabeanzeigeeinrichtungen interagieren, wie z. B. einem Drucker, um eine "Hardcopy" bzw. einen Ausdruck von irgendeiner Anzeige zur Verfügung zu stellen, die auf dem Computermonitor erscheint.
Der Datenpufferspeicher 110 stellt eine Datenfrequenzangleichung (Einzelbildpufferspeicherung) zwischen der Bildquelle und der CPU zur Verfügung. Typischerweise ist dieser Pufferspeicher ein First-In-First-Out- (FIFO-) Pufferspeicher. Solche Pufferspeicher werden typischerweise verwendet, um eine konstante Datenrate zu der CPU zur Verfügung zu stellen, während eine Flexibilität in den Datenraten, die von einer Bildquelle erzeugt werden können, zur Verfügung gestellt wird.
Die CPU 112 ist typischerweise ein Allzweckprozessor, wie z. B. ein PowerPC, Pentium oder irgendein anderer allgemein verfügbarer Prozessor. PowerPC ist eine eingetragene Marke von International Business Machines aus Armonk, New York, und Pentium ist eine eingetragene Marke von Intel Corporation aus Santa Clara, Kalifornien. Da es nicht notwendig ist, die Softwareimplementierung auf einem bestimmten Prozessor auszuführen, können die Routinen der vorliegenden Erfindung auf irgendeinem Prozessortyp oder auf Kombinationen von Prozessoren in einer parallelverarbeitenden Computerumgebung ausgeführt werden. Zusätzlich kann die Szeneanalyse anstelle der Verwendung eines Allzweckcomputers innerhalb eines Echtzeitprozessors durchgeführt werden.
Die CPU 112 arbeitet in Verbindung mit verschiedenen anderen Schaltkreisen, wie z. B. dem RAM 116, dem ROM 118 und dem Unterstützungsschaltkreis 114, wie z. B. Coprozessor(en), Taktkreise, Cachespeicher, Stromversorgungen und anderen gut bekannten Schaltkreisen. Der Betrieb und die Zwischenverbindung dieser verschiedenen Computerkomponenten ist im Stand der Technik gut bekannt und erfordert keine weitere Erklärung. Der Anzeigetreiber 120 kann eine Videokarte, ein Druckertreiber oder irgendeine andere gebräuchliche Treibersoftware oder -hardware sein, wie sie von der (den) Ausgangsvorrichtung(en) 106 erfordert wird.
Der RAM 116 speichert die Softwareimplementierung der vorliegenden Erfindung. Typischerweise werden die Routinen der Endung in einer Massenspeichereinrichtung (nicht gezeigt) abgelegt und für die zeitweilige Speicherung in dem RAM 116 wieder aufgerufen, wenn sie von der CPU 112 ausgeführt werden. In 1 ist die Erfindung in einer dreidimensionalen Szenenanalyseroutine 122 verkörpert.
A. Parallaxenbasierte Beschränkungen auf Punktpaaren
Eine Beschränkung auf der Parallaxenbewegung von Punktpaaren zwischen zwei Einzelbildern, die eine dreidimensionale Szene, wie sie von einer Videokamera abgebildet wird, darstellen, wird unten beschrieben. Die abgeleitete Beschränkung kann verwendet werden, um eine relative 3D-Struktur, die für zwei Punkte invariant ist, allein aus ihren Parallaxenvektoren wiederherzustellen, ohne irgendeine zusätzliche Information und insbesondere ohne daß die Wiederherstellung der Kameraepipole erforderlich ist.
Die Parallaxenbeschränkung wird auf mehrere Einzelbilder erweitert, um eine Stabilitätsbeschränkung auf jedem Paar von Bildpunkten (ähnlich der trilinearen Beschränkung) zu bilden. Es können nämlich Inkonsistenten in der 3D-Bewegung von zwei Punkten, die zu sich unabhängig bewegenden 3D-Objekten gehören, basierend auf ihrer Parallaxenverschiebung zwischen drei (oder mehreren) Einzelbildern erfaßt werden, ohne daß die Notwendigkeit besteht, irgendeine 3D-Information zu schätzen.
Um die Parallaxenbeschränkung abzuleiten, wird als erstes die Zerlegung der Bildbewegung in eine Homographie (d. h. die Bildbewegung einerwillkürlichen ebenen Fläche) und residuelle Parallaxenverschiebungen beschrieben. Diese Zerlegung ist im Stand der Technik bekannt.
1. Die Ebenen-Parallaxennotationen
Die Gleichungen (4) und (5) stellen die Form der Parallaxennotation zur Verfügung, die in der folgenden Beschreibung verwendet werden. Es sei bemerkt, daß sie in Begriffen der 2D-Bildkoordinaten ausgedrückt sind. Obgleich wir die Parallaxennotation für T_Z ≠ 0 und T_Z ≠ 0 unterschiedlich hergeleitet haben, werden sie vereinheitlicht und als ein einzelner Fall in den folgenden Abschnitten behandelt.
2. Die parallaxenbasierte Strukturbeschränkung
3 stellt die Beschränkung geometrisch dar.
Der Vorteil der Beschränkung in Gleichung 12 ist der, daß dies direkt aus den Positionen und Parallaxenvektoren der zwei Punkte Information zur Verfügung stellt ohne die Notwendigkeit, über die Berechnung des Epipols zu gehen unter Verwendung von soviel Information wie ein Punkt über einen anderen geben kann.
4 zeigt graphisch ein Beispiel einer Konfiguration, in der das Schätzen des Epipols sehr unzuverlässig ist, wobei das Schätzen der relativen Struktur direkt aus Gleichung (12) zuverlässig ist.
3. Die parallaxenbasierten Stabilitätsbeschränkungen
In diesem Abschnitt wird beschrieben, wie die parallaxenbasierte Strukturbeschränkung auf mehrere Einzelbilder erweitert werden kann, um eine Stabilitätsbeschränkung auf Paaren von Bildpunkten zu bilden, die weder Strukturparameter noch Kamerageometrie enthalten.
Stabilität über mehrere Einzelbilder.
Stabilität über mehrere Punkte:
Anstelle der Betrachtung von Punktpaaren über mehrere Einzelbilder ist es eine Alternative, mehrere Punkte über zwei Einzelbilder zu betrachten, um auf eine unterschiedliche Form der Festigkeitsbeschränkung zu kommen.
Der Nutzen der Stabilitätsbeschränkung (14) liegt in der Tatsache, daß sie diese Information direkt von den Positionen und Parallaxenvektoren der drei Punkte zur Verfügung stellt ohne die Notwendigkeit, durch die instabile Berechnung des Epipols zu gehen, unter Verwendung von soviel Information wie zwei Punkte über den dritten geben können.
B. Parallaxengeometrie und Epipoldual
In diesem Abschnitt wird ein anderer Weg der Ableitung der parallaxenbasierten Stabilitätseinschränkung beschrieben. Anstelle des algebraischen Ableitens der Beschränkungen verwendet die alternative Ableitung die Geometrie. Dies führt zu einer einfachen und intuitiven geometrischen Interpretation der Mehrfacheinzelbilderstabilitätsbeschränkung und zu der Ableitung eines bualpunktes zu dem Epipol. Obgleich dieser eindeutige Bildpunkt (der Epipoldual) hervorgehoben wird, erfordert die Stabilitätseinschränkung selbst nicht die Abschätzung des Dualepipols, genauso wie sie nicht die Abschätzung des Epipols selbst erfordert.
Es sei R der Schnittpunkt zwischen der Linie, die P und Q verbindet, und der Ebene S. Es sei bemerkt, daß die Punkte P, Q, R, P_w und (Q_w koplanar sind. Somit sind P_w und Q_w und RQ linear. Natürlich sind P, Q und R durch Konstruktionen kollinear.
Dies ist dieselbe Gleichung wie die Stabilitätsbeschränkung, die in Gleichung (13) abgeleitet wurde. Es sei bemerkt, daß die Stabilitätsbeschränkung selbst nicht die Abschätzung des Konvergenzpunk– tes
erfordert, genauso wie sie nicht die Abschätzung des Epipols erfordert.
Der Punkt
ist der Dualpunkt des Epipols: Der Epipol ist der Schnittpunkt von mehreren Parallaxenvektoren zwischen einem Paar von Einzelbildern, d. h. der Schnittpunkt aller Linien, die zwischen einem Einzelbildpaar jeden Bildpunkt mit seinem verzerrten Punkt verbinden. Wohingegen der Dualpunkt
der Schnittpunkt von allen Linien ist, die ein Punktepaar in dem Referenzbild und das entsprechende Paar von verzerrten Punkten von allen anderen Einzelbildern verbindet.
C. Anwendungen der paarweisen Parallaxengeometrie
In diesem Abschnitt wird beschrieben, wie die paarweise Parallaxengeometrie in ihren verschiedenen Formen einen Ansatz zur Handhabung von einigen der gut bekannten Problemen in der 3D-Szenenanalyse zur Verfügung stellt, insbesondere: (i) Erfassung von sich bewegenden Objekten, (ii) Formwiederherstellung, (iii) Erzeugung neuer Ansichten. Es wird gezeigt, daß die Parallaxenbeschränkung die Fähigkeit für das Lösen dieser Probleme zur Verfügung stellt, ohne daß zuerst ein "komplexeres" Problem zu lösen ist.
5 stellt ein Flußdiagramm eines Prozesses für das Durchführen der dreidimensionalen Szeneanalyse dar, der die Formbeschränkung von Gleichung (12) (oder der äquivalenten Gleichung (11)) und die Stabilitätsbeschränkungen der Gleichungen (13) und (14) verwendet. Der Prozeß wird als eine ausführbare Softwareroutine 500 dargestellt, die in Schritt 502 beginnt und mit Schritt 504 fortsetzt. In Schritt 504 wird die Routine mit einer Mehrzahl von Eingangsbildern zur Verfügung gestellt. In Schritt 506 berechnet die Routine eine planare Parallaxenbewegung (z. B.
für jeden
Punkt in dem Bild. In Schritt 508 werden dann für jede Bewegungstrajektorie, die in Schritt 506 bestimmt wurde, eine oder mehrere der Beschränkungen der Gleichungen (11), (12), (13) und (14) unter Bezug auf alle anderen Punkte angewendet. Die Routine 500 verwendet die Information von Schritt 508 (z. B. die Information, die einige Bildpunkte als konsistent mit den Beschränkungen und einige Bildpunkte als konsistent mit der Beschränkung darstellt) innerhalb eines oder mehrerer bildverarbeitender Aufgaben. Diese Aufgaben beinhalten, sind jedoch nicht hierauf begrenzt, die Erfassung von sich bewegenden Objekten (Schritt 510), die Formwiederherstellung (Schritt 512) und die Erzeugung einer neuen Ansicht (Schritt 514). Jede dieser illustrativen Anwendungen der erfindungsgemäßen Technik werden unten beschrieben.
1. Abschätzen der planaren Parallaxenbewegung
Die Abschätzung der planaren Parallaxenbewegung, die für das Durchführen der Experimente verwendet wird, die in diesem Abschnitt dargestellt werden, wurde durchgeführt unter Verwendung zweier aufeinanderfolgender Berechnungsschritte: (i) 2D-Bildausrichtung, um eine erfaßte ebene Bewegung zu kompensieren (d. h. die Homographie in der Form einer 2D-parametrischen Transformation) und (ii) die Schätzung der residuellen Bildverschiebungen zwischen den ausgerichteten Bildern (d. h. die Parallaxe). Solch ein System ist in der provisorischen US-Patentanmeldung Nr. 60/011,496, eingereicht am 02.12.1996 (Anwaltsaktenzeichen 12040) beschrieben.
2. Formwiederherstellung
Die parallaxenbasieite Strukturbeschränkung (Gleichung (12)) kann verwendet werden, um eine relative 3D-Struktur zwischen Punktpaaren direkt aus ihren Parallaxenvektoren wiederherzustellen. Dies impliziert, daß die Struktur der gesamten Szene relativ zu einem einzelnen Referenzbildpunkt (mit einer Parallaxe von ungleich Null) wiederhergestellt werden kann. Singularitäten treten auf, wenn der Nenner der Beschränkung (Gleichung (12)) in Richtung Null tendiert, d. h. für Punkte, die auf der Linie liegen, die von dem Referenzpunkt in Richtung ihres Parallaxenvektors verläuft.
Die 8a–g zeigen ein Beispiel einer Wiederherstellungsstruktur einer gesamten Szene relativ zu einem einzelnen Referenzpunkt. Drei Ansichten, die von einer Handkamera erhalten wurden, von einem kleinen Teppich, der mit Spielzeugautos und -boxen bedeckt ist, wurden als Quelldaten verwendet, deren Höhen gemessen wurden. Die ertaßte planare 2D-Bewegung war die des kleinen Teppichs (8d). Ein einzelner Punkt mit einer planaren Parallaxe von ungleich Null wurde als Referenzpunkt für das Abschätzen der relativen Form ausgewählt (8e). 8f zeigt die wiederhergestellte relative Struktur der gesamten Szene aus zwei Einzelbildern (8b und 8c). Regionen nahe der Bildgrenzen wurden ignoriert. Die erhaltenen Resultate waren recht genau, abgesehen von der singulären Linie in Richtung der Parallaxe des Referenzpunktes. Die singuläre Linie ist in 8f offensichtlich.
Die Singularitäten können entfernt werden und die Qualität der berechneten Struktur kann verbessert werden entweder durch Verwendung von mehreren Einzelbildern oder durch Verwendung von mehreren Referenzpunkten:

– Mehrere Einzelbilder: Singularitäten werden entfernt durch Verwendung von mehreren Einzelbildern, wenn ihre Epipole nicht kollinear sind. Die Nicht-Kollinearität von Epipolen kann durch eine Veränderung in der Parallaxenrichtung des Referenzbildpunktes erfaßt werden.
– Mehrere Punkte: Singularitäten können entfernt werden durch Verwendung zusätzlicher Referenzbildpunkte. Ein zusätzlicher Referenzpunkt sollte derart ausgewählt werden, daß: (i) er nicht auf der singulären Linie liegt (d. h. in der Richtung des Parallaxenvektors) des ersten Referenzpunktes (er sollte vorzugsweise auf der Linie senkrecht zu diesem ausgewählt werden), und (ii) der zusätzliche Referenzpunkt sollte zunächst darauf überprüft werden, daß er sich konsistent. mit dem ersten Referenzpunkt durch die Stabilitätsbeschränkung von Gleichung (13) über ein Paar von Einzelbildern bewegt.

Kombinationen von mehreren Referenzpunkten über mehrere Einzelbilder können ebenso verwendet werden. 8g zeigt ein Beispiel der Wiederherstellung der Struktur einer gesamten Szene aus drei Einzelbildern relativ zu dem einzelnen Referenzpunkt wie in 8f. Die singuläre Linie in 8f ist verschwunden.
Die Fähigkeit, relativ gute Strukturinformation zu erhalten, selbst unter Bezug auf einen einzelnen Punkt hat verschiedene wichtige Vorteile:

– Sie erfordert nicht die Abschätzung des Epipols und daher erfordert sie nicht die dichte Parallaxeninformation.
– Im Gegensatz zu konventionellen Techniken für das Wiederherstellen von Strukturen stellt sie die Fähigkeit zur Verfügung, dynamische Szenen zu handhaben, da sie nicht eine Samm-lung von Bildpunkten erfordern, von denen a priori bekannt ist, daß sie zu dem einzelnen sich bewegenden 3D-Objekt gehören.
– Da es sich auf einen einzelnen Parallaxenvektor stützt, stellt es einen natürlichen kontinuierlichen Weg zur Verfügung, die Lücke zwischen 2D-Fällen, die annehmen, daß nur eine ebene Bewegung existiert, und 3D-Fällen, die sich auf das Vorhandensein von Parallaxendaten stützen, zu überbrücken.

3. Die Ertassung von sich bewegenden Objekten
Eine Anzahl von Techniken existiert, um die Analyse von Mehrfachbewegungen in dem einfacheren 2D-Fall zu handhaben, in denen Bewegungen von unabhängigen sich bewegenden Objekten durch parametrische 2D-Transformation modelliert werden. Diese Verfahren erfassen jedoch Punkte mit planarer Parallaxenbewegung als sich bewegende Objekte, da sie eine unterschiedliche 3D-Bildbewegung gegenüber dem ebenen Teil der Hintergrundszene haben.
Im allgemeinen 3D-Fall ist das Problem der Erfassung von sich bewegenden Objekten viel komplexer, da es die Erfassung von 3D-Bewegungsinkonsistenzen erfordert. Typischerweise wird dies durchgeführt durch Wiederherstellen der Epipolargeometrie. Das Versuchen, die Epipolargeometrie (d. h. die Kamerabewegung) in der Anwesenheit von mehreren sich bewegenden Objekten zu schätzen ohne vorherige Segmentierung, ist extrem schwierig. Dieses Problem wird hoch akuter, wenn nur noch eine dürftige Parallaxeninformation existiert.
9a stellt graphisch ein Beispiel einer Konfiguration dar, in der das Abschätzen des Epipols in der Anwesenheit von mehreren sich bewegenden Objekten relativ große Fehler erzeugen kann, selbst wenn Clustertechniken in der Epipoldomäne verwendet werden, wie von einigen konventionellen Techniken vorgeschlagen wird. Das Sich-Verlassen auf die Epipolberechnung, um Inkonsistenzen in der 3D-Bewegung zu erfassen, versagt bei der Erfassung von sich bewegenden Objekten in diesen Fällen.
In 9a bewegt sich die Kamera nach rechts. Das einzige statische Objekt mit keiner Parallaxenbewegung ist das des Baumes. Der Ball fällt unabhängig. Der Epipol kann inkorrekt als e berechnet werden. Der falsche Epipol e ist mit beiden Bewegungen konsistent.
Für jedes der drei Einzelbilder oder für mehrere Einzelbilder in einer Sequenz kann die Par allaxenstabilitätsbeschränkung (Gleichung (13)) angewendet werden, um Inkonsistenzen in der 3D-Bewegung von einem Bildpunkt relativ zu einem anderen direkt aus ihren "Parallaxen"vektoren über mehrere Einzelbilder zu erfassen, ohne die Notwendigkeit, entweder die Kamerageometrie oder die Formparameter zu schätzen, wobei die "Parallaxen"vektoren (d. h. die residuelle Bewegung nach der Planarregistrierung) in konsistenten Gruppen zu konsistenten sich bewegenden 3D-Objekten gehören, selbst in Fällen, wie in 9a, wo die Parallaxeninformation minimal ist und die unabhängige Bewegung nicht vernachlässigbar ist Dieser Prozeß wird in Schritt 510 von 5, wie oben beschrieben, durchgeführt. 9b stellt graphisch dar, wie die Stabilitätsbeschränkung von Gleichung (13), wenn sie angewendet wird, die 3D-Inkonsistenz über die drei Einzelbilder erfaßt.
Die 10a–f zeigen ein Beispiel der Verwendung der Stabilitätsbeschränkung von Gleichung (13), um 3D-Inkonsistenzen zu erfassen. In dieser Sequenz ist die Kamera in Bewegung (Translationsbewegung von links nach rechts), was einer Parallaxenbewegung auf dem Haus, der Straße und dem Straßenschild von unterschiedlicher Größe induziert. Das Auto bewegt sich unabhängig von links nach rechts. Wenn Gleichung (13) auf die Bilder angewendet wird, ist die erfaßte ebene 2D-Bewegung diejenige des Hauses. Die planare Parallaxenbewegung wird nach der 2D-Registrierung der drei Bilder unter Bezug auf das Haus (10d) berechnet. Wie in 10d gezeigt ist, werden in diesem Schritt alle Punkte, die zu der erfaßten ebenen 2D-Bewegung korrespondieren, aus dem Bild entfernt. Als nächstes wird ein einzelner Punkt auf dem Straßenschild als Referenzpunkt ausgewählt (10e). 10f stellt das Maß der Inkonsistenz von jedem Punkt in dem Bild unter Bezug auf den ausgewählten Straßenschildpunkt dar, wobei alle Bildpunkte, die eine ebene 2D-Bewegung oder eine 3D-Bewegung, die konsistent mit dem ausgewählten Referenzpunkt ist, darstellen, entfernt sind. Helle Regionen zeigen große Werte an, wenn die Beschränkung von Gleichung (13) (d. h. die Bewegungsdiskontinuitäten-Verletzungen in der 3D-Stabilität, die über die drei Einzelbilder in Bezug auf den Straßenschildpunkt erfaßt wurden) angewendet werden. Der Bereich, der erfaßt wurde als sich 3D-inkonsistent unter Bezug auf den Straßenschildpunkt bewegend, entspricht dem Auto. Regionen, die nahe der Bildgrenze sind, wurden ignoriert. Alle anderen Regionen des Bildes wurden als sich 3D-konsistent mit dem Straßenschildpunkt bewegend erfaßt.
Allgemein gesprochen identifiziert und entfernt der Prozeß 1) die Pixel, die der ebenen 2D-Bewegung entsprechen, und 2) die Pixel, die denjenigen Punkten entsprechen, die über die drei Einzelbilder 3D-Stabilität zeigen. Was verbleibt, ist der Bildbereich, der keine 3D-Stabilität über die drei Einzelbilder zeigt, was konsistent mit den Bildebenen ist (d. h. das Haus und das Verkehrszeichen). Daher stellt dieses Verfahren unter der Annahme einer nicht kalibrierten Kamera einen Mechanismus für das Segmentieren aller residuellen Bewegungsvektoren, die nicht Null sind (nach der ebenen 2D-Stabilisierung), in Gruppen, die sich konsistent (im 3D-Sinn) bewegen und für das Bestimmen aus den relativen Konsistenzen, ob ein Objekt sich in dem Bild unabhängig bewegt (d. h. inkonsistent mit der Parallaxenbewegung), zur Verfügung.
Die 11a–f zeigen ein anderes Beispiel der Verwendung der Stabilitätsbeschränkung von Gleichung (13), um 3D-Inkonsistenzen zu erfassen. In dieser Abfolge ist die Kamera an einem Helikopter befestigt, der von links nach rechts fliegt, was eine Parallaxenbewegung (von unterschiedlicher Größe) auf das Hausdach und die Bäume (unterer Bereich des Bildes) induziert und auf die Elektrizitätsmasken (neben der Straße). Drei Autos bewegen sich auf der Straße unabhängig. Die erfaßte ebene 2D-Bewegung ist die der Bodenfläche (11d). Ein einzelner Punkt wurde auf einem Baum als Referenzpunkt ausgewählt (11e). 11f stellt das Maß der Inkonsistenz von jedem Punkt in dem Bild unter Bezug auf den ausgewählten Referenzpunkt dar. Helle Bereiche zeigen 3D-Inkonsistenz an, die über drei Einzelbilder erfaßt wurde. Die drei Autos werden als sich inkonsistent mit dem ausgewählten Baumpunkt bewegend erfaßt. Regionen nahe der Bildgrenze werden ignoriert. Alle anderen Bildregionen werden als sich konsistent mit dem ausgewählten Baumpunkt bewegend erfaßt.
Im Stand der Technik wurde eine Stabilitätsbeschränkung zwischen drei Einzelbildern in der Form eines trilinearen Tensors unter Verwendung von regelmäßigen Bildverschiebungen präsentiert. Dieses Verfahren erfordert jedoch eine Sammlung eines Satzes von Bildpunkten, von denen a priori bekannt ist, daß sie zu dem einzelnen sich bewegenden 3D-Objekt gehören. Das Auswählen eines inkonsistenten Satzes von Punkten führt zu einem fehlerhaften Tensor und somit zu einer falschen Erfassung von sich bewegenden Objekten.
Die Fähigkeit der Parallaxenstabilitätsbeschränkung der vorliegenden Erfindung, 3D-Inkonsistenzen unter Bezug auf einen einzelnen Punkt zu erfassen, stellt einen natürlichen Weg zur Verfügung, um eine Brücke zwischen 2D-Algorithmen (die annehmen, daß jede 2D-Bewegung, die sich von der ebenen Bewegung unterscheidet, ein unabhängiges sich bewegendes Objekt ist) und den 3D-Algorithmen (die sich darauf stützen, vorheriges Wissen über einen konsistenten Satz von Punkten zu haben oder alternativ dichte Parallaxendaten haben) zur Verfügung zu stellen.
4. Erzeugung einer neuen Ansicht
Dieser Abschnitt beschreibt einen Ansatz basierend auf der Parallaxenstabilitätsbeschränkung für das Erzeugen von neuen Ansichten unter Verwendung eines Satzes von "Modell"-Ansichten.
Verfahren für das Erzeugen neuer Ansichten basierend auf der Wiederherstellung der Epipolargeometrie sind wahrscheinlich stärker rauschempfindlich als Verfahren, die die neue Ansicht allein auf 2D-Information-basierend erzeugen, d. h. ohne von 2D durch ein 3D-Medium zu gehen, um Information noch einmal auf eine neue 2D-Bildebene (die virtuelle Ansicht) zu projizieren. Der Ansatz, der unten beschrieben wird, für die Erzeugung einer neuen Ansicht erfordert keine Schätzung der Epipolargeometrie oder der Form.
Sind zwei "Modell"-Einzelbilder gegeben, kann die planare Parallaxenbewegung für alle Bildpunkte zwischen dem ersten (Referenz-) Einzelbild und dem zweiten Einzelbild berechnet werden. Ein Bildpunkt mit einer Parallaxe von nicht Null wird ausgewählt und ein "virtueller" Parallaxenvektor wird für diesen Punkt aus dem Referenzeinzelbild zu dem "virtuellen" Einzelbild, das zu erzeugen ist; definiert. Die Stabilitätsbeschränkung (Gleichung (13)) spezifiziert dann eine einzelne Einschränkung für die virtuelle Parallaxenbewegung von allen anderen Punkten von dem Referenzeinzelbild zu dem virtuellen Einzelbild. Da jeder 2D-Parallaxenvektor zwei Komponenten (d. h. zwei Unbekannte) hat, werden zumindest zwei "virtuelle" Parallaxenvektoren spezifiziert werden müssen, um alle anderen Parallaxenvektoren zu lösen. Sobald die virtuellen Parallaxenvektoren berechnet sind, kann die neue virtuelle Ansicht erzeugt werden durch zweimaliges Verzerren des Referenzbildes: Als erstes wird jeder Bildpunkt um seine berechnete virtuelle Parallaxe verzerrt. Dann wird global das gesamte Einzelbild mit einer virtuellen ebenen 2D-Bewegung für die Virtuelle Homographie verzerrt.
Es sei bemerkt, daß zwei virtuelle Parallaxenvektoren eine nicht ausreichende Beschränkung für manche Bildpunkte zur Verfügung stellen können. Dies liegt aufgrund der ungünstigen Lokalisierung der Punkte in der Bildebene unter Bezug auf die zwei ausgewählten Referenzpunkte und ihrer Parallaxenvektoren. Es können jedoch andere Bildpunkte, für die die Beschränkung robust und ausreichend ist, um eine zuverlässige virtuelle Parallaxe zu erzeugen, als zusätzliche Punkte verwendet werden (sobald ihre virtuelle Parallaxe berechnet wurde), um die virtuelle Parallaxe der singulären Punkte zuverlässig einzuschränken.
D. Die generalisierte Parallaxenbeschränkung
In diesem Abschnitt wird beschrieben, wie die paarweise Parallaxenbeschränkung (Gleichungen (11), (12), (13) und (14)) erweitert werden können, um die volle Bildbewegung (im Gegensatz zu der Parallaxenbewegung) zu behandeln, selbst wenn die Homographie unbekannt ist. Dies ist nützlich für die Behandlung von Szenen, die keine physikalisch ebene Fläche enthalten. Eine Form einer generalisierten Parallaxenbeschränkung zwischen zwei Einzelbildern in Abhängigkeit von den unbekannten Homographieparametern und der relativen projektiven Struktur von Punktpaaren wird beschrieben.
Die Gleichungen (1) und (2) können in eine einzelne Form vereinigt werden:
Die generalisierte Parallaxenbeschränkung (17) wird in Abhängigkeit von der Homographie A', den Bildkoordinaten eines Punktpaares in zwei Einzelbilder und der relativen projektiven Struktur der zwei Punkte ausgedrückt. Die generalisierte Beschränkung beinhaltet nicht die Epipole.
Die generalisierte Parallaxenbeschränkung regt eine neue implizite Darstellung der allgemeinen 2D-Bildbewegung an: Anstelle des Suchens nach der Darstellung der 2D-Bildbewegung in Abhängigkeit von: Homographie plus Epipol plus projektive Struktur, regt sie eine implizite Darstel-lung der 2D-Bildbewegung in Abhängigkeit von der Homographie plus relativer projektiver Struktur von Punktpaaren an. Da diese Darstellung den Epipol nicht enthält, kann sie leicht auf mehrere Einzelbilder erweitert werden.
Gleichung (19) ist eine Stabilitätsbeschränkung für ein Punktepaar über drei Einzelbilder. Wie der trilineare Tensor des Standes der Technik beinhaltet er die Parameter von zwei Homographien über drei Einzelbilder. Anders als der trilineare Tensor enthält er nicht den Epipol, sondern wird stattdessen in Punktpaaren ausgedrückt.
Die trilineare Beschränkung basiert auf einem ursprünglichen Referenzpunkt und jeder zusätzliche Punkt addiert vier linear unabhängige Gleichungen, um die Unbekannten des Tensors zu beschränken (die Kombinationen der Homographieparanieter und des Epipols sind).
In der generalisierten Parallaxenstabilitätsbeschränkung ist die Basis ein Punktepaar. Hier fügt ebenso jeder zusätzliche Punkt vier linear unabhängige Stabilitätsbeschränkungen ein. Diese können abgeleitet werden durch Ausklammern von T_Z aus Gleichung (16) mit dem zusätzlichen drit ten Punkt (immer noch innerhalb eines Paares von Einzelbildern), um die vier linear unabhängigen Gleichungen über die drei Einzelbilder zu bilden.
Obgleich verschiedene Ausführungsformen, die die Lehren der vorliegenden Erfindung beinhalten, gezeigt und hier im Detail beschrieben wurden, ergeben sich den Fachleuten leicht viele andere variierte Ausführungsformen, die immer noch diese Lehren beinhalten.

Claims

Verfahren für die Bildverarbeitung, das die Schritte aufweist: a) Empfangen einer Mehrzahl von zweidimensionalen Bildern, die eine Szene darstellen, b) Berechnen einer mit der Parallaxe verbundenen Beschränkung bzw. Nebenbedingung für ein Paar von Punkten innerhalb der Mehrzahl von Bildern, wobei die mit der Parallaxe verbundene Beschränkung unabhängig von irgendeiner epipolaren Geometrie ist, die für das Paar von Punkten definiert werden kann, c) Anwenden der mit der Parallaxe verbundenen Beschränkung auf einer Mehrzahl von Punkten innerhalb der Mehrzahl von Bildern, um Informationen zu erzeugen, die repräsentativ dafür sind, ob ein gegebener Punkt innerhalb der Mehrzahl der Bilder mit der die Parallaxe betreffende Beschränkung konsistent ist, und d) Verwenden der erzeugten Information für eine Bildverarbeitungsaufgabe, die in Verbindung steht mit der empfangenen Mehrzahl von Bildern.
Verfahren für die Bildverarbeitung nach Anspruch 1, um sich bewegende Objekte zu erfassen, wobei: Schritt (b) den Schritt beinhaltet des Berechnens einer Nebenbedingung für die Parallaxensteifigkeit für zumindest ein Paar von Punkten innerhalb der Mehrzahl von Bildern, wobei die Nebenbedingung für die Parallaxensteifigkeit unabhängig von irgendeiner epipolaren Geometne sind, die für das Paar von Punkten definiert werden kann, und Schritt (d) den Schritt enthält des Verwendens der erzeugten Information, um die Erfassung von sich bewegenden Objekten durchzuführen, die mit der empfangenen Mehrzahl von Bilder in Verbindung steht.
Verfahren nach Anspruch 2, wobei die Nebenbedingung für die Parallaxensteifigkeit aus der Positionsinformation des Paares von Punkten und den Parallaxenvektoren des Paares von Punkten abgeleitet wird, die aus dreien der empfangenen Mehrzahl von Bildern erzeugt werden.
Verfahren nach Anspruch 2, wobei die Nebenbedingung für die Parallaxensteifigkeit aus der Positionsinformation von zumindest drei Punkten und den Parallaxenvektoren der zumindest drei Punkte abgeleitet wird, die aus zweien der empfangenen Mehrzahl von Bildern erzeugt werden.
Verfahren nach Anspruch 2, wobei: Schritt (c) weiterhin die Schritte aufweist: (c1) Anwenden einer zweidimensionalen Transformation auf die Mehrzahl der Bilder, um Regionen der Mehrzahl von Bildern auszurichten und eine Mehrzahl von fehlausgerichteten Regionen der Mehrzahl von Bildern zu identifizieren, (c2) Segmentieren und Ausrichten der identifizierten Regionen, um segmentierte Regionen zu erzeugen, und Schritt (d) weiterhin den Schritt aufweist: (d1) das iterative Anordnen und Segmentieren der segmentierten Regionen, bis eine verbleibende Region ein Kriterium erfüllt, das die verbleibende Region als eine Restbewegung innerhalb der Mehrzahl von Bildern identifiziert.
Verfahren nach Anspruch 5, wobei das Kriterium, das von der verbleibenden Region erfüllt wird, die Inkonsistenz mit der Nebenbedingung für die Parallaxensteifigkeit beinhaltet.
Verfahren nach Anspruch 2, wobei: Schritt (b) die Schritte aufweist: (b1) Anlegen einer zweidimensionalen Transformation an die Mehrzahl der Bilder, um Regionen der Mehrzahl von Bildern auszurichten und eine Mehrzahl von fehlausgerichteten Regionen der Mehrzahl von Bildern zu identifizieren, und Schritt (c) die Schritte aufweist: (c1) Segmentieren der fehlausgerichteten Regionen, um segmentierte Regionen zu erzeugen, (c2) iteratives Ausrichten und Segmentieren der fehlausgerichteten Regionen, bis eine verbleibende fehlausgerichtete Region ein Kriterium erfüllt, das die verbleibende fehlausgerichtete Region als Bewegung innerhalb der Mehrzahl von Bilder identifiziert.
Verfahren für die Bildverarbeitung nach Anspruch 1, um die Szenenstruktur wieder herzustellen, wobei: Schritt (b) den Schritt des Berechnens einer Nebenbedingung für die Parallaxenstruktur für ein Paar von Punkten innerhalb der Mehrzahl von Bildem beinhaltet, wobei die Nebenbedingung für die Parallaxenstruktur unabhängig von irgendeiner epipolaren Geometrie ist; die für das Punktepaar definiert werden kann, Schritt (c) den Schritt aufweist des Anwendens der Nebenbedingung für die Parallaxenstruktur an eine Mehrzahl von Punkten innerhalb der Mehrzahl von Bildern, um Information zu erzeugen, die repräsentativ dafür ist, ob ein gegebener Punkt innerhalb der Mehrzahl von Bildern konsistent mit der Nebenbedingung für die Parallaxenstruktur ist, und Schritt (d) den Schritt beinhaltet des Verbindens der erzeugten Information, um die Wiederherstellung der Szenenstruktur, die mit der empfangenen Mehrzahl von Bildern in Verbindung steht, durchzuführen.
Verfahren für die Bildverarbeitung nach Anspruch 1, um neue Ansichten zu erzeugen, wobei: Schritt (b) die Schritte aufweist: (b1) Berechnen einer Nebenbedingung für die Parallaxensteifigkeit für zumindest ein Punktepaar innerhalb der Mehrzahl von Bildern, wobei die Nebenbedingung für die Parallaxensteifgkeit unabhängig von irgendeiner epipolaren Geometrie ist, die für das Punktepaar definiert werden kann, und (b2) Berechnen einer planaren Parallaxenbewegungstrajektorie für eine Untergruppe von Punkten innerhalb der Mehrzahl von Bildern, um Information zu erzeugen, die repräsentativ für die relative Parallaxenbewegung innerhalb der Untergruppenpunkte ist, wobei die planare Parallaxenbewegungstrajektorie unabhängig von irgendeiner epipolaren Geometrie ist, die für die Untergruppe von Punkten definiert werden kann, Schritt (c) die Schritte aufweist: (c1 ) Auswählen von zumindest zwei Punkten aus der Untergruppe von Punkten mit einer Parallaxenbewegung ungleich null, (c2) Definieren von jeweiligen virtuellen Parallaxenbewegungsvektoren für jeden der ausgewählten Punkte, wobei die virtuellen Parallaxenbewegungsvektoren entsprechende Orte der ausgewählten Punkte in einer virtuellen Szene darstellen, und (c3) Anwenden der Nebenbedingung für die Parallaxensteifigkeit auf zumindest die Untergruppe von Punkten innerhalb der Mehrzahl von Bildern unter Bezug auf die definierten Parallaxenbewegungsvektoren, um einen Parallaxenbewegungsvektor für jeden Punkt der Untergruppe zu erzeugen, und Schritt(d) die Schritte aufweist. (d1) Deformieren bzw. Krümmen jedes Punktes in der Mehrzahl von Bildern mit einem Parallaxenbewegungsvektor um diesem Parallaxenbewegungsvektor, um eine virtuelle Zwischenszene zu erzeugen, (d2) globales Krümmen bzw. Deformieren der virtuellen Zwischenszene mit einer virtuellen ebenen 2D-Bewegung entsprechend der virtuellen Szene, um die virtuelle Szene zu erzeugen.
Verfahren nach Anspruch 9, wobei die Nebenbedingung für die Parallaxensteifigkeit aus der Positionsinformation der zumindest zwei Punkte und der Parallaxenvektoren der zumindest zwei Punkten, die aus dreien der empfangenen Mehrzahl von Bildern erzeugt wurde, abgeleitet wird.
Verfahren nach Anspruch 9, wobei die Nebenbedingung für die Parallaxensteifigkeit aus der Positionsinformation von zumindest drei Punkten und der Parallaxenvektoren der zumindest drei Punkte abgeleitet wird, die aus zwei der empfangenen Mehrzahl von Bildern erzeugt wurden.
Vorrichtung für die Bildverarbeitung, die aufweist: eine Quelle (102) von zweidimensionalen Bildem, die für eine Szene repräsentativ sind, einen Computerprozessor (104–122) für die Verarbeitung der zweidimensionalen Bilder, der aufweist: (a) eine Einrichtung für den Empfang einer Mehrzahl von zweidimensionalen Bildern, die repräsentativ für eine Szene sind, (b) eine Einrichtung für das Anwenden einer die Parallaxe betreffenden Beschränkung bzw. Nebenbedingung auf eine Mehrzahl von Punkten innerhalb der Mehrzahl von Bildem, um Information zu erzeugen, die dafür repräsentativ ist, ob ein gegebener Punkt innerhalb der Mehrzahl von Bilden konsistent mit der die Parallaxe betreffenden Beschränkung ist, wobei die Parallaxe betreffende Beschränkung unabhängig von irgendeiner epipolaren Geometrie ist, die für die Mehrzahl von Punkten definiert werden kann, (c) einer Einrichtung für das Anwenden einer Parallaxenbeschränkung an eine Mehrzahl von Punkten innerhalb der Mehrzahl von Bildern, um eine Information zu erzeugen, die repräsentativ dafür ist, ob ein gegebener Punkt innerhalb der Mehrzahl von Bildern konsistent mit der die Parallaxe betreffenden Beschränkung ist, (d) eine Einrichtung für die Verbindung der erzeugten Information für eine Bildverarbeitungsaufgabe, die mit der empfangenen Mehrzahl von Bildern in Beziehung steht und Erzeugen eines Ausgangssignals, das hiermit in Beziehung steht, (e) eine Ausgabevorrichtung für die Präsentation des Ausgangssignals der bildverarbeitenden Aufgabe.
Vorrichtung nach Anspruch 12, wobei die Quelle von Bildern eine Videokamera beinhaltet.
Vorrichtung nach Anspruch 12 für die Erfassung von Objektbewegung innerhalb einer Sequenz von Bildern, die eine Szene darstellen, wobei: die Einrichtung für das Anwenden der die Parallaxe betreffenden Beschränkung an die Mehrzahl von Punkten innerhalb der Mehrzahl von Bildern Regionen der Mehrzahl von Bildern ausrichtet und eine fehlausgerichtete Region der Mehrzahl von Bildern identifiziert, und wobei eine Einrichtung für die Verwendung der erzeugten Information für eine Bildverarbeitungsaufgabe beinhaltet: (d1) eine Einrichtung für die Identifizierung der Parallaxenbewegung innerhalb der fehlausgerichteten Region und (d2) eine Einrichtung für das Entfernen der Parallaxenbewegung aus der fehlausgerichteten Region, um ein sich bewegendes Objekt innerhalb der Szene zu erfassen.
Vorrichtung nach Anspruch 14, wobei die Einrichtung für das Entfernender Parallaxenbewegung weiterhin eine Einrichtung für die Identifizierung von Bildkomponenten beinhaltet, die sich konsistent in Bezug auf die Parallaxenbewegungsbeschränkung bewegen, um die Parallaxen erzeugte Bewegung innerhalb der Restbewegung in der Szene zu identifizieren.
Computerlesbares Medium, auf dem eine Mehrzahl von Befehlen abgelegt ist, wobei die Mehrzahl von Befehlen Befehle beinhaltet, die, wenn sie von einem Prozessor ausgeführt werden, veranlassen, daß der Prozessor die Schritte nach einem der Ansprüche 1 bis 11 durchführt.