DE102004026782A1

DE102004026782A1 - Verfahren und Vorrichtung zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern, computerlesbares Speichermedium und Computerprogramm-Element

Info

Publication number: DE102004026782A1
Application number: DE102004026782A
Authority: DE
Inventors: Axel Techmer
Original assignee: Infineon Technologies AG
Current assignee: Infineon Technologies AG
Priority date: 2004-06-02
Filing date: 2004-06-02
Publication date: 2005-12-29
Also published as: US20060050788A1

Abstract

Ein Verfahren und eine Vorrichtung zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern mit Bildpunkten, deren Codierungsinformation zugeordnet ist, werden bereitgestellt, wobei die Bewegung, basierend auf der räumlichen Verteilung von Merkmalspunkten, geschätzt wird.

Description

Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern, ein computerlesbares Speichermedium und ein Computerprogramm-Element.
Die Entwicklung im Bereich der Mobilfunktelefone und der digitalen Fotoapparate hat zusammen mit der hohen Verbreitung von Mobilfunktelefonen und der hohen Beliebtheit von digitalen Fotoapparaten dazu geführt, dass moderne Mobilfunktelefone häufig eingebaute Digitalkameras aufweisen.
Zusätzlich werden Dienste, wie beispielsweise der Multimedia-Message-Service (MMS), bereitgestellt, die es ermöglichen, mit dafür geeigneten Mobilfunktelefonen digitale Bildmitteilungen zu senden und zu empfangen.
Typischerweise sind die Komponenten von Mobilfunktelefonen, die das Aufnehmen von digitalen Bildern ermöglichen, verglichen mit den handelsüblichen Digitalkameras nicht sehr leistungsfähig.
Dies hat beispielsweise die Gründe, dass Mobilfunktelefone kostengünstig und von geringer Größe sein sollen.
Insbesondere ist die Auflösung von digitalen Bildern, die mit Mobilfunktelefonen mit eingebauter Digitalkamera aufgenommen werden können, für manche Zwecke zu gering.

Beispielsweise besteht prinzipiell die Möglichkeit, mit einem Mobilfunktelefon mit eingebauter Digitalkamera gedruckten Text zu fotografieren und in Form einer Bildmitteilung mittels eines geeigneten Dienstes, beispielsweise dem Multimedia-Message-Service (MMS), an einen anderen Mobilfunktelefonbenutzer zu versenden, doch die Auflösung der eingebauten Digitalkamera reicht dazu bei einem heutigen handelsüblichen Gerät mittlerer Preisklasse nicht aus.

Es besteht jedoch die Möglichkeit, aus einer geeigneten Folge von digitalen Bildern, die jeweils eine Szene von einer jeweiligen Aufnahmeposition aus darstellen, ein digitales Bild der Szene zu erzeugen, das eine höhere Auflösung als die der digitalen Bilder der Folge von digitalen Bildern aufweist.

Diese Möglichkeit besteht beispielsweise dann, wenn die Positionen, aus der digitale Bilder einer Folge von digitalen Bildern der Szene aufgenommen wurden, in geeigneter Weise unterschiedlich sind.

Die Aufnahmepositionen, das heißt, die Positionen, aus der die digitalen Bilder der Folge von digitalen Bildern der Szene aufgenommen wurden, können beispielsweise dann in geeigneter Weise unterschiedlich sein, wenn die Mehrzahl von digitalen Bildern erzeugt wurde, indem mehrere digitale Bilder mit einem digitalen Fotoapparat aufgenommen wurden, der von Hand über einen gedruckten Text gehalten wurde.

In diesem Fall reichen die durch die leichte Bewegung des digitalen Fotoapparats, die durch das Zittern der Hand entsteht, erzeugten Unterschiede der Aufnahmepositionen typischerweise aus, um die Erzeugung eines digitalen Bildes der Szene mit hoher Auflösung zu ermöglichen.

Dazu ist es allerdings erforderlich, dass die Unterschiede der Aufnahmepositionen berechnet wird.

Wird ein erstes digitales Bild aus einer ersten Aufnahmeposition aufgenommen und wird ein zweites digitales Bild aus einer zweiten Aufnahmeposition aufgenommen, wird ein Bildinhaltsbestandteil, beispielsweise ein Objekt der Szene, in dem ersten digitalen Bild an einer ersten Bildposition und in einer ersten Form, womit im Weiteren die geometrische Form gemeint ist, dargestellt und in dem zweiten digitalen Bild an einer zweiten Bildposition und in einer zweiten Form dargestellt.

Die Änderung der Aufnahmeposition von der ersten Aufnahmeposition zu der zweiten Aufnahmeposition spiegelt sich in der Änderung der ersten Bildposition zu der zweiten Bildposition und der ersten Form zu der zweiten Form wider.

Deshalb kann eine Berechnung einer Aufnahmepositionsänderung, die zur Erzeugung eines digitalen Bildes mit höherer Auflösung als die der digitalen Bilder der Folge digitaler Bilder erforderlich ist, durch Berechnen der Änderung der Bildposition, an denen Bildinhaltsbestandteile dargestellt werden, und der Form, in der Bildinhaltsbestandteile dargestellt werden, erfolgen.

Wird ein Bildinhaltsbestandteil in einem ersten Bild an einer ersten (Bild-)Position und in einer ersten Form dargestellt und in einem zweiten Bild an einer zweiten Position und in einer zweiten Form dargestellt, so wird im Folgenden von einer Bewegung des Bildinhaltbestandteils oder von einer Bildbewegung gesprochen.

Es kann sich nicht nur die Position der Darstellung eines Bildinhaltsbestandteils in aufeinanderfolgenden Bildern verändern, sondern die Darstellung kann auch verzerrt werden oder ihre Größe kann sich ändern.

Außerdem kann die Darstellung eines Bildinhaltbestandteils sich von einem digitalen Bild der Folge digitaler Bilder zu einem anderen digitalen Bild der Folge digitaler Bilder ändern, beispielsweise kann sich die Helligkeit der Darstellung ändern.

Für die Bestimmung der Bildbewegung kann nur die zeitliche Änderung der Bilddaten genutzt werden. Diese zeitliche Änderung wird aber nicht allein durch die Bewegung von Objekten in der beobachteten Umgebung und durch die Eigenbewegung des Beobachters verursacht, sondern auch durch die mögliche Verformung von Objekten und durch wechselnde Beleuchtungsverhältnisse in natürlichen Szenen.

Zusätzlich müssen Störungen berücksichtigt werden, z.B. das Schwingen der Kamera oder das Rauschen der verarbeitenden Hardware.

Die reine Bildbewegung kann daher nur unter Kenntnis der zusätzlichen Einflüsse gewonnen oder aus Annahmen über sie geschätzt werden.

Für die Erzeugung eines digitalen Bildes mit höherer Auflösung als die der digitalen Bilder der Folge digitaler Bilder ist es sehr vorteilhaft, dass die Berechnung der Bewegung der Bildinhalte von einem digitalen Bild der Folge digitaler Bilder zu einem anderen digitalen Bild der Folge digitaler Bilder subpixelgenau erfolgt.

Unter Subpixelgenauigkeit ist zu verstehen, dass die Bewegung auf eine Länge genau berechnet wird, die geringer ist als der Abstand zweier örtlich benachbarter Bildpunkte der digitalen Bilder der Folge digitaler Bilder.

Im Weiteren ist unter einem Bild stets ein digitales Bild zu verstehen.

Eine herkömmliche Methode eine subpixelgenaue Bewegungsschätzung durchzuführen ist die Bestimmung des optischen Flusses (vgl.[1]).

Der optische Fluss bezieht sich auf die Bildänderungen, das heißt auf die Änderungen der Darstellung von Bildinhalten von einem Bild der Folge digitaler Bilder zu dem zeitlich nachfolgenden oder vorangegangenen Bild der Folge digitaler Bilder, die aus der Bewegung der Objekte und der Eigenbewegung des Beobachters entstehen. Die erzeugten Bildbewegungen können als Geschwindigkeitsvektoren interpretiert werden, die den Bildpunkten anheften. Unter dem optischen Fluss wird das Vektorfeld dieser Vektoren verstanden. Zur Ermittlung der Bewegungskomponenten werden üblicherweise Annahmen über die zeitliche Änderung der Bildwerte getroffen.

Mit I(x, y, t) wird das zeitabhängige, zweidimensionale Bild bezeichnet. I(x, y, t) ist eine Codierungsinformation, die dem Bildpunkt an der Stelle (x, y) des Bildes zum Zeitpunkt t zugeordnet ist.

Unter Codierungsinformation ist im Weiteren eine Helligkeitsinformation (Luminanzinformation) und/oder eine Farbinformation (Chrominanzinformation) zu verstehen, die jeweils einem Bildpunkt oder mehreren Bildpunkten zugeordnet ist.

Eine Folge digitaler Bilder wird als ein einziges, zeitabhängiges Bild ausgedrückt, das heißt das erste Bild der Folge digitaler Bilder entspricht einem ersten Zeitpunkt t₁, das zweite Bild der Folge digitaler Bilder einem zweiten Zeitpunkt t₂ und so weiter.

I(x, y, t₁) ist also beispielsweise der Grauwert eines Bildes an der Stelle (x, y) des Bildes der Folge digitaler Bilder, das dem ersten Zeitpunkt t₁ entspricht, beispielsweise wurde es zum ersten Zeitpunkt t₁ aufgenommen.

Die Änderung für einen Bildpunkt, die dieser in der Zeit dt mit Geschwindigkeit (dx, dy) erfährt, kann mittels Entwicklung in eine Taylor-Reihe

ausgedrückt werden.

Für die Bestimmung des optischen Flusses wird die Annahme getroffen, dass die Bildwerte entlang der Bewegungsrichtung konstant bleiben. Dies wird durch die Gleichung I(x + dx, y + dy, t + dt) = I(x, y, t), (2)formuliert, aus der die Gleichung

folgt, wobei wie in Gleichung (1) die drei Punkte die Terme symbolisieren, die höhere Ableitungen als die ersten partiellen Ableitungen der Funktion I aufweisen.

Wird Gleichung (3) durch den Ausdruck dt dividiert und die Terme, die höhere Ableitungen als die ersten partiellen Ableitungen von I aufweisen, vernachlässigt, ergibt sich die Gleichung

Das Vernachlässigen der höheren Ableitungen führt zu Fehlern, wenn die Bildbewegung groß ist im Verhältnis zum Pixelgitter.

Der Vektor

gibt die Komponenten des optischen Vektorfeldes an, und wird üblicherweise mit [u, v] bezeichnet.

Damit gilt für Gleichung (4)

Diese Gleichung gilt als Grundgleichung des optischen Flusses.

Damit u und v eindeutig bestimmt werden können, ist es bekannt, weitere Annahmen über die zeitliche Änderung der Bilddaten zu treffen.

Gemäß [2] wird hierfür als zusätzliche Annahme getroffen, dass der optische Fluss glatt ist.

Beide Annahmen zusammen führen zu einem Minimierungsproblem, das wie folgt formuliert wird:

Der erste Term des Integrals entspricht der Grundgleichung des optischen Flusses (5) und der zweite Term repräsentiert die Glattheitsbedingung gemäß [2].

Das bedeutet anschaulich, dass der erste Term bewirkt, dass das Vektorfeld, das das durch Gleichung (6) gegebene Minimierungsproblem löst, möglichst gut die Gleichung (5) erfüllt. Die Glattheitsbedingung bewirkt, dass die partiellen Ableitungen des Vektorfeldes, das das durch Gleichung (6) gegebene Minimierungsproblem löst, nach den Ortsvariablen x und y möglichst klein sind.

Das durch Gleichung (6) gegebene Minimierungsproblem kann mittels eines Variationsrechnungs-Ansatzes gelöst werden.

Dabei wird ein lineares Gleichungssystem gelöst, wobei die Anzahl der Unbekannten des linearen Gleichungssystems die doppelten Anzahl der Bildpunkte ist.

In [2] wird zur Lösung des linearen Gleichungssystems ein iteratives Vorgehen gemäß dem sogenannten Gauss-Seidel-Verfahren vorgeschlagen.

Gemäß [3] wird als zweite Annahme zur Bestimmung des optischen Flusses die Bedingung verwendet, dass benachbarte Pixel den gleichen Bewegungsvektor besitzen müssen.

Aus Gleichung (5) kann gefolgert werden, dass diese Annahme für mindestens zwei Punkte erfüllt sein muss.

Üblicherweise wird jedoch eine kleine lokale Nachbarschaft eines Pixels verwendet.

Die Bestimmung von u,v kann unter dieser Annahme als ein Least-Squares-Problem formuliert werden:

Dieses führt auf das Gleichungssystem:

Die Summen in den Gleichungen (7), (8) und (9) laufen über alle x, y aus der verwendeten örtlichen Nachbarschaft des Pixels.

Durch die Auswertung einer lokalen Nachbarschaft wird bei beiden oben erläuterten Verfahren ein optischer Flussvektor mit Subpixelgenauigkeit bestimmt.

Bei beiden Verfahren treten jedoch die folgenden Probleme auf:

– In homogenen Bereichen kann keine Bewegung bestimmt werden, da die geforderte Glattheit bzw. die Gruppenbildung keine zusätzliche Information liefert.
– Bei beiden Verfahren werden die örtlichen und zeitlichen Ableitungen durch diskrete Differenzen angenähert, was zu einer geringen Genauigkeit führen kann.
– Probleme ergeben sich, wenn die Bewegung in Relation zur Abtastzeit der Bilder groß ist. Dann können die höheren Ableitungen bei der Taylor-Reihenentwicklung nicht mehr ohne Weiteres vernachlässigt werden. In diesem Fall führen so genannte Block-Matching Verfahren, die auf einer Korrelationsanalyse basieren, oftmals sogar zu besseren Ergebnissen. Diese Verfahren sind prinzipiell vergleichbar mit den Ansätzen gemäß [3].
– Die Bewertung kleiner lokaler Nachbarschaften führt zum Beispiel für das Fotografieren von Textdokumenten zu einem weiteren Problem. Selbst wenn das Intensitätsmuster innerhalb der lokalen Nachbarschaft kontrastreich ist, können Mehrdeutigkeiten entstehen, weil sich das Muster in der Umgebung der lokalen Nachbarschaft wiederholt. Dies tritt besonders bei Texten auf, da es zwischen den Buchstaben keine Intensitätsunterschiede gibt und Buchstaben aus denselben geometrischen Formen gebildet werden. Hier führt besonders die Korrelationsanalyse zu Fehlern.
– Entgegen der Annahme gemäß [2] [3] kann man im Allgemeinen (wenn im Bild z.B. bewegte Objekte vorhanden sind) nicht erwarten, dass der optische Fluss örtlich konstant bzw. glatt verläuft. Vielmehr muss er als stückweise glatt angesehen werden, da z.B. an Objektgrenzen Diskontinuitäten auftreten. Diese Diskontinuitäten müssen bei der Bestimmung des optischen Flusses berücksichtigt werden.

Zahlreiche Arbeiten beschäftigen sich mit dem Problem des optischen Flusses mit Berücksichtigung von Diskontinuitäten, Verdeckungen usw.

Für die oben beschriebene Anwendung, bei der aus einer mit einem digitalen Fotoapparat erzeugten niedrigaufgelösten Folge digitaler Bilder ein hochaufgelöstes Bild erzeugt werden soll, sind diese Ansätze jedoch nicht erforderlich, da bei der obigen Anwendung nur eine Bewegung der Kamera vorliegt und daher die obigen Annahmen näherungsweise erfüllt sind.

Somit würden die Verwendung dieser Ansätze für ein Verfahren zu unnötig hoher Komplexität des Verfahrens und damit zu einer geringen Effizienz des Verfahrens führen.

Das Problem der eindeutigen Bestimmung des optischen Flusses in homogenen Bildabschnitten oder entlang ausgedehnter horizontaler bzw. vertikaler Kanten kann umgangen werden, indem der optische Fluss nicht an allen Bildpunkten, sondern an Punkten mit signifikanten Bildwerten ausgeführt wird (siehe z.B. [4]).

Dies führt dazu, dass nur ein ausgedünnter optischer Fluss vorliegt. Das Problem der Approximation der Ableitungen durch diskrete Differenzen bei schnellen Bewegungen kann durch die Verwendung von Bildpyramiden reduziert werden (siehe z.B. [5]).

Bei den obigen Verfahren werden basierend auf der Grundgleichung des optischen Flusses (5) Bewegungsvektoren an einzelnen Bildpunkten bestimmt. Bei der Bestimmung wird eine lokale Umgebung berücksichtigt. Die Berechnungen der Bewegungsvektoren an den einzelnen Bildpunkten erfolgen unabhängig voneinander.

Dies erlaubt, dass unterschiedliche Bewegungen, die von unterschiedlichen Objekten erzeugt wird, bestimmt werden können.

Es ist ferner bekannt, unter der Voraussetzung, dass die von den Bildern der Folge digitaler Bilder dargestellte Szene statisch ist und die Bildbewegung nur vom Beobachter verursacht wird, basierend auf der Grundgleichung des optischen Flusses (5) aus der Codierungsinformation der Bilder ein Bewegungsmodell für alle Bildpunkte zu bestimmen.

Dies wird im folgenden erläutert.

Bezeichnen u(x, y, t) und v(x, y, t) die Bewegung an einem Bildpunkt (x, y) zu einem Zeitpunkt t, so gilt Ix(x, y, t)u(x, y, t) + Iy(x, y, t)v(x, y, t) + It(x, y, t) = 0 (10)(siehe Gleichung (5)).

I_x(x, y, t), I_y(x, y, t), I_t(x, y, t) bezeichnen die partiellen Ableitungen der Funktion I(x, y, t) nach der Variable x bzw. der Variable y bzw. der Variable z an der Stelle (x, y) zum Zeitpunkt t.

Für u(x, y, t) und v(x, y, t) können verschiedene Bewegungsmodelle eingesetzt werden, um die gesuchte Bewegung im Bild möglichst gut zu modellieren.

Für ein affines Bewegungsmodell gilt zum Beispiel u(x, y, t) = a0x + a1y + a2 (11) v(x, y, t) = a3x + a4y + a5 (12)

Die Bestimmung von u(x, y, t) und v(x, y, t) mit Hilfe von Gleichung (10) kann z.B. als Minimierung eines quadratischen Fehlers formuliert werden:

Bei der Lösung des durch (13) gegebenen Minimierungsproblems werden die Parameter a₀, a₁, a₂, a₃, a₄ und a₅ aus den Gleichungen (11) und (12) in Form des optimalen Parametervektors

bestimmt.

Auch dieses Verfahren führt bei großen Bewegungen zu schlechten Ergebnissen, weil das Ignorieren der höheren Ableitungen bei der Taylor-Entwicklung zu Fehlern führt.

Deshalb wird gemäß dem Stand der Technik auch bei diesem Verfahren ein hierarchisches Vorgehen angewendet.

Zunächst wird auf einer niedrigen Auflösungsstufe die Bewegung bestimmt, da durch die Auflösungsreduzierung auch die Größe der Bewegung reduziert wird. Die Auflösung wird dann sukzessive bis zur ursprünglichen Auflösung erhöht.

Außerdem wird die Qualität der Bewegungsschätzung durch ein iteratives Vorgehen verbessert.

11 zeigt ein Flussdiagramm 1100 eines beispielsweise aus [6] bekannten Verfahrens zur parametrischen Bewegungsbestimmung.

Für eine Mehrzahl von Bildern 1101 wird eine erste Schleife 1102 über alle Auflösungsebenen, das heißt über alle Auflösungsstufen, ausgeführt.

Innerhalb jeder Iteration der ersten Schleife 1102 wird das Bild in der aktuellen Auflösungsebene in Schritt 1103 tiefpassgefiltert und anschließend in Schritt 1104 unterabgetastet.

In Schritt 1105 werden die örtlichen Gradienten, das heißt anschaulich die Bildrichtungen mit dem stärksten Anstieg der Helligkeit, bestimmt.

Anschließend wird innerhalb jeder Iteration der ersten Schleife 1102 eine zweite Schleife 1106 ausgeführt.

Innerhalb jedes Durchgangs durch die zweite Schleife wird zunächst in Schritt 1107 der zeitliche Gradient berechnet, das heißt anschaulich die Änderung der Helligkeit an einem Bildpunkt von dem Bild, das zum Zeitpunkt t aufgenommen wurde, zu dem Bild, das zum Zeitpunkt t+1 aufgenommen wurde.

In Schritt 1108 wird innerhalb der ersten Iteration der zweiten Schleife 1106 für die erste Auflösungsebene aus der Codierungsinformation I(x, y, t) des Bildes, das zum Zeitpunkt t aufgenommen wurde, und der Codierungsinformation I(x, y, t+1) des Bildes, das zum Zeitpunkt t+1 aufgenommen wurde, ein erster Parametervektor a₀ berechnet, beispielsweise mittels einer Least-Squares-Schätzung wie bei dem oben beschriebenen Verfahren, der das parametrische Bewegungsmodell bestimmt.

In Schritt 1109 wird die Qualität des aktuellen Bewegungsmodells, das durch den aktuell berechneten Parametervektor bestimmt ist, gemessen.

Hat sich die Qualität nicht verbessert, wird die aktuelle Iteration der zweiten Schleife 1106 beendet.

Hat sich die Qualität verbessert, wird in Schritt 1111 aus der Codierungsinformation I(x, y, t+1) des Bildes, das zum Zeitpunkt t+1 aufgenommen wurde, mittels des Bewegungsmodells, das durch den aktuell berechneten Parametervektor bestimmt wird, durch Kompensation eine kompensierte Codierungsinformation I¹(x, y, t+1) des Bildes, das zum Zeitpunkt t+1 aufgenommen wurde, bestimmt und der aktuell berechnete Parametervektor wird in Schritt 1112 akzeptiert.

Anschließend wird die aktuelle Iteration der zweiten Schleife 1106 beendet.

In allen nachfolgenden Iterationen der zweiten Schleife 1106 wird analog zur ersten Iteration der zweiten Schleife 1106 für die erste Auflösungsebene vorgegangen, es wird nur jeweils statt der Codierungsinformation I(x, y, t+1) die kompensierte Codierungsinformation aus der letzten Iteration I¹(x, y, t+1), I²(x, y, t+1), ... verwendet, um Parametervektoren a ¹, a ², ... zu bestimmen.

Die Schleife 1106 wird solange ausgeführt, bis ein vorgegebenes Abbruchkriterium erfüllt ist, beispielsweise der Kleinste-Quadrate-Fehler unter einer vorgegebenen Schranke liegt.

Wenn das Abbruchkriterium erfüllt ist, wird die aktuelle Iteration der ersten Schleife 1102 beendet.

Wurde für jede gewünschte Auflösungsstufe eine Iteration der ersten Schleife 1102 ausgeführt, so wird aus den berechneten Parametervektoren a ₀, a ₁, a ₂, ... ein Parametervektor â berechnet, und die Bewegung 1113 gilt als bestimmt.

Dieses Verfahren, ist unter der Bezeichnung "parametrische Bewegungsbestimmung" bekannt.

Ferner ist es bekannt, Bildbewegung mittels zeitlicher Verfolgung von Objekten zu bestimmen.

Es existieren zahlreiche Verfahren, die explizites Modellwissen über das Objekt voraussetzen und für die ein vorausgehender Schritt der Objektdetektion erforderlich ist (siehe z.B. [7]).

Diese Verfahren sind jedoch für Anwendungen wie die oben beschriebene, bei der aus einer mit einer Digitalkamera erzeugten niedrigaufgelösten Folge digitaler Bilder ein hochaufgelöstes Bild erzeugt werden soll, nicht geeignet, da diese Verfahren eine starke Begrenzung der Variationsmöglichkeiten, das heißt der ermittelbaren Veränderungen eines Bildes aufweisen.

Eine andere Gruppe von Verfahren verwendet einen Umriss eines zu verfolgenden Objektes. Diese Verfahren sind unter den Stichworten "Active Contours" oder "Snakes" bekannt.

Auch diese Ansätze sind für Anwendungen wie die oben beschriebene, bei der aus einer mit einer Digitalkamera erzeugten niedrigaufgelösten Folge digitaler Bilder ein hochaufgelöstes Bild erzeugt werden soll, nicht geeignet, da im Allgemeinen kein Objektumriss vorliegt.

Eine weitere Gruppe üblicher Verfahren zur Objektverfolgung verwendet eine Repräsentation von Objekten durch Merkmalspunkte und verfolgt diese Punkte über die Zeit, das heißt über die Folge digitaler Bilder.

Die Punkte werden zunächst unabhängig voneinander verfolgt.

Anschließend wird ein Bewegungsmodell ermittelt, das die Verschiebungen der einzelnen Punkte ermöglicht.

Für die Bewegung der einzelnen Objektpunkte können Verfahren zur Bestimmung des optischen Flusses eingesetzt werden. Damit treten hier die bereits angesprochenen Nachteile des optischen Flusses auf mit dem Zusatz, dass die Auswertung homogener Bereiche durch die Auswahl von Merkmalspunkten umgangen wird.

Möglich ist es auch, eine einheitliche Bewegung für alle Objektpunkte zu bestimmen.

Im Gegensatz zu Verfahren, die auf dem optischen Fluss basieren, besteht hier das Problem, dass die Parameter des Bewegungsmodells nicht mehr direkt über ein lineares Gleichungssystem bestimmt werden können, sondern eine Optimierung über den gesamten Parameterbereich erforderlich ist.

Bei dem in [12] offenbarten Verfahren von Werner et al. wird ein Bewegungsmodell mittels einer Minimierung der Hausdorffdistanz bestimmt. Dazu ist es erforderlich, eine Minimierung über alle Bewegungsparameter durchzuführen, was zu einem erheblichen Rechenaufwand führt.

Ein alternativer, von Capel et al. in [13] beschriebener Ansatz besteht darin, die Objektmerkmale in kleine Untermengen aufzuteilen. Für jede dieser Untermengen wird zunächst ein eigenes Bewegungsmodell bestimmt, in dem korrespondierende Objektmerkmale zum Zeitpunkt t1 und t2 gesucht werden. Korrespondierende Objektmerkmale werden durch einen Vergleich der Intensitätsmuster bestimmt. Mittels dieser korrespondierenden Punkte kann ein Bewegungsmodell direkt über einen kleinsten Quadrateansatz bestimmt werden. Aus den Bewegungsmodellen der Untermengen, wird letztlich das Modell ausgewählt, das für alle Objektmerkmale die beste Zuordnung erlaubt. Eine Bewertung für die beste Zuordnung ist zum Beispiel die Minimierung der Summe absoluter Bilddifferenzen.

Um den Aufwand für die Bestimmung korrespondierender Punkte zu reduzieren, muss bei diesem Verfahren jedoch eine minimale Anzahl von Untermengen mit einer minimalen Anzahl von Merkmalspunkten bestimmt werden. Deshalb treten bei diesem Verfahren Ungenauigkeiten und Mehrdeutigkeiten auf, wie sie schon oben mit Bezug auf Verfahren, die auf dem optischen Fluss basieren, beschrieben worden sind.

Eine weitere Möglichkeit zur Bestimmung eines Bewegungsmodells für eine Objektrepräsentation durch Merkmalspunkte wird in [8] beschrieben. Hier wird eine konturbasierte Bestimmung der Bildbewegung vorgestellt. Es wird die Bewegung durch einen Vergleich von Konturpunktpositionen und Konturformen berechnet. Der Ansatz kann zudem auf eine Objektverfolgung erweitert werden. Das Verfahren beruht allein auf der Auswertung von Distanzen und damit auf der Auswertung der geometrischen Form von Objekten. Dies macht das Verfahren im Vergleich zu Ansätzen, die das Intensitätsmuster bewerten, unempfindlicher gegenüber Beleuchtungs- oder Belichtungsänderungen. Die Bestimmung des Bewegungsmodells benötigt lediglich eine Variation über die zwei Translationskomponenten der Bewegung. Die übrigen Parameter können direkt über eine kleinste Quadrateschätzung bestimmt werden. Damit wird eine wesentliche Reduzierung des Rechenaufwandes im Vergleich zu Verfahren erreicht, bei denen eine Variation über alle Parameter des Bewegungsmodells erforderlich sind (siehe z.B. [12]).

Diese Ansätze haben den Nachteil, dass Bewegungsmodelle, wie beispielsweise affine Transformationsmodelle, bestimmt werden müssen, die eine hohe Anzahl an Freiheitsgraden besitzen.

Aus [11] ist es bekannt, eine Funktion bikubisch zu interpolieren.

Der Erfindung liegt die Aufgabe zugrunde, die Bildbewegung in mindestens zwei zeitlich aufeinanderfolgenden digitalen Bildern effizient und mit hoher Genauigkeit zu ermitteln.

Die Aufgabe wird durch das Verfahren und das System zur Ermittlung der Bildbewegung von mindestens zwei zeitlich aufeinander folgenden digitalen Bildern, das computerlesbare Speichermedium und das Computerprogramm-Element gemäß den unabhängigen Patentansprüchen gelöst.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.

Unter Bildbewegung in einem ersten Bild und einem zweiten Bild, das zeitlich dem ersten Bild folgt, ist zu verstehen, dass ein Bildinhaltsbestandteil in dem ersten Bild an einer ersten (Bild-)Position und in einer ersten Form dargestellt wird und in dem zweiten, folgenden Bild an einer zweiten Position und in einer zweiten Form dargestellt wird, wobei die erste Position und die zweite Position oder die erste Form und die zweite Form unterschiedlich sind.

Mit effizient ist insbesondere gemeint, dass die Berechnung mittels einfacher und kostengünstiger Hardware in kurzer Zeit ausgeführt werden kann.

Beispielsweise soll die für die Berechnung erforderliche Hardware in einem kostengünstigen Mobilfunktelefon bereitgestellt werden können.

Wie oben erwähnt, ist unter Codierungsinformation Helligkeitsinformation (Luminanzinformation) und/oder eine Farbinformation (Chrominanzinformation) zu verstehen, die jeweils einem Bildpunkt zugeordnet ist.

Es wird ein Verfahren zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern mit Bildpunkten, denen Codierungsinformation zugeordnet ist, bereitgestellt, wobei

– unter Verwendung eines ersten Auswahlkriteriums eine Menge von Merkmalspunkten des ersten Bildes bestimmt wird, wobei ein Merkmalspunkt des ersten Bildes ein Bildpunkt des ersten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das erste Auswahlkriterium erfüllen;
– unter Verwendung eines zweiten Auswahlkriteriums eine Menge von Merkmalspunkten des zweiten Bildes bestimmt wird, wobei ein Merkmalspunkt des zweiten Bildes ein Bildpunkt des zweiten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das zweite Auswahlkriterium erfüllen;
– basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des ersten Bildes und basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des zweiten Bildes eine Zuordnung jedes Merkmalspunkts des ersten Bildes zu jeweils einem Merkmalspunkt des zweiten Bildes bestimmt wird; und
– basierend auf der Zuordnung die Bewegung geschätzt wird.

Ferner wird ein Computerprogramm-Element bereitgestellt, das, nachdem es in einen Speicher eines Computers geladen worden ist, bewirkt, dass der Computer das obige Verfahren durchführt.

Ferner wird ein computerlesbares Speichermedium bereitgestellt, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, das obige Verfahren durchzuführen.

Ferner wird eine Vorrichtung bereitgestellt, die so eingerichtet ist, dass das obige Verfahren durchgeführt wird.

Anschaulich erfolgt die Bewegungsbestimmung durch einen Vergleich von Merkmalspositionen.

Anschaulich gesprochen werden in zwei aufeinanderfolgenden Bildern Merkmale bestimmt und eine Zuordnung bestimmt, indem versucht wird, zu bestimmen, welchen Merkmalen im zweiten Bild die Merkmale im ersten Bild jeweils entsprechen. Wurde bestimmt, welchem Merkmal im zweiten Bild ein Merkmal im ersten Bild entspricht, so wird das so interpretiert, dass das Merkmal im ersten Bild zu der Position des Merkmals im zweiten Bild gewandert ist und diese Positionsänderung, die einer Bildbewegung des Merkmals entspricht, wird berechnet. Darüber hinaus wird an Hand der Positionsänderungen der einzelnen Merkmale, ein einheitliches Bewegungsmodell berechnet, das die Positionsänderungen möglichst gut modelliert.

Anschaulich wird somit eine Zuordnung fest gewählt und ein Bewegungsmodell bestimmt, das alle Merkmalspunkte des ersten Bildes auf die ihnen jeweils zugeordneten Mermalspunkte des zweiten Bildes in einem gewissen Sinne, beispielsweise in einem Least-Squares-Sinne wie unten beschrieben, am besten abbildet.

Insbesondere wird nicht für alle Werte der Parameter des Bewegungsmodells ein Abstand zwischen der mittels des Bewegungsmodells abgebildeten Menge der Merkmalspunkte des ersten Bildes und der Menge der Merkmalspunkte des zweiten Bildes berechnet. Somit wird ein geringer Rechenaufwand bei dem bereitgestellten Verfahrens erreicht.

Merkmale sind Punkte des Bildes, die in einem gewissen, vorgegebenen Sinn signifikant sind, beispielsweise Kantenpunkte.

Ein Kantenpunkt ist ein Punkt des Bildes, an dem eine starke örtliche Helligkeitsänderung auftritt, beispielsweise ist ein Punkt, dessen linker Nachbar schwarz und dessen rechter Nachbar weiß ist, ein Kantenpunkt.

Formal wird einen Kantenpunkt als ein lokales Maximum des Bildgradienten in Gradientenrichtung bestimmt oder als Nulldurchgang der zweiten Ableitung der Bildinformation bestimmt.

Weitere Bildpunkte, die bei dem bereitgestellten Verfahren als Merkmalspunkte verwendet werden können, sind z.B.:

– Grauwertecken, das heißt Bildpunkte, die ein lokales Maximum des Bildgradienten in x- und y-Richtung aufweisen.
– Ecken in Konturverläufen, das heißt Bildpunkte an denen eine signifikante hohe Krümmung einer Kontur auftritt.
– Bildpunkte mit einer lokalen, maximalen Filterantwort bei Filterung mit örtlichen Filtermasken (z.B. Sobeloperator, Gaborfunktionen, usw.).
– Bildpunkte, die die Grenzen unterschiedlicher Bildregionen charakterisieren. Diese Bildregionen werden z.B. durch Bildsegmentierungen wie „Region Growing" oder „Watershed Segmentierung" erzeugt.
– Bildpunkte, die Schwerpunkte von Bildregionen beschreiben, wie sie beispielsweise durch die oben genannten Bildsegmentierungen erzeugt werden.

Die Positionen einer Menge von Merkmalen bestimmt eine zweidimensionale räumliche Merkmalsverteilung eines Bildes.

Bei der Bestimmung der Bewegung von einem ersten Bild und einem zweiten Bild gemäß dem bereitgestellten Verfahren wird anschaulich die räumliche Merkmalsverteilung des ersten Bildes mit der räumlichen Merkmalsverteilung des zweiten Bildes verglichen.

Im Gegensatz zu einem Verfahren, das auf dem optischen Fluss basiert, wird bei dem bereitgestellten Verfahren die Bewegung nicht basierend auf der Helligkeitsverteilung der Bilder, sondern basierend auf der räumlichen Verteilung von signifikanten Punkten berechnet.

Neben der oben beschriebenen "Super-Resolution", also der Erzeugung von hochaufgelösten Bildern aus einer Folge von niedrig aufgelösten Bildern kann das bereitgestellte Verfahren zur Bewegungsschätzung ferner eingesetzt werden

– für Structure-From-Mution-Verfahren, die dazu dienen, aus einer Folge von Bildern, die von einer sich bewegenden Kamera aufgenommen wird, auf die 3D-Geometrie der Umgebung zu schließen;
– für Verfahren zur Erzeugung von Mosaikbildern, bei denen ein großes hochaufgelöstes Bild aus einzelnen hochaufgelösten kleineren Bildern zusammengefügt wird; sowie
– für Verfahren zur Videokomprimierung, bei denen mittels einer Bewegungsschätzung eine verbesserte Kompressionsrate erreicht werden kann.

Das bereitgestellte Verfahren zeichnet sich durch seine hohe erreichbare Genauigkeit und durch seine Einfachheit aus.

Insbesondere müssen keine räumlichen und zeitlichen Ableitung approximiert werden, was rechenintensiv ist und typischerweise zu Ungenauigkeiten führt.

Aufgrund der Einfachheit des bereitgestellten Verfahrens ist es möglich, das Verfahren beispielsweise in einem zukünftigen Mobilfunktelefon zu implementieren, ohne dass dieses eine leistungsfähige und kostenintensive Datenverarbeitungseinheit aufweisen muss.

Es ist bevorzugt, dass bei dem obigen Verfahren die auf der auf der räumlichen Verteilung der Menge von Merkmalspunkten des ersten Bildes und auf der räumlichen Verteilung der Menge von Merkmalspunkten des zweiten Bildes basierende Schätzung der Bewegung durchgeführt wird, indem jedem Merkmalspunkt aus der Menge von Merkmalspunkten des ersten Bildes ein Merkmalspunkt aus der Menge von Merkmalspunkten des zweiten Bildes zugeordnet wird.

Es ist bevorzugt, dass ein Merkmalspunkt aus der Menge von Merkmalspunkten des ersten Bildes einem Merkmalspunkt aus der Menge von Merkmalspunkten des zweiten Bildes zugeordnet wird, zu dem der Merkmalspunkt aus der Menge von Merkmalspunkten des ersten Bildes eine minimale räumliche Distanz hat, die aus den Koordinaten des Merkmalspunkts aus der Menge von Merkmalspunkten des ersten Bildes und den Koordinaten des Merkmalspunkts aus der Menge von Merkmalspunkten des zweiten Bildes bestimmt wird.

Ein Vorteil dieser bevorzugten Vorgehensweise ist, dass die Bewegungsschätzung mit geringem Rechenaufwand durchgeführt werden kann. Beispielsweise kann die oben erwähnte Zuordnung mit Hilfe einer Distanztransformation durchgeführt werden, für welche effiziente Verfahren bekannt sind.

Es ist bevorzugt, dass bei dem obigen Verfahren die Bestimmung der Menge von Merkmalspunkten des ersten Bildes, die Bestimmung der Menge von Merkmalspunkten des zweiten Bildes und die Schätzung der Bewegung subpixelgenau erfolgt.

Es ist ferner bevorzugt, dass bei dem obigen Verfahren die Schätzung der Bewegung durch Bestimmung eines Bewegungsmodells erfolgt.

Vorzugsweise wird vor der Bestimmung des Bewegungsmodells eine Translation bestimmt.

Bei einer bevorzugten Ausführungsform, die unten beschrieben wird, wird eine Translation bestimmt, bevor die oben beschriebene Zuordnung der Merkmalspunkte des ersten Bildes zu Merkmalspunkten des zweiten Bildes bestimmt wird.

Durch die Bestimmung einer Translation vor der Bestimmung des Bewegungsmodells kann die Genauigkeit der Bewegungsschätzung mit geringem Rechenaufwand erhöht werden.

Die Translation kann mit geringem Rechenaufwand bestimmt werden, da eine Translation durch wenige Bewegungsparameter bestimmt werden kann.

Es ist ferner bevorzugt, dass ein affines Bewegungsmodell oder ein perspektivisches Bewegungsmodell bestimmt wird.

Vorzugsweise wird das Bewegungsmodell iterativ bestimmt.

Dabei wird anschaulich in jeder Iteration die Zuordnung jedes Merkmalspunkts des ersten Bildes zu jeweils einem Merkmalspunkt des zweiten Bildes fest gewählt, die Zuordnungen, die in unterschiedlichen Iterationen verwendet werden, können jedoch unterschiedlich sein.

Dadurch kann eine hohe Genauigkeit erzielt werden.

Es ist bevorzugt, dass bei dem obigen Verfahren das erste Auswahlkriterium und das zweite Auswahlkriterium so gewählt sind, dass die Merkmalspunkte aus der Menge von Merkmalspunkten des ersten Bildes Kantenpunkte des ersten Bildes sind und die Merkmalspunkte aus der Menge von Merkmalspunkten des zweiten Bildes Kantenpunkte des zweiten Bildes sind.

Vorzugsweise wird das obige Verfahren bei einem Structure-From-Motion-Verfahren, bei einem Verfahren zur Erzeugung von Mosaikbildern, bei einem Videokompressionsverfahren oder einem Super-Resolution-Verfahren eingesetzt.

Ausführungsbeispiele der Erfindung sind in den Figuren dargestellt und werden im Weiteren näher erläutert.
1 zeigt eine Anordnung gemäß einem Ausführungsbeispiel der Erfindung;
2 zeigt ein Flussdiagramm eines Verfahren gemäß einem Ausführungsbeispiel der Erfindung;
3 zeigt ein Flussdiagramm einer Bestimmung einer Translation gemäß einem Ausführungsbeispiel der Erfindung;
4 zeigt ein Flussdiagramm einer Bestimmung einer affinen Bewegung gemäß einem Ausführungsbeispiel der Erfindung;
5 zeigt ein Flussdiagramm eines Verfahrens gemäß einem weiteren Ausführungsbeispiel der Erfindung;
6 zeigt ein Flussdiagramm einer Kantendetektion gemäß einem Ausführungsbeispiel der Erfindung;
7 zeigt ein Flussdiagramm 700 einer subpixelgenauen Kantendetektion gemäß einem Ausführungsbeispiel der Erfindung;
8(a) und 8(b) illustrieren die Ergebnisse eines Leistungsvergleichs einer Ausführungsform der Erfindung mit bekannten Verfahren;
9 zeigt ein Flussdiagramm eines Verfahrens gemäß einem weiteren Ausführungsbeispiel der Erfindung;
10 zeigt ein Flussdiagramm einer Bestimmung einer perspektivischen Bewegung gemäß einem Ausführungsbeispiel der Erfindung;
11 zeigt ein Flussdiagramm eines bekannten Verfahrens zur parametrischen Bewegungsbestimmung.
1 zeigt eine Anordnung 100 gemäß einem Ausführungsbeispiel der Erfindung.
Eine Digitalkamera 101 mit geringer Auflösung wird von einem Benutzer (nicht gezeigt) über einen gedruckten Text 102 gehalten.
Unter geringer Auflösung ist eine Auflösung zu verstehen, die nicht ausreicht, dass ein digitales Bild mit dieser Auflösung des gedruckten Textes 102, das mit der Digitalkamera 101 aufgenommen wurde und auf einem Bildschirm angezeigt wird, den Text ausreichend hochaufgelöst darstellt, so dass er von einem Benutzer einfach gelesen werden kann oder einfach automatisch weiterverarbeitet werden kann, beispielsweise bei der optischen Mustererkennung, insbesondere der optischen Schriftzeichenerkennung.
Der gedruckte Text 102 kann beispielsweise ein auf Papier gedruckter Text sein, den der Benutzer an eine andere Person schicken will.
Die Digitalkamera 101 ist mit einem (Mikro-)Prozessor 107 gekoppelt.
Die Digitalkamera 101 erzeugt eine Folge niedrigaufgelöster digitaler Bilder 105 des gedruckten Text 102. Die Aufnahmepositionen der digitalen Bilder aus der Folge niedrigaufgelöster digitaler Bilder 105 des gedruckten Textes 102 sind unterschiedlich, da die Hand des Benutzers nicht vollkommen ruhig ist.
Die Folge niedrigaufgelöster digitaler Bilder 105 wird dem Prozessor 107 zugeführt, der aus der Folge niedrigaufgelöster digitaler Bilder 105 ein hochaufgelöstes digitales Bild 106 berechnet.
Dazu verwendet der Prozessor 107 ein Verfahren zur Ermittlung der Bildbewegung, wie es weiter unten in bevorzugten Ausführungsformen beschrieben wird.
Das hochaufgelöste digitale Bild 106 wird auf einem Bildschirm 103 angezeigt und kann von dem Benutzer mittels eines Senders 104 an eine andere Person übertragen werden.
Bei einem bevorzugten Ausführungsbeispiel sind die Digitalkamera 101, der Prozessor 107, der Bildschirm 103 und der Sender 104 in einem Mobilfunktelefon enthalten.
2 zeigt ein Flussdiagramm 200 eines Verfahrens gemäß einem Ausführungsbeispiel der Erfindung.
Das im Weiteren erläuterte Verfahren dient zur Berechnung der Bewegung in der Folge von niedrigaufgelösten Bildern 105, die mittels der Digitalkamera 101 aufgenommen worden sind. Jedes Bild der Folge von niedrigaufgelösten Bildern 105 wird durch eine Funktion I(x, y, t) ausgedrückt, wobei t der Zeitpunkt ist, zu dem das Bild aufgenommen wurde und I(x, y, t) die Codierungsinformation des Bildes an der Stelle (x, y), das zum Zeitpunkt t aufgenommen wurde, angibt.
In diesem Ausführungsbeispiel wird angenommen, dass keine Beleuchtungsschwankungen oder Störungen in der verarbeitenden Hardware bei der Aufnahme der digitalen Bilder aufgetreten sind.
Unter dieser Annahme gilt für zwei in der Folge von niedrigaufgelösten Bildern 105 aufeinander folgende digitale Bilder mit der Codierungsinformation I(x, y, t) bzw.
I(x, y, t + dt) die Gleichung I(x + dx, y + dy, t + dt) = I(x, y, t) (14)
Hierbei ist dt der Unterschied der Aufnahmezeitpunkte der beiden in der Folge von niedrigaufgelösten Bildern 105 aufeinander folgende digitale Bilder.
Unter der Annahme, dass nur ein Verursacher für Bewegung existiert, kann Gleichung (14) auch durch I(x, y, t + dt) = I(Motion(x, y, t), t) (15)formuliert werden, wobei Motion(x, y, t) die Bewegung der Bildpunkte beschreibt.
Die Bildbewegung kann zum Beispiel mittels einer affinen Transformation
modelliert werden.
In Schritt 201 des Flussdiagramms 200 wird ein Bild der Folge niedrigaufgelöster digitaler Bilder 105 bereitgestellt.
Es wird angenommen, dass das digitale Bild zu einem Zeitpunkt t+1 mittels der Digitalkamera 101 aufgenommen wurde.
Ein Bild, dass zu einem Zeitpunkt τ aufgenommen wurde, wird im Folgenden kurz als Bild τ bezeichnet.
Somit wird beispielsweise das Bild, dass zu einem Zeitpunkt t+1 mittels der Digitalkamera 101 aufgenommen wurde als Bild t+1 bezeichnet.
Ferner wird angenommen, dass ein digitales Bild, dass zu einem Zeitpunkt t aufgenommen wurde, vorliegt, und dass die Bildbewegung von dem Bild t zu dem Bild t+1 bestimmt werden soll.
In Schritt 202 wird die Merkmalsdetektion, das heißt die Bestimmung von Merkmalspunkten und Merkmalspositionen, vorbereitet.
Beispielsweise wird dazu das digitale Bild mittels eines Filters vorverarbeitet.
In Schritt 202 wird eine Merkmalsdetektion mit niedriger Schwelle durchgeführt.
Das bedeutet, dass bei der Merkmalsdetektion jedem Bildpunkt ein Wert zugeordnet wird, und ein Bildpunkt nur dann zu der Menge der Merkmalspunkte gehört, wenn der ihm zugeordnete Wert über einem gewissen Schwellwert liegt.
Bei der in Schritt 202 durchgeführten Merkmalsdetektion ist dieser Schwellwert niedrig, wobei unter "niedrig" zu verstehen ist, dass der Wert kleiner ist als der Schwellwert der in Schritt 205 durchgeführten Merkmalsdetektion.
Eine Merkmalsdetektion gemäß einer bevorzugten Ausführungsform der Erfindung wird weiter unten beschrieben.
Die bei der in Schritt 202 durchgeführten Merkmalsdetektion bestimmte Menge von Merkmalspunkten wird mit P K / t+1 bezeichnet: PKt+1 = {[Pt+1,x (k), Pt+1,y (k)]T, 0 ≤ k ≤ K – 1} (17)
Dabei bezeichnet P _t+1 = [P_t+1,x (k), P_t+1,y (k)]^T einen Merkmalspunkt mit dem Index k aus der Merkmalspunktmenge P K / t+1 in Vektorschreibweise.
Die Bildinformationen des Bildes t wird analog zu oben als Funktion I(x, y, t) geschrieben.
In Schritt 203 wird eine globale Translation bestimmt.
Dieser Schritt wird unten mit Bezug auf 3 beschrieben.
In Schritt 204 werden affine Bewegungsparameter bestimmt.
Dieser Schritt wird unten mit Bezug auf 4 beschrieben.
In Schritt 205 wird eine Merkmalsdetektion mit hoher Schwelle durchgeführt.
Das heißt, dass bei der in Schritt 205 durchgeführten Merkmalsdetektion der Schwellwert hoch ist, wobei unter hoch zu verstehen ist, dass der Wert größer ist als der Schwellwert der in Schritt 202 durchgeführten Merkmalsdetektion mit niedrigem Schwellwert.
Wie erwähnt wird eine Merkmalsdetektion gemäß einer bevorzugten Ausführungsform der Erfindung weiter unten beschrieben.
Die bei der in Schritt 205 durchgeführten Merkmalsdetektion bestimmte Menge von Merkmalspunkten wird mit O N / t+1 bezeichnet: ONt+1 = {[Ot+1,x (n), Ot+1,y (n)]T, 0 ≤ n ≤ N – 1} (18)
Dabei bezeichnet O _t+1(n) = [O_t+1,x (n), O_t+1,y (n)]^T den n-ten Merkmalspunkt der Menge O N / t+1 in Vektorschreibweise.
Die in Schritt 205 durchgeführte Merkmalsdetektion mit hoher Schwelle dient nicht zur Bestimmung der Bewegung von Bild t zu Bild t+1, sondern dient zur Vorbereitung der Bewegungsbestimmung von Bild t+1 zu Bild t+2.
Dementsprechend wird im Folgenden angenommen, dass eine Merkmalsdetektion mit hoher Schwelle für das Bild t analog zu Schritt 205 durchgeführt wurde, bei der eine Merkmalspunktmenge ONt = {[Ot,x (n), Ot,y (n)]T, 0 ≤ n ≤ N – 1} (19)bestimmt wurde.
Unter Verwendung der Merkmalspunktmenge O N / t werden Schritt 203 und Schritt 204 durchgeführt.
In Schritt 203 und Schritt 204 wird eine geeignete affine Bewegung, die durch eine Matrix
und einen Translationsvektor
bestimmt ist, berechnet, so dass für
die Beziehung O ^Nt+1 ⊂ PNt+1 (21)gilt, wobei O ^ N / t+1 die Menge der Spaltenvektoren der Matrix
ist.
Hierbei bezeichnet O N / t die Matrix, deren Spaltenvektoren die Vektoren der Menge O N / t sind.
Dies kann so interpretiert werden, dass eine Bewegung gesucht wird, die die Merkmalspunkte des Bildes t auf Merkmalspunkte des Bildes t+1 abbildet.
Die Bestimmung der affinen Bewegung wird dadurch ermöglicht, dass für die Detektion der Merkmalspunkte aus der Menge O N / t eine höhere Schwelle verwendet wird als für die Detektion der Merkmalspunkte aus der Menge P K / t+1.
Wird für beide Detektion dieselbe Schwelle verwendet, besteht die Möglichkeit, dass einige die den Merkmalspunkten aus O N / t entsprechenden Bildpunkte zum Zeitpunkt t+1 nicht als Merkmalspunkte detektiert werden.
Unter dem einem Merkmalspunkt in Bild t entsprechenden Bildpunkt in Bild t+1 ist der Bildpunkt zu verstehen, an dem der Bildinhaltsbestandteil, der durch den Merkmalspunkt in Bild t dargestellt wird, in Bild t+1 aufgrund der Bildbewegung dargestellt wird.
Im Allgemeinen können
nicht so bestimmt werden, dass (21) gilt, deshalb werden
so bestimmt, dass O N / t durch die affine Bewegung in einem gewissen Sinne, der unten definiert wird, möglichst gut auf P K / t+1 abgebildet wird.
In dieser Ausführungsform werden für ein Maß die Güte der Abbildung von O N / t auf P K / t+1 die minimalen Distanzen der Punkte aus O ^ N / t zu der Menge P K / t+1 verwendet.
Die minimale Distanz
eines Punkts (x, y) von der Menge P K / t+1 ist definiert durch
Die minimalen Distanzen der Punkte aus O N / t von der Menge P K / t+1 können beispielsweise effizient mit Hilfe einer Distanztransformation, welche eine morphologische Operation ist, bestimmt werden (siehe [9]).
Bei einer Distanztransformation, wie sie in [9] beschrieben ist, wird aus einem Bild, in dem Merkmalspunkte gekennzeichnet sind, ein Distanzbild erzeugt, bei dem der Bildwert an einem Punkt die minimale Distanz zu einem Merkmalspunkt angibt.
Anschaulich gibt
für einen Punkt den Abstand zu dem Punkt aus P K / t+1 an, zu dem der Punkt (x, y) den kleinsten Abstand hat.
Die Bestimmung der affinen Bewegung erfolgt in den zwei Schritten 203 und 204.
Die in (20) formulierte affine Bewegung wird dazu in eine globale Translation und eine anschließende affine Bewegung zerlegt:
Der Translationsvektor
bestimmt die globale Translation und die Matrix
und der Translationsvektor
bestimmen die anschließende affine Bewegung.
Im Folgenden wird der Schritt 203 mit Bezug auf 3 erläutert.
3 zeigt ein Flussdiagramm 300 einer Bestimmung einer Translation gemäß einem Ausführungsbeispiel der Erfindung.
In Schritt 203, der durch Schritt 301 des Flussdiagramms 300 dargestellt ist, wird unter Verwendung von P K / t+1 und O N / t der Translationsvektor so bestimmt, dass
Der Schritt 301 weist Schritte 302, 303, 304 und 305 auf.
Zur Bestimmung von T ^ 0 / t, so dass Gleichung (24) gilt, wird in Schritt 302 ein Wert T 0 / y in einem Intervall [T ^ 0 / y0, T ^ 0 / y1] gewählt.
In Schritt 303 wird ein Wert T 0 / x in einem Intervall [T ^ 0 / x0, T ^ 0 / x1] gewählt.
In Schritt 304 wird der Wert sum(T 0 / x, T 0 / y) gemäß der Formel
für die gewählten Werte T 0 / x und T 0 / y bestimmt.
Die Schritte 302 bis 304 werden für alle gewählten Paare von Werten T 0 / y ∊ [T ^ 0 / y0, T ^ 0 / y1] und T 0 / x ∊ [T ^ 0 / x0, T ^ 0 / x1] durchgeführt.
In Schritt 305 werden
so bestimmt, dass sum
gleich dem Minimum aller in Schritt 304 berechneten Summen ist.
Der Translationsvektor
ist gegeben durch
Im Folgenden wird der Schritt 204 mit Bezug auf 4 erläutert.
4 zeigt ein Flussdiagramm 400 einer Bestimmung einer affinen Bewegung gemäß einem Ausführungsbeispiel der Erfindung.
Der Schritt 204, der durch Schritt 401 des Flussdiagramms 400 dargestellt ist, weist Schritte 402 bis 408 auf.
In Schritt 402 wird die Matrix
berechnet, deren Spaltenvektoren eine Menge von Punkten O' N / t bilden.
Für jeden Punkt (x, y) aus der Menge O' N / t wird ein Distanzvektor
bestimmt.
Der Distanzvektor wird so bestimmt, dass er von dem Punkt (x, y) zu dem Punkt aus P K / t+1 zeigt, zu dem der Abstand des Punkts (x, y) minimal ist.
Die Bestimmung erfolgt somit gemäß der Gleichungen
Die Distanzvektoren können auch gemäß folgender Formel aus den minimalen Distanzen, die beispielsweise in Form eins Distanzbildes vorliegen, berechnet werden:
In den Schritten 403 bis 408 wird unter der Annahme, dass für die Merkmalspunktmenge O N / t+1 die Approximation
gilt, die affine Bewegung durch eine Kleinste-Quadrate-Schätzung bestimmt, das heißt, dass die Matrix
und der Translationsvektor
so bestimmt werden, dass der Term
minimal ist, was genau dann der Fall ist, wenn der Term
minimal ist.
Hierbei ist mit O'_t(n) und Õ _t+1(n) die n-te Spalte der jeweiligen Matrix bezeichnet.
Die Verwendung der minimalen Distanzen in Gleichung (33) kann anschaulich so interpretiert werden, dass davon ausgegangen wird, dass ein Merkmalspunkt in Bild t dem Merkmalspunkt in Bild t+1 entspricht, der ihm am nächsten liegt, dass sich der Merkmalspunkt in Bild t also zu dem nächstliegenden Merkmalspunkt in Bild t+1 bewegt hat.
Die Kleinste-Quadrate-Schätzung wird in dieser Ausführungsform iteriert.
Dies erfolgt gemäß folgender Zerlegung der affinen Bewegung:
In Gleichung (34) wurde die zeitliche Abhängigkeit zur vereinfachten Schreibweise weggelassen.
Da heißt, dass L affine Bewegungen bestimmt werden, wobei die L-te affine Bewegung derart bestimmt wird, dass sie die Merkmalspunktmenge, die durch sukzessive Anwendung der 1-ten, 2-ten, ..., und der (l-1)-ten affinen Bewegung auf die Merkmalspunktmenge O' N / t entsteht, möglichst gut, in oben beschriebenen Sinne der Kleinste-Quadrate-Schätzung, auf die Menge P K / t+1 abbildet.
Die l-te affine Bewegung ist durch die Matrix
und den Translationsvektor
bestimmt.
Am Ende von Schritt 402 wird der Iterationsindex 1 auf Null gesetzt und mit Schritt 403 fortgefahren.
In Schritt 403 wird der Wert von l um eins erhöht und überprüft, ob der Iterationsindex l zwischen 1 und L liegt.
Ist dies der Fall wird mit Schritt 404 fortgefahren.
In Schritt 404 wird die Merkmalspunktmenge O'^l, die durch die durch sukzessive Anwendung der 1-ten, 2-ten, ..., und der (l-1)-ten affinen Bewegung auf die Merkmalspunktmenge O' N / t entsteht, bestimmt.
In Schritt 405 werden Distanzvektoren analog zu den Gleichungen (28) und (29) und eine Merkmalspunktmenge analog zu (31) bestimmt.
In Schritt 406 wird eine Matrix
und ein Translationsvektor
berechnet, die die l-te affine Bewegung bestimmen.
Außerdem wird ein quadratischer Fehler analog zu (32) berechnet.
In Schritt 407 wird überprüft, ob der berechnete quadratische Fehler größer ist als der in der letzten Iteration berechnete quadratische Fehler.
Ist dies der Fall, wird in Schritt 408 der Iterationsindex 1 auf den Wert L gesetzt und anschließend mit Schritt 403 fortgefahren.
Ist dies nicht der Fall wird mit Schritt 403 fortgefahren.
Wird in Schritt 408 der Iterationsindex auf den Wert L gesetzt, so wird in Schritt 403 der Wert von 1 auf den Wert L+1 erhöht und die Iteration beendet.
In einer bevorzugten Ausführungsform werden die Schritte 202 bis 205 des in 2 dargestellten Flussdiagramms 200 mit Subpixelgenauigkeit durchgeführt.
5 zeigt ein Flussdiagramm 500 eines Verfahrens gemäß einem weiteren Ausführungsbeispiel der Erfindung.
In dieser Ausführungsform wird ein digitales Bild, das zum Zeitpunkt 0 aufgenommen wurde, als Referenzbild, das im Folgenden als Referenzfenster bezeichnet wird, verwendet.
Die Codierungsinformation 502 des Referenzfensters 501 wird im Folgenden analog zu Obigem als Funktion I(x, y, 0) geschrieben.
In Schritt 503 wird eine Kantendetektion mit Subpixelauflösung im Referenzfenster 501 durchgeführt.
Eine Verfahren zur Kantendetektion mit Subpixelauflösung gemäß einer Ausführungsform wird unten mit Bezug auf 7 beschrieben.
In Schritt 504 wird aus dem Ergebnis der Kantendetektion eine Menge von Merkmalspunkten O^N des Referenzfensters bestimmt.
Beispielsweise werden die besonders signifikanten Kantenpunkte als Merkmalspunkte bestimmt.
Anschließend wird der Zeitindex t auf den Wert null gesetzt.
In Schritt 505 wird der Zeitindex t um eins erhöht und anschließend geprüft ob der Wert von t zwischen eins und T liegt.
Ist dies der Fall, wird mit Schritt 506 fortgefahren.
Ist dies nicht der Fall, wird das Verfahren mit Schritt 510 beendet.
In Schritt 506 wird unter Verwendung der Codierungsinformation 511 des t-ten Bildes, das analog zu oben als Bild t bezeichnet wird, eine Kantendetektion mit Subpixelauflösung durchgeführt.
Dies liefert, wie unten genauer beschrieben wird, ein t-tes Kantenbild, das im Folgenden als Kantenbild t bezeichnet wird, mit der Codierungsinformation e_h(x, y, t) zu dem Bild t.
Die Codierungsinformation e_h(x, y, t) des Kantenbildes t wird unten mit Bezug auf 6 und 7 genauer erläutert.
In Schritt 507 wird eine Distanztransformation mit Subpixelauflösung des Kantenbildes t durchgeführt.
Das heißt, aus dem Kantenbild t wird ein Distanzbild erzeugt, bei dem der Bildwert an einem Punkt die minimale Distanz zu einem Kantenpunkt angibt.
Die Kantenpunkte des Bildes t sind die Punkte des Kantenbildes t, bei der die Codierungsinformation e_h(x, y, t) einen bestimmten Wert aufweist.
Dies wird unten genauer erläutert.
Die Distanztransformation erfolgt analog zu der mit Bezug auf 2, 3 und 4 beschriebenen Ausführungsform.
Dabei wird verwendet, dass die Positionen der Kantenpunkte des Bildes t in Schritt 506 subpixelgenau bestimmt wurden.
Die Distanzvektoren werden subpixelgenau berechnet.
In Schritt 508 wird analog zu dem Schritt 203 des mit Bezug auf 2, 3 und 4 beschriebenen Ausführungsbeispiels eine globale Translation bestimmt.
Die Bestimmung der globalen Translation erfolgt subpixelgenau.
In dem Verarbeitungsblock 509 werden Parameter eines affinen Bewegungsmodells berechnet.
Die Berechnung erfolgt analog zu dem in 4 dargestellten Flussdiagramm, das oben erläutert wurde.
Die Berechnung der Parameter eines affinen Bewegungsmodells erfolgt subpixelgenau.
Nach Beendigung des Verarbeitungsblocks 509 wird mit Schritt 505 fortgefahren.
Insbesondere wird das Verfahren beendet, wenn t=T, das heißt, wenn die Bewegung des Bildinhalts zwischen dem Referenzfenster und dem T-ten Bild bestimmt wurde.
6 zeigt ein Flussdiagramm 600 einer Kantendetektion gemäß einem Ausführungsbeispiel der Erfindung.
Die Bestimmung von Kanten stellt für die Bewegungschätzung einen sinnvollen Kompromiss bezüglich der Konzentration auf signifikante Bildpunkte bei der Bewegungsbestimmung und dem Erhalt möglichst vieler Informationen dar.
Kanten werden üblicherweise als lokale Maxima in der örtlichen Ableitung der Bildintensität bestimmt. Das hier eingesetzte Verfahren basiert auf den Arbeiten von Canny [10].
In Schritt 602 wird ein digitales Bild und bei dem Kanten detektiert werden sollen, mittels eines Gaussfilters gefiltert.
Dies erfolgt durch Faltung der Codierungsinformation 601 des Bildes, die durch die Funktion I(x, y) gegeben ist, mit einer Gaussmaske, die mit gmask bezeichnet ist.
In Schritt 603 wird die partielle Ableitung nach der Variable x der Funktion I_g(x, y) bestimmt.
In Schritt 604 wird die partielle Ableitung nach der Variable x der Funktion I_g(x, y) bestimmt.
In Schritt 605 wird entschieden, ob an einem Punkt (x, y) ein Kantenpunkt vorliegt.
Dazu müssen zwei Bedingungen an dem Punkt (x, y) erfüllt sein.
Die erste Bedingung ist, dass die Summe der Quadrate der beiden in Schritt 603 und Schritt 604 bestimmten partiellen Ableitungen an dem Punkt (x, y), die mit I_g,x,y(x, y) bezeichnet wird, über einem Schwellwert liegt.
Die zweite Bedingung ist, dass I_g,x,y(x, y) an dem Punkt (x, y) ein lokales Maximum aufweist.
Das Ergebnis der Kantendetektion wird in einem Kantenbild, dessen Codierungsinformation 606 als Funktion geschrieben wird und mit e(x, y) bezeichnet wird, zusammengefasst.
Die Funktion e(x, y) weist an einer Stelle (x, y) den Wert I_g,x,y(x, y) auf, falls in Schritt 605 entschieden (x, y) worden ist, dass (x, y) ein Kantenpunkt ist und weist an allen anderen Stellen den Wert Null auf.
Der in 6 illustrierte Ansatz zur Detektion von Grauwertecken bietet die Möglichkeit, die Anzahl und die Signifikanz der Kanten durch eine Schwelle zu steuern.
Damit kann gewährleistet werden, dass O N / t+1 in P K / t+1 enthalten ist.
Die Punktmengen O N / t+1 und P K / t+1 können aus dem Kantenbild, das die Codierungsinformation e(x, y) aufweist, ausgelesen werden.
Wird das in 6 dargestellte Verfahren bei dem in 2 dargestellten Ausführungsbeispiel verwendet, so entspricht zur Erzeugung von P K / t+1 aus e(x, y) die in Schritt 605 verwendete Schwelle der in Schritt 205 verwendeten "niedrigen Schwelle".
Zur Bestimmung von O N / t+1 wird unter Verwendung der in Schritt 205 verwendeten "hohen Schwelle" eine Auswahl aus den durch e(x, y) gegebenen Kantenpunkten getroffen.
Dies erfolgt beispielsweise analog zur Überprüfung der oben erläuterten ersten Bedingung aus Schritt 605.
7 zeigt ein Flussdiagramm 700 einer subpixelgenauen Kantendetektion gemäß einem Ausführungsbeispiel der Erfindung.
Die Schritte 702, 703 und 704 unterscheiden sich nicht von den Schritten 602, 603 und 604 des in 6 illustrierten Kantendetektionsverfahrens.
Um eine Detektion mit Subpixelgenauigkeit zu erreichen, weist das Flussdiagramm 700 einen Schritt 705 auf.
In Schritt 705 werden die in Schritt 703 und Schritt 704 bestimmten partiellen Ableitungen in x-Richtung und y-Richtung, die als örtlichen Gradientenbilder mit Codierungsinformation I_gx(x, y) und I_gy(x, y) bezeichnet werden, auf eine höhere Bildauflösung extrapoliert.
Die fehlenden Bildwerte werden durch eine bikubische Interpolation bestimmt. Das Verfahren der bikubischen Interpolation wird z.B. in [11] erläutert.
Die Codierungsinformation der resultierenden hochaufgelösten Gradientenbilder werden mit I_hgx(x, y) und I_hgy(x, y) bezeichnet.
Der Schritt 706 erfolgt analog zu Schritt 605 unter Verwendung der hochaufgelösten Kantenbilder.
Die Codierungsinformation 707 des in Schritt 706 erzeugten Kantenbilds wird mit e_h(x, y) bezeichnet, wobei der Index h anzeigen soll, dass das Kantenbild ebenfalls hochaufgelöst ist.
Die in Schritt 707 erzeugte Funktion e_h(x, y) weist im Unterschied zu der in Schritt 706 in diesem Ausführungsbeispiel nicht den Wert I_g,x,y(x, y) auf, falls entschieden worden ist, dass an der Stelle (x, y) ein Kantenpunkt vorliegt, sondern den Wert 1.
Im Weiteren werden die Ergebnisse eines Leistungsvergleichs des bereitgestellten Verfahrens mit bekannten Verfahren erläutert.
8(a) und 8(b) illustrieren die Ergebnisse eines Leistungsvergleichs einer Ausführungsform der Erfindung mit bekannten Verfahren.
Zur Erzeugung von Referenzdaten für die Bewertung der Bewegungsschätzung, wurde das „Kamerawackeln" simuliert.
Dazu wurden aus einem hochaufgelöstem Bild über affine Transformationen unterschiedliche Ansichten, das heißt Aufnahmen aus unterschiedlichen Kamerapositionen, mittels Simulation erzeugt.
Diese Ansichten wurden anschließend mit einem Tiefpassfilter gefiltert und unterabgetastet. Die so erzeugte Folge digitaler Bilder, die als Beispiel für eine mit einer bewegten Kamera aufgenommenen Folge digitaler Bilder verwendet wurde, wurde mit verschiedenen Verfahren zur Bewegungsschätzung bearbeitet.
Die folgenden Referenzverfahren wurden verwendet:

1. Ein Optischer-Fluss-Verfahren, das auf den Arbeiten von Lucas und Kanade basiert (siehe [3]), wobei Grauwertecken mit einer subpixelgenauen Auflösung verwendet werden. Das Verfahren verwendet zusätzlich eine Auflösungspyramide, um Probleme bei schnellen Bewegungen zu vermeiden.

Dieses Verfahren entspricht der gepunkteten Linie in 8(a) bzw. 8(b).

2. Ein Parametrische-Bewegungsschätzung-Verfahren, das auf dem optischen Fluss basiert.

Dieses Verfahren entspricht der Strich-Punkt-Linie in 8(a) bzw. 8(b) .

3. Ein Verfahren zur distanzbasierten Bewegungsschätzung ohne Verbesserung der Subpixel-Genauigkeit.

Dieses Verfahren entspricht der gestrichelten Linie in 8(a) bzw. 8(b) .
8(a) zeigt die Verläufe des mittleren Fehlers der Bewegungsschätzung bei einer Ausführungsform des bereitgestellten Verfahrens mit Subpixel-Genauigkeit und den drei Referenzverfahren.
Es wurde die Abweichung zwischen der simulierten Verschiebung und den gemessenen Verschiebungsvektoren über alle Pixel gemittelt.
Die Bewegung der Kamera wurde zunächst als eine reine Translation unter der Annahme idealer Bedingungen simuliert.
8(b) zeigt die Verläufe des mittleren Fehlers der Bewegungsschätzung bei einer Ausführungsform des bereitgestellten Verfahrens mit Subpixel-Genauigkeit und den drei Referenzverfahren für die Simulation einer affinen Transformation als Kamerabewegung.
Die in 8(a) und 8(b) dargestellten Fehlerverläufe zeigen, dass mit der Ausführungsform des bereitgestellten Verfahrens die größte Genauigkeit erzielt wird.
Nachfolgend wird eine Übersicht über die erforderliche Anzahl von Additionen und Multiplikationen einer Ausführungsform des bereitgestellten Verfahrens, mit der die in 8(a) und 8(b) dargestellten Ergebnisse erzeugt wurden, gegeben.
Zusätzlich sind für das Beispiel einer QVGA-Auflösung typische Werte für die Anzahl von Additionen und Multiplikationen angegeben.
Die Definitionen der Größen für die Abschätzung der Rechenzeit sind in der nachstehenden Tabelle angegeben.
Es ist erkennbar, dass der Aufwand für die eigentliche Bewegungsbestimmung im Verhältnis zur subpixelgenauen Merkmalsextraktion klein ist.
Eine subpixelgenaue Merkmalsextraktion ist zum Beispiel auch für das Referenzverfahren, das unter 3. angegeben ist, erforderlich.
Zum Vergleich der Anzahl von Operationen wurde die Abschätzung ebenfalls für das mit Bezug auf 11 beschriebene Verfahren durchgeführt.
Dabei wurde angenommen, dass 3 Pyramidenstufen verwendet wurden. Für jede Pyramidenstufe wurden im Mittel 5 Iterationen ausgeführt.
Zusätzlich wurde berücksichtigt, dass der optische Fluss nur an Punkten mit hoher Signifikanz (z.B. Grauwertkanten) durchgeführt wird.
Der Aufwand zur Bestimmung der signifikanten Bildpunkte wurde nicht berücksichtigt.
Die nachstehende Tabelle zeigt die Ergebnisse der Abschätzung der erforderlichen Anzahl von Operationen.
Es ist auffällig, dass beide Verfahren vom Aufwand für die Interpolation von Bilddaten dominiert werden.
Im hier vorgestellten Ansatz ist die Interpolation für die Kantendetektion mit Subpixel-Genauigkeit erforderlich, bei dem unter 3. genannten Referenzverfahren ist eine Interpolation für die Bewegungskompensation erforderlich. Bei beiden Implementierungen wurde eine bikubische Interpolation verwendet.
Aus der Abschätzung der Rechenzeiten ist erkennbar, dass das bereitgestellte Verfahren in einer bevorzugten Ausführungsform nicht aufwändiger als bisher bekannte Verfahren ist, obwohl eine höhere Genauigkeit erreicht werden kann.
Die Rechenzeit für das neue Verfahren kann zudem deutlich gesenkt werden, wenn die Detektion der Merkmale mit Subpixel-Genauigkeit überarbeitet wird.
In einer Ausführungsform werden die Gradientenbilder in x und y über eine lineare Interpolation in eine höhere Bildauflösung überführt. Im Gegensatz zum Referenzverfahren mittels optischen Fluss, bietet sich dies hier an, da die Gradientenbilder aufgrund des Tiefpasscharakters des Gradientenfilters örtlich glatt sind.
In einer anderen Ausführungsform wird die Interpolation nur an zu erwartenden Merkmalspositionen ausgeführt.
9 zeigt ein Flussdiagramm 900 eines Verfahrens gemäß einem weiteren Ausführungsbeispiel der Erfindung.
Dieses Ausführungsbeispiel unterscheidet sich von dem mit Bezug auf 2 erläuterten darin, dass statt eines affinen Bewegungsmodells, wie es beispielsweise durch Gleichung (16) gegeben ist, ein perspektivisches Bewegungsmodell verwendet wird.
Da eine Kamera eine perspektivische Abbildung der dreidimensionalen Umgebung auf eine zweidimensionale Bildebene erzeugt, liefert ein affines Modell nur eine Approximation der eigentlichen Bildbewegung, die durch eine sich bewegende Kamera erzeugt wird.
Wird eine ideale Kamera, d.h. ohne Linsenverzerrungen angenommen, kann die Bewegung durch ein perspektivisches Bewegungsmodell beschrieben werden, wie es beispielsweise durch die nachstehende Gleichung gegeben ist.
M bezeichnet den Parametervektor für das perspektivische Bewegungsmodell. M = [a1, a2, a3, b1, b2, b3, n1, n2, n3] (36)
Die Verfahrensschritte des Flussdiagramms 900 sind analog zu denen des Flussdiagramms 200, es wird deshalb im Weiteren nur auf die Unterschiede eingegangen.
Insbesondere liegt wie bei dem mit Bezug auf 2 beschriebenen Verfahren eine Merkmalspunktmenge ONt = {[Otx (n), Oty (n)]T, 0 ≤ n ≤ N – 1} (37)vor.
Diese Merkmalspunktmenge repräsentiert einen Bildausschnitt oder ein Objekt des Bildes, das zum Zeitpunkt t aufgenommen wurde.
Gesucht wird nun die Bewegung, die O N / t auf die entsprechenden Punkte des Bildes, dass zum Zeitpunkt t+1 aufgenommen wurde, abbildet.
Im Unterschied zu dem mit Bezug auf 2 beschriebenen Verfahren werden in Schritt 904 die Parameter eines perspektivischen Bewegungsmodells bestimmt.
Das Bewegungsmodell nach Gleichung (36) weist neun Parameter aber nur acht Freiheitsgrade auf, wie aus der nachstehenden Gleichung ersichtlich ist.
Die Parameter des perspektivischen Modells können wie die Parameter des affinen Modells mittels einer Kleinste-Quadrate-Schätzung bestimmt werden, indem der Term
minimiert wird.
Hierbei ist O' analog zu der mit Bezug auf 2 beschriebenen Ausführungsform gemäß Gleichung (27) definiert. O'_x(n) bezeichnet die erste Komponente der n-ten Spalte der Matrix O' und O'_y(n) bezeichnet die zweite Komponente der n-ten Spalte der Matrix O'.
Der gemäß Gleichung (29) berechnete minimale Distanzvektor
wird abkürzend als [d_n,xd_n,y]^T bezeichnet.
Der Zeitindex t wurde zur einfacheren Darstellung in Formel (39) weggelassen.
Analog zu dem mit Bezug auf 2 beschriebenen Verfahren, bei dem ein affines Bewegungsmodell verwendet wird, kann auch für das perspektivische mittels iterativem Vorgehen die Genauigkeit verbessert werden.
10 zeigt ein Flussdiagramm 1000 einer Bestimmung einer perspektivischen Bewegung gemäß einem Ausführungsbeispiel der Erfindung.
Der Schritt 1001 entspricht dem Schritt 904 des in 9 dargestellten Flussdiagramms 900.
Die Schritte 1002 bis 1008 sind analog zu den Schritten 402 bis 408 des in 4 dargestellten Flussdiagramms 400.
Der Unterschied liegt in der Berechnung des Fehlers E_pers, der in Schritt 1006 gemäß Gleichung (39) berechnet wird.
In diesem Dokument sind folgende Veröffentlichungen zitiert:

[1] J. J. Gibson, The Perception of the Visual World, Boston, 1950
[2] B. K. P Horn and B. G. Schunck, Determing Optical Flow, Artificial Intelligence, 1981
[3] B. Lucas, T. Kanade, An Iterative Image Registration Techinque with an Application to Stero Vision, 7th International Joint Conf. on Artificial Intelligence (IJCAI), pp. 674-679, 1981
[4] J. Shi, C. Tomasi, Good Features to Track, IEEE Conf. on Computer Vision and Pattern Recognition (CVPR94), 1994
[5] W. Enkelmann, Investigations of multigrid algorithms for the estimation of optical flow fields in image sequences, Computer Vision, Graphics and Image Processing, 150-177, 1988
[6] Y. Altunbasak, R. M. Mersereau, A.J. Patti, A Fast Parametric Motion Estimation Algorithm with Illumination and Lens Distortion Correction, IEEE Transactions on Image Processing, 12(4), pp. 395-408, 2003
[7] D. Noll, M. Werner, and W. von Seelen., Real-Time Vehicle Tracking and Classification, Proceedings of the Intelligent Vehicles '95, pp. 101--106, 1995
[8] A. Techmer, Contour-Based Motion Estimation and Object Tracking for Real-Time Applications, IEEE International Conference on Image Processing (ICIP 2001), pp. 648-651, 2001
[9] G. Borgefors, Distance Transformation in Digital Images, Computer Vision, Graphics and Image Processing, 34, pp. 344-371, 1986
[10] J. Canny, A Computational Approach to Edge Detection, IEEE Transactions on Pattern Analysis and Machine Intelligence, 6, 1986
[11] William H. Press, et al., Numerical Recipies in C, ISBN: 0-521-41508-5, Cambrige University Press
[12] Martin Werner, Objektverfolgung und Objekterkennung mittels der partiellen Hausdorffdistanz, Fakultät für Elektrotechnik, Bochum, Ruhr-Universität, 1998
[13] D. Capel, A. Zisserman, Computer vision applied to super resolution, Signal Processing Magazine, IEEE, Mai 2003, Seiten 75-86, Vol. 20, Issue: 3, ISSN: 1053-5888

100: Anordnung gemäß einer Ausführungsform der Erfindung
101: Digitalkamera
102: gedruckter Text
103: Bildschirm
104: Sender
105: Folge niedrigaufgelöster digitaler Bilder
106: hochaufgelöstes digitales Bild
107: Mikroprozessor
200: Flussdiagramm
201-205: Verarbeitungsschritte
300: Flussdiagramm
301-305: Verarbeitungsschritte
400: Flussdiagramm
401-408: Verarbeitungsschritte
500: Flussdiagramm
501: Codierungsinformation
502: Referenzfenster
501-510: Verarbeitungsschritte
511: Codierungsinformation
600: Flussdiagramm
601: Codierungsinformation
602-605: Verarbeitungsschritte
606: Codierungsinformation
700: Flussdiagramm
701: Codierungsinformation
702-706: Verarbeitungsschritte
707: Codierungsinformation
900: Flussdiagramm
901-905: Verarbeitungsschritte
1000: Flussdiagramm
1001-1008: Verarbeitungsschritte
1100: Flussdiagramm
1101: Mehrzahl von Bildern
1102-1112: Verarbeitungsschritte
1113: Bewegung

Claims

Verfahren zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern mit Bildpunkten, denen Codierungsinformation zugeordnet ist, wobei – unter Verwendung eines ersten Auswahlkriteriums eine Menge von Merkmalspunkten des ersten Bildes bestimmt wird, wobei ein Merkmalspunkt des ersten Bildes ein Bildpunkt des ersten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das erste Auswahlkriterium erfüllen; – unter Verwendung eines zweiten Auswahlkriteriums eine Menge von Merkmalspunkten des zweiten Bildes bestimmt wird, wobei ein Merkmalspunkt des zweiten Bildes ein Bildpunkt des zweiten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das zweite Auswahlkriterium erfüllen; – basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des ersten Bildes und basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des zweiten Bildes eine Zuordnung jedes Merkmalspunkts des ersten Bildes zu jeweils einem Merkmalspunkt des zweiten Bildes bestimmt wird; und – basierend auf der Zuordnung die Bewegung geschätzt wird.
Verfahren gemäß Anspruch 1, wobei ein Merkmalspunkt aus der Menge von Merkmalspunkten des ersten Bildes einem Merkmalspunkt aus der Menge von Merkmalspunkten des zweiten Bildes zugeordnet wird, zu dem der Merkmalspunkt aus der Menge von Merkmalspunkten des ersten Bildes eine minimale räumliche Distanz hat, die aus den Koordinaten des Merkmalspunkts aus der Menge von Merkmalspunkten des ersten Bildes und den Koordinaten des Merkmalspunkts aus der Menge von Merkmalspunkten des zweiten Bildes bestimmt wird.
Verfahren gemäß einem der Ansprüche 1 bis 2, wobei die Bestimmung der Menge von Merkmalspunkten des ersten Bildes, die Bestimmung der Menge von Merkmalspunkten des zweiten Bildes und die Schätzung der Bewegung subpixelgenau erfolgt.
Verfahren gemäß einem der Ansprüche 1 bis 3, wobei die Schätzung der Bewegung durch Bestimmung eines Bewegungsmodells erfolgt.
Verfahren gemäß Anspruch 4, wobei vor der Bestimmung des Bewegungsmodells eine Translation bestimmt wird.
Verfahren gemäß Anspruch 4 oder 5, wobei das Bewegungsmodell ein affines Bewegungsmodell oder ein perspektivisches Bewegungsmodell ist.
Verfahren gemäß einem der Ansprüche 4 bis 6, wobei das Bewegungsmodell iterativ bestimmt wird.
Verfahren gemäß einem der Ansprüche 1 bis 7, wobei das erste Auswahlkriterium und das zweite Auswahlkriterium so gewählt sind, dass die Merkmalspunkte aus der Menge von Merkmalspunkten des ersten Bildes Kantenpunkte des ersten Bildes sind und die Merkmalspunkte aus der Menge von Merkmalspunkten des zweiten Bildes Kantenpunkte des zweiten Bildes sind.
Verfahren gemäß einem der Ansprüche 1 bis 8, dass bei einem Structure-From-Motion-Verfahren, bei einem Verfahren zur Erzeugung von Mosaikbildern, bei einem Videokompressionsverfahren oder einem Super-Resolution-Verfahren eingesetzt wird.
Computerprogramm-Element, das, nachdem es in einen Speicher eines Computers geladen worden ist, bewirkt, das der Computers ein Verfahren zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern mit Bildpunkten, denen Codierungsinformation zugeordnet ist, durchführt, wobei – unter Verwendung eines ersten Auswahlkriteriums eine Menge von Merkmalspunkten des ersten Bildes bestimmt wird, wobei ein Merkmalspunkt des ersten Bildes ein Bildpunkt des ersten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das erste Auswahlkriterium erfüllen; – unter Verwendung eines zweiten Auswahlkriteriums eine Menge von Merkmalspunkten des zweiten Bildes bestimmt wird, wobei ein Merkmalspunkt des zweiten Bildes ein Bildpunkt des zweiten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das zweite Auswahlkriterium erfüllen; – basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des ersten Bildes und basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des zweiten Bildes eine Zuordnung jedes Merkmalspunkts des ersten Bildes zu jeweils einem Merkmalspunkt des zweiten Bildes bestimmt wird; und – basierend auf der Zuordnung die Bewegung geschätzt wird.
Computerlesbares Speichermedium, auf dem ein Programm gespeichert ist, das es einem Computer ermöglicht, nachdem es in einen Speicher des Computers geladen worden ist, ein Verfahren zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern mit Bildpunkten, denen Codierungsinformation zugeordnet ist, durchzuführen, wobei – unter Verwendung eines ersten Auswahlkriteriums eine Menge von Merkmalspunkten des ersten Bildes bestimmt wird, wobei ein Merkmalspunkt des ersten Bildes ein Bildpunkt des ersten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das erste Auswahlkriterium erfüllen; – unter Verwendung eines zweiten Auswahlkriteriums eine Menge von Merkmalspunkten des zweiten Bildes bestimmt wird, wobei ein Merkmalspunkt des zweiten Bildes ein Bildpunkt des zweiten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das zweite Auswahlkriterium erfüllen; – basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des ersten Bildes und basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des zweiten Bildes eine Zuordnung jedes Merkmalspunkts des ersten Bildes zu jeweils einem Merkmalspunkt des zweiten Bildes bestimmt wird; und – basierend auf der Zuordnung die Bewegung geschätzt wird.
Vorrichtung zur rechnergestützten Bewegungsschätzung in mindestens zwei zeitlich aufeinander folgenden digitalen Bildern mit Bildpunkten, denen Codierungsinformation zugeordnet ist, wobei – unter Verwendung eines ersten Auswahlkriteriums eine Menge von Merkmalspunkten des ersten Bildes bestimmt wird, wobei ein Merkmalspunkt des ersten Bildes ein Bildpunkt des ersten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das erste Auswahlkriterium erfüllen; – unter Verwendung eines zweiten Auswahlkriteriums eine Menge von Merkmalspunkten des zweiten Bildes bestimmt wird, wobei ein Merkmalspunkt des zweiten Bildes ein Bildpunkt des zweiten Bildes ist, bei dem die Codierungsinformation, die dem Bildpunkt zugeordnet ist, und die Codierungsinformation, die jeweils den Bildpunkten in einer Umgebung des Bildpunkts zugeordnet ist, das zweite Auswahlkriterium erfüllen; – basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des ersten Bildes und basierend auf der räumlichen Verteilung der Menge von Merkmalspunkten des zweiten Bildes eine Zuordnung jedes Merkmalspunkts des ersten Bildes zu jeweils einem Merkmalspunkt des zweiten Bildes bestimmt wird; und – basierend auf der Zuordnung die Bewegung geschätzt wird.