-
Technisches Gebiet
-
Die vorliegende Erfindung betrifft die Bildverarbeitung und insbesondere ein Verfahren und System zur Echtzeit-Bewegungsartefaktbehandlung und -Rauschbeseitigung für Laufzeitsensor-Bilder (TOF-Sensor-Bilder; Time-of-Flight sensor images).
-
Technischer Hintergrund
-
Es gibt einen Bereich von Gebieten und Anwendungen, bei denen eine genaue Abstandsberechnung mittels eines TOF-Sensors (z. B. einer Kamera) erforderlich ist. Diejenigen Szenen, die von der Kamera aufgenommen werden, können entweder statisch oder dynamisch sein, und im letzteren Fall können die Bilder durch Bewegungsartefakte verfälscht werden, die an sich bewegenden Objekträndern auftreten.
-
Typische Anwendungen mit Einbeziehung von genauen Tiefenmessungen sind Mensch-Computer-Interaktionen, bei denen eine schnelle Handsegmentierung zur Gestenerkennung gesucht wird, sowie mit Automobilen zusammenhängende Anwendungen, bei denen eine Belegungsklassifizierung, Einschätzung der Kopfpose und/oder Wahrnehmung der Umgebung durchzuführen ist. Für den Fachmann sind andere Anwendungen offensichtlich.
-
TOF-Kameras, die auf der Demodulation von Lock-in-Pixeln beruhen, schätzen die Tiefe anhand der Phasenverschiebung zwischen emittierten und empfangenen modulierten Signalen im nahen Infrarot (NIR-Signalen) ein, bei denen vier aufeinanderfolgende phasenverschobene Bilder erforderlich sind, d. h. die „Methode mit vier Ausgängen”.
-
Das herkömmliche TOF-Arbeitsprinzip geht davon aus, dass die Szene während dieses Zeitintervalls bewegungslos ist. Allerdings und in der praktischen Anwendung entstehen in dynamischen Szenen unzuverlässige Tiefenmessungen entlang Objekträndern, wenn insbesondere schnelle Bewegungen beteiligt sind.
-
Für die Behandlung des Nachteils von Bewegungsartefakten von TOF-Kameras wurden bereits mehrere Methoden vorgeschlagen. Sie werden hauptsächlich in zwei Hauptkategorien eingestuft: (1) eine auf Pixeln basierende und (2) eine auf der Berechnung des optischen Flusses basierende Korrektur.
-
In Hussmann, S., Hermanski, A., und Edeler, T. (2010), „Real-time motion suppression in TOF range images” und in den IEEE Instrumentation & Measurement Technology Conference Proceedings, S. 697–701, 2010, stellten die Autoren ein Verfahren zur Kompensation der Linearbewegung von Objekten auf einem Förderband vor. Die Linearverschiebung wird vor der Tiefenberechnung gemessen und an den vier phasenverschobenen Bildern kompensiert. Allerdings ist deren Methode auf die Linearbewegung innerhalb des Bereichs des Sichtfelds der Kamera beschränkt.
-
Schmidt, M., schlug in „Analysis Modeling and Dynamic Optimization of 3D Time-of-Flight Imaging Systems”, Dissertation zur Erlangung der Doktorwürde der Naturwissenschaftlich-Mathematischen Gesamtfakultät der Ruprecht-Karls-Universität Heidelberg, Deutschland, 2011, ein Verfahren zur Erfassung und Kompensation der Bewegung pro Pixel mittels einer Analyse des zeitlichen Verhältnisses zusammen mit einem Satz von N mal vier phasenverschobenen Bildern vor, die im Serienbildmodus aufgenommen werden; wobei N die Größe des Satzes ist. Das Verfahren wird durch die Gerätspezifikationen der TOF-Kamera beschränkt, die den Satz von N mal den vier phasenverschobenen Bildern zur Verfügung stellen müssen.
-
In jüngerer Zeit schlug Lee, S., in „Time-of-Flight Depth Camera Motion Blur Detection and Deblurring”, Signal Processing Letters, IEEE, 21 (6), 663–666, 2014, eine neue auf Pixeln basierende Korrektur vor. Der Autor entwickelte mehrere Metriken, die die Korrektur von Paaren verfälschter phasenverschobener Bilder gestatten. Dieses Verfahren ist jedoch nur auf diejenigen TOF-Kameras anwendbar, bei denen die Integrationszeit in zwei Stufen unterteilt ist, d. h., dass phasenverschobene Bildpaare simultan aufgezeichnet werden.
-
In Hoegg, T., Lefloch, D., und Kolb, A., „Real-Time Motion Artifact Compensation for PMD-ToF Images”, Lecture Notes in Computer Science, S. 273–288, 2013, kompensieren die Autoren die Linearbewegung pro Pixel mittels eines geschätzten Felds des optischen Flusses, das aus den vier phasenverschobenen Bildern erzeugt wird. Ähnlich wird in Lindner, M., und Kolb, A., „Compensation of Motion Artifacts for Time-of-Flight Cameras”, in Lecture Notes in Computer Science, Bd. 5742, S. 16–27, 2009, der optische Fluss auch zwischen aufeinanderfolgenden phasenverschobenen Bildern berechnet, um die Bewegung vor der Tiefenberechnung zu kompensieren. Demzufolge benötigt das Verfahren drei Berechnungen des optischen Flusses, was das Verfahren für die Anwendung in Echtzeit unpraktisch macht.
-
In Lefloch, D., Hoegg, T., Kolb, A.: „Real-time motion artifacts compensation of ToF sensors data an GPU”, in den Proceedings of SPIE, Bd. 8738, 2013, reduzierten die Autoren die Komplexität des vorangehenden Verfahrens, indem der dritte optische Fluss durch eine Polynomapproximation ersetzt wird. Die Durchführung in Echtzeit bleibt jedoch ein Problem.
-
Technisches Problem
-
Ein Problem mit bekannten Verfahren besteht darin, wie das Bewegungsartefakt wegen sich bewegender Objekte in der Szene behandelt wird und insbesondere wie eine robuste Erfassung verfälschter Tiefenpixel wegen Bewegungsartefakten oder Sättigung erzielt wird.
-
Ein weiteres Problem besteht darin, wie eine Durchführung in Echtzeit erzielt wird, die eine weitere Verarbeitung wie beispielsweise eine Gestenerkennung oder Einschätzung einer Kopfpose gestattet.
-
Ein weiteres Problem mit bekannten Verfahren besteht darin, wie eine Rauschbeseitigung erzielt wird, während Kanten erhalten bleiben.
-
Ein weiteres Problem besteht darin, wie ein Führungsbild ausgewählt wird, um die Ränder von sich bewegenden Objekten zu rekonstruieren.
-
Ein weiteres Problem mit bekannten Verfahren besteht darin, wie eine Rausch- und Texturbeseitigung aus dem Führungsbild erzielt wird.
-
Demzufolge wird eine wirksame Echtzeitmethode benötigt, um mit dem Arbeitsprinzip der TOF-Kamera zusammenhängende Bewegungsartefakte zu behandeln.
-
Es ist eine Aufgabe der vorliegenden Erfindung, ein System und ein Verfahren, die zumindest einige der vorgenannten Probleme behandeln, und verbesserte Methoden für die Echtzeit-Bewegungsartefaktbehandlung und -Rauschbeseitigung für TOF-Sensor-Bilder bereitzustellen.
-
Zusammenfassung der Erfindung
-
Gemäß einem Aspekt der Erfindung ist ein Verfahren zur Echtzeit-Bewegungsartefaktbehandlung und -Rauschbeseitigung für Laufzeitsensor-Bilder (TOF-Sensor-Bilder) vorgesehen, wobei die TOF-Sensor-Bilder empfangenen Signalen (r(t)) entsprechen, die von einem TOF-Sensor nach dem Senden von modulierten gesendeten Signalen (s(t)) empfangen wurden, wobei das Verfahren Folgendes umfasst: Berechnen von Werten einer Kreuzkorrelationsfunktion c(τ)) bei einer Vielzahl zeitlich beabstandeter Positionen oder Phasen aus den gesendeten (s(t)) und empfangenen (r(t)) Signalen, wodurch eine Vielzahl jeweiliger Kreuzkorrelationswerte [c(τ0), c(τ1), c(τ2), c(τ3)] abgeleitet wird; Ableiten, aus der Vielzahl von Kreuzkorrelationswerten [c(τ0), c(τ1), c(τ2), c(τ3)], eines Tiefenbilds D, wobei das Tiefenbild D Werte aufweist, die für jedes Pixel den Abstand zu einem Teil eines Objekts repräsentieren, auf welches die gesendeten Signale (s(t)) einfallen; Ableiten, aus der Vielzahl von Kreuzkorrelationswerten [c(τ0), c(τ1), c(τ2), c(τ3)], eines Führungsbilds (I; I'); und Erzeugen eines Ausgangsbilds D' auf Basis des Tiefenbilds D und des Führungsbilds (I; I'). Das Führungsbild (I; I') ist vorzugsweise ein Bild mit gut definierten Kanten. Das Ausgangsbild D' umfasst vorzugsweise eine kantenerhaltende und geglättete Version des Tiefenbilds D, wobei die Kantenerhaltung vom Führungsbild (I; I') stammt.
-
Das Verfahren kann das Aufnehmen einer Vielzahl phasenverschobener Bilder nacheinander umfassen, wobei jedes phasenverschobene Bild einer jeweiligen zeitlich beabstandeten Position oder Phase entspricht. Die phasenverschobenen Bilder können Amplitudenbilder umfassen.
-
Jeder Kreuzkorrelationswert [c(τ0), c(τ1), c(τ2), c(τ3)] kann einem von einer Vielzahl phasenverschobener Bilder entsprechen und das Führungsbild (I; I') wird aus den phasenverschobenen Bildern erzeugt.
-
Der Schritt zum Ableiten des Führungsbilds umfasst das Auswählen eines phasenverschobenen Bilds als Führungsbild aus einer Vielzahl vorher aufgenommener phasenverschobener Bilder auf Basis eines oder mehrerer vorgegebener Kriterien. Die vorgegebenen Kriterien können umfassen, dass das phasenverschobene Bild (i) mit maximaler Amplitude des durch Bewegungsartefakte beeinträchtigten Objekts, (ii) mit maximalem Objektkantenschärfewert, (iii) mit dem besten Kantenkontrast und/oder Bild-SRV (Signal-Rausch-Verhältnis des Bilds), (iv) mit der maximalen mittleren räumlichen Amplitude oder (v) das nicht verfälscht ist, als Führungsbild ausgewählt wird.
-
Das Verfahren kann die Verwendung eines geführten Filters (GF) umfassen, um gültige Tiefenmessungen auf vorher identifizierte, wegen Bewegungsartefakten verfälschte Tiefenpixel anzuwenden.
-
Der Schritt zum Erzeugen eines Ausgangsbilds D' kann das Ermitteln des Ausgangsbilds D' aus Folgendem umfassen: D'i = a lIi + b l.
-
Bei einer Ausgestaltung umfasst das Erzeugen eines Ausgangsbilds D' Folgendes: Filtern des Führungsbilds I, um ein entrauschtes Führungsbild I' zu erzeugen; und Erzeugen eines Ausgangsbilds D' auf Basis des Tiefenbilds D und des entrauschten Führungsbilds I'. Der Schritt zum Filtern des Führungsbilds I zur Erzeugung eines entrauschten Führungsbilds I' kann die Verwendung eines geführten Filters zur Durchführung des Filterns umfassen.
-
Der Schritt zum Erzeugen eines Ausgangsbilds D' kann ferner Folgendes umfassen: Erzeugen eines Plausibilitätsbilds P auf Basis der Vielzahl von Kreuzkorrelationswerten [c(τ
0), c(τ
1), c(τ
2), c(τ
3)], wobei das Plausibilitätsbild P für jedes Pixel des Tiefenbilds D einen Wert umfasst, der angibt, ob das Pixel durch eine Bewegung oder Sättigung verfälscht ist; und Erzeugen des Ausgangsbilds D' auf Basis des Tiefenbilds D und des Plausibilitätsbilds P und entweder des Führungsbilds I oder des entrauschten Führungsbilds I'. Der Schritt zum Erzeugen des Plausibilitätsbilds P kann für jedes Pixel die Ermittlung einer Metrik p
i umfassen, die die Abweichung der phasenverschobenen Amplituden von einem Sinusmodell der Kreuzkorrelationsfunktion repräsentiert. Die Metrik p
i kann Folgendes umfassen:
pi = |c(τ1) – c(τ0) – c(τ2) + c(τ3)]/(a + α), wobei α ein Regularisierungsparameter ist, der einen hohen Wert von p
i verhindert, wenn die Amplitude α niedrig ist. Das Plausibilitätsbild P kann Werte P
i für jedes Pixel i derart aufweisen, dass:
wobei δ ein Bewegungsschwellwert ist, über welchem die Bewegung bei dem Pixel i erfasst wird. Der Bewegungsschwellwert δ kann durch Aufnehmen einer leeren oder bewegungslosen Szene durch den TOF-Sensor ermittelt werden.
-
Bei einer Ausgestaltung umfasst das Filtern des Führungsbilds I zum Ableiten des entrauschten Führungsbilds I' Folgendes: Anwenden eines kantenerhaltenden Entrauschungsfilters auf das Führungsbild ', wodurch die Kanteninformation und die Rauschreduktion von dem Führungsbild I auf das Ausgangsbild D' übertragen werden.
-
Bei einer Ausgestaltung umfasst das Filtern des Führungsbilds I das Ableiten des entrauschten Führungsbilds I' unter Anwendung von:
I'i = a lIi + b l, wobei
σ
k 2 die Varianz von I in w
k ist,
|w| die Anzahl von Pixeln in w
k ist,
ε ein Regularisierungsparameter ist, der ein großes a
k bestraft, und
der Mittelwert von I in w
k ist.
-
Bei einer Ausgestaltung umfasst das Erzeugen eines Ausgangsbilds D' das Erzeugen eines Ausgangsbilds D' gemäß Folgendem:
D'i = a lI'i + b l, wobei
der Mittelwert von D in w
k gewichtet durch das Bild P ist,
|w| die gleich bleibende Anzahl von Pixeln in dem am Pixel i zentrierten Fenster w
1 ist,
die Anzahl von Pixeln in w
k ist, wobei die Plausibilität 1 ist, und
-
-
Das Ausgangsbild D' kann eine Version des Tiefenbilds D alternativ oder zusätzlich zu dem umfassen, aus welchem Bewegungsartefakte und/oder Rauschen unterdrückt oder entfernt wurden.
-
Die Kreuzkorrelationsfunktion c(τ)) kann berechnet werden als:
wobei das s(t) das gesendete Signal ist, das durch s(t) = 1 + cos(ωt) vorgegeben ist,
r(t) das empfangene Signal ist, das durch r(t) = h + α·cos(ωt – φ) vorgegeben ist,
ω = 2πf
m die Winkelmodulationsfrequenz ist,
f
m die modulationsfrequenz ist und
h das Hintergrundlicht plus der nichtmodulierte Teil des gesendeten Signals ist.
-
Die Kreuzkorrelationswerte [c(τ
0), c(τ
1), c(τ
2), c(τ
3)] können aus c(τ) als vier Abtastwerte (τ
k), k = 0, .., 3, die an vier aufeinanderfolgenden Zeitintervallen τ
k = k·4 = k/4f
m innerhalb einer modulierten Zeitperiode T erfasst werden, ermittelt werden. Bei einer Ausgestaltung können die Abstandsmessungen d für jedes Pixel des Tiefenbilds D erhalten werden aus
d = L / 2π·ϕ, wobei
c ≅ 3·10
8 m/s, die Lichtgeschwindigkeit,
L der Arbeitsbereich oder Abstands-Eindeutigkeitsbereich des TOF-Sensors ist und
-
Das Verfahren kann ferner das Ableiten eines Amplitudenbilds A umfassen, das als
definiert ist, wobei die a
ij ermittelt werden aus:
wobei c(τ
0), c(τ
1), c(τ
2), c(τ
3) die Kreuzkorrelationswerte sind.
-
Bei einer Ausgestaltung werden vier Kreuzkorrelationswerte [c(τ0), c(τ1), c(τ2), c(τ3)] aus der Kreuzkorrelationsfunktion c(τ)) berechnet.
-
Gemäß einem anderen Aspekt der Erfindung ist ein programmierbares Bildverarbeitungssystem vorgesehen, wenn es in geeigneter Weise für die Durchführung des Verfahrens nach irgendeinem der vorangehenden Ansprüche programmiert ist, wobei das System eine Schaltungsanordnung zum Empfang oder Speichern der empfangenen Signale (r(t)) und gesendeten Signale (s(t)) und eine Verarbeitungsschaltungsanordnung zur Durchführung der Verfahren umfasst.
-
Gemäß einem anderen Aspekt der Erfindung ist ein System zur Echtzeit-Bewegungsartefaktbehandlung und -Rauschbeseitigung für Laufzeitsensor-Bilder (TOF-Sensor-Bilder) vorgesehen, wobei die TOF-Sensor-Bilder empfangenen Signalen (r(t)) entsprechen, die von einem TOF-Sensor nach dem Senden von modulierten gesendeten Signalen (s(t)) empfangen wurden, wobei das System Folgendes umfasst: eine Schaltungsanordnung zum Empfang oder Speichern der empfangenen Signale (r(t)) und gesendeten Signale (s(t)); eine Verarbeitungsschaltungsanordnung, die an die Schaltungsanordnung gekoppelt ist, um die empfangenen Signale (r(t)) und gesendeten Signale (s(t)) zu empfangen oder zu speichern, wobei die Verarbeitungsschaltungsanordnung betreibbar ist zum: Berechnen von Werten einer Kreuzkorrelationsfunktion c(τ)) bei einer Vielzahl zeitlich beabstandeter Positionen oder Phasen aus den gesendeten (s(t)) und empfangenen (r(t)) Signalen, wodurch eine Vielzahl jeweiliger Kreuzkorrelationswerte [c(τ0), c(τ1), c(τ2), c(τ3)] abgeleitet wird; Ableiten, aus der Vielzahl von Kreuzkorrelationswerten [c(τ0), c(τ1), c(τ2), c(τ3)], eines Tiefenbilds D, wobei das Tiefenbild D Werte aufweist, die für jedes Pixel den Abstand zu einem Teil eines Objekts repräsentieren, auf welches die gesendeten Signale (s(t)) einfallen; Ableiten, aus der Vielzahl von Kreuzkorrelationswerten [c(τ0), c(τ1), c(τ2), c(τ3)], eines Führungsbilds (I; I'), wobei das Führungsbild (I; I') ein Bild mit gut definierten Kanten ist; und Erzeugen eines Ausgangsbilds D' auf Basis des Tiefenbilds D und des Führungsbilds (I; I'), wobei das Ausgangsbild D' eine kantenerhaltende und geglättete Version des Tiefenbilds D i umfasst, wobei die Kantenerhaltung vom Führungsbild (I; I') stammt.
-
Gemäß einem anderen Aspekt der Erfindung ist ein beschreibbares, wiederbeschreibbares oder speicherbares Medium mit darauf geschriebenen oder gespeicherten Daten vorgesehen, die Anweisungen zur Ausführung durch die Verarbeitungsschaltungsanordnung definieren oder in Anweisungen zur Ausführung durch die Verarbeitungsschaltungsanordnung umwandelbar sind und mindestens den Schritten nach irgendeinem der Ansprüche 1 bis 24 der beigefügten Ansprüche entsprechen.
-
Gemäß einem anderen Aspekt der Erfindung ist ein Server-Computer vorgesehen, der eine Kommunikationsvorrichtung und eine Speichervorrichtung enthält und an die bedarfsgerechte oder sonstige Übertragung von Daten angepasst ist, die Anweisungen zur Ausführung durch die Verarbeitungsschaltungsanordnung definieren oder in Anweisungen zur Ausführung durch die Verarbeitungsschaltungsanordnung umwandelbar sind und mindestens den Schritten nach irgendeinem der Ansprüche 1 bis 24 der beigefügten Ansprüche entsprechen.
-
Bei jedem bzw. jeder der obigen Aspekte und Ausgestaltungen können die emittierten/gesendeten und empfangenen Signale modulierte Signale im nahen Infrarot (NIR-Signale) umfassen.
-
Bei bestimmten Ausgestaltungen ist ein robustes Verfahren zur Identifizierung derjenigen Pixel in dem resultierenden Tiefenbild vorgesehen, die derart auffallen, dass sie als unzuverlässig gelten. Ihre Werte werden dann durch die am nächsten zuverlässigen Werte mittels des geführten Filters (GF) und ein genaues Führungsbild, das aus den vorher aufgenommenen aufeinanderfolgenden phasenverschobenen Bildern erzeugt wurde, ersetzt.
-
Der GF bietet bei seiner Verwendung in den Ausgestaltungen ein besseres Verhalten nahe Kanten als alternative kantenerhaltende Filter wie beispielsweise der weithin benutzte bilaterale Filter (BF), wobei ein Hauptvorteil darin besteht, dass er ein schneller und nicht-approximativer linearer Zeitalgorithmus ist.
-
Die vorliegende Erfindung behandelt in zufriedenstellender Weise das Bewegungsartefakt sogar in extremen Bedingungen.
-
Im Gegensatz zu den vorgenannten Bewegungsartefakt-Kompensationsverfahren des Stands der Technik benötigen die hierin offenbarten Methoden lediglich ein unverfälschtes phasenverschobenes Bild (das als Führungsbild angesehen wird) unabhängig von der Architektur der TOF-Kamera und der Art und Weise, wie der Abstand berechnet wird. Außerdem wird eine Echtzeit-Durchführung ohne eine parallel laufende Berechnung durch einen Grafikprozessor (GPU; graphics processing unit) erzielt.
-
Ein Vorteil der Erfindung zumindest bei Ausgestaltungen ergibt sich aus der Behandlung von Bewegungsartefakten eines Tiefenbilds in Echtzeit. Die Objektform wird aus einer der vier phasenverschobenen Amplituden extrahiert, die nach einem Kriterium ausgewählt wird, das beispielsweise das Bild-SRV und den Kantenkontrast berücksichtigt. Diese phasenverschobene Amplitude wird als Führungsbild für einen kantenerhaltenden Entrauschungsfilter verwendet, um die Tiefe der durch Bewegungsartefakte beeinträchtigten Objekte zu rekonstruieren. Im Stand der Technik wird die Bewegungskorrekur entweder
- a. Pixel pro Pixel durchgeführt, ohne die räumliche Korrelation des Tiefenbilds zu berücksichtigen und wobei normalerweise andere Artefakte wie eine Erhöhung des Rauschens entstehen, wenn die Tiefe korrigiert wird, oder
- b. durch eine räumliche Analyse korrigiert, wobei ein Verfahren der Pixelentsprechung zwischen den vier phasenverschobenen Amplituden angewendet wird, was jedoch nicht mit einer Echtzeit-Anwendung (Verfahren, die auf einem dichten optischen Fluss basieren) kompatibel ist.
-
Ein weiterer Vorteil zumindest bei Ausgestaltungen ergibt sich aus dem kantenerhaltenden räumlichen Entrauschen des Tiefenbilds. Das Führungsbild wird mittels eines zweckbestimmten kantenerhaltenden Entrauschungsfilters gefiltert. Die Rauschreduzierung des Führungsbilds wird in der Bewegungsartefakt-Unterdrückungsstufe zum Tiefenbild übertragen. Im Stand der Technik wird das räumliche Entrauschen direkt auf das Tiefenbild angewandt. Ein räumliches Entrauschen des Tiefenbilds macht es im Idealfall erforderlich, dass das Tiefenbild von Artefakten (Bewegungsartefakten, Störpixel-Artefakten usw.) befreit wird, bevor es durch einen kantenerhaltenden Filter entrauscht wird, um das Risiko einer räumlichen Artefaktausbreitung zu vermeiden. Das Tiefenbild wird in dem vorgeschlagenen Verfahren entrauscht, indem die Rauschreduzierung vom ausgewählten verarbeiteten phasenverschobenen Amplitudenbild aus übertragen wird. Phasenverschobene Amplituden werden nicht durch Artefakte beeinträchtigt, wie es beim Tiefenbild der Fall ist, und demzufolge sind Objektkanten normalerweise besser definiert (keine Störpixel).
-
Ein weiterer Vorteil zumindest bei Ausgestaltungen ergibt sich aus der Auswahl eines Führungsbilds zur Rekonstruktion des Rands von sich bewegenden Objekten im Tiefenbild. Ein Führungsbild ist als eine der vier phasenverschobenen Amplituden definiert. Das beste Führungsbild wird aus den vier phasenverschobenen Amplitudenbildern ausgewählt, wobei ein Qualitätskriterium oder eine Kombination von Kriterien angewandt wird und zumindest der Kantenkontrast und das Bild-SRV berücksichtigt werden.
-
Ein weiterer Vorteil zumindest bei Ausgestaltungen ergibt sich aus dem Prozess des Führungsbilds zur Rauschreduzierung und zum Entfernen von Textur. Dieses Bild benötigt eine zweckbestimmte Verarbeitung
- a. zum Entfernen unerwünschter Artefakte, die in das korrigierte Tiefenbild übertragen werden könnten, und
- b. zur Reduzierung des Rauschens, während Objektränder erhalten bleiben.
-
Ein weiterer Vorteil zumindest bei Ausgestaltungen ergibt sich aus der Erfassung von Pixeln, die durch eine Bewegung oder Sättigung verfälscht sind. Es wird eine Metrik benutzt, um bei jedem Pixel des Tiefenbilds die Plausibilität dahingehend zu messen, ob es durch Bewegungsartefakte oder eine Sättigung verfälscht ist.
-
Ein weiterer Vorteil besteht darin, dass die Erfindung zumindest bei Ausgestaltungen einen Anstieg der Integrationszeit ermöglicht, d. h. der Zeitperiode für die Aufnahme der vier phasenverschobenen Bilder, um die Tiefengenauigkeit zu erhöhen. Dies wiederum könnte zu Bewegungsartefakten führen, die durch das Verfahren behandelt werden könnten.
-
Ein weiterer Vorteil besteht darin, dass die Erfindung zumindest bei Ausgestaltungen auch Verfahren zur Erhöhung der Tiefengenauigkeit anwendet, die auf einer Zeitfilterung basieren, d. h. Verfahren, bei denen mehrere Tiefenbilder kombiniert werden, um die Tiefengenauigkeit zu erhöhen. Nicht zueinander passende Tiefenpixel zwischen den kombinierten Tiefenbildern (bedingt durch sich bewegende Objekte) führen zu Tiefenbewegungsartefakten, die auch durch die Anwendung von Ausgestaltungen der Erfindung behandelt werden können.
-
Kurze Beschreibung der Zeichnungen
-
Es werden nun bevorzugte Ausgestaltungen der Erfindung beispielhaft anhand der begleitenden Zeichnungen beschrieben. Es zeigen:
-
1: (STAND DER TECHNIK) (a) eine schematische Grafik einer Objektbeleuchtung und Bildaufnahme, (b) Kurven der modulierten Signalstärke bei gesendeten (s(t)) und empfangenen (r(t)) Signalen und (c) die Abtastung an vier Zeitpunkten der Kreuzkorrelationsfunktion c(τ), die anhand der gesendeten (s(t)) und empfangenen (r(t)) Signale gemäß dem bekannten Arbeitsprinzip von TOF-Kameras berechnet wird;
-
2: schematisch die Architektur für die Verarbeitung von Signalen, die wie in 1 dargestellt gemäß einer Ausgestaltung der vorliegenden Erfindung erhalten wurden;
-
3: (a) das rohe Führungsbild (I) und (b) das verarbeitete (entrauschte) Führungsbild (I'), das mittels des Systems von 2 abgeleitet wurde; und
-
4: (a) das eingegebene Tiefenbild D und (b) das verarbeitete (resultierende) Tiefenbild D', das mittels des Systems von 2 abgeleitet wurde.
-
Beschreibung bevorzugter Ausgestaltungen
-
Die „Bilder” oder „Bildsignale” können in der hierin gebrauchten Bedeutung analog oder digital sein und einer herkömmlichen analogen oder digitalen Filterung unterzogen werden.
-
Dort, wo hierin auf Schritte, Rechenvorgänge oder Betätigungen Bezug genommen wird, die „Bilder” usw. betreffen, werden diese gegebenenfalls mittels Rechenvorgängen an elektronisch verarbeitbaren Darstellungen (z. B. aufgenommene Standbilder von Videoeinzelbildsignalen, Bitstrom-Videodaten, MPEG-Dateien oder Videostreams, PC-Video oder irgendein anderes aufnehm- oder betrachtbares Bilddatenformat) solcher „Bilder” implementiert.
-
Dort, wo hierin auf Schritte, Rechenvorgänge oder Betätigungen Bezug genommen wird, die „Bilder”, „Bildsignale” oder „Bilddaten” betreffen, werden diese gegebenenfalls mittels durch Software gesteuerter Prozessor-Rechenvorgänge, einer Hardware-Schaltungsanordnung oder irgendeiner geeigneten Kombination dieser implementiert.
-
Obwohl die vorliegende Erfindung entsprechend in einem Computersystem verkörpert ist, kann sie in einem Adapter, einem Bildprozessor oder einem beliebigen anderen Gerät enthalten sein, der bzw. das zwischen einer Bildquelle oder Bildaufnahmevorrichtung und einer Anzeigevorrichtung (z. B. LCD, Plasma, Projektor usw.) oder in der Anzeigevorrichtung selbst angeordnet ist oder die Bildquelle oder Bildaufnahmevorrichtung und die Anzeigevorrichtung enthält oder in der Anzeigevorrichtung selbst enthalten ist. Das Computersystem umfasst entsprechend einen Prozessor, der (gegebenenfalls über DAUs und ADWs oder andere Schnittstellen) an RAM, ROM, Speichergeräte, Bildaufnahme- und/oder Bildspeichergeräte, Anzeigetreiber und Anzeigevorrichtungen, datenkommunikations- und andere Peripheriegeräte gekoppelt ist, wie sie dem Fachmann weithin bekannt sind; diese werden demzufolge nicht weiter veranschaulicht oder besprochen.
-
Im Folgenden wird kurz das TOF-Arbeitsprinzip besprochen, um das Verständnis der vorliegenden Erfindung zu erleichtern.
-
Laufzeitprinzip
-
1(a) (STAND DER TECHNIK) zeigt eine schematische Grafik der Objektbeleuchtung und Bildaufnahme gemäß dem bekannten Arbeitsprinzip von TOF-Kameras.
-
Eine TOF-Kamera 102 umfasst ein modulationselement 104, das ein übertragenes bzw. gesendetes Signal s(t) erzeugt, das von einem optischen Emitter 106 als moduliertes NIR-Beleuchtungssignal 108 emittiert wird. Das NIR-Beleuchtungssignal 108 fällt auf ein Objekt 110 in einer zu erfassenden Szene ein, wobei das reflektierte optische Signal, das von dem Objekt 110 reflektiert wird, an einem Sensor (z. B. einer 2D-CCD-Anordnung) 112 als empfangenes Signal r(t) empfangen wird.
-
Ein ebenfalls in der TOF-Kamera 102 angeordnetes Phasenverzögerungselement 114 empfängt das gesendete Signal s(t) und wendet eine Phasenverzögerung an ihm an, so dass ein phasengesteuertes verzögertes Signal s(t + r) ausgegeben wird, wobei r eine Phasenverzögerung ist. Eine im Sensor 112 befindliche oder daran gekoppelte Verarbeitungsschaltungsanordnung (nicht dargestellt) berechnet anschließend auf der Grundlage des phasengesteuerten verzögerten Signals s(t + r) und des empfangenen Signals r(t) die Kreuzkorrelationsfunktion c(τ), die nachfolgend ausführlicher besprochen wird.
-
Wie in 1(a) dargestellt, stellen TOF-Kameras 102 auf Basis von Demodulations-Lock-in-Pixeln Abstandsmessungen anhand der Phasendifferenz zwischen gesendeten (s(t)) und empfangenen (r(t)) modulierten Signalen im nahen Infrarot (NIR-Signalen) bereit. Die Amplitude und die Phase des einfallenden modulierten empfangenen Signals r(t) werden durch synchrones Demodulieren des empfangenen Signals (r(t)) im Sensor/Detektor abgerufen.
-
1(b) (STAND DER TECHNIK) zeigt Kurven der modulierten Signalstärke bei gesendeten (s(t)) und empfangenen (r(t)) Signalen gemäß dem bekannten Arbeitsprinzip von TOF-Kameras. Es wird eine Kreuzkorrelation zwischen dem empfangenen (modulierten) Signal r(t) mit der Amplitude a und der Phase ϕ und dem emittierten modulierten Signal s(t) durchgeführt. Die Phase ϕ des empfangenen Signals (r(t)) kann ermittelt werden, indem die Messung der Kreuzkorrelationsfunktion c(τ)) an selektiv gewählten zeitlichen Positionen oder Phasen durchgeführt wird. Es wird davon ausgegangen, dass die Signale s(t) und r(t) sinusförmig sind und ausgedrückt werden können als s(t) = 1 + cos(ωt), r(t) = h + α·cos(ωt – φ) wobei ω = 2πfm die Winkelmodulationsfrequenz, fm die modulationsfrequenz und h das Hintergrundlicht plus der nichtmodulierte Teil des einfallenden Signals sind; die Wellenformen und ihre Verhältnisse sind in 1(b) dargestellt.
-
Die Kreuzkorrelationsfunktion c(τ)) wird wie folgt berechnet:
-
Es werden gewöhnlich drei oder mehr Abtastwerte von c(τ)) je modulierter Zeitperiode T benötigt, um die Phase ϕ und die Amplitude a des einfallenden Signals sowie den Versatz h eindeutig zu ermitteln. Bei hierin offenbarten Ausgestaltungen wird die so genannte „Methode mit vier Ausgängen” angewendet, bei welcher vier Abtastwerte (τ
k), k = 0, .., 3, die an vier Intervallen τ
k = k·
T / 4 = k/4f
m innerhalb einer modulierten Zeitperiode T erfasst werden.
1(c) (STAND DER TECHNIK) zeigt die Abtastung an vier Zeitpunkten der Kreuzkorrelationsfunktion c(τ)), die anhand der gesendeten (s(t)) und empfangenen (r(t)) Signale berechnet wird. Daraus ergibt sich:
-
Bei hierin offenbarten Ausgestaltungen werden vier statt drei Abtastwerten verwendet, um (i) die Robustheit gegenüber dem Rauschen zu verbessern, (ii) eine sehr symmetrische Konstruktion des Sensors zu ermöglichen, (iii) zu gewährleisten, dass die Phase bei der Erfassung unempfindlich gegen quadratische Nichtlinearitäten ist, und (iv) die Formeln für die Phase ϕ, die Amplitude a und den Versatz h zu vereinfachen.
-
Das Arbeitsprinzip von TOF-Kameras 102 auf der Grundlage von NIR-Licht löst die Abstandsberechnung aus vier phasenverschobenen Bildern auf. Im Idealfall würden die vier phasenverschobenen Bilder simultan aufgenommen, doch in der Praxis erfolgt die Aufnahme sequentiell. Dies wiederum kann wegen der Bewegung zu verfälschten Abstandsberechnungen in den Regionen mit nicht zueinander passenden rohen Phasenwerten führen – d. h. entlang Objekträndern und in inhomogenen Reflexionsflächen, die umso mehr auffallen, je schneller sich das Objekt bewegt, je näher das Objekt der TOF-Kamera 102 ist und je länger die Szene belichtet wird (längere Integrationszeit). Deshalb kann eine längere Integrationszeit für statische Szenen oder Szenen mit sich langsam bewegenden Objekten eingestellt werden, was die Tiefengenauigkeit erhöhen würde, wohingegen und trotz der Zunahme des Rauschens kürzere Integrationszeiten für hochdynamische Szenen mit sich schnell bewegenden Objekten eingestellt werden können, um Bewegungsartefakte zu vermeiden.
-
Die Abstandsmessungen d zum Objekt
110 in
1(a) werden erhalten aus
d = L / 2π·ϕ, wobei c ≅ 3·10
8 m/s die Lichtgeschwindigkeit und L der Arbeitsbereich oder Abstands-Eindeutigkeitsbereich der TOF-Kamera
102 sind, wobei:
-
Der Faktor 1/2 ist durch die Tatsache bedingt, dass das Licht zweimal den Abstand zwischen der Kamera 102 und dem erfassten Objekt 110 zurücklegt.
-
Wie es sich für den Fachmann versteht, enthält die TOF-Kamera
102 einen Bildsensor
112, dessen Größe der Kameraauflösung (m × n) entspricht. Somit wird jedes einzelne Pixel, das den Bildsensor
112 bildet, durch die Pixelposition (i, j) identifiziert, wobei i die Zeile und j die Spalte angeben. Jedes Pixel misst einen Abstand d
ij zu dem Objekt
110 (oder einem jeweiligen einzelnen Abschnitt davon). Infolgedessen stellt die TOF-Kamera
102 ein Abstandsbild bzw. Tiefenbild D zur Verfügung, das als
die Matrix aller Elemente d
ij, definiert ist.
-
Auf die gleiche Weise wird ein Amplitudenbild A als
definiert.
-
2 veranschaulicht schematisch die Architektur bzw. das System 200 zur Verarbeitung von Signalen, die, wie in 1 dargestellt, gemäß einer Ausgestaltung der vorliegenden Erfindung erhalten wurden. Die Verarbeitung kann irgendeines von Signalerzeugung, mathematischer Verarbeitung und Signal- und Parameterdarstellung beinhalten, wie es oben unter Bezugnahme auf 1 beschrieben wurde, außer dort, wo im Folgenden etwas anderes beschrieben wird.
-
Kurz zusammengefasst: aus Werten [c(τ0), c(τ1), c(τ2), c(τ3)] der Korrelationsfunktion c(τ)) wird das Tiefenbild D durch ein Tiefenbildmodul 204 abgeleitet, wobei das Tiefenbild D Werte umfasst, die für jedes Pixel davon einen Abstand zu einem Objekt repräsentiert, auf welches die gesendeten Signale einfallen. Ebenfalls basierend auf den Werten [c(τ0), c(τ1), c(τ2), c(τ3)] der Korrelationsfunktion c(τ) wird ein Führungsbild I durch ein Führungsbildmodul 206 erzeugt, und bei einer bevorzugten Ausgestaltung wird ein entrauschtes Führungsbild I' aus dem Führungsbild I an einem Führungsbild-Entrauschungsmodul 208 erzeugt (bei einer bevorzugten Ausgestaltung kann jedoch das Führungsbild I verwendet werden). Zum Schluss wird ein Ausgangsbild D' (verarbeitetes Tiefenbild) erzeugt und durch ein Bewegungsartefakt-Behandlungsmodul 210 basierend auf dem Tiefenbild D und dem Führungsbild I oder bevorzugter dem entrauschten Führungsbild I' ausgegeben. Bei einer weiteren bevorzugten Ausgestaltung erzeugt ein Plausibilitätsbild-Erzeugungsmodul 212 ein Plausibilitätsbild P; und das Ausgangsbild D' (das verarbeitete Tiefenbild) wird durch das Bewegungsartefakt-Behandlungsmodul 210 basierend auf (i) dem Tiefenbild D, (ii) dem Plausibilitätsbild P und (iii) dem Führungsbild I oder bevorzugter dem entrauschten Führungsbild I' erzeugt und ausgegeben.
-
Die Verarbeitung durch die verschiedenen Module in 2 wird nachfolgend ausführlicher besprochen.
-
Geführter Filter
-
In diesem Abschnitt werden der geführte Filter (GF) und angewendete Ausgestaltungen der Erfindung kurz besprochen: dieser wird verwendet, um (1) das Führungsbild im Entrauschungsmodul 208 zu entrauschen und (2) gültige Tiefenmessungen für die zuvor identifizierten verfälschten Tiefenpixel festzulegen, die durch Bewegungsartefakte bedingt sind.
-
Der GF ist bei einer bevorzugten Ausgestaltung ein neuer kantenerhaltender Glättungsfilter, der im Vergleich zu dem weithin benutzten bilateralen Filter ein besseres Verhalten nahe Kanten zeigt, wobei ein Hauptvorteil darin besteht, dass er unabhängig von der Kernelgröße und dem Intensitätsbereich ein schneller und nicht-approximativer linearer Zeitalgorithmus (O(N) Zeit) ist.
-
Wenn ein Tiefenbild D und ein Führungsbild I gegeben sind, werden die resultierende Kantenerhaltung von I und die geglättete Version von D, d. h. D', ausgedrückt als:
D'i = a lIi + b l, wobei
lineare Koeffizienten sind, die in w
k als konstant angenommen werden. I
k und σ
k 2 sind der Mittelwert bzw. die Varianz von I in w
k, |w| ist die Anzahl von Pixeln in w
k und ε ist ein Regularisierungsparameter, der ein großes a
k bestraft.
ist der Mittelwert von D in w
k.
-
Die Auswahl der Fenstergröße wk kann gemäß der Anwendung erfolgen: sie kann für eine Verbesserung von Bilddetails klein sein, um dünne Details zu verbessern, und sie kann für eine die Struktur übertragende Filterung größer sein. Der Glättungsgrad ist durch den Parameter ε gegeben.
-
Plausibilitätsbild
-
Alle Pixel der vier phasenverschobenen Bilder, die für die Abstandsberechnung erfasst wurden, sind Abtastwerte [c(τ0), c(τ1), c(τ2), c(τ3)] der Kreuzkorrelationsfunktion c(τ)) zwischen dem emittierten s(t) und empfangenen r(t) sinusförmig modulierten Signal, wie es in 1 dargestellt ist. Wenn eine Bewegung während dieser Zeitperiode der Erfassung auftritt, macht die zeitliche Abhängigkeit der Kreuzkorrelationsfunktion c(τ)) deren vermutete sinusförmige Beschaffenheit ungültig. Es wird sogar jeder Abtastwert auf einer anderen Sinuskurve lokalisiert, wodurch die Korrelation zwischen Abtastwerten aufgehoben wird.
-
Gemäß einer Ausgestaltung wird ein durch eine Bewegung beeinträchtigtes Pixel i durch die folgende Metrik identifiziert: pi = |c(τ1) – c(τ0) – c(τ2) + c(τ3)]/(a + α), wobei α ein Regularisierungsparameter ist, der einen hohen Wert von pi verhindert, wenn die Amplitude α niedrig ist.
-
Bei dieser Ausgestaltung wird eine Bewegung am Pixel i erfasst, wenn dessen Plausibilität größer als ein Schwellwert δ ist:
wobei δ ein Bewegungsschwellwert ist. Der Bewegungsschwellwert δ kann problemlos durch Aufnehmen einer leeren oder bewegungslosen Szene durch die TOF-Kamera
102 abgeleitet oder eingestellt werden.
-
Auswahl und Verarbeitung des Führungsbilds
-
Es wird ein Führungsbild I mit gut definierten und scharfen Kanten benötigt, um die Objektränder in D einzustellen, die durch die Bewegungsartefakte beeinträchtigt sind. Die Auswahl des Führungsbilds wird in dem Führungsbildmodul 206 von 2 durchgeführt.
-
Wenn hierin davon ausgegangen wird, dass die Bewegung während jeder Aufnahme des phasenverschobenen Bilds c(τ)
i) vernachlässigt werden kann, könnte ein beliebiges der vier phasenverschobenen Bilder als Führungsbild angesehen werden. Da jedoch jedes phasenverschobene Bild einer Abtastung der Kreuzkorrelationsfunktion c(τ)) zwischen den empfangenen (r(t)) und emittierten (s(t)) modulierten Signalen entspricht, hat das phasenverschobene Bild mit der maximalen Intensität das beste SRV und somit den besten Kontrast an Objekträndern. Demnach wird bei einer Ausgestaltung dann das phasenverschobene Bild mit der maximalen mittleren räumlichen Amplitude als Führungsbild I ausgewählt. Es wird vorzugsweise ein weiterer Schritt durchgeführt, um eine Übertragung des Rauschens von I auf das gefilterte D zu vermeiden. Dies bedeutet, dass das Führungsbild I mittels eines GF gefiltert wird, wobei das Führungsbild und das zu filternde Bild gleich sind, d. h.:
I'i = a lIi + b l, wobei
σ
k 2 die Varianz von I in w
k ist, |w| die Anzahl von Pixeln in w
k ist, ε ein Regularisierungsparameter ist, der ein großes a
k bestraft, und
der Mittelwert von I in w
k ist.
-
3 zeigt für ein Beispielbild (a) das rohe Führungsbild I und (b) das verarbeitete (entrauschte) Führungsbild I', das mittels des Führungsbildmoduls 206 des Systems von 2 abgeleitet wurde.
-
Algorithmus zur Unterdrückung von Tiefenbewegungsartefakten
-
Zurückkehrend zu
2, zeigt diese das Ablaufdiagramm des Verfahrens zur Bewegungsartefaktbehandlung und insbesondere zur Verwendung des Bewegungsartefakt-Behandlungsmoduls
210 bei einer Ausgestaltung. In Bezug auf die Verarbeitung bei dem Bewegungsartefakt-Behandlungsmodul
210 sind ein zweckbestimmter GF, der das Plausibilitätsbild P integriert, und die Verwendung des Führungsbilds I' wie folgt definiert:
D'i = a lI'i + b l, wobei
und
D
iP
i der Mittelwert von D in w
k gewichtet durch das Bild P ist, |w| die gleich bleibende Anzahl von Pixeln in dem am Pixel i zentrierten Fenster w
i ist,
die Anzahl von Pixeln in w
k ist, wobei die Plausibilität 1 ist, und
-
4 zeigt (a) das eingegebene Tiefenbild D und (b) das verarbeitete (resultierende) Tiefenbild D', das mittels des Systems von 2 für das Beispielbild von 3 abgeleitet wurde. Eine Verbesserung der Bildqualität (z. B. Schärfe, Kantendefinition, Rauschreduzierung) ist klar erkennbar.
-
Obwohl Ausgestaltungen anhand von Ausgestaltungen mit verschiedenen Komponenten in ihren jeweiligen Implementierungen beschrieben wurden, versteht es sich, dass bei anderen Ausgestaltungen andere Kombinationen und Umstellungen dieser und anderer Komponenten benutzt werden können.
-
Darüber hinaus werden einige der Ausgestaltungen hierin als ein Verfahren oder eine Kombination von Elementen eines Verfahrens beschrieben, das durch einen Prozessor eines Computersystems oder durch andere Mittel zur Durchführung der Funktion implementiert werden kann. Daher stellt ein Prozessor mit den erforderlichen Anweisungen für die Durchführung eines solchen Verfahrens oder Elements eines Verfahrens ein Mittel zur Durchführung des Verfahrens oder Elements eines Verfahrens dar. Außerdem ist ein hierin beschriebenes Element einer Vorrichtungsausgestaltung ein Beispiel für ein Mittel zur Durchführung der Funktion, die durch das Element zum Zwecke der Durchführung der Erfindung durchgeführt wird.
-
In der hierin bereitgestellten Beschreibung werden zahlreiche spezifische Einzelheiten dargelegt. Es versteht sich jedoch, dass Ausgestaltungen der Erfindung ohne diese spezifischen Einzelheiten praktisch angewendet werden können. In anderen Fällen wurden weithin bekannte Verfahren, Strukturen und Methoden nicht ausführlich gezeigt, um das Verständnis dieser Beschreibung nicht zu erschweren.
-
Obwohl das beschrieben wurde, was als die bevorzugten Ausgestaltungen der Erfindung angesehen wird, ist es daher für den Fachmann zu erkennen, dass andere und weitere Modifikationen daran vorgenommen werden können, ohne vom Schutzbereich der Erfindung abzuweichen, und alle derartigen Änderungen und Modifikationen sollen innerhalb des Schutzbereichs der Erfindung liegen. Beispielsweise repräsentieren beliebige Formeln, die vorstehend angegeben sind, lediglich Methoden, die angewendet werden können. Eine Funktionalität kann den Blockdiagrammen hinzugefügt oder daraus entfernt werden und Vorgänge können zwischen Funktionsblöcken ausgetauscht werden. Schritte können den Verfahren, die innerhalb des Schutzbereichs der vorliegenden Erfindung beschrieben sind, hinzugefügt oder daraus entfernt werden.